Стоп-слово
Стоп-слова — это слова в стоп-списке (или стоп-списке , или отрицательном словаре ), которые отфильтровываются (т. е. останавливаются) до или после обработки данных естественного языка (текста), поскольку они считаются незначительными. [ 1 ] Не существует ни единого универсального списка стоп-слов, используемого всеми инструментами обработки естественного языка , ни каких-либо согласованных правил идентификации стоп-слов, и, более того, не все инструменты даже используют такой список. Поэтому в качестве стоп-слов для той или иной цели можно выбрать любую группу слов. «Общая тенденция в системах [поиска информации] с течением времени заключалась в переходе от стандартного использования довольно больших стоп-списков (200–300 терминов) к очень маленьким стоп-листам (7–12 терминов) и к полному отсутствию стоп-списков». [ 2 ]
История стоп-слов
[ редактировать ]использовалась концепция-предшественник При создании некоторых симфоний . Например, первое еврейское созвучие , Исаака Натана бен Калонимуса » «Меир Натив , содержало одностраничный список неиндексированных слов с неосновными предлогами и союзами, которые похожи на современные стоп-слова. [ 3 ]
Гансу Петеру Луну , одному из пионеров в области поиска информации , приписывают создание этой фразы и использование этой концепции при внедрении процесса автоматического индексирования «ключевое слово в контексте». [ 4 ] Фраза «стоп-слово», которой нет в презентации Луна 1959 года, и связанные с ней термины «стоп-список» и «стоп-лист» появляются в литературе вскоре после этого. [ 5 ]
Хотя обычно считается, что стоп-листы включают только наиболее часто встречающиеся слова в языке, именно К. Дж. Ван Рейсберген предложил первый стандартизированный список, который не был основан на информации о частоте слов. «Список Ванов» включал 250 английских слов. Программа определения слов Мартина Портера, разработанная в 1980-х годах, основана на списке Ван, и список Портера теперь широко используется в качестве стоп-листа по умолчанию в различных программных приложениях.
В 1990 году Кристофер Фокс предложил первый общий стоп-лист, основанный на эмпирической информации о частоте слов, полученной из Корпуса Браунов:
В этой статье сообщается об эксперименте по созданию стоп-листа для общего текста на основе корпуса Брауна из 1 014 000 слов, взятого из широкого спектра литературы на английском языке. Начнем со списка токенов, встречающихся в корпусе Брауна более 300 раз. Из этого списка из 278 слов 32 исключены на том основании, что они слишком важны в качестве потенциальных индексных терминов. Затем к списку добавляются двадцать шесть слов, полагая, что они могут очень часто встречаться в определенных видах литературы. Наконец, в список добавляются 149 слов, поскольку фильтр на основе конечного автомата, в котором предназначен этот список, способен фильтровать их практически бесплатно. Конечный продукт представляет собой список из 421 стоп-слова, который должен быть максимально эффективным и действенным при фильтрации наиболее часто встречающихся и семантически нейтральных слов в общей литературе на английском языке. [ 6 ]
В терминологии SEO стоп-слова — это наиболее распространенные слова, которых многие поисковые системы избегают в целях экономии места и времени при обработке больших данных во время сканирования или индексирования .
Для некоторых поисковых систем это одни из наиболее распространенных коротких служебных слов , например the , is , at , that и on . В этом случае стоп-слова могут вызвать проблемы при поиске фраз, включающих их, особенно в таких именах, как « The Who », « The The » или « Take That ». Другие поисковые системы удаляют из запроса некоторые наиболее распространенные слова, включая лексические слова , такие как «хочу», чтобы повысить производительность. [ 7 ]
В последние годы лучшие практики SEO в отношении стоп-слов развивались вместе с областями машинного обучения и обработки естественного языка . В феврале 2021 года Джон Мюллер, аналитик тенденций для веб-мастеров в Google, написал в Твиттере: «Я бы вообще не беспокоился о стоп-словах; пишите естественно. Поисковые системы смотрят на гораздо больше, чем на отдельные слова. « Быть или не быть » just — это набор стоп-слов, но сами по себе стоп-слова не воздают ему должного». [ 8 ] [ 9 ]
См. также
[ редактировать ]- Концепция майнинга
- Филлер (лингвистика)
- Индекс (поисковик)
- Извлечение информации
- Расширение запроса
- Стемминг
- Анализ текста
Ссылки
[ редактировать ]- ^ Раджараман, А.; Ульман, JD (2011). «Интеллектуальный анализ данных» (PDF) . Интеллектуальный анализ огромных наборов данных . стр. 1–17. дои : 10.1017/CBO9781139058452.002 . ISBN 9781139058452 .
- ^ Кристофер Д. Мэннинг, Прабхакар Рагхаван, Хинрих Шютце (2008). Введение в поиск информации . Издательство Кембриджского университета. п. 27.
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Вайнберг, Белла Хасс (2004). «Предшественники научных структур индексации в сфере религии» (PDF) . Вторая конференция по истории и наследию научно-технических информационных систем : 126–134. Архивировано из оригинала (PDF) 3 января 2016 года . Проверено 17 февраля 2016 г.
- ^ Лун, HP (1959). «Указатель ключевых слов в контексте технической литературы (Индекс KWIC)». Американская документация . 11 (4). Йорктаун-Хайтс, Нью-Йорк: International Business Machines Corp.: 288–295. дои : 10.1002/asi.5090110403 .
- ^ Флуд, Барбара Дж. (1999). «Историческая справка: начало стоп-листа в Biological Abstracts». Журнал Американского общества информатики . 50 (12): 1066. doi : 10.1002/(SICI)1097-4571(1999)50:12<1066::AID-ASI5>3.0.CO;2-A .
- ^ Фокс, Кристофер (1 сентября 1989 г.). «Стоп-лист для общего текста» . Форум ACM SIGIR . 24 (1–2): 19–21. дои : 10.1145/378881.378888 . ISSN 0163-5840 . S2CID 20240000 .
- ^ Stackoverflow : «Одной из наших основных оптимизаций производительности запроса «связанные вопросы» является удаление 10 000 наиболее распространенных слов английского словаря (согласно поиску Google) перед отправкой запроса в полнотекстовый механизм SQL Server 2008. Шокирует, как от большинства сообщений мало что останется, если вы удалите 10 тысяч самых популярных слов из английского словаря. Это помогает ограничить и сузить возвращаемые результаты, что значительно ускоряет запрос.
- ^ «Google: перестаньте беспокоиться о стоп-словах, просто пишите естественно» . seroundtable.com . Проверено 15 июля 2022 г.
- ^ Джон, Мюллер (6 февраля 2021 г.). «Джон Мюллер о стоп-словах в 2021 году: «Я бы вообще не беспокоился о стоп-словах» » . Твиттер . Проверено 15 июля 2022 г.