Jump to content

Стоп-слово

(Перенаправлено из Стоп-листа )

Стоп-слова — это слова в стоп-списке (или стоп-списке , или отрицательном словаре ), которые отфильтровываются (т. е. останавливаются) до или после обработки данных естественного языка (текста), поскольку они считаются незначительными. [ 1 ] Не существует ни единого универсального списка стоп-слов, используемого всеми инструментами обработки естественного языка , ни каких-либо согласованных правил идентификации стоп-слов, и, более того, не все инструменты даже используют такой список. Поэтому в качестве стоп-слов для той или иной цели можно выбрать любую группу слов. «Общая тенденция в системах [поиска информации] с течением времени заключалась в переходе от стандартного использования довольно больших стоп-списков (200–300 терминов) к очень маленьким стоп-листам (7–12 терминов) и к полному отсутствию стоп-списков». [ 2 ]

История стоп-слов

[ редактировать ]

использовалась концепция-предшественник При создании некоторых симфоний . Например, первое еврейское созвучие , Исаака Натана бен Калонимуса » «Меир Натив , содержало одностраничный список неиндексированных слов с неосновными предлогами и союзами, которые похожи на современные стоп-слова. [ 3 ]

Гансу Петеру Луну , одному из пионеров в области поиска информации , приписывают создание этой фразы и использование этой концепции при внедрении процесса автоматического индексирования «ключевое слово в контексте». [ 4 ] Фраза «стоп-слово», которой нет в презентации Луна 1959 года, и связанные с ней термины «стоп-список» и «стоп-лист» появляются в литературе вскоре после этого. [ 5 ]

Хотя обычно считается, что стоп-листы включают только наиболее часто встречающиеся слова в языке, именно К. Дж. Ван Рейсберген предложил первый стандартизированный список, который не был основан на информации о частоте слов. «Список Ванов» включал 250 английских слов. Программа определения слов Мартина Портера, разработанная в 1980-х годах, основана на списке Ван, и список Портера теперь широко используется в качестве стоп-листа по умолчанию в различных программных приложениях.

В 1990 году Кристофер Фокс предложил первый общий стоп-лист, основанный на эмпирической информации о частоте слов, полученной из Корпуса Браунов:

В этой статье сообщается об эксперименте по созданию стоп-листа для общего текста на основе корпуса Брауна из 1 014 000 слов, взятого из широкого спектра литературы на английском языке. Начнем со списка токенов, встречающихся в корпусе Брауна более 300 раз. Из этого списка из 278 слов 32 исключены на том основании, что они слишком важны в качестве потенциальных индексных терминов. Затем к списку добавляются двадцать шесть слов, полагая, что они могут очень часто встречаться в определенных видах литературы. Наконец, в список добавляются 149 слов, поскольку фильтр на основе конечного автомата, в котором предназначен этот список, способен фильтровать их практически бесплатно. Конечный продукт представляет собой список из 421 стоп-слова, который должен быть максимально эффективным и действенным при фильтрации наиболее часто встречающихся и семантически нейтральных слов в общей литературе на английском языке. [ 6 ]

В терминологии SEO стоп-слова — это наиболее распространенные слова, которых многие поисковые системы избегают в целях экономии места и времени при обработке больших данных во время сканирования или индексирования .

Для некоторых поисковых систем это одни из наиболее распространенных коротких служебных слов , например the , is , at , that и on . В этом случае стоп-слова могут вызвать проблемы при поиске фраз, включающих их, особенно в таких именах, как « The Who », « The The » или « Take That ». Другие поисковые системы удаляют из запроса некоторые наиболее распространенные слова, включая лексические слова , такие как «хочу», чтобы повысить производительность. [ 7 ]

В последние годы лучшие практики SEO в отношении стоп-слов развивались вместе с областями машинного обучения и обработки естественного языка . В феврале 2021 года Джон Мюллер, аналитик тенденций для веб-мастеров в Google, написал в Твиттере: «Я бы вообще не беспокоился о стоп-словах; пишите естественно. Поисковые системы смотрят на гораздо больше, чем на отдельные слова. « Быть ​​или не быть » just — это набор стоп-слов, но сами по себе стоп-слова не воздают ему должного». [ 8 ] [ 9 ]

См. также

[ редактировать ]
  1. ^ Раджараман, А.; Ульман, JD (2011). «Интеллектуальный анализ данных» (PDF) . Интеллектуальный анализ огромных наборов данных . стр. 1–17. дои : 10.1017/CBO9781139058452.002 . ISBN  9781139058452 .
  2. ^ Кристофер Д. Мэннинг, Прабхакар Рагхаван, Хинрих Шютце (2008). Введение в поиск информации . Издательство Кембриджского университета. п. 27. {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  3. ^ Вайнберг, Белла Хасс (2004). «Предшественники научных структур индексации в сфере религии» (PDF) . Вторая конференция по истории и наследию научно-технических информационных систем : 126–134. Архивировано из оригинала (PDF) 3 января 2016 года . Проверено 17 февраля 2016 г.
  4. ^ Лун, HP (1959). «Указатель ключевых слов в контексте технической литературы (Индекс KWIC)». Американская документация . 11 (4). Йорктаун-Хайтс, Нью-Йорк: International Business Machines Corp.: 288–295. дои : 10.1002/asi.5090110403 .
  5. ^ Флуд, Барбара Дж. (1999). «Историческая справка: начало стоп-листа в Biological Abstracts». Журнал Американского общества информатики . 50 (12): 1066. doi : 10.1002/(SICI)1097-4571(1999)50:12<1066::AID-ASI5>3.0.CO;2-A .
  6. ^ Фокс, Кристофер (1 сентября 1989 г.). «Стоп-лист для общего текста» . Форум ACM SIGIR . 24 (1–2): 19–21. дои : 10.1145/378881.378888 . ISSN   0163-5840 . S2CID   20240000 .
  7. ^ Stackoverflow : «Одной из наших основных оптимизаций производительности запроса «связанные вопросы» является удаление 10 000 наиболее распространенных слов английского словаря (согласно поиску Google) перед отправкой запроса в полнотекстовый механизм SQL Server 2008. Шокирует, как от большинства сообщений мало что останется, если вы удалите 10 тысяч самых популярных слов из английского словаря. Это помогает ограничить и сузить возвращаемые результаты, что значительно ускоряет запрос.
  8. ^ «Google: перестаньте беспокоиться о стоп-словах, просто пишите естественно» . seroundtable.com . Проверено 15 июля 2022 г.
  9. ^ Джон, Мюллер (6 февраля 2021 г.). «Джон Мюллер о стоп-словах в 2021 году: «Я бы вообще не беспокоился о стоп-словах» » . Твиттер . Проверено 15 июля 2022 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a7cb0141ab58d14437c31228757f3696__1722239580
URL1:https://arc.ask3.ru/arc/aa/a7/96/a7cb0141ab58d14437c31228757f3696.html
Заголовок, (Title) документа по адресу, URL1:
Stop word - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)