Jump to content

tf–idf

(Перенаправлено с TF-IDF )

При информации поиске tf-idf (также TF*IDF , TFIDF , TF-IDF или Tf-idf ), сокращение от термина частота – обратная частота документа , является мерой важности слова для документа в коллекции или корпусе. , с поправкой на то, что некоторые слова в целом встречаются чаще. [1] Как и модель «мешка слов», она моделирует документ как набор слов без порядка слов . Это усовершенствованная модель простого набора слов , позволяющая весу слов зависеть от остальной части корпуса.

Его часто использовали в качестве весового коэффициента при поиске информации, интеллектуальном анализе текста и моделировании пользователей . Опрос, проведенный в 2015 году, показал, что 83% текстовых рекомендательных систем в электронных библиотеках используют tf–idf. [2] Вариации схемы взвешивания tf–idf часто использовались поисковыми системами документа в качестве центрального инструмента оценки и ранжирования релевантности пользователя по запросу .

Одна из простейших функций ранжирования вычисляется путем суммирования tf–idf для каждого термина запроса; многие более сложные функции ранжирования являются вариантами этой простой модели.

Мотивации

[ редактировать ]

Карен Сперк Джонс (1972) предложила статистическую интерпретацию специфичности термина, названную «Обратная частота документов» (idf), которая стала краеугольным камнем взвешивания терминов: [3]

Специфика термина может быть определена количественно как обратная функция количества документов, в которых он встречается.

Например, df (частота документа) и idf для некоторых слов в 37 пьесах Шекспира таковы: [4]

Слово дф ИДФ
Ромео 1 1.57
салат 2 1.27
Фальстаф 4 0.967
лес 12 0.489
боевой 21 0.246
остроумие 34 0.037
дурак 36 0.012
хороший 37 0
сладкий 37 0

Мы видим, что « Ромео », « Фальстаф » и «Салат» появляются в очень немногих пьесах, поэтому, увидев эти слова, можно получить хорошее представление о том, какая это может быть пьеса. Напротив, слова «хороший» и «милый» появляются в каждой пьесе и совершенно неинформативны относительно того, какая это пьеса.

Определение

[ редактировать ]
  1. Tf–idf — это произведение двух статистических данных: частоты терминов и обратной частоты документов . Существуют различные способы определения точных значений обеих статистических данных.
  2. Формула, целью которой является определение важности ключевого слова или фразы в документе или веб-странице.
Варианты веса частоты термина (tf)
схема взвешивания тс вес
двоичный
необработанный подсчет
частота термина
нормализация журнала
двойная нормализация 0,5
двойная нормализация K

Периодичность термина

[ редактировать ]

Частота термина tf( t , d ) — это относительная частота термина t в документе d ,

,

где f t , d исходное количество терминов в документе, т. е. количество раз, когда термин t встречается в документе d . Обратите внимание, что знаменатель — это просто общее количество терминов в документе d (с учетом каждого появления одного и того же термина отдельно). Существуют и другие способы определения частоты термина: [5] : 128 

  • сам необработанный подсчет: tf( t , d ) = f t , d
  • Булевы «частоты»: tf( t , d ) = 1, если t встречается в d , и 0 в противном случае;
  • в логарифмическом масштабе частота : tf( t , d ) = log (1 + f t , d ) ; [6]
  • увеличенная частота, чтобы предотвратить смещение в сторону более длинных документов, например, необработанная частота, деленная на необработанную частоту наиболее часто встречающегося термина в документе:

Обратная частота документов

[ редактировать ]
Варианты обратного веса частоты документов (idf)
схема взвешивания вес IDF ( )
унарный 1
обратная частота документов
обратная частота документов, плавная
частота обратного документа макс.
вероятностная обратная частота документов

Обратная частота документов — это мера того, сколько информации содержит слово, т. е. насколько оно распространено или редко встречается во всех документах. Это логарифмическая обратная доля документов, содержащих слово (полученная путем деления общего количества документов на количество документов, содержащих этот термин, а затем логарифмирования этого частного):

с

  • : общее количество документов в корпусе
  • : количество документов, в которых указан термин появляется (т. ). Если термина нет в корпусе, это приведет к делению на ноль. Поэтому обычно корректируют числитель и знаменатель .
График различных обратных функций частоты документов: стандартный, гладкий, вероятностный.

Частота термина – обратная частота документов.

[ редактировать ]
Варианты весов частоты терминов, обратных частоте документов (tf – idf)
схема взвешивания tf-idf
счетчик-IDF
двойная нормализация-IDF
нормализация журнала-idf

Тогда tf–idf рассчитывается как

Высокий вес в tf–idf достигается за счет высокой частотности термина (в данном документе) и низкой документной частотности термина во всей совокупности документов; следовательно, веса имеют тенденцию отфильтровывать общие термины. Поскольку соотношение внутри функции журнала idf всегда больше или равно 1, значение idf (и tf – idf) больше или равно 0. По мере того, как термин появляется в большем количестве документов, соотношение внутри логарифма приближается к 1. , приближая IDF и tf–idf к 0.

Обоснование ИДФ

[ редактировать ]

Idf был введен Карен Сперк Джонс как «специфичность термина» в статье 1972 года. Хотя она хорошо зарекомендовала себя в качестве эвристики , ее теоретические основы вызывали затруднения в течение, по крайней мере, трех десятилетий после этого, и многие исследователи пытались найти для нее теоретические обоснования. [7]

Собственное объяснение Сперка Джонса не содержало особой теории, за исключением связи с законом Ципфа . [7] Были предприняты попытки поставить IDF на вероятностную основу. [8] оценивая вероятность того, что данный документ d содержит термин t, как относительную частоту документов,

чтобы мы могли определить IDF как

А именно, обратная частота документов представляет собой логарифм «обратной» относительной частоты документов.

Эта вероятностная интерпретация, в свою очередь, принимает ту же форму, что и самоинформация . Однако применение таких теоретико-информационных понятий к задачам поиска информации приводит к проблемам при попытке определить соответствующие пространства событий для требуемых распределений вероятностей : необходимо учитывать не только документы, но также запросы и термины. [7]

[ редактировать ]

Как частота терминов, так и обратная частота документов могут быть сформулированы в терминах теории информации ; это помогает понять, почему их продукт имеет значение с точки зрения общего информационного содержания документа. Характерное предположение о распределении это что:

По словам Айзавы, это предположение и его последствия: «представляют собой эвристику, которую использует tf–idf». [9]

Условная энтропия «случайно выбранного» документа в корпусе , при условии, что он содержит конкретный термин (и предполагая, что все документы имеют равную вероятность быть выбранными):

С точки зрения обозначений, и являются «случайными переменными», соответствующими соответственно рисованию документа или термина. Взаимную информацию можно выразить как

Последний шаг – расширение , безусловная вероятность нарисовать термин относительно (случайного) выбора документа, чтобы получить:

Это выражение показывает, что суммирование Tf–idf всех возможных терминов и документов восстанавливает взаимную информацию между документами и термином с учетом всех особенностей их совместного распространения. [9] Таким образом, каждый Tf–idf несет «бит информации», прикрепленный к паре термин x документ.

Пример tf–idf

[ редактировать ]

Предположим, что у нас есть таблицы подсчета терминов корпуса, состоящего только из двух документов, как указано справа.

Документ 2
Срок Количество терминов
этот 1
является 1
другой 2
пример 3
Документ 1
Срок Количество терминов
этот 1
является 1
а 2
образец 1

Расчет tf–idf для терма «это» выполняется следующим образом:

В своей необработанной частотной форме tf — это просто частота «это» для каждого документа. В каждом документе слово «это» встречается один раз; но поскольку в документе 2 больше слов, его относительная частота меньше.

IDF является постоянным для каждого корпуса и учитывает долю документов, содержащих слово «это». В данном случае у нас есть корпус из двух документов, и все они содержат слово «это».

Таким образом, tf–idf для слова «this» равен нулю, что означает, что это слово не очень информативно, как оно встречается во всех документах.

Слово «пример» более интересно — оно встречается трижды, но только во втором документе:

Окончательно,

(используя логарифм по основанию 10 ).

За рамками условий

[ редактировать ]

Идея tf-idf применима и к сущностям, отличным от терминов. В 1998 году к цитированию была применена концепция IDF. [10] Авторы утверждали, что «если очень необычная цитата является общей для двух документов, ей следует придавать более высокий вес, чем цитате, сделанной в большом количестве документов». Кроме того, tf–idf был применен к «визуальным словам» с целью проведения сопоставления объектов в видео, [11] и целые предложения. [12] Однако не во всех случаях концепция tf–idf оказалась более эффективной, чем простая схема tf (без idf). Когда tf-idf был применен к цитированию, исследователи не смогли найти никаких улучшений по сравнению с простым весом подсчета цитирований, который не имел компонента idf. [13]

Производные

[ редактировать ]

Ряд схем взвешивания терминов основан на tf –idf. Один из них — TF–PDF (частота термина * пропорциональная частота документов). [14] TF-PDF был представлен в 2001 году в контексте выявления новых тем в средствах массовой информации. Компонент PDF измеряет разницу в том, как часто термин встречается в разных доменах. Другое производное — TF–IDuF. В ТФ–ИДуФ, [15] idf не рассчитывается на основе корпуса документов, который необходимо найти или рекомендовать. Вместо этого IDF рассчитывается на основе коллекций личных документов пользователей. Авторы сообщают, что TF-IDuF был столь же эффективен, как и tf-idf, но также мог применяться в ситуациях, когда, например, система моделирования пользователей не имеет доступа к глобальному корпусу документов.

См. также

[ редактировать ]
  1. ^ Раджараман, А.; Ульман, JD (2011). «Интеллектуальный анализ данных» (PDF) . Интеллектуальный анализ массивных наборов данных . стр. 1–17. дои : 10.1017/CBO9781139058452.002 . ISBN  978-1-139-05845-2 .
  2. ^ Брайтингер, Коринна; Гипп, Бела; Лангер, Стефан (26 июля 2015 г.). «Системы рекомендаций научных работ: обзор литературы» . Международный журнал цифровых библиотек . 17 (4): 305–338. дои : 10.1007/s00799-015-0156-0 . ISSN   1432-5012 . S2CID   207035184 .
  3. ^ Сперк Джонс, К. (1972). «Статистическая интерпретация специфичности термина и ее применение в поиске». Журнал документации . 28 (1): 11–21. CiteSeerX   10.1.1.115.8343 . дои : 10.1108/eb026526 . S2CID   2996187 .
  4. ^ Обработка речи и языка (3-е изд. черновик), Дэн Джурафски и Джеймс Х. Мартин, глава 14. https://web.stanford.edu/~jurafsky/slp3/14.pdf
  5. ^ Мэннинг, CD; Рагхаван, П.; Шутце, Х. (2008). «Оценка, взвешивание терминов и модель векторного пространства» (PDF) . Введение в поиск информации . п. 100. дои : 10.1017/CBO9780511809071.007 . ISBN  978-0-511-80907-1 .
  6. ^ «Статистика TFIDF | SAX-VSM» .
  7. ^ Перейти обратно: а б с Робертсон, С. (2004). «Понимание обратной частоты документов: теоретические аргументы в пользу IDF». Журнал документации . 60 (5): 503–520. дои : 10.1108/00220410410560582 .
  8. ^ См. также «Оценки вероятности на практике» в разделе «Введение в поиск информации» .
  9. ^ Перейти обратно: а б Айзава, Акико (2003). «Теоретико-информационный взгляд на меры TF – IDF». Обработка информации и управление . 39 (1): 45–65. дои : 10.1016/S0306-4573(02)00021-3 . S2CID   45793141 .
  10. ^ Боллакер, Курт Д.; Лоуренс, Стив; Джайлз, К. Ли (1 января 1998 г.). «ЦитеСир». Материалы второй международной конференции по автономным агентам-АГЕНТЫ'98 . стр. 116–123. дои : 10.1145/280765.280786 . ISBN  978-0-89791-983-8 . S2CID   3526393 .
  11. ^ Сивич, Йозеф; Зиссерман, Эндрю (1 января 2003 г.). «Видео Google: подход к поиску текста для сопоставления объектов в видео». Материалы девятой международной конференции IEEE по компьютерному зрению . ICCV '03. стр. 1470–. дои : 10.1109/ICCV.2003.1238663 . ISBN  978-0-7695-1950-0 . S2CID   14457153 .
  12. ^ Секи, Йохей. «Извлечение предложений с помощью tf/idf и взвешивание позиций из газетных статей» (PDF) . Национальный институт информатики.
  13. ^ Бил, Джоран; Брайтингер, Коринна (2017). «Оценка схемы взвешивания цитирования CC-IDF – насколько эффективно можно применять «обратную частоту документов» (IDF) к ссылкам?» (PDF) . Материалы 12-й конференции . Архивировано из оригинала (PDF) 22 сентября 2020 г. Проверено 29 января 2017 г.
  14. ^ Кху Кхё Бун; Бун, Кху Хё; Исидзука, М. (2001). «Новая система отслеживания тем». Материалы третьего международного семинара по перспективным проблемам электронной коммерции и информационных веб-систем. ВЕКВИС 2001 . стр. 2–11. CiteSeerX   10.1.1.16.7986 . дои : 10.1109/wecwis.2001.933900 . ISBN  978-0-7695-1224-2 . S2CID   1049263 .
  15. ^ Лангер, Стефан; Гипп, Бела (2017). «TF-IDuF: новая схема взвешивания терминов для моделирования пользователей на основе коллекций личных документов пользователей» (PDF) . IКонференция .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d6d5fe7fca036f0e7a4d8725cdbc5e2a__1722019680
URL1:https://arc.ask3.ru/arc/aa/d6/2a/d6d5fe7fca036f0e7a4d8725cdbc5e2a.html
Заголовок, (Title) документа по адресу, URL1:
tf–idf - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)