tf–idf
При информации поиске tf-idf (также TF*IDF , TFIDF , TF-IDF или Tf-idf ), сокращение от термина частота – обратная частота документа , является мерой важности слова для документа в коллекции или корпусе. , с поправкой на то, что некоторые слова в целом встречаются чаще. [1] Как и модель «мешка слов», она моделирует документ как набор слов без порядка слов . Это усовершенствованная модель простого набора слов , позволяющая весу слов зависеть от остальной части корпуса.
Его часто использовали в качестве весового коэффициента при поиске информации, интеллектуальном анализе текста и моделировании пользователей . Опрос, проведенный в 2015 году, показал, что 83% текстовых рекомендательных систем в электронных библиотеках используют tf–idf. [2] Вариации схемы взвешивания tf–idf часто использовались поисковыми системами документа в качестве центрального инструмента оценки и ранжирования релевантности пользователя по запросу .
Одна из простейших функций ранжирования вычисляется путем суммирования tf–idf для каждого термина запроса; многие более сложные функции ранжирования являются вариантами этой простой модели.
Мотивации
[ редактировать ]Карен Сперк Джонс (1972) предложила статистическую интерпретацию специфичности термина, названную «Обратная частота документов» (idf), которая стала краеугольным камнем взвешивания терминов: [3]
Специфика термина может быть определена количественно как обратная функция количества документов, в которых он встречается.
Например, df (частота документа) и idf для некоторых слов в 37 пьесах Шекспира таковы: [4]
Слово | дф | ИДФ |
---|---|---|
Ромео | 1 | 1.57 |
салат | 2 | 1.27 |
Фальстаф | 4 | 0.967 |
лес | 12 | 0.489 |
боевой | 21 | 0.246 |
остроумие | 34 | 0.037 |
дурак | 36 | 0.012 |
хороший | 37 | 0 |
сладкий | 37 | 0 |
Мы видим, что « Ромео », « Фальстаф » и «Салат» появляются в очень немногих пьесах, поэтому, увидев эти слова, можно получить хорошее представление о том, какая это может быть пьеса. Напротив, слова «хороший» и «милый» появляются в каждой пьесе и совершенно неинформативны относительно того, какая это пьеса.
Определение
[ редактировать ]- Tf–idf — это произведение двух статистических данных: частоты терминов и обратной частоты документов . Существуют различные способы определения точных значений обеих статистических данных.
- Формула, целью которой является определение важности ключевого слова или фразы в документе или веб-странице.
схема взвешивания | тс вес |
---|---|
двоичный | |
необработанный подсчет | |
частота термина | |
нормализация журнала | |
двойная нормализация 0,5 | |
двойная нормализация K |
Периодичность термина
[ редактировать ]Частота термина tf( t , d ) — это относительная частота термина t в документе d ,
- ,
где f t , d — исходное количество терминов в документе, т. е. количество раз, когда термин t встречается в документе d . Обратите внимание, что знаменатель — это просто общее количество терминов в документе d (с учетом каждого появления одного и того же термина отдельно). Существуют и другие способы определения частоты термина: [5] : 128
- сам необработанный подсчет: tf( t , d ) = f t , d
- Булевы «частоты»: tf( t , d ) = 1, если t встречается в d , и 0 в противном случае;
- в логарифмическом масштабе частота : tf( t , d ) = log (1 + f t , d ) ; [6]
- увеличенная частота, чтобы предотвратить смещение в сторону более длинных документов, например, необработанная частота, деленная на необработанную частоту наиболее часто встречающегося термина в документе:
Обратная частота документов
[ редактировать ]схема взвешивания | вес IDF ( ) |
---|---|
унарный | 1 |
обратная частота документов | |
обратная частота документов, плавная | |
частота обратного документа макс. | |
вероятностная обратная частота документов |
Обратная частота документов — это мера того, сколько информации содержит слово, т. е. насколько оно распространено или редко встречается во всех документах. Это логарифмическая обратная доля документов, содержащих слово (полученная путем деления общего количества документов на количество документов, содержащих этот термин, а затем логарифмирования этого частного):
с
- : общее количество документов в корпусе
- : количество документов, в которых указан термин появляется (т. ). Если термина нет в корпусе, это приведет к делению на ноль. Поэтому обычно корректируют числитель и знаменатель .
Частота термина – обратная частота документов.
[ редактировать ]схема взвешивания | tf-idf |
---|---|
счетчик-IDF | |
двойная нормализация-IDF | |
нормализация журнала-idf |
Тогда tf–idf рассчитывается как
Высокий вес в tf–idf достигается за счет высокой частотности термина (в данном документе) и низкой документной частотности термина во всей совокупности документов; следовательно, веса имеют тенденцию отфильтровывать общие термины. Поскольку соотношение внутри функции журнала idf всегда больше или равно 1, значение idf (и tf – idf) больше или равно 0. По мере того, как термин появляется в большем количестве документов, соотношение внутри логарифма приближается к 1. , приближая IDF и tf–idf к 0.
Обоснование ИДФ
[ редактировать ]Idf был введен Карен Сперк Джонс как «специфичность термина» в статье 1972 года. Хотя она хорошо зарекомендовала себя в качестве эвристики , ее теоретические основы вызывали затруднения в течение, по крайней мере, трех десятилетий после этого, и многие исследователи пытались найти для нее теоретические обоснования. [7]
Собственное объяснение Сперка Джонса не содержало особой теории, за исключением связи с законом Ципфа . [7] Были предприняты попытки поставить IDF на вероятностную основу. [8] оценивая вероятность того, что данный документ d содержит термин t, как относительную частоту документов,
чтобы мы могли определить IDF как
А именно, обратная частота документов представляет собой логарифм «обратной» относительной частоты документов.
Эта вероятностная интерпретация, в свою очередь, принимает ту же форму, что и самоинформация . Однако применение таких теоретико-информационных понятий к задачам поиска информации приводит к проблемам при попытке определить соответствующие пространства событий для требуемых распределений вероятностей : необходимо учитывать не только документы, но также запросы и термины. [7]
Связь с теорией информации
[ редактировать ]Как частота терминов, так и обратная частота документов могут быть сформулированы в терминах теории информации ; это помогает понять, почему их продукт имеет значение с точки зрения общего информационного содержания документа. Характерное предположение о распределении это что:
По словам Айзавы, это предположение и его последствия: «представляют собой эвристику, которую использует tf–idf». [9]
Условная энтропия «случайно выбранного» документа в корпусе , при условии, что он содержит конкретный термин (и предполагая, что все документы имеют равную вероятность быть выбранными):
С точки зрения обозначений, и являются «случайными переменными», соответствующими соответственно рисованию документа или термина. Взаимную информацию можно выразить как
Последний шаг – расширение , безусловная вероятность нарисовать термин относительно (случайного) выбора документа, чтобы получить:
Это выражение показывает, что суммирование Tf–idf всех возможных терминов и документов восстанавливает взаимную информацию между документами и термином с учетом всех особенностей их совместного распространения. [9] Таким образом, каждый Tf–idf несет «бит информации», прикрепленный к паре термин x документ.
Пример tf–idf
[ редактировать ]Предположим, что у нас есть таблицы подсчета терминов корпуса, состоящего только из двух документов, как указано справа.
Срок | Количество терминов |
---|---|
этот | 1 |
является | 1 |
другой | 2 |
пример | 3 |
Срок | Количество терминов |
---|---|
этот | 1 |
является | 1 |
а | 2 |
образец | 1 |
Расчет tf–idf для терма «это» выполняется следующим образом:
В своей необработанной частотной форме tf — это просто частота «это» для каждого документа. В каждом документе слово «это» встречается один раз; но поскольку в документе 2 больше слов, его относительная частота меньше.
IDF является постоянным для каждого корпуса и учитывает долю документов, содержащих слово «это». В данном случае у нас есть корпус из двух документов, и все они содержат слово «это».
Таким образом, tf–idf для слова «this» равен нулю, что означает, что это слово не очень информативно, как оно встречается во всех документах.
Слово «пример» более интересно — оно встречается трижды, но только во втором документе:
Окончательно,
(используя логарифм по основанию 10 ).
За рамками условий
[ редактировать ]Идея tf-idf применима и к сущностям, отличным от терминов. В 1998 году к цитированию была применена концепция IDF. [10] Авторы утверждали, что «если очень необычная цитата является общей для двух документов, ей следует придавать более высокий вес, чем цитате, сделанной в большом количестве документов». Кроме того, tf–idf был применен к «визуальным словам» с целью проведения сопоставления объектов в видео, [11] и целые предложения. [12] Однако не во всех случаях концепция tf–idf оказалась более эффективной, чем простая схема tf (без idf). Когда tf-idf был применен к цитированию, исследователи не смогли найти никаких улучшений по сравнению с простым весом подсчета цитирований, который не имел компонента idf. [13]
Производные
[ редактировать ]Ряд схем взвешивания терминов основан на tf –idf. Один из них — TF–PDF (частота термина * пропорциональная частота документов). [14] TF-PDF был представлен в 2001 году в контексте выявления новых тем в средствах массовой информации. Компонент PDF измеряет разницу в том, как часто термин встречается в разных доменах. Другое производное — TF–IDuF. В ТФ–ИДуФ, [15] idf не рассчитывается на основе корпуса документов, который необходимо найти или рекомендовать. Вместо этого IDF рассчитывается на основе коллекций личных документов пользователей. Авторы сообщают, что TF-IDuF был столь же эффективен, как и tf-idf, но также мог применяться в ситуациях, когда, например, система моделирования пользователей не имеет доступа к глобальному корпусу документов.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Раджараман, А.; Ульман, JD (2011). «Интеллектуальный анализ данных» (PDF) . Интеллектуальный анализ массивных наборов данных . стр. 1–17. дои : 10.1017/CBO9781139058452.002 . ISBN 978-1-139-05845-2 .
- ^ Брайтингер, Коринна; Гипп, Бела; Лангер, Стефан (26 июля 2015 г.). «Системы рекомендаций научных работ: обзор литературы» . Международный журнал цифровых библиотек . 17 (4): 305–338. дои : 10.1007/s00799-015-0156-0 . ISSN 1432-5012 . S2CID 207035184 .
- ^ Сперк Джонс, К. (1972). «Статистическая интерпретация специфичности термина и ее применение в поиске». Журнал документации . 28 (1): 11–21. CiteSeerX 10.1.1.115.8343 . дои : 10.1108/eb026526 . S2CID 2996187 .
- ^ Обработка речи и языка (3-е изд. черновик), Дэн Джурафски и Джеймс Х. Мартин, глава 14. https://web.stanford.edu/~jurafsky/slp3/14.pdf
- ^ Мэннинг, CD; Рагхаван, П.; Шутце, Х. (2008). «Оценка, взвешивание терминов и модель векторного пространства» (PDF) . Введение в поиск информации . п. 100. дои : 10.1017/CBO9780511809071.007 . ISBN 978-0-511-80907-1 .
- ^ «Статистика TFIDF | SAX-VSM» .
- ^ Перейти обратно: а б с Робертсон, С. (2004). «Понимание обратной частоты документов: теоретические аргументы в пользу IDF». Журнал документации . 60 (5): 503–520. дои : 10.1108/00220410410560582 .
- ^ См. также «Оценки вероятности на практике» в разделе «Введение в поиск информации» .
- ^ Перейти обратно: а б Айзава, Акико (2003). «Теоретико-информационный взгляд на меры TF – IDF». Обработка информации и управление . 39 (1): 45–65. дои : 10.1016/S0306-4573(02)00021-3 . S2CID 45793141 .
- ^ Боллакер, Курт Д.; Лоуренс, Стив; Джайлз, К. Ли (1 января 1998 г.). «ЦитеСир». Материалы второй международной конференции по автономным агентам-АГЕНТЫ'98 . стр. 116–123. дои : 10.1145/280765.280786 . ISBN 978-0-89791-983-8 . S2CID 3526393 .
- ^ Сивич, Йозеф; Зиссерман, Эндрю (1 января 2003 г.). «Видео Google: подход к поиску текста для сопоставления объектов в видео». Материалы девятой международной конференции IEEE по компьютерному зрению . ICCV '03. стр. 1470–. дои : 10.1109/ICCV.2003.1238663 . ISBN 978-0-7695-1950-0 . S2CID 14457153 .
- ^ Секи, Йохей. «Извлечение предложений с помощью tf/idf и взвешивание позиций из газетных статей» (PDF) . Национальный институт информатики.
- ^ Бил, Джоран; Брайтингер, Коринна (2017). «Оценка схемы взвешивания цитирования CC-IDF – насколько эффективно можно применять «обратную частоту документов» (IDF) к ссылкам?» (PDF) . Материалы 12-й конференции . Архивировано из оригинала (PDF) 22 сентября 2020 г. Проверено 29 января 2017 г.
- ^ Кху Кхё Бун; Бун, Кху Хё; Исидзука, М. (2001). «Новая система отслеживания тем». Материалы третьего международного семинара по перспективным проблемам электронной коммерции и информационных веб-систем. ВЕКВИС 2001 . стр. 2–11. CiteSeerX 10.1.1.16.7986 . дои : 10.1109/wecwis.2001.933900 . ISBN 978-0-7695-1224-2 . S2CID 1049263 .
- ^ Лангер, Стефан; Гипп, Бела (2017). «TF-IDuF: новая схема взвешивания терминов для моделирования пользователей на основе коллекций личных документов пользователей» (PDF) . IКонференция .
- Солтон, Дж .; МакГилл, MJ (1986). Введение в современный поиск информации . МакГроу-Хилл . ISBN 978-0-07-054484-0 .
- Солтон, Дж .; Фокс, Э.А.; Ву, Х. (1983). «Расширенный логический поиск информации». Коммуникации АКМ . 26 (11): 1022–1036. дои : 10.1145/182.358466 . hdl : 1813/6351 . S2CID 207180535 .
- Солтон, Дж .; Бакли, К. (1988). «Подходы к взвешиванию терминов при автоматическом поиске текста» (PDF) . Обработка информации и управление . 24 (5): 513–523. дои : 10.1016/0306-4573(88)90021-0 . hdl : 1813/6721 . S2CID 7725217 .
- Ву, ХК; Лук, РВП; Вонг, К.Ф.; Квок, КЛ (2008). «Интерпретация весов терминов TF-IDF как принятие решений о релевантности». Транзакции ACM в информационных системах . 26 (3): 1. дои : 10.1145/1361684.1361686 . hdl : 10397/10130 . S2CID 18303048 .
Внешние ссылки и рекомендуемая литература
[ редактировать ]- Gensim — это библиотека Python для моделирования векторного пространства, включающая взвешивание tf–idf.
- Анатомия поисковой системы
- tf–idf и связанные определения , используемые в Lucene
- TfidfTransformer в scikit-learn
- Генератор текста в матрицу (TMG) Набор инструментов MATLAB, который можно использовать для различных задач интеллектуального анализа текста (TM), в частности i) индексации, ii) поиска, iii) уменьшения размерности, iv) кластеризации, v) классификации. Шаг индексирования предлагает пользователю возможность применять локальные и глобальные методы взвешивания, включая tf-idf.
- Объяснение частоты термина Объяснение частоты термина