Тематическая модель
В статистике и обработке естественного языка тематическая модель — это тип статистической модели для обнаружения абстрактных «тем», которые встречаются в коллекции документов. Тематическое моделирование — это часто используемый инструмент анализа текста для обнаружения скрытых семантических структур в тексте. Интуитивно, учитывая, что документ посвящен определенной теме, можно было бы ожидать, что определенные слова будут появляться в документе более или менее часто: «собака» и «кость» будут чаще встречаться в документах о собаках, «кошке» и «мяу». появится в документах о кошках, причем «the» и «is» будут встречаться в обоих примерно одинаково. Документ обычно касается нескольких тем в разных пропорциях; таким образом, в документе, который на 10% посвящен кошкам и на 90% — собакам, слов о собаках, вероятно, будет примерно в 9 раз больше, чем слов о кошках. «Темы», созданные с помощью методов тематического моделирования, представляют собой группы похожих слов. Тематическая модель отражает эту интуицию в математической структуре, которая позволяет исследовать набор документов и на основе статистики слов в каждом из них обнаружить, какие могут быть темы и каков баланс тем в каждом документе.
Тематические модели также называются вероятностными тематическими моделями, что относится к статистическим алгоритмам для обнаружения скрытых семантических структур обширного текста. В век информации объем письменного материала, с которым мы сталкиваемся каждый день, просто превышает наши возможности обработки. Тематические модели могут помочь организовать и предложить нам информацию для понимания больших коллекций неструктурированных текстовых тел. Первоначально разработанные как инструмент для анализа текста, тематические модели использовались для обнаружения инструктивных структур в данных, таких как генетическая информация, изображения и сети. Они также имеют применение в других областях, таких как биоинформатика. [1] и компьютерное зрение . [2]
История [ править ]
Ранняя тематическая модель была описана Пападимитриу, Рагхаваном, Тамаки и Вемпалой в 1998 году. [3] Другой метод, названный вероятностным латентно-семантическим анализом (PLSA), был создан Томасом Хофманном в 1999 году. [4] Скрытое распределение Дирихле (LDA), возможно, наиболее распространенная тематическая модель, используемая в настоящее время, является обобщением PLSA. Разработанный Дэвидом Блей , Эндрю Нг и Майклом И. Джорданом в 2002 году, LDA вводит разреженные априорные распределения Дирихле по распределению тем документа и распределению слов темы, кодируя интуитивное представление о том, что документы охватывают небольшое количество тем и что темы часто используют небольшое количество тем. количество слов. [5] Другие модели тем, как правило, являются расширениями LDA, например, распределение Пачинко , которое улучшает LDA за счет моделирования корреляций между темами в дополнение к корреляциям слов, составляющих темы. Иерархический анализ скрытого дерева ( HLTA ) является альтернативой LDA, который моделирует совместное появление слов с использованием дерева скрытых переменных, а состояния скрытых переменных, которые соответствуют мягким кластерам документов, интерпретируются как темы.
Тематические модели для контекстной информации [ править ]
Подходы к временной информации включают определение Блоком и Ньюманом временной динамики тем в Pennsylvania Gazette в течение 1728–1800 годов. Гриффитс и Стейверс использовали тематическое моделирование на основе рефератов из журнала PNAS, чтобы определить темы, популярность которых росла или падала с 1991 по 2001 год, тогда как Ламба и Мадхусушан [6] использовали тематическое моделирование в полнотекстовых исследовательских статьях, полученных из журнала DJLIT с 1981 по 2018 год. В области библиотечного дела и информатики Ламба и Мадхусудхан [6] [7] [8] [9] прикладное тематическое моделирование на различных индийских ресурсах, таких как журнальные статьи, электронные диссертации и ресурсы (ETD). Нельсон [10] анализировал изменения тем с течением времени в Richmond Times-Dispatch, чтобы понять социальные и политические изменения и преемственность в Ричмонде во время Гражданской войны в США . Ян, Торгет и Михалча применяли методы тематического моделирования к газетам с 1829 по 2008 год. Мимно использовал тематическое моделирование с 24 журналами по классической филологии и археологии за 150 лет, чтобы посмотреть, как темы в журналах меняются с течением времени и как журналы становятся более разными или аналогично во времени.
Инь и др. [11] представила тематическую модель для географически распределенных документов, в которой положения документов объясняются скрытыми областями, которые обнаруживаются во время вывода.
Чанг и Блей [12] включил сетевую информацию между связанными документами в реляционную тематическую модель для моделирования связей между веб-сайтами.
Модель автор-тема Розен-Цви и др. [13] моделирует темы, связанные с авторами документов, чтобы улучшить обнаружение тем для документов с информацией об авторстве.
HLTA был применен к коллекции недавних исследовательских работ, опубликованных на крупных площадках по искусственному интеллекту и машинному обучению. Полученная модель называется The AI Tree . Полученные темы используются для индексации статей на aipano.cse.ust.hk , чтобы помочь исследователям отслеживать тенденции исследований и определять статьи для чтения , а также помогать организаторам конференций и редакторам журналов находить рецензентов для представленных материалов .
Чтобы улучшить качественные аспекты и согласованность создаваемых тем, некоторые исследователи изучили эффективность «оценок согласованности», или, иначе говоря, того, как извлеченные с помощью компьютера кластеры (т.е. темы) соответствуют человеческим критериям. [14] [15] Оценки связности — это показатели оптимизации количества тем, извлекаемых из корпуса документов. [16]
Алгоритмы [ править ]
На практике исследователи пытаются подогнать подходящие параметры модели к корпусу данных, используя одну из нескольких эвристик для обеспечения максимального правдоподобия. Этот набор алгоритмов описан в обзоре Д. Блея. [17] Несколько групп исследователей, начиная с Papadimitriou et al. [3] попытались разработать алгоритмы с доказуемыми гарантиями. Предполагая, что данные на самом деле были сгенерированы рассматриваемой моделью, они пытаются разработать алгоритмы, которые, вероятно, находят модель, которая использовалась для создания данных. Используемые здесь методы включают разложение по сингулярным значениям (SVD) и метод моментов . В 2012 году был представлен алгоритм, основанный на неотрицательной матричной факторизации (NMF), который также обобщается на тематические модели с корреляциями между темами. [18]
В 2017 году нейронная сеть была использована в тематическом моделировании, чтобы ускорить процесс вывода. [19] которая была расширена слабо контролируемой версией. [20]
В 2018 году был предложен новый подход к тематическим моделям: он основан на стохастической блочной модели . [21]
Благодаря недавнему развитию LLM, тематическое моделирование позволило использовать LLM посредством контекстного внедрения. [22] и тонкая настройка. [23]
Применение тематических моделей [ править ]
К количественной биомедицине
Тематические модели используются и в других контекстах. Например, появились примеры использования тематических моделей в исследованиях в области биологии и биоинформатики. [24] Недавно тематические модели стали использоваться для извлечения информации из набора данных геномных образцов рака. [25] В этом случае темы представляют собой биологические скрытые переменные, которые необходимо вывести.
К анализу музыки и творчества [ править ]
Тематические модели можно использовать для анализа непрерывных сигналов, таких как музыка. Например, они использовались для количественной оценки того, как музыкальные стили меняются со временем, и определения влияния конкретных исполнителей на дальнейшее создание музыки. [26]
См. также [ править ]
- Явный семантический анализ
- Скрытый семантический анализ
- Скрытое распределение Дирихле
- Иерархический процесс Дирихле
- Неотрицательная матричная факторизация
- Статистическая классификация
- Обучение без присмотра
- Маллет (программный проект)
- Генерал
- Встраивание предложений
Ссылки [ править ]
- ^ Блей, Дэвид (апрель 2012 г.). «Вероятностные тематические модели». Коммуникации АКМ . 55 (4): 77–84. дои : 10.1145/2133806.2133826 . S2CID 753304 .
- ^ Цао, Лянлян и Ли Фей-Фей. « Пространственно-когерентная модель скрытых тем для одновременной сегментации и классификации объектов и сцен ». 2007 г. 11-я Международная конференция IEEE по компьютерному зрению. ИИЭР, 2007.
- ^ Перейти обратно: а б Пападимитриу, Христос; Рагхаван, Прабхакар; Тамаки, Хисао; Вемпала, Сантош (1998). «Скрытая семантическая индексация» . Материалы семнадцатого симпозиума ACM SIGACT-SIGMOD-SIGART по принципам систем баз данных - PODS '98 . стр. 159–168. дои : 10.1145/275487.275505 . ISBN 978-0897919968 . S2CID 1479546 . Архивировано из оригинала (Постскриптум) 9 мая 2013 г. Проверено 17 апреля 2012 г.
- ^ Хофманн, Томас (1999). «Вероятностное скрытое семантическое индексирование» (PDF) . Материалы двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска . Архивировано из оригинала (PDF) 14 декабря 2010 г.
- ^ Блей, Дэвид М.; Нг, Эндрю Ю.; Джордан, Майкл I ; Лафферти, Джон (январь 2003 г.). «Скрытое распределение Дирихле» . Журнал исследований машинного обучения . 3 : 993–1022. дои : 10.1162/jmlr.2003.3.4-5.993 .
- ^ Перейти обратно: а б Ламба, Маника июнь (2019). «Составление тем в журнале DESIDOC по библиотечным и информационным технологиям, Индия: исследование». Наукометрика . 120 (2): 477–505. дои : 10.1007/s11192-019-03137-5 . ISSN 0138-9130 . S2CID 174802673 .
- ^ Ламба, Маника июнь (2019). «Теги метаданных и прогнозное моделирование: пример журнала DESIDOC Journal of Library and Information Technology (2008–2017)» . Мировые цифровые библиотеки . 12 : 33–89. doi : 10.18329/09757597/2019/12103 (неактивен 31 января 2024 г.). ISSN 0975-7597 .
{{cite journal}}
: CS1 maint: DOI неактивен по состоянию на январь 2024 г. ( ссылка ) - ^ Ламба, Маника Мэй (2019). «Авторское тематическое моделирование журнала DESIDOC по библиотечным и информационным технологиям (2008–2017), Индия» . Библиотечная философия и практика .
- ^ Ламба, Маника, сентябрь (2018 г.). Разметка метаданных диссертаций по библиотечным и информационным наукам: Шодганга (2013–2017 гг.) (PDF) . ETD2018: За пределами границ и океанов. Тайвань, Тайбэй.
- ^ Нельсон, Роб. «Майнинг диспетчерской» . Майнинг диспетчеризации . Лаборатория цифровых стипендий, Университет Ричмонда . Проверено 26 марта 2021 г.
- ^ Инь, Чжицзюнь (2011). «Открытие и сравнение географических тем». Материалы 20-й международной конференции по Всемирной паутине . стр. 247–256. дои : 10.1145/1963405.1963443 . ISBN 9781450306324 . S2CID 17883132 .
- ^ Чанг, Джонатан (2009). «Реляционные тематические модели для сетей документов» (PDF) . Айстат . 9 : 81–88.
- ^ Розен-Цви, Михал (2004). «Автор-тематическая модель для авторов и документов». Материалы 20-й конференции по неопределенности в искусственном интеллекте : 487–494. arXiv : 1207.4169 .
- ^ Николенко, Сергей (2017). «Тематическое моделирование для качественных исследований». Журнал информатики . 43 : 88–102. дои : 10.1177/0165551515617393 . S2CID 30657489 .
- ^ Ревертер-Рамбальди, Марсель (2022). Тематическое моделирование данных спонтанной речи (дипломная работа с отличием). Австралийский национальный университет. дои : 10.25911/M1YF-ZF55 .
- ^ Ньюман, Дэвид (2010). «Автоматическая оценка связности темы». Технологии человеческого языка: Ежегодная конференция Североамериканского отделения Ассоциации компьютерной лингвистики 2010 г .: 100–108.
- ^ Блей, Дэвид М. (апрель 2012 г.). «Введение в вероятностные тематические модели» (PDF) . Комм. АКМ . 55 (4): 77–84. дои : 10.1145/2133806.2133826 . S2CID 753304 .
- ^ Санджив Арора; Ронг Ге; Анкур Мойтра (апрель 2012 г.). «Модели тем обучения — выходя за рамки SVD». arXiv : 1204.1956 [ cs.LG ].
- ^ Мяо, Ишу; Грефенштетт, Эдвард; Блансом, Фил (2017). «Обнаружение дискретных скрытых тем с помощью нейронного вариационного вывода» . Материалы 34-й Международной конференции по машинному обучению . ПМЛР: 2410–2419.
- ^ Сюй, Вэйцзе; Цзян, Сяоюй; Сенгамеду Хануманта Рао, Шринивасан; Янначчи, Фрэнсис; Чжао, Цзиньцзинь (2023). «vONTSS: полуконтролируемое моделирование нейронных тем на основе vMF с оптимальным транспортом» . Выводы Ассоциации компьютерной лингвистики: ACL 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 4433–4457. arXiv : 2307.01226 . doi : 10.18653/v1/2023.findings-acl.271 .
- ^ Мартин Герлах; Тьяго Пексиото; Эдуардо Альтманн (2018). «Сетевой подход к тематическим моделям» . Достижения науки . 4 (7): eaaq1360. arXiv : 1708.01677 . Бибкод : 2018SciA....4.1360G . дои : 10.1126/sciadv.aaq1360 . ПМК 6051742 . ПМИД 30035215 .
- ^ Бьянки, Федерико; Терраньи, Сильвия; Хови, Дирк (2021). «Предварительное обучение — горячая тема: контекстуализированные встраивания документов улучшают согласованность тем» . Материалы 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (Том 2: Короткие статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 759–766. doi : 10.18653/v1/2021.acl-short.96 .
- ^ Сюй, Вэйцзе; Ху, Вэньсян; Ву, Фанью; Сенгамеду, Шринивасан (2023 г.). «DeTiME: Тематическое моделирование с расширенной диффузией с использованием LLM на основе кодировщика-декодера» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606 .
- ^ Лю, Л.; Тан, Л.; и др. (2016). «Обзор тематического моделирования и его текущих приложений в биоинформатике» . СпрингерПлюс . 5 (1): 1608. doi : 10.1186/s40064-016-3252-8 . ПМК 5028368 . ПМИД 27652181 . S2CID 16712827 .
- ^ Валле, Ф.; Оселла, М.; Казелле, М. (2020). «Тематическое моделирование транскриптомных данных TCGA рака молочной железы и легких» . Раки . 12 (12): 3799. doi : 10.3390/cancers12123799 . ПМК 7766023 . ПМИД 33339347 . S2CID 229325007 .
- ^ Шалит, Ури; Вайншолл, Дафна; Чечик, Галь (13 мая 2013 г.). «Моделирование музыкального влияния с помощью тематических моделей» . Материалы 30-й Международной конференции по машинному обучению . ПМЛР: 244–252.
Дальнейшее чтение [ править ]
- Стиверс, Марк; Гриффитс, Том (2007). «Вероятностные тематические модели» . В Ландауэре, Т.; Макнамара, Д; Деннис, С.; и др. (ред.). Справочник по скрытому семантическому анализу (PDF) . Психология Пресс. ISBN 978-0-8058-5418-3 . Архивировано из оригинала (PDF) 24 июня 2013 г.
- Блей, Д.М.; Лафферти, доктор медицинских наук (2009). «Тематические модели» (PDF) .
- Блей, Д.; Лафферти, Дж. (2007). «Коррелированная тематическая модель науки ». Анналы прикладной статистики . 1 (1): 17–35. arXiv : 0708.3601 . дои : 10.1214/07-AOAS114 . S2CID 8872108 .
- Мимно, Д. (апрель 2012 г.). «Вычислительная историография: интеллектуальный анализ данных в век классических журналов» (PDF) . Журнал по вычислительной технике и культурному наследию . 5 (1): 1–19. дои : 10.1145/2160165.2160168 . S2CID 12153151 .
- Марвик, Бен (2013). «Обнаружение новых проблем и противоречий в антропологии с использованием анализа текста, тематического моделирования и анализа содержания микроблогов в социальных сетях» . В Яньчане, Чжао; Юнхуа, Цен (ред.). Приложения интеллектуального анализа данных с использованием R . Эльзевир. стр. 63–93.
- Джокерс, М. 2010. Кто ваш помощник по блогу DH: подбор партнеров в день блоггеров DH с помощью тематического моделирования Мэтью Л. Джокерс, опубликовано 19 марта 2010 г.
- Друэн, Дж. 2011. Набег на тему моделирования церковного архива Пруста. опубликовано 17 марта 2011 г.
- Темплтон, К. 2011. Тематическое моделирование в гуманитарных науках: обзор Мэрилендского технологического института в блоге гуманитарных наук. опубликовано 1 августа 2011 г.
- Гриффитс, Т.; Стиверс, М. (2004). «Поиск научных тем» . Труды Национальной академии наук . 101 (Приложение 1): 5228–35. Бибкод : 2004PNAS..101.5228G . дои : 10.1073/pnas.0307752101 . ПМК 387300 . ПМИД 14872004 .
- Ян Т., А. Торгет и Р. Михалча (2011) Тематическое моделирование исторических газет. Материалы 5-го семинара ACL-HLT по языковым технологиям для культурного наследия, социальных и гуманитарных наук . Ассоциация компьютерной лингвистики, Мэдисон, Висконсин. страницы 96–104.
- Блок, С. (январь 2006 г.). «Делать больше с помощью оцифровки: введение в тематическое моделирование ранних американских источников» . Обычный интерактивный журнал ранней американской жизни . 6 (2).
- Ньюман, Д.; Блок, С. (март 2006 г.). «Вероятностное разложение тем газеты восемнадцатого века» (PDF) . Журнал Американского общества информатики и технологий . 57 (5): 753–767. дои : 10.1002/asi.20342 . S2CID 1484286 .
Внешние ссылки [ править ]
- Мимно, Дэвид. «Библиография по тематическому моделированию» .
- Бретт, Меган Р. «Тематическое моделирование: базовое введение» . Журнал цифровых гуманитарных наук.
- Тематические модели, применяемые к онлайн-новостям и обзорам Видео презентации Google Tech Talk Элис О, посвященной тематическому моделированию с помощью LDA
- Моделирование науки: динамические тематические модели научных исследований Видео презентации Google Tech Talk Дэвида М. Блея
- Автоматизированные тематические модели в политологии Видео презентации Брэндона Стюарта на семинаре «Инструменты для текста» , 14 июня 2010 г.
- Шон Грэм, Ян Миллиган и Скотт Вайнгарт «Начало работы с тематическим моделированием и MALLET» . Историк программирования. Архивировано из оригинала 28 августа 2014 г. Проверено 29 мая 2014 г.
- Блей, Дэвид М. «Вводные материалы и программное обеспечение»
- код , демо — пример использования LDA для тематического моделирования