~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 87F117D66CDC20FDAF5ED669AA165E81__1713792600 ✰
Заголовок документа оригинал.:
✰ Topic model - Wikipedia ✰
Заголовок документа перевод.:
✰ Тематическая модель — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Topic_model ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/87/81/87f117d66cdc20fdaf5ed669aa165e81.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/87/81/87f117d66cdc20fdaf5ed669aa165e81__translat.html ✰
Дата и время сохранения документа:
✰ 13.06.2024 14:38:10 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 22 April 2024, at 16:30 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Тематическая модель — Википедия Jump to content

Тематическая модель

Из Википедии, бесплатной энциклопедии

В статистике и обработке естественного языка тематическая модель — это тип статистической модели для обнаружения абстрактных «тем», встречающихся в коллекции документов. Тематическое моделирование — это часто используемый инструмент анализа текста для обнаружения скрытых семантических структур в тексте. Интуитивно, учитывая, что документ посвящен определенной теме, можно было бы ожидать, что определенные слова будут появляться в документе более или менее часто: «собака» и «кость» будут чаще встречаться в документах о собаках, «кошке» и «мяу». появится в документах о кошках, причем «the» и «is» будут встречаться в обоих примерно одинаково. Документ обычно касается нескольких тем в разных пропорциях; таким образом, в документе, который на 10% посвящен кошкам и на 90% — собакам, слов о собаках, вероятно, будет примерно в 9 раз больше, чем слов о кошках. «Темы», созданные с помощью методов тематического моделирования, представляют собой группы похожих слов. Тематическая модель отражает эту интуицию в математической структуре, которая позволяет исследовать набор документов и на основе статистики слов в каждом из них обнаружить, какие могут быть темы и каков баланс тем в каждом документе.

Тематические модели также называются вероятностными тематическими моделями, что относится к статистическим алгоритмам обнаружения скрытых семантических структур обширного текста. В век информации объем письменного материала, с которым мы сталкиваемся каждый день, просто превышает наши возможности обработки. Тематические модели могут помочь организовать и предложить нам информацию для понимания больших коллекций неструктурированных текстовых тел. Первоначально разработанные как инструмент для анализа текста, тематические модели использовались для обнаружения инструктивных структур в данных, таких как генетическая информация, изображения и сети. Они также имеют применение в других областях, таких как биоинформатика. [1] и компьютерное зрение . [2]

История [ править ]

Ранняя тематическая модель была описана Пападимитриу, Рагхаваном, Тамаки и Вемпалой в 1998 году. [3] Другой метод, названный вероятностным латентно-семантическим анализом (PLSA), был создан Томасом Хофманном в 1999 году. [4] Скрытое распределение Дирихле (LDA), возможно, наиболее распространенная тематическая модель, используемая в настоящее время, является обобщением PLSA. Разработанный Дэвидом Блей , Эндрю Нг и Майклом И. Джорданом в 2002 году, LDA вводит разреженные априорные распределения Дирихле по распределению тем документа и распределению слов темы, кодируя интуитивное представление о том, что документы охватывают небольшое количество тем и что темы часто используют небольшое количество тем. число слов. [5] Другие модели тем, как правило, являются расширениями LDA, например, распределение Пачинко , которое улучшает LDA за счет моделирования корреляций между темами в дополнение к корреляциям слов, составляющих темы. Иерархический анализ скрытого дерева ( HLTA ) является альтернативой LDA, который моделирует совместное появление слов с использованием дерева скрытых переменных, а состояния скрытых переменных, которые соответствуют мягким кластерам документов, интерпретируются как темы.

Продолжительность: 19 секунд.
Анимация процесса обнаружения темы в матрице документ-слово посредством бикластеризации . Каждый столбец соответствует документу, каждая строка — слову. В ячейке хранится частота употребления слова в документе, а темные ячейки указывают на высокую частоту встречаемости слов. Эта процедура группирует документы, в которых используются похожие слова, так же, как группирует слова, встречающиеся в аналогичном наборе документов. Такие группы слов называются темами. Более распространенные тематические модели, такие как LDA, группируют только документы на основе более сложного и вероятностного механизма.

Тематические модели для контекстной информации [ править ]

Подходы к временной информации включают определение Блоком и Ньюманом временной динамики тем в Pennsylvania Gazette в течение 1728–1800 годов. Гриффитс и Стейверс использовали тематическое моделирование на основе рефератов из журнала PNAS, чтобы определить темы, популярность которых росла или падала с 1991 по 2001 год, тогда как Ламба и Мадхусушан [6] использовали тематическое моделирование в полнотекстовых исследовательских статьях, полученных из журнала DJLIT с 1981 по 2018 год. В области библиотечного дела и информатики Ламба и Мадхусудхан [6] [7] [8] [9] прикладное тематическое моделирование на различных индийских ресурсах, таких как журнальные статьи, электронные диссертации и ресурсы (ETD). Нельсон [10] анализировал изменения тем с течением времени в Richmond Times-Dispatch, чтобы понять социальные и политические изменения и преемственность в Ричмонде во время Гражданской войны в США . Ян, Торгет и Михалча применяли методы тематического моделирования к газетам с 1829 по 2008 год. Мимно использовал тематическое моделирование с 24 журналами по классической филологии и археологии за 150 лет, чтобы посмотреть, как темы в журналах меняются с течением времени и как журналы становятся более разными или аналогично во времени.

Инь и др. [11] представила тематическую модель для географически распределенных документов, где положения документов объясняются скрытыми областями, которые обнаруживаются во время вывода.

Чанг и Блей [12] включил сетевую информацию между связанными документами в реляционную тематическую модель для моделирования связей между веб-сайтами.

Модель автор-тема Розен-Цви и др. [13] моделирует темы, связанные с авторами документов, чтобы улучшить обнаружение тем для документов с информацией об авторстве.

HLTA был применен к коллекции недавних исследовательских работ, опубликованных на крупных площадках по искусственному интеллекту и машинному обучению. Полученная модель называется The AI ​​Tree . Полученные темы используются для индексации статей на aipano.cse.ust.hk , чтобы помочь исследователям отслеживать тенденции исследований и определять статьи для чтения , а также помогать организаторам конференций и редакторам журналов находить рецензентов для представленных материалов .

Чтобы улучшить качественные аспекты и согласованность создаваемых тем, некоторые исследователи изучили эффективность «оценок согласованности», или, иначе говоря, того, как извлеченные с помощью компьютера кластеры (т.е. темы) соответствуют человеческим критериям. [14] [15] Оценки связности — это показатели оптимизации количества тем, извлекаемых из корпуса документов. [16]

Алгоритмы [ править ]

На практике исследователи пытаются подогнать подходящие параметры модели к корпусу данных, используя одну из нескольких эвристик для обеспечения максимального правдоподобия. Этот набор алгоритмов описан в обзоре Д. Блея. [17] Несколько групп исследователей, начиная с Papadimitriou et al. [3] попытались разработать алгоритмы с доказуемыми гарантиями. Предполагая, что данные на самом деле были сгенерированы рассматриваемой моделью, они пытаются разработать алгоритмы, которые, вероятно, находят модель, которая использовалась для создания данных. Используемые здесь методы включают разложение по сингулярным значениям (SVD) и метод моментов . В 2012 году был представлен алгоритм, основанный на неотрицательной матричной факторизации (NMF), который также обобщается на тематические модели с корреляциями между темами. [18]

В 2017 году нейронная сеть была использована в тематическом моделировании, чтобы ускорить процесс вывода. [19] которая была расширена слабо контролируемой версией. [20]

В 2018 году был предложен новый подход к тематическим моделям: он основан на стохастической блочной модели . [21]

Благодаря недавнему развитию LLM, тематическое моделирование позволило использовать LLM посредством контекстного внедрения. [22] и тонкая настройка. [23]

Применение тематических моделей [ править ]

количественной биомедицине К

Тематические модели используются и в других контекстах. Например, появились примеры использования тематических моделей в исследованиях в области биологии и биоинформатики. [24] Недавно тематические модели стали использоваться для извлечения информации из набора данных геномных образцов рака. [25] В этом случае темы представляют собой биологические скрытые переменные, которые необходимо вывести.

К анализу музыки и творчества [ править ]

Тематические модели можно использовать для анализа непрерывных сигналов, таких как музыка. Например, они использовались для количественной оценки того, как музыкальные стили меняются со временем, и определения влияния конкретных исполнителей на дальнейшее создание музыки. [26]

См. также [ править ]

Ссылки [ править ]

  1. ^ Блей, Дэвид (апрель 2012 г.). «Вероятностные тематические модели». Коммуникации АКМ . 55 (4): 77–84. дои : 10.1145/2133806.2133826 . S2CID   753304 .
  2. ^ Цао, Лянлян и Ли Фей-Фей. « Пространственно-когерентная модель скрытых тем для одновременной сегментации и классификации объектов и сцен ». 2007 г. 11-я Международная конференция IEEE по компьютерному зрению. ИИЭР, 2007.
  3. ^ Перейти обратно: а б Пападимитриу, Христос; Рагхаван, Прабхакар; Тамаки, Хисао; Вемпала, Сантош (1998). «Скрытая семантическая индексация» . Материалы семнадцатого симпозиума ACM SIGACT-SIGMOD-SIGART по принципам систем баз данных - PODS '98 . стр. 159–168. дои : 10.1145/275487.275505 . ISBN  978-0897919968 . S2CID   1479546 . Архивировано из оригинала (Постскриптум) 9 мая 2013 г. Проверено 17 апреля 2012 г.
  4. ^ Хофманн, Томас (1999). «Вероятностное скрытое семантическое индексирование» (PDF) . Материалы двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска . Архивировано из оригинала (PDF) 14 декабря 2010 г.
  5. ^ Блей, Дэвид М.; Нг, Эндрю Ю.; Джордан, Майкл I ; Лафферти, Джон (январь 2003 г.). «Скрытое распределение Дирихле» . Журнал исследований машинного обучения . 3 : 993–1022. дои : 10.1162/jmlr.2003.3.4-5.993 .
  6. ^ Перейти обратно: а б Ламба, Маника июнь (2019). «Составление тем в журнале DESIDOC по библиотечным и информационным технологиям, Индия: исследование». Наукометрика . 120 (2): 477–505. дои : 10.1007/s11192-019-03137-5 . ISSN   0138-9130 . S2CID   174802673 .
  7. ^ Ламба, Маника июнь (2019). «Теги метаданных и прогнозное моделирование: пример журнала DESIDOC Journal of Library and Information Technology (2008–2017)» . Мировые цифровые библиотеки . 12 : 33–89. doi : 10.18329/09757597/2019/12103 (неактивен 31 января 2024 г.). ISSN   0975-7597 . {{cite journal}}: CS1 maint: DOI неактивен по состоянию на январь 2024 г. ( ссылка )
  8. ^ Ламба, Маника Мэй (2019). «Авторское тематическое моделирование журнала DESIDOC по библиотечным и информационным технологиям (2008–2017), Индия» . Библиотечная философия и практика .
  9. ^ Лэмб, Маника сентябрь (2018). Разметка метаданных диссертаций по библиотечным и информационным наукам: исследования (2013–2017 гг.) (PDF ) ETD2018: За пределами границ и океанов. Тайвань, Тайбэй.
  10. ^ Нельсон, Роб. «Майнинг диспетчерской» . Майнинг диспетчеризации . Лаборатория цифровых стипендий, Университет Ричмонда . Проверено 26 марта 2021 г.
  11. ^ Инь, Чжицзюнь (2011). «Открытие и сравнение географических тем». Материалы 20-й международной конференции по Всемирной паутине . стр. 247–256. дои : 10.1145/1963405.1963443 . ISBN  9781450306324 . S2CID   17883132 .
  12. ^ Чанг, Джонатан (2009). «Реляционные тематические модели для сетей документов» (PDF) . Айстат . 9 : 81–88.
  13. ^ Розен-Цви, Михал (2004). «Автор-тематическая модель для авторов и документов». Материалы 20-й конференции по неопределенности в искусственном интеллекте : 487–494. arXiv : 1207.4169 .
  14. ^ Николенко, Сергей (2017). «Тематическое моделирование для качественных исследований». Журнал информатики . 43 : 88–102. дои : 10.1177/0165551515617393 . S2CID   30657489 .
  15. ^ Ревертер-Рамбальди, Марсель (2022). Тематическое моделирование данных спонтанной речи (дипломная работа с отличием). Австралийский национальный университет. дои : 10.25911/M1YF-ZF55 .
  16. ^ Ньюман, Дэвид (2010). «Автоматическая оценка связности темы». Технологии человеческого языка: Ежегодная конференция Североамериканского отделения Ассоциации компьютерной лингвистики 2010 г .: 100–108.
  17. ^ Блей, Дэвид М. (апрель 2012 г.). «Введение в вероятностные тематические модели» (PDF) . Комм. АКМ . 55 (4): 77–84. дои : 10.1145/2133806.2133826 . S2CID   753304 .
  18. ^ Санджив Арора; Ронг Ге; Анкур Мойтра (апрель 2012 г.). «Модели тем обучения — выходя за рамки SVD». arXiv : 1204.1956 [ cs.LG ].
  19. ^ Мяо, Ишу; Грефенштетт, Эдвард; Блансом, Фил (2017). «Обнаружение дискретных скрытых тем с помощью нейронного вариационного вывода» . Материалы 34-й Международной конференции по машинному обучению . ПМЛР: 2410–2419.
  20. ^ Сюй, Вэйцзе; Цзян, Сяоюй; Сенгамеду Хануманта Рао, Шринивасан; Янначчи, Фрэнсис; Чжао, Цзиньцзинь (2023). «vONTSS: полуконтролируемое моделирование нейронных тем на основе vMF с оптимальным транспортом» . Выводы Ассоциации компьютерной лингвистики: ACL 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 4433–4457. arXiv : 2307.01226 . doi : 10.18653/v1/2023.findings-acl.271 .
  21. ^ Мартин Герлах; Тьяго Пексиото; Эдуардо Альтманн (2018). «Сетевой подход к тематическим моделям» . Достижения науки . 4 (7): eaaq1360. arXiv : 1708.01677 . Бибкод : 2018SciA....4.1360G . дои : 10.1126/sciadv.aaq1360 . ПМК   6051742 . ПМИД   30035215 .
  22. ^ Бьянки, Федерико; Терраньи, Сильвия; Хови, Дирк (2021). «Предварительное обучение — горячая тема: контекстуализированные встраивания документов улучшают согласованность тем» . Материалы 59-го ежегодного собрания Ассоциации компьютерной лингвистики и 11-й Международной совместной конференции по обработке естественного языка (Том 2: Короткие статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 759–766. doi : 10.18653/v1/2021.acl-short.96 .
  23. ^ Сюй, Вэйцзе; Ху, Вэньсян; Ву, Фанью; Сенгамеду, Шринивасан (2023 г.). «DeTiME: Тематическое моделирование с расширенной диффузией с использованием LLM на основе кодировщика-декодера» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606 .
  24. ^ Лю, Л.; Тан, Л.; и другие. (2016). «Обзор тематического моделирования и его текущих приложений в биоинформатике» . СпрингерПлюс . 5 (1): 1608. doi : 10.1186/s40064-016-3252-8 . ПМК   5028368 . ПМИД   27652181 . S2CID   16712827 .
  25. ^ Валле, Ф.; Оселла, М.; Казелле, М. (2020). «Тематическое моделирование транскриптомных данных TCGA рака молочной железы и легких» . Раки . 12 (12): 3799. doi : 10.3390/cancers12123799 . ПМК   7766023 . ПМИД   33339347 . S2CID   229325007 .
  26. ^ Шалит, Ури; Вайншолл, Дафна; Чечик, Галь (13 мая 2013 г.). «Моделирование музыкального влияния с помощью тематических моделей» . Материалы 30-й Международной конференции по машинному обучению . ПМЛР: 244–252.

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 87F117D66CDC20FDAF5ED669AA165E81__1713792600
URL1:https://en.wikipedia.org/wiki/Topic_model
Заголовок, (Title) документа по адресу, URL1:
Topic model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)