Jump to content

Текст добыча

(Перенаправлено из текстового привязки )

Майнинг текста , интеллектуальный анализ текстовых данных ( TDM ) или текстовая аналитика -это процесс получения высококачественной информации из текста . Он включает в себя «обнаружение по компьютеру новой, ранее неизвестной информации путем автоматического извлечения информации из разных письменных ресурсов». [ 1 ] Письменные ресурсы могут включать веб -сайты , книги , электронные письма , обзоры и статьи. Высококачественная информация обычно получается путем разработки закономерностей и тенденций, такими как статистическое обучение шаблона . Согласно Hotho et al. (2005) Мы можем различать три различных перспективы добычи текста: извлечение информации , интеллектуальный анализ данных и процесс обнаружения знаний в базах данных (KDD). [ 2 ] Майнинг текста обычно включает в себя процесс структурирования входного текста (обычно анализ , наряду с добавлением некоторых полученных лингвистических особенностей и удаления других, а также последующей вставки в базу данных ), получение шаблонов в структурированных данных и, наконец, оценка и интерпретация вывода. «Высокое качество» в добыче текста обычно относится к некоторой комбинации актуальности , новизны и интереса. Типичные задачи по добыче текста включают в себя категоризация текста , кластеризацию текста , извлечение концепции/сущности, производство гранулярных таксономий, анализ настроений , суммирование документов и моделирование отношений сущности ( то есть обучающие отношения между названными объектами ).

Анализ текста включает в себя поиск информации , лексический анализ для изучения распределений частот слов, распознавания шаблонов , тегов / аннотации , извлечения информации , методов интеллектуального анализа данных , включая анализ ссылок и ассоциации, визуализацию и прогнозирующую аналитику . По сути, всеобъемлющей целью состоит в том, чтобы превратить текст в данные для анализа с помощью применения обработки естественного языка (NLP), различных типов алгоритмов и аналитических методов. Важной фазой этого процесса является интерпретация собранной информации.

Типичным приложением является сканирование набора документов, записанных на естественном языке , и либо моделировать документ , набор для целей прогнозирующей классификации , либо заполнить базу данных или индекс поиска с помощью извлеченной информации. Документ . является основным элементом при начинании с добычи текста Здесь мы определяем документ как единицу текстовых данных, которая обычно существует во многих типах коллекций. [ 3 ]

Текстовая аналитика

[ редактировать ]

Text Analytics описывает набор лингвистических , статистических методов и машинного обучения , которые моделируют и структурируют информационное содержание текстовых источников для бизнес -аналитики , анализа данных , исследований или исследований. [ 4 ] Термин является примерно синонимом добычи текста; Действительно, Ронен Фельдман изменил описание «добычи текста» в 2000 году. [ 5 ] в 2004 году для описания «Текстовой аналитики». [ 6 ] Последний термин в настоящее время используется чаще в бизнес -настройках, в то время как «добыча текста» используется в некоторых из самых ранних областей применения, датируемых 1980 -х годов, [ 7 ] Примечательно исследования наук о жизни и правительственных разведке.

Термин «Аналитика текста» также описывает, что применение текстовой аналитики для реагирования на бизнес -задачи, независимо от того, независимо от того, независимо от того, независимо от того, независимо от того, в сочетании с запросом и анализом полевых, численных данных. Это трюизм, что 80 процентов связанной с бизнесом информации возникает в неструктурированной форме, в первую очередь в тексте. [ 8 ] Эти методы и процессы обнаруживают и представляют знания - факты, бизнес -правила и отношения - которые в противном случае заблокированы в текстовой форме, непроницаемой для автоматизированной обработки.

Процессы анализа текста

[ редактировать ]

Подзадачи-совместные средства более крупных текстовых усилий-типично включают в себя:

  • Сокращение размерности является важным методом предварительной обработки данных. Техника используется для определения корневого слова для реальных слов и уменьшения размера текстовых данных. [ Цитация необходима ]
  • Поиск информации или идентификация корпуса - это подготовительный шаг: сбор или идентификация набора текстовых материалов, в Интернете или удерживаемых в файловой системе , базе данных или Content Corpus Manager , для анализа.
  • Хотя некоторые системы текстовых анализов применяют исключительно продвинутые статистические методы, многие другие применяют более обширную обработку естественного языка , такие как часть тегинга речи , синтаксического анализа и других типов лингвистического анализа. [ 9 ]
  • Признание объекта - это использование газетчиков или статистических методов для определения названных текстовых функций: люди, организации, названия помещений, символы фондовых тикеров, определенные сокращения и так далее.
  • Несчастное значение - использование контекстуальных подсказок - может быть необходимо решить, где, например, «Форд» может относиться к бывшему президенту США, производителю транспортных средств, кинозвезде, пересечению реки или какой -либо другой организации. [ 10 ]
  • Распознавание идентифицированных объектов с шаблоном: такие функции, как телефонные номера, адреса электронной почты, величины (с единицами), могут быть замечены с помощью регулярного выражения или других совпадений с шаблонами .
  • Кластеризация документов : идентификация наборов аналогичных текстовых документов. [ 11 ]
  • Coreference : идентификация существительных фраз и другие термины, которые относятся к одному и тому же объекту.
  • Отношения, факт и извлечение событий: выявление ассоциаций между организациями и другой информацией в текстах.
  • Анализ настроений включает в себя проницательное субъективное (в отличие от фактического) материала и извлечение различных форм взгляда на отношение: настроения, мнение, настроение и эмоции. Методы текстовой аналитики помогают анализировать настроения на уровне сущности, концепции или темы и различать владельцев и объектов мнений. [ 12 ]
  • Количественный анализ текста представляет собой набор методов, связанных с социальными науками, в которых либо человеческий судья, либо компьютерные издает семантические или грамматические отношения между словами, чтобы выяснить значение или стилистические модели, как правило, случайный личный текст для целей цели Психологическое профилирование и т. Д. [ 13 ]
  • Предварительная обработка обычно включает в себя такие задачи, как токенизация, фильтрация и вытекание.

Приложения

[ редактировать ]

Технология текста в настоящее время широко применяется к широкому разнообразию правительственных, исследований и потребностей бизнеса. Все эти группы могут использовать добычу текста для управления записями и поисковые документы, относящиеся к их повседневной деятельности. специалисты юристов могут использовать текстовое майнинг для электронного открытия Например, . Правительства и военные группы используют текстовое добычу в целях национальной безопасности и разведки. Научные исследователи включают подходы добычи текста в усилия по организации больших наборов текстовых данных (то есть, решающим проблему неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях [ 14 ] [ 15 ] [ 16 ] ) и поддержать научное открытие в таких областях, как наук о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматического размещения рекламы , среди множества других видов деятельности.

Заявки на безопасность

[ редактировать ]

Многие пакеты программного обеспечения для добычи текста продаются для приложений безопасности , особенно для мониторинга и анализа онлайн -источников текста, таких как интернет -новости , блоги и т. Д. Для целей национальной безопасности . [ 17 ] Он также участвует в изучении текстового шифрования / дешифрования .

Биомедицинские применения

[ редактировать ]
Блок -схема протокола добычи текста.
Пример протокола добычи текста, используемого в исследовании белковых белковых комплексов или стыковки белка . [ 18 ]

Был описан ряд применений для добычи текста в биомедицинской литературе, [ 19 ] включая вычислительные подходы, чтобы помочь в исследованиях на стыковке белка , [ 20 ] белковые взаимодействия , [ 21 ] [ 22 ] и протеиновые ассоциации. [ 23 ] Кроме того, с крупными текстовыми наборами данных пациента в клинической области, наборы данных демографической информации в популяционных исследованиях и отчетах о побочных явлениях, добыча текста может облегчить клинические исследования и точную медицину. Алгоритмы добычи текста могут облегчить стратификацию и индексацию специфических клинических событий в крупных текстовых наборах пациентов с симптомами, побочными эффектами и сопутствующими заболеваниями из электронных медицинских карт, отчетов о событиях и отчетов из конкретных диагностических тестов. [ 24 ] Одним из онлайн -приложений для майнинга текста в биомедицинской литературе является Pubgene , общедоступная поисковая система , которая объединяет майнинги биомедицинского текста с визуализацией сети. [ 25 ] [ 26 ] Gopubmed -это поисковая система, основанная на знаниях для биомедицинских текстов. Методы добычи текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области [ 27 ]

Программные приложения

[ редактировать ]

Методы добычи текста и программное обеспечение также исследуются и разрабатываются крупными фирмами, включая IBM и Microsoft , для дальнейшей автоматизации процессов добычи и анализа, а также различными фирмами, работающими в области поиска и индексации в целом как способ улучшить свои результаты Полем В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . [ 28 ] Для учебных целей программное обеспечение WEKA является одним из самых популярных вариантов в научном мире, выступая в качестве отличной точки зрения для начинающих. Для программистов Python есть отличный инструментарий под названием NLTK для более общих целей. Для более продвинутых программистов есть также библиотека Генсим , которая фокусируется на текстовых представлениях на основе слова.

Онлайн -приложения для медиа

[ редактировать ]

Майнинг текста используется крупными медиа -компаниями, такими как компания Tribune , чтобы прояснить информацию и предоставить читателям больший поисковый опыт, что, в свою очередь, увеличивает «липкость» и доходы. Кроме того, на заднем плане редакторы получают выгоду, имея возможность делиться, ассоциировать и упаковывать новости по свойствам, что значительно увеличивает возможности для монетизации контента.

Приложения для бизнеса и маркетинга

[ редактировать ]

Текстовая аналитика используется в бизнесе, особенно в маркетинге, например, в управлении взаимоотношениями с клиентами . [ 29 ] Кузенция и Ван ден Поэль (2008) [ 30 ] [ 31 ] Примените его, чтобы улучшить модели прогнозирующей аналитики для оттока клиентов ( истощение клиентов ). [ 30 ] Добыча текста также применяется в прогнозировании доходов. [ 32 ]

Анализ настроений

[ редактировать ]

Анализ настроений может включать анализ продуктов, таких как фильмы, книги или обзоры отелей для оценки того, насколько благоприятный обзор для продукта. [ 33 ] Такой анализ может потребоваться маркированный набор данных или маркировка влияния слов . Ресурсы для влияния слов и концепций были сделаны для Wordnet [ 34 ] и conceptNet , [ 35 ] соответственно.

Текст использовался для обнаружения эмоций в соответствующей области аффективных вычислений. [ 36 ] Текстовые подходы к аффективным вычислениям использовались в нескольких корпусах, таких как оценки студентов, детские истории и новости.

Научная литература добыча и академические применения

[ редактировать ]

Вопрос о добыче текста имеет важное значение для издателей, которые содержат большие базы данных информации, нуждающихся в индексации для поиска. Это особенно верно в научных дисциплинах, в которых очень специфическая информация часто содержится в письменном тексте. Таким образом, были приняты инициативы, такие как предложение Nature для раздела интерфейс с открытым текстом (OTMI) и институт здравоохранения» журнал «Национальный общий . Текст, не удаляя барьеры издателей для публичного доступа.

Академические учреждения также участвовали в инициативе по добыче текста:

Методы добычи научной литературы

[ редактировать ]

Вычислительные методы были разработаны, чтобы помочь с поиском информации из научной литературы. Опубликованные подходы включают методы поиска, [ 40 ] Определение новизны, [ 41 ] и уточняет омонимы [ 42 ] Среди технических отчетов.

Цифровые гуманитарные и вычислительные социологии

[ редактировать ]

Автоматический анализ обширных текстовых корпораций создал возможность для ученых анализировать Миллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевыми технологиями были анализ, машинный перевод тем , категоризация и машинное обучение.

Повествовательная сеть выборов в США 2012 [ 43 ]

Автоматический анализ текстовых корпораций позволил извлечь участников и их реляционные сети в обширном масштабе, превратив текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов из теории сети для определения ключевых субъектов, ключевых сообществ или сторон, а также общие свойства, такие как надежность или структурная стабильность общей сети, или столетняя определенных узлы. [ 44 ] Это автоматизирует подход, введенный количественным повествовательным анализом, [ 45 ] в результате чего триплеты субъекта-верб-объекта идентифицируются с парами актеров, связанных действием, или пар, образованные актером-объектом. [ 43 ]

Контент -анализ долгое время был традиционной частью социальных наук и средств массовой информации. Автоматизация анализа контента позволила революции « большие данные » в этой области, с исследованиями в социальных сетях и газетном контенте, которые включают миллионы новостей. Гендерные предвзятости , читабельность , сходство контента, предпочтения читателя и даже настроение были проанализированы на основе методов добычи текста в течение миллионов документов. [ 46 ] [ 47 ] [ 48 ] [ 49 ] [ 50 ] Анализ читабельности, гендерного смещения и предвзятости темы был продемонстрирован во Flaounas et al. [ 51 ] показывая, как разные темы имеют разные гендерные смещения и уровни читабельности; Возможность обнаружения моделей настроения в огромной популяции путем анализа контента в Твиттере также была продемонстрирована. [ 52 ] [ 53 ]

Программное обеспечение

[ редактировать ]

Компьютерные программы для добычи текста доступны во многих коммерческих и открытых компаниях и источниках.

Закон об интеллектуальной собственности

[ редактировать ]

Ситуация в Европе

[ редактировать ]
Видео By Fix Copyright Campaign, объясняющая TDM и ее проблемы с авторским правом в ЕС, 2016 [3:51]

В соответствии с европейскими об авторском праве и законами базах данных добыча работ в сфере капиталов (например, веб-добыча ) без разрешения владельца авторских прав является незаконным. В Великобритании в 2014 году, по рекомендации Обзора Hargreaves , правительство внесено в изменение закона об авторском праве [ 54 ] Чтобы позволить добыче текста как ограничение и исключение . Это была вторая страна в мире, которая сделала это после Японии , которая внесла специальное исключение в 2009 году. Однако из-за ограничения Директивы Информационного общества (2001) исключение в Великобритании позволяет только добывать контент для не в том, чтобы не допустить. Коммерческие цели. Закон об авторском праве в Великобритании не позволяет переопределять это положение по договорным условиям.

Европейская комиссия облегчила обсуждение заинтересованных сторон по поводу интеллектуального анализа текстов и данных в 2013 году под названием лицензий на Европу. [ 55 ] Тот факт, что акцентом на решение этой юридической проблемы было лицензии, а не ограничения и исключения из -за закона об авторском праве, привели представителей университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа , чтобы оставить диалог заинтересованных сторон в мае 2013 года. [ 56 ]

Ситуация в Соединенных Штатах

[ редактировать ]

Закон об авторском праве США и, в частности, его положения о справедливом использовании , означает, что добыча текста в Америке, а также другие страны справедливого использования, такие как Израиль, Тайвань и Южная Корея, считаются законными. Поскольку добыча текста преобразует, что означает, что она не вытесняет исходную работу, она рассматривается как законная при справедливом использовании. Например, как часть урегулирования книги Google, председательствующий судья по этому делу постановил, что проект оцифровки Google в книгах с капиталом был законным, отчасти из-за трансформационного использования, который отображался проект оцифровки-одним из таких использования является интеллектуальным анализом. Полем [ 57 ]

Ситуация в Австралии

[ редактировать ]

нет исключений В австралийском законе об авторском праве для интеллектуального анализа в соответствии с Законом об авторском праве 1968 года . Австралийская комиссия по реформе юристов отметила, что маловероятно, что исключение «Исследования и исследования» также распространится на то, чтобы охватить такую ​​тему, учитывая, что это будет за пределами требования «разумной части». [ 58 ]

Подразумеваемое

[ редактировать ]

До недавнего времени веб-сайты чаще всего использовали текстовые поиски, которые находили только документы, содержащие определенные пользовательские слова или фразы. Теперь, используя семантическую паутину , добыча текста может найти контент на основе значения и контекста (а не только с помощью конкретного слова). Кроме того, программное обеспечение для добычи текста может использоваться для создания больших досье информации о конкретных людях и событиях. Например, крупные наборы данных, основанные на данных, извлеченных из новостей, могут быть созданы для облегчения анализа социальных сетей или контрразведки . По сути, программное обеспечение для добычи текста может действовать в качестве мощности, аналогичного аналитику разведки или исследовательского библиотекаря, хотя и с более ограниченным объемом анализа. Майнинг текста также используется в некоторых спам -фильтрах по электронной почте как способ определения характеристик сообщений, которые, вероятно, будут рекламными объявлениями или другим нежелательным материалом. Майнинг текста играет важную роль в определении настроений финансового рынка .

Смотрите также

[ редактировать ]
  1. ^ "Марти Херст: Что такое добыча текста?" Полем
  2. ^ Hotho, A., Nürnberger, A. and Paaus, G. (2005). «Краткий обзор добычи текста». На форуме LDV, вып. 20 (1), с. 19-62
  3. ^ Feldman, R. and Sanger, J. (2007). Справочник по добыче текста. Издательство Кембриджского университета. Нью-Йорк
  4. ^ [1] Архивировано 29 ноября 2009 г., на машине Wayback
  5. ^ «KDD-2000 Workshop по добыче текста-звоните для документов» . Cs.cmu.edu . Получено 2015-02-23 .
  6. ^ [2] Архивировано 3 марта 2012 года на машине Wayback
  7. ^ Хоббс, Джерри Р.; Уокер, Дональд Э.; Амслер, Роберт А. (1982). «Доступ естественного языка к структурированному тексту». Материалы 9 -й конференции по вычислительной лингвистике . Тол. 1. С. 127–32. doi : 10.3115/991813.991833 . S2CID   6433117 .
  8. ^ «Неструктурированные данные и правило 80 процентов» . Прорывной анализ. Август 2008 . Получено 2015-02-23 .
  9. ^ Антунес, Жуао (2018-11-14). Исследование контекстной информации для семантического обогащения в текстовых представлениях (Мастер в области компьютерных наук и вычислительной математики) (по португальскому языку). Сан -Карлос: Университет Сан -Паулу. Doi : 10.11606/d.55.2019.tde-03012019-103253 .
  10. ^ Моро, Андреа; Раганато, Алессандро; Navigli, Roberto (декабрь 2014 г.). «Связь сущности соответствует смысл слов неоднозначности: единый подход» . Транзакции Ассоциации по вычислительной лингвистике . 2 : 231–244. doi : 10.1162/tacl_a_00179 . ISSN   2307-387X .
  11. ^ Чанг, Вуи Ли; Тай, Кай Мэн; Лим, Чи Пэн (2017-02-06). «Новая развивающаяся модель на основе дерева с локальным повторным обучением для кластеризации и визуализации документов». Нейронные обработки букв . 46 (2): 379–409. doi : 10.1007/s11063-017-9597-3 . ISSN   1370-4621 . S2CID   9100902 .
  12. ^ Бенджамол, Джонатан; Казиньник, София; Саадон, Йосси (2022). «Методологии добычи текста с R: применение в текстовых текстах центрального банка» . Машинное обучение с приложениями . 8 : 100286. DOI : 10.1016/j.mlwa.2022.100286 . S2CID   243798160 .
  13. ^ Мел, Матиас Р. (2006). «Количественный анализ текста». Справочник по мультиметодному измерению в психологии . п. 141. doi : 10.1037/11383-011 . ISBN  978-1-59147-318-3 .
  14. ^ Панг, Бо; Ли, Лилиан (2008). «Анализ добычи мнений и настроений». Фонды и тенденции в поиске информации . 2 (1–2): 1–135. Citeseerx   10.1.1.147.2755 . DOI : 10.1561/1500000011 . ISSN   1554-0669 . S2CID   207178694 .
  15. ^ Paltoglou, Georgios; Thelwall, Mike (2012-09-01). «Twitter, Myspace, Digg: анализ неконтролируемых настроений в социальных сетях». Транзакции ACM по интеллектуальным системам и технологиям . 3 (4): 66. doi : 10.1145/2337542.2337551 . ISSN   2157-6904 . S2CID   16600444 .
  16. ^ «Анализ настроений в Twitter <Semeval-2017 Задача 4» . alt.qcri.org . Получено 2018-10-02 .
  17. ^ Занаси, Алессандро (2009). «Виртуальное оружие для реальных войн: добыча текста для национальной безопасности». Материалы Международного семинара по вычислительной интеллекте в области безопасности для информационных систем Cisis'08 . Достижения в мягких вычислениях. Тол. 53. с. 53. doi : 10.1007/978-3-540-88181-0_7 . ISBN  978-3-540-88180-3 .
  18. ^ Бадал, Варша Д.; Kundrotas, Petras J.; Vakser, Ilya A. (2015-12-09). «Текст -майнинга для белковой стыковки» . PLOS Computational Biology . 11 (12): E1004630. BIBCODE : 2015PLSCB..11E4630B . doi : 10.1371/journal.pcbi.1004630 . ISSN   1553-7358 . PMC   4674139 . PMID   26650466 .
  19. ^ Коэн, К. Бретоннел; Хантер, Лоуренс (2008). «Начало работы в добыче текста» . PLOS Computational Biology . 4 (1): E20. Bibcode : 2008plscb ... 4 ... 20с . doi : 10.1371/journal.pcbi.0040020 . PMC   2217579 . PMID   18225946 .
  20. ^ Бадал, В. Д; Kundrotas, P. J; Vakser, I. A (2015). «Текст -майнинга для белковой стыковки» . PLOS Computational Biology . 11 (12): E1004630. BIBCODE : 2015PLSCB..11E4630B . doi : 10.1371/journal.pcbi.1004630 . PMC   4674139 . PMID   26650466 .
  21. ^ Папаниколау, Николас; Павлопулос, Джорджиос А.? Теодосиу, Теодосиос; Iliopoulos, ioannis (2015). «Прогнозы взаимодействия белка - белок с использованием методов добычи текста». Методы 74 : 47–53. Doi : 10.1016/j.ymeth.2014.10.026 . ISSN   1046-2023 . PMID   25448298 .
  22. ^ Шкларцик, Дамиан; Моррис, Джон Х; Кук, Хелен; Кун, Майкл; Уайдер, Стефан; Симонович, Милан; Сантос, Альберто; Doncheva, Nadezhda T; Рот, Александр (2016-10-18). «База данных String в 2017 году: сети, контролируемые качеством белков-белковой ассоциации, стали широко доступными» . Исследование нуклеиновых кислот . 45 (D1): D362 - D368. doi : 10.1093/nar/gkw937 . ISSN   0305-1048 . PMC   5210637 . PMID   27924014 .
  23. ^ Liem, David A.; Мурали, Санджана; Сигдель, Дибакар; Ши, Ю; Ван, Сюань; Шен, Джиамин; Чой, Говард; Кауфилд, Джон Х.; Ван, Вэй; Пинг, Пипеи; Хан, Цзявей (2018-10-01). «Фраза добыча текстовых данных для анализа паттернов белка внеклеточного матрикса по сердечно -сосудистым заболеваниям» . Американский журнал физиологии. Сердечная и циркуляторная физиология . 315 (4): H910 - H924. doi : 10.1152/ajpheart.00175.2018 . ISSN   1522-1539 . PMC   6230912 . PMID   29775406 .
  24. ^ Ван Ле, D; Монтгомери, J; Киркби, KC; Scanlan, J (10 августа 2018 г.). «Прогноз риска с использованием обработки естественного языка электронных психиатрических карт в стационарной криминалистической психиатрии» . Журнал биомедицинской информатики . 86 : 49–58. doi : 10.1016/j.jbi.2018.08.007 . PMID   30118855 .
  25. ^ Jenssen, Tor-Kristian; Lægreid, Astrid; Коморовский, Ян; Hovig, Eivind (2001). «Литературная сеть генов человека для высокопроизводительного анализа экспрессии генов». Природа генетика . 28 (1): 21–8. doi : 10.1038/ng0501-21 . PMID   11326270 . S2CID   8889284 .
  26. ^ Masys, Daniel R. (2001). «Связывание данных микрочипа с литературой». Природа генетика . 28 (1): 9–10. doi : 10.1038/ng0501-9 . PMID   11326264 . S2CID   52848745 .
  27. ^ Ренганатан, Vinaitheerthan (2017). «Майнинг текста в биомедицинской области с акцентом на кластеризацию документов» . Исследование информатики в области здравоохранения . 23 (3): 141–146. doi : 10.4258/hir.2017.23.3.141 . ISSN   2093-3681 . PMC   5572517 . PMID   28875048 .
  28. ^ [3] Архивировано 4 октября 2013 г., на машине Wayback
  29. ^ «Текстовая аналитика» . Medallia . Получено 2015-02-23 .
  30. ^ Jump up to: а беременный Кус, Кристоф; Ван ден Поэль, Дирк (2008). «Интеграция голоса клиентов через электронные письма Call Center в систему поддержки принятия решений для прогнозирования оттока» . Информация и управление . 45 (3): 164–74. Citeseerx   10.1.1.113.3238 . doi : 10.1016/j.im.2008.01.005 .
  31. ^ Кус, Кристоф; Ван ден Поэль, Дирк (2008). «Улучшение управления жалобами клиентов путем автоматической классификации электронной почты с использованием функций языкового стиля в качестве предикторов» . Системы поддержки решений . 44 (4): 870–82. doi : 10.1016/j.dss.2007.10.010 .
  32. ^ Рамиро Х. Галвес; Агустин Гравано (2017). «Оценка полезности добычи доски онлайн -доски в автоматических системах прогнозирования запасов». Журнал вычислительной науки . 19 : 1877–7503. doi : 10.1016/j.jocs.2017.01.001 . HDL : 11336/60065 .
  33. ^ Панг, Бо; Ли, Лилиан; Vaithyanathan, Shivakumar (2002). "Недурно?". Труды конференции ACL-02 по эмпирическим методам в обработке естественного языка . Тол. 10. С. 79–86. doi : 10.3115/1118693.1118704 . S2CID   7105713 .
  34. ^ Алессандро Валитутти; Карло Страпарава; Oliviero Stock (2005). «Развитие аффективных лексических ресурсов» (PDF) . Психологический журнал . 2 (1): 61–83.
  35. ^ Эрик Камбрия; Роберт Спеер; Кэтрин Хаваси; Амир Хуссейн (2010). «Senticnet: общедоступный семантический ресурс для добычи мнений» (PDF) . Труды AAAI CSK . С. 14–18.
  36. ^ Кальво, Рафаэль А; D'Emello, Sidney (2010). «Обнаружение аффекта: междисциплинарный обзор моделей, методов и их приложений». IEEE транзакции на аффективные вычисления . 1 (1): 18–37. doi : 10.1109/t-affc.2010.1 . S2CID   753606 .
  37. ^ «Манчестерский университет» . Manchester.ac.uk . Получено 2015-02-23 .
  38. ^ "Tsujii Laboratory" . Tsujii.is.su-tokyo.ac.jp. Архивировано с оригинала 2012-03-07 . Получено 2015-02-23 .
  39. ^ «Университет Токио» . Утокио . Получено 2015-02-23 .
  40. ^ Шэньчжэнь, ; Jiaming .  978-1-4503-5657-2 Полем S2CID   13748283 .
  41. ^ Уолтер, Лотар; Радауэр, Альфред; Moehrle, Martin G. (2017-02-06). «Красота бабочки Brimstone: новизна патентов, идентифицированная с помощью анализа ближнего окружающей среды на основе добычи текста». Scientometrics . 111 (1): 103–115. doi : 10.1007/s11192-017-2267-4 . ISSN   0138-9130 . S2CID   11174676 .
  42. ^ Roll, Uri; Correia, Ricardo A.; Berger-Tal, Oded (2018-03-10). «Использование машинного обучения для распутывания омонимов в крупных текстовых корпусах». Биология сохранения . 32 (3): 716–724. doi : 10.1111/cobi.13044 . ISSN   0888-8892 . PMID   29086438 . S2CID   3783779 .
  43. ^ Jump up to: а беременный Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа; S Sudhahar, Ga Veltri, N Cristianini; Большие данные и общество 2 (1), 1-28, 2015
  44. ^ Анализ сетевого повествовательного содержания в крупных корпусах; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Инженерия естественного языка, 1-32, 2013
  45. ^ Количественный повествовательный анализ; Роберто Франзози; Университет Эмори © 2010
  46. ^ Лансдалл-Веса, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Команда, Findmypast газета; Cristianini, Nello (2017-01-09). «Контент -анализ 150 лет британских периодических изданий» . Труды Национальной академии наук . 114 (4): E457 - E465. BIBCODE : 2017PNAS..114E.457L . doi : 10.1073/pnas.1606380114 . ISSN   0027-8424 . PMC   5278459 . PMID   28069962 .
  47. ^ I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. de Bie, N. Mosdell, J. Lewis, N. Cristianini, Структура Eu Mediassphere, Plos One, vol. 5 (12), с. E14243, 2010.
  48. ^ СОВЕРШЕНИЯ событий из социальной сети со статистическим обучением V Лампос, N Cristianini; Транзакции ACM по интеллектуальным системам и технологиям (TIST) 3 (4), 72
  49. ^ Ноам: система анализа и мониторинга новостей; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. Международной конференции ACM SIGMOD 2011 года по управлению данными
  50. ^ Автоматическое обнаружение шаблонов в медиа-контенте, N Cristianini, сопоставление комбинаторных схем, 2-13, 2011
  51. ^ I. Flaounas, O. Ali, T. Lansdall-Welfare, T. de Bie, N. Mosdell, J. Lewis, N. Cristianini, Методы исследований в эпоху цифровой журналистики, цифровой журналистики, Routledge, 2012
  52. ^ Циркадные вариации настроения в контенте в Твиттере; Фабон Дзоганг, Стаффорд Лайтман, Нелло Криштианини. Достижения в мозге и нейробиологии, 1, 2398212817744501.
  53. ^ Влияние рецессии на общественное настроение в Великобритании; T Lansdall-Welfare, V Lampos, N Cristianini; Сессия динамики динамики социальной сети (MSND) в приложениях социальных сетей
  54. ^ Исследователи, которые дают данные прямо в соответствии с новыми британскими законами об авторском праве, архивированы 9 июня 2014 года на машине Wayback
  55. ^ «Лицензии на Европу - Структурированный диалог заинтересованных сторон 2013» . Европейская комиссия . Получено 14 ноября 2014 года .
  56. ^ «Текст и добыча данных: его важность и потребность в изменениях в Европе» . Ассоциация европейских исследовательских библиотек . 2013-04-25. Архивировано из оригинала 2014-11-29 . Получено 14 ноября 2014 года .
  57. ^ «Судья предоставляет суммарное суждение в пользу Google Books - победы справедливого использования» . Лексология . Antonelli Law Ltd. 19 ноября 2013 года . Получено 14 ноября 2014 года .
  58. ^ «Текст и интеллектуальный анализ данных» . Австралийская комиссия по реформе права . 4 июня 2013 года . Получено 10 февраля 2023 года .

Источники

[ редактировать ]
  • Ananiadou, S. and McNaught, J. (редакторы) (2006). Текст добыча для биологии и биомедицины . Artech House Books. ISBN   978-1-58053-984-5
  • Bilisoly, R. (2008). Практический текст добычи с перлом . Нью -Йорк: Джон Уайли и сыновья. ISBN   978-0-470-17643-6
  • Feldman, R. и Sanger, J. (2006). Справочник по добыче текста . Нью -Йорк: издательство Кембриджского университета. ISBN   978-0-521-83657-9
  • Хото А., Нюрнбергер А. и Паас Г. (2005). «Краткий обзор добычи текста». На форуме LDV, вып. 20 (1), с. 19-62
  • Indurkhya, N. и Damerau, F. (2010). Справочник по обработке естественного языка , 2 -е издание. Boca Raton, FL: CRC Press. ISBN   978-1200-8592-1
  • Као, А. и Потет С. (редакторы). Обработка естественного языка и добыча текста . Спрингер. ISBN   1-84628-175-X
  • Konchady, M. Программирование приложения для майнинга текста (серия программирования) . Чарльз Ривер СМИ. ISBN   1-58450-460-9
  • Manning, C. и Schutze, H. (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. ISBN   978-0-262-1360-9
  • Miner, G., Elder, J., Hill. T, Nisbet R., Delen, D. and Fast, A. (2012). Практическая добыча текста и статистический анализ для неструктурированных приложений текстовых данных . Elsevier Academic Press. ISBN   978-0-12-386979-1
  • McKnight, W. (2005). «Создание бизнес -аналитики: интеллектуальный анализ текстовых данных в бизнес -аналитике». Обзор DM , 21-22.
  • Шривастава А. и Саами. М. (2009). Майнинг текста: классификация, кластеризация и приложения . Boca Raton, FL: CRC Press. ISBN   978-1200-5940-3
  • Занаси А. (редактор) (2007). Добыча текста и его приложения к интеллекту, CRM и управлению знаниями . Остроумие пресс. ISBN   978-1-84564-131-3
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f239efb8ed6bde1684f07ab12b9d2280__1722210540
URL1:https://arc.ask3.ru/arc/aa/f2/80/f239efb8ed6bde1684f07ab12b9d2280.html
Заголовок, (Title) документа по адресу, URL1:
Text mining - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)