Jump to content

Анализ текста

(Перенаправлено из текстовой аналитики )

Интеллектуальный анализ текста , анализ текстовых данных ( TDM ) или текстовая аналитика — это процесс извлечения высококачественной информации из текста . Он предполагает «открытие компьютером новой, ранее неизвестной информации путем автоматического извлечения информации из различных письменных ресурсов». [1] Письменные ресурсы могут включать веб-сайты , книги , электронные письма , обзоры и статьи. Высококачественная информация обычно получается путем выявления закономерностей и тенденций с помощью таких средств, как изучение статистических закономерностей . По данным Хото и др. (2005) мы можем различать три различных подхода к интеллектуальному анализу текста: извлечение информации , интеллектуальный анализ данных и процесс обнаружения знаний в базах данных (KDD). [2] Интеллектуальный анализ текста обычно включает в себя процесс структурирования входного текста (обычно синтаксический анализ вместе с добавлением некоторых производных лингвистических функций и удалением других, а также последующую вставку в базу данных ), получение шаблонов в структурированных данных и, наконец, оценку и интерпретацию. вывода. «Высокое качество» в интеллектуальном анализе текста обычно означает некоторую комбинацию релевантности , новизны и интереса. Типичные задачи интеллектуального анализа текста включают категоризацию текста , кластеризацию текста , извлечение концепций/сущностей, создание детальной таксономии, анализ настроений , обобщение документов и моделирование отношений сущностей ( т. е . изучение связей между именованными сущностями ).

Анализ текста включает в себя поиск информации , лексический анализ для изучения распределения частот слов, распознавание образов , тегирование / аннотации , извлечение информации , методы интеллектуального анализа данных , включая анализ связей и ассоциаций, визуализацию и прогнозную аналитику . Основная цель, по сути, состоит в том, чтобы превратить текст в данные для анализа с помощью применения обработки естественного языка (НЛП), различных типов алгоритмов и аналитических методов. Важным этапом этого процесса является интерпретация собранной информации.

Типичным применением является сканирование набора документов, написанных на естественном языке , и либо моделирование набора документов для целей прогнозной классификации , либо заполнение базы данных или поискового индекса извлеченной информацией. Документ . является основным элементом при начале анализа текста Здесь мы определяем документ как единицу текстовых данных, которая обычно существует во многих типах коллекций. [3]

Текстовая аналитика

[ редактировать ]

Текстовый анализ описывает набор лингвистических , статистических и машинных методов обучения, которые моделируют и структурируют информационный контент текстовых источников для бизнес-аналитики , исследовательского анализа данных , исследований или расследований. [4] Этот термин является примерно синонимом интеллектуального анализа текста; действительно, Ронен Фельдман изменил описание «интеллектуального анализа текста» 2000 года. [5] в 2004 году для описания «текстовой аналитики». [6] Последний термин сейчас чаще используется в бизнес-среде, тогда как «интеллектуальный анализ текста» используется в некоторых из самых ранних областей применения, начиная с 1980-х годов. [7] особенно исследования в области наук о жизни и правительственная разведка.

Термин «текстовая аналитика» также описывает применение текстовой аналитики для реагирования на бизнес-проблемы независимо или в сочетании с запросом и анализом полевых числовых данных. Общеизвестно, что 80 процентов деловой информации возникает в неструктурированной форме, в основном в текстовой форме. [8] Эти методы и процессы обнаруживают и представляют знания – факты, бизнес-правила и отношения – которые в противном случае заперты в текстовой форме и недоступны для автоматической обработки.

Процессы анализа текста

[ редактировать ]

Подзадачи — компоненты более масштабной работы по анализу текста — обычно включают в себя:

  • Уменьшение размерности является важным методом предварительной обработки данных. Этот метод используется для определения корневого слова реальных слов и уменьшения размера текстовых данных. [ нужна ссылка ]
  • Поиск информации или идентификация корпуса это подготовительный этап: сбор или идентификация набора текстовых материалов, находящихся в Интернете или хранящихся в файловой системе , базе данных или менеджере корпуса контента , для анализа.
  • Хотя некоторые системы анализа текста применяют исключительно передовые статистические методы, многие другие применяют более обширную обработку естественного языка , такую ​​как часть речевых тегов , синтаксический анализ и другие виды лингвистического анализа. [9]
  • Распознавание именованного объекта — это использование справочников или статистических методов для идентификации названных элементов текста: людей, организаций, географических названий, биржевых символов, определенных сокращений и т. д.
  • Устранение неоднозначности — использование контекстуальных подсказок — может потребоваться, чтобы решить, где, например, «Форд» может относиться к бывшему президенту США, производителю автомобилей, кинозвезде, переправе через реку или какому-либо другому объекту. [10]
  • Распознавание объектов, идентифицируемых по шаблону. Такие функции, как номера телефонов, адреса электронной почты, количества (с единицами измерения), можно распознать с помощью регулярных выражений или других сопоставлений с шаблонами .
  • Кластеризация документов : идентификация наборов похожих текстовых документов. [11]
  • Кореферентность : идентификация именной группы и других терминов, относящихся к одному и тому же объекту.
  • Связь, факт и событие. Извлечение: выявление ассоциаций между объектами и другой информацией в текстах.
  • Анализ настроений включает в себя различение субъективного (в отличие от фактического) материала и извлечение различных форм информации об отношениях: чувств, мнений, настроений и эмоций. Методы анализа текста помогают анализировать настроения на уровне сущности, концепции или темы и различать держателей мнений и объектов. [12]
  • Количественный анализ текста — это набор методов, зародившихся в социальных науках, где либо человек-судья, либо компьютер извлекает семантические или грамматические отношения между словами, чтобы выяснить значение или стилистические закономерности, обычно случайного личного текста, с целью психологическое профилирование и т. д. [13]
  • Предварительная обработка обычно включает в себя такие задачи, как токенизация, фильтрация и стемминг.

Приложения

[ редактировать ]

Технология интеллектуального анализа текста в настоящее время широко применяется для решения широкого круга задач правительства, исследований и бизнеса. Все эти группы могут использовать анализ текста для управления записями и поиска документов, имеющих отношение к их повседневной деятельности. юристы могут использовать интеллектуальный анализ текста для обнаружения электронных данных Например, . Правительства и военные группировки используют анализ текста в целях национальной безопасности и разведки. Научные исследователи включают подходы интеллектуального анализа текста в усилия по организации больших наборов текстовых данных (т. е. решению проблемы неструктурированных данных ), для определения идей, передаваемых через текст (например, анализ настроений в социальных сетях). [14] [15] [16] ) и поддерживать научные открытия в таких областях, как науки о жизни и биоинформатика . В бизнесе приложения используются для поддержки конкурентной разведки и автоматического размещения рекламы , а также для множества других действий.

Приложения безопасности

[ редактировать ]

Многие пакеты программного обеспечения для интеллектуального анализа текста продаются для приложений безопасности , особенно для мониторинга и анализа онлайн-источников простого текста, таких как новости Интернета , блоги и т. д., в целях национальной безопасности . [17] Он также занимается изучением шифрования / дешифрования текста .

Биомедицинские приложения

[ редактировать ]
Блок-схема протокола интеллектуального анализа текста.
Пример протокола интеллектуального анализа текста, используемого при исследовании белково-белковых комплексов, или докинга белков . [18]

В биомедицинской литературе был описан ряд приложений для интеллектуального анализа текста: [19] включая вычислительные подходы для помощи в исследованиях стыковки белков , [20] белковые взаимодействия , [21] [22] и ассоциации белковых заболеваний. [23] Кроме того, благодаря большим наборам текстовых данных о пациентах в клинической области, наборам демографических данных в популяционных исследованиях и отчетам о нежелательных явлениях интеллектуальный анализ текста может облегчить клинические исследования и точную медицину. Алгоритмы интеллектуального анализа текста могут облегчить стратификацию и индексацию конкретных клинических событий в больших наборах текстовых данных пациентов о симптомах, побочных эффектах и ​​сопутствующих заболеваниях из электронных медицинских карт, отчетов о событиях и отчетов о конкретных диагностических тестах. [24] Одним из онлайн-приложений для интеллектуального анализа текста в биомедицинской литературе является PubGene , общедоступная поисковая система , которая сочетает в себе биомедицинский анализ текста с сетевой визуализацией. [25] [26] GoPubMed — это основанная на знаниях поисковая система по биомедицинским текстам. Методы интеллектуального анализа текста также позволяют нам извлекать неизвестные знания из неструктурированных документов в клинической области. [27]

Программные приложения

[ редактировать ]

Методы и программное обеспечение для интеллектуального анализа текста также исследуются и разрабатываются крупными фирмами, включая IBM и Microsoft , для дальнейшей автоматизации процессов интеллектуального анализа и анализа, а также различными фирмами, работающими в области поиска и индексирования в целом, как способа улучшения своих результатов. . В государственном секторе много усилий было сосредоточено на создании программного обеспечения для отслеживания и мониторинга террористической деятельности . [28] В учебных целях программное обеспечение Weka является одним из самых популярных вариантов в научном мире и служит отличной отправной точкой для новичков. Для программистов Python существует отличный инструментарий NLTK для более общих целей. Для более продвинутых программистов есть также библиотека Gensim , которая фокусируется на текстовых представлениях на основе встраивания слов.

Приложения для онлайн-медиа

[ редактировать ]

Анализ текста используется крупными медиа-компаниями, такими как Tribune Company , для уточнения информации и предоставления читателям более удобных возможностей поиска, что, в свою очередь, увеличивает «прилипчивость» сайта и доходы. Кроме того, редакторы получают выгоду от возможности делиться, связывать и упаковывать новости между ресурсами, что значительно увеличивает возможности монетизации контента.

Бизнес и маркетинговые приложения

[ редактировать ]

Текстовая аналитика используется в бизнесе, в частности, в маркетинге, например, в управлении взаимоотношениями с клиентами . [29] Куссеман и Ван ден Поэль (2008) [30] [31] примените его для улучшения моделей прогнозной аналитики оттока клиентов ( истощения клиентов ). [30] Анализ текста также применяется для прогнозирования доходности акций. [32]

Анализ настроений

[ редактировать ]

Анализ настроений может включать анализ таких продуктов, как фильмы, книги или обзоры отелей, для оценки того, насколько благоприятным является отзыв о продукте. [33] Для такого анализа может потребоваться размеченный набор данных или маркировка эффективности слов . созданы ресурсы по эффективности слов и понятий. Для WordNet [34] и КонцептНет , [35] соответственно.

Текст использовался для обнаружения эмоций в соответствующей области аффективных вычислений. [36] Текстовые подходы к аффективным вычислениям использовались во многих корпусах, таких как оценки учащихся, детские рассказы и новости.

Научная литература по горному делу и академическое применение

[ редактировать ]

Проблема анализа текста важна для издателей, которые владеют большими базами данных с информацией, требующей индексации для поиска. Это особенно актуально для научных дисциплин, в которых в письменном тексте часто содержится весьма специфическая информация. Поэтому были предприняты такие инициативы, как предложение Nature по интерфейсу интеллектуального анализа открытого текста (OTMI) и (DTD) Национального института здравоохранения для публикации журнала общее определение типа документа , которое будет предоставлять машинам семантические подсказки для ответа на конкретные запросы, содержащиеся в текст, не снимая барьеров издателей для публичного доступа.

Академические учреждения также присоединились к инициативе интеллектуального анализа текста:

Методы добычи научной литературы

[ редактировать ]

Вычислительные методы были разработаны для помощи в поиске информации из научной литературы. Опубликованные подходы включают методы поиска, [40] определение новизны, [41] и уточнение омонимов [42] среди технических отчетов.

Цифровые гуманитарные науки и компьютерная социология

[ редактировать ]

Автоматический анализ обширных текстовых корпусов дал ученым возможность анализироватьмиллионы документов на нескольких языках с очень ограниченным ручным вмешательством. Ключевыми технологиями являются синтаксический анализ, машинный перевод тем , категоризация и машинное обучение.

Повествовательная сеть выборов в США 2012 г. [43]

Автоматический анализ текстовых корпусов позволил извлекать акторов и их реляционные сети в огромных масштабах, превращая текстовые данные в сетевые данные. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для выявления ключевых участников, ключевых сообществ или сторон, а также общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных узлы. [44] Это автоматизирует подход, представленный количественным нарративным анализом, [45] при этом тройки субъект-глагол-объект отождествляются с парами актеров, связанных действием, или парами, образованными актером-объектом. [43]

Контент-анализ уже давно стал традиционной частью социальных наук и медиаисследований. Автоматизация контент-анализа позволила совершить революцию « больших данных » в этой области: исследования социальных сетей и газетного контента включают миллионы новостей. Гендерная предвзятость , читабельность , сходство контента, предпочтения читателей и даже настроение были проанализированы на основе методов анализа текста на миллионах документов. [46] [47] [48] [49] [50] Анализ читабельности, гендерной предвзятости и тематической предвзятости был продемонстрирован Flaounas et al. [51] показывая, как разные темы имеют разные гендерные предубеждения и уровни читабельности; Также была продемонстрирована возможность выявления моделей настроения у огромной популяции путем анализа контента Twitter. [52] [53]

Программное обеспечение

[ редактировать ]

Компьютерные программы для интеллектуального анализа текста доступны во многих коммерческих компаниях и с открытым исходным кодом источниках .

Право интеллектуальной собственности

[ редактировать ]

Ситуация в Европе

[ редактировать ]
Видео кампании Fix Copyright, объясняющей TDM и проблемы авторского права в ЕС, 2016 г. [3:51]

Согласно европейским об авторском праве и законам базах данных , добыча произведений, защищенных авторскими правами (например, веб-майнинг ) без разрешения владельца авторских прав является незаконной. В Великобритании в 2014 году по рекомендации обзора Харгривса правительство внесло поправки в закон об авторском праве. [54] разрешить интеллектуальный анализ текста в качестве ограничения и исключения . Это была вторая страна в мире, сделавшая это после Японии , которая в 2009 году ввела исключение, касающееся горнодобывающей промышленности. Однако из-за ограничений Директивы об информационном обществе (2001 г.) исключение в Великобритании разрешает добычу контента только для целей, не связанных с добычей полезных ископаемых. коммерческих целях. Законодательство Великобритании об авторском праве не позволяет отменять это положение договорными условиями.

Европейская комиссия способствовала обсуждению заинтересованных сторон по интеллектуальному анализу текста и данных в 2013 году под названием «Лицензии для Европы». [55] Тот факт, что в решении этого юридического вопроса основное внимание уделялось лицензиям, а не ограничениям и исключениям из закона об авторском праве, заставил представителей университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинуть диалог с заинтересованными сторонами в мае 2013 года. [56]

Ситуация в США

[ редактировать ]

Закон США об авторском праве и, в частности, его положения о добросовестном использовании означают, что майнинг текста в Америке, а также в других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея, считается законным. Поскольку интеллектуальный анализ текста является преобразующим, то есть не заменяет оригинальную работу, он считается законным при добросовестном использовании. Например, в рамках мирового соглашения по Google Book председательствующий судья постановил, что проект Google по оцифровке книг, защищенных авторскими правами, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки - одним из таких применений является интеллектуальный анализ текста и данных. . [57]

Ситуация в Австралии

[ редактировать ]

нет исключений В австралийском законе об авторском праве для интеллектуального анализа текста или данных в рамках Закона об авторском праве 1968 года . Австралийская комиссия по реформе законодательства отметила, что маловероятно, что исключение в отношении добросовестной деловой практики в отношении «исследований и исследований» будет распространяться и на такую ​​тему, поскольку оно будет выходить за рамки требования «разумной доли». [58]

Подразумеваемое

[ редактировать ]

До недавнего времени веб-сайты чаще всего использовали текстовый поиск, при котором находили только документы, содержащие определенные пользователем слова или фразы. Теперь, благодаря использованию семантической сети , анализ текста может находить контент на основе значения и контекста (а не только по конкретному слову). Кроме того, программное обеспечение для интеллектуального анализа текста можно использовать для создания больших досье информации о конкретных людях и событиях. Например, можно создавать большие наборы данных на основе данных, извлеченных из новостных сообщений, для облегчения анализа социальных сетей или контрразведки . По сути, программное обеспечение для анализа текста может действовать в качестве аналитика разведки или библиотекаря-исследователя, хотя и с более ограниченным объемом анализа. Анализ текста также используется в некоторых спам-фильтрах электронной почты как способ определения характеристик сообщений, которые могут быть рекламой или другим нежелательным материалом. Анализ текста играет важную роль в определении настроений финансового рынка .

См. также

[ редактировать ]
  1. ^ «Марти Херст: Что такое анализ текста?» .
  2. ^ Хото А., Нюрнбергер А. и Паас Г. (2005). «Краткий обзор интеллектуального анализа текста». В Ldv Forum, Vol. 20(1), с. 19-62
  3. ^ Фельдман Р. и Сэнгер Дж. (2007). Руководство по текстовому майнингу. Издательство Кембриджского университета. Нью-Йорк
  4. ^ [1] Архивировано 29 ноября 2009 г. в Wayback Machine.
  5. ^ «Семинар KDD-2000 по интеллектуальному анализу текста - прием докладов» . Cs.cmu.edu . Проверено 23 февраля 2015 г.
  6. ^ [2] Архивировано 3 марта 2012 г., в Wayback Machine.
  7. ^ Хоббс, Джерри Р.; Уокер, Дональд Э.; Амслер, Роберт А. (1982). «Доступ к структурированному тексту на естественном языке». Материалы 9-й конференции по компьютерной лингвистике . Том. 1. С. 127–32. дои : 10.3115/991813.991833 . S2CID   6433117 .
  8. ^ «Неструктурированные данные и правило 80 процентов» . Прорывной анализ. Август 2008 года . Проверено 23 февраля 2015 г.
  9. ^ Антунес, Жуан (14 ноября 2018 г.). Использование контекстной информации для семантического обогащения текстовых представлений (дипломная работа на степень магистра в области компьютерных наук и вычислительной математики) (на португальском языке). Сан-Карлос: Университет Сан-Паулу. doi : 10.11606/d.55.2019.tde-03012019-103253 .
  10. ^ Моро, Андреа; Раганато, Алессандро; Навильи, Роберто (декабрь 2014 г.). «Связывание сущностей и устранение неоднозначности смысла слов: единый подход» . Труды Ассоциации компьютерной лингвистики . 2 : 231–244. дои : 10.1162/tacl_a_00179 . ISSN   2307-387X .
  11. ^ Чанг, Уи Ли; Тай, Кай Мэн; Лим, Чи Пэн (06 февраля 2017 г.). «Новая развивающаяся древовидная модель с локальным повторным обучением для кластеризации и визуализации документов». Нейронная обработка писем . 46 (2): 379–409. дои : 10.1007/s11063-017-9597-3 . ISSN   1370-4621 . S2CID   9100902 .
  12. ^ Бенчимол, Джонатан; Казинник, Софья; Саадон, Йоси (2022). «Методологии интеллектуального анализа текста с помощью R: приложение к текстам центральных банков» . Машинное обучение с приложениями . 8 : 100286. дои : 10.1016/j.mlwa.2022.100286 . S2CID   243798160 .
  13. ^ Мель, Матиас Р. (2006). «Количественный анализ текста». Справочник по мультиметодическому измерению в психологии . п. 141. дои : 10.1037/11383-011 . ISBN  978-1-59147-318-3 .
  14. ^ Панг, Бо; Ли, Лилиан (2008). «Анализ мнений и анализ настроений». Основы и тенденции в области информационного поиска . 2 (1–2): 1–135. CiteSeerX   10.1.1.147.2755 . дои : 10.1561/1500000011 . ISSN   1554-0669 . S2CID   207178694 .
  15. ^ Палтоглу, Георгиос; Телуолл, Майк (1 сентября 2012 г.). «Twitter, MySpace, Digg: неконтролируемый анализ настроений в социальных сетях». Транзакции ACM в интеллектуальных системах и технологиях . 3 (4): 66. дои : 10.1145/2337542.2337551 . ISSN   2157-6904 . S2CID   16600444 .
  16. ^ «Анализ настроений в Твиттере < SemEval-2017, Задание 4» . alt.qcri.org . Проверено 02 октября 2018 г.
  17. ^ Занаси, Алессандро (2009). «Виртуальное оружие для реальных войн: анализ текста в целях национальной безопасности». Материалы международного семинара по вычислительному интеллекту в обеспечении безопасности информационных систем CISIS'08 . Достижения в области мягких вычислений. Том. 53. с. 53. дои : 10.1007/978-3-540-88181-0_7 . ISBN  978-3-540-88180-3 .
  18. ^ Бадал, Варша Д.; Кундротас, Пятрас Дж.; Ваксер, Илья А. (09 декабря 2015 г.). «Интеллектуальный анализ текста для стыковки белков» . PLOS Вычислительная биология . 11 (12): e1004630. Бибкод : 2015PLSCB..11E4630B . дои : 10.1371/journal.pcbi.1004630 . ISSN   1553-7358 . ПМЦ   4674139 . ПМИД   26650466 .
  19. ^ Коэн, К. Бретоннель; Хантер, Лоуренс (2008). «Начало работы с текстовым анализом» . PLOS Вычислительная биология . 4 (1): е20. Бибкод : 2008PLSCB...4...20C . дои : 10.1371/journal.pcbi.0040020 . ПМК   2217579 . ПМИД   18225946 .
  20. ^ Бадал В.Д.; Кундротас, П.Дж.; Ваксер, И. А (2015). «Интеллектуальный анализ текста для стыковки белков» . PLOS Вычислительная биология . 11 (12): e1004630. Бибкод : 2015PLSCB..11E4630B . дои : 10.1371/journal.pcbi.1004630 . ПМЦ   4674139 . ПМИД   26650466 .
  21. ^ Папаниколау, Николас; Павлопулос, Георгиос А.; Феодосиу, Феодосий; Илиопулос, Иоаннис (2015). «Прогнозирование межбелкового взаимодействия с использованием методов анализа текста». Методы . 74 : 47–53. дои : 10.1016/j.ymeth.2014.10.026 . ISSN   1046-2023 . ПМИД   25448298 .
  22. ^ Шклярчик, Дамиан; Моррис, Джон Х; Кук, Хелен; Кун, Майкл; Уайдер, Стефан; Симонович, Милан; Сантос, Альберто; Дончева, Надежда Т; Рот, Александр (18 октября 2016 г.). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством стали широко доступными» . Исследования нуклеиновых кислот . 45 (Д1): Д362–Д368. дои : 10.1093/nar/gkw937 . ISSN   0305-1048 . ПМК   5210637 . ПМИД   27924014 .
  23. ^ Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кофилд, Джон Х.; Ван, Вэй; Пинг, Пейбэй; Хан, Цзявэй (01 октября 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. дои : 10.1152/ajpheart.00175.2018 . ISSN   1522-1539 . ПМК   6230912 . ПМИД   29775406 .
  24. ^ Ван Ле, защитник; Монтгомери, Дж; Киркби, КК; Сканлан, Дж. (10 августа 2018 г.). «Прогнозирование риска с использованием обработки естественного языка электронных записей о психическом здоровье в условиях стационарной судебной психиатрии» . Журнал биомедицинской информатики . 86 : 49–58. дои : 10.1016/j.jbi.2018.08.007 . ПМИД   30118855 .
  25. ^ Йенссен, Тор-Кристиан; Легрейд, Астрид; Коморовский, Ян; Ховиг, Эйвинд (2001). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Природная генетика . 28 (1): 21–8. дои : 10.1038/ng0501-21 . ПМИД   11326270 . S2CID   8889284 .
  26. ^ Масис, Дэниел Р. (2001). «Связывание данных микрочипов с литературой». Природная генетика . 28 (1): 9–10. дои : 10.1038/ng0501-9 . ПМИД   11326264 . S2CID   52848745 .
  27. ^ Ренганатан, Винайтеэртан (2017). «Интеллектуальный анализ текста в биомедицинской сфере с упором на кластеризацию документов» . Исследования в области медицинской информатики . 23 (3): 141–146. дои : 10.4258/hir.2017.23.3.141 . ISSN   2093-3681 . ПМЦ   5572517 . ПМИД   28875048 .
  28. ^ [3] Архивировано 4 октября 2013 г., в Wayback Machine.
  29. ^ «Текстовая аналитика» . Медальия . Проверено 23 февраля 2015 г.
  30. ^ Перейти обратно: а б Куссеман, Кристоф; Ван Ден Поэл, Дирк (2008). «Интеграция голоса клиентов через электронную почту колл-центра в систему поддержки принятия решений для прогнозирования оттока» . Информация и управление . 45 (3): 164–74. CiteSeerX   10.1.1.113.3238 . дои : 10.1016/j.im.2008.01.005 .
  31. ^ Куссеман, Кристоф; Ван Ден Поэл, Дирк (2008). «Улучшение управления жалобами клиентов за счет автоматической классификации электронной почты с использованием функций лингвистического стиля в качестве предикторов» . Системы поддержки принятия решений . 44 (4): 870–82. дои : 10.1016/j.dss.2007.10.010 .
  32. ^ Рамиро Х. Гальвес; Агустин Гравано (2017). «Оценка полезности онлайн-анализа досок объявлений в автоматических системах прогнозирования запасов». Журнал вычислительной науки . 19 : 1877–7503. дои : 10.1016/j.jocs.2017.01.001 . hdl : 11336/60065 .
  33. ^ Панг, Бо; Ли, Лилиан; Вайтьянатан, Шивакумар (2002). "Недурно?". Материалы конференции ACL-02 «Эмпирические методы обработки естественного языка» . Том. 10. С. 79–86. дои : 10.3115/1118693.1118704 . S2CID   7105713 .
  34. ^ Алессандро Валитутти; Карло Страппарава; Оливьеро Сток (2005). «Развитие аффективных лексических ресурсов» (PDF) . Психологический журнал . 2 (1): 61–83.
  35. ^ Эрик Камбрия; Роберт Спир; Кэтрин Хаваси; Амир Хусейн (2010). «SenticNet: общедоступный семантический ресурс для анализа мнений» (PDF) . Труды АААИ ЦСК . стр. 14–18.
  36. ^ Кальво, Рафаэль А; д'Мелло, Сидни (2010). «Обнаружение аффекта: междисциплинарный обзор моделей, методов и их приложений». Транзакции IEEE для аффективных вычислений . 1 (1): 18–37. дои : 10.1109/T-AFFC.2010.1 . S2CID   753606 .
  37. ^ «Манчестерский университет» . Manchester.ac.uk . Проверено 23 февраля 2015 г.
  38. ^ «Лаборатория Цудзи» . Tsujii.is.su-tokyo.ac.jp. Архивировано из оригинала 7 марта 2012 г. Проверено 23 февраля 2015 г.
  39. ^ «Токийский университет» . УТокё . Проверено 23 февраля 2015 г.
  40. ^ Шен, Цзямин; Сяо, Цзиньфэн; Он, Синьвэй; Шан, Цзинбо; Синха, Саураб; Хан, Цзявэй (27 июня 2018 г.). Поиск по набору сущностей в научной литературе: неконтролируемый подход к ранжированию . АКМ. стр. 565–574. дои : 10.1145/3209978.3210055 . ISBN  978-1-4503-5657-2 . S2CID   13748283 .
  41. ^ Уолтер, Лотар; Радауэр, Альфред; Мёрле, Мартин Г. (06 февраля 2017 г.). «Красота серной бабочки: новизна патентов, выявленных с помощью анализа окружающей среды на основе анализа текста». Наукометрия . 111 (1): 103–115. дои : 10.1007/s11192-017-2267-4 . ISSN   0138-9130 . S2CID   11174676 .
  42. ^ Ролл, Ури; Коррейя, Рикардо А.; Бергер-Таль, Одед (10 марта 2018 г.). «Использование машинного обучения для распутывания омонимов в больших текстовых корпусах». Биология сохранения . 32 (3): 716–724. дои : 10.1111/cobi.13044 . ISSN   0888-8892 . ПМИД   29086438 . S2CID   3783779 .
  43. ^ Перейти обратно: а б Автоматизированный анализ президентских выборов в США с использованием больших данных и сетевого анализа; С. Судхахар, Г. А. Велтри, Н. Кристианини; Большие данные и общество 2 (1), 1–28, 2015 г.
  44. ^ Сетевой анализ повествовательного контента в крупных корпусах; С. Судхахар, Г. Де Фацио, Р. Францози, Н. Кристианини; Инженерия естественного языка, 1–32, 2013 г.
  45. ^ Количественный описательный анализ; Роберто Францози; Университет Эмори © 2010
  46. ^ Лансдалл-Велфэр, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Команда газеты FindMyPast; Кристианини, Нелло (9 января 2017 г.). «Контент-анализ британских периодических изданий за 150 лет» . Труды Национальной академии наук . 114 (4): Е457–Е465. Бибкод : 2017PNAS..114E.457L . дои : 10.1073/pnas.1606380114 . ISSN   0027-8424 . ПМЦ   5278459 . ПМИД   28069962 .
  47. ^ И. Флаунас, М. Турки, О. Али, Н. Файсон, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, Структура медиасферы ЕС, PLoS ONE, Vol. 5(12), стр. e14243, 2010.
  48. ^ Прогнозирование текущей погоды из социальной сети со статистическим обучениемВ. Лампос, Н. Кристианини; Транзакции ACM в интеллектуальных системах и технологиях (TIST) 3 (4), 72
  49. ^ NOAM: система анализа и мониторинга новостных агентств; И. Флаунас, О. Али, М. Турки, Т. Сноусилл, Ф. Никар, Т. Де Би, Н. Кристианини Proc. международной конференции ACM SIGMOD 2011 года по управлению данными
  50. ^ Автоматическое обнаружение закономерностей в медиаконтенте, Н. Кристианини, Сопоставление комбинаторных шаблонов, 2–13, 2011 г.
  51. ^ И. Флаунас, О. Али, Т. Лансдалл-Велфэр, Т. Де Би, Н. Мосделл, Дж. Льюис, Н. Кристианини, МЕТОДЫ ИССЛЕДОВАНИЯ В ЭПОХУ ЦИФРОВОЙ ЖУРНАЛИСТИКИ, Цифровая журналистика, Routledge, 2012
  52. ^ Циркадные вариации настроения в контенте Твиттера; Фабон Дзоганг, Стаффорд Лайтман, Нелло Кристианини. Достижения в области мозга и нейробиологии, 1, 2398212817744501.
  53. ^ Влияние рецессии на общественные настроения в Великобритании; Т. Лансдалл-Велфер, В. Лампос, Н. Кристианини; Сеанс Mining Social Network Dynamics (MSND) в приложениях социальных сетей
  54. Исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторском праве. Архивировано 9 июня 2014 г., в Wayback Machine.
  55. ^ «Лицензии для Европы – Структурированный диалог заинтересованных сторон 2013» . Европейская комиссия . Проверено 14 ноября 2014 г.
  56. ^ «Интеллектуальный анализ текста и данных: его важность и необходимость перемен в Европе» . Ассоциация европейских исследовательских библиотек . 25 апреля 2013 г. Архивировано из оригинала 29 ноября 2014 г. Проверено 14 ноября 2014 г.
  57. ^ «Судья выносит решение в порядке упрощенного судопроизводства в пользу Google Книги — победа в области добросовестного использования» . Лексология . Antonelli Law Ltd., 19 ноября 2013 г. Проверено 14 ноября 2014 г.
  58. ^ «Интеллектуальный анализ текста и данных» . Комиссия по реформе законодательства Австралии . 4 июня 2013 года . Проверено 10 февраля 2023 г.

Источники

[ редактировать ]
  • Ананиаду С. и Макнот Дж. (редакторы) (2006). Анализ текста для биологии и биомедицины . Книги Артех Хаус. ISBN   978-1-58053-984-5
  • Билисоли, Р. (2008). Практический анализ текста с помощью Perl . Нью-Йорк: Джон Уайли и сыновья. ISBN   978-0-470-17643-6
  • Фельдман Р. и Сэнгер Дж. (2006). Руководство по интеллектуальному анализу текста . Нью-Йорк: Издательство Кембриджского университета. ISBN   978-0-521-83657-9
  • Хото А., Нюрнбергер А. и Паас Г. (2005). «Краткий обзор интеллектуального анализа текста». В Ldv Forum, Vol. 20(1), с. 19-62
  • Индурхья Н. и Дамерау Ф. (2010). Справочник по обработке естественного языка , 2-е издание. Бока-Ратон, Флорида: CRC Press. ISBN   978-1-4200-8592-1
  • Као А. и Потит С. (редакторы). Обработка естественного языка и анализ текста . Спрингер. ISBN   1-84628-175-X
  • Кончади, М. Прикладное программирование интеллектуального анализа текста (Серия «Программирование») . Чарльз Ривер Медиа. ISBN   1-58450-460-9
  • Мэннинг К. и Шутце Х. (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press. ISBN   978-0-262-13360-9
  • Майнер Г., Элдер Дж., Хилл. Т., Нисбет Р., Делен Д. и Фаст А. (2012). Практический анализ текста и статистический анализ приложений с неструктурированными текстовыми данными . Эльзевир Академик Пресс. ISBN   978-0-12-386979-1
  • Макнайт, В. (2005). «Построение бизнес-аналитики: интеллектуальный анализ текстовых данных в бизнес-аналитике». Обзор ДМ , 21-22.
  • Шривастава А. и Сахами. М. (2009). Анализ текста: классификация, кластеризация и приложения . Бока-Ратон, Флорида: CRC Press. ISBN   978-1-4200-5940-3
  • Занаси, А. (редактор) (2007). Анализ текста и его применение в разведке, CRM и управлении знаниями . ВИТ Пресс. ISBN   978-1-84564-131-3
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 76f75c6b2e46190466c506c5934e6b83__1722210540
URL1:https://arc.ask3.ru/arc/aa/76/83/76f75c6b2e46190466c506c5934e6b83.html
Заголовок, (Title) документа по адресу, URL1:
Text mining - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)