Концепция майнинга
Концептуальный анализ — это деятельность, результатом которой является извлечение концепций из артефактов . Решения этой задачи обычно включают аспекты искусственного интеллекта и статистики , такие как интеллектуальный анализ данных и анализ текста . [ 1 ] [ 2 ] Поскольку артефакты обычно представляют собой слабо структурированную последовательность слов и других символов (а не понятий), проблема нетривиальна , но она может дать ценную информацию о значении, происхождении и сходстве документов.
Методы
[ редактировать ]Традиционно преобразование слов в понятия осуществлялось с помощью тезауруса . [ 3 ] и для вычислительных методов существует тенденция делать то же самое. Используемые тезаурусы либо специально созданы для этой задачи, либо уже существующая языковая модель, обычно связанная с WordNet Принстона .
Отображение слов в понятия [ 4 ] часто неоднозначны . Обычно каждое слово в данном языке относится к нескольким возможным понятиям. Люди используют контекст, чтобы устранить неоднозначность различных значений данного фрагмента текста, когда доступные системы машинного перевода не могут легко определить контекст.
Однако для целей интеллектуального анализа понятий эти двусмысленности, как правило, менее важны, чем при машинном переводе, поскольку в больших документах двусмысленности имеют тенденцию выравниваться, как и в случае с интеллектуальным анализом текста.
Существует множество методов устранения неоднозначности , которые можно использовать. Примерами являются лингвистический анализ текста и использование информации о частоте ассоциаций слов и понятий, которую можно вывести из больших текстовых корпусов. В последнее время появились и завоевали интерес в научном сообществе методы, основанные на семантическом сходстве возможных понятий и контекста.
Приложения
[ редактировать ]Обнаружение и индексирование аналогичных документов в больших массивах
[ редактировать ]Одним из побочных эффектов расчета статистики документов в области понятий, а не в области слов, является то, что концепции образуют естественные древовидные структуры, основанные на гипернимии и меронимии . Эти структуры можно использовать для создания простой статистики членства в дереве, которую можно использовать для поиска любого документа в евклидовом концептуальном пространстве . Если размер документа также рассматривать как еще одно измерение этого пространства, то можно создать чрезвычайно эффективную систему индексации. Этот метод в настоящее время используется в коммерческих целях, позволяя найти аналогичные юридические документы в корпусе документов, насчитывающем 2,5 миллиона человек.
Кластеризация документов по темам
[ редактировать ]Стандартные методы числовой кластеризации могут использоваться в «концептуальном пространстве», как описано выше, для поиска и индексации документов по предполагаемой теме. Они численно гораздо более эффективны, чем их собратья по интеллектуальному анализу текста , и, как правило, ведут себя более интуитивно, поскольку они лучше соответствуют мерам сходства, которые мог бы генерировать человек.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Юэнь-Сянь Ценг, Чун-Йен Чанг, Шу-Ну Чанг Рундгрен и Карл-Йохан Рундгрен, « Концептуальные карты горнодобывающей промышленности из новостных статей для измерения гражданской научной грамотности в СМИ » [ мертвая ссылка ] », Компьютеры и образование, Том 55, № 1, август 2010 г., стр. 165-177.
- ^ Ли, Кецянь; Чжа, Ханвен; Су, Ю; Ян, Сифэн (ноябрь 2018 г.). «Концептуальный анализ посредством внедрения» . Международная конференция IEEE по интеллектуальному анализу данных (ICDM) 2018 г. IEEE. стр. 267–276. дои : 10.1109/icdm.2018.00042 . ISBN 978-1-5386-9159-5 . S2CID 52841398 .
- ^ Юэнь-Сянь Ценг, « Автоматическое создание тезауруса для китайских документов », Журнал Американского общества информационных наук и технологий, Vol. 53, № 13, ноябрь 2002 г., стр. 1130-1138.
- ^ Юэнь-Сянь Ценг, « Общая маркировка заголовков для кластерных документов », Экспертные системы с приложениями, Vol. 37, № 3, 15 марта 2010 г., стр. 2247-2254.