Jump to content

Концепция майнинга

Концептуальный анализ — это деятельность, результатом которой является извлечение концепций из артефактов . Решения этой задачи обычно включают аспекты искусственного интеллекта и статистики , такие как интеллектуальный анализ данных и анализ текста . [1] [2] Поскольку артефакты обычно представляют собой слабо структурированную последовательность слов и других символов (а не понятий), проблема нетривиальна , но она может дать ценную информацию о значении, происхождении и сходстве документов.

Методы [ править ]

Традиционно преобразование слов в понятия осуществлялось с помощью тезауруса . [3] и для вычислительных методов существует тенденция делать то же самое. Используемые тезаурусы либо специально созданы для этой задачи, либо уже существующая языковая модель, обычно связанная с WordNet Принстона .

Отображение слов в понятия [4] часто неоднозначны . Обычно каждое слово в данном языке относится к нескольким возможным понятиям. Люди используют контекст, чтобы устранить неоднозначность различных значений данного фрагмента текста, когда доступные системы машинного перевода не могут легко определить контекст.

Однако для целей интеллектуального анализа понятий эти двусмысленности, как правило, менее важны, чем при машинном переводе, поскольку в больших документах двусмысленности имеют тенденцию выравниваться, как и в случае с интеллектуальным анализом текста.

Существует множество методов устранения неоднозначности , которые можно использовать. Примерами являются лингвистический анализ текста и использование информации о частоте ассоциаций слов и понятий, которую можно вывести из больших текстовых корпусов. В последнее время появились и завоевали интерес в научном сообществе методы, основанные на семантическом сходстве возможных понятий и контекста.

Приложения [ править ]

Обнаружение и индексирование аналогичных документов в больших корпусах [ править ]

Одним из побочных эффектов расчета статистики документов в области понятий, а не в области слов, является то, что концепции образуют естественные древовидные структуры, основанные на гипернимии и меронимии . Эти структуры можно использовать для создания простой статистики членства в дереве, которую можно использовать для поиска любого документа в евклидовом концептуальном пространстве . Если размер документа также рассматривать как еще одно измерение этого пространства, то можно создать чрезвычайно эффективную систему индексации. Этот метод в настоящее время используется в коммерческих целях, позволяя найти аналогичные юридические документы в корпусе документов, насчитывающем 2,5 миллиона человек.

Кластеризация документов по темам [ править ]

Стандартные методы числовой кластеризации могут использоваться в «концептуальном пространстве», как описано выше, для поиска и индексации документов по предполагаемой теме. Они численно гораздо более эффективны, чем их собратья по интеллектуальному анализу текста , и, как правило, ведут себя более интуитивно, поскольку они лучше соответствуют мерам сходства, которые мог бы генерировать человек.

См. также [ править ]

Ссылки [ править ]

  1. ^ Юэнь-Сянь Ценг, Чун-Йен Чанг, Шу-Ну Чанг Рундгрен и Карл-Йохан Рундгрен, « Концептуальные карты горнодобывающей промышленности из новостных статей для измерения гражданской научной грамотности в СМИ » [ мертвая ссылка ] «, Компьютеры и образование, Том 55, № 1, август 2010 г., стр. 165-177.
  2. ^ Ли, Кецянь; Чжа, Ханвен; Су, Ю; Ян, Сифэн (ноябрь 2018 г.). «Концептуальный анализ посредством внедрения» . Международная конференция IEEE по интеллектуальному анализу данных (ICDM) 2018 г. IEEE. стр. 267–276. дои : 10.1109/icdm.2018.00042 . ISBN  978-1-5386-9159-5 . S2CID   52841398 .
  3. ^ Юэнь-Сянь Ценг, « Автоматическое создание тезауруса для китайских документов », Журнал Американского общества информационных наук и технологий, Vol. 53, № 13, ноябрь 2002 г., стр. 1130-1138.
  4. ^ Юэнь-Сянь Ценг, « Общая маркировка заголовков для кластерных документов », Экспертные системы с приложениями, Vol. 37, № 3, 15 марта 2010 г., стр. 2247-2254.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 49dc3fdeb4db6fbfa37d5a2a5007a2b8__1707218040
URL1:https://arc.ask3.ru/arc/aa/49/b8/49dc3fdeb4db6fbfa37d5a2a5007a2b8.html
Заголовок, (Title) документа по адресу, URL1:
Concept mining - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)