Извлечение знаний
Извлечение знаний — это создание знаний из структурированных ( реляционные базы данных , XML ) и неструктурированных ( текст , документы, изображения ) источников. Полученные знания должны быть в машиночитаемом и машиноинтерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически это похоже на извлечение информации ( NLP ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционную схему . Это требует либо повторного использования существующих формальных знаний (повторное использование идентификаторов или онтологий ), либо генерации схемы на основе исходных данных.
Группа W3C RDB2RDF [1] в настоящее время занимается стандартизацией языка для извлечения структур описания ресурсов (RDF) из реляционных баз данных . Другим популярным примером извлечения знаний является преобразование Википедии в структурированные данные , а также сопоставление с существующими знаниями (см. DBpedia и Freebase ).
Обзор [ править ]
После стандартизации языков представления знаний, таких как RDF и OWL , в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешения идентификаторов , обнаружения знаний и изучения онтологий. В общем процессе используются традиционные методы извлечения информации , а также извлечения, преобразования и загрузки (ETL), которые преобразуют данные из источников в структурированные форматы.
Для категоризации подходов в этой теме можно использовать следующие критерии (некоторые из них учитывают только извлечение из реляционных баз данных): [2]
Источник | Какие источники данных охватываются: текст, реляционные базы данных, XML, CSV. |
---|---|
Экспозиция | Как извлечённые знания становятся явными (файл онтологии, семантическая база данных)? Как вы можете это запросить? |
Синхронизация | Выполняется ли процесс извлечения знаний один раз для создания дампа или результат синхронизируется с источником? Статический или динамический. Записываются ли изменения результата обратно (двунаправленно) |
Повторное использование словарей | Инструмент может повторно использовать существующие словари при извлечении. Например, столбец таблицы firstName можно сопоставить с foaf:firstName. Некоторые автоматические подходы не способны отображать словарный запас. |
Автоматизация | Степень помощи/автоматизации извлечения. Ручной, графический интерфейс, полуавтоматический, автоматический. |
Требуется онтология домена | Для сопоставления с ним необходима уже существующая онтология. Таким образом, либо создается отображение, либо схема изучается из источника ( обучение онтологии ). |
Примеры [ править ]
Связывание объектов [ править ]
- DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API, Extractiv и PoolParty Extractor анализируют свободный текст посредством распознавания именованных объектов , а затем устраняют неоднозначность кандидатов посредством разрешения имен и связывают найденные объекты с DBpedia. хранилищем знаний [3] ( Демо-версия Dandelion dataTXT , веб-демонстрация DBpedia Spotlight или демо-версия PoolParty Extractor ).
Президент Обама призвал в среду Конгресс продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, утверждая, что эта политика обеспечивает более щедрую помощь.
- Поскольку президент Обама связан с ресурсом DBpedia LinkedData , дополнительная информация может быть получена автоматически, и Semantic Reasoner может, например, сделать вывод, что упомянутый объект имеет тип Person (с использованием FOAF (программное обеспечение) ) и тип Президенты Соединенных Штатов ( с помощью YAGO ). Контрпримеры: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, которые не обеспечивают дальнейшего извлечения структурированных данных и формальных знаний.
Реляционные базы данных в RDF [ править ]
- Triplify , D2R Server, Ultrawrap и Virtuoso RDF Views — это инструменты, преобразующие реляционные базы данных в RDF. В ходе этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе преобразования. При преобразовании типичной реляционной таблицы с именем user один столбец (например, name ) или совокупность столбцов (например, first_name и Last_name ) должен предоставлять URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец можно извлечь как связь с этой сущностью. [4] Затем для интерпретации информации используются (и повторно используются) свойства с формально определенной семантикой. Например, столбец в пользовательской таблице с именем ownTo можно определить как симметричное отношение, а домашнюю страницу столбца можно преобразовать в свойство из словаря FOAF с именем foaf:homepage , таким образом квалифицируя его как обратное функциональное свойство . Тогда каждая запись пользовательской таблицы может быть сделана экземпляром класса foaf:Person (Ontology Population). Кроме того, знания предметной области (в форме онтологии) могут быть созданы из status_id либо с помощью правил, созданных вручную (если status_id равен 2, запись принадлежит классу Teacher), либо с помощью (полу)автоматических методов ( обучение онтологии ). Вот пример трансформации:
Имя | женат на | домашняя страница | status_id |
---|---|---|---|
Питер | Мэри | http://example.org/Peters_page [ постоянная мертвая ссылка ] | 1 |
Клаус | Ева | http://example.org/Claus_page [ постоянная мертвая ссылка ] | 2 |
:Peter :marriedTo :Mary .
:marriedTo a owl:SymmetricProperty .
:Peter foaf:homepage <http://example.org/Peters_page> .
:Peter a foaf:Person .
:Peter a :Student .
:Claus a :Teacher .
Извлечение из структурированных источников в RDF [ править ]
Сопоставление 1:1 таблиц/представлений RDB с объектами/атрибутами/значениями RDF [ править ]
При построении RDB-представления проблемной области отправной точкой часто является диаграмма сущностей-связей (ERD). Обычно каждая сущность представляется в виде таблицы базы данных, каждый атрибут сущности становится столбцом в этой таблице, а связи между сущностями обозначаются внешними ключами. Каждая таблица обычно определяет определенный класс сущности, а каждый столбец — один из его атрибутов. Каждая строка таблицы описывает сущность экземпляр, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:
- Каждый столбец в таблице является атрибутом (т. е. предикатом).
- Каждое значение столбца является значением атрибута (т. е. объекта).
- Каждый ключ строки представляет идентификатор объекта (т. е. субъекта).
- Каждая строка представляет экземпляр сущности.
- Каждая строка (экземпляр объекта) представлена в RDF набором троек с общим предметом (идентификатором объекта).
Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, базовый алгоритм сопоставления будет следующим:
- создать класс RDFS для каждой таблицы
- преобразовать все первичные и внешние ключи в IRI
- назначить предикат IRI для каждого столбца
- назначьте предикат rdf:type для каждой строки, связав его с IRI класса RDFS, соответствующим таблице.
- для каждого столбца, который не является ни частью первичного, ни внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.
Ранние упоминания об этом базовом или прямом сопоставлении можно найти в Тима Бернерса-Ли сравнении модели ER с моделью RDF. [4]
реляционных баз данных с RDF сопоставления Сложные
Упомянутое выше сопоставление 1:1 представляет устаревшие данные в виде RDF простым способом. Дополнительные усовершенствования могут быть использованы для повышения полезности выходных данных RDF в соответствии с заданными вариантами использования. Обычно информация теряется во время преобразования диаграммы объектно-связных данных (ERD) в реляционные таблицы (подробности можно найти в разделе « Несоответствие импеданса объектно-реляционному ») и ее необходимо реконструировать . С концептуальной точки зрения, подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1:1. [5] [6] [7] Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы частично совпадают с обучением онтологии ). Хотя некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL [8] (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий. [9] (например, столбцы с небольшим количеством значений могут стать категориями). Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией предметной области (см. также: выравнивание онтологии ). Однако зачастую подходящей онтологии предметной области не существует, и ее необходимо сначала создать.
XML [ править ]
Поскольку XML имеет древовидную структуру, любые данные можно легко представить в формате RDF, структурированном в виде графа. XML2RDF — это один из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако эта тема более сложна, как и в случае с реляционными базами данных. В реляционной таблице первичный ключ является идеальным кандидатом на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT можно использовать в качестве стандартного языка преобразования для ручного преобразования XML в RDF.
Обзор методов/инструментов [ править ]
Имя | Источник данных | Представление данных | Синхронизация данных | Язык картографии | Повторное использование словарного запаса | Картографический автомат. | Треб. Онтология предметной области | Использует графический интерфейс |
---|---|---|---|---|---|---|---|---|
Прямое сопоставление реляционных данных с RDF | Реляционные данные | СПАРКЛ/ЭТЛ | динамичный | — | ЛОЖЬ | автоматический | ЛОЖЬ | ЛОЖЬ |
CSV2RDF4LOD | CSV-файл | ЭТЛ | статический | РДФ | истинный | руководство | ЛОЖЬ | ЛОЖЬ |
КонНЛЛ-РДФ | ТСВ, КонНЛЛ | поток SPARQL/RDF | статический | никто | истинный | автоматический (специфичный для предметной области, для случаев использования в языковой технологии, сохраняет отношения между строками) | ЛОЖЬ | ЛОЖЬ |
Конвертировать2RDF | Текстовый файл с разделителями | ЭТЛ | статический | РДФ/ДАМЛ | истинный | руководство | ЛОЖЬ | истинный |
Д2Р-сервер | РБД | СПАРКЛ | двунаправленный | Карта Д2Р | истинный | руководство | ЛОЖЬ | ЛОЖЬ |
ДартГрид | РБД | собственный язык запросов | динамичный | Визуальный инструмент | истинный | руководство | ЛОЖЬ | истинный |
Мастер данных | РБД | ЭТЛ | статический | собственный | истинный | руководство | истинный | истинный |
Расширение RDF от Google Refine | CSV, XML | ЭТЛ | статический | никто | полуавтоматический | ЛОЖЬ | истинный | |
Кректор | XML | ЭТЛ | статический | xslt | истинный | руководство | истинный | ЛОЖЬ |
КАРТА МОСТ | РБД | ЭТЛ | статический | собственный | истинный | руководство | истинный | ЛОЖЬ |
МЕТАморфозы | РБД | ЭТЛ | статический | собственный язык отображения на основе XML | истинный | руководство | ЛОЖЬ | истинный |
MappingMaster | CSV-файл | ЭТЛ | статический | MappingMaster | истинный | графический интерфейс | ЛОЖЬ | истинный |
ODEMapster | РБД | ЭТЛ | статический | собственный | истинный | руководство | истинный | истинный |
Плагин OntoWiki CSV Importer — DataCube и Tabular | CSV-файл | ЭТЛ | статический | Словарь кубов данных RDF | истинный | полуавтоматический | ЛОЖЬ | истинный |
Экстрактор Poolparty (PPX) | XML, текст | Связанные данные | динамичный | РДФ (СКОС) | истинный | полуавтоматический | истинный | ЛОЖЬ |
РДБТоОнто | РБД | ЭТЛ | статический | никто | ЛОЖЬ | автоматически, пользователь, кроме того, имеет возможность точно настроить результаты | ЛОЖЬ | истинный |
РДФ 123 | CSV-файл | ЭТЛ | статический | ЛОЖЬ | ЛОЖЬ | руководство | ЛОЖЬ | истинный |
РДОТЕ | РБД | ЭТЛ | статический | SQL | истинный | руководство | истинный | истинный |
Реляционный.OWL | РБД | ЭТЛ | статический | никто | ЛОЖЬ | автоматический | ЛОЖЬ | ЛОЖЬ |
Т2ЛД | CSV-файл | ЭТЛ | статический | ЛОЖЬ | ЛОЖЬ | автоматический | ЛОЖЬ | ЛОЖЬ |
Словарь кубов данных RDF | Многомерные статистические данные в электронных таблицах | Словарь куба данных | истинный | руководство | ЛОЖЬ | |||
TopBraid Composer | CSV-файл | ЭТЛ | статический | НАКЛОН | ЛОЖЬ | полуавтоматический | ЛОЖЬ | истинный |
Утроить | РБД | Связанные данные | динамичный | SQL | истинный | руководство | ЛОЖЬ | ЛОЖЬ |
Ультраобертка | РБД | СПАРКЛ/ЭТЛ | динамичный | Р2РМЛ | истинный | полуавтоматический | ЛОЖЬ | истинный |
Виртуозные просмотры RDF | РБД | СПАРКЛ | динамичный | Язык метасхемы | истинный | полуавтоматический | ЛОЖЬ | истинный |
Виртуозный губер | структурированные и полуструктурированные источники данных | СПАРКЛ | динамичный | Виртуоз PL и XSLT | истинный | полуавтоматический | ЛОЖЬ | ЛОЖЬ |
ВизАВис | РБД | РДКЛ | динамичный | SQL | истинный | руководство | истинный | истинный |
XLWrap: электронная таблица в RDF | CSV-файл | ЭТЛ | статический | Синтаксис TriG | истинный | руководство | ЛОЖЬ | ЛОЖЬ |
XML в RDF | XML | ЭТЛ | статический | ЛОЖЬ | ЛОЖЬ | автоматический | ЛОЖЬ | ЛОЖЬ |
Извлечение из источников естественного языка [ править ]
Наибольшая часть информации, содержащейся в деловых документах (около 80% [10] ) закодирован на естественном языке и, следовательно, неструктурирован. Поскольку неструктурированные данные представляют собой сложную задачу для извлечения знаний, требуются более сложные методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако потенциал массового приобретения извлеченных знаний должен компенсировать возросшую сложность и снижение качества извлечения. Далее под источниками естественного языка понимаются источники информации, в которых данные предоставляются в неструктурированной форме в виде обычного текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.
Лингвистическая аннотация/обработка естественного языка (НЛП) [ править ]
В качестве этапа предварительной обработки при извлечении знаний может потребоваться выполнить лингвистическую аннотацию с помощью одного или нескольких инструментов НЛП . Отдельные модули в рабочем процессе НЛП обычно основаны на форматах ввода и вывода, специфичных для инструмента, но в контексте извлечения знаний применяются структурированные форматы для представления лингвистических аннотаций.
Типичные задачи НЛП, связанные с извлечением знаний, включают:
- тегирование части речи (POS)
- лемматизация (LEMMA) или стемминг (STEM)
- устранение неоднозначности смысла слова (WSD, связанное с семантической аннотацией ниже)
- распознавание именованного объекта (NER, см. также IE ниже)
- синтаксический анализ, часто с использованием синтаксических зависимостей (DEP)
- поверхностный синтаксический анализ (CHUNK): если производительность является проблемой, фрагментирование позволяет быстро извлекать именные и другие фразы.
- разрешение анафоры (см. разрешение кореференции в IE ниже, но здесь рассматривается как задача по созданию связей между текстовыми упоминаниями, а не между упоминанием объекта и абстрактным представлением объекта)
- разметка семантических ролей (SRL, связанная с извлечением отношений; не путать с семантической аннотацией, как описано ниже)
- анализ дискурса (отношения между различными предложениями, редко используемые в реальных приложениях)
В НЛП такие данные обычно представляются в форматах TSV (форматы CSV с разделителями TAB), часто называемых форматами CoNLL. Для рабочих процессов извлечения знаний представления RDF таких данных были созданы в соответствии со следующими стандартами сообщества:
- Формат обмена NLP (NIF, для многих распространенных типов аннотаций) [11] [12]
- Веб-аннотации (WA, часто используются для связывания объектов) [13]
- CoNLL-RDF (для аннотаций, изначально представленных в форматах TSV) [14] [15]
Другие форматы, специфичные для конкретной платформы, включают
- Формат обмена LAPPS (LIF, используется в сетке LAPPS) [16] [17]
- Формат аннотаций NLP (NAF, используется в системе управления рабочим процессом NewsReader) [18] [19]
Традиционное извлечение информации (IE) [ править ]
Традиционное извлечение информации [20] — это технология обработки естественного языка, которая извлекает информацию из обычно текстов на естественном языке и структурирует ее подходящим образом. Виды информации, подлежащей идентификации, должны быть указаны в модели перед началом процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.
- Распознавание названного объекта (NER)
- Разрешение кореферента (CO)
- Конструкция шаблонного элемента (ТЕ)
- Построение шаблонных отношений (TR)
- Создание шаблонного сценария (ST)
Задача распознавания именованного объекта — распознать и классифицировать все именованные объекты, содержащиеся в тексте (отнесение именованного объекта к заранее заданной категории). Это работает путем применения методов, основанных на грамматике, или статистических моделей.
Разрешение кореференции идентифицирует эквивалентные объекты, которые были распознаны NER, в тексте. Существует два соответствующих вида отношений эквивалентности. Первый относится к отношениям между двумя различными представленными объектами (например, IBM Europe и IBM), а второй — к отношениям между объектом и их анафорическими ссылками (например, он и IBM). Оба вида можно распознать по разрешению кореференции.
При построении элемента шаблона система IE идентифицирует описательные свойства объектов, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам, таким как красный или большой.
Конструкция отношения шаблона идентифицирует отношения, существующие между элементами шаблона. Эти отношения могут быть нескольких видов, например «работает для» или «расположен в», с тем ограничением, что и домен, и диапазон соответствуют сущностям.
В шаблонном сценарии производственные события, описанные в тексте, будут идентифицированы и структурированы относительно сущностей, распознаваемых NER и CO, и отношений, идентифицируемых TR.
Извлечение информации на основе онтологий (OBIE) [ править ]
Извлечение информации на основе онтологий [10] — это подполе извлечения информации, в котором по крайней мере одна онтология используется для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концепций , экземпляров и отношений используемых онтологий в тексте, которые после процесса будут структурированы в онтологию. Таким образом, входные онтологии составляют модель информации, подлежащей извлечению. [21]
Обучение онтологии (OL) [ править ]
Обучение онтологии — это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов соответствующей предметной области из текста на естественном языке. Поскольку построение онтологий вручную чрезвычайно трудоемко и занимает много времени, существует большая мотивация автоматизировать этот процесс.
Семантическая аннотация (СА) [ править ]
Во время семантической аннотации [22] Текст на естественном языке дополняется метаданными (часто представленными в RDFa ), что должно сделать семантику содержащихся в нем терминов машинопонятной. В ходе этого процесса, который обычно является полуавтоматическим, знания извлекаются в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом получаются знания, какое значение термина в обрабатываемом контексте имелось в виду и, следовательно, смысл текста основывается на машиночитаемых данных с возможностью делать выводы. Семантическая аннотация обычно разбивается на следующие две подзадачи.
На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и разгадывает сокращения. После этого термины из текста, соответствующие понятию, извлекаются с помощью предметно-специфического словаря для их связывания при связывании сущностей.
В связывании объектов [23] связь между извлеченными лексическими терминами из исходного текста и понятиями из онтологии или базы знаний, такой как DBpedia устанавливается . Для этого с помощью лексикона выявляются понятия-кандидаты, соответствующие нескольким значениям термина. Наконец, контекст терминов анализируется, чтобы определить наиболее подходящее значение и соотнести термин с правильным понятием.
Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантическим анализом , который понимается при обработке естественного языка (также называемый «семантической аннотацией»): целью семантического анализа является полное, машиночитаемое представление естественного языка. , тогда как семантическая аннотация в смысле извлечения знаний затрагивает лишь очень элементарный аспект этого процесса.
Инструменты [ править ]
Следующие критерии можно использовать для классификации инструментов, извлекающих знания из текста на естественном языке.
Источник | Какие входные форматы могут обрабатываться этим инструментом (например, обычный текст, HTML или PDF)? |
Парадигма доступа | Может ли инструмент запрашивать источник данных или для процесса извлечения требуется весь дамп? |
Синхронизация данных | Синхронизирован ли результат процесса извлечения с источником? |
Использует выходную онтологию | Связывает ли инструмент результат с онтологией? |
Автоматизация картографирования | Насколько автоматизирован процесс экстракции (ручной, полуавтоматический или автоматический)? |
Требуется онтология | Нужна ли инструменту онтология для извлечения? |
Использует графический интерфейс | Предлагает ли инструмент графический интерфейс пользователя? |
Подход | Какой подход (IE, OBIE, OL или SA) используется инструментом? |
Извлеченные объекты | Какие типы сущностей (например, именованные сущности, концепции или отношения) можно извлечь с помощью этого инструмента? |
Прикладные методы | Какие методы применяются (например, НЛП, статистические методы, кластеризация или машинное обучение )? |
Выходная модель | Какая модель используется для представления результатов инструмента (например, RDF или OWL)? |
Поддерживаемые домены | Какие области поддерживаются (например, экономика или биология)? |
Поддерживаемые языки | Какие языки могут быть обработаны (например, английский или немецкий)? |
В следующей таблице описаны некоторые инструменты для извлечения знаний из источников на естественном языке.
Имя | Источник | Парадигма доступа | Синхронизация данных | Использует выходную онтологию | Автоматизация картографирования | Требуется онтология | Использует графический интерфейс | Подход | Извлеченные объекты | Прикладные методы | Выходная модель | Поддерживаемые домены | Поддерживаемые языки |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
[1] [24] | обычный текст, HTML, XML, SGML | свалка | нет | да | автоматический | да | да | ИЕ | именованные сущности, отношения, события | лингвистические правила | собственный | независимый от домена | английский, испанский, арабский, китайский, индонезийский |
АлхимияAPI [25] | обычный текст, HTML | автоматический | да | на | многоязычный | ||||||||
ЭННИ [26] | простой текст | свалка | да | да | ИЕ | алгоритмы конечного состояния | многоязычный | ||||||
АЗИУМ [27] | простой текст | свалка | полуавтоматический | да | ПР | понятия, иерархия понятий | НЛП, кластеризация | ||||||
Исчерпывающее извлечение внимания [28] | автоматический | ИЕ | именованные сущности, отношения, события | НЛП | |||||||||
API одуванчика | обычный текст, HTML, URL | ОТДЫХ | нет | нет | автоматический | нет | да | на | именованные сущности, понятия | статистические методы | JSON | независимый от домена | многоязычный |
В центре внимания DBpedia [29] | обычный текст, HTML | дамп, SPARQL | да | да | автоматический | нет | да | на | аннотация к каждому слову, аннотация к не стоп-словам | НЛП, статистические методы, машинное обучение | РДФ | независимый от домена | Английский |
EntityClassifier.eu | обычный текст, HTML | свалка | да | да | автоматический | нет | да | IE, OL, SA | аннотация к каждому слову, аннотация к не стоп-словам | грамматика, основанная на правилах | XML | независимый от домена | английский, немецкий, голландский |
ФРЕД [30] | простой текст | дамп, REST API | да | да | автоматический | нет | да | IE, OL, SA, шаблоны проектирования онтологий, семантика фреймов | (многословная аннотация NIF или EarMark, предикаты, экземпляры, композиционная семантика, таксономии понятий, фреймы, семантические роли, перифрастические отношения, события, модальность, время, связь сущностей, связь событий, тональность | НЛП, машинное обучение, эвристические правила | РДФ/СОВА | независимый от домена | Английский, другие языки посредством перевода |
iДокумент [31] | HTML, PDF, DOC | СПАРКЛ | да | да | ОБА | экземпляры, значения свойств | НЛП | личный, деловой | |||||
NetOwl Экстрактор [32] | обычный текст, HTML, XML, SGML, PDF, MS Office | свалка | Нет | Да | Автоматический | да | Да | ИЕ | именованные сущности, отношения, события | НЛП | XML, JSON, RDF-OWL и другие. | несколько доменов | Английский, арабский, китайский (упрощенный и традиционный), французский, корейский, персидский (фарси и дари), русский, испанский |
ОнтоГен [33] | полуавтоматический | да | ПР | концепты, иерархия концептов, нетаксономические отношения, экземпляры | НЛП, машинное обучение, кластеризация | ||||||||
ОнтоЛеарн [34] | обычный текст, HTML | свалка | нет | да | автоматический | да | нет | ПР | понятия, иерархия понятий, примеры | НЛП, статистические методы | собственный | независимый от домена | Английский |
OntoLearn: перезагрузка | обычный текст, HTML | свалка | нет | да | автоматический | да | нет | ПР | понятия, иерархия понятий, примеры | НЛП, статистические методы | собственный | независимый от домена | Английский |
ОнтоСифон [35] | HTML, PDF, DOC | дамп, поисковые запросы | нет | да | автоматический | да | нет | ОБА | понятия, отношения, примеры | НЛП, статистические методы | РДФ | независимый от домена | Английский |
onX [36] | простой текст | свалка | нет | да | полуавтоматический | да | нет | ОБА | экземпляры, значения свойств типов данных | эвристические методы | собственный | независимый от домена | независимый от языка |
ОпенКале | обычный текст, HTML, XML | свалка | нет | да | автоматический | да | нет | на | аннотация к сущностям, аннотация к событиям, аннотация к фактам | НЛП, машинное обучение | РДФ | независимый от домена | английский, французский, испанский |
Экстрактор PoolParty [37] | обычный текст, HTML, DOC, ODT | свалка | нет | да | автоматический | да | да | ОБА | именованные сущности, понятия, отношения, понятия, которые классифицируют текст, обогащения | НЛП, машинное обучение, статистические методы | РДФ, СОВА | независимый от домена | английский, немецкий, испанский, французский |
Розока | обычный текст, HTML, XML, SGML, PDF, MS Office | свалка | Да | Да | Автоматический | нет | Да | ИЕ | извлечение именованного объекта, разрешение объекта, извлечение отношений, атрибуты, концепции, многовекторный анализ настроений , геотегирование, идентификация языка | НЛП, машинное обучение | XML, JSON, ПОЖО, РДФ | несколько доменов | Многоязычность: более 200 языков |
СКУБИ | обычный текст, HTML | свалка | нет | да | автоматический | нет | нет | ОБА | экземпляры, значения свойств, типы RDFS | НЛП, машинное обучение | РДФ, РДФа | независимый от домена | английский, немецкий |
СемТаг [38] [39] | HTML | свалка | нет | да | автоматический | да | нет | на | машинное обучение | запись в базе данных | независимый от домена | независимый от языка | |
умное ИСПРАВЛЕНИЕ | обычный текст, HTML, PDF, DOC, электронная почта | свалка | да | нет | автоматический | нет | да | ОБА | именованные сущности | НЛП, машинное обучение | собственный | независимый от домена | английский, немецкий, французский, голландский, польский |
Текст2Онто [40] | обычный текст, HTML, PDF | свалка | да | нет | полуавтоматический | да | да | ПР | концепты, иерархия концептов, нетаксономические отношения, примеры, аксиомы | НЛП, статистические методы, машинное обучение, методы, основанные на правилах | СОВА | независимый от деомена | английский, немецкий, испанский |
Текст-в-онто [41] | обычный текст, HTML, PDF, PostScript | свалка | полуавтоматический | да | да | ПР | понятия, иерархия понятий, нетаксономические отношения, лексические сущности, отсылающие к понятиям, лексические сущности, отсылающие к отношениям | НЛП, машинное обучение, кластеризация, статистические методы | немецкий | ||||
ЭтаИгла | Обычный текст | свалка | автоматический | нет | понятия, отношения, иерархия | НЛП, собственность | JSON | несколько доменов | Английский | ||||
Вики-машина [42] | обычный текст, HTML, PDF, DOC | свалка | нет | да | автоматический | да | да | на | аннотация к именам собственным, аннотация к нарицательным существительным | машинное обучение | РДФ | независимый от домена | Русский, Английский, Немецкий, Испанский, Французский, Португальский, Итальянский |
Поиск вещей [43] | ИЕ | именованные сущности, отношения, события | многоязычный |
Открытие знаний [ править ]
Обнаружение знаний описывает процесс автоматического поиска в больших объемах данных шаблонов, которые можно считать знаниями о данных. [44] Его часто описывают как получение знаний из входных данных. Обнаружение знаний развилось из области интеллектуального анализа данных и тесно связано с ней как с точки зрения методологии, так и с точки зрения терминологии. [45]
Наиболее известной отраслью интеллектуального анализа данных является обнаружение знаний, также известное как обнаружение знаний в базах данных (KDD). Как и многие другие формы открытия знаний, он создает абстракции входных данных. Знания , полученные в ходе этого процесса, могут стать дополнительными данными , которые можно использовать для дальнейшего использования и открытий. Часто результаты обнаружения знаний не являются практически осуществимыми. Обнаружение практических знаний , также известное как интеллектуальный анализ данных на основе предметной области , [46] направлен на обнаружение и предоставление практических знаний и идей.
Еще одно многообещающее применение обнаружения знаний находится в области модернизации программного обеспечения , обнаружения слабых мест и обеспечения соответствия требованиям, что предполагает понимание существующих артефактов программного обеспечения. Этот процесс связан с концепцией обратного проектирования . Обычно знания, полученные с помощью существующего программного обеспечения, представлены в виде моделей, к которым при необходимости можно делать конкретные запросы. Отношения сущностей — это распространенный формат представления знаний, полученных из существующего программного обеспечения. Группа управления объектами (OMG) разработала спецификацию «Метамодель обнаружения знаний» (KDM), которая определяет онтологию для программных активов и их отношений с целью обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известное как интеллектуальный анализ программного обеспечения , тесно связано с интеллектуальным анализом данных , поскольку существующие артефакты программного обеспечения содержат огромную ценность для управления рисками и бизнес-ценности , что является ключевым моментом для оценки и развития программных систем. Вместо майнинга отдельных наборы данных , программный анализ фокусируется на метаданных , таких как потоки процессов (например, потоки данных, потоки управления и карты вызовов), архитектура, схемы баз данных и бизнес-правила/термины/процессы.
Входные данные [ править ]
Выходные форматы [ править ]
- Модель данных
- Метаданные
- Метамодели
- Онтология
- Представление знаний
- Теги знаний
- Бизнес-правило
- Метамодель обнаружения знаний (KDM)
- Нотация моделирования бизнес-процессов (BPMN)
- Промежуточное представительство
- Структура описания ресурсов (RDF)
- Метрики программного обеспечения
См. также [ править ]
Дальнейшее чтение [ править ]
- Чикко, Д; Массероли, М (2016). «Прогнозирование на основе онтологий и приоритезация функциональных аннотаций генов» . Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 13 (2): 248–260. дои : 10.1109/TCBB.2015.2459694 . ПМИД 27045825 . S2CID 2795344 .
Ссылки [ править ]
- ^ Рабочая группа RDB2RDF, Веб-сайт: http://www.w3.org/2001/sw/rdb2rdf/ , устав: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: Сопоставление RDB с RDF Язык: http://www.w3.org/TR/r2rml/
- ^ LOD2 Результат ЕС 3.1.1. Извлечение знаний из структурированных источников http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf. Архивировано 27 августа 2011 г. на Wayback Machine.
- ^ «Жизнь в облаке связанных данных» . www.opencalais.com. Архивировано из оригинала 24 ноября 2009 г. Проверено 10 ноября 2009 г.
У Википедии есть двойник Linked Data под названием DBpedia. DBpedia имеет ту же структурированную информацию, что и Arc.Ask3.Ru, но переведена в машиночитаемый формат.
- ↑ Перейти обратно: Перейти обратно: а б Тим Бернерс-Ли (1998), «Реляционные базы данных в семантической сети» . Проверено: 20 февраля 2011 г.
- ^ Ху и др. (2007), «Обнаружение простых сопоставлений между схемами реляционных баз данных и онтологиями», в Proc. 6-й Международной конференции по семантической сети (ISWC 2007), 2-й Азиатской конференции по семантической сети (ASWC 2007), LNCS 4825, страницы 225–238, Пусан, Корея, 11–15 ноября 2007 г. http://citeseerx.ist.psu.edu /viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
- ^ Р. Гави и Н. Калло (2007), «Генерация сопоставления базы данных с онтологией для семантической совместимости». На третьем международном семинаре по совместимости баз данных (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
- ^ Ли и др. (2005) «Полуавтоматический метод получения онтологий для семантической сети», WAIM, том 3739 конспектов лекций по информатике, страницы 209–220. Спрингер. дои : 10.1007/11563952_19
- ^ Тирмизи и др. (2008), «Перевод приложений SQL в семантическую сеть», Конспекты лекций по информатике, том 5181/2008 (Приложения баз данных и экспертных систем). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
- ^ Фарид Серба (2008). «Изучение высокоструктурированных семантических хранилищ из реляционных баз данных», Семантическая сеть: исследования и приложения, том 5021 конспектов лекций по информатике, Springer, Берлин / Гейдельберг http://www.tao-project.eu/resources/publications/cerbah-learning-highly-structured-semantic-repositories- from-relational-databases.pdf. Архивировано 20 июля 2011 г. на Wayback Machine.
- ↑ Перейти обратно: Перейти обратно: а б Вималасурия, Дая К.; Доу, Децзин (2010). «Извлечение информации на основе онтологий: введение и обзор современных подходов», Journal of Information Science , 36(3), стр. 306–323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (дата обращения: 18.06.2012).
- ^ «Формат обмена NLP (NIF) 2.0 — обзор и документация» . persistence.uni-leipzig.org . Проверено 5 июня 2020 г.
- ^ Хеллманн, Себастьян; Леманн, Йенс; Ауэр, Сёрен; Брюммер, Мартин (2013). Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пол; Биманн, Крис; Паррейра, Жозиан Ксавье; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). «Интеграция НЛП с использованием связанных данных» . Семантическая сеть – ISWC 2013 . Конспекты лекций по информатике. 7908 . Берлин, Гейдельберг: Springer: 98–113. дои : 10.1007/978-3-642-41338-4_7 . ISBN 978-3-642-41338-4 .
- ^ Верспур, Карин; Ливингстон, Кевин (июль 2012 г.). «К адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети» . Материалы шестого семинара по лингвистическому аннотированию . Чеджу, Республика Корея: Ассоциация компьютерной лингвистики: 75–84.
- ^ acoli-repo/conll-rdf , ACoLi, 27 мая 2020 г. , получено 05 июня 2020 г.
- ^ Кьяркос, Кристиан; Фет, Кристиан (2017). Грасия, Хорхе; Бонд, Фрэнсис; МакКрэй, Джон П.; Буителаар, Пол; Кьяркос, Кристиан; Хеллманн, Себастьян (ред.). «CoNLL-RDF: Связанная корпорация, созданная с учетом требований НЛП» . Язык, данные и знания . Конспекты лекций по информатике. 10318 . Чам: Springer International Publishing: 74–88. дои : 10.1007/978-3-319-59888-8_6 . ISBN 978-3-319-59888-8 .
- ^ Верхаген, Марк; Судерман, Кейт; Ван, Ди; Иде, Нэнси; Ши, Чунци; Райт, Джонатан; Пустейовский, Джеймс (2016). Мураками, Ёхей; Линь, Дунхуэй (ред.). «Формат обмена LAPPS» . Всемирная инфраструктура языковых услуг . Конспекты лекций по информатике. 9442 . Чам: Springer International Publishing: 33–47. дои : 10.1007/978-3-319-31468-6_3 . ISBN 978-3-319-31468-6 .
- ^ «The Language Application Grid | Платформа веб-сервисов для разработки и исследования обработки естественного языка» . Проверено 5 июня 2020 г.
- ^ newsreader/NAF , NewsReader, 25 мая 2020 г. , получено 05 июня 2020 г.
- ^ Воссен, Пик; Аджерри, Родриго; Альдабе, Ициар; Цибульская, Агата; ван Эрп, Марике; Фоккенс, Антске; Лапарра, Эгоитц; Минар, Анн-Лиз; Пальмеро Апросио, Алессио; Ригау, немецкий; Роспочер, Марко (15 октября 2016 г.). «NewsReader: использование ресурсов знаний в кросс-язычной машине чтения для получения большего количества знаний из огромных потоков новостей» . Системы, основанные на знаниях . 110 : 60–85. дои : 10.1016/j.knosys.2016.07.013 . ISSN 0950-7051 .
- ^ Каннингем, Хэмиш (2005). «Автоматическое извлечение информации», Энциклопедия языка и лингвистики , 2, с. 665–677, http://gate.ac.uk/sale/ell2/ie/main.pdf (дата обращения: 18.06.2012).
- ^ Чикко, Д; Массероли, М (2016). «Прогнозирование на основе онтологий и приоритезация функциональных аннотаций генов» . Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 13 (2): 248–260. дои : 10.1109/TCBB.2015.2459694 . ПМИД 27045825 . S2CID 2795344 .
- ^ Эрдманн, М.; Маедче, Александр; Шнурр, Х.-П.; Стааб, Штеффен (2000). «От руководства к полуавтоматической семантической аннотации: об инструментах текстовых аннотаций на основе онтологий», Proceedings of COLING , http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf ( дата обращения: 18.06.2012).
- ^ Рао, Делип; МакНэми, Пол; Дредзе, Марк (2011). «Связывание сущностей: поиск извлеченных сущностей в базе знаний», многоисточниковое извлечение и обобщение информации на нескольких языках , http://www.cs.jhu.edu/~delip/entity-linking.pdf [ постоянная мертвая ссылка ] (дата обращения: 18.06.2012).
- ^ Rocket Software, Inc. (2012). «Технология извлечения информации из текста», http://www.rocketsoftware.com/products/aerotext. Архивировано 21 июня 2013 г. на Wayback Machine (дата обращения: 18.06.2012).
- ^ Orchestr8 (2012): «Обзор AlchemyAPI», http://www.alchemyapi.com/api. Архивировано 13 мая 2016 г. на Wayback Machine (дата обращения: 18.06.2012).
- ^ Университет Шеффилда (2011). «ЭННИ: почти новая система извлечения информации», http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (дата обращения: 18.06.2012).
- ^ Сеть передового опыта ILP. «ASIUM (LRI)», http://www-ai.ijs.si/~ilpnet2/systems/asium.html (дата обращения: 18.06.2012).
- ^ Внимательность (2012). «Исчерпывающее извлечение», http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/. Архивировано 11 июля 2012 г. на Wayback Machine (дата обращения: 18.06.2012).
- ^ Мендес, Пабло Н.; Якоб, Макс; Гарсиа-Сильва, Андрес; Бизер; Кристиан (2011). «В центре внимания DBpedia: проливая свет на сеть документов», Труды 7-й Международной конференции по семантическим системам , стр. 1–8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf Архивировано 5 апреля 2012 г. Wayback Machine (дата обращения: 18.06.2012).
- ^ Гангеми, Альдо; Пресутти, Валентина; Рефоргиато Рекуперо, Диего; Нуццолезе, Андреа Джованни; Драйккио, Франческо; Монджиови, Мисаэль (2016). «Машинное чтение семантической сети с FRED», журнал Semantic Web Journal , doi : 10.3233/SW-160240 , http://www.semantic-web-journal.net/system/files/swj1379.pdf
- ^ Адриан, Бенджамин; Маус, Хейко; Денгель, Андреас (2009). «iDocument: использование онтологий для извлечения информации из текста», http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (дата обращения: 18.06.2012).
- ^ SRA International, Inc. (2012). «NetOwl Extractor», http://www.sra.com/netowl/entity-extraction/. Архивировано 24 сентября 2012 г. на Wayback Machine (дата обращения: 18.06.2012).
- ^ Фортуна, Блаз; Гробельник, Марко; Младенич, Дуня (2007). «OntoGen: Полуавтоматический редактор онтологий», Материалы конференции 2007 г. по человеческому интерфейсу, часть 2 , стр. 309–318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (дата обращения: 18.06.2012).
- ^ Миссикофф, Мишель; Навильи, Роберто; Веларди, Паола (2002). «Интегрированный подход к обучению и проектированию веб-онтологий», Компьютер , 35 (11), стр. 35 (11). 60–63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (дата обращения: 18.06.2012).
- ^ Макдауэлл, Люк К.; Кафарелла, Майкл (2006). «Извлечение информации на основе онтологий с помощью OntoSyphon», Материалы 5-й международной конференции по семантической сети , с. 428–444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (дата обращения: 18.06.2012).
- ^ Йылдыз, Бурку; Микш, Сильвия (2007). «ontoX — метод извлечения информации на основе онтологий», Материалы международной конференции 2007 г. по вычислительной науке и ее приложениям , 3, стр. 660–673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (дата обращения: 18.06.2012).
- ^ semanticweb.org (2011). «PoolParty Extractor», http://semanticweb.org/wiki/PoolParty_Extractor. Архивировано 4 марта 2016 г. на Wayback Machine (дата обращения: 18.06.2012).
- ^ Дилл, Стивен; Эйрон, Надав; Гибсон, Дэвид; Грул, Дэниел; Гуха, Р.; Джингран, Анант; Канунго, Тапас; Раджагопалан, Шридхар; Томкинс, Эндрю; Томлин, Джон А.; Зиен, Джейсон Ю. (2003). «SemTag и Seeker: начальная загрузка семантической сети с помощью автоматизированной семантической аннотации», материалы 12-й международной конференции по Всемирной паутине , стр. 178–186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (дата обращения: 18.06.2012).
- ^ Урен, Виктория; Чимиано, Филипп; Ирия, Хосе; Хандшу, Зигфрид; Варгас-Вера, Мария; Мотта, Энрико; Чиравенья, Фабио (2006). «Семантическая аннотация для управления знаниями: требования и обзор современного состояния», Веб-семантика: наука, услуги и агенты во Всемирной паутине , 4 (1), с. 14–28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf [ постоянная мертвая ссылка ] , (дата обращения: 18.06.2012).
- ^ Чимиано, Филипп; Фёлкер, Йоханна (2005). «Text2Onto — основа для изучения онтологий и обнаружения изменений, управляемых данными», Материалы 10-й Международной конференции по применению естественного языка в информационных системах , 3513, стр. 227–238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (дата обращения: 18.06.2012).
- ^ Маедче, Александр; Фольц, Рафаэль (2001). «Структура извлечения и обслуживания онтологий Text-To-Onto», Труды Международной конференции IEEE по интеллектуальному анализу данных , http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (дата обращения: 18.06.2012).
- ^ Соединение машин. «Мы подключаемся к облаку связанных открытых данных», http://thewikimachine.fbk.eu/html/index.html. Архивировано 19 июля 2012 г. на Wayback Machine (дата обращения: 18.06.2012).
- ^ Федеральные системы Inxight (2008). «Inxight ThingFinder и ThingFinder Professional», http://inxightfedsys.com/products/sdks/tf/. Архивировано 29 июня 2012 г. на Wayback Machine (дата обращения: 18.06.2012).
- ^ Фроули Уильям. Ф. и др. (1992), «Обнаружение знаний в базах данных: обзор», журнал AI Magazine (том 13, № 3), 57–70 (полная онлайн-версия: http://www.aaai.org/ojs/index.php/aimagazine/ Статья/viewArticle/1011 Архивировано 4 марта 2016 г. в Wayback Machine )
- ^ Файяд У. и др. (1996), «От интеллектуального анализа данных к обнаружению знаний в базах данных», журнал AI (том 17, № 3), 37–54 (полная онлайн-версия: http://www.aaai.org/ojs/index.php/aimagazine) . /article/viewArticle/1230 Архивировано 4 мая 2016 г. в Wayback Machine.
- ^ Цао, Л. (2010). «Доменно-ориентированный анализ данных: проблемы и перспективы». Транзакции IEEE по знаниям и инженерии данных . 22 (6): 755–769. CiteSeerX 10.1.1.190.8427 . дои : 10.1109/tkde.2010.32 . S2CID 17904603 .