Jump to content

Открытое извлечение информации

При обработке естественного языка извлечение открытой информации ( OIE ) — это задача создания структурированного машиночитаемого представления информации в тексте, обычно в форме троек или n-арных предложений .

Предложение можно понимать как носитель истины , текстовое выражение потенциального факта (например, «Данте написал «Божественную комедию»), представленное в подходящей для компьютеров структуре [например, («Данте», «написал», «Божественная комедия»). Комедия")]. Извлечение МЭБ обычно состоит из отношения и набора аргументов. Например, («Данте», «умер в» «Равенне») — это предложение, образованное отношением «умер в» и аргументами «Данте» и «Равенна». Первый аргумент обычно называется субъектом, а второй считается объектом. [1]

Извлечение считается текстовым представлением потенциального факта, поскольку его элементы не связаны с базой знаний . Более того, фактический характер этого предложения еще не установлен. В приведенном выше примере преобразование извлечения в полноценный факт сначала потребует привязки, если возможно, отношения и аргументов к базе знаний. Во-вторых, необходимо будет определить истинность извлечения информации. В информатике преобразование извлечений МЭБ в онтологические факты известно как извлечение отношений .

Фактически, МЭБ можно рассматривать как первый шаг к широкому спектру задач более глубокого понимания текста, таких как извлечение отношений, построение базы знаний, ответы на вопросы , разметка семантических ролей . Извлеченные предложения также можно напрямую использовать для приложений конечного пользователя, таких как структурированный поиск (например, извлечение всех предложений с «Данте» в качестве темы).

МЭБ был впервые представлен TextRunner [2] разработан в Центре Тьюринга Вашингтонского университета под руководством Орена Эциони . Другие методы, представленные позже, такие как Reverb, [3] ОЛИ, [4] КлаусIE [5] или ЦДЦД [6] помог сформировать задачу МЭБ, охарактеризовав некоторые ее аспекты. На высоком уровне все эти подходы используют набор шаблонов для генерации извлечений. В зависимости от конкретного подхода эти шаблоны либо создаются вручную, либо изучаются.

Системы и вклад МЭБ

[ редактировать ]

Реверберация [3] предположил необходимость создания значимых отношений для более точного отражения информации во входном тексте. Например, учитывая предложение «Фауст заключил договор с дьяволом», было бы ошибочно просто привести извлечение («Фауст», «заключил», «договор»), поскольку оно не было бы достаточно информативным. Более точным извлечением было бы («Фауст», «заключил договор», «дьявол»). Ревербератор также выступал против создания сверхспецифичных отношений.

Олли [4] подчеркнул два важных аспекта для МЭБ. Во-первых, это указывало на отсутствие фактов в предложениях. Например, в предложении типа «Если Джон будет усердно учиться, он сдаст экзамен» было бы неточно рассматривать («Джон», «сдаст», «экзамен») как факт. Кроме того, авторы указали, что система МЭБ должна быть способна извлекать неглагольные опосредованные отношения, на которые приходится значительная часть информации, выраженной в тексте на естественном языке. Например, в предложении «Обама, бывший президент США, родился на Гавайях» система МЭБ должна иметь возможность распознавать предложение («Обама», «есть», «бывший президент США»).

КлаусIE [5] ввел связь между грамматическими предложениями, предложениями и извлечениями МЭБ. Авторы заявили, что, поскольку каждое грамматическое предложение выражает предложение, каждое предложение, опосредованное глаголом, можно идентифицировать, просто распознав набор предложений, выраженных в каждом предложении. Это означает, что для правильного распознавания набора предложений во входном предложении необходимо понять его грамматическую структуру. Авторы изучили падеж в английском языке, который допускает только семь типов предложений, а это означает, что для идентификации каждого предложения требуется определить только семь грамматических моделей.

Это открытие также установило разделение между признанием предложений и их материализацией. На первом этапе предложение может быть идентифицировано без какого-либо рассмотрения его окончательной формы, независимым от предметной области и неконтролируемым способом, в основном на основе лингвистических принципов. На втором этапе информация может быть представлена ​​в соответствии с требованиями базового приложения без необходимости этапа идентификации.

Рассмотрим предложение «Альберт Эйнштейн родился в Ульме и умер в Принстоне». Первым шагом будет признание двух предложений («Альберт Эйнштейн», «родился», «в Ульме») и («Альберт Эйнштейн», «умер», «в Принстоне»). Как только информация будет правильно идентифицирована, предложения могут принять конкретную форму, требуемую основным приложением [например, («Альберт Эйнштейн», «родился в», «Ульм») и («Альберт Эйнштейн», «умер в» , «Принстон»)].

ЦДЦД [6] ввел идею минимализма в МЭБ. Он считает, что компьютеры смогут лучше использовать извлеченные данные, если они будут выражены в компактной форме. Особенно это важно в предложениях с придаточными предложениями. В этих случаях CSD предлагает создание вложенных извлечений. Например, рассмотрим предложение «Посольство сообщило, что в Пакистане находятся 6700 американцев». CSD генерирует два извлечения [i] («6700 американцев», «были», «в Пакистане») и [ii] («Посольство», «сказал», «что [i]). Это обычно известно как реификация.

  1. ^ Дель Корро, Лучано. «Методы извлечения открытой информации и устранения смысловой неоднозначности в тексте на естественном языке» (PDF) . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  2. ^ Банко, Микеле; Кафарелла, Майкл; Содерланд, Стивен; Бродхед, Мэтт; Эциони, Орен (2007). «Открытое извлечение информации из Интернета» (PDF) . Конференция по искусственному интеллекту .
  3. ^ Перейти обратно: а б Фейдер, Энтони; Содерланд, Стивен; Эциони, Орен (2011). «Определение связей для извлечения открытой информации» (PDF) . ЕМНЛП .
  4. ^ Перейти обратно: а б Маусам; Шмитц, Майкл; Содерланд, Стивен; Барт, Роберт; Эциони, Орен (2012). «Открытое изучение языка для извлечения информации» (PDF) . ЕМНЛП .
  5. ^ Перейти обратно: а б Дель Корро, Лучано; Гемулла, Райнер (2013). «ClausIE: извлечение открытой информации на основе предложений» (PDF) . WWW .
  6. ^ Перейти обратно: а б Баст, Ханна ; Османн, Эльмар (2013). «Извлечение открытой информации посредством декомпозиции контекстного предложения» . КМГС .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 416c7df56ce88a9d6abc7cb6eab07d29__1671977700
URL1:https://arc.ask3.ru/arc/aa/41/29/416c7df56ce88a9d6abc7cb6eab07d29.html
Заголовок, (Title) документа по адресу, URL1:
Open information extraction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)