Jump to content

Устранение неоднозначности границ предложения

(Перенаправлено с «Нарушение предложения »)

Устранение неоднозначности границ предложения ( SBD ), также известное как разрыв предложения , обнаружение границ предложения и сегментация предложения , является проблемой при обработке естественного языка при определении того, где предложения начинаются и заканчиваются. Инструменты обработки естественного языка часто требуют разделения входных данных на предложения; однако определение границ предложения может быть затруднено из-за потенциальной двусмысленности знаков препинания . В письменном английском языке точка . может обозначать конец предложения или может обозначать аббревиатуру , десятичную точку , многоточие или адрес электронной почты, а также другие возможности Около 47% периодов в The Wall Street Journal корпусе обозначают сокращения. [1] Вопросительные и восклицательные знаки могут быть столь же двусмысленными из-за их использования в смайликах , компьютерном коде и сленге .

В некоторых языках, включая японский и китайский, есть однозначные маркеры окончания предложений.

Стратегии [ править ]

Стандартный « ванильный » подход к нахождению конца предложения: [ нужны разъяснения ]

(а) Если это точка, она завершает предложение.
(б) Если предыдущий токен находится в составленном вручную списке сокращений , то он не завершает предложение.
(c) Если следующий токен пишется с заглавной буквы, он завершает предложение.

Эта стратегия обеспечивает правильность около 95% предложений. [2] Такие вещи, как сокращенные имена, например « DH Lawrence » (с пробелами между отдельными словами, образующими полное имя), своеобразное орфографическое написание, используемое в стилистических целях (часто относящееся к одной концепции, например, к названию развлекательного продукта, например « .hack/ ). /ЗНАК ») и использование нестандартной пунктуации (или нестандартное употребление пунктуации ) в тексте часто попадают под оставшиеся 5%.

Другой подход заключается в автоматическом изучении набора правил из набора документов, в которых заранее отмечены разрывы предложений. Решения были основаны на модели максимальной энтропии . [3] НАБОР [4] архитектура использует нейронную сеть для устранения неоднозначности границ предложений и достигает точности 98,5%.

Программное обеспечение [ править ]

Примеры использования регулярных выражений , совместимых с Perl (« PCRE »)
  • ((?<=[a-z0-9][.?!])|(?<=[a-z0-9][.?!]\"))(\s|\r\n)(?=\"?[A-Z])
  • $sentences = preg_split("/(?<!\..)([\?\!\.]+)\s(?!.\.)/", $text, -1, PREG_SPLIT_DELIM_CAPTURE); (для PHP )
Использование в Интернете, библиотеки и API
  • send_detector — Java [5]
  • Lingua-EN-Sentence – perl [6]
  • Sentence.pm — perl [7]
  • SATZ – Адаптивная система сегментации предложений – Дэвид Д. Палмер – C [8]
Наборы инструментов, включающие обнаружение предложений

См. также [ править ]

Ссылки [ править ]

  1. ^ Э. Стамататос; Н. Факотакис и Г. Коккинакис. «1 Автоматическое извлечение правил устранения неоднозначности границ предложения» . Университет Патры . Проверено 3 января 2009 г.
  2. ^ О'Нил, Джон. «Действия со словами, часть вторая: определение границ предложения» . Проверено 3 января 2009 г.
  3. ^ Рейнар, JC; Ратнапархи, А. «Подход с максимальной энтропией к определению границ предложения» (PDF) . Проверено 3 января 2009 г.
  4. ^ «SATZ: адаптивный детектор границ предложения» . Архивировано из оригинала 22 сентября 2007 г.
  5. ^ [1]
  6. ^ «Lingua-EN-Sentence-0.25 — Модуль разделения текста на предложения. — Metacpan.org» . Metacpan.org .
  7. ^ «Text::Sentence — модуль разделения текста на предложения — Metacpan.org» . Metacpan.org .
  8. ^ http://elib.cs.berkeley.edu/src/satz/
  9. ^ «Апач OpenNLP» . opennlp.apache.org .
  10. ^ [2]
  11. ^ «НЛТК::Набор инструментов естественного языка» . www.nltk.org .
  12. ^ «Программное обеспечение — Стэнфордская группа обработки естественного языка» . nlp.stanford.edu .
  13. ^ «Архив кода Google — долгосрочное хранилище для хостинга проектов Google Code» . code.google.com .
  14. ^ «КогКомпНЛП» . 2 января 2024 г. – через GitHub.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 260310996af9f225b9fb733e9d74e7b6__1704214200
URL1:https://arc.ask3.ru/arc/aa/26/b6/260310996af9f225b9fb733e9d74e7b6.html
Заголовок, (Title) документа по адресу, URL1:
Sentence boundary disambiguation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)