Сегментация текста

Сегментация текста — это процесс разделения письменного текста на значимые единицы, такие как слова, предложения или темы . Этот термин применяется как к мыслительным процессам, используемым человеком при чтении текста, так и к искусственным процессам, реализованным в компьютерах, которые являются предметом обработки естественного языка . Проблема нетривиальна, поскольку, хотя некоторые письменные языки имеют явные маркеры границ слов, такие как пробелы между словами в письменном английском языке и отличительные формы начальных, средних и конечных букв арабского языка , такие сигналы иногда двусмысленны и присутствуют не во всех письменных текстах. языки.

Сравните сегментацию речи , процесс разделения речи на лингвистически значимые части.

Проблемы сегментации

Сегментация слов

Сегментация слов — это проблема разделения строки письменного языка на составляющие слова.

В английском и многих других языках, использующих ту или иную форму латинского алфавита , пробел является хорошим приближением разделителя слов ( ограничителя слов ), хотя эта концепция имеет ограничения из-за изменчивости, с которой языки эмически рассматривают словосочетания и составные слова . Многие составные существительные в английском языке пишутся по-разному (например, Ice Box = Ice-box = Icebox ; pig sty = pig-sty = pigsty ) с соответствующей вариацией в том, думают ли носители о них как о существительных фразах или как об отдельных существительных; существуют тенденции в том, как устанавливаются нормы, например, что открытые соединения часто имеют тенденцию со временем затвердевать в соответствии с широко распространенным соглашением, но вариации остаются системными. Напротив, составные существительные в немецком языке демонстрируют меньше орфографических вариаций, при этом затвердевание является более сильной нормой.

Однако эквивалент символа пробела между словами встречается не во всех письменных источниках, и без него сегментация слов становится сложной проблемой. Языки, в которых нет тривиального процесса сегментации слов, включают китайский, японский, где предложения разграничиваются , но не слова, тайский и лаосский , где разграничиваются фразы и предложения, но не слова, и вьетнамский , где разграничиваются слоги, но не слова.

Однако в некоторых системах письма, таких как сценарий геэз, используемый для амхарского языка и тигринья среди других языков, слова явно разделены (по крайней мере, исторически) символом без пробелов.

Консорциум Unicode опубликовал стандартное приложение по сегментации текста . ^[1] исследование вопросов сегментации в многострочных текстах.

Разделение слов — это процесс анализа составного текста (т. е. текста, который не содержит пробелов или других разделителей слов) для определения места разрыва слов.

Разделение слов может также относиться к процессу расстановки переносов .

Некоторые ученые предположили, что современный китайский язык следует писать сегментированными словами, спробелы между словами, как в письменном английском языке. ^[2]Потому что бывают неоднозначные тексты, смысл которых знает только автор. Например, «美国会不同意。» может означать «美国会不同意。» (США не согласятся) или «美国会不同意。» (Конгресс США не согласен). Подробнее см. в разделе «Сегментированное письмо на китайском языке» .

Сегментация по намерениям

Намеренная сегментация — это проблема разделения написанных слов на ключевые фразы (2 или более группы слов).

В английском и всех других языках основное намерение или желание идентифицируется и становится краеугольным камнем сегментации намерения по ключевой фразе. Основной продукт/услуга, идея, действие или мысль закрепляют ключевую фразу.

«[Все вещи состоят из атомов ]. [Маленькие частицы , которые движутся] [в постоянном движении ], [притягивая друг друга ] [когда они находятся на небольшом расстоянии друг от друга], [но отталкиваются ] [при сжатии ] [в одно целое] другой ]."

Сегментация предложений

Сегментация предложений — это проблема разделения строки письменного языка на составляющие предложения . В английском и некоторых других языках использование знаков препинания, особенно символа точки /точки, является разумным приближением. Однако даже в английском языке эта проблема нетривиальна из-за использования точки для сокращений, которая может также завершать предложение, а может и не заканчивать. Например, «Мистер» не является отдельным предложением в « Мистер Смит ходил в магазины на Джонс-стрит». При обработке обычного текста таблицы сокращений, содержащие точки, могут помочь предотвратить неправильное присвоение границ предложений.

Как и в случае с сегментацией слов, не все письменные языки содержат знаки пунктуации, которые полезны для приближения границ предложения.

Сегментация тем

Тематический анализ состоит из двух основных задач: идентификация темы и сегментация текста. Хотя первый вариант представляет собой простую классификацию конкретного текста, второй случай подразумевает, что документ может содержать несколько тем, и задача компьютерной сегментации текста может заключаться в автоматическом обнаружении этих тем и соответствующей сегментации текста. Границы темы могут быть очевидны из названий разделов и абзацев. В остальных случаях необходимо использовать приемы, аналогичные тем, которые используются при классификации документов .

Сегментация текста на темы или обороты речи может быть полезна в некоторых естественных задачах обработки: она может значительно улучшить поиск информации или распознавание речи (путем более точного индексирования/распознавания документов или предоставления в результате конкретной части документа, соответствующей запросу). ). Это также необходимо в тем системах обнаружения и отслеживания , а также в задачах суммирования текста .

Было опробовано много разных подходов: ^[3]^[4] например, HMM , лексические цепочки , сходство отрывков с использованием совпадения слов , кластеризация , моделирование тем и т. д.

Это достаточно неоднозначная задача — люди, оценивающие системы сегментации текста, часто различаются границами тем. Следовательно, оценка текстового сегмента также является сложной проблемой.

Другие проблемы сегментации

Могут потребоваться процессы для сегментирования текста на сегменты, помимо упомянутых, включая морфемы (задача, обычно называемая морфологическим анализом ) или абзацы .

Подходы к автоматической сегментации

Автоматическая сегментация — это проблема обработки естественного языка , возникающая при реализации компьютерного процесса сегментации текста.

Когда пунктуация и подобные подсказки недоступны, задача сегментации часто требует довольно нетривиальных методов, таких как принятие статистических решений, большие словари, а также учет синтаксических и семантических ограничений. Эффективные системы обработки естественного языка и инструменты сегментации текста обычно работают с текстом в определенных доменах и источниках. Например, обработка текста, используемого в медицинских записях, представляет собой совершенно иную проблему, чем обработка новостных статей или объявлений о недвижимости.

Процесс разработки инструментов сегментации текста начинается со сбора большого массива текста в предметной области приложения. Существует два общих подхода:

Ручной анализ текста и написание специального программного обеспечения
Аннотируйте образец корпуса информацией о границах и используйте машинное обучение

Некоторые системы сегментации текста используют любую разметку, например HTML, и поддерживают форматы документов, например PDF, для предоставления дополнительных доказательств границ предложений и абзацев.

См. также

Ссылки

^ УАКС № 29
^ Чжан, Сяо-хэн (1998). «Также поговорим о проблеме сегментации слов в китайской письменной речи - Десять преимуществ сегментации и конкатенации слов (Возвращение к сегментации письменных китайских слов: Десять преимуществ сегментированного письма) . » Обработка информации . 12 (1998) (3): 58–64.
^ Фредди Ю. Я. Чой (2000). «Достижения в области линейной сегментации текста, независимой от предметной области» (PDF) . Материалы 1-го собрания Североамериканского отделения Ассоциации компьютерной лингвистики (ANLP-NAACL-00) . стр. 26–33.
^ Джеффри К. Рейнар (1998). «Тематическая сегментация: алгоритмы и приложения» (PDF) . ИРКС-98-21. Пенсильванский университет . Проверено 8 ноября 2007 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[1] УАКС № 29

[2] Чжан, Сяо-хэн (1998). «Также поговорим о проблеме сегментации слов в китайской письменной речи - Десять преимуществ сегментации и конкатенации слов (Возвращение к сегментации письменных китайских слов: Десять преимуществ сегментированного письма) . » Обработка информации . 12 (1998) (3): 58–64.

[3] Фредди Ю. Я. Чой (2000). «Достижения в области линейной сегментации текста, независимой от предметной области» (PDF) . Материалы 1-го собрания Североамериканского отделения Ассоциации компьютерной лингвистики (ANLP-NAACL-00) . стр. 26–33.

[4] Джеффри К. Рейнар (1998). «Тематическая сегментация: алгоритмы и приложения» (PDF) . ИРКС-98-21. Пенсильванский университет . Проверено 8 ноября 2007 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[1]

[2]

[3]

[4]