Сегментация текста
Эта статья нуждается в дополнительных цитатах для проверки . ( октябрь 2011 г. ) |
Сегментация текста — это процесс разделения письменного текста на значимые единицы, такие как слова, предложения или темы . Этот термин применяется как к мыслительным процессам, используемым человеком при чтении текста, так и к искусственным процессам, реализованным в компьютерах, которые являются предметом обработки естественного языка . Проблема нетривиальна, поскольку, хотя некоторые письменные языки имеют явные маркеры границ слов, такие как пробелы между словами в письменном английском языке и отличительные формы начальных, средних и конечных букв арабского языка , такие сигналы иногда двусмысленны и присутствуют не во всех письменных текстах. языки.
Сравните сегментацию речи , процесс разделения речи на лингвистически значимые части.
Проблемы сегментации
[ редактировать ]Сегментация слов
[ редактировать ]Сегментация слов — это проблема разделения строки письменного языка на составляющие слова.
В английском и многих других языках, использующих ту или иную форму латинского алфавита , пробел является хорошим приближением разделителя слов ( ограничителя слов ), хотя эта концепция имеет ограничения из-за изменчивости, с которой языки эмически рассматривают словосочетания и составные слова . Многие составные существительные в английском языке пишутся по-разному (например, Ice Box = Ice-box = Icebox ; pig sty = pig-sty = pigsty ) с соответствующей вариацией в том, думают ли носители о них как о существительных фразах или как об отдельных существительных; существуют тенденции в том, как устанавливаются нормы, например, что открытые соединения часто имеют тенденцию со временем затвердевать в соответствии с широко распространенным соглашением, но вариации остаются системными. Напротив, составные существительные в немецком языке демонстрируют меньше орфографических вариаций, при этом затвердевание является более сильной нормой.
Однако эквивалент символа пробела между словами встречается не во всех письменных источниках, и без него сегментация слов становится сложной проблемой. Языки, в которых нет тривиального процесса сегментации слов, включают китайский, японский, где предложения разграничиваются , но не слова, тайский и лаосский , где разграничиваются фразы и предложения, но не слова, и вьетнамский , где разграничиваются слоги, но не слова.
Однако в некоторых системах письма, таких как сценарий геэз, используемый для амхарского языка и тигринья среди других языков, слова явно разделены (по крайней мере, исторически) символом без пробелов.
Консорциум Unicode опубликовал стандартное приложение по сегментации текста . [1] исследование вопросов сегментации в многострочных текстах.
Разделение слов — это процесс анализа составного текста (т. е. текста, который не содержит пробелов или других разделителей слов) для определения места разрыва слов.
Разделение слов может также относиться к процессу расстановки переносов .
Некоторые ученые предположили, что современный китайский язык следует писать сегментированными словами, спробелы между словами, как в письменном английском языке. [2] Потому что бывают неоднозначные тексты, смысл которых знает только автор. Например, «美国会不同意。» может означать «美国 会 不同意。» (США не согласятся) или «美国会 不同意。» (Конгресс США не согласен). Подробнее см. в разделе «Сегментированное письмо на китайском языке» .
Сегментация по намерениям
[ редактировать ]Этот раздел может сбивать с толку или быть неясным для читателей . ( сентябрь 2019 г. ) |
Намеренная сегментация — это проблема разделения написанных слов на ключевые фразы (2 или более группы слов).
В английском и всех других языках основное намерение или желание идентифицируется и становится краеугольным камнем сегментации намерения по ключевой фразе. Основной продукт/услуга, идея, действие или мысль закрепляют ключевую фразу.
«[Все вещи состоят из атомов ]. [Маленькие частицы , которые движутся] [в постоянном движении ], [притягивая друг друга ] [когда они находятся на небольшом расстоянии друг от друга], [но отталкиваются ] [при сжатии ] [в одно целое] другой ]."
Сегментация предложений
[ редактировать ]Сегментация предложений — это проблема разделения строки письменного языка на составляющие предложения . В английском и некоторых других языках использование знаков препинания, особенно символа точки /точки, является разумным приближением. Однако даже в английском языке эта проблема нетривиальна из-за использования точки для сокращений, которая может также завершать предложение, а может и не заканчивать. Например, «Мистер» не является отдельным предложением в « Мистер Смит ходил в магазины на Джонс-стрит». При обработке обычного текста таблицы сокращений, содержащие точки, могут помочь предотвратить неправильное присвоение границ предложений.
Как и в случае с сегментацией слов, не все письменные языки содержат знаки пунктуации, которые полезны для приближения границ предложения.
Сегментация тем
[ редактировать ]Тематический анализ состоит из двух основных задач: идентификация темы и сегментация текста. Хотя первый вариант представляет собой простую классификацию конкретного текста, второй случай подразумевает, что документ может содержать несколько тем, и задача компьютерной сегментации текста может заключаться в автоматическом обнаружении этих тем и соответствующей сегментации текста. Границы темы могут быть очевидны из названий разделов и абзацев. В остальных случаях необходимо использовать приемы, аналогичные тем, которые используются при классификации документов .
Сегментация текста на темы или обороты речи может быть полезна в некоторых естественных задачах обработки: она может значительно улучшить поиск информации или распознавание речи (путем более точного индексирования/распознавания документов или предоставления в результате конкретной части документа, соответствующей запросу). ). Это также необходимо в тем системах обнаружения и отслеживания , а также в задачах суммирования текста .
Было опробовано много разных подходов: [3] [4] например, HMM , лексические цепочки , сходство отрывков с использованием совпадения слов , кластеризация , моделирование тем и т. д.
Это достаточно неоднозначная задача — люди, оценивающие системы сегментации текста, часто различаются границами тем. Следовательно, оценка текстового сегмента также является сложной проблемой.
Другие проблемы сегментации
[ редактировать ]Могут потребоваться процессы для сегментирования текста на сегменты, помимо упомянутых, включая морфемы (задача, обычно называемая морфологическим анализом ) или абзацы .
Подходы к автоматической сегментации
[ редактировать ]Автоматическая сегментация — это проблема обработки естественного языка , возникающая при реализации компьютерного процесса сегментации текста.
Когда пунктуация и подобные подсказки недоступны, задача сегментации часто требует довольно нетривиальных методов, таких как принятие статистических решений, большие словари, а также учет синтаксических и семантических ограничений. Эффективные системы обработки естественного языка и инструменты сегментации текста обычно работают с текстом в определенных доменах и источниках. Например, обработка текста, используемого в медицинских записях, представляет собой совершенно иную проблему, чем обработка новостных статей или объявлений о недвижимости.
Процесс разработки инструментов сегментации текста начинается со сбора большого массива текста в предметной области приложения. Существует два общих подхода:
- Ручной анализ текста и написание специального программного обеспечения
- Аннотируйте образец корпуса информацией о границах и используйте машинное обучение
Некоторые системы сегментации текста используют любую разметку, например HTML, и поддерживают форматы документов, например PDF, для предоставления дополнительных доказательств границ предложений и абзацев.
См. также
[ редактировать ]- Расстановка переносов
- Обработка естественного языка
- Сегментация речи
- Лексический анализ
- Количество слов
- Разрыв строки
Ссылки
[ редактировать ]- ^ УАКС № 29
- ^ Чжан, Сяо-хэн (1998). «Также поговорим о проблеме сегментации слов в китайской письменной речи - Десять преимуществ сегментации и конкатенации слов (Возвращение к сегментации письменных китайских слов: Десять преимуществ сегментированного письма) . » Обработка информации . 12 (1998) (3): 58–64.
- ^ Фредди Ю. Я. Чой (2000). «Достижения в области линейной сегментации текста, независимой от предметной области» (PDF) . Материалы 1-го собрания Североамериканского отделения Ассоциации компьютерной лингвистики (ANLP-NAACL-00) . стр. 26–33.
- ^ Джеффри К. Рейнар (1998). «Тематическая сегментация: алгоритмы и приложения» (PDF) . ИРКС-98-21. Пенсильванский университет . Проверено 8 ноября 2007 г.
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь )