Нормализация текста
Нормализация текста — это процесс преобразования текста в единую каноническую форму , которой раньше у него не было. Нормализация текста перед его сохранением или обработкой позволяет разделить задачи , поскольку входные данные гарантированно будут согласованными до того, как над ними будут выполнены операции. Нормализация текста требует знания того, какой тип текста необходимо нормализовать и как его следует обрабатывать впоследствии; универсальной процедуры нормализации не существует. [1]
Приложения
[ редактировать ]Нормализация текста часто используется при преобразовании текста в речь . Числа , даты , аббревиатуры и аббревиатуры — это нестандартные «слова», которые нужно произносить по-разному в зависимости от контекста. [2] Например:
- «200 долларов» на английском языке будет произноситься как «двести долларов», а на самоанском — как «lua selau tālā». [3]
- «vi» может произноситься как « vie », « vee » или « the Sixth » в зависимости от окружающих слов. [4]
Текст также можно нормализовать для хранения и поиска в базе данных. Например, если поиск по запросу «резюме» соответствует слову «резюме», то текст будет нормализован путем удаления диакритических знаков ; и если «john» соответствует «John», текст будет преобразован в один регистр . Чтобы подготовить текст к поиску, его также можно сократить (например, преобразовать оба слова «flew» и «flying» в «fly»), канонизировать (например, последовательно использовать правописание американского или британского английского языка ) или удалить стоп-слова .
Техники
[ редактировать ]Для простой, независимой от контекста нормализации, такой как удаление небуквенно -цифровых символов или диакритических знаков , регулярных выражений будет достаточно. Например, sed сценарий sed ‑e "s/\s+/ /g" inputfile
нормализовал бы серии пробельных символов в один пробел. Более сложная нормализация требует соответственно сложных алгоритмов, включая знание предметной области нормируемого языка и словарного запаса. Среди других подходов нормализация текста моделируется как проблема токенизации и маркировки потоков текста. [5] и как частный случай машинного перевода. [6] [7]
Текстовая стипендия
[ редактировать ]В области текстологии и редактирования исторических текстов термин «нормализация» подразумевает определенную степень модернизации и стандартизации - например, в расширении сокращений писцов и транслитерации архаических символов, обычно встречающихся в рукописях и ранних печатных источниках. отличается Таким образом, нормализованное издание от дипломатического издания (или полудипломатического издания ), в котором делается некоторая попытка сохранить эти особенности. Цель состоит в том, чтобы найти соответствующий баланс между, с одной стороны, строгой верностью исходному тексту (включая, например, сохранение загадочных и двусмысленных элементов); а с другой – создание нового текста, который будет понятен и доступен современному читателю. Таким образом, степень нормализации остается на усмотрение редактора и может варьироваться. Некоторые редакторы, например, предпочитают модернизировать устаревшую орфографию и пунктуацию, но другие этого не делают. [8]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Ричард Спроат и Стивен Бедрик (сентябрь 2011 г.). «CS506/606: Txt Nrmlztn» . Проверено 2 октября 2012 г.
- ^ Спроат, Р.; Блэк, А.; Чен, С.; Кумар, С.; Остендорф, М.; Ричардс, К. (2001). «Нормализация нестандартных слов». Компьютерная речь и язык 15 ; 287–333. дои : 10.1006/csla.2001.0169 .
- ^ «Самоанские цифры» . MyLanguages.org . Проверено 2 октября 2012 г.
- ^ «Нормализация текста в системах преобразования текста в речь» . MSDN . Проверено 2 октября 2012 г.
- ^ Чжу, К.; Тан, Дж.; Ли, Х.; Нг, Х.; Чжао, Т. (2007). «Единый подход к нормализации текста с использованием тегов». Материалы 45-го ежегодного собрания Ассоциации компьютерной лингвистики ; 688–695. дои : 10.1.1.72.8138 .
- ^ Филип, Г.; Кшиштоф Дж.; Агнешка, В.; Миколай, В. (2006). «Нормализация текста как частный случай машинного перевода». Материалы Международной мультиконференции по информатике и информационным технологиям 1 ; 51–56.
- ^ Москера, А.; Льорет, Э.; Мореда, П. (2012). «На пути к облегчению доступности текстов Web 2.0 посредством нормализации текста» Материалы семинара LREC: Обработка естественного языка для улучшения доступности текста (NLP4ITA) ; 9-14
- ^ Харви, КПК (2001). Редактирование исторических записей . Лондон: Британская библиотека. стр. 40–46. ISBN 0-7123-4684-8 .