Нормализация текста

Нормализация текста — это процесс преобразования текста в единую каноническую форму , которой раньше у него не было. Нормализация текста перед его сохранением или обработкой позволяет разделить задачи , поскольку входные данные гарантированно будут согласованными до того, как над ними будут выполнены операции. Нормализация текста требует знания того, какой тип текста необходимо нормализовать и как его следует обрабатывать впоследствии; универсальной процедуры нормализации не существует. ^[1]

Приложения

Нормализация текста часто используется при преобразовании текста в речь . Числа , даты , аббревиатуры и аббревиатуры — это нестандартные «слова», которые нужно произносить по-разному в зависимости от контекста. ^[2] Например:

«200 долларов» на английском языке будет произноситься как «двести долларов», а на самоанском — как «lua selau tālā». ^[3]
«vi» может произноситься как « vie », « vee » или « the Sixth » в зависимости от окружающих слов. ^[4]

Текст также можно нормализовать для хранения и поиска в базе данных. Например, если поиск по запросу «резюме» соответствует слову «резюме», то текст будет нормализован путем удаления диакритических знаков ; и если «john» соответствует «John», текст будет преобразован в один регистр . Чтобы подготовить текст к поиску, его также можно сократить (например, преобразовать оба слова «flew» и «flying» в «fly»), канонизировать (например, последовательно использовать правописание американского или британского английского языка ) или удалить стоп-слова .

Техники

Для простой, независимой от контекста нормализации, такой как удаление небуквенно -цифровых символов или диакритических знаков , регулярных выражений будет достаточно. Например, sed сценарий sed ‑e "s/\s+/ /g" inputfile нормализовал бы серии пробельных символов в один пробел. Более сложная нормализация требует соответственно сложных алгоритмов, включая знание предметной области нормируемого языка и словарного запаса. Среди других подходов нормализация текста моделируется как проблема токенизации и маркировки потоков текста. ^[5] и как частный случай машинного перевода. ^[6]^[7]

Текстовая стипендия

В области текстологии и редактирования исторических текстов термин «нормализация» подразумевает определенную степень модернизации и стандартизации - например, в расширении сокращений писцов и транслитерации архаических символов, обычно встречающихся в рукописях и ранних печатных источниках. отличается Таким образом, нормализованное издание от дипломатического издания (или полудипломатического издания ), в котором делается некоторая попытка сохранить эти особенности. Цель состоит в том, чтобы найти соответствующий баланс между, с одной стороны, строгой верностью исходному тексту (включая, например, сохранение загадочных и двусмысленных элементов); а с другой – создание нового текста, который будет понятен и доступен современному читателю. Таким образом, степень нормализации остается на усмотрение редактора и может варьироваться. Некоторые редакторы, например, предпочитают модернизировать устаревшую орфографию и пунктуацию, но другие этого не делают. ^[8]

См. также

Ссылки

^ Ричард Спроат и Стивен Бедрик (сентябрь 2011 г.). «CS506/606: Txt Nrmlztn» . Проверено 2 октября 2012 г.
^ Спроат, Р.; Блэк, А.; Чен, С.; Кумар, С.; Остендорф, М.; Ричардс, К. (2001). «Нормализация нестандартных слов». Компьютерная речь и язык 15 ; 287–333. дои : 10.1006/csla.2001.0169 .
^ «Самоанские цифры» . MyLanguages.org . Проверено 2 октября 2012 г.
^ «Нормализация текста в системах преобразования текста в речь» . MSDN . Проверено 2 октября 2012 г.
^ Чжу, К.; Тан, Дж.; Ли, Х.; Нг, Х.; Чжао, Т. (2007). «Единый подход к нормализации текста с использованием тегов». Материалы 45-го ежегодного собрания Ассоциации компьютерной лингвистики ; 688–695. дои : 10.1.1.72.8138 .
^ Филип, Г.; Кшиштоф Дж.; Агнешка, В.; Миколай, В. (2006). «Нормализация текста как частный случай машинного перевода». Материалы Международной мультиконференции по информатике и информационным технологиям 1 ; 51–56.
^ Москера, А.; Льорет, Э.; Мореда, П. (2012). «На пути к облегчению доступности текстов Web 2.0 посредством нормализации текста» Материалы семинара LREC: Обработка естественного языка для улучшения доступности текста (NLP4ITA) ; 9-14
^ Харви, КПК (2001). Редактирование исторических записей . Лондон: Британская библиотека. стр. 40–46. ISBN 0-7123-4684-8 .

[cs506-1] Ричард Спроат и Стивен Бедрик (сентябрь 2011 г.). «CS506/606: Txt Nrmlztn» . Проверено 2 октября 2012 г.

[sproate-2] Спроат, Р.; Блэк, А.; Чен, С.; Кумар, С.; Остендорф, М.; Ричардс, К. (2001). «Нормализация нестандартных слов». Компьютерная речь и язык 15 ; 287–333. дои : 10.1006/csla.2001.0169 .

[3] «Самоанские цифры» . MyLanguages.org . Проверено 2 октября 2012 г.

[msdn-4] «Нормализация текста в системах преобразования текста в речь» . MSDN . Проверено 2 октября 2012 г.

[tagging-5] Чжу, К.; Тан, Дж.; Ли, Х.; Нг, Х.; Чжао, Т. (2007). «Единый подход к нормализации текста с использованием тегов». Материалы 45-го ежегодного собрания Ассоциации компьютерной лингвистики ; 688–695. дои : 10.1.1.72.8138 .

[mt-6] Филип, Г.; Кшиштоф Дж.; Агнешка, В.; Миколай, В. (2006). «Нормализация текста как частный случай машинного перевода». Материалы Международной мультиконференции по информатике и информационным технологиям 1 ; 51–56.

[sm-7] Москера, А.; Льорет, Э.; Мореда, П. (2012). «На пути к облегчению доступности текстов Web 2.0 посредством нормализации текста» Материалы семинара LREC: Обработка естественного языка для улучшения доступности текста (NLP4ITA) ; 9-14

[8] Харви, КПК (2001). Редактирование исторических записей . Лондон: Британская библиотека. стр. 40–46. ISBN 0-7123-4684-8 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]