Jump to content

Нормализация текста

Нормализация текста — это процесс преобразования текста в единую каноническую форму , которой раньше у него не было. Нормализация текста перед его сохранением или обработкой позволяет разделить задачи , поскольку входные данные гарантированно будут согласованными до того, как над ними будут выполнены операции. Нормализация текста требует знания того, какой тип текста необходимо нормализовать и как его следует обрабатывать впоследствии; универсальной процедуры нормализации не существует. [1]

Приложения

[ редактировать ]

Нормализация текста часто используется при преобразовании текста в речь . Числа , даты , аббревиатуры и аббревиатуры — это нестандартные «слова», которые нужно произносить по-разному в зависимости от контекста. [2] Например:

  • «200 долларов» на английском языке будет произноситься как «двести долларов», а на самоанском — как «lua selau tālā». [3]
  • «vi» может произноситься как « vie », « vee » или « the Sixth » в зависимости от окружающих слов. [4]

Текст также можно нормализовать для хранения и поиска в базе данных. Например, если поиск по запросу «резюме» соответствует слову «резюме», то текст будет нормализован путем удаления диакритических знаков ; и если «john» соответствует «John», текст будет преобразован в один регистр . Чтобы подготовить текст к поиску, его также можно сократить (например, преобразовать оба слова «flew» и «flying» в «fly»), канонизировать (например, последовательно использовать правописание американского или британского английского языка ) или удалить стоп-слова .

Для простой, независимой от контекста нормализации, такой как удаление небуквенно -цифровых символов или диакритических знаков , регулярных выражений будет достаточно. Например, sed сценарий sed ‑e "s/\s+/ /g"  inputfile нормализовал бы серии пробельных символов в один пробел. Более сложная нормализация требует соответственно сложных алгоритмов, включая знание предметной области нормируемого языка и словарного запаса. Среди других подходов нормализация текста моделируется как проблема токенизации и маркировки потоков текста. [5] и как частный случай машинного перевода. [6] [7]

Текстовая стипендия

[ редактировать ]

В области текстологии и редактирования исторических текстов термин «нормализация» подразумевает определенную степень модернизации и стандартизации - например, в расширении сокращений писцов и транслитерации архаических символов, обычно встречающихся в рукописях и ранних печатных источниках. отличается Таким образом, нормализованное издание от дипломатического издания (или полудипломатического издания ), в котором делается некоторая попытка сохранить эти особенности. Цель состоит в том, чтобы найти соответствующий баланс между, с одной стороны, строгой верностью исходному тексту (включая, например, сохранение загадочных и двусмысленных элементов); а с другой – создание нового текста, который будет понятен и доступен современному читателю. Таким образом, степень нормализации остается на усмотрение редактора и может варьироваться. Некоторые редакторы, например, предпочитают модернизировать устаревшую орфографию и пунктуацию, но другие этого не делают. [8]

См. также

[ редактировать ]
  1. ^ Ричард Спроат и Стивен Бедрик (сентябрь 2011 г.). «CS506/606: Txt Nrmlztn» . Проверено 2 октября 2012 г.
  2. ^ Спроат, Р.; Блэк, А.; Чен, С.; Кумар, С.; Остендорф, М.; Ричардс, К. (2001). «Нормализация нестандартных слов». Компьютерная речь и язык 15 ; 287–333. дои : 10.1006/csla.2001.0169 .
  3. ^ «Самоанские цифры» . MyLanguages.org . Проверено 2 октября 2012 г.
  4. ^ «Нормализация текста в системах преобразования текста в речь» . MSDN . Проверено 2 октября 2012 г.
  5. ^ Чжу, К.; Тан, Дж.; Ли, Х.; Нг, Х.; Чжао, Т. (2007). «Единый подход к нормализации текста с использованием тегов». Материалы 45-го ежегодного собрания Ассоциации компьютерной лингвистики ; 688–695. дои : 10.1.1.72.8138 .
  6. ^ Филип, Г.; Кшиштоф Дж.; Агнешка, В.; Миколай, В. (2006). «Нормализация текста как частный случай машинного перевода». Материалы Международной мультиконференции по информатике и информационным технологиям 1 ; 51–56.
  7. ^ Москера, А.; Льорет, Э.; Мореда, П. (2012). «На пути к облегчению доступности текстов Web 2.0 посредством нормализации текста» Материалы семинара LREC: Обработка естественного языка для улучшения доступности текста (NLP4ITA) ; 9-14
  8. ^ Харви, КПК (2001). Редактирование исторических записей . Лондон: Британская библиотека. стр. 40–46. ISBN  0-7123-4684-8 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7e6b1f18cd2402b89672af4137e3f558__1701998700
URL1:https://arc.ask3.ru/arc/aa/7e/58/7e6b1f18cd2402b89672af4137e3f558.html
Заголовок, (Title) документа по адресу, URL1:
Text normalization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)