Jump to content

Истинный корпус

Truecasing , также называемый восстановлением капитализации , [1] коррекция капитализации , [2] или восстановление корпуса , [3] — это проблема обработки естественного языка (НЛП) определения правильной капитализации слов там, где такая информация недоступна. Обычно это происходит из-за стандартной практики (в английском и многих других языках) автоматического написания первого слова предложения с заглавной буквы. написанные только строчными или прописными буквами Это также может возникнуть в тексте с неправильным регистром или без него (например, текстовые сообщения, ).

Truecase не требуется в языках, в сценариях которых нет различия между прописными и строчными буквами. Сюда входят все языки, не написанные на латинице , греческом , кириллице или армянском алфавите , такие как корейский , японский , китайский , тайский , иврит , арабский , хинди и грузинский .

Техники [ править ]

  • Нейронные сети , работающие на уровне слов или символов, обучены восстанавливать заглавные буквы с точностью более 90%.
  • Сегментацию предложений можно использовать, чтобы определить, где они начинаются, чтобы реализовать правило, согласно которому первое слово каждого предложения должно быть написано с заглавной буквы.
  • Маркировка частей речи может использоваться для идентификации имен собственных (например, Африка, Юпитер, Сара или Амазонка), которые необходимо писать с заглавной буквы. В некоторых случаях одно и то же слово может использоваться как разные части речи и писаться с заглавной буквы по-разному. Например, «Ксерокс компании» как существительное пишется с заглавной буквы, а «ксероксировать документ», как глагол, не пишется с заглавной буквы. Ксерокопию, как и копию документа, можно узнать по наличию определителя , который не используется для имен собственных.
  • Распознавание именованного объекта можно использовать для идентификации имен собственных, которые необходимо писать с заглавной буквы.
  • Средство проверки правописания можно использовать для определения слов, которые всегда пишутся с заглавной буквы.

Приложения [ править ]

Truecasing помогает в других задачах НЛП, таких как распознавание именованных объектов (NER), автоматическое извлечение контента (ACE) и машинный перевод . [4] Правильная капитализация позволяет легче обнаруживать имена собственные, которые являются отправной точкой NER и ACE. Некоторые системы перевода используют статистические методы машинного обучения, которые могут использовать информацию, содержащуюся в заглавных буквах, для повышения точности.

См. также [ править ]

Ссылки [ править ]

  1. ^ Браун, Эрик В.; Коден, Анни Р. (2002). «Восстановление капитализации текста». Методы поиска информации для речевых приложений . Конспекты лекций по информатике. Том. 2273. стр. 11–22. дои : 10.1007/3-540-45637-6_2 . ISBN  978-3-540-43156-5 .
  2. ^ Патент США 7 827 025 B2 , Питер К. Л. Мау и Донг Ю, «Эффективная капитализация посредством пользовательского моделирования», выдан 2 ноября 2010 г., передан корпорации Microsoft.  
  3. ^ патент США 8972855 B2 , Чжу Лю; Дэвид Гиббон ​​и Бехзад Шахрарай, «Метод и устройство для восстановления дела», выпущено 3 марта 2015 г., передано AT&T Intellectual Property I, LP.  
  4. ^ Лита, Л.В.; Иттихерия, А.; Рукос, С.; Камбхатла, Н. (2003). «ТРУКАЗИНГ» . Материалы 41-го ежегодного собрания Ассоциации компьютерной лингвистики . Саппоро, Япония. стр. 152–159.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 899feb4f6fdef0fb12e64a9394574ebf__1708253940
URL1:https://arc.ask3.ru/arc/aa/89/bf/899feb4f6fdef0fb12e64a9394574ebf.html
Заголовок, (Title) документа по адресу, URL1:
Truecasing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)