Истинный корпус
Эта статья нуждается в дополнительных цитатах для проверки . ( октябрь 2010 г. ) |
Truecasing , также называемый восстановлением капитализации , [1] коррекция капитализации , [2] или восстановление корпуса , [3] — это проблема обработки естественного языка (НЛП) определения правильной капитализации слов там, где такая информация недоступна. Обычно это происходит из-за стандартной практики (в английском и многих других языках) автоматического написания первого слова предложения с заглавной буквы. написанные только строчными или прописными буквами Это также может возникнуть в тексте с неправильным регистром или без него (например, текстовые сообщения, ).
Truecase не требуется в языках, в сценариях которых нет различия между прописными и строчными буквами. Сюда входят все языки, не написанные на латинице , греческом , кириллице или армянском алфавите , такие как корейский , японский , китайский , тайский , иврит , арабский , хинди и грузинский .
Техники [ править ]
- Нейронные сети , работающие на уровне слов или символов, обучены восстанавливать заглавные буквы с точностью более 90%.
- Сегментацию предложений можно использовать, чтобы определить, где они начинаются, чтобы реализовать правило, согласно которому первое слово каждого предложения должно быть написано с заглавной буквы.
- Маркировка частей речи может использоваться для идентификации имен собственных (например, Африка, Юпитер, Сара или Амазонка), которые необходимо писать с заглавной буквы. В некоторых случаях одно и то же слово может использоваться как разные части речи и писаться с заглавной буквы по-разному. Например, «Ксерокс компании» как существительное пишется с заглавной буквы, а «ксероксировать документ», как глагол, не пишется с заглавной буквы. Ксерокопию, как и копию документа, можно узнать по наличию определителя , который не используется для имен собственных.
- Распознавание именованного объекта можно использовать для идентификации имен собственных, которые необходимо писать с заглавной буквы.
- Средство проверки правописания можно использовать для определения слов, которые всегда пишутся с заглавной буквы.
Приложения [ править ]
Truecasing помогает в других задачах НЛП, таких как распознавание именованных объектов (NER), автоматическое извлечение контента (ACE) и машинный перевод . [4] Правильная капитализация позволяет легче обнаруживать имена собственные, которые являются отправной точкой NER и ACE. Некоторые системы перевода используют статистические методы машинного обучения, которые могут использовать информацию, содержащуюся в заглавных буквах, для повышения точности.
См. также [ править ]
Ссылки [ править ]
- ^ Браун, Эрик В.; Коден, Анни Р. (2002). «Восстановление капитализации текста». Методы поиска информации для речевых приложений . Конспекты лекций по информатике. Том. 2273. стр. 11–22. дои : 10.1007/3-540-45637-6_2 . ISBN 978-3-540-43156-5 .
- ^ Патент США 7 827 025 B2 , Питер К. Л. Мау и Донг Ю, «Эффективная капитализация посредством пользовательского моделирования», выдан 2 ноября 2010 г., передан корпорации Microsoft.
- ^ патент США 8972855 B2 , Чжу Лю; Дэвид Гиббон и Бехзад Шахрарай, «Метод и устройство для восстановления дела», выпущено 3 марта 2015 г., передано AT&T Intellectual Property I, LP.
- ^ Лита, Л.В.; Иттихерия, А.; Рукос, С.; Камбхатла, Н. (2003). «ТРУКАЗИНГ» . Материалы 41-го ежегодного собрания Ассоциации компьютерной лингвистики . Саппоро, Япония. стр. 152–159.