Шумный текст
Зашумленный текст — это текст с различиями между поверхностной формой кодированного представления текста и задуманным, правильным или исходным текстом. [1] Шум обработку может быть вызван типографскими ошибками или разговорными выражениями, всегда присутствующими в естественном языке , и обычно снижает качество данных таким образом, что текст становится менее доступным для автоматической обработки компьютерами, включая естественного языка . Шум также мог появиться в результате процесса извлечения (например, транскрипции или оптического распознавания символов ) из носителя, отличного от оригинальных электронных текстов . [2]
Использование языка в компьютерных дискурсах, таких как чаты , электронные письма и тексты SMS , значительно отличается от стандартной формы языка. Стремление к сокращению длины сообщения, способствующему более быстрому набору текста , и потребность в семантической ясности формируют структуру этого текста, используемого в таких дискурсах.
По оценкам различных бизнес-аналитиков, неструктурированные данные составляют около 80% всех данных предприятия . Большая часть этих данных включает стенограммы чатов, электронные письма и другие неформальные и полуформальные внутренние и внешние сообщения. Обычно такой текст предназначен для потребления человеком, но, учитывая объем данных, ручная обработка и оценка этих ресурсов больше практически невозможна. Это повышает потребность в надежных методах интеллектуального анализа текста . [3]
Методы снижения шума
[ редактировать ]Использование средств проверки орфографии и грамматики может уменьшить количество шума в печатаемом тексте. Многие текстовые процессоры включают это в инструмент редактирования. Онлайн- поиск Google включает в себя систему подсказок поисковых запросов, которая помогает пользователям, когда они допускают ошибки в своих запросах.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Ноблок, Крейг; Лопрести, Дэниел; Рой, Шурия; Субраманиам, Л. Венката (2007). «Специальный выпуск по аналитике зашумленного текста». Международный журнал по анализу и распознаванию документов . 10 (3–4): 127–128. дои : 10.1007/s10032-007-0058-9 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Винчарелли, Алессандро (2005). «Категоризация зашумленного текста» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 27 (12): 1882–1895. дои : 10.1109/TPAMI.2005.248 . ПМИД 16355657 .
- ^ Субраманиам, Л. Венката; Рой, Шурия; Фаруки, Танвир А.; Неги, Сумит (23 июля 2009 г.). Обзор типов текстового шума и методов борьбы с шумным текстом . Третий семинар по аналитике зашумленных неструктурированных текстовых данных (AND). стр. 115–122. дои : 10.1145/1568296.1568315 .
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка )