Jump to content

Шумный текст

Зашумленный текст — это текст с различиями между поверхностной формой кодированного представления текста и задуманным, правильным или исходным текстом. [1] Шум обработку может быть вызван типографскими ошибками или разговорными выражениями, всегда присутствующими в естественном языке , и обычно снижает качество данных таким образом, что текст становится менее доступным для автоматической обработки компьютерами, включая естественного языка . Шум также мог появиться в результате процесса извлечения (например, транскрипции или оптического распознавания символов ) из носителя, отличного от оригинальных электронных текстов . [2]

Использование языка в компьютерных дискурсах, таких как чаты , электронные письма и тексты SMS , значительно отличается от стандартной формы языка. Стремление к сокращению длины сообщения, способствующему более быстрому набору текста , и потребность в семантической ясности формируют структуру этого текста, используемого в таких дискурсах.

По оценкам различных бизнес-аналитиков, неструктурированные данные составляют около 80% всех данных предприятия . Большая часть этих данных включает стенограммы чатов, электронные письма и другие неформальные и полуформальные внутренние и внешние сообщения. Обычно такой текст предназначен для потребления человеком, но, учитывая объем данных, ручная обработка и оценка этих ресурсов больше практически невозможна. Это повышает потребность в надежных методах интеллектуального анализа текста . [3]

Методы снижения шума

[ редактировать ]

Использование средств проверки орфографии и грамматики может уменьшить количество шума в печатаемом тексте. Многие текстовые процессоры включают это в инструмент редактирования. Онлайн- поиск Google включает в себя систему подсказок поисковых запросов, которая помогает пользователям, когда они допускают ошибки в своих запросах.

См. также

[ редактировать ]
  1. ^ Ноблок, Крейг; Лопрести, Дэниел; Рой, Шурия; Субраманиам, Л. Венката (2007). «Специальный выпуск по аналитике зашумленного текста». Международный журнал по анализу и распознаванию документов . 10 (3–4): 127–128. дои : 10.1007/s10032-007-0058-9 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  2. ^ Винчарелли, Алессандро (2005). «Категоризация зашумленного текста» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 27 (12): 1882–1895. дои : 10.1109/TPAMI.2005.248 . ПМИД   16355657 .
  3. ^ Субраманиам, Л. Венката; Рой, Шурия; Фаруки, Танвир А.; Неги, Сумит (23 июля 2009 г.). Обзор типов текстового шума и методов борьбы с шумным текстом . Третий семинар по аналитике зашумленных неструктурированных текстовых данных (AND). стр. 115–122. дои : 10.1145/1568296.1568315 . {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9c82a70d1d76e1c2252d4a8627b07e08__1710866040
URL1:https://arc.ask3.ru/arc/aa/9c/08/9c82a70d1d76e1c2252d4a8627b07e08.html
Заголовок, (Title) документа по адресу, URL1:
Noisy text - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)