Jump to content

Аналитика зашумленного текста

Аналитика зашумленного текста — это процесс извлечения информации , целью которого является автоматическое извлечение структурированной или полуструктурированной информации из зашумленных неструктурированных текстовых данных . Хотя анализ текста является растущей и зрелой областью, имеющей большую ценность из-за огромных объемов создаваемых данных, обработка зашумленного текста приобретает все большее значение, поскольку многие распространенные приложения создают зашумленные текстовые данные. Шумные неструктурированные текстовые данные встречаются в неформальных условиях, таких как онлайн-чаты , текстовые сообщения , электронная почта , доски объявлений , группы новостей , блоги , вики и веб-страницы . Кроме того, текст, полученный в результате обработки спонтанной речи с использованием автоматического распознавания речи , а также печатный или рукописный текст с использованием оптического распознавания символов, содержит шум обработки. Текст, созданный в таких обстоятельствах, обычно очень зашумлен и содержит орфографические ошибки, сокращения , нестандартные слова, фальстарты, повторы, пропущенные знаки препинания , недостающую информацию о регистре букв , слова для заполнения пауз, такие как «гм» ​​и «ух», а также другие текстовые сообщения и речевые нарушения . Такой текст можно увидеть в больших количествах в контакт-центрах , чатах , оптическом распознавании символов (OCR) текстовых документов, тексте службы коротких сообщений (SMS) и т. д. Документы на историческом языке также можно считать зашумленными с точки зрения сегодняшних знаний о язык. Такой текст содержит важные исторические, религиозные, древние медицинские знания, которые могут оказаться полезными. Природа зашумленного текста, создаваемого во всех этих контекстах, требует выхода за рамки традиционных методов анализа текста.

Методы анализа зашумленного текста

[ редактировать ]

Отсутствие знаков препинания и использование нестандартных слов часто могут мешать использованию стандартных инструментов обработки естественного языка, таких как маркировка частей речи. и разбор . Методы обучения на зашумленных данных и последующей обработки зашумленных данных разрабатываются только сейчас.

Возможный источник зашумленного текста

[ редактировать ]
  • Всемирная паутина : Плохо написанный текст встречается на веб-страницах, в онлайн-чатах , блогах , вики , дискуссионных форумах , группах новостей . Большинство этих данных неструктурированы, а стиль написания сильно отличается от, скажем, хорошо написанных новостных статей. Анализ веб-данных важен, поскольку они являются источниками для анализа рынка, обзора рынка, оценки тенденций и т. д. Кроме того, из-за большого объема данных необходимо найти эффективные методы извлечения информации , классификации , автоматического обобщения и анализа. анализ этих данных.
  • Контакт-центры : это общий термин для справочных служб, информационных линий и центров обслуживания клиентов, работающих в самых разных областях: от продажи и поддержки компьютеров до мобильных телефонов и одежды. В среднем человек в развитом мире общается с оператором контакт-центра не реже одного раза в неделю. Типичный агент контакт-центра обрабатывает более ста звонков в день. Они работают в различных режимах, таких как голосовая связь, онлайн-чат и электронная почта . Индустрия контакт-центров производит гигабайты данных в виде электронных писем , журналов чатов, транскрипций голосовых разговоров , отзывов клиентов и т. д. Основная часть данных контакт-центров — это голосовые разговоры. Транскрипция их с использованием современного автоматического распознавания речи приводит к получению текста с вероятностью ошибок в словах 30-40% . Более того, даже письменные способы общения, такие как онлайн-чат между клиентами и агентами, и даже взаимодействие по электронной почте, как правило, являются шумными. Анализ данных контакт-центра необходим для управления взаимоотношениями с клиентами, анализа удовлетворенности клиентов, моделирования звонков, профилирования клиентов, профилирования агентов и т. д. и требует сложных методов обработки плохо написанного текста.
  • Печатные документы. Многие библиотеки, правительственные организации и организации национальной обороны имеют обширные хранилища печатных документов. Чтобы получить и обработать содержимое таких документов, их необходимо обработать с помощью оптического распознавания символов . Помимо печатного текста эти документы могут содержать и рукописные аннотации. Текст, распознанный методом оптического распознавания символов, может быть очень зашумлен в зависимости от размера шрифта, качества печати и т. д. словах может варьироваться от 2–3 % до 50–60 % Частота ошибок в . Рукописные аннотации могут быть особенно трудными для расшифровки, и в их присутствии частота ошибок может быть весьма высокой.
  • Служба коротких сообщений (SMS): использование языка в компьютерных дискуссиях, таких как чаты, электронные письма и тексты SMS, значительно отличается от стандартной формы языка. Стремление к сокращению длины сообщения, способствующему более быстрому набору текста, и потребность в семантической ясности формируют структуру этой нестандартной формы, известной как язык текстовых сообщений.

См. также

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f446a4f44c6322b0b3bf8d4418ab4f5d__1720547400
URL1:https://arc.ask3.ru/arc/aa/f4/5d/f446a4f44c6322b0b3bf8d4418ab4f5d.html
Заголовок, (Title) документа по адресу, URL1:
Noisy text analytics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)