Jump to content

Упрощение текста

Упрощение текста — это операция, используемая при обработке естественного языка для изменения, улучшения, классификации или иной обработки существующего массива удобочитаемого текста, поэтому его грамматика и структура значительно упрощаются, в то время как основной смысл и информация остаются прежними. Упрощение текста является важной областью исследований из-за коммуникационных потребностей во все более сложном и взаимосвязанном мире, в котором все больше доминируют наука, технологии и новые медиа. Но естественные человеческие языки создают огромные проблемы, поскольку они обычно содержат большие словарные запасы и сложные конструкции, которые машины, какими бы быстрыми и хорошо запрограммированными они ни были, не могут легко обработать. Однако исследователи обнаружили, что для уменьшения лингвистического разнообразия они могут использовать методы семантического сжатия , чтобы ограничить и упростить набор слов, используемых в заданных текстах.

Пример [ править ]

Упрощение текста иллюстрируется примером, использованным Сиддхартаном (2006). [1] Первое предложение содержит два придаточных предложения и одну союзную глагольную группу. Система упрощения текста направлена ​​на изменение первого предложения в группу более простых предложений, как показано чуть ниже первого предложения.

  • Стабильности цен на медь также способствовал отчет чикагских агентов по закупкам, который предшествует полному отчету агентов по закупкам, который должен выйти сегодня, и дает представление о том, что может содержать полный отчет.
  • Укреплению цен на медь, как отметил аналитик, также способствовал отчет чикагских агентов по закупкам. Отчет по Чикаго предшествует полному отчету агентов по закупкам. Чикагский отчет дает представление о том, что может содержать полный отчет. Полный отчет должен быть опубликован сегодня.

Одним из подходов к упрощению текста является лексическое упрощение посредством лексической замены , двухэтапного процесса, в ходе которого сначала идентифицируются сложные слова, а затем заменяются их более простыми синонимами. Ключевой задачей здесь является идентификация сложных слов, которую выполняет классификатор машинного обучения, обученный на помеченных данных . Исследователи, разочарованные проблемами с использованием классического метода, когда испытуемых просили описывать слова как простые или сложные, обнаружили, что они могут добиться большей последовательности на более высоких уровнях сложности, если попросят тех, кто размечает, сортировать представленные им слова по порядку. сложности. [2]

См. также [ править ]

Ссылки [ править ]

  1. ^ Сиддхартхан, Адвайт (28 марта 2006 г.). «Синтаксическое упрощение и связность текста». Исследования в области языка и вычислений . 4 (1): 77–109. дои : 10.1007/s11168-006-9011-1 . S2CID   14619244 .
  2. ^ Гудинг, Сиан; Кочмар, Екатерина; Саркар, Адвайт; Блэквелл, Алан (август 2019 г.). «Сравнительные суждения более последовательны, чем бинарная классификация для обозначения сложности слов» . Материалы 13-го семинара по лингвистическим аннотациям : 208–214. дои : 10.18653/v1/W19-4024 . Проверено 22 ноября 2019 г.
  • Вэй Сюй, Крис Каллисон-Бёрч и Кортни Наполес. « Проблемы современных исследований по упрощению текста ». В Трудах Ассоциации компьютерной лингвистики (TACL), том 3, 2015 г., страницы 283–297.
  • Адвайт Сиддхартхан. « Синтаксическое упрощение и связность текста ». В исследовании языка и вычислений, том 4, выпуск 1, июнь 2006 г., страницы 77–109, Springer Science, Нидерланды.
  • Сиддхартха Джонналагадда, Луис Тари, Йорг Хакенберг, Читта Барал и Грасиела Гонсалес. На пути к эффективному упрощению предложений для автоматической обработки биомедицинского текста. В Proc. конференции NAACL-HLT 2009, Боулдер, США, июнь. [1]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: b4e5dca84edf718387cb33014f4e6ff7__1689279000
URL1:https://arc.ask3.ru/arc/aa/b4/f7/b4e5dca84edf718387cb33014f4e6ff7.html
Заголовок, (Title) документа по адресу, URL1:
Text simplification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)