Упрощение текста
![]() | Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( июнь 2012 г. ) |
Упрощение текста — это операция, используемая при обработке естественного языка для изменения, улучшения, классификации или иной обработки существующего массива удобочитаемого текста, поэтому его грамматика и структура значительно упрощаются, в то время как основной смысл и информация остаются прежними. Упрощение текста является важной областью исследований из-за коммуникационных потребностей во все более сложном и взаимосвязанном мире, в котором все больше доминируют наука, технологии и новые медиа. Но естественные человеческие языки создают огромные проблемы, поскольку они обычно содержат большие словарные запасы и сложные конструкции, которые машины, какими бы быстрыми и хорошо запрограммированными они ни были, не могут легко обработать. Однако исследователи обнаружили, что для уменьшения лингвистического разнообразия они могут использовать методы семантического сжатия , чтобы ограничить и упростить набор слов, используемых в заданных текстах.
Пример [ править ]
Упрощение текста иллюстрируется примером, использованным Сиддхартаном (2006). [1] Первое предложение содержит два придаточных предложения и одну союзную глагольную группу. Система упрощения текста направлена на изменение первого предложения в группу более простых предложений, как показано чуть ниже первого предложения.
- Стабильности цен на медь также способствовал отчет чикагских агентов по закупкам, который предшествует полному отчету агентов по закупкам, который должен выйти сегодня, и дает представление о том, что может содержать полный отчет.
- Укреплению цен на медь, как отметил аналитик, также способствовал отчет чикагских агентов по закупкам. Отчет по Чикаго предшествует полному отчету агентов по закупкам. Чикагский отчет дает представление о том, что может содержать полный отчет. Полный отчет должен быть опубликован сегодня.
Одним из подходов к упрощению текста является лексическое упрощение посредством лексической замены , двухэтапного процесса, в ходе которого сначала идентифицируются сложные слова, а затем заменяются их более простыми синонимами. Ключевой задачей здесь является идентификация сложных слов, которую выполняет классификатор машинного обучения, обученный на помеченных данных . Исследователи, разочарованные проблемами с использованием классического метода, когда испытуемых просили описывать слова как простые или сложные, обнаружили, что они могут добиться большей последовательности на более высоких уровнях сложности, если попросят тех, кто размечает, сортировать представленные им слова по порядку. сложности. [2]
См. также [ править ]
- Автоматизированный перефраз
- Контролируемый естественный язык
- Языковая реформа
- Лексическое упрощение
- Лексическая замена
- Семантическое сжатие
- Нормализация текста
- Упрощенный английский
- Базовый английский
Ссылки [ править ]
- ^ Сиддхартхан, Адвайт (28 марта 2006 г.). «Синтаксическое упрощение и связность текста». Исследования в области языка и вычислений . 4 (1): 77–109. дои : 10.1007/s11168-006-9011-1 . S2CID 14619244 .
- ^ Гудинг, Сиан; Кочмар, Екатерина; Саркар, Адвайт; Блэквелл, Алан (август 2019 г.). «Сравнительные суждения более последовательны, чем бинарная классификация для обозначения сложности слов» . Материалы 13-го семинара по лингвистическим аннотациям : 208–214. дои : 10.18653/v1/W19-4024 . Проверено 22 ноября 2019 г.
- Вэй Сюй, Крис Каллисон-Бёрч и Кортни Наполес. « Проблемы современных исследований по упрощению текста ». В Трудах Ассоциации компьютерной лингвистики (TACL), том 3, 2015 г., страницы 283–297.
- Адвайт Сиддхартхан. « Синтаксическое упрощение и связность текста ». В исследовании языка и вычислений, том 4, выпуск 1, июнь 2006 г., страницы 77–109, Springer Science, Нидерланды.
- Сиддхартха Джонналагадда, Луис Тари, Йорг Хакенберг, Читта Барал и Грасиела Гонсалес. На пути к эффективному упрощению предложений для автоматической обработки биомедицинского текста. В Proc. конференции NAACL-HLT 2009, Боулдер, США, июнь. [1]