Семантическое сжатие
При обработке естественного языка создания семантическое сжатие — это процесс уплотнения словарного запаса, используемого для текстовый документ (или набор документов) за счет уменьшения языковой неоднородности при сохранении семантики текста . В результате те же идеи могут быть представлены с использованием меньшего набора слов.
В большинстве приложений семантическое сжатие представляет собой сжатие с потерями. Повышенная многословность не компенсирует лексическую сжатость, и исходный документ невозможно восстановить в обратном процессе.
По обобщению
[ редактировать ]Семантическое сжатие в основном достигается в два этапа с использованием частотных словарей и семантической сети :
- определение совокупной частоты терминов для идентификации целевой лексики,
- замена менее часто встречающихся терминов их гипернимами ( генерализация ) из целевой лексики. [1]
Шаг 1 требует сборки частот слов и информация о семантических отношениях, в частности о гипонимии . Двигаясь вверх по иерархии слов, кумулятивная частота концепта рассчитывается путем прибавления суммы частот гипонимов к частоте их гиперонима: где является гипернимом .Затем выбирается желаемое количество слов с максимальной совокупной частотой для построения целевого словаря.
На втором этапе для оставшихся слов определяются правила сопоставления сжатия, чтобы обрабатывать каждое появление менее частого гипонима в качестве его гиперонима в выходном тексте.
- Пример
Приведенный ниже фрагмент текста был обработан методом семантического сжатия. Слова, выделенные жирным шрифтом, заменены их гиперонимами.
Они оба гнезда , строящие социальные насекомые , но бумажные осы и медоносные пчелы организуют свои колонии.
совсем по - разному . В новом исследовании ученые сообщают, что, несмотря на различия , эти насекомые полагаются на одну и ту же сеть генов для управления своим социальным поведением . Исследование опубликовано в Proceedings of the Королевское общество B : Биологические науки. Медоносных пчел и бумажных ос разделяет более 100 миллионов лет.
Эволюция , и существуют поразительные различия в том, как они распределяют работу поддержанию колонии по .
Процедура выводит следующий текст:
Оба они являются объектно- строительными насекомыми , но насекомые и медоносные насекомые организуют свои биологические группы.
в совершенно другой структуре . В новом исследовании исследователи сообщают, что, несмотря на разницу во мнениях , эти насекомые действует та же самая сеть генов, которая управляет их партийным поведением . Исследование появляется в материалах институт бактерий биологических наук. Медоносных насекомых и насекомых разделяют более ста миллионов лет.
органические процессы , и существуют огромные различия во мнениях относительно того, как распределяется работа по утверждению биологической группы .
Неявное семантическое сжатие
[ редактировать ]Естественная тенденция сохранять выражения естественного языка краткими может быть воспринята как форма неявного семантического сжатия за счет пропуска бессмысленных слов или лишних значимых слов (особенно во избежание плеоназмов ). [2]
Применение и преимущества
[ редактировать ]В модели векторного пространства сжатие словаря приводит к уменьшению размерности , что приводит к меньшему количеству слов. сложность вычислений и положительное влияние на эффективность.
Семантическое сжатие полезно в задачах поиска информации , повышая их эффективность (как с точки зрения точности, так и с точки зрения отзыва ). [3] Это связано с более точными дескрипторами (снижение эффекта языкового разнообразия – ограниченная языковая избыточность, шаг к контролируемому словарю).
Как и в примере выше, можно отображать выходные данные в виде естественного текста (повторно применяя флексию и добавляя стоп-слова).
См. также
[ редактировать ]- Контролируемый естественный язык
- Теория информации
- Лексическая замена
- Количество информации
- Упрощение текста
Ссылки
[ редактировать ]- ^ Чегларек, Д.; Ханевич, К.; Рутковски, В. (2010). «Семантическое сжатие для специализированных информационно-поисковых систем». Достижения в области интеллектуальных информационных систем и баз данных . Исследования в области вычислительного интеллекта. Том. 283. стр. 111–121. дои : 10.1007/978-3-642-12090-9_10 . ISBN 978-3-642-12089-3 .
- ^ Перцова, Н. Н. (1982). «О видах смыслового сжатия текста». COLING '82 Материалы 9-й конференции по компьютерной лингвистике . Том. 2. С. 229–231. дои : 10.3115/990100.990155 . ISBN 0-444-86393-1 . S2CID 33742593 .
- ^ Чегларек, Д.; Ханевич, К.; Рутковски, В. (2010). «Качество семантической компрессии в классификации» . Материалы 2-й Международной конференции «Вычислительный коллективный интеллект: технологии и приложения» . Том. 1. Спрингер. стр. 162–171. ISBN 978-3-642-16692-1 .