Jump to content

Семантическое сжатие

При обработке естественного языка создания семантическое сжатие — это процесс уплотнения словарного запаса, используемого для текстовый документ (или набор документов) за счет уменьшения языковой неоднородности при сохранении семантики текста . В результате те же идеи могут быть представлены с использованием меньшего набора слов.

В большинстве приложений семантическое сжатие представляет собой сжатие с потерями. Повышенная многословность не компенсирует лексическую сжатость, и исходный документ невозможно восстановить в обратном процессе.

По обобщению

[ редактировать ]

Семантическое сжатие в основном достигается в два этапа с использованием частотных словарей и семантической сети :

  1. определение совокупной частоты терминов для идентификации целевой лексики,
  2. замена менее часто встречающихся терминов их гипернимами ( генерализация ) из целевой лексики. [1]

Шаг 1 требует сборки частот слов и информация о семантических отношениях, в частности о гипонимии . Двигаясь вверх по иерархии слов, кумулятивная частота концепта рассчитывается путем прибавления суммы частот гипонимов к частоте их гиперонима: где является гипернимом .Затем выбирается желаемое количество слов с максимальной совокупной частотой для построения целевого словаря.

На втором этапе для оставшихся слов определяются правила сопоставления сжатия, чтобы обрабатывать каждое появление менее частого гипонима в качестве его гиперонима в выходном тексте.

Пример

Приведенный ниже фрагмент текста был обработан методом семантического сжатия. Слова, выделенные жирным шрифтом, заменены их гиперонимами.

Они оба гнезда , строящие социальные насекомые , но бумажные осы и медоносные пчелы организуют свои колонии.

совсем по - разному . В новом исследовании ученые сообщают, что, несмотря на различия , эти насекомые полагаются на одну и ту же сеть генов для управления своим социальным поведением . Исследование опубликовано в Proceedings of the Королевское общество B : Биологические науки. Медоносных пчел и бумажных ос разделяет более 100 миллионов лет.

Эволюция , и существуют поразительные различия в том, как они распределяют работу поддержанию колонии по .

Процедура выводит следующий текст:

Оба они являются объектно- строительными насекомыми , но насекомые и медоносные насекомые организуют свои биологические группы.

в совершенно другой структуре . В новом исследовании исследователи сообщают, что, несмотря на разницу во мнениях , эти насекомые действует та же самая сеть генов, которая управляет их партийным поведением . Исследование появляется в материалах институт бактерий биологических наук. Медоносных насекомых и насекомых разделяют более ста миллионов лет.

органические процессы , и существуют огромные различия во мнениях относительно того, как распределяется работа по утверждению биологической группы .

Неявное семантическое сжатие

[ редактировать ]

Естественная тенденция сохранять выражения естественного языка краткими может быть воспринята как форма неявного семантического сжатия за счет пропуска бессмысленных слов или лишних значимых слов (особенно во избежание плеоназмов ). [2]

Применение и преимущества

[ редактировать ]

В модели векторного пространства сжатие словаря приводит к уменьшению размерности , что приводит к меньшему количеству слов. сложность вычислений и положительное влияние на эффективность.

Семантическое сжатие полезно в задачах поиска информации , повышая их эффективность (как с точки зрения точности, так и с точки зрения отзыва ). [3] Это связано с более точными дескрипторами (снижение эффекта языкового разнообразия – ограниченная языковая избыточность, шаг к контролируемому словарю).

Как и в примере выше, можно отображать выходные данные в виде естественного текста (повторно применяя флексию и добавляя стоп-слова).

См. также

[ редактировать ]
  1. ^ Чегларек, Д.; Ханевич, К.; Рутковски, В. (2010). «Семантическое сжатие для специализированных информационно-поисковых систем». Достижения в области интеллектуальных информационных систем и баз данных . Исследования в области вычислительного интеллекта. Том. 283. стр. 111–121. дои : 10.1007/978-3-642-12090-9_10 . ISBN  978-3-642-12089-3 .
  2. ^ Перцова, Н. Н. (1982). «О видах смыслового сжатия текста». COLING '82 Материалы 9-й конференции по компьютерной лингвистике . Том. 2. С. 229–231. дои : 10.3115/990100.990155 . ISBN  0-444-86393-1 . S2CID   33742593 .
  3. ^ Чегларек, Д.; Ханевич, К.; Рутковски, В. (2010). «Качество семантической компрессии в классификации» . Материалы 2-й Международной конференции «Вычислительный коллективный интеллект: технологии и приложения» . Том. 1. Спрингер. стр. 162–171. ISBN  978-3-642-16692-1 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 51a62941b139e0ee2f3c22010743da59__1711548900
URL1:https://arc.ask3.ru/arc/aa/51/59/51a62941b139e0ee2f3c22010743da59.html
Заголовок, (Title) документа по адресу, URL1:
Semantic compression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)