Jump to content

Случайная индексация

Случайное индексирование — это метод уменьшения размерности и вычислительная среда для семантики распределения , основанная на понимании того, что реализации моделей векторного пространства очень высокой размерности непрактичны, что модели не должны увеличиваться в размерности при появлении новых элементов (например, новой терминологии) и что многомерную модель можно спроецировать в пространство меньшей размерности без ущерба для метрик расстояния L2, если результирующие измерения выбраны соответствующим образом.

Это исходная точка подхода случайной проекции к уменьшению размерности, впервые сформулированная как лемма Джонсона-Линденштрауса , и хеширование с учетом локальности имеет некоторые из тех же отправных точек. Случайная индексация, используемая для представления языка, берет свое начало в работе Пентти Канервы. [1] [2] [3] [4] [5] на разреженной распределенной памяти и может быть описан как инкрементная формулировка случайной проекции. [6]

Можно также проверить, что случайное индексирование — это метод случайного проецирования для построения евклидовых пространств, то есть векторных пространств, нормированных L2. [7] В евклидовых пространствах случайные проекции объясняются с помощью леммы Джонсона – Линденштрауса. [8]

Техника ТопСиг [9] расширяет модель случайной индексации для создания битовых векторов для сравнения с функцией сходства расстояния Хэмминга . Он используется для повышения производительности поиска информации и кластеризации документов . В аналогичном направлении исследований было использовано случайное манхэттенское целочисленное индексирование (RMII). [10] предлагается для повышения производительности методов, использующих манхэттенское расстояние между текстовыми единицами. Многие методы случайного индексирования в первую очередь генерируют сходство за счет совместного появления элементов в корпусе. Рефлексивная случайная индексация (RRI) [11] генерирует сходство из-за совместного появления и совместного появления с другими объектами.

  1. ^ Канерва, Пентти, Кристоферсон, Ян и Холст, Андерс (2000): Случайное индексирование образцов текста для скрытого семантического анализа , Труды 22-й ежегодной конференции Общества когнитивных наук, стр. 1036. Махва, Нью-Джерси: Эрлбаум, 2000.
  2. ^ Салгрен, Магнус (2005) Введение в случайное индексирование , Материалы семинара по методам и применениям семантического индексирования на 7-й Международной конференции по терминологии и инженерии знаний, TKE 2005, 16 августа, Копенгаген, Дания
  3. ^ Сальгрен, Магнус, Холст, Андерс и Пентти Канерва (2008) Перестановки как средство кодирования порядка в пространстве слов , В материалах 30-й ежегодной конференции Общества когнитивных наук: 1300-1305.
  4. ^ Канерва, Пентти (2009) Гиперпространственные вычисления: Введение в вычисления в распределенном представлении с многомерными случайными векторами , Когнитивные вычисления, Том 1, Выпуск 2, стр. 139–159.
  5. ^ Джоши, Адитья, Йохан Халсет и Пентти Канерва. « Распознавание языка с использованием случайной индексации ». Препринт arXiv arXiv:1412.7026 (2014).
  6. ^ Реккья, Габриэль и др. « Кодирование последовательной информации в моделях семантики векторного пространства: сравнение голографического сокращенного представления и случайной перестановки ». (2010): 865-870.
  7. ^ Касеми Заде, Behrang & Handschuh, Siegrfied. (2014) Случайное манхэттенское индексирование , в материалах 25-го международного семинара по приложениям баз данных и экспертных систем.
  8. ^ Джонсон, В. и Линденштраусс, Дж. (1984) Расширения липшицевых отображений в гильбертово пространство , в журнале «Современная математика». Американское математическое общество, том. 26, стр. 189–206.
  9. ^ Гева, С. и Де Врис, CM (2011) TopSig: Топология, сохраняющая подписи документов , В материалах конференции по управлению информацией и знаниями, 2011 г., 24–28 октября 2011 г., Глазго, Шотландия.
  10. ^ Касеми Заде, Беранг. И Хандшу, Зигфрид. (2014) Случайное целочисленное индексирование Манхэттена: Инкрементное построение нормированного векторного пространства L1 , В материалах конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP), страницы 1713–1723,25–29 октября 2014 г., Доха, Катар.
  11. ^ Коэн Т., Шваневельдт Роджер и Виддоуз Доминик (2009) Рефлексивное случайное индексирование и косвенный вывод: масштабируемый метод обнаружения неявных связей , Журнал биомедицинской информатики, 43 (2): 240-56.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ea40c0eb8ade536c0419b2801a704405__1702475640
URL1:https://arc.ask3.ru/arc/aa/ea/05/ea40c0eb8ade536c0419b2801a704405.html
Заголовок, (Title) документа по адресу, URL1:
Random indexing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)