Случайная индексация

Случайное индексирование — это метод уменьшения размерности и вычислительная среда для семантики распределения , основанная на понимании того, что реализации моделей векторного пространства очень высокой размерности непрактичны, что модели не должны увеличиваться в размерности при появлении новых элементов (например, новой терминологии) и что многомерную модель можно спроецировать в пространство меньшей размерности без ущерба для метрик расстояния L2, если результирующие измерения выбраны соответствующим образом.

Это исходная точка подхода случайной проекции к уменьшению размерности, впервые сформулированная как лемма Джонсона-Линденштрауса , и хеширование с учетом локальности имеет некоторые из тех же отправных точек. Случайная индексация, используемая для представления языка, берет свое начало в работе Пентти Канервы. ^[1]^[2]^[3]^[4]^[5] на разреженной распределенной памяти и может быть описан как инкрементная формулировка случайной проекции. ^[6]

Можно также проверить, что случайное индексирование — это метод случайного проецирования для построения евклидовых пространств, то есть векторных пространств, нормированных L2. ^[7] В евклидовых пространствах случайные проекции объясняются с помощью леммы Джонсона – Линденштрауса. ^[8]

Техника ТопСиг ^[9] расширяет модель случайной индексации для создания битовых векторов для сравнения с функцией сходства расстояния Хэмминга . Он используется для повышения производительности поиска информации и кластеризации документов . В аналогичном направлении исследований было использовано случайное манхэттенское целочисленное индексирование (RMII). ^[10] предлагается для повышения производительности методов, использующих манхэттенское расстояние между текстовыми единицами. Многие методы случайного индексирования в первую очередь генерируют сходство за счет совместного появления элементов в корпусе. Рефлексивная случайная индексация (RRI) ^[11] генерирует сходство из-за совместного появления и совместного появления с другими объектами.

Ссылки

^ Канерва, Пентти, Кристоферсон, Ян и Холст, Андерс (2000): Случайное индексирование образцов текста для скрытого семантического анализа , Труды 22-й ежегодной конференции Общества когнитивных наук, стр. 1036. Махва, Нью-Джерси: Эрлбаум, 2000.
^ Салгрен, Магнус (2005) Введение в случайное индексирование , Материалы семинара по методам и применениям семантического индексирования на 7-й Международной конференции по терминологии и инженерии знаний, TKE 2005, 16 августа, Копенгаген, Дания
^ Сальгрен, Магнус, Холст, Андерс и Пентти Канерва (2008) Перестановки как средство кодирования порядка в пространстве слов , В материалах 30-й ежегодной конференции Общества когнитивных наук: 1300-1305.
^ Канерва, Пентти (2009) Гиперпространственные вычисления: Введение в вычисления в распределенном представлении с многомерными случайными векторами , Когнитивные вычисления, Том 1, Выпуск 2, стр. 139–159.
^ Джоши, Адитья, Йохан Халсет и Пентти Канерва. « Распознавание языка с использованием случайной индексации ». Препринт arXiv arXiv:1412.7026 (2014).
^ Реккья, Габриэль и др. « Кодирование последовательной информации в моделях семантики векторного пространства: сравнение голографического сокращенного представления и случайной перестановки ». (2010): 865-870.
^ Касеми Заде, Behrang & Handschuh, Siegrfied. (2014) Случайное манхэттенское индексирование , в материалах 25-го международного семинара по приложениям баз данных и экспертных систем.
^ Джонсон, В. и Линденштраусс, Дж. (1984) Расширения липшицевых отображений в гильбертово пространство , в журнале «Современная математика». Американское математическое общество, том. 26, стр. 189–206.
^ Гева, С. и Де Врис, CM (2011) TopSig: Топология, сохраняющая подписи документов , В материалах конференции по управлению информацией и знаниями, 2011 г., 24–28 октября 2011 г., Глазго, Шотландия.
^ Касеми Заде, Беранг. И Хандшу, Зигфрид. (2014) Случайное целочисленное индексирование Манхэттена: Инкрементное построение нормированного векторного пространства L1 , В материалах конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP), страницы 1713–1723,25–29 октября 2014 г., Доха, Катар.
^ Коэн Т., Шваневельдт Роджер и Виддоуз Доминик (2009) Рефлексивное случайное индексирование и косвенный вывод: масштабируемый метод обнаружения неявных связей , Журнал биомедицинской информатики, 43 (2): 240-56.

Внешние ссылки

Заде Беранг Касеми, Хандшух Зигфрид. (2015) Случайная индексация, объясненная с высокой вероятностью , TSD.

[1] Канерва, Пентти, Кристоферсон, Ян и Холст, Андерс (2000): Случайное индексирование образцов текста для скрытого семантического анализа , Труды 22-й ежегодной конференции Общества когнитивных наук, стр. 1036. Махва, Нью-Джерси: Эрлбаум, 2000.

[2] Салгрен, Магнус (2005) Введение в случайное индексирование , Материалы семинара по методам и применениям семантического индексирования на 7-й Международной конференции по терминологии и инженерии знаний, TKE 2005, 16 августа, Копенгаген, Дания

[3] Сальгрен, Магнус, Холст, Андерс и Пентти Канерва (2008) Перестановки как средство кодирования порядка в пространстве слов , В материалах 30-й ежегодной конференции Общества когнитивных наук: 1300-1305.

[4] Канерва, Пентти (2009) Гиперпространственные вычисления: Введение в вычисления в распределенном представлении с многомерными случайными векторами , Когнитивные вычисления, Том 1, Выпуск 2, стр. 139–159.

[5] Джоши, Адитья, Йохан Халсет и Пентти Канерва. « Распознавание языка с использованием случайной индексации ». Препринт arXiv arXiv:1412.7026 (2014).

[6] Реккья, Габриэль и др. « Кодирование последовательной информации в моделях семантики векторного пространства: сравнение голографического сокращенного представления и случайной перестановки ». (2010): 865-870.

[7] Касеми Заде, Behrang & Handschuh, Siegrfied. (2014) Случайное манхэттенское индексирование , в материалах 25-го международного семинара по приложениям баз данных и экспертных систем.

[8] Джонсон, В. и Линденштраусс, Дж. (1984) Расширения липшицевых отображений в гильбертово пространство , в журнале «Современная математика». Американское математическое общество, том. 26, стр. 189–206.

[9] Гева, С. и Де Врис, CM (2011) TopSig: Топология, сохраняющая подписи документов , В материалах конференции по управлению информацией и знаниями, 2011 г., 24–28 октября 2011 г., Глазго, Шотландия.

[10] Касеми Заде, Беранг. И Хандшу, Зигфрид. (2014) Случайное целочисленное индексирование Манхэттена: Инкрементное построение нормированного векторного пространства L1 , В материалах конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP), страницы 1713–1723,25–29 октября 2014 г., Доха, Катар.

[11] Коэн Т., Шваневельдт Роджер и Виддоуз Доминик (2009) Рефлексивное случайное индексирование и косвенный вывод: масштабируемый метод обнаружения неявных связей , Журнал биомедицинской информатики, 43 (2): 240-56.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]