Jump to content

iDistance

(Перенаправлено из Техники iDistance )

В распознавании образов iDistance это метод индексации и обработки запросов для запросов k-ближайших соседей к точечным данным в многомерных метрических пространствах . Запрос kNN — одна из самых сложных проблем с многомерными данными, особенно когда размерность данных высока . iDistance предназначен для эффективной обработки запросов kNN в многомерных пространствах и особенно хорош для асимметричных распределений данных , которые обычно возникают в реальных наборах данных. iDistance можно дополнить моделями машинного обучения, чтобы изучить распределение данных для поиска и хранения многомерных данных. [ 1 ]

Индексирование

[ редактировать ]
iDistance
iDistance

Построение индекса iDistance состоит из двух этапов:

  1. Выбирается ряд опорных точек в пространстве данных. Существуют различные способы выбора ориентиров. Использование центров кластеров в качестве ориентиров — наиболее эффективный способ. Точки данных разделены на ячейки Вороного на основе правильно выбранных контрольных точек.
  2. Рассчитывается расстояние между точкой данных и ближайшей контрольной точкой. точки Это расстояние плюс значение масштабирования называется iDistance . Таким образом, точки в многомерном пространстве сопоставляются с одномерными значениями, а затем B + -tree можно использовать для индексации точек, используя iDistance в качестве ключа .

На рисунке справа показан пример, в котором три опорные точки (O 1 , O 2 , O 3 выбраны ). Затем точки данных сопоставляются с одномерным пространством и индексируются в B. + -дерево. Были предложены различные расширения для выбора контрольных точек для эффективного выполнения запросов, включая использование машинного обучения для обучения идентификации контрольных точек.

Обработка запросов

[ редактировать ]

Для обработки запроса kNN запрос сопоставляется с рядом запросов одномерного диапазона, которые можно эффективно обрабатывать на B. + -дерево. На рисунке выше запрос Q сопоставлен со значением в B. + -дерево, в то время как "сфера" поиска kNN отображается в диапазон в B + -дерево. Сфера поиска постепенно расширяется, пока не будут найдены k NN. Это соответствует постепенному расширению диапазона поиска в B. + -дерево.

Технику iDistance можно рассматривать как способ ускорения последовательного сканирования. Вместо сканирования записей от начала до конца файла данных iDistance начинает сканирование с мест, где ближайшие соседи могут быть получены заранее с очень высокой вероятностью.

Приложения

[ редактировать ]

iDistance использовался во многих приложениях, включая

Историческая справка

[ редактировать ]

iDistance впервые предложили Цуй Ю, Бенг Чин Оой, Киан-Ли Тан и Х.В. Джагадиш в 2001 году. [ 7 ] Позже вместе с Руй Чжаном они усовершенствовали методику и провели ее более полное исследование в 2005 году. [ 8 ]

  1. ^ Анжела Давиткова, Эвика Милчевски, Себастьян Мишель, ML-Index: многомерный изученный индекс для запросов к точкам, диапазонам и ближайшим соседям, Материалы 23-й Международной конференции по расширению технологии баз данных, Копенгаген, Дания, 407-410, 2020.
  2. ^ Цзюньци Чжан, Сяндун Чжоу, Вэй Ван, Бэйле Ши, Цзянь Пей, Использование многомерных индексов для поддержки поиска интерактивных изображений на основе обратной связи по релевантности, Материалы 32-й Международной конференции по очень большим базам данных, Сеул, Корея, 1211-1214, 2006 г. .
  3. ^ Хэн Тао Шен, Бенг Чин Оой, Сяофан Чжоу, На пути к эффективному индексированию для очень большой базы данных видеопоследовательностей, Материалы Международной конференции ACM SIGMOD по управлению данными, Балтимор, Мэриленд, США, 730-741, 2005.
  4. ^ Христос Дулкеридис, Акриви Влаху, Яннис Котидис, Михалис Вазиргианнис, Одноранговый поиск по сходству в метрических пространствах, Материалы 33-й Международной конференции по очень большим базам данных, Вена, Австрия, 986-997, 2007.
  5. ^ Серджио Иларри, Эдуардо Мена, Арантца Илларраменди, Запросы, зависящие от местоположения, в мобильных контекстах: распределенная обработка с использованием мобильных агентов, Транзакции IEEE на мобильных вычислениях, том 5, выпуск 8, август 2006 г. Страницы: 1029–1043.
  6. ^ Ян Сонг, Ю Гу, Руй Чжан, Ге Ю, ProMIPS: эффективный многомерный c-приблизительный поиск максимального внутреннего продукта с облегченным индексом, 37-я Международная конференция IEEE по инженерии данных, Ханья, Греция, 1619-1630, 2021.
  7. ^ Цуй Ю, Бенг Чин Оой, Киан-Ли Тан и Х.В. Джагадиш Индексирование расстояния: эффективный метод обработки KNN , Материалы 27-й Международной конференции по очень большим базам данных, Рим, Италия, 421-430, 2001.
  8. ^ Х. В. Джагадиш, Бенг Чин Оой, Киан-Ли Тан, Цуй Ю и Руй Чжан iDistance: адаптивный метод индексации на основе B +-дерева для поиска ближайших соседей , Транзакции ACM в системах баз данных (ACM TODS), 30, 2, 364- 397, июнь 2005 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c6078caa365a0e3be5cc2caf44b9b0f7__1720750380
URL1:https://arc.ask3.ru/arc/aa/c6/f7/c6078caa365a0e3be5cc2caf44b9b0f7.html
Заголовок, (Title) документа по адресу, URL1:
iDistance - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)