IDistance - IDistance

В распознавание образов, то iDistance это метод индексации и обработки запросов для k-запросы ближайшего соседа по точечным данным в многомерный метрические пространства. Запрос kNN - одна из самых сложных проблем с многомерными данными, особенно когда размерность данных высокая. IDistance разработан для эффективной обработки запросов kNN в многомерных пространствах и особенно хорош для искаженное распределение данных, которые обычно встречаются в реальных наборах данных.

Индексирование

Построение индекса iDistance состоит из двух этапов:

Выбирается ряд ориентиров в пространстве данных. Есть разные способы выбора опорных точек. С помощью кластерные центры как ориентиры - самый эффективный способ.
Рассчитывается расстояние между точкой данных и ближайшей к ней контрольной точкой. Это расстояние плюс значение масштабирования называется точкой iDistance. Таким образом, точки в многомерном пространстве отображаются в одномерные значения, а затем B⁺-дерево можно использовать для индексации точек, используя iDistance в качестве ключ.

На рисунке справа показан пример, где три опорных точки (O₁, O₂, O₃) выбраны. Затем точки данных отображаются в одномерном пространстве и индексируются в B⁺-дерево.

Обработка запросов

Чтобы обработать запрос kNN, запрос сопоставляется с рядом запросов одномерного диапазона, которые могут быть эффективно обработаны на B⁺-дерево. На рисунке выше запрос Q сопоставляется со значением в B⁺-дерево, в то время как поисковая «сфера» kNN отображается в диапазон в B⁺-дерево. Область поиска постепенно расширяется, пока не будут найдены k NN. Это соответствует постепенно расширяющемуся диапазону поисков в B⁺-дерево.

Метод iDistance можно рассматривать как способ ускорения последовательного сканирования. Вместо того, чтобы сканировать записи от начала до конца файла данных, iDistance запускает сканирование с мест, где ближайшие соседи могут быть получены раньше с очень высокой вероятностью.

Приложения

IDistance использовался во многих приложениях, включая

Поиск изображений ^[1]
Индексирование видео ^[2]
Поиск сходства в P2P системах ^[3]
Мобильные вычисления ^[4]

Историческое прошлое

IDistance впервые предложили Цуй Ю, Бенг Чин Оои, Киан-Ли Тан и Х. В. Джагадиш в 2001.^[5] Позже, вместе с Жуй Чжаном, они улучшили технику и в 2005 году провели более всестороннее исследование.^[6]

внешняя ссылка

[1] Джунци Чжан, Сяндун Чжоу, Вэй Ван, Байле Ши, Цзянь Пей, Использование индексов высокого измерения для поддержки поиска интерактивных изображений на основе релевантной обратной связи, Труды 32-й Международной конференции по очень большим базам данных, Сеул, Корея, 1211-1214, 2006

[2] Хэн Тао Шен, Бенг Чин Оой, Сяофан Чжоу, На пути к эффективной индексации для очень большой базы данных видеопоследовательностей, Труды Международной конференции ACM SIGMOD по управлению данными, Балтимор, Мэриленд, США, 730-741, 2005.

[3] Христос Доулкеридис, Акриви Влаху, Яннис Котидис, Михалис Вазирджаннис, Одноранговый поиск подобия в метрических пространствах, Труды 33-й Международной конференции по очень большим базам данных, Вена, Австрия, 986-997, 2007.

[4] Серджио Иларри, Эдуардо Мена, Аранца Илларраменди, Зависимые от местоположения запросы в мобильных контекстах: Распределенная обработка с использованием мобильных агентов, IEEE Transactions on Mobile Computing, Volume 5, Issue 8, Aug. 2006 Страница (s): 1029-1043.

[5] Цуй Ю, Бэн Чин Оои, Киан-Ли Тан и Х. В. Джагадиш Индексирование расстояния: эффективный метод обработки KNN, Труды 27-й Международной конференции по очень большим базам данных, Рим, Италия, 421-430, 2001.

[6] Х. В. Джагадиш, Бенг Чин Оои, Киан-Ли Тан, Цуй Ю и Руи Чжан iDistance: метод индексации на основе адаптивного B + -дерева для поиска ближайшего соседа, Транзакции ACM в системах баз данных (ACM TODS), 30, 2, 364-397, июнь 2005 г.

[1]

[2]

[3]

[4]

[5]

[6]

Древовидные структуры данных
Деревья поиска (динамические наборы /ассоциативные массивы )	2–3 2–3–4 AA (а, б) AVL B B + B * B^Икс (Оптимально ) Бинарный поиск Танцы HTree Интервал Статистика заказов (Левый ) Красный – черный Козел отпущения Splay Т Treap UB Сбалансированный по весу
Кучи	Двоичный Биномиальный Brodal Фибоначчи Левый Сопряжение Перекос ван Эмде Боас Слабый
Пытается	Ctrie C-trie (сжатый ADT) Хеш Radix Суффикс Тернарный поиск X-быстрый Y-быстро
Пространственный деревья разделения данных	Мяч BK BSP Декартово Гильберт Р k-d (скрытый k-d ) M Метрическая MVP Octree Приоритет R Quad р R + Р* Сегмент Вице-президент Икс
Другие деревья	Крышка Экспоненциальный Фенвик Палец Индекс фрактального дерева Слияние Хеш-календарь iDistance K-арый Левый ребенок, правый брат Ссылка / вырезать Лог-структурированное слияние Меркл PQ Классифицировать SPQR Вершина