IDistance - IDistance
В распознавание образов, то iDistance это метод индексации и обработки запросов для k-запросы ближайшего соседа по точечным данным в многомерный метрические пространства. Запрос kNN - одна из самых сложных проблем с многомерными данными, особенно когда размерность данных высокая. IDistance разработан для эффективной обработки запросов kNN в многомерных пространствах и особенно хорош для искаженное распределение данных, которые обычно встречаются в реальных наборах данных.
Индексирование
Построение индекса iDistance состоит из двух этапов:
- Выбирается ряд ориентиров в пространстве данных. Есть разные способы выбора опорных точек. С помощью кластерные центры как ориентиры - самый эффективный способ.
- Рассчитывается расстояние между точкой данных и ближайшей к ней контрольной точкой. Это расстояние плюс значение масштабирования называется точкой iDistance. Таким образом, точки в многомерном пространстве отображаются в одномерные значения, а затем B+-дерево можно использовать для индексации точек, используя iDistance в качестве ключ.
На рисунке справа показан пример, где три опорных точки (O1, O2, O3) выбраны. Затем точки данных отображаются в одномерном пространстве и индексируются в B+-дерево.
Обработка запросов
Чтобы обработать запрос kNN, запрос сопоставляется с рядом запросов одномерного диапазона, которые могут быть эффективно обработаны на B+-дерево. На рисунке выше запрос Q сопоставляется со значением в B+-дерево, в то время как поисковая «сфера» kNN отображается в диапазон в B+-дерево. Область поиска постепенно расширяется, пока не будут найдены k NN. Это соответствует постепенно расширяющемуся диапазону поисков в B+-дерево.
Метод iDistance можно рассматривать как способ ускорения последовательного сканирования. Вместо того, чтобы сканировать записи от начала до конца файла данных, iDistance запускает сканирование с мест, где ближайшие соседи могут быть получены раньше с очень высокой вероятностью.
Приложения
IDistance использовался во многих приложениях, включая
- Поиск изображений [1]
- Индексирование видео [2]
- Поиск сходства в P2P системах [3]
- Мобильные вычисления [4]
Историческое прошлое
IDistance впервые предложили Цуй Ю, Бенг Чин Оои, Киан-Ли Тан и Х. В. Джагадиш в 2001.[5] Позже, вместе с Жуй Чжаном, они улучшили технику и в 2005 году провели более всестороннее исследование.[6]
Рекомендации
- ^ Джунци Чжан, Сяндун Чжоу, Вэй Ван, Байле Ши, Цзянь Пей, Использование индексов высокого измерения для поддержки поиска интерактивных изображений на основе релевантной обратной связи, Труды 32-й Международной конференции по очень большим базам данных, Сеул, Корея, 1211-1214, 2006
- ^ Хэн Тао Шен, Бенг Чин Оой, Сяофан Чжоу, На пути к эффективной индексации для очень большой базы данных видеопоследовательностей, Труды Международной конференции ACM SIGMOD по управлению данными, Балтимор, Мэриленд, США, 730-741, 2005.
- ^ Христос Доулкеридис, Акриви Влаху, Яннис Котидис, Михалис Вазирджаннис, Одноранговый поиск подобия в метрических пространствах, Труды 33-й Международной конференции по очень большим базам данных, Вена, Австрия, 986-997, 2007.
- ^ Серджио Иларри, Эдуардо Мена, Аранца Илларраменди, Зависимые от местоположения запросы в мобильных контекстах: Распределенная обработка с использованием мобильных агентов, IEEE Transactions on Mobile Computing, Volume 5, Issue 8, Aug. 2006 Страница (s): 1029-1043.
- ^ Цуй Ю, Бэн Чин Оои, Киан-Ли Тан и Х. В. Джагадиш Индексирование расстояния: эффективный метод обработки KNN, Труды 27-й Международной конференции по очень большим базам данных, Рим, Италия, 421-430, 2001.
- ^ Х. В. Джагадиш, Бенг Чин Оои, Киан-Ли Тан, Цуй Ю и Руи Чжан iDistance: метод индексации на основе адаптивного B + -дерева для поиска ближайшего соседа, Транзакции ACM в системах баз данных (ACM TODS), 30, 2, 364-397, июнь 2005 г.