Поиск мультимедийной информации - Википедия - Multimedia information retrieval

Поиск мультимедийной информации (MMIR или же МИР) является исследовательской дисциплиной Информатика который направлен на извлечение семантической информации из мультимедиа источники данных.^[1]^{[неудачная проверка ]} Источники данных включают непосредственно воспринимаемые носители, такие как аудио, изображение и видео, косвенно воспринимаемые источники, такие как текст, семантические описания,^[2] биосигналы а также недоступные для восприятия источники, такие как биоинформация, цены на акции и т. д. Методология MMIR может быть разделена на три группы:

Методы реферирования медиаконтента (извлечение признаков ). Результатом извлечения признаков является описание.
Методы фильтрации описаний СМИ (например, устранение избыточность )
Методы для категоризация медиаописаний в классы.

Методы извлечения признаков

Извлечение функций мотивируется огромным размером мультимедийных объектов, а также их избыточностью и, возможно, шумностью.^[1]^:2^{[неудачная проверка ]} Как правило, с помощью извлечения признаков можно достичь двух возможных целей:

Обобщение медиа-контента. Методы реферирования включают в себя аудиодомен, например, мел-частотные кепстральные коэффициенты, Скорость перехода через ноль, кратковременная энергия. В визуальной области цветовые гистограммы^[3] такой как MPEG-7 Масштабируемый дескриптор цвета можно использовать для резюмирования.
Обнаружение закономерностей автокорреляция и / или взаимная корреляция. Шаблоны - это повторяющиеся фрагменты мультимедиа, которые можно обнаружить либо путем сравнения фрагментов по размерам мультимедиа (время, пространство и т. Д.), Либо путем сравнения фрагментов мультимедиа с шаблонами (например, шаблонами лиц, фразами). Типичные методы включают линейное прогнозирующее кодирование в области аудио / биосигналов,^[4] описание текстуры в визуальной области и n-граммы в поиске текстовой информации.

Методы слияния и фильтрации

Получение мультимедийной информации подразумевает, что для понимания мультимедийного контента используются несколько каналов.^[5] Каждый из этих каналов описывается преобразованиями функций, зависящих от медиа. Полученные описания необходимо объединить в одно описание для каждого медиа-объекта. Слияние может быть выполнено простым объединением, если описания имеют фиксированный размер. Описания переменного размера - как они часто встречаются в описании движения - сначала необходимо нормализовать до фиксированной длины.

Часто используемые методы фильтрации описаний включают факторный анализ (например, с помощью PCA), разложение на единичные значения (например, как скрытое семантическое индексирование при поиске текста), а также извлечение и тестирование статистических моментов. Продвинутые концепции, такие как Фильтр Калмана используются для объединения описаний.

Методы категоризации

Как правило, для категоризации мультимедийных описаний можно использовать все формы машинного обучения.^[1]^:125^{[неудачная проверка ]} хотя некоторые методы чаще используются в одной области, чем в другой. Например, скрытые марковские модели передовые в распознавание речи, пока динамическое искажение времени - семантически связанный метод - современный метод выравнивания последовательностей генов. Список применимых классификаторов включает следующее:

Метрические подходы (Кластерный анализ, векторная космическая модель, Минковский расстояния, динамическое выравнивание)
Ближайшие методы соседства (Алгоритм K-ближайших соседей, K-означает, самоорганизующаяся карта )
Минимизация рисков (регрессия вектора поддержки, Машина опорных векторов, линейный дискриминантный анализ )
Методы, основанные на плотности (байесовские сети, Марковские процессы, смешанные модели)
Нейронные сети (Перцептрон, ассоциативные воспоминания, шипы сети)
Эвристика (Деревья решений, случайные леса и т. д.)

Выбор лучшего классификатора для данной задачи (набор тестов с описаниями и метками классов, т. Н. наземная правда ) может выполняться автоматически, например, с помощью Weka Data Miner.

Открытые проблемы

Качество MMIR Systems^[6] сильно зависит от качества обучающих данных. Дискриминационные описания могут быть извлечены из медиаисточников в различных формах. Машинное обучение предоставляет методы категоризации для всех типов данных. Однако классификатор может быть настолько хорош, насколько хорош данные обучающие данные. С другой стороны, создание меток классов для больших баз данных требует значительных усилий. Будущий успех MMIR будет зависеть от предоставления таких данных.^[7] Ежегодный TRECVID конкуренция в настоящее время является одним из наиболее важных источников достоверной достоверной информации.

Связанные области

MMIR предоставляет обзор методов, используемых в области поиска информации.^[8]^[9] Методы одной области адаптированы и используются на других типах носителей. Мультимедийный контент объединяется перед выполнением классификации. Поэтому методы MMIR обычно повторно используются из других областей, таких как:

В Международный журнал поиска мультимедийной информации^[10] документирует развитие MMIR как исследовательской дисциплины, независимой от этих областей. Смотрите также Справочник по поиску мультимедийной информации^[11] для полного обзора этой исследовательской дисциплины.