Поиск мультимедийной информации - Википедия - Multimedia information retrieval

Поиск мультимедийной информации (MMIR или же МИР) является исследовательской дисциплиной Информатика который направлен на извлечение семантической информации из мультимедиа источники данных.[1][неудачная проверка ] Источники данных включают непосредственно воспринимаемые носители, такие как аудио, изображение и видео, косвенно воспринимаемые источники, такие как текст, семантические описания,[2] биосигналы а также недоступные для восприятия источники, такие как биоинформация, цены на акции и т. д. Методология MMIR может быть разделена на три группы:

  1. Методы реферирования медиаконтента (извлечение признаков ). Результатом извлечения признаков является описание.
  2. Методы фильтрации описаний СМИ (например, устранение избыточность )
  3. Методы для категоризация медиаописаний в классы.

Методы извлечения признаков

Извлечение функций мотивируется огромным размером мультимедийных объектов, а также их избыточностью и, возможно, шумностью.[1]:2[неудачная проверка ] Как правило, с помощью извлечения признаков можно достичь двух возможных целей:

  • Обобщение медиа-контента. Методы реферирования включают в себя аудиодомен, например, мел-частотные кепстральные коэффициенты, Скорость перехода через ноль, кратковременная энергия. В визуальной области цветовые гистограммы[3] такой как MPEG-7 Масштабируемый дескриптор цвета можно использовать для резюмирования.
  • Обнаружение закономерностей автокорреляция и / или взаимная корреляция. Шаблоны - это повторяющиеся фрагменты мультимедиа, которые можно обнаружить либо путем сравнения фрагментов по размерам мультимедиа (время, пространство и т. Д.), Либо путем сравнения фрагментов мультимедиа с шаблонами (например, шаблонами лиц, фразами). Типичные методы включают линейное прогнозирующее кодирование в области аудио / биосигналов,[4] описание текстуры в визуальной области и n-граммы в поиске текстовой информации.

Методы слияния и фильтрации

Получение мультимедийной информации подразумевает, что для понимания мультимедийного контента используются несколько каналов.[5] Каждый из этих каналов описывается преобразованиями функций, зависящих от медиа. Полученные описания необходимо объединить в одно описание для каждого медиа-объекта. Слияние может быть выполнено простым объединением, если описания имеют фиксированный размер. Описания переменного размера - как они часто встречаются в описании движения - сначала необходимо нормализовать до фиксированной длины.

Часто используемые методы фильтрации описаний включают факторный анализ (например, с помощью PCA), разложение на единичные значения (например, как скрытое семантическое индексирование при поиске текста), а также извлечение и тестирование статистических моментов. Продвинутые концепции, такие как Фильтр Калмана используются для объединения описаний.

Методы категоризации

Как правило, для категоризации мультимедийных описаний можно использовать все формы машинного обучения.[1]:125[неудачная проверка ] хотя некоторые методы чаще используются в одной области, чем в другой. Например, скрытые марковские модели передовые в распознавание речи, пока динамическое искажение времени - семантически связанный метод - современный метод выравнивания последовательностей генов. Список применимых классификаторов включает следующее:

Выбор лучшего классификатора для данной задачи (набор тестов с описаниями и метками классов, т. Н. наземная правда ) может выполняться автоматически, например, с помощью Weka Data Miner.

Открытые проблемы

Качество MMIR Systems[6] сильно зависит от качества обучающих данных. Дискриминационные описания могут быть извлечены из медиаисточников в различных формах. Машинное обучение предоставляет методы категоризации для всех типов данных. Однако классификатор может быть настолько хорош, насколько хорош данные обучающие данные. С другой стороны, создание меток классов для больших баз данных требует значительных усилий. Будущий успех MMIR будет зависеть от предоставления таких данных.[7] Ежегодный TRECVID конкуренция в настоящее время является одним из наиболее важных источников достоверной достоверной информации.

Связанные области

MMIR предоставляет обзор методов, используемых в области поиска информации.[8][9] Методы одной области адаптированы и используются на других типах носителей. Мультимедийный контент объединяется перед выполнением классификации. Поэтому методы MMIR обычно повторно используются из других областей, таких как:

В Международный журнал поиска мультимедийной информации[10] документирует развитие MMIR как исследовательской дисциплины, независимой от этих областей. Смотрите также Справочник по поиску мультимедийной информации[11] для полного обзора этой исследовательской дисциплины.

Рекомендации

  1. ^ а б c H Eidenberger. Основное понимание СМИ, атпресс, 2011, с. 1.
  2. ^ Сикос, Л. Ф. (2016). «Инструменты семантической аннотации видео на основе RDF с отображением концепций в связанные данные для индексирования видео следующего поколения: всесторонний обзор». Мультимедийные инструменты и приложения. 76 (12): 14437–14460. Дои:10.1007 / s11042-016-3705-7.
  3. ^ Дель Бимбо. Визуальный поиск информации, Морган Кауфманн, 1999.
  4. ^ Х. Г. Ким, Н. Моро, Т. Сикора. MPEG-7 Audio и не только », Wiley, 2005.
  5. ^ Лью (ред.). Принципы визуального поиска информации, Спрингер, 2001.
  6. ^ JC Nordbotten. "Системы поиска мультимедийной информации ". Проверено 14 октября 2011 года.
  7. ^ H Eidenberger. Границы понимания СМИ, атпресс, 2012.
  8. ^ H Eidenberger. Профессиональное понимание СМИ, атпресс, 2012.
  9. ^ Райэли, Роберто (2016). «Знакомство с поиском мультимедийной информации в библиотеках». JLIS.it. 7 (3): 9–42. Дои:10.4403 / jlis.it-11530. Получено 8 октября 2016.
  10. ^ "Международный журнал поиска мультимедийной информации ", Springer, 2011 г., дата обращения 21 октября 2011 г.
  11. ^ H Eidenberger. Справочник по поиску мультимедийной информации, атпресс, 2012.