Автоматическая аннотация изображения - Automatic image annotation
Автоматическая аннотация изображения (также известный как автоматическая пометка изображений или же лингвистическая индексация) - это процесс, с помощью которого компьютерная система автоматически назначает метаданные в виде субтитры или же ключевые слова к цифровое изображение. Это приложение компьютерное зрение методы используются в поиск изображений системы для организации и поиска интересующих изображений из база данных.
Этот метод можно рассматривать как разновидность мультикласс классификация изображений с очень большим количеством классов - размером со словарный запас. Обычно анализ изображений в виде извлеченных векторы признаков и слова обучающей аннотации используются машинное обучение методы автоматического применения аннотаций к новым изображениям. Первые методы изучили корреляции между особенности изображения и обучающих аннотаций, затем были разработаны методики с использованием машинный перевод чтобы попытаться перевести текстовый словарь с помощью «визуального словаря» или кластерных областей, известных как капли. Работа, следующая за этими усилиями, включала подходы к классификации, модели релевантности и так далее.
Преимущества автоматической аннотации изображений по сравнению с поиск изображений на основе содержимого (CBIR) заключаются в том, что запросы могут быть более естественно заданы пользователем.[1] CBIR обычно (в настоящее время) требует от пользователей поиска по таким понятиям изображения, как цвет и текстура, или поиск примеров запросов. Некоторые функции изображения в примерах изображений могут переопределить концепцию, на которой действительно сосредоточен пользователь. Традиционные методы поиска изображений, такие как те, которые используются библиотеками, основаны на вручную аннотированных изображениях, что является дорогостоящим и требует много времени, особенно с учетом наличия больших и постоянно растущих баз данных изображений.
Программное обеспечение для автоматической аннотации изображений
SuperAnnotate
SuperAnnotate это комплексная платформа для компьютерное зрение инженеры и группы аннотаций для аннотирования, управления, обучения и, в конечном итоге, автоматизации конвейеров компьютерного зрения.
Автоматизация: Платформа допускает три различных типа автоматизации как маркировки, так и гарантия качества уровни. Автоматизация может быть выполнена через передача обучения, активное изучение[2] и обнаружение неправильной маркировки.[3] Благодаря установленной связи между проектами аннотации данных и Нейронная сеть В среде, у каждого есть возможность обучать пользовательские модели, выполнять ручные корректировки и выполнять итерацию в рамках одной и той же платформы, что, следовательно, увеличивает скорость и точность каждой новой задачи аннотации. Платформа также позволяет выбирать наиболее подходящие кадры из большого набора изображений, что поможет достичь максимальной точности распознавания с ограниченным набором данных. Помимо самой автоматизации аннотаций, SuperAnnotate позволяет устранить шум данных за счет автоматизации обнаружения обучающих выборок с неверной маркировкой. Платформа специально создана для унификации и автоматизации всего конвейера аннотации данных.
Интеграции API: Платформа поставляется со встроенным Python SDK, который автоматизирует настройку и распространение проектов, управление командой и масштабирование для более крупных проектов. SDK включает в себя множество функций передачи данных, преобразователей аннотаций, функций для обработки данных изображений, аннотаций и т. Д.[4] Это также позволяет инженерам CV проводить обучение, сравнивать несколько результатов обучения, автоматически находить опасные аннотации и т. Д.[5]
Смотрите также
- Поиск изображений на основе содержимого
- Категоризация объектов из поиска изображений
- Обнаружение объекта
- Схема распознавания объекта
- SuperAnnotate
Рекомендации
- ^ [1]
- ^ SuperAnnotate (30.09.2020), AnnotationSoftware / active_learning, получено 2020-11-17
- ^ SuperAnnotate (17 сентября 2020 г.), АннотацияПрограммное обеспечение / qa-automation, получено 2020-11-17
- ^ SuperAnnotate (17 сентября 2020 г.), AnnotationSoftware / superannotate-python-sdk, получено 2020-11-17
- ^ "SuperAnnotate Desktop". opencv.org. Получено 2020-11-17.
- Датта, Ритендра; Дхирадж Джоши; Цзя Ли; Джеймс З. Ван (2008). «Поиск изображений: идеи, влияния и тенденции новой эпохи». Опросы ACM Computing. 40 (2): 1–60. Дои:10.1145/1348246.1348248.
- Николя Эрве; Ножа Бужемаа (2007). «Аннотации изображений: какой подход для реалистичных баз данных?» (PDF). Международная конференция ACM по поиску изображений и видео. Архивировано из оригинал (PDF) на 2011-05-20.
- М. Иноуэ (2004). «О необходимости поиска изображений на основе аннотаций» (PDF). Семинар по поиску информации в контексте. С. 44–46. Архивировано из оригинал (PDF) на 2014-08-08.
дальнейшее чтение
- Модель совместной встречаемости слов
- Y Mori; Х. Такахаши и Р. Ока (1999). «Преобразование изображения в слово на основе разделения и векторного квантования изображений словами.». Труды международного семинара по интеллектуальному управлению хранением и извлечением мультимедиа. CiteSeerX 10.1.1.31.1704.
- Аннотация как машинный перевод
- П. Дуйгулу; К. Барнард; Н. де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение словаря фиксированных изображений». Труды Европейской конференции по компьютерному зрению. С. 97–112. Архивировано из оригинал на 2005-03-05.
- Статистические модели
- Дж. Ли и Дж. З. Ван (2006). «Компьютеризированная аннотация изображений в реальном времени». Proc. ACM Multimedia. С. 911–920.
- Дж. З. Ван и Дж. Ли (2002). «Лингвистическое индексирование изображений на основе обучения с помощью 2-D MHMM». Proc. ACM Multimedia. С. 436–445.
- Автоматическая лингвистическая индексация изображений
- Дж. Ли и Дж. З. Ван (2008). «Компьютеризированная аннотация изображений в реальном времени». IEEE Transactions по анализу шаблонов и машинному анализу.
- Дж. Ли и Дж. З. Ван (2003). «Автоматическое лингвистическое индексирование изображений методом статистического моделирования». IEEE Transactions по анализу шаблонов и машинному анализу. С. 1075–1088.
- Иерархическая модель кластера аспектов
- К. Барнард; Ди А. Форсайт (2001). «Изучение семантики слов и изображений». Материалы международной конференции по компьютерному зрению.. С. 408–415. Архивировано из оригинал на 2007-09-28.
- Скрытая модель распределения Дирихле
- D Blei; A Ng & M Jordan (2003). «Скрытое размещение Дирихле» (PDF). Журнал исследований в области машинного обучения. С. 3: 993–1022. Архивировано из оригинал (PDF) на 21.05.2005.
- Дж. Карнейро; А Б Чан; П. Морено и Н. Васконселос (2006). «Обучение с учителем семантических классов для аннотации и поиска изображений» (PDF). IEEE Transactions по анализу шаблонов и машинному анализу. С. 394–410.
- Сходство текстуры
- Р. В. Пикар и Т. П. Минка (1995). «Визуальная текстура для аннотации». Мультимедийные системы.
- Машины опорных векторов
- C Cusano; Дж. Чокка и Р. Скеттини (2004). «Аннотация изображения с помощью SVM». Труды Internet Imaging IV. Интернет-изображения V. 5304. п. 330. Bibcode:2003SPIE.5304..330C. Дои:10.1117/12.526746.
- Ансамбль деревьев решений и случайных подокон
- R Maree; P Geurts; Дж. Пиатер и Л. Вехенкель (2005). «Случайные подокна для надежной классификации изображений». Труды Международной конференции IEEE по компьютерному зрению и распознаванию образов. С. 1: 34–30.
- Максимальная энтропия
- J Jeon; Р Манматха (2004). «Использование максимальной энтропии для автоматического аннотации изображений» (PDF). Международная конференция по поиску изображений и видео (CIVR 2004). С. 24–32.
- Модели релевантности
- J Jeon; В Лавренко и Р. Манматха (2003). «Автоматическое аннотирование и поиск изображений с использованием моделей релевантности в разных медиа» (PDF). Материалы конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. С. 119–126.
- Модели релевантности, использующие непрерывные функции плотности вероятности
- В. Лавренко; Р. Манматха и Дж. Чон (2003). «Модель для изучения семантики картинок» (PDF). Материалы 16-й конференции по достижениям в системах обработки нейронной информации NIPS.
- Связная языковая модель
- Р Джин; J Y Chai; Л. Си (2004). «Эффективное автоматическое аннотирование изображений с помощью согласованной языковой модели и активного обучения» (PDF). Материалы ММ'04.
- Сети вывода
- Д. Метцлер и Р. Манматха (2004). «Сетевой подход к поиску изображений» (PDF). Материалы Международной конференции по поиску изображений и видео. С. 42–50.
- Множественное распределение Бернулли
- S Feng; Р. Манматха и В. Лавренко (2004). «Множественные модели релевантности Бернулли для аннотаций к изображениям и видео» (PDF). Конференция IEEE по компьютерному зрению и распознаванию образов. С. 1002–1009.
- Несколько вариантов дизайна
- J Y Pan; HJ Yang; П. Дуйгулу; C Фалаутсос (2004). «Автоматические подписи к изображениям» (PDF). Материалы Международной конференции по мультимедиа и выставкам IEEE 2004 г. (ICME'04). Архивировано из оригинал (PDF) на 2004-12-09.
- Аннотация естественной сцены
- J Fan; Y Gao; H Luo; Джи Сюй (2004). «Автоматическое аннотирование изображений с помощью концептуально-значимых объектов для представления содержания изображения». Материалы 27-й ежегодной международной конференции «Исследования и разработки в области информационного поиска».. С. 361–368.
- Соответствующие низкоуровневые глобальные фильтры
- Олива и Торральба (2001). «Моделирование формы сцены: целостное представление пространственной оболочки» (PDF). Международный журнал компьютерного зрения. С. 42: 145–175.
- Глобальные характеристики изображения и непараметрическая оценка плотности
- Явлинский, Э. Шофилд и С. Рюгер (2005). «Автоматическое аннотирование изображений с использованием глобальных функций и надежной непараметрической оценки плотности» (PDF). Международная конференция по поиску изображений и видео (CIVR, Сингапур, июль 2005 г.). Архивировано из оригинал (PDF) на 2005-12-20.
- Семантика видео
- Н. Васконселос и А. Липпман (2001). «Статистические модели структуры видео для анализа и описания контента» (PDF). IEEE Transactions по обработке изображений. С. 1–17.
- Илария Бартолини; Марко Пателла и Коррадо Романи (2010). «Шиацу: семантическая иерархическая автоматическая маркировка видео с помощью сегментации с использованием сокращений». 3-й международный мультимедийный семинар ACM по автоматизированному извлечению информации в медиа-производстве (AIEMPro10).
- Уточнение аннотации изображения
- Йохан Джин; Латифур Хан; Лей Ван и Мамун Авад (2005). «Аннотации изображений путем объединения нескольких доказательств и wordNet». 13-я ежегодная международная конференция ACM по мультимедиа (MM 05). С. 706–715.
- Чанху Ван; Фэн Цзин; Лэй Чжан и Хун-Цзян Чжан (2006). «Уточнение аннотаций к изображениям с помощью случайного блуждания с перезапусками». 14-я ежегодная международная конференция ACM по мультимедиа (MM 06).
- Чанху Ван; Фэн Цзин; Лэй Чжан и Хун-Цзян Чжан (2007). «Уточнение аннотации изображений на основе содержимого». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR 07). Дои:10.1109 / CVPR.2007.383221.
- Илария Бартолини и Паоло Чаччиа (2007). «Воображение: использование анализа ссылок для точной аннотации изображений». Springer Adaptive Multimedia Retrieval. Дои:10.1007/978-3-540-79860-6_3.
- Илария Бартолини и Паоло Чаччиа (2010). "Аннотации к изображениям на основе многомерных ключевых слов и поиск". 2-й международный семинар ACM по поиску по ключевым словам в структурированных данных (KEYS 2010).
- Автоматическая аннотация изображения ансамблем визуальных дескрипторов
- Эмре Акбас и Фатос Ю. Вурал (2007). «Автоматическая аннотация изображения ансамблем визуальных дескрипторов». Intl. Конф. по компьютерному зрению (CVPR) 2007, семинар по приложениям семантического обучения в мультимедиа. Дои:10.1109 / CVPR.2007.383484.
- Новая основа для аннотаций к изображениям
- Амиш Макадиа, Владимир Павлович и Санджив Кумар (2008). «Новая основа для аннотаций к изображениям» (PDF). Европейская конференция по компьютерному зрению (ECCV).
Одновременная классификация и аннотация изображений
- Чонг Ван, Дэвид Блей и Ли Фей-Фэй (2009). «Одновременная классификация и аннотация изображений» (PDF). Конф. по компьютерному зрению и распознаванию образов (CVPR).
- TagProp: изучение дискриминирующих метрик в моделях ближайшего соседа для автоаннотации изображений
- Матье Гийомен, Томас Менсинк, Якоб Вербеек и Корделия Шмид (2009). "TagProp: изучение дискриминативных показателей в моделях ближайшего соседа для автоаннотации изображений" (PDF). Intl. Конф. по компьютерному зрению (ICCV).
- Аннотация изображения с использованием метрического обучения в семантических окрестностях
- Яшасви Верма и К. В. Джавахар (2012). «Аннотация изображения с использованием метрического обучения в семантических окрестностях» (PDF). Европейская конференция по компьютерному зрению (ECCV). Архивировано из оригинал (PDF) на 2013-05-14. Получено 2014-02-26.
- Автоматическая аннотация изображений с использованием представлений глубокого обучения
- Венкатеш Н. Мурти, Субхрансу Маджи и Р. Манматха (2015). «Автоматическая аннотация изображения с использованием представлений глубокого обучения» (PDF). Международная конференция по мультимедиа (ICMR).
- Аннотации медицинских изображений с использованием байесовских сетей и активного обучения
- Н. Б. Марвасти, Э. Йорук и Б. Акар (2018). "Компьютерная аннотация медицинских изображений: предварительные результаты с поражением печени в КТ". Журнал IEEE по биомедицинской и медицинской информатике.