Эгоцентрическое видение - Egocentric vision

Эгоцентрическое видение или же вид от первого лица является подполе компьютерное зрение это влечет за собой анализ изображений и видео, снятых носимая камера, который обычно надевается на голову или на грудь и естественным образом приближается к полю зрения владельца камеры. Следовательно, визуальные данные захватывают ту часть сцены, на которой пользователь сосредотачивается для выполнения поставленной задачи, и предлагают ценную перспективу для понимания действий пользователя и их контекста в естественной обстановке.[1]

Носимая камера, смотрящая вперед, часто дополняется камерой, смотрящей внутрь на глаз пользователя и способной измерять взгляд пользователя, что полезно для выявления внимания и лучшего понимания действий и намерений пользователя.

История

Идея использования переносной камеры для сбора визуальных данных от первого лица восходит к 70-м годам, когда Стив Манн изобрел «Цифровое глазное стекло», устройство, которое при ношении превращает сам человеческий глаз в электронную камеру и телевизионный дисплей.[2]

Впоследствии носимые камеры стали использоваться в приложениях, связанных со здоровьем, в контексте Humanistic Intelligence.[3] и носимый ИИ.[4] Эгоцентрическое зрение лучше всего осуществлять с точки зрения глаза, но также его можно осуществлять с помощью камеры для ношения на шее, когда очки будут мешать.[5] Этот вариант для ношения на шее был популяризирован благодаря Microsoft SenseCam в 2006 г. для экспериментальных медицинских исследований.[6] Интерес сообщества компьютерного зрения к эгоцентрической парадигме медленно растет, начиная с 2010-х годов, и быстро растет в последние годы.[7] усилены как впечатляющими достижениями в области носимая технология и растущим числом потенциальных приложений.

Прототип системы видения от первого лица, описанный Канаде и Хебертом,[8] в 2012 году состоит из трех основных компонентов: компонента локализации, способного оценивать окружение, компонента распознавания, способного идентифицировать объект и людей, и компонента признание активности компонент, способный предоставить информацию о текущей активности пользователя. Вместе эти три компонента обеспечивают полную ситуационную осведомленность пользователя, которая, в свою очередь, может использоваться для оказания помощи самому себе или лицу, осуществляющему уход. Следуя этой идее, первые вычислительные техники для эгоцентрического анализа были сосредоточены на распознавании активности рук. [9] и анализ социального взаимодействия.[10] Кроме того, учитывая неограниченный характер видео и огромный объем генерируемых данных, временная сегментация[11] и обобщение[12] где в числе первых решалась проблема. После почти десяти лет эгоцентрического видения (2007-2017) эта сфера все еще находится в процессе диверсификации. Новые темы исследований включают:

  • Оценка социальной значимости[13]
  • Многоагентные эгоцентрические системы зрения
  • Методы и приложения для сохранения конфиденциальности
  • Анализ активности на основе внимания[14]
  • Анализ социального взаимодействия[15]
  • Анализ позы руки[16]
  • Графические пользовательские интерфейсы Ego (EUI)[17]
  • Понимание социальной динамики и внимания[18]
  • Пересмотр роботизированного зрения и машинное зрение как эгоцентрическое восприятие [19]
  • Прогноз активности[20]

Технические проблемы

Сегодняшние носимые камеры - это небольшие и легкие цифровые записывающие устройства, которые могут автоматически, без вмешательства пользователя, получать изображения и видео с различными разрешениями и частотой кадров, а также от первого лица. Поэтому носимые камеры, естественно, предназначены для сбора визуальной информации из наших повседневных взаимодействий, поскольку они предлагают интимную перспективу визуального поля владельца камеры.

В зависимости от частоты кадров принято различать фотоаппараты (также называемые камерами лайфлоггинга) и видеокамеры.

  • Первые (например, Повествовательный клип и Microsoft SenseCam ), обычно носятся на груди и характеризуются очень низкой частотой кадров (до 2 кадров в минуту), что позволяет снимать изображения в течение длительного периода времени без необходимости подзарядки аккумулятора. Следовательно, они предлагают значительный потенциал для вывода знаний, например, о модели поведения, привычки или образ жизни пользователя. Однако из-за низкой частоты кадров и свободного движения камеры смежные во времени изображения обычно имеют резкие изменения внешнего вида, так что признаки движения невозможно надежно оценить.
  • Последний (например, очки Гугл, GoPro ), обычно устанавливаются на голову и снимают обычное видео (около 35 кадров в секунду), что позволяет фиксировать мелкие временные детали взаимодействий. Следовательно, они предлагают возможность для углубленного анализа повседневных или особых действий. Однако, поскольку камера движется вместе с головой пользователя, становится труднее оценить общее движение пользователя, а в случае резких движений изображения могут получиться размытыми.

В обоих случаях, поскольку камеру носят в естественной обстановке, визуальные данные сильно различаются с точки зрения условий освещения и внешнего вида объекта. Более того, владелец камеры не виден на изображении, и то, что он / она делает, должно быть выводится из информации в поле зрения камеры, подразумевая, что важная информация о пользователе, такая как, например, поза или оценка выражения лица недоступны.

Приложения

Сборник исследований, опубликованный в специальном тематическом выпуске American Journal of Preventive Medicine.[21] продемонстрировал потенциал журналов жизни, снятых носимыми камерами с различных точек зрения. В частности, было показано, что использование журналов жизни в качестве инструмента для понимания и отслеживания образа жизни позволит предотвратить неинфекционные заболевания, связанные с нездоровыми тенденциями и рискованными профилями (например, ожирение, депрессия и т. Д.). Кроме того, жизненные журналы, используемые в качестве инструмента восстановления когнитивных навыков, позволят предотвратить когнитивные и функциональные нарушения у пожилых людей.

В последнее время эгоцентрические камеры использовались для изучения познания человека и животных, социального взаимодействия человека и человека, взаимодействия человека с роботом, человеческого опыта в сложных задачах. Другие приложения включают навигационные / вспомогательные технологии для слепых,[22] мониторинг и сопровождение производственных процессов.[23][24]

Смотрите также

Рекомендации

  1. ^ Введение в 3-й семинар по эгоцентрическому зрению (от первого лица), Стив Манн, Крис М. Китани, Йонг Дже Ли, М.С. Рю и Алиреза Фатхи, Конференция IEEE по компьютерному зрению и распознаванию образов, семинары 2160-7508 / 14, 2014 , IEEE DOI 10.1109 / CVPRW.2014.1338272014
  2. ^ Манн, С. (1998). Гуманистические вычисления: «WearComp» как новая структура и приложение для интеллектуальной обработки сигналов. Труды IEEE, 86 (11), 2123-2151.
  3. ^ Хайкин, Саймон С. и Барт Коско. Интеллектуальная обработка сигналов. Wiley-IEEE Press, 2001.
  4. ^ «Носимый AI», Стив Манн, Ли-Те Ченг, Джон Робинсон, Каору Суми, Тоёаки Нисида, Соичиро Мацусита, Омер Фарук Озер, Огуз Озун, Ч. Ёнсел Тюзель, Волкан Аталай, А. Энис Четин, Джошуа Анхальт, Асим Смаилагич , Дэниел П. Севиорек, Франсин Гемперле, Дэниел Салбер, Вебер, Джим Бек, Джим Дженнингс и Дэвид А. Росс, IEEE Intelligent Systems 16 (3), 2001, страницы с 0 (обложка) по 53.
  5. ^ Манн, С. (2000, октябрь). Telepointer: полностью автономная носимая визуальная дополненная реальность, свободная от рук, без головных уборов и без какой-либо инфраструктуры. В сборнике статей. Четвертый международный симпозиум по носимым компьютерам (стр. 177-178). IEEE.
  6. ^ Доэрти, А. Р., Ходжес, С. Е., Кинг, А. С., Смитон, А. Ф., Берри, Э., Мулен, К. Дж., ... и Фостер, К. (2013). Носимые камеры на здоровье. Американский журнал профилактической медицины, 44 (3), 320-323.
  7. ^ Боланос М., Димикколи М. и Радева П. (2017). К повествованию из визуального лайфлоггинга: обзор. IEEE Transactions по человеко-машинным системам, 47 (1), 77-90.
  8. ^ Канаде, Т., и Хеберт, М. (2012). Вид от первого лица. Труды IEEE, 100 (8), 2442-2453.
  9. ^ Фатхи А., Фархади А. и Рег Дж. М. (2011, ноябрь). Понимание эгоцентрической деятельности. In Computer Vision (ICCV), Международная конференция IEEE 2011 г. (стр. 407-414). IEEE.
  10. ^ Фатхи, А., Ходгинс, Дж. К., и Рег, Дж. М. (2012, июнь). Социальные взаимодействия: взгляд от первого лица. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1226-1233). IEEE.
  11. ^ Полег Ю., Арора С. и Пелег С. (2014). Временная сегментация эгоцентрических видеороликов. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 2537-2544).
  12. ^ Ли, Ю. Дж., Гош, Дж., И Грауман, К. (2012, июнь). Обнаружение важных людей и объектов для эгоцентрического видео-резюмирования. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1346-1353). IEEE.
  13. ^ Парк, Х. С., Джайн, Э., и Шейх, Ю. (2012). Социальная значимость в 3D с помощью налобных камер. В достижениях в системах обработки нейронной информации (стр. 422-430).
  14. ^ Су, Ю. К., и Грауман, К. (2016, октябрь). Обнаружение вовлеченности в эгоцентрическом видео. В Европейской конференции по компьютерному зрению (стр. 454-471). Издательство Springer International.
  15. ^ Фатхи, А., Ходгинс, Дж. К., и Рег, Дж. М. (2012, июнь). Социальные взаимодействия: взгляд от первого лица. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1226-1233). IEEE.
  16. ^ Rogez, G., Supancic, J. S., & Ramanan, D. (2015). Распознавание позы от первого лица с использованием эгоцентрических рабочих мест. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 4325-4333).
  17. ^ Манн С., Янзен Р., Ай, Т., Ясреби, С. Н., Кавва, Дж., И Али, М. А. (2014, май). Toposculpting: вычислительная светопись и носимая вычислительная фотография для абакографических пользовательских интерфейсов. В области электротехники и вычислительной техники (CCECE), 27-я канадская конференция IEEE 2014 г. (стр. 1-10). IEEE.
  18. ^ Беттадапура В., Эсса И. и Пантофару К. (2015, январь). Эгоцентрическая локализация поля зрения с помощью устройств от первого лица. In Applications of Computer Vision (WACV), Зимняя конференция IEEE 2015 г. (стр. 626-633). IEEE
  19. ^ Цзи П., Сун А., Сюн П., Йи П., Сюй X. и Ли Х. (2017). Система контроля положения рук на основе эгоцентрического зрения для роботов-разведчиков. Журнал интеллектуальных и робототехнических систем, 87 (3-4), 583-599.
  20. ^ Бохари, С. З., и Китани, К. М. (2016, ноябрь). Долгосрочное прогнозирование деятельности с использованием видения от первого лица. В Азиатской конференции по компьютерному зрению (стр. 346-360). Спрингер, Чам
  21. ^ Доэрти, А. Р., Ходжес, С. Е., Кинг, А. С., Смитон, А. Ф., Берри, Э., Мулен, К. Дж., ... и Фостер, К. (2013). Носимые камеры на здоровье. Американский журнал профилактической медицины, 44 (3), 320-323.
  22. ^ Яги, Т., Мангалам, К., Йонетани, Р., и Сато, Ю. (2017). Локализация будущего человека в видео от первого лица. препринт arXiv arXiv:1711.11217.
  23. ^ Лиласавасук Т., Дамен Д. и Майол-Куэвас В. (2017, март). Автоматизированный сбор и предоставление вспомогательных инструкций по выполнению задач с помощью компьютера в очках: система GlaciAR
  24. ^ Эдмундс, С. Р., Розга, А., Ли, Ю., Карп, Э. А., Ибанез, Л. В., Рег, Дж. М., и Стоун, В. Л. (2017). Краткий отчет: Использование камеры обзора для измерения взгляда у маленьких детей с расстройством аутистического спектра во время натуралистических социальных взаимодействий: экспериментальное исследование. Журнал аутизма и нарушений развития, 47 (3), 898-904.