Эгоцентрическое видение - Egocentric vision

Эгоцентрическое видение или же вид от первого лица является подполе компьютерное зрение это влечет за собой анализ изображений и видео, снятых носимая камера, который обычно надевается на голову или на грудь и естественным образом приближается к полю зрения владельца камеры. Следовательно, визуальные данные захватывают ту часть сцены, на которой пользователь сосредотачивается для выполнения поставленной задачи, и предлагают ценную перспективу для понимания действий пользователя и их контекста в естественной обстановке.^[1]

Носимая камера, смотрящая вперед, часто дополняется камерой, смотрящей внутрь на глаз пользователя и способной измерять взгляд пользователя, что полезно для выявления внимания и лучшего понимания действий и намерений пользователя.

История

Идея использования переносной камеры для сбора визуальных данных от первого лица восходит к 70-м годам, когда Стив Манн изобрел «Цифровое глазное стекло», устройство, которое при ношении превращает сам человеческий глаз в электронную камеру и телевизионный дисплей.^[2]

Впоследствии носимые камеры стали использоваться в приложениях, связанных со здоровьем, в контексте Humanistic Intelligence.^[3] и носимый ИИ.^[4] Эгоцентрическое зрение лучше всего осуществлять с точки зрения глаза, но также его можно осуществлять с помощью камеры для ношения на шее, когда очки будут мешать.^[5] Этот вариант для ношения на шее был популяризирован благодаря Microsoft SenseCam в 2006 г. для экспериментальных медицинских исследований.^[6] Интерес сообщества компьютерного зрения к эгоцентрической парадигме медленно растет, начиная с 2010-х годов, и быстро растет в последние годы.^[7] усилены как впечатляющими достижениями в области носимая технология и растущим числом потенциальных приложений.

Прототип системы видения от первого лица, описанный Канаде и Хебертом,^[8] в 2012 году состоит из трех основных компонентов: компонента локализации, способного оценивать окружение, компонента распознавания, способного идентифицировать объект и людей, и компонента признание активности компонент, способный предоставить информацию о текущей активности пользователя. Вместе эти три компонента обеспечивают полную ситуационную осведомленность пользователя, которая, в свою очередь, может использоваться для оказания помощи самому себе или лицу, осуществляющему уход. Следуя этой идее, первые вычислительные техники для эгоцентрического анализа были сосредоточены на распознавании активности рук. ^[9] и анализ социального взаимодействия.^[10] Кроме того, учитывая неограниченный характер видео и огромный объем генерируемых данных, временная сегментация^[11] и обобщение^[12] где в числе первых решалась проблема. После почти десяти лет эгоцентрического видения (2007-2017) эта сфера все еще находится в процессе диверсификации. Новые темы исследований включают:

Оценка социальной значимости^[13]
Многоагентные эгоцентрические системы зрения
Методы и приложения для сохранения конфиденциальности
Анализ активности на основе внимания^[14]
Анализ социального взаимодействия^[15]
Анализ позы руки^[16]
Графические пользовательские интерфейсы Ego (EUI)^[17]
Понимание социальной динамики и внимания^[18]
Пересмотр роботизированного зрения и машинное зрение как эгоцентрическое восприятие ^[19]
Прогноз активности^[20]

Технические проблемы

Сегодняшние носимые камеры - это небольшие и легкие цифровые записывающие устройства, которые могут автоматически, без вмешательства пользователя, получать изображения и видео с различными разрешениями и частотой кадров, а также от первого лица. Поэтому носимые камеры, естественно, предназначены для сбора визуальной информации из наших повседневных взаимодействий, поскольку они предлагают интимную перспективу визуального поля владельца камеры.

В зависимости от частоты кадров принято различать фотоаппараты (также называемые камерами лайфлоггинга) и видеокамеры.

Первые (например, Повествовательный клип и Microsoft SenseCam ), обычно носятся на груди и характеризуются очень низкой частотой кадров (до 2 кадров в минуту), что позволяет снимать изображения в течение длительного периода времени без необходимости подзарядки аккумулятора. Следовательно, они предлагают значительный потенциал для вывода знаний, например, о модели поведения, привычки или образ жизни пользователя. Однако из-за низкой частоты кадров и свободного движения камеры смежные во времени изображения обычно имеют резкие изменения внешнего вида, так что признаки движения невозможно надежно оценить.
Последний (например, очки Гугл, GoPro ), обычно устанавливаются на голову и снимают обычное видео (около 35 кадров в секунду), что позволяет фиксировать мелкие временные детали взаимодействий. Следовательно, они предлагают возможность для углубленного анализа повседневных или особых действий. Однако, поскольку камера движется вместе с головой пользователя, становится труднее оценить общее движение пользователя, а в случае резких движений изображения могут получиться размытыми.

В обоих случаях, поскольку камеру носят в естественной обстановке, визуальные данные сильно различаются с точки зрения условий освещения и внешнего вида объекта. Более того, владелец камеры не виден на изображении, и то, что он / она делает, должно быть выводится из информации в поле зрения камеры, подразумевая, что важная информация о пользователе, такая как, например, поза или оценка выражения лица недоступны.

Приложения

Сборник исследований, опубликованный в специальном тематическом выпуске American Journal of Preventive Medicine.^[21] продемонстрировал потенциал журналов жизни, снятых носимыми камерами с различных точек зрения. В частности, было показано, что использование журналов жизни в качестве инструмента для понимания и отслеживания образа жизни позволит предотвратить неинфекционные заболевания, связанные с нездоровыми тенденциями и рискованными профилями (например, ожирение, депрессия и т. Д.). Кроме того, жизненные журналы, используемые в качестве инструмента восстановления когнитивных навыков, позволят предотвратить когнитивные и функциональные нарушения у пожилых людей.

В последнее время эгоцентрические камеры использовались для изучения познания человека и животных, социального взаимодействия человека и человека, взаимодействия человека с роботом, человеческого опыта в сложных задачах. Другие приложения включают навигационные / вспомогательные технологии для слепых,^[22] мониторинг и сопровождение производственных процессов.^[23]^[24]

Смотрите также

Рекомендации

^ Введение в 3-й семинар по эгоцентрическому зрению (от первого лица), Стив Манн, Крис М. Китани, Йонг Дже Ли, М.С. Рю и Алиреза Фатхи, Конференция IEEE по компьютерному зрению и распознаванию образов, семинары 2160-7508 / 14, 2014 , IEEE DOI 10.1109 / CVPRW.2014.1338272014
^ Манн, С. (1998). Гуманистические вычисления: «WearComp» как новая структура и приложение для интеллектуальной обработки сигналов. Труды IEEE, 86 (11), 2123-2151.
^ Хайкин, Саймон С. и Барт Коско. Интеллектуальная обработка сигналов. Wiley-IEEE Press, 2001.
^ «Носимый AI», Стив Манн, Ли-Те Ченг, Джон Робинсон, Каору Суми, Тоёаки Нисида, Соичиро Мацусита, Омер Фарук Озер, Огуз Озун, Ч. Ёнсел Тюзель, Волкан Аталай, А. Энис Четин, Джошуа Анхальт, Асим Смаилагич , Дэниел П. Севиорек, Франсин Гемперле, Дэниел Салбер, Вебер, Джим Бек, Джим Дженнингс и Дэвид А. Росс, IEEE Intelligent Systems 16 (3), 2001, страницы с 0 (обложка) по 53.
^ Манн, С. (2000, октябрь). Telepointer: полностью автономная носимая визуальная дополненная реальность, свободная от рук, без головных уборов и без какой-либо инфраструктуры. В сборнике статей. Четвертый международный симпозиум по носимым компьютерам (стр. 177-178). IEEE.
^ Доэрти, А. Р., Ходжес, С. Е., Кинг, А. С., Смитон, А. Ф., Берри, Э., Мулен, К. Дж., ... и Фостер, К. (2013). Носимые камеры на здоровье. Американский журнал профилактической медицины, 44 (3), 320-323.
^ Боланос М., Димикколи М. и Радева П. (2017). К повествованию из визуального лайфлоггинга: обзор. IEEE Transactions по человеко-машинным системам, 47 (1), 77-90.
^ Канаде, Т., и Хеберт, М. (2012). Вид от первого лица. Труды IEEE, 100 (8), 2442-2453.
^ Фатхи А., Фархади А. и Рег Дж. М. (2011, ноябрь). Понимание эгоцентрической деятельности. In Computer Vision (ICCV), Международная конференция IEEE 2011 г. (стр. 407-414). IEEE.
^ Фатхи, А., Ходгинс, Дж. К., и Рег, Дж. М. (2012, июнь). Социальные взаимодействия: взгляд от первого лица. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1226-1233). IEEE.
^ Полег Ю., Арора С. и Пелег С. (2014). Временная сегментация эгоцентрических видеороликов. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 2537-2544).
^ Ли, Ю. Дж., Гош, Дж., И Грауман, К. (2012, июнь). Обнаружение важных людей и объектов для эгоцентрического видео-резюмирования. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1346-1353). IEEE.
^ Парк, Х. С., Джайн, Э., и Шейх, Ю. (2012). Социальная значимость в 3D с помощью налобных камер. В достижениях в системах обработки нейронной информации (стр. 422-430).
^ Су, Ю. К., и Грауман, К. (2016, октябрь). Обнаружение вовлеченности в эгоцентрическом видео. В Европейской конференции по компьютерному зрению (стр. 454-471). Издательство Springer International.
^ Фатхи, А., Ходгинс, Дж. К., и Рег, Дж. М. (2012, июнь). Социальные взаимодействия: взгляд от первого лица. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1226-1233). IEEE.
^ Rogez, G., Supancic, J. S., & Ramanan, D. (2015). Распознавание позы от первого лица с использованием эгоцентрических рабочих мест. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 4325-4333).
^ Манн С., Янзен Р., Ай, Т., Ясреби, С. Н., Кавва, Дж., И Али, М. А. (2014, май). Toposculpting: вычислительная светопись и носимая вычислительная фотография для абакографических пользовательских интерфейсов. В области электротехники и вычислительной техники (CCECE), 27-я канадская конференция IEEE 2014 г. (стр. 1-10). IEEE.
^ Беттадапура В., Эсса И. и Пантофару К. (2015, январь). Эгоцентрическая локализация поля зрения с помощью устройств от первого лица. In Applications of Computer Vision (WACV), Зимняя конференция IEEE 2015 г. (стр. 626-633). IEEE
^ Цзи П., Сун А., Сюн П., Йи П., Сюй X. и Ли Х. (2017). Система контроля положения рук на основе эгоцентрического зрения для роботов-разведчиков. Журнал интеллектуальных и робототехнических систем, 87 (3-4), 583-599.
^ Бохари, С. З., и Китани, К. М. (2016, ноябрь). Долгосрочное прогнозирование деятельности с использованием видения от первого лица. В Азиатской конференции по компьютерному зрению (стр. 346-360). Спрингер, Чам
^ Доэрти, А. Р., Ходжес, С. Е., Кинг, А. С., Смитон, А. Ф., Берри, Э., Мулен, К. Дж., ... и Фостер, К. (2013). Носимые камеры на здоровье. Американский журнал профилактической медицины, 44 (3), 320-323.
^ Яги, Т., Мангалам, К., Йонетани, Р., и Сато, Ю. (2017). Локализация будущего человека в видео от первого лица. препринт arXiv arXiv:1711.11217.
^ Лиласавасук Т., Дамен Д. и Майол-Куэвас В. (2017, март). Автоматизированный сбор и предоставление вспомогательных инструкций по выполнению задач с помощью компьютера в очках: система GlaciAR
^ Эдмундс, С. Р., Розга, А., Ли, Ю., Карп, Э. А., Ибанез, Л. В., Рег, Дж. М., и Стоун, В. Л. (2017). Краткий отчет: Использование камеры обзора для измерения взгляда у маленьких детей с расстройством аутистического спектра во время натуралистических социальных взаимодействий: экспериментальное исследование. Журнал аутизма и нарушений развития, 47 (3), 898-904.

[1] Введение в 3-й семинар по эгоцентрическому зрению (от первого лица), Стив Манн, Крис М. Китани, Йонг Дже Ли, М.С. Рю и Алиреза Фатхи, Конференция IEEE по компьютерному зрению и распознаванию образов, семинары 2160-7508 / 14, 2014 , IEEE DOI 10.1109 / CVPRW.2014.1338272014

[2] Манн, С. (1998). Гуманистические вычисления: «WearComp» как новая структура и приложение для интеллектуальной обработки сигналов. Труды IEEE, 86 (11), 2123-2151.

[3] Хайкин, Саймон С. и Барт Коско. Интеллектуальная обработка сигналов. Wiley-IEEE Press, 2001.

[4] «Носимый AI», Стив Манн, Ли-Те Ченг, Джон Робинсон, Каору Суми, Тоёаки Нисида, Соичиро Мацусита, Омер Фарук Озер, Огуз Озун, Ч. Ёнсел Тюзель, Волкан Аталай, А. Энис Четин, Джошуа Анхальт, Асим Смаилагич , Дэниел П. Севиорек, Франсин Гемперле, Дэниел Салбер, Вебер, Джим Бек, Джим Дженнингс и Дэвид А. Росс, IEEE Intelligent Systems 16 (3), 2001, страницы с 0 (обложка) по 53.

[5] Манн, С. (2000, октябрь). Telepointer: полностью автономная носимая визуальная дополненная реальность, свободная от рук, без головных уборов и без какой-либо инфраструктуры. В сборнике статей. Четвертый международный симпозиум по носимым компьютерам (стр. 177-178). IEEE.

[6] Доэрти, А. Р., Ходжес, С. Е., Кинг, А. С., Смитон, А. Ф., Берри, Э., Мулен, К. Дж., ... и Фостер, К. (2013). Носимые камеры на здоровье. Американский журнал профилактической медицины, 44 (3), 320-323.

[7] Боланос М., Димикколи М. и Радева П. (2017). К повествованию из визуального лайфлоггинга: обзор. IEEE Transactions по человеко-машинным системам, 47 (1), 77-90.

[8] Канаде, Т., и Хеберт, М. (2012). Вид от первого лица. Труды IEEE, 100 (8), 2442-2453.

[9] Фатхи А., Фархади А. и Рег Дж. М. (2011, ноябрь). Понимание эгоцентрической деятельности. In Computer Vision (ICCV), Международная конференция IEEE 2011 г. (стр. 407-414). IEEE.

[10] Фатхи, А., Ходгинс, Дж. К., и Рег, Дж. М. (2012, июнь). Социальные взаимодействия: взгляд от первого лица. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1226-1233). IEEE.

[11] Полег Ю., Арора С. и Пелег С. (2014). Временная сегментация эгоцентрических видеороликов. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 2537-2544).

[12] Ли, Ю. Дж., Гош, Дж., И Грауман, К. (2012, июнь). Обнаружение важных людей и объектов для эгоцентрического видео-резюмирования. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1346-1353). IEEE.

[13] Парк, Х. С., Джайн, Э., и Шейх, Ю. (2012). Социальная значимость в 3D с помощью налобных камер. В достижениях в системах обработки нейронной информации (стр. 422-430).

[14] Су, Ю. К., и Грауман, К. (2016, октябрь). Обнаружение вовлеченности в эгоцентрическом видео. В Европейской конференции по компьютерному зрению (стр. 454-471). Издательство Springer International.

[15] Фатхи, А., Ходгинс, Дж. К., и Рег, Дж. М. (2012, июнь). Социальные взаимодействия: взгляд от первого лица. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1226-1233). IEEE.

[16] Rogez, G., Supancic, J. S., & Ramanan, D. (2015). Распознавание позы от первого лица с использованием эгоцентрических рабочих мест. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 4325-4333).

[17] Манн С., Янзен Р., Ай, Т., Ясреби, С. Н., Кавва, Дж., И Али, М. А. (2014, май). Toposculpting: вычислительная светопись и носимая вычислительная фотография для абакографических пользовательских интерфейсов. В области электротехники и вычислительной техники (CCECE), 27-я канадская конференция IEEE 2014 г. (стр. 1-10). IEEE.

[18] Беттадапура В., Эсса И. и Пантофару К. (2015, январь). Эгоцентрическая локализация поля зрения с помощью устройств от первого лица. In Applications of Computer Vision (WACV), Зимняя конференция IEEE 2015 г. (стр. 626-633). IEEE

[19] Цзи П., Сун А., Сюн П., Йи П., Сюй X. и Ли Х. (2017). Система контроля положения рук на основе эгоцентрического зрения для роботов-разведчиков. Журнал интеллектуальных и робототехнических систем, 87 (3-4), 583-599.

[20] Бохари, С. З., и Китани, К. М. (2016, ноябрь). Долгосрочное прогнозирование деятельности с использованием видения от первого лица. В Азиатской конференции по компьютерному зрению (стр. 346-360). Спрингер, Чам

[21] Доэрти, А. Р., Ходжес, С. Е., Кинг, А. С., Смитон, А. Ф., Берри, Э., Мулен, К. Дж., ... и Фостер, К. (2013). Носимые камеры на здоровье. Американский журнал профилактической медицины, 44 (3), 320-323.

[22] Яги, Т., Мангалам, К., Йонетани, Р., и Сато, Ю. (2017). Локализация будущего человека в видео от первого лица. препринт arXiv arXiv:1711.11217.

[23] Лиласавасук Т., Дамен Д. и Майол-Куэвас В. (2017, март). Автоматизированный сбор и предоставление вспомогательных инструкций по выполнению задач с помощью компьютера в очках: система GlaciAR

[24] Эдмундс, С. Р., Розга, А., Ли, Ю., Карп, Э. А., Ибанез, Л. В., Рег, Дж. М., и Стоун, В. Л. (2017). Краткий отчет: Использование камеры обзора для измерения взгляда у маленьких детей с расстройством аутистического спектра во время натуралистических социальных взаимодействий: экспериментальное исследование. Журнал аутизма и нарушений развития, 47 (3), 898-904.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]