Мультимодальное взаимодействие - Multimodal interaction

Мультимодальное взаимодействие предоставляет пользователю несколько режимов взаимодействия с системой. А мультимодальный интерфейс предоставляет несколько различных инструментов для ввод и вывод данных. Например, мультимодальный система ответов на вопросы использует несколько модальности (например, текст и фотография) как на уровне вопроса (ввод), так и на уровне ответа (вывод).^[1]

Вступление

Мультимодальное взаимодействие человека и компьютера означает «взаимодействие с виртуальной и физической средой посредством естественных способов коммуникации»,^[2] Это означает, что мультимодальное взаимодействие обеспечивает более свободное и естественное общение, связывая пользователей с автоматизированными системами как на входе, так и на выходе.^[3] В частности, мультимодальные системы могут предлагать гибкую, эффективную и удобную среду, позволяющую пользователям взаимодействовать с помощью способов ввода, таких как речь, почерк, жест рукой и посмотреть, а также для получения информации системой с помощью подходящих способов вывода, таких как синтез речи, интеллектуальная графика и другие способы. Затем мультимодальная система должна распознавать входные данные от различных модальностей, комбинируя их в соответствии с временными и контекстными ограничениями.^[4] чтобы позволить их интерпретацию. Этот процесс известен как мультимодальный синтез, и он является объектом нескольких исследований с девяностых годов до настоящего времени.^[5]^[6]^[7]^[8]^[9]^[10]^[11]^[12] Входы с предохранителями интерпретируются системой. Естественность и гибкость позволяют производить более одной интерпретации для каждой разной модальности (канала) и для их одновременного использования, и, следовательно, могут вызывать многомодальную неоднозначность.^[13] обычно из-за неточности, шумов или других подобных факторов. Для решения неоднозначностей было предложено несколько методов.^[14]^[15]^[16]^[17]^[18]^[19] Наконец, система возвращается к пользовательским выводам через различные модальные каналы (дезагрегированные), организованные в соответствии с последовательной обратной связью (делением).^[20]Повсеместное использование мобильных устройств, датчиков и веб-технологий может предложить адекватные вычислительные ресурсы для управления сложностью, связанной с мультимодальным взаимодействием. «Использование облака для вовлечения общих вычислительных ресурсов в управление сложностью мультимодального взаимодействия представляет собой возможность. Фактически, облачные вычисления позволяют предоставлять общие масштабируемые, конфигурируемые вычислительные ресурсы, которые можно динамически и автоматически выделять и освобождать».^[21]

Мультимодальный ввод

Две основные группы мультимодальных интерфейсов объединились: одна связана с альтернативными методами ввода, а другая - с комбинированным вводом / выводом. Первая группа интерфейсов сочетала в себе различные режимы пользовательского ввода, выходящие за рамки традиционных. клавиатура и мышь ввод, вывод, например, речь, перо, прикосновение, ручные жесты,^[22] взгляд и движения головы и тела.^[23] Наиболее распространенный такой интерфейс сочетает в себе визуальную модальность (например, дисплей, клавиатуру и мышь) с голосовой модальностью (распознавание речи для ввода, синтез речи и записанный звук для вывода). Однако другие методы, такие как ввод с помощью пера или тактильный ввод / вывод может использоваться. Мультимодальные пользовательские интерфейсы - это область исследований в взаимодействие человека с компьютером (HCI).

Преимущество множественного ввода модальности увеличена удобство использования: слабые стороны одной модальности компенсируются сильными сторонами другой. На мобильном устройстве с небольшим визуальным интерфейсом и клавиатурой слово может быть довольно сложно набрать, но очень легко произнести (например, Покипси ). Подумайте, как вы могли бы получить доступ и выполнить поиск цифровые СМИ каталоги с этих же устройств или телевизионных приставок. И в одном примере из реальной жизни члены хирургической бригады получают устный доступ к информации о пациенте в операционной, чтобы поддерживать антисептическую среду, и представляют практически в реальном времени на слух и визуально для максимального понимания.

Пользовательские интерфейсы мультимодального ввода имеют значение для доступность.^[24] Хорошо спроектированное мультимодальное приложение может использоваться людьми с самыми разными нарушениями. Пользователи с ослабленным зрением полагаются на голосовую модальность при вводе с клавиатуры. Пользователи с нарушением слуха полагаются на визуальную модальность с некоторым речевым вводом. Другие пользователи будут «неадекватно ситуативно» (например, носить перчатки в очень шумной обстановке, управлять автомобилем или вводить номер кредитной карты в общественном месте) и просто будут использовать соответствующие способы по своему желанию. С другой стороны, мультимодальное приложение, которое требует, чтобы пользователи могли работать со всеми модальностями, очень плохо спроектировано.

Наиболее распространенная форма мультимодальности ввода на рынке использует XHTML + голос (он же X + V) язык веб-разметки, открытый Технические характеристики разработан IBM, Motorola, и Программное обеспечение Opera. X + V в настоящее время рассматривается W3C и сочетает в себе несколько Рекомендации W3C в том числе XHTML для визуальной разметки, VoiceXML для голосовой разметки и XML-события, стандарт для интеграции XML языков. Мультимодальные браузеры поддерживающий X + V включают мультимодальную среду IBM WebSphere Everyplace, Опера за Встроенный Linux и Windows, и Системы доступа NetFront за Windows Mobile. Для разработки мультимодальных приложений, разработчики программного обеспечения может использовать комплект для разработки программного обеспечения, например IBM WebSphere Multimodal Toolkit, на основе Открытый исходный код Затмение рамки, который включает X + V отладчик, редактор, и симулятор.^{[нужна цитата ]}

Мультимодальный анализ тональности

Мультимодальный анализ тональности это новое измерение^{[термин павлин ]} традиционных текстовых анализ настроений, который выходит за рамки анализа текстов и включает другие модальности такие как аудио и визуальные данные.^[25] Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности.^[26] При большом количестве социальные медиа данные, доступные в Интернете в различных формах, таких как видео и изображения, обычные текстовые анализ настроений превратилась в более сложные модели мультимодального анализа настроений,^[27] которые могут быть применены при разработке виртуальные помощники,^[28] анализ обзоров фильмов на YouTube,^[29] анализ новостных видеороликов,^[30] и распознавание эмоций (иногда известный как эмоция обнаружение), например депрессия мониторинг,^[31] среди прочего.

Похож на традиционный анализ настроений, одна из основных задач мультимодального анализа настроений - это настроение классификация, которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные.^[32] Сложность анализируя текстовые, звуковые и визуальные функции для выполнения такой задачи требуют применения различных методов слияния, таких как уровень функций, уровень принятия решения и гибридное слияние.^[27] Эффективность этих техник слияния и классификация алгоритмы применяемые, зависят от типа текстовых, звуковых и визуальных функций, используемых в анализе.^[33]

Мультимодальный выход

Вторая группа мультимодальных систем предоставляет пользователям мультимедийные дисплеи и мультимодальный вывод, прежде всего в форме визуальных и слуховых сигналов. Дизайнеры интерфейсов также начали использовать другие методы, такие как прикосновение и обоняние. Предлагаемые преимущества мультимодальной выходной системы включают синергию и избыточность. Информация, которая представлена несколькими способами, объединяется и относится к различным аспектам одного и того же процесса. Использование нескольких модальностей для обработки одной и той же информации обеспечивает увеличенную пропускную способность передачи информации.^[34]^[35]^[36] В настоящее время мультимодальный вывод используется в основном для улучшения сопоставления между средой связи и контентом и для поддержки управления вниманием в среде с большим количеством данных, где операторы сталкиваются со значительными требованиями визуального внимания.^[37]

Важным шагом в разработке мультимодального интерфейса является создание естественных сопоставлений между модальностями и информацией и задачами. Слуховой канал отличается от зрения по нескольким аспектам. Он всенаправлен, преходящ и всегда зарезервирован.^[37] Речевой вывод, одна из форм слуховой информации, получил значительное внимание. Было разработано несколько руководств по использованию речи. Михаэлис и Виггинс (1982) предложили использовать речевой вывод для простых коротких сообщений, о которых мы не будем говорить позже. Также было рекомендовано, чтобы речь звучала вовремя и требовала немедленного ответа.

Чувство осязания было впервые использовано в качестве средства общения в конце 1950-х годов.^[38] Это не только перспективный, но и уникальный канал коммуникации. В отличие от зрения и слуха, двух традиционных чувств, используемых в HCI, осязание является ближайшим: оно ощущает объекты, которые находятся в контакте с телом, и является двунаправленным, поскольку поддерживает как восприятие, так и воздействие на окружающую среду.

Примеры слуховой обратной связи включают звуковые значки в компьютерных операционных системах, указывающие действия пользователей (например, удаление файла, открытие папки, ошибку), речевой вывод для представления навигационных указаний в транспортных средствах и вывод речи для предупреждения пилотов в кабинах современных самолетов. Примеры тактильных сигналов включают вибрацию рычага указателя поворота для предупреждения водителей о том, что автомобиль находится в их слепой зоне, вибрацию автокресла в качестве предупреждения для водителей и шейкер для палочек на современных самолетах, предупреждающих пилотов о надвигающемся сваливании.^[37]

Невидимые интерфейсные пространства стали доступны благодаря сенсорной технологии. В настоящее время широко используются инфракрасный, ультразвуковой и камеры.^[39] Прозрачность взаимодействия с контентом повышается, обеспечивая немедленную и прямую ссылку через осмысленное отображение, таким образом, пользователь получает прямую и немедленную обратную связь на ввод, а ответ контента становится доступностью интерфейса (Гибсон, 1979).

Мультимодальный синтез

Процесс интеграции информации из различных способов ввода и объединения их в полную команду называется мультимодальным объединением.^[6] В литературе были предложены три основных подхода к процессу объединения в соответствии с основными архитектурными уровнями (распознавание и решение), на которых может выполняться объединение входных сигналов: на основе распознавания,^[10]^[11]^[40] на основе решений,^[8]^[9]^[12]^[41]^[42]^[43]^[44] и гибридное многоуровневое слияние.^[5]^[7]^[45]^[46]^[47]^[48]^[49]^[50]

Слияние на основе распознавания (также известное как раннее слияние) заключается в слиянии результатов каждого модального распознавателя с использованием механизмов интеграции, таких как, например, методы статистической интеграции, теория агентов, скрытые марковские модели, искусственные нейронные сети и т. Д. Примеры стратегий слияния, основанных на распознавании, являются рамками действия,^[40] входные векторы^[10] и слоты.^[11]

Слияние на основе решений (также известное как позднее слияние) объединяет семантическую информацию, которая извлекается с помощью определенных процедур слияния, управляемых диалогом, для получения полной интерпретации. Примерами стратегий слияния на основе решений являются типизированные структуры признаков,^[41]^[46] плавильные котлы,^[43]^[44] семантические рамки,^[8]^[12] и решетки с отметками времени.^[9]

Потенциальные приложения для мультимодального слияния включают обучающую среду, отношения с потребителями, безопасность / наблюдение, компьютерную анимацию и т. Д. По отдельности режимы легко определить, но возникают трудности с тем, чтобы технология считала их комбинированным слиянием.^[51] Алгоритмам сложно учесть размерность; существуют переменные за пределами текущих вычислительных возможностей. Например, семантическое значение: два предложения могут иметь одинаковое лексическое значение, но разную эмоциональную информацию.^[51]

В гибридном многоуровневом слиянии интеграция входных модальностей распределяется между уровнями распознавания и принятия решений. Гибридное многоуровневое слияние включает следующие три методологии: преобразователи конечного состояния,^[46] мультимодальные грамматики^[7]^[45]^[47]^[48]^[49]^[50]^[52] и диалог движется.^[53]

Двусмысленность

Действия или команды пользователя создают мультимодальные входные данные (мультимодальное сообщение^[4]), которые должны интерпретироваться системой. Мультимодальное сообщение - это среда, которая обеспечивает связь между пользователями и мультимодальными системами. Он получается путем объединения информации, которая передается через несколько модальностей, с учетом различных типов сотрудничества между несколькими модальностями,^[54] временные отношения^[55] среди задействованных модальностей и отношения между порциями информации, связанными с этими модальностями.^[56]

Естественное отображение между мультимодальным входом, которое обеспечивается несколькими модальностями взаимодействия (визуальный и слуховой канал и осязание), и информацией и задачами, подразумевает управление типичными проблемами человеческого общения, такими как двусмысленность. Неоднозначность возникает, когда возможна более чем одна интерпретация ввода. Мультимодальная неоднозначность^[13] возникает как в том случае, если элемент, который предоставляется одной модальностью, имеет более одной интерпретации (т.е. неоднозначность распространяется на мультимодальном уровне), так и / или если элементы, связанные с каждой модальностью, интерпретируются однозначно, но информация, относящаяся к разным модальности несовместимы на синтаксическом или семантическом уровне (т. е. мультимодальное предложение, имеющее разные значения или другую синтаксическую структуру).

В «Управлении неоднозначностями»,^[15] Методы решения неоднозначностей и обеспечения правильной интерпретации ввода пользователя разделены на три основных класса: методы предотвращения, апостериорного разрешения и аппроксимационного разрешения.^[14]^[16]

Методы предотвращения заставляют пользователей следовать заранее определенному поведению взаимодействия в соответствии с набором переходов между различными разрешенными состояниями процесса взаимодействия. Примеры методов профилактики: процедурный метод,^[57] снижение выразительной силы грамматики языка,^[58] улучшение выразительной силы грамматики языка.^[59]

Апостериорное разрешение неоднозначностей использует подход посредничества.^[17] Примеры методов медиации: повторение, например повторение по модальности,^[17] детализация ремонта^[60] и отменить,^[18] и выбор.^[19]

Методы разрешения аппроксимации не требуют участия пользователя в процессе разрешения неоднозначности. Все они могут потребовать использования некоторых теорий, например нечеткая логика, Марковское случайное поле, Байесовские сети и скрытые марковские модели.^[14]^[16]

Смотрите также

Независимость от устройства
Мультимодальная биометрическая система
Мультимодальный поиск
Распознавание речи
Мультимодальное взаимодействие W3C - инициатива от W3C стремясь предоставить средства (в основном XML ) для поддержки сценариев мультимодального взаимодействия в Интернете.
Веб-доступность
Проводная перчатка
XHTML + голос

внешняя ссылка

W3C Мультимодальное взаимодействие
XHTML + голосовой профиль 1.0, Примечание W3C от 21 декабря 2001 г.
Хост, Лоде, Дюма, Бруно и Сигнер, Бит: Мудра: единая структура мультимодального взаимодействия, В материалах 13-й Международной конференции по мультимодальному взаимодействию (ICMI 2011), Аликанте, Испания, ноябрь 2011 г.
Тоселли, Алехандро Эктор, Видаль, Энрике, Казакуберта, Франсиско: Мультимодальное интерактивное распознавание образов и приложения, Springer, 2011.

[1] Mittal et al. (2011). "Универсальные системы ответов на вопросы: видение в синтезе ", Международный журнал интеллектуальных информационных систем баз данных, 5 (2), 119-142.

[2] Бурге, М. (2003). "Проектирование и прототипирование мультимодальных команд ". Proceedings of Human-Computer Interaction (INTERACT'03), pp. 717-720.

[3] Стиверс, Т., Сиднелл, Дж. Введение: мультимодальное взаимодействие. Семиотика, 156 (1/4), стр. 1-20. 2005 г.

[Caschera1-4] а ^б Кашера М. К., Ферри Ф., Грифони П. (2007). "Мультимодальные системы взаимодействия: информационные и временные особенности ". Международный журнал веб-сервисов и сетевых служб (IJWGS), Том 3 - Выпуск 1, стр 82-99.

[Dulizia2-5] а ^б Д'Улизия, А., Ферри, Ф. и Грифони, П. (2010). «Генерация мультимодальных грамматик для мультимодальной обработки диалогов». IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, Vol 40, No. 6, pp. 1130 - 1145.

[Dulizia1-6] а ^б Д'Улиция, А. (2009). "Изучение стратегий объединения мультимодальных входов ". In: Grifoni P (ed) Handbook of Research on Multimodal Human-Computer Interactive and Pervasive Services: Evolution Techniques for Improvement Accessibility. IGI Publishing, pp. 34-57.

[Sun-7] а ^б ^c Сун, Ю., Ши, Ю., Чен, Ф. и Чунг, В. (2007). «Эффективный мультимодальный языковой процессор для параллельных входных строк в мультимодальном слиянии входных данных», в Proc. международной конференции по семантическим вычислениям, стр. 389-396.

[Russ-8] а ^б ^c Расс, Г., Салланс, Б., Харетер, Х. (2005). "Семантическое объединение информации в мультимодальном интерфейсе ". Международная конференция по взаимодействию человека и компьютера (HCI'05), Лас-Вегас, Невада, США, 20–23 июня, стр. 94–100.

[Corradini-9] а ^б ^c Коррадини А., Мехта М., Бернсен Н.О., Мартин Ж.-К. (2003). «Мультимодальный ввод данных во взаимодействии человека и компьютера на примере текущего проекта NICE». В материалах конференции NATO-ASI по объединению данных для мониторинга ситуации, обнаружения инцидентов, оповещения и реагирования, Ереван, Армения.

[Pavlovic-10] а ^б ^c Павлович В.И., Берри Г.А., Хуанг Т.С. (1997). "Интеграция аудио / визуальной информации для использования в интеллектуальном взаимодействии человека с компьютером ". Труды Международной конференции по обработке изображений 1997 г. (ICIP '97), том 1, стр. 121-124.

[Andre-11] а ^б ^c Андре М., Попеску В.Г., Шейх А., Медл А., Марсич И., Куликовски К., Фланаган Дж. Л. (1998). "Интеграция речи и жестов для мультимодального взаимодействия человека и компьютера ". На Второй Международной конференции по совместным мультимодальным коммуникациям. 28–30 января, Тилбург, Нидерланды.

[Vo-12] а ^б ^c Во, М.Т., Вуд, К. (1996). "Создание инфраструктуры приложения для интеграции речи и перьевого ввода в интерфейсы мультимодального обучения ". In Proceedings of the Acoustics, Speech and Signal Processing (ICASSP'96), 7–10 мая, IEEE Computer Society, Volume 06, pp. 3545-3548.

[Caschera5-13] а ^б Caschera, M.C. , Ферри, Ф., Грифони, П. (2013). "От модальных неоднозначностей к мультимодальным: подход к классификации ", Журнал информационных технологий следующего поколения (JNIT), том 4, № 5, стр. 87-109.

[Caschera2-14] а ^б ^c Caschera, M.C. , Ферри, Ф., Грифони, П. (2013). InteSe: интегрированная модель для разрешения неоднозначности в мультимодальных предложениях ». IEEE Transactions on Systems, Man, and Cybernetics: Systems, Volume: 43, Issue: 4, pp. 911 - 931.18. Спилкер, Дж., Кларнер, М., Гёрц , G. (2000). "Обработка самокоррекций в системе преобразования речи в речь". COLING 2000. pp. 1116-1120.

[Caschera3-15] а ^б Кашера М.К., Ферри Ф., Грифони П. (2007). «Управление неоднозначностями». В визуальных языках для интерактивных вычислений: определения и формализации. Издательство IGI. С. 129-140.

[Chai-16] а ^б ^c J. Chai, P. Hong, and M. X. Zhou, (2004). «Вероятностный подход к разрешению эталонов в мультимодальном пользовательском интерфейсе» в Proc. 9-й Int. Конф. Intell. User Interf., Мадейра, Португалия, январь 2004 г., стр. 70–77.

[Dey-17] а ^б ^c Дей, А. К. Манкофф, Дж. (2005). "Разработка посредника для контекстно-зависимых приложений ". ACM Trans. Comput.-Hum. Interact. 12 (1), стр. 53-80.

[Spilker-18] а ^б Спилкер, Дж., Кларнер, М., Гёрц, Г. (2000). «Обработка самокоррекций в речевой системе». COLING 2000. С. 1116-1120.

[Mank-19] а ^б Манкофф, Дж., Хадсон, С.Э., Абоуд, Г.Д. (2000). "Обеспечение интегрированной поддержки на уровне набора инструментов для неоднозначности интерфейсов на основе распознавания ". Материалы конференции ACM CHI'00 по человеческому фактору в вычислительных системах. С. 368 - 375.

[20] Грифони П. (2009) Мультимодальное деление. В: Мультимодальное взаимодействие человека с компьютером и повсеместные услуги. IGI Global, стр 103–120

[21] Патриция Грифони, Фернандо Ферри, Мария Кьяра Кашера, Арианна Д'Улизия, Мауро Маццеи, «MIS: мультимодальные услуги взаимодействия в облачной перспективе», JNIT: Journal of Next Generation Information Technology, Vol. 5, No. 4, pp. 01–10, 2014 г.

[22] Кеттебеков, Саншзар и Раджив Шарма (2001). "К естественному управлению жестами / речью на большом дисплее. "ProceedingsEHCI '01 Труды 8-й Международной конференции IFIP по проектированию взаимодействия человека и компьютера Страницы 221-234

[23] Мариус Вассилиу, В. Сундаресваран, С. Чен, Р. Берингер, К. Там, М. Чан, П. Бангаян и Дж. МакГи (2000), «Интегрированный мультимодальный человеко-компьютерный интерфейс и дополненная реальность для приложений интерактивного дисплея. "в Даррела Г. Хоппера (ред.) Дисплеи кабины VII: Дисплеи для оборонных приложений (Proc. SPIE. 4022), 106-115. ISBN 0-8194-3648-8

[24] Vitense, H.S .; Jacko, J.A .; Эмери, В. (2002). «Мультимодальная обратная связь: установление базовых показателей для улучшения доступа лиц с нарушениями зрения». ACM Conf. по вспомогательным технологиям.

[25] Солеймани, Мохаммад; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьёрн; Чанг, Ши-Фу; Пантик, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений». Вычисления изображений и зрения. 65: 3–14. Дои:10.1016 / j.imavis.2017.08.003.

[26] Каррей, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нур, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF). Международный журнал по интеллектуальному зондированию и интеллектуальным системам. 1: 137–159. Дои:10.21307 / ijssis-2017-283.

[Multimodal_sentiment_analysis_s1-27] а ^б Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хуссейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от одномодального анализа к мультимодальному слиянию». Информационное слияние. 37: 98–125. Дои:10.1016 / j.inffus.2017.02.003. HDL:1893/25490.

[Multimodal_sentiment_analysis_s5-28] "Google AI, чтобы звонить за вас". Новости BBC. 8 мая 2018. Получено 12 июн 2018.

[Multimodal_sentiment_analysis_s4-29] Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьорн; Вс, конгкай; Сагаэ, Кендзи; Моренси, Луи-Филипп (май 2013 г.). "Обзоры фильмов YouTube: анализ настроений в аудиовизуальном контексте". Интеллектуальные системы IEEE. 28 (3): 46–53. Дои:10.1109 / MIS.2013.34. S2CID 12789201.

[30] Pereira, Moisés H.R .; Pádua, Flávio L.C .; Pereira, Adriano C.M .; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv:1604.02612 [cs.CL ].

[Multimodal_sentiment_analysis_s6-31] Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). Анализ настроений и аффективные вычисления для мониторинга депрессии. Международная конференция IEEE по биоинформатике и биомедицине (BIBM), 2017 г.. IEEE. С. 1988–1995. Дои:10.1109 / bibm.2017.8217966. ISBN 978-1-5090-3050-7. S2CID 24408937.

[32] Панг, Бо; Ли, Лилиан (2008). Извлечение мнений и анализ настроений. Ганновер, Массачусетс: Теперь издатели. ISBN 978-1601981509.

[Multimodal_sentiment_analysis_s7-33] Сунь, Шилян; Ло, Чен; Чен, Джунью (июль 2017 г.) «Обзор методов обработки естественного языка для систем интеллектуального анализа». Информационное слияние. 36: 10–25. Дои:10.1016 / j.inffus.2016.10.004.

[34] Oviatt, S. (2002), «Мультимодальные интерфейсы», в Jacko, J .; Sears, A (ред.), Справочник по взаимодействию человека и компьютера (PDF), Лоуренс Эрлбаум

[35] Bauckhage, C .; Fritsch, J .; Rohlfing, K.J .; Wachsmuth, S .; Сейджерер, Г. (2002). «Оценка комплексного понимания речи и изображений». Int. Конф. по мультимодальным интерфейсам. Дои:10.1109 / ICMI.2002.1166961.

[36] Ismail, N.A .; О'Брайен, Э.А. (2008). «Включение мультимодального взаимодействия при просмотре персональных цифровых фотографий через Интернет» (PDF). Int. Конф. по компьютерной и коммуникационной технике. Архивировано из оригинал (PDF) на 2011-07-18. Получено 2010-03-03.

[sarter-37] а ^б ^c Сартер, Н. (2006). «Мультимодальное представление информации: рекомендации по проектированию и исследовательские задачи». Международный журнал промышленной эргономики. 36 (5): 439–445. Дои:10.1016 / j.ergon.2006.01.007.

[38] Гелдар, Ф.А. (1957). «Приключения тактильной грамотности». Американский психолог. 12 (3): 115–124. Дои:10,1037 / ч0040416.

[39] Брукс, А .; Петерссон, Э. (2007). «SoundScapes: возможности неформального обучения с помощью интерактивных виртуальных школ». СИГГРАФ. Дои:10.1145/1282040.1282059.

[Vo2-40] а ^б Во, М. (1998). "Структура и инструментарий для создания интерфейсов мультимодального обучения ", Докторская диссертация, Университет Карнеги-Меллона, Питтсбург, США.

[Cohen-41] а ^б Cohen, P.R .; Johnston, M .; McGee, D .; Oviatt, S.L .; Pittman, J .; Smith, I.A .; Chen, L .; Клоу, Дж. (1997). «Quickset: мультимодальное взаимодействие для распределенных приложений», ACM Multimedia, стр. 31-40.

[Johnston1-42] Джонстон, М. (1998). "Мультимодальный анализ на основе унификации ". Материалы 36-го ежегодного собрания Ассоциации компьютерной лингвистики и 17-й Международной конференции по компьютерной лингвистике (COLING-ACL '98), 10–14 августа, Монреальский университет, Монреаль, Квебек, Канада. Стр. 624-630.

[Nigay1-43] а ^б Nigay, L .; Коутаз, Дж. (1995). "Общая платформа для решения проблемы мультимодальных перевозок ". Материалы конференции по человеческому фактору в вычислительных системах, ACM Press.

[Bouchet1-44] а ^б Bouchet, J .; Nigay, L .; Ганилл, Т. (2004). "Программные компоненты Icare для быстроразвивающихся мультимодальных интерфейсов ". ICMI '04: Материалы 6-й международной конференции по мультимодальным интерфейсам (Нью-Йорк, Нью-Йорк, США), ACM, стр. 251-258.

[Dulizia3-45] а ^б D'Ulizia, A .; Ferri, F .; Грифони П. (2007). "Гибридный подход к спецификации мультимодальных языков на основе грамматики ", Протоколы семинаров OTM 2007, 25–30 ноября 2007 г., Виламура, Португалия, Springer-Verlag, Lecture Notes in Computer Science 4805, pp. 367-376.

[Johnston2-46] а ^б ^c Johnston, M .; Бангалор, С. (2000). "Конечный мультимодальный анализ и понимание ", В материалах Международной конференции по компьютерной лингвистике, Саарбрюккен, Германия.

[Sun2-47] а ^б Sun, Y .; Chen, F .; Shi, Y.D .; Чанг, В. (2006). "Новый метод слияния мультисенсорных данных при мультимодальном взаимодействии человека с компьютером ".В материалах 20-й конференции группы специальных интересов по взаимодействию компьютера и человека (CHISIG) Австралии по взаимодействию компьютера и человека: дизайн: действия, артефакты и окружающая среда, Сидней, Австралия, стр. 401-404

[Shimazu-48] а ^б Shimazu, H .; Такашима Ю. (1995). «Мультимодальная грамматика с определенными предложениями», «Системы и компьютеры в Японии», вып. 26, № 3, с. 93-102.

[Johnston3-49] а ^б Johnston, M .; Бангалор, С. (2005). "Мультимодальная интеграция и понимание с конечным числом состояний, "Nat. Lang. Eng, Vol. 11, No. 2, pp. 159-187".

[Reitter-50] а ^б Reitter, D .; Panttaja, E.M .; Камминс, Ф. (2004). «Пользовательский интерфейс на лету: создание мультимодального пользовательского интерфейса» в Proc. HLT-NAACL-2004, Бостон, Массачусетс, США.

[:0-51] а ^б Гуань, Лин. «Методы и методы объединения мультимодальной информации» (PDF). Общество схем и систем.

[52] D'Ulizia, A .; Ferri, F .; Грифони П. (2011). «Алгоритм обучения для мультимодального вывода грамматики», IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, Vol. 41 (6), с. 1495 - 1510.

[53] Pérez, G .; Amores, G .; Манчон, П. (2005). «Две стратегии мультимодального слияния». In Proceedings of Multimodal Interaction for the Visualization and Exploration of Scientific Data, Trento, Italy, 26–32.

[54] Мартин, Дж. К. (1997). «К интеллектуальному сотрудничеству между модальностями: пример системы, обеспечивающей мультимодальное взаимодействие с картой», Труды Международной совместной конференции по искусственному интеллекту (IJCAI'97), семинар «Интеллектуальные мультимодальные системы», Нагоя, Япония

[55] Allen, J.F .; Фергюсон, Г. (1994). «Действия и события в интервальной временной логике», Journal of Logic and Computing, Vol. 4, No. 5, pp.531–579

[56] Беллик, Ю. (2001). "Технические требования для успешного мультимодального взаимодействия ", Международный семинар по представлению информации и естественному мультимодальному диалогу, Верона, Италия, 14–15 декабря.

[57] Lee, Y.C .; Чин, Ф. (1995). «Иконический язык запросов для топологических отношений в ГИС». Международный журнал географических информационных систем 9 (1). стр. 25-46

[58] Calcinelli, D .; Mainguenaud, М. (1994). «Cigales, визуальный язык для геоинформационной системы: пользовательский интерфейс». Журнал визуальных языков и вычислений 5 (2). стр.113-132

[59] Ferri, F .; Рафанелли, М. (2005). "GeoPQL: географический графический язык запросов, устраняющий двусмысленность при интерпретации запросов ". J. Data Semantics III. Pp.50-80

[60] Сухм Б., Майерс Б. и Вайбель А. (1999). "Модельная и эмпирическая оценка мультимодального интерактивного исправления ошибок ". In Proc. Of CHI'99, May, 1999, pp. 584-591.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]