Мультимодальный анализ тональности - Википедия - Multimodal sentiment analysis

Мультимодальный анализ тональности это новое измерение^{[термин павлин ]} традиционных текстовых анализ настроений, который выходит за рамки анализа текстов и включает другие модальности такие как аудио и визуальные данные.^[1] Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности.^[2] При большом количестве социальные медиа данные, доступные в Интернете в различных формах, таких как видео и изображения, обычные текстовые анализ настроений превратилась в более сложные модели мультимодального анализа настроений,^[3] которые могут быть применены при разработке виртуальные помощники,^[4] анализ обзоров фильмов на YouTube,^[5] анализ новостных видеороликов,^[6] и распознавание эмоций (иногда известный как эмоция обнаружение), например депрессия мониторинг,^[7] среди прочего.

Похож на традиционный анализ настроений, одной из основных задач мультимодального анализа настроений является настроение классификация, которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные.^[8] Сложность анализируя текстовые, звуковые и визуальные функции для выполнения такой задачи требуют применения различных методов слияния, таких как уровень функций, уровень принятия решения и гибридное слияние.^[3] Эффективность этих техник слияния и классификация алгоритмы применяемые, зависят от типа текстовых, звуковых и визуальных функций, используемых в анализе.^[9]

Функции

Разработка функций, который включает в себя выбор функций, которые передаются в машинное обучение алгоритмы, играет ключевую роль в производительности классификации тональности.^[9] В мультимодальном анализе тональности используется комбинация различных текстовых, звуковых и визуальных функций.^[3]

Текстовые особенности

Подобно обычному текстовому анализ настроений, некоторые из наиболее часто используемых текстовых функций в мультимодальном анализе тональности: униграммы и н-граммы, которые в основном представляют собой последовательность слов в данном текстовом документе.^[10] Эти функции применяются с использованием мешок слов или «мешок концепций» представляют собой представления, в которых слова или концепции представлены как векторы в подходящем пространстве.^[11]^[12]

Аудио особенности

Настроения и эмоция характеристики видны в разных фонетический и просодический свойства, содержащиеся в аудиофункциях.^[13] Некоторые из наиболее важных звуковых функций, используемых в мультимодальном анализе тональности: мел-частотный кепстр (MFCC), спектральный центроид, спектральный поток, гистограмма ударов, сумма ударов, самая сильная доля, длительность паузы и подача.^[3] OpenSMILE^[14] и Praat - популярные наборы инструментов с открытым исходным кодом для извлечения таких звуковых функций.^[15]

Визуальные особенности

Одно из основных преимуществ анализа видео по сравнению с одним только текстом - это наличие богатых тональных сигналов в визуальных данных.^[16] Визуальные особенности включают выражения лица, которые имеют первостепенное значение для улавливания настроений и эмоции, поскольку они являются основным каналом формирования настоящего душевного состояния человека.^[3] Конкретно, улыбка, считается одним из наиболее предсказуемых визуальных сигналов в мультимодальном анализе тональности.^[11] OpenFace - это набор инструментов для анализа лица с открытым исходным кодом, предназначенный для извлечения и понимания таких визуальных функций.^[17]

Техники слияния

В отличие от традиционного текстового анализ настроений Мультимодальный анализ тональности проходит процесс слияния, в котором данные из разных модальностей (текст, аудио или видео) сливаются и анализируются вместе.^[3] Существующие подходы к мультимодальному анализу настроений слияние данных могут быть сгруппированы в три основные категории: уровень функций, уровень решения и гибридное слияние, а эффективность классификации тональности зависит от того, какой тип техники слияния используется.^[3]

Слияние на уровне функций

Слияние на уровне функций (иногда известное как раннее слияние) объединяет все функции каждого модальность (текст, аудио или изображение) и объединяет их в единый вектор признаков, который в конечном итоге вводится в алгоритм классификации.^[18] Одной из трудностей при реализации этого метода является интеграция разнородных функций.^[3]

Слияние на уровне решений

Слияние на уровне решений (иногда называемое поздним слиянием), подает данные из каждой модальности (текст, аудио или видео) независимо в свой собственный алгоритм классификации и получает окончательные результаты классификации тональности путем объединения каждого результата в единый вектор решения.^[18] Одним из преимуществ этого метода слияния является то, что он устраняет необходимость слияния разнородных данных, и каждый модальность может использовать наиболее подходящий классификация алгоритм.^[3]

Гибридный синтез

Гибридное слияние - это комбинация методов слияния на уровне функций и на уровне решений, в которой в процессе классификации используется дополнительная информация от обоих методов.^[5] Обычно он включает двухэтапную процедуру, в которой слияние на уровне функций первоначально выполняется между двумя модальностями, а затем слияние на уровне решений применяется в качестве второго шага для слияния первоначальных результатов слияния на уровне функций с оставшимися модальность.^[19]^[20]

Приложения

Подобно текстовому анализу тональности, мультимодальный анализ тональности может применяться при разработке различных форм рекомендательные системы например, при анализе пользовательских видеороликов обзоров фильмов^[5] и общие обзоры продуктов,^[21] для прогнозирования настроений клиентов и последующего создания рекомендаций по продуктам или услугам.^[22] Мультимодальный анализ настроений также играет важную роль в продвижении виртуальные помощники посредством применения обработка естественного языка (НЛП) и машинное обучение техники.^[4] В сфере здравоохранения мультимодальный анализ настроений может использоваться для выявления определенных заболеваний, таких как: стресс, беспокойство, или же депрессия.^[7] Мультимодальный анализ настроений также может применяться для понимания настроений, содержащихся в новостных видеопрограммах, что считается сложной и сложной областью, поскольку настроения, выражаемые репортерами, обычно менее очевидны или нейтральны.^[23]

Рекомендации

^ Солеймани, Мохаммад; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьёрн; Чанг, Ши-Фу; Пантик, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений». Вычисления изображений и зрения. 65: 3–14. Дои:10.1016 / j.imavis.2017.08.003.
^ Каррей, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нур, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF). Международный журнал по интеллектуальному зондированию и интеллектуальным системам. 1: 137–159. Дои:10.21307 / ijssis-2017-283.
^ ^а ^б ^c ^d ^е ^ж ^грамм ^час ^я Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хуссейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от одномодального анализа к мультимодальному слиянию». Информационное слияние. 37: 98–125. Дои:10.1016 / j.inffus.2017.02.003. HDL:1893/25490.
^ ^а ^б "Google AI, чтобы звонить за вас". Новости BBC. 8 мая 2018. Получено 12 июн 2018.
^ ^а ^б ^c Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьорн; Вс, конгкай; Сагаэ, Кендзи; Моренси, Луи-Филипп (май 2013 г.). "Обзоры фильмов YouTube: анализ настроений в аудиовизуальном контексте". Интеллектуальные системы IEEE. 28 (3): 46–53. Дои:10.1109 / MIS.2013.34. S2CID 12789201.
^ Pereira, Moisés H.R .; Pádua, Flávio L.C .; Pereira, Adriano C.M .; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv:1604.02612 [cs.CL ].
^ ^а ^б Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). Анализ настроений и аффективные вычисления для мониторинга депрессии. Международная конференция IEEE по биоинформатике и биомедицине (BIBM), 2017 г.. IEEE. С. 1988–1995. Дои:10.1109 / bibm.2017.8217966. ISBN 978-1-5090-3050-7. S2CID 24408937.
^ Панг, Бо; Ли, Лилиан (2008). Извлечение мнений и анализ настроений. Ганновер, Массачусетс: Теперь издатели. ISBN 978-1601981509.
^ ^а ^б Сунь, Шилян; Ло, Чен; Чен, Джунью (июль 2017 г.). «Обзор методов обработки естественного языка для систем интеллектуального анализа». Информационное слияние. 36: 10–25. Дои:10.1016 / j.inffus.2016.10.004.
^ Ядоллахи, Али; Шахраки, Амене Голипур; Зайане, Осмар Р. (25 мая 2017 г.). «Текущее состояние анализа тональности текста от мнения до анализа эмоций». Опросы ACM Computing. 50 (2): 1–33. Дои:10.1145/3057270. S2CID 5275807.
^ ^а ^б Перес Росас, Вероника; Михалча, Рада; Моренси, Луи-Филипп (май 2013 г.). «Мультимодальный анализ настроений испанских онлайн-видео». Интеллектуальные системы IEEE. 28 (3): 38–45. Дои:10.1109 / MIS.2013.9. S2CID 1132247.
^ Пория, Суджанья; Камбрия, Эрик; Хуссейн, Амир; Хуан, Гуан-Бинь (март 2015 г.). «На пути к интеллектуальной структуре мультимодального анализа аффективных данных». Нейронные сети. 63: 104–116. Дои:10.1016 / j.neunet.2014.10.005. HDL:1893/21310. PMID 25523041.
^ Чун-Сянь Ву; Вэй-Бинь Лян (январь 2011 г.). «Распознавание эмоций аффективной речи на основе нескольких классификаторов с использованием акустико-просодической информации и семантических меток». IEEE Transactions по аффективным вычислениям. 2 (1): 10–21. Дои:10.1109 / T-AFFC.2010.16. S2CID 52853112.
^ Эйбен, Флориан; Вёлльмер, Мартин; Шуллер, Бьёрн (2009). «OpenEAR - Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом». OpenEAR - Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом - Публикация конференции IEEE. п. 1. Дои:10.1109 / ACII.2009.5349350. ISBN 978-1-4244-4800-5. S2CID 2081569.
^ Моренси, Луи-Филипп; Михалча, Рада; Доши, Паял (14 ноября 2011 г.). «На пути к мультимодальному анализу сантиментов». На пути к мультимодальному анализу сантиментов: сбор мнений из Интернета. ACM. С. 169–176. Дои:10.1145/2070481.2070509. ISBN 9781450306416. S2CID 1257599.
^ Пория, Суджанья; Камбрия, Эрик; Хазарика, Деваманью; Маджумдер, Навонил; Заде, Амир; Моренси, Луи-Филипп (2017). «Контекстно-зависимый анализ настроений в пользовательских видео». Труды 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи): 873–883. Дои:10.18653 / v1 / p17-1081.
^ «OpenFace: набор инструментов для анализа поведения лиц с открытым исходным кодом - публикация конференции IEEE». Дои:10.1109 / WACV.2016.7477553. S2CID 1919851. Цитировать журнал требует | журнал = (помощь)
^ ^а ^б Пория, Суджанья; Камбрия, Эрик; Ховард, Ньютон; Хуанг, Гуан-Бинь; Хуссейн, Амир (январь 2016 г.). «Объединение аудио, визуальных и текстовых подсказок для анализа тональности мультимодального контента». Нейрокомпьютинг. 174: 50–59. Дои:10.1016 / j.neucom.2015.01.095.
^ Шахла, Шахла; Нагш-Нилчи, Ахмад Реза (2017). «Использование доказательной теории в сочетании текстовых, аудио и визуальных модальностей для аффективного поиска музыкального видео - публикация конференции IEEE». Дои:10.1109 / PRIA.2017.7983051. S2CID 24466718. Цитировать журнал требует | журнал = (помощь)
^ Пория, Суджанья; Пэн, Хайюнь; Хуссейн, Амир; Ховард, Ньютон; Камбрия, Эрик (октябрь 2017 г.). «Ансамблевое применение сверточных нейронных сетей и обучение с несколькими ядрами для мультимодального анализа настроений». Нейрокомпьютинг. 261: 217–230. Дои:10.1016 / j.neucom.2016.09.117.
^ Перес-Росас, Вероника; Михалча, Рада; Моренси, Луи Филипп (1 января 2013 г.). «Мультимодальный анализ тональности высказываний». Длинные статьи. Ассоциация компьютерной лингвистики (ACL).
^ Чуй, Михаил; Маника, Джеймс; Миремади, Мехди; Хенке, Николай; Чанг, Рита; Нел, Питер; Мальхотра, Санкальп. «Заметки из области искусственного интеллекта. Выводы из сотен вариантов использования». McKinsey & Company. McKinsey & Company. Получено 13 июн 2018.
^ Эллис, Джозеф Дж .; Джоу, Брендан; Чанг, Ши-Фу (12 ноября 2014 г.). «Почему мы смотрим новости». Почему мы смотрим новости: набор данных для изучения настроений в вещательных видеоновостях. ACM. С. 104–111. Дои:10.1145/2663204.2663237. ISBN 9781450328852. S2CID 14112246.

[1] Солеймани, Мохаммад; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьёрн; Чанг, Ши-Фу; Пантик, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений». Вычисления изображений и зрения. 65: 3–14. Дои:10.1016 / j.imavis.2017.08.003.

[2] Каррей, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нур, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF). Международный журнал по интеллектуальному зондированию и интеллектуальным системам. 1: 137–159. Дои:10.21307 / ijssis-2017-283.

[s1-3] а ^б ^c ^d ^е ^ж ^грамм ^час ^я Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хуссейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от одномодального анализа к мультимодальному слиянию». Информационное слияние. 37: 98–125. Дои:10.1016 / j.inffus.2017.02.003. HDL:1893/25490.

[s5-4] а ^б "Google AI, чтобы звонить за вас". Новости BBC. 8 мая 2018. Получено 12 июн 2018.

[s4-5] а ^б ^c Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьорн; Вс, конгкай; Сагаэ, Кендзи; Моренси, Луи-Филипп (май 2013 г.). "Обзоры фильмов YouTube: анализ настроений в аудиовизуальном контексте". Интеллектуальные системы IEEE. 28 (3): 46–53. Дои:10.1109 / MIS.2013.34. S2CID 12789201.

[6] Pereira, Moisés H.R .; Pádua, Flávio L.C .; Pereira, Adriano C.M .; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv:1604.02612 [cs.CL ].

[s6-7] а ^б Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). Анализ настроений и аффективные вычисления для мониторинга депрессии. Международная конференция IEEE по биоинформатике и биомедицине (BIBM), 2017 г.. IEEE. С. 1988–1995. Дои:10.1109 / bibm.2017.8217966. ISBN 978-1-5090-3050-7. S2CID 24408937.

[8] Панг, Бо; Ли, Лилиан (2008). Извлечение мнений и анализ настроений. Ганновер, Массачусетс: Теперь издатели. ISBN 978-1601981509.

[s7-9] а ^б Сунь, Шилян; Ло, Чен; Чен, Джунью (июль 2017 г.). «Обзор методов обработки естественного языка для систем интеллектуального анализа». Информационное слияние. 36: 10–25. Дои:10.1016 / j.inffus.2016.10.004.

[10] Ядоллахи, Али; Шахраки, Амене Голипур; Зайане, Осмар Р. (25 мая 2017 г.). «Текущее состояние анализа тональности текста от мнения до анализа эмоций». Опросы ACM Computing. 50 (2): 1–33. Дои:10.1145/3057270. S2CID 5275807.

[s2-11] а ^б Перес Росас, Вероника; Михалча, Рада; Моренси, Луи-Филипп (май 2013 г.). «Мультимодальный анализ настроений испанских онлайн-видео». Интеллектуальные системы IEEE. 28 (3): 38–45. Дои:10.1109 / MIS.2013.9. S2CID 1132247.

[12] Пория, Суджанья; Камбрия, Эрик; Хуссейн, Амир; Хуан, Гуан-Бинь (март 2015 г.). «На пути к интеллектуальной структуре мультимодального анализа аффективных данных». Нейронные сети. 63: 104–116. Дои:10.1016 / j.neunet.2014.10.005. HDL:1893/21310. PMID 25523041.

[13] Чун-Сянь Ву; Вэй-Бинь Лян (январь 2011 г.). «Распознавание эмоций аффективной речи на основе нескольких классификаторов с использованием акустико-просодической информации и семантических меток». IEEE Transactions по аффективным вычислениям. 2 (1): 10–21. Дои:10.1109 / T-AFFC.2010.16. S2CID 52853112.

[14] Эйбен, Флориан; Вёлльмер, Мартин; Шуллер, Бьёрн (2009). «OpenEAR - Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом». OpenEAR - Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом - Публикация конференции IEEE. п. 1. Дои:10.1109 / ACII.2009.5349350. ISBN 978-1-4244-4800-5. S2CID 2081569.

[15] Моренси, Луи-Филипп; Михалча, Рада; Доши, Паял (14 ноября 2011 г.). «На пути к мультимодальному анализу сантиментов». На пути к мультимодальному анализу сантиментов: сбор мнений из Интернета. ACM. С. 169–176. Дои:10.1145/2070481.2070509. ISBN 9781450306416. S2CID 1257599.

[16] Пория, Суджанья; Камбрия, Эрик; Хазарика, Деваманью; Маджумдер, Навонил; Заде, Амир; Моренси, Луи-Филипп (2017). «Контекстно-зависимый анализ настроений в пользовательских видео». Труды 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи): 873–883. Дои:10.18653 / v1 / p17-1081.

[17] «OpenFace: набор инструментов для анализа поведения лиц с открытым исходным кодом - публикация конференции IEEE». Дои:10.1109 / WACV.2016.7477553. S2CID 1919851. Цитировать журнал требует | журнал = (помощь)

[s3-18] а ^б Пория, Суджанья; Камбрия, Эрик; Ховард, Ньютон; Хуанг, Гуан-Бинь; Хуссейн, Амир (январь 2016 г.). «Объединение аудио, визуальных и текстовых подсказок для анализа тональности мультимодального контента». Нейрокомпьютинг. 174: 50–59. Дои:10.1016 / j.neucom.2015.01.095.

[19] Шахла, Шахла; Нагш-Нилчи, Ахмад Реза (2017). «Использование доказательной теории в сочетании текстовых, аудио и визуальных модальностей для аффективного поиска музыкального видео - публикация конференции IEEE». Дои:10.1109 / PRIA.2017.7983051. S2CID 24466718. Цитировать журнал требует | журнал = (помощь)

[20] Пория, Суджанья; Пэн, Хайюнь; Хуссейн, Амир; Ховард, Ньютон; Камбрия, Эрик (октябрь 2017 г.). «Ансамблевое применение сверточных нейронных сетей и обучение с несколькими ядрами для мультимодального анализа настроений». Нейрокомпьютинг. 261: 217–230. Дои:10.1016 / j.neucom.2016.09.117.

[21] Перес-Росас, Вероника; Михалча, Рада; Моренси, Луи Филипп (1 января 2013 г.). «Мультимодальный анализ тональности высказываний». Длинные статьи. Ассоциация компьютерной лингвистики (ACL).

[22] Чуй, Михаил; Маника, Джеймс; Миремади, Мехди; Хенке, Николай; Чанг, Рита; Нел, Питер; Мальхотра, Санкальп. «Заметки из области искусственного интеллекта. Выводы из сотен вариантов использования». McKinsey & Company. McKinsey & Company. Получено 13 июн 2018.

[23] Эллис, Джозеф Дж .; Джоу, Брендан; Чанг, Ши-Фу (12 ноября 2014 г.). «Почему мы смотрим новости». Почему мы смотрим новости: набор данных для изучения настроений в вещательных видеоновостях. ACM. С. 104–111. Дои:10.1145/2663204.2663237. ISBN 9781450328852. S2CID 14112246.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]