Мультимодальный анализ тональности - Википедия - Multimodal sentiment analysis

Мультимодальный анализ тональности это новое измерение[термин павлин ] традиционных текстовых анализ настроений, который выходит за рамки анализа текстов и включает другие модальности такие как аудио и визуальные данные.[1] Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности.[2] При большом количестве социальные медиа данные, доступные в Интернете в различных формах, таких как видео и изображения, обычные текстовые анализ настроений превратилась в более сложные модели мультимодального анализа настроений,[3] которые могут быть применены при разработке виртуальные помощники,[4] анализ обзоров фильмов на YouTube,[5] анализ новостных видеороликов,[6] и распознавание эмоций (иногда известный как эмоция обнаружение), например депрессия мониторинг,[7] среди прочего.

Похож на традиционный анализ настроений, одной из основных задач мультимодального анализа настроений является настроение классификация, которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные.[8] Сложность анализируя текстовые, звуковые и визуальные функции для выполнения такой задачи требуют применения различных методов слияния, таких как уровень функций, уровень принятия решения и гибридное слияние.[3] Эффективность этих техник слияния и классификация алгоритмы применяемые, зависят от типа текстовых, звуковых и визуальных функций, используемых в анализе.[9]

Функции

Разработка функций, который включает в себя выбор функций, которые передаются в машинное обучение алгоритмы, играет ключевую роль в производительности классификации тональности.[9] В мультимодальном анализе тональности используется комбинация различных текстовых, звуковых и визуальных функций.[3]

Текстовые особенности

Подобно обычному текстовому анализ настроений, некоторые из наиболее часто используемых текстовых функций в мультимодальном анализе тональности: униграммы и н-граммы, которые в основном представляют собой последовательность слов в данном текстовом документе.[10] Эти функции применяются с использованием мешок слов или «мешок концепций» представляют собой представления, в которых слова или концепции представлены как векторы в подходящем пространстве.[11][12]

Аудио особенности

Настроения и эмоция характеристики видны в разных фонетический и просодический свойства, содержащиеся в аудиофункциях.[13] Некоторые из наиболее важных звуковых функций, используемых в мультимодальном анализе тональности: мел-частотный кепстр (MFCC), спектральный центроид, спектральный поток, гистограмма ударов, сумма ударов, самая сильная доля, длительность паузы и подача.[3] OpenSMILE[14] и Praat - популярные наборы инструментов с открытым исходным кодом для извлечения таких звуковых функций.[15]

Визуальные особенности

Одно из основных преимуществ анализа видео по сравнению с одним только текстом - это наличие богатых тональных сигналов в визуальных данных.[16] Визуальные особенности включают выражения лица, которые имеют первостепенное значение для улавливания настроений и эмоции, поскольку они являются основным каналом формирования настоящего душевного состояния человека.[3] Конкретно, улыбка, считается одним из наиболее предсказуемых визуальных сигналов в мультимодальном анализе тональности.[11] OpenFace - это набор инструментов для анализа лица с открытым исходным кодом, предназначенный для извлечения и понимания таких визуальных функций.[17]

Техники слияния

В отличие от традиционного текстового анализ настроений Мультимодальный анализ тональности проходит процесс слияния, в котором данные из разных модальностей (текст, аудио или видео) сливаются и анализируются вместе.[3] Существующие подходы к мультимодальному анализу настроений слияние данных могут быть сгруппированы в три основные категории: уровень функций, уровень решения и гибридное слияние, а эффективность классификации тональности зависит от того, какой тип техники слияния используется.[3]

Слияние на уровне функций

Слияние на уровне функций (иногда известное как раннее слияние) объединяет все функции каждого модальность (текст, аудио или изображение) и объединяет их в единый вектор признаков, который в конечном итоге вводится в алгоритм классификации.[18] Одной из трудностей при реализации этого метода является интеграция разнородных функций.[3]

Слияние на уровне решений

Слияние на уровне решений (иногда называемое поздним слиянием), подает данные из каждой модальности (текст, аудио или видео) независимо в свой собственный алгоритм классификации и получает окончательные результаты классификации тональности путем объединения каждого результата в единый вектор решения.[18] Одним из преимуществ этого метода слияния является то, что он устраняет необходимость слияния разнородных данных, и каждый модальность может использовать наиболее подходящий классификация алгоритм.[3]

Гибридный синтез

Гибридное слияние - это комбинация методов слияния на уровне функций и на уровне решений, в которой в процессе классификации используется дополнительная информация от обоих методов.[5] Обычно он включает двухэтапную процедуру, в которой слияние на уровне функций первоначально выполняется между двумя модальностями, а затем слияние на уровне решений применяется в качестве второго шага для слияния первоначальных результатов слияния на уровне функций с оставшимися модальность.[19][20]

Приложения

Подобно текстовому анализу тональности, мультимодальный анализ тональности может применяться при разработке различных форм рекомендательные системы например, при анализе пользовательских видеороликов обзоров фильмов[5] и общие обзоры продуктов,[21] для прогнозирования настроений клиентов и последующего создания рекомендаций по продуктам или услугам.[22] Мультимодальный анализ настроений также играет важную роль в продвижении виртуальные помощники посредством применения обработка естественного языка (НЛП) и машинное обучение техники.[4] В сфере здравоохранения мультимодальный анализ настроений может использоваться для выявления определенных заболеваний, таких как: стресс, беспокойство, или же депрессия.[7] Мультимодальный анализ настроений также может применяться для понимания настроений, содержащихся в новостных видеопрограммах, что считается сложной и сложной областью, поскольку настроения, выражаемые репортерами, обычно менее очевидны или нейтральны.[23]

Рекомендации

  1. ^ Солеймани, Мохаммад; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьёрн; Чанг, Ши-Фу; Пантик, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений». Вычисления изображений и зрения. 65: 3–14. Дои:10.1016 / j.imavis.2017.08.003.
  2. ^ Каррей, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нур, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF). Международный журнал по интеллектуальному зондированию и интеллектуальным системам. 1: 137–159. Дои:10.21307 / ijssis-2017-283.
  3. ^ а б c d е ж грамм час я Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хуссейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от одномодального анализа к мультимодальному слиянию». Информационное слияние. 37: 98–125. Дои:10.1016 / j.inffus.2017.02.003. HDL:1893/25490.
  4. ^ а б "Google AI, чтобы звонить за вас". Новости BBC. 8 мая 2018. Получено 12 июн 2018.
  5. ^ а б c Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьорн; Вс, конгкай; Сагаэ, Кендзи; Моренси, Луи-Филипп (май 2013 г.). "Обзоры фильмов YouTube: анализ настроений в аудиовизуальном контексте". Интеллектуальные системы IEEE. 28 (3): 46–53. Дои:10.1109 / MIS.2013.34. S2CID  12789201.
  6. ^ Pereira, Moisés H.R .; Pádua, Flávio L.C .; Pereira, Adriano C.M .; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv:1604.02612 [cs.CL ].
  7. ^ а б Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). Анализ настроений и аффективные вычисления для мониторинга депрессии. Международная конференция IEEE по биоинформатике и биомедицине (BIBM), 2017 г.. IEEE. С. 1988–1995. Дои:10.1109 / bibm.2017.8217966. ISBN  978-1-5090-3050-7. S2CID  24408937.
  8. ^ Панг, Бо; Ли, Лилиан (2008). Извлечение мнений и анализ настроений. Ганновер, Массачусетс: Теперь издатели. ISBN  978-1601981509.
  9. ^ а б Сунь, Шилян; Ло, Чен; Чен, Джунью (июль 2017 г.). «Обзор методов обработки естественного языка для систем интеллектуального анализа». Информационное слияние. 36: 10–25. Дои:10.1016 / j.inffus.2016.10.004.
  10. ^ Ядоллахи, Али; Шахраки, Амене Голипур; Зайане, Осмар Р. (25 мая 2017 г.). «Текущее состояние анализа тональности текста от мнения до анализа эмоций». Опросы ACM Computing. 50 (2): 1–33. Дои:10.1145/3057270. S2CID  5275807.
  11. ^ а б Перес Росас, Вероника; Михалча, Рада; Моренси, Луи-Филипп (май 2013 г.). «Мультимодальный анализ настроений испанских онлайн-видео». Интеллектуальные системы IEEE. 28 (3): 38–45. Дои:10.1109 / MIS.2013.9. S2CID  1132247.
  12. ^ Пория, Суджанья; Камбрия, Эрик; Хуссейн, Амир; Хуан, Гуан-Бинь (март 2015 г.). «На пути к интеллектуальной структуре мультимодального анализа аффективных данных». Нейронные сети. 63: 104–116. Дои:10.1016 / j.neunet.2014.10.005. HDL:1893/21310. PMID  25523041.
  13. ^ Чун-Сянь Ву; Вэй-Бинь Лян (январь 2011 г.). «Распознавание эмоций аффективной речи на основе нескольких классификаторов с использованием акустико-просодической информации и семантических меток». IEEE Transactions по аффективным вычислениям. 2 (1): 10–21. Дои:10.1109 / T-AFFC.2010.16. S2CID  52853112.
  14. ^ Эйбен, Флориан; Вёлльмер, Мартин; Шуллер, Бьёрн (2009). «OpenEAR - Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом». OpenEAR - Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом - Публикация конференции IEEE. п. 1. Дои:10.1109 / ACII.2009.5349350. ISBN  978-1-4244-4800-5. S2CID  2081569.
  15. ^ Моренси, Луи-Филипп; Михалча, Рада; Доши, Паял (14 ноября 2011 г.). «На пути к мультимодальному анализу сантиментов». На пути к мультимодальному анализу сантиментов: сбор мнений из Интернета. ACM. С. 169–176. Дои:10.1145/2070481.2070509. ISBN  9781450306416. S2CID  1257599.
  16. ^ Пория, Суджанья; Камбрия, Эрик; Хазарика, Деваманью; Маджумдер, Навонил; Заде, Амир; Моренси, Луи-Филипп (2017). «Контекстно-зависимый анализ настроений в пользовательских видео». Труды 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи): 873–883. Дои:10.18653 / v1 / p17-1081.
  17. ^ «OpenFace: набор инструментов для анализа поведения лиц с открытым исходным кодом - публикация конференции IEEE». Дои:10.1109 / WACV.2016.7477553. S2CID  1919851. Цитировать журнал требует | журнал = (помощь)
  18. ^ а б Пория, Суджанья; Камбрия, Эрик; Ховард, Ньютон; Хуанг, Гуан-Бинь; Хуссейн, Амир (январь 2016 г.). «Объединение аудио, визуальных и текстовых подсказок для анализа тональности мультимодального контента». Нейрокомпьютинг. 174: 50–59. Дои:10.1016 / j.neucom.2015.01.095.
  19. ^ Шахла, Шахла; Нагш-Нилчи, Ахмад Реза (2017). «Использование доказательной теории в сочетании текстовых, аудио и визуальных модальностей для аффективного поиска музыкального видео - публикация конференции IEEE». Дои:10.1109 / PRIA.2017.7983051. S2CID  24466718. Цитировать журнал требует | журнал = (помощь)
  20. ^ Пория, Суджанья; Пэн, Хайюнь; Хуссейн, Амир; Ховард, Ньютон; Камбрия, Эрик (октябрь 2017 г.). «Ансамблевое применение сверточных нейронных сетей и обучение с несколькими ядрами для мультимодального анализа настроений». Нейрокомпьютинг. 261: 217–230. Дои:10.1016 / j.neucom.2016.09.117.
  21. ^ Перес-Росас, Вероника; Михалча, Рада; Моренси, Луи Филипп (1 января 2013 г.). «Мультимодальный анализ тональности высказываний». Длинные статьи. Ассоциация компьютерной лингвистики (ACL).
  22. ^ Чуй, Михаил; Маника, Джеймс; Миремади, Мехди; Хенке, Николай; Чанг, Рита; Нел, Питер; Мальхотра, Санкальп. «Заметки из области искусственного интеллекта. Выводы из сотен вариантов использования». McKinsey & Company. McKinsey & Company. Получено 13 июн 2018.
  23. ^ Эллис, Джозеф Дж .; Джоу, Брендан; Чанг, Ши-Фу (12 ноября 2014 г.). «Почему мы смотрим новости». Почему мы смотрим новости: набор данных для изучения настроений в вещательных видеоновостях. ACM. С. 104–111. Дои:10.1145/2663204.2663237. ISBN  9781450328852. S2CID  14112246.