Компьютерное прослушивание - Википедия - Computer audition

Компьютерное прослушивание (CA) или машинное прослушивание это общая область изучения алгоритмы и системы для понимания звука машиной.^[1]^[2] Поскольку понятие «слышать» для машины очень широко и несколько расплывчато, компьютерное прослушивание пытается объединить несколько дисциплин, которые изначально имели дело с конкретными проблемами или имели конкретное применение. Инженер Пэрис Смарагдис, опрошенные в Обзор технологий, говорит об этих системах - «программное обеспечение, которое использует звук, чтобы определять местонахождение людей, движущихся по комнатам, контролировать оборудование на предмет надвигающихся поломок или активировать дорожные камеры для записи происшествий».^[3]

Вдохновленный моделями человеческое прослушивание, CA занимается вопросами представительства, трансдукция, группировка, использование музыкальных знаний и общего звука семантика с целью выполнения компьютером интеллектуальных операций со звуковыми и музыкальными сигналами. Технически это требует комбинации методов из полей обработка сигналов, слуховое моделирование, музыкальное восприятие и познание, распознавание образов, и машинное обучение, а также более традиционные методы искусственный интеллект для представления музыкальных знаний.

Приложения

Нравиться компьютерное зрение По сравнению с обработкой изображений, компьютерное прослушивание и звуковая инженерия имеют дело с пониманием звука, а не с обработкой. Это также отличается от проблем понимание речи машиной поскольку он имеет дело с общими звуковыми сигналами, такими как естественные звуки и музыкальные записи.

Приложения компьютерного прослушивания широко варьируются и включают: искать звуки, жанр признание, акустический мониторинг, транскрипция музыки, оценка после, звуковая текстура, музыкальная импровизация, эмоции в аудио и так далее.

Связанные дисциплины

Компьютерное прослушивание пересекается со следующими дисциплинами:

Поиск музыкальной информации: методы поиска и анализа сходства музыкальных сигналов.
Анализ слуховой сцены: понимание и описание источников звука и событий.
Машинное прослушивание: методы извлечения значимых звуковых параметров из звуковых сигналов.
Вычислительная музыковедение и математическая теория музыки: использование алгоритмов, которые используют музыкальные знания для анализа музыкальных данных.
Компьютерная музыка: использование компьютеров в творческих музыкальных приложениях.
Машинная музыка: интерактивные музыкальные системы, управляемые прослушиванием.

Направления обучения

Поскольку звуковые сигналы интерпретируются системой ухо-мозг человека, этот сложный механизм восприятия следует каким-то образом смоделировать в программном обеспечении для «машинного прослушивания». Другими словами, чтобы работать наравне с людьми, компьютер должен слышать и понимать аудиоконтент так же, как люди. Точный анализ звука включает несколько областей: электротехника (анализ спектра, фильтрация и преобразование звука); искусственный интеллект (машинное обучение и звуковая классификация);^[4] психоакустика (звуковосприятие); когнитивные науки (нейробиология и искусственный интеллект);^[5] акустика (физика звукоизвлечения); и музыка (гармония, ритм и тембр). Кроме того, преобразования звука, такие как смещение высоты тона, растяжение по времени и фильтрация звуковых объектов, должны быть значимыми с точки зрения восприятия и музыки. Для достижения наилучших результатов эти преобразования требуют перцептивного понимания спектральных моделей, выделения высокоуровневых функций и анализа / синтеза звука. Наконец, для структурирования и кодирования содержимого аудиофайла (звука и метаданных) могут быть полезны эффективные схемы сжатия, которые отбрасывают неслышную информацию в звуке.^[6] Вычислительные модели музыки и восприятия и познания звука могут привести к более значимому представлению, более интуитивному цифровому манипулированию и генерации звука и музыки в музыкальных человеко-машинных интерфейсах.

Изучение CA можно условно разделить на следующие подзадачи:

Представление: сигнальное и символическое. Этот аспект имеет дело с частотно-временными представлениями как с точки зрения нот, так и с точки зрения спектральных моделей, включая воспроизведение паттернов и звуковую текстуру.
Извлечение признаков: звуковые дескрипторы, сегментация, начало, подача и конверт обнаружение цветность, и слуховые представления.
Структуры музыкальных знаний: анализ тональность, ритм, и гармонии.
Сходство звука: методы сравнения звуков, идентификация звука, обнаружение новизны, сегментация и кластеризация.
Моделирование последовательности: сопоставление и выравнивание между сигналами и последовательностями нот.
Разделение источников: методы группировки одновременных звуков, такие как обнаружение нескольких звуков и методы частотно-временной кластеризации.
Слуховое познание: моделирование эмоций, ожидание и знакомство, слуховое удивление и анализ музыкальной структуры.
Мультимодальный анализ: поиск соответствий между текстовыми, визуальными и звуковыми сигналами.

Вопросы представительства

Компьютерное прослушивание имеет дело со звуковыми сигналами, которые могут быть представлены различными способами, от прямого кодирования цифрового звука в двух или более каналах до символьно представленных инструкций синтеза. Аудиосигналы обычно представлены в виде аналог или же цифровой записи. Цифровые записи представляют собой образцы формы акустической волны или параметров сжатие звука алгоритмы. Одним из уникальных свойств музыкальных сигналов является то, что они часто сочетают в себе различные типы представлений, такие как графические партитуры и последовательности действий исполнения, которые кодируются как MIDI файлы.

Поскольку аудиосигналы обычно содержат несколько источников звука, то в отличие от речевых сигналов, которые можно эффективно описать в терминах конкретных моделей (например, модели источника-фильтра), трудно разработать параметрический представление для общего звука. Параметрические звуковые представления обычно используют банки фильтров или же синусоидальный модели для захвата нескольких параметров звука, иногда увеличивая размер представления, чтобы уловить внутреннюю структуру сигнала. Дополнительные типы данных, относящиеся к компьютерному прослушиванию, - это текстовые описания аудиоконтента, такие как аннотации, обзоры и визуальная информация в случае аудиовизуальных записей.

Функции

Описание содержимого общих аудиосигналов обычно требует извлечения функций, которые фиксируют определенные аспекты аудиосигнала. Вообще говоря, можно разделить признаки на сигналы или математические дескрипторы, такие как энергия, описание формы спектра и т. Д., Статистические характеристики, такие как обнаружение изменений или новизны, специальные представления, которые лучше приспособлены к природе музыкальных сигналов или слуховой системе, такие как логарифмический рост чувствительности (пропускная способность ) по частоте или октава инвариантность (цветность).

Поскольку параметрические модели в аудио обычно требуют очень многих параметров, функции используются для обобщения свойств нескольких параметров в более компактном или заметном представлении.

Музыкальные знания

Найти конкретные музыкальные структуры можно, используя музыкальные знания, а также контролируемые и неконтролируемые методы машинного обучения. Примеры этого включают обнаружение тональности в соответствии с распределением частот, которое соответствует образцам появления нот в музыкальных гаммах, распределение времени начала нот для обнаружения структуры ударов, распределение энергии на разных частотах для обнаружения музыкальных аккордов и так далее.

Сходство звука и моделирование последовательности

Сравнение звуков может быть выполнено путем сравнения характеристик со временем или без него. В некоторых случаях общее сходство можно оценить по близким значениям характеристик между двумя звуками. В других случаях, когда важна временная структура, необходимо применять методы динамической деформации времени для «корректировки» акустических событий в различных временных масштабах. Поиск повторов и подобных подпоследовательностей звуковых событий важен для таких задач, как синтез текстур и машинная импровизация.

Разделение источников

Поскольку одной из основных характеристик общего звука является то, что он состоит из нескольких одновременно звучащих источников, таких как несколько музыкальных инструментов, говорящие люди, машинные шумы или вокализация животных, очень желательна способность идентифицировать и разделять отдельные источники. К сожалению, нет методов, которые могут решить эту проблему в крепкий мода. Существующие методы разделения источников иногда полагаются на корреляцию между различными аудиоканалами в многоканальные записи. Способность отделять источники от стереосигналов требует других методов, чем те, которые обычно применяются в связи, где доступно несколько датчиков. Другие методы разделения источников основаны на обучении или кластеризации функций в монофонической записи, например, отслеживании гармонически связанных частей для обнаружения множественного тона.

Слуховое познание

Прослушивание музыки и обычных звуков обычно не является целенаправленной деятельностью. Людям нравится музыка по разным непонятным причинам, которые обычно относят к эмоциональному воздействию музыки из-за создания ожиданий и их реализации или нарушения. Животные обращают внимание на признаки опасности в звуках, которые могут быть как частными, так и общими представлениями об удивительных и неожиданных изменениях. Как правило, это создает ситуацию, когда компьютерное прослушивание не может полагаться исключительно на обнаружение определенных характеристик или звуковых свойств и должно предлагать общие методы адаптации к изменяющейся слуховой среде и мониторинга ее структуры. Он состоит из анализа большего повторения и самоподобие структуры в звуке для обнаружения инноваций, а также способность прогнозировать динамику локальных характеристик.

Мультимодальный анализ

Среди доступных данных для описания музыки есть текстовые представления, такие как заметки, обзоры и критические замечания, которые описывают аудиоконтент словами. В других случаях человеческие реакции, такие как эмоциональные суждения или психофизиологические измерения, могут дать представление о содержании и структуре звука. Computer Audition пытается найти связь между этими различными представлениями, чтобы обеспечить это дополнительное понимание звукового содержания.