Профили гармонических классов высоты тона - Википедия - Harmonic pitch class profiles

Профили классов гармонического шага (HPCP) - это группа функций, которые компьютерная программа извлекает из звуковой сигнал, на основе профиль питч-класса- дескриптор, предложенный в контексте системы распознавания аккордов.[1] HPCP - это улучшенная функция распределения основного тона, представляющая собой последовательности векторов признаков, которые в определенной степени описывают тональность, измеряя относительную интенсивность каждого из 12 классов высоты звука равномерно темперированной гаммы в пределах кадра анализа. Часто двенадцать атрибутов написания высоты тона также называют цветность а функции HPCP тесно связаны с тем, что называется особенности цветности или же хроматограммы.

Обрабатывая музыкальные сигналы, программное обеспечение может определять характеристики HPCP и использовать их для оценки тональности пьесы.[2] для измерения сходства между двумя музыкальными произведениями (идентификация кавер версии),[3] для выполнения поиска аудио на основе содержимого (сопоставление звука),[4]для извлечения музыкальной структуры (анализ звуковой структуры),[5]и классифицировать музыку по композитору, жанру или настроению. Процесс связан с частотно-временной анализ. В целом, характеристики цветности устойчивы к шуму (например, окружающему шуму или перкуссионным звукам), независимо от тембра и инструментовки, а также от громкости и динамики.

HPCP не зависят от настройки и учитывают наличие гармонических частот, поэтому опорная частота может отличаться от стандартной A 440 Гц. Результат вычисления HPCP - независимый от октавы 12, 24 или 36 битов. гистограмма в зависимости от желаемого разрешения, представляющего относительную интенсивность каждой 1, 1/2 или 1/3 из 12 полутоны ровно темперированной гаммы.

Общая процедура извлечения функций HPCP

Рис.1 Общая блок-схема извлечения функций HPCP

Блок-схема процедуры представлена ​​на Рисунок 1[3] и более подробно описано в.[6]

Общая процедура извлечения признаков HPCP резюмируется следующим образом:

  1. Входной музыкальный сигнал.
  2. Делать спектральный анализ для получения частотных составляющих музыкального сигнала.
  3. Использовать преобразование Фурье для преобразования сигнала в спектрограмму. (Преобразование Фурье - это разновидность частотно-временной анализ.)
  4. Делать частотная фильтрация. Используется частотный диапазон от 100 до 5000 Гц.
  5. Делать обнаружение пика. Учитываются только локальные максимальные значения спектра.
  6. Делать вычисление опорной частоты процедура. Оценить отклонение относительно 440 Гц.
  7. Делать Отображение классов высоты тона по отношению к расчетной опорной частоте. Это процедура для определения значения класса основного тона из значений частоты. Используется схема взвешивания с функцией косинуса. Он учитывает наличие гармонических частот (процедура суммирования гармоник) с учетом всего 8 гармоник для каждой частоты. Чтобы отобразить значение на одной трети полутон, размер векторов распределения классов основного тона должен быть равен 36.
  8. Нормализовать функция покадрового деления на максимальное значение для устранения зависимости от общей громкости. И тогда мы можем получить результат последовательности HPCP, как на рисунке 2.
Рис.2 Пример последовательности HPCP высокого разрешения

Система измерения сходства двух песен

Рис.3 Система измерения сходства двух песен

После получения Функция HPCP, известна высота сигнала на временном отрезке. Функция HPCP использовалась для вычисления сходства между двумя песнями во многих исследовательских работах. Система измерения сходства между двумя песнями показана на Рис.3. Первый, частотно-временной анализ необходим для извлечения функции HPCP. А затем установите функцию HPCP для двух песен на глобальную HPCP, так что есть стандарт сравнения. Следующим шагом будет использование этих двух функций для построения двоичная матрица подобия. Алгоритм Смита – Уотермана используется для построения локальной матрицы выравнивания H в Динамическое программирование локального выравнивания. Наконец, после выполнения постобработки можно вычислить расстояние между двумя песнями.

Смотрите также

Рекомендации

  1. ^ Фудзисима, Т. Распознавание аккордов музыкального звука в реальном времени: система, использующая Common Lisp Music, ICMC, Пекин, Китай, 1999 г., стр. 464–467.
  2. ^ Гомес, Э. Эррера, П. (2004). Оценка тональности полифонических аудиофайлов: стратегии моделирования когнитивного и машинного обучения. ISMIR 2004 - 5-я Международная конференция по поиску музыкальной информации.
  3. ^ а б Хоан Серра, Эмилия Гомес, Перфекто Эррера и Ксавье Серра Двоичное подобие цветности и локальное выравнивание, применяемые для идентификации кавер-версии песни Август 2008 г.
  4. ^ Мюллер, Мейнард; Курт, Франк; Клаузен, Майкл (2005). «Согласование звука с помощью статистических функций на основе цветности» (PDF). Материалы Международной конференции по поиску музыкальной информации: 288–295.
  5. ^ Паулюс, Джоуни; Мюллер, Мейнард; Клапури, Ансси (2010). «Анализ музыкальной структуры на основе аудио» (PDF). Материалы Международной конференции по поиску музыкальной информации: 625–636.
  6. ^ Гомес, Э. Тональное описание полифонического звука для обработки музыкального контента. ИНФОРМС Журнал по вычислительной технике. Специальный кластер по музыкальным вычислениям. Чу, Э., приглашенный редактор, 2004.

внешняя ссылка