Передаточная функция головы - Head-related transfer function

Эффект фильтрации HRTF

А передаточная функция, относящаяся к голове (HRTF), также иногда называемый анатомическая передаточная функция (ATF)[нужна цитата ], это ответ, который характеризует, как ухо получает звук из точки в пространстве. Когда звук поражает слушателя, размер и форма головы, ушей, слухового прохода, плотность головы, размер и форма носовых и ротовых полостей - все это преобразует звук и влияет на его восприятие, повышая одни частоты и ослабляя другие. . Вообще говоря, HRTF повышает частоты с 2–5 кГц с первичным резонансом +17 дБ на 2700 Гц. Но кривая отклика более сложна, чем одиночный выступ, влияет на широкий частотный спектр и значительно варьируется от человека к человеку.

Пара HRTF для двух ушей может быть использована для синтеза бинауральный звук, который, кажется, исходит из определенной точки пространства. Это функция передачи, описывающий, как звук из определенной точки попадает в ухо (обычно на внешний конец слуховой канал ). Некоторые бытовые продукты для домашних развлечений, предназначенные для воспроизведения объемного звука через стереонаушники (с двумя динамиками), используют HRTF. Некоторые формы HRTF-обработки также были включены в компьютерное программное обеспечение для имитации воспроизведения объемного звука из динамиков.

У людей всего два уши, но может определять местонахождение звуков в трех измерениях - по дальности (расстояние), по направлению вверх и вниз (высота), вперед и назад, а также в любую сторону (азимут). Это возможно, потому что мозг, внутреннее ухо и внешнее ухо (ушная раковина ) работают вместе, чтобы сделать выводы о местоположении. Эта способность локализовать источники звука могла развиться у людей и предков как эволюционная необходимость, поскольку глаза могут видеть только часть мира вокруг зрителя, а зрение затруднено в темноте, в то время как способность локализовать источник звука работает в во всех направлениях с различной точностью,[1] независимо от окружающего освещения.

Люди оценивают местонахождение источника по сигналам одного уха (монофонические реплики) и сравнивая сигналы, полученные обоими ушами (отличительные признаки или бинауральные реплики). Среди сигналов различия - разница во времени прибытия и разница в интенсивности. Монауральные сигналы возникают в результате взаимодействия между источником звука и анатомией человека, при котором исходный исходный звук модифицируется, прежде чем он попадет в слуховой проход для обработки слуховой системой. Эти модификации кодируют исходное местоположение и могут быть захвачены через импульсивный ответ который связывает расположение источника и расположение уха. Этот импульсный отклик называется импульсная характеристика головы (HRIR). Свертка произвольного источника звука с помощью HRIR преобразует звук в звук, который слушатель мог бы услышать, если бы он воспроизводился в месте источника, а ухо слушателя находилось в месте приема. HRIR использовались для создания виртуального объемного звука.[2][3][пример необходим ]

HRTF - это преобразование Фурье HRIR.

HRTF для левого и правого уха (выраженные выше как HRIR) описывают фильтрацию источника звука (Икс(т)) до того, как это будет восприниматься левым и правым ухом как ИксL(т) и Икср(т) соответственно.

HRTF также можно описать как модификации звук со стороны свободного воздуха к звуку, когда он достигает барабанная перепонка. Эти изменения включают форму внешнего уха слушателя, форму головы и тела слушателя, акустические характеристики пространства, в котором воспроизводится звук, и так далее. Все эти характеристики будут влиять на то, как (и сможет ли) слушатель точно определить, откуда исходит звук.

В стандарте AES69-2015[4] то Аудио инженерное общество (AES) определил формат файла SOFA для хранения пространственно ориентированных акустических данных, таких как передаточные функции, связанные с головой (HRTF). Библиотеки и файлы программного обеспечения SOFA собраны на сайте Sofa Conventions.[5]

Как работает HRTF

Связанный механизм варьируется у разных людей, поскольку их голова и формы ушей различаются.

HRTF описывает, как данная входная звуковая волна (параметризованная как частота и местоположение источника) фильтруется дифракция и отражение свойства голова, ушная раковина, и торс, прежде чем звук достигнет трансдукция аппарат барабанной перепонки и внутреннего уха (см. слуховая система ). С биологической точки зрения, эффекты предварительной фильтрации этих внешних структур в зависимости от местоположения источника помогают в нейронное определение местоположения источника, в частности определение источника высота (увидеть вертикальная локализация звука ).[6]

Техническое происхождение

Пример АЧХ ушей:
  • зеленая кривая: левое ухо ИксL(ж)
  • синяя кривая: Правое ухо Икср(ж)
для источника звука снизу вверх.
Пример того, как происходит ЦГПЧ наклон с азимутом взят из точки отсчета

Анализ линейных систем определяет функция передачи как комплексное соотношение между спектром выходного сигнала и спектром входного сигнала как функция частоты. Blauert (1974; цитируется по Blauert, 1981) первоначально определил передаточную функцию как передаточную функцию в свободном поле (FFTF). Другие условия включают свободное поле для барабанная перепонка передаточная функция и преобразование давления из свободного поля в барабанную перепонку. Менее конкретные описания включают передаточную функцию ушной раковины, внешний ухо передаточная функция, реакция ушной раковины или направленная передаточная функция (DTF).

Передаточная функция ЧАС(ж) любой линейной инвариантная во времени система с частотой ж является:

ЧАС(ж) = Выход (ж) / Ввод (ж)

Таким образом, один метод, используемый для получения HRTF из заданного местоположения источника, заключается в измерении импульсной характеристики, связанной с головой (HRIR), час(т), на барабанной перепонке для импульса Δ(т) размещен у источника. HRTF ЧАС(ж) это преобразование Фурье HRIR час(т).

Даже при измерении для "манекена" идеализированной геометрии HRTF являются сложными функциями частота и три пространственные переменные. Однако для расстояний более 1 м от головы HRTF ослабляется обратно пропорционально дальности. Это это дальнее поле HRTF, ЧАС(ж, θ, φ), который чаще всего измерялся. На более близком расстоянии разница в уровнях, наблюдаемая между ушами, может стать довольно большой, даже в низкочастотной области, в пределах которой наблюдаются незначительные различия в уровнях в дальней зоне.

HRTF обычно измеряются в безэховая камера минимизировать влияние ранних отражений и реверберация на размеренный отклик. HRTF измеряются с небольшим шагом θ например, 15 ° или 30 ° в горизонтальной плоскости, с интерполяция используется для синтеза HRTFs для произвольных позиций θ. Однако даже с небольшими приращениями интерполяция может привести к путанице спереди и сзади, и оптимизация процедуры интерполяции является активной областью исследований.

Чтобы максимизировать сигнал-шум (SNR) в измеренном HRTF, важно, чтобы генерируемый импульс был большой громкости. На практике, однако, может быть сложно генерировать импульсы с большой громкостью, и в случае их генерации они могут повредить человеческий слух, поэтому чаще всего HRTF рассчитываются непосредственно в частотная область с использованием частотной развертки синусоидальная волна или используя последовательности максимальной длины. Тем не менее, усталость пользователя по-прежнему является проблемой, что подчеркивает необходимость возможности интерполировать на основе меньшего количества измерений.

Передаточная функция, относящаяся к голове, участвует в разрешении Конус замешательства, серия точек, где ITD и ILD идентичны для источников звука из многих мест вокруг «0» части конуса. Когда звук принимается ухом, он может либо идти прямо вниз в ушной канал, либо отражаться от него. ушные раковины из уха в слуховой проход через долю секунды. Звук будет содержать много частот, поэтому многие копии этого сигнала будут проходить вниз по уху в разное время в зависимости от их частоты (в зависимости от отражения, дифракции и их взаимодействия с высокими и низкими частотами, а также от размера структур звука). ухо.) Эти копии накладываются друг на друга, и во время этого некоторые сигналы усиливаются (где фазы сигналов совпадают), в то время как другие копии отменяются (когда фазы сигнала не совпадают). По сути, мозг ищет частотные отметки в сигнале, соответствующие определенным известным направлениям звука.[нужна цитата ]

Если бы уши другого человека были заменены, человек не смог бы сразу локализовать звук, так как модели усиления и подавления будут отличаться от тех моделей, к которым привыкла слуховая система человека. Однако через несколько недель слуховая система адаптировалась к новой передаточной функции головы.[7] Межпредметная изменчивость спектров HRTF изучалась с помощью кластерного анализа.[8]

Оценивая вариации через изменения в ухе человека, мы можем ограничить нашу перспективу степенями свободы головы и ее соотношением с пространственной областью. Благодаря этому мы устраняем наклон и другие параметры координат, которые добавляют сложности. В целях калибровки нас интересует только уровень направления к нашим ушам, т.е. определенная степень свободы. Вот некоторые из способов, которыми мы можем вывести выражение для калибровки HRTF:

  1. Локализация звука в виртуальном слуховом пространстве[9]
  2. HRTF Фазовый синтез[10]
  3. HRTF Magnitude синтез[11]

Локализация звука в виртуальном слуховом пространстве[9]

Основное предположение при создании виртуального слухового пространства состоит в том, что если акустические колебания, присутствующие в барабанных перепонках слушателя, в наушниках такие же, как и в свободном поле, то опыт слушателя также должен быть таким же.

Обычно звуки, издаваемые наушниками, воспринимаются как исходящие изнутри головы. В виртуальном слуховом пространстве наушники должны иметь возможность «экстернализировать» звук. Используя HRTF, звуки можно пространственно позиционировать, используя технику, описанную ниже.

Позволять Икс1(т) представляют собой электрический сигнал, управляющий громкоговорителем, и у1(т) представляют собой сигнал, полученный микрофоном внутри барабанной перепонки слушателя. Аналогично пусть Икс2(т) представляют собой электрический сигнал, управляющий наушниками, и у2(т) представляют ответ микрофона на сигнал. Цель виртуального слухового пространства - выбрать Икс2(т) такие, что у2(т) = у1(т). Применяя преобразование Фурье к этим сигналам, мы получаем следующие два уравнения:

Y1 = Икс1LFM и
Y2 = Икс2HM,

где L - передаточная функция громкоговорителя в свободном поле, F это HRTF, M - передаточная функция микрофона, и ЧАС - это функция передачи сигнала от наушников к барабанной перепонке. Настройка Y1 = Y2, и решение для Икс2 дает

Икс2 = Икс1НЧ / В.

По наблюдениям, желаемая передаточная функция равна

Т= LF/ЧАС.

Следовательно, теоретически, если Икс1(т) пропускается через этот фильтр, и в результате Икс2(т) воспроизводится в наушниках, он должен давать такой же сигнал на барабанной перепонке. Поскольку фильтр применяется только к одному уху, другой должен быть получен для другого уха. Этот процесс повторяется во многих местах виртуальной среды, чтобы создать массив передаточных функций, связанных с головкой, для каждой позиции, которую необходимо воссоздать, при этом гарантируя, что условия выборки устанавливаются Критерии Найквиста.

Фазовый синтез HRTF[10]

В очень низкой части полосы частот менее надежная оценка фазы, а в верхних частотах на фазовую характеристику влияют особенности ушной раковины. Более ранние исследования также показывают, что фазовая характеристика HRTF в основном линейна и что слушатели нечувствительны к деталям межурального фазового спектра, пока сохраняется межуральная временная задержка (ITD) объединенной низкочастотной части формы волны. Это смоделированная фазовая характеристика HRTF объекта в виде временной задержки, зависящая от направления и высоты.

Коэффициент масштабирования зависит от антропометрических характеристик. Например, обучающий набор из N субъектов будет рассматривать каждую фазу HRTF и описывать один масштабный коэффициент ITD как среднюю задержку группы. Этот вычисленный коэффициент масштабирования может оценить временную задержку как функцию направления и высоты для любого конкретного человека. Преобразование временной задержки в фазовую характеристику для левого и правого уха тривиально.

Фазу HRTF можно описать как ITD коэффициент масштабирования. Это, в свою очередь, количественно оценивается антропометрическими данными данного человека, взятыми за основу. Для общего случая мы рассматриваем β как разреженный вектор

который представляет антропометрические особенности объекта как линейную суперпозицию антропометрических характеристик из данных тренировки (y' = βТ X), а затем применить тот же разреженный вектор непосредственно к вектору масштабирования H. Мы можем записать эту задачу как задачу минимизации для неотрицательного параметра сжатия λ:

Исходя из этого, значение масштабного коэффициента ITD H' оценивается как:

где Масштабные коэффициенты ITD для всех людей в наборе данных сложены в вектор ЧАСрN, поэтому значение ЧАСп соответствует коэффициенту масштабирования n-го человека.

Синтез величины HRTF[11]

Мы решаем указанную выше задачу минимизации, используя Least Оператор абсолютной усадки и выбора (ЛАССО). Мы предполагаем, что HRTF представлены тем же соотношением, что и антропометрические характеристики. Следовательно, как только мы узнаем разреженный вектор β из антропометрических характеристик, мы напрямую применим его к данным тензора HRTF и значениям HRTF H субъекта.' предоставлено:

где HRTF для каждого предмета описываются тензором размера D × K, где D количество направлений HRTF и K - количество интервалов частот. Все ЧАСп,d,k соответствует всем HRTF обучающего набора, укладываются в новый тензор ЧАСрN×D×K, поэтому значение Hп, д, к соответствует k-й частотный бин для d-я HRTF направление п-й человек. Также ЧАС'd,k соответствует k-я частота для каждого d-го направления HRTF синтезированной HRTF.

Технология записи

Записи, обработанные через HRTF, например, в компьютерной игровой среде (см. A3D, EAX и OpenAL ), что приблизительно соответствует HRTF слушателя, можно услышать через стереонаушники или динамики и интерпретировать так, как будто они содержат звуки, исходящие со всех сторон, а не только из двух точек по обе стороны от головы. Воспринимаемая точность результата зависит от того, насколько точно набор данных HRTF соответствует характеристикам собственного уха.

Смотрите также

использованная литература

  1. ^ Дэниел Старч (1908). Периметрия локализации звука. Государственный университет Айовы. п. 35 сл.
  2. ^ Бего, Д. (1994) 3D-звук для виртуальной реальности и мультимедиа. AP Professional.
  3. ^ Итак, R.H.Y., Leung, N.M., Braasch, J. и Leung, K.L. (2006) Недорогая неиндивидуализированная система объемного звучания, основанная на передаточных функциях головы. Исследование эргономики и разработка прототипа. Прикладная эргономика, 37, стр. 695–707.
  4. ^ «Стандарт AES AES69-2015: Стандарт AES для обмена файлами - Формат файлов пространственных акустических данных». www.aes.org. Получено 2016-12-30.
  5. ^ «Веб-сайт компании« Диван-конвент ». Институт акустических исследований, исследовательский институт Австрийской академии наук.
  6. ^ Blauert, J. (1997) Пространственный слух: психофизика локализации звука человека. MIT Press.
  7. ^ Hofman, Paul M .; Ван Рисвик, JG; Ван Опсталь, AJ (сентябрь 1998 г.). «Повторное изучение локализации звука с новыми ушами» (PDF). Природа Неврология. 1 (5): 417–421. Дои:10.1038/1633. PMID  10196533. S2CID  10088534.
  8. ^ Итак, RHY, Ngan, B., Horner, A., Leung, KL, Braasch, J. и Blauert, J. (2010) К ортогональным неиндивидуализированным передаточным функциям головы для прямого и обратного направленного звука: кластерный анализ и экспериментальное исследование. Эргономика, 53 (6), стр. 767-781.
  9. ^ а б Карлайл, S (1996). «Виртуальное слуховое пространство и приложения». Остин, Техас, Спрингер.
  10. ^ а б Ташев, Иван (2014). «Фазовый синтез HRTF через разреженное представление антропометрических характеристик». Семинар по информационным технологиям и приложениям, Сан-Диего, Калифорния, США, доклад конференции: 1–5. Дои:10.1109 / ITA.2014.6804239. ISBN  978-1-4799-3589-5. S2CID  13232557.
  11. ^ а б Билинский, Петр; Аренс, Йенс; Томас, Марк Р.П .; Ташев, Иван; Платт, Джон C (2014). «Синтез величины HRTF через разреженное представление антропометрических характеристик» (PDF). IEEE ICASSP, Флоренция, Италия: 4468–4472. Дои:10.1109 / ICASSP.2014.6854447. ISBN  978-1-4799-2893-4. S2CID  5619011.

внешние ссылки