Перцепционный объективный анализ качества слушания - Perceptual Objective Listening Quality Analysis

Перцепционный объективный анализ качества слушания (POLQA), также известная как Рек. Стр.863[1] - это стандарт ITU-T, который описывает модель для прогнозирования качества речи посредством анализа цифровых речевых сигналов.

Объем измерений

POLQA охватывает модель для прогнозирования качества речи,[2][3] с помощью цифрового анализа речевого сигнала. Прогнозы этих объективных показателей должны быть как можно ближе к субъективным оценкам качества, полученным в ходе субъективных тестов на слух. Обычно прогнозируется средняя оценка мнения (MOS). POLQA использует реальную речь в качестве тестового стимула для оценки телефонных сетей.

Технологические возможности

POLQA является преемником PESQ (Рек. МСЭ-Т P.862). POLQA избегает недостатков текущей модели P.862 и расширен для обработки аудиосигналов с более высокой пропускной способностью. Дальнейшие улучшения нацелены на обработку сигналов времени, называемых сигналами, и сигналами с множеством вариаций задержки. Аналогично P.862,[4] POLQA поддерживает измерения в общей полосе частот телефонии (300–3400 Гц), но, кроме того, имеет второй рабочий режим для оценки HD-Voice в широкополосных и сверхширокополосных речевых сигналах (50–14000 Гц). POLQA также нацелена на оценку речевых сигналов, записанных акустически с помощью искусственной головы с имитаторами рта и уха.

История развития

Деятельность POLQA началась в ITU-T в начале 2006 года под рабочим названием P.OLQA. В середине 2009 года был начат конкурс для оценки нескольких моделей-кандидатов. В мае 2010 года ITU-T выбрал модели-кандидаты от трех компаний: OPTICOM, SwissQual и Rohde & Schwarz компании и TNO (Нидерландская организация прикладных научных исследований), чтобы сформировать будущую Рекомендацию P.863. Этим трем компаниям было предложено объединить свои подходы в единую стандартизированную модель. Результат теперь стандартизирован как POLQA / P.863.[1]

Генеалогия родственных стандартов

Семейство полных эталонных объективных измерений качества голоса ITU-T началось в 1997 году с P.861 (PSQM), которое было заменено P.862 (PESQ).[4] в 2001 г. P.862 был позже дополнен рекомендациями P.862.1[5] (сопоставление оценок PESQ со шкалой MOS), P.862.2[6] (широкополосные измерения) и P.862.3[7] (руководство по применению). С 2011 г. P.863 (POLQA)[1] в силе. Два дополнительных руководства по внедрению P.863 были одобрены 12-й Исследовательской комиссией МСЭ-Т в ноябре 2011 года. В дополнение к перечисленным выше полным эталонным методам в список объективных стандартов измерения качества речи МСЭ-Т также входит P.563.[8] (безреференсный алгоритм).

Типология тестирования

POLQA, аналогичный P.862 PESQ, представляет собой алгоритм Full Reference (FR), который оценивает ухудшенный или обработанный речевой сигнал по отношению к исходному сигналу. Он сравнивает каждую выборку опорного сигнала (говорун сторона) к каждой соответствующей выборке непригодного сигнала (слушатель стороны). Различия в восприятии обоих сигналов оцениваются как различия. Перцепционная психоакустическая модель основана на аналогичных моделях человеческого восприятия, как MP3 или AAC. В основном, сигналы анализируются в частотной области (в критических полосах) после применения функций маскирования. Незамаскированные различия между двумя представлениями сигналов будут считаться искажениями. Наконец, накопленные искажения в речевом файле отображаются по шкале качества от 1 до 5, как обычно для тестов MOS. Измерения FR обеспечивают высочайшую точность и повторяемость, но могут применяться только для специальных тестов в реальных сетях (например, инструменты для тестирования производительности мобильных сетей).

POLQA - это алгоритм с полным эталоном, который анализирует речевой сигнал выборка за выборкой после временного выравнивания соответствующих выборок эталонного и тестового сигналов. POLQA может применяться для обеспечения сквозной оценки качества (E2E) сети или для характеристики отдельных компонентов сети.

Результаты POLQA принципиально модельные средние оценки по мнению (MOS) по шкале от 1 (плохо) до 5 (отлично).

Описание алгоритма POLQA

Входами в алгоритм являются две формы волны, представленные двумя векторами данных, содержащими 16-битные выборки ИКМ. Первый вектор содержит образцы (неискаженной) опорного сигнала, в то время как второй вектор содержит образцы непригодного сигнала. Алгоритм POLQA состоит из блока временного выравнивания, блока оценки частоты дискретизации преобразователя частоты дискретизации, который используется для компенсации различий в частоте дискретизации входных сигналов, и реальной модели ядра, которая выполняет вычисление MOS. На первом этапе определяется задержка между двумя входными сигналами и оценивается частота дискретизации двух сигналов относительно друг друга. Оценка частоты дискретизации основана на информации о задержке, вычисленной посредством временного выравнивания. Если частота дискретизации отличается более чем примерно на 1%, сигнал с более высокой частотой дискретизации подвергается понижающей дискретизации. После каждого шага результаты сохраняются вместе со средним показателем надежности задержки, который является мерой качества оценки задержки. Наконец, выбирается результат шага повторной выборки, который дал наивысшую общую надежность. После определения правильной задержки и компенсации разницы в частотах дискретизации сигналы и информация о задержке передаются в базовую модель, которая вычисляет воспринимаемость, а также степень раздражения от искажений и отображает их в шкале MOS. Более подробное и исчерпывающее описание алгоритма можно найти в.[1] Следующие несколько разделов предназначены только для обзора основ внутренней структуры POLQA.

Основная модель

Основным элементом базовой модели является модель восприятия, которая рассчитывается четыре раза с использованием разных параметров, чтобы справиться с различными основными типами искажений. Эти типы искажений можно разделить на аддитивные искажения и вычитаемые искажения. Для обоих типов дополнительно проводится различие между очень сильными и более слабыми эффектами. Входными данными для моделей восприятия являются формы сигналов и информация о задержке. На выходе получается плотность возмущения, которая является мерой восприятия искажений в сигналах. Модель восприятия для основной ветви также производит индикаторы частотных искажений, шумов и реверберационных искажений. Последующее переключение, которое запускается детектором при очень сильных искажениях, снижает четыре значения плотности возмущений до двух, одно для добавленных и одно для вычитаемых искажений. Пока что плотность возмущения является индикатором только ощущения искажений, а когнитивные эффекты еще не принимаются во внимание. Однако когнитивные аспекты важны, когда людей просят оценить качество того, что они могут воспринимать. По сути, они преобразуют меру восприятия Плотность возмущения в меру раздражения. Это преобразование выполняется путем корректировки значений плотности возмущений для ситуаций с:

  • Значительные вариации уровня
  • Множество повторов кадров
  • Сильный тембр
  • Спектральная плоскостность
  • Переключение шума во время пауз речи
  • Множество вариаций задержки
  • Сильные колебания плотности возмущения во времени
  • Сильные колебания громкости сигналов

На этом этапе также вычисляются два дополнительных индикатора: один для спектральной равномерности, а другой - для вариаций уровня.

До сих пор все операции выполнялись с кадрами длительностью приблизительно 32 и 43 мс (в зависимости от частоты дискретизации и с использованием перекрытия 50%) и для каждой полосы Барка отдельно. На последнем этапе все индикаторы интегрируются по времени и частоте, чтобы вычислить окончательное значение MOS LQO.

Модель восприятия

Ключевым понятием модели восприятия является идеализация. Идея заключается в том, что POLQA должен моделировать Абсолютный рейтинг категории (ACR) тесты. Однако в тесте ACR у испытуемых нет сравнения с реальным эталонным сигналом, когда они оценивают речевой сигнал. Вместо этого предполагается, что испытуемые понимают, как звучит идеальный сигнал, и используют его в качестве справочного материала. Следовательно, если их попросят оценить эталонный сигнал, который не является абсолютно идеальным (например, он имеет неправильную громкость или содержит слишком много тембра, шума или реверберации), он будет оценен хуже, чем идеальный. Таким образом, на этапе идеализации POLQA исправляет небольшие дефекты опорных сигналов, чтобы получить такой же идеальный эталон для сравнения с ухудшенным сигналом, который люди использовали бы в своем сознании. Подобно идеализации опорного сигнала, некоторые искажения присутствующих в деградированном сигнале, который едва ощутимый в тесте ACR будет частично компенсируются (например, малый шаг сдвигов, линейные частотные искажения). Перцептивная модель начинается с масштабированием опорного сигнала для идеальной среднего уровня активной речи приблизительно -26dBov. Для ухудшенного сигнала такое масштабирование не выполняется. Предполагается, что любое отклонение уровня ухудшенного сигнала от идеального -26 дБov должно оцениваться как ухудшение сигнала. Затем спектры обоих сигналов вычисляются с использованием БПФ с 50% перекрывающимися кадрами с длительностью от 32 мс до 43 мс (в зависимости от частоты дискретизации). Впоследствии небольшие сдвиги основного тона ухудшенного сигнала будут устранены (устранение искажений частоты). Теперь спектры будут преобразованы в психоакустически мотивированную шкалу основного тона путем объединения отдельных спектральных линий (интервалы БПФ) в так называемые критические полосы. Используемая шкала высоты тона аналогична шкале Барка со средним разрешением 0,3 Барка на полосу. Результат - плотность мощности звука. На этом этапе рассчитываются первые три показателя искажения для искажений частотной характеристики, аддитивного шума и реверберации помещения. После этого вычисляется возбуждение каждой полосы. Это включает моделирование эффектов маскировки как в частотной, так и во временной области. Результат для каждого кадра каждого сигнала представления лобовом внутренний, который указывает на то, как громко примерно каждый компонент частоты будет perceived.Now, еще один шаг идеализация опорного сигнала происходит за счет фильтрации чрезмерное тембр и низкий уровень шума стационарный. В то же время линейные частотные искажения и стационарный шум частично удаляются из ухудшенного сигнала. Вычитание идеализированных возбуждений в конечном итоге приводит к плотности искажения, которая является мерой слышимости искажений.

POLQA в исследованиях

Документ, в котором используется POLQA для исследования влияния языка тонов и неродного прослушивания на измерение качества речи, можно найти в.[9]

Смотрите также

Рекомендации

  1. ^ а б c d http://www.itu.int/rec/T-REC-P.863/en Рекомендация МСЭ-Т P.863: Объективная оценка качества прослушивания.
  2. ^ http://www.aes.org/e-lib/browse.cfm?elib=16829 Объективная оценка качества прослушивания (POLQA), стандарт ITU-T третьего поколения для сквозного измерения качества речи, часть I - временное выравнивание
  3. ^ http://www.aes.org/e-lib/browse.cfm?elib=16830 Перцепционная объективная оценка качества прослушивания (POLQA), стандарт ITU-T третьего поколения для сквозного измерения качества речи, часть II - модель восприятия
  4. ^ а б http://www.itu.int/rec/T-REC-P.862/en Рекомендация МСЭ-Т P.862: Перцепционная оценка качества речи (PESQ): объективный метод сквозной оценки качества речи в узкополосных телефонных сетях и речевых кодеках
  5. ^ http://www.itu.int/rec/T-REC-P.862.1/en Рекомендация ITU-T P.862.1: Функция отображения для преобразования необработанных результатов P.862 в MOS-LQO
  6. ^ http://www.itu.int/rec/T-REC-P.862.2/en Рекомендация МСЭ-Т P.862.2: Широкополосное расширение Рекомендации P.862 для оценки широкополосных телефонных сетей и речевых кодеков
  7. ^ http://www.itu.int/rec/T-REC-P.862.3/en Рекомендация МСЭ-Т P.862.3 Руководство по применению для объективного измерения качества на основе Рекомендаций P.862, P.862.1 и P.862.2
  8. ^ http://www.itu.int/rec/T-REC-P.563/en Рекомендация МСЭ-Т P.563: Несимметричный метод объективной оценки качества речи в узкополосных телефонных приложениях
  9. ^ Д. Эбем (Университет Нигерии); и другие. (2011). «Влияние тонального языка и прослушивания на неродном языке на измерение качества речи» (PDF). Журнал Общества звукорежиссеров. 59 (9 сентября 2011 г.): 9.

внешняя ссылка