Перцепционная оценка качества речи - Perceptual Evaluation of Speech Quality

Перцепционная оценка качества речи (PESQ) представляет собой семейство стандартов, включающее методологию тестирования для автоматической оценки качества речи, испытываемой пользователем телефония система. Он стандартизирован как ITU-T рекомендация P.862 (02/01). Сегодня PESQ[1] - это всемирный отраслевой стандарт объективного тестирования качества голоса, используемый производителями телефонов, поставщиками сетевого оборудования и операторами связи. Для его использования требуется лицензия.

Объем измерений

PESQ был специально разработан для моделирования субъективных тестов, обычно используемых в телекоммуникациях (например, ITU-T P.800) для оценки качества голоса людьми. Следовательно, PESQ[1] использует образцы истинного голоса в качестве тестовых сигналов. Для того чтобы охарактеризовать качество прослушивания, воспринимаемое пользователями, чрезвычайно важно загрузить современное телекоммуникационное оборудование сигналами, подобными речи. Многие системы оптимизированы для передачи речи и непредсказуемо реагируют на неречевые сигналы (например, тоны, шум). Рекомендации по правильному применению образцов голосового тестирования определены в руководстве по применению PESQ ITU-T P.862.3.

Генеалогия родственных стандартов

Семейство полных эталонных объективных измерений качества голоса ITU-T началось в 1997 году с P.861 (PSQM), которое было заменено P.862 (PESQ).[1] в 2001 г. P.862 был позже дополнен рекомендациями P.862.1[2] (сопоставление оценок PESQ со шкалой MOS), P.862.2[3] (широкополосные измерения) и P.862.3[4] (руководство по применению). С 2011 г. P.863 (POLQA )[5] в силе. Два дополнительных руководства по внедрению P.863 были одобрены 12-й Исследовательской комиссией МСЭ-Т в ноябре 2011 года. В дополнение к перечисленным выше полным эталонным методам в список объективных стандартов измерения качества речи МСЭ-Т также входит P.563.[6] (безреференсный алгоритм).

Типология тестирования

В зависимости от информации, доступной для алгоритма, алгоритмы проверки качества голоса можно разделить на две основные категории:

  • Алгоритм «полного эталона» (FR) имеет доступ к исходному эталонному сигналу и использует его для сравнения (т. Е. Анализа различий). Он может сравнивать каждый образец опорного сигнала (говорун стороны) к каждому соответствующему образца непригодного сигнала (слушатель стороны). Измерения FR обеспечивают высочайшую точность и повторяемость, но могут применяться только для специальных тестов в реальных сетях (например, инструменты для тестирования производительности мобильных сетей).
  • Алгоритм А «не упоминается» (NR) использует только деградированный сигнал для оценки качества и не имеет никакой информации исходного опорного сигнала. Алгоритмы NR (например, P.563[6]) являются оценками только с низкой точностью, так как исходные голосовые характеристики (например, мужчина или женщина, говорящий, фоновый шум, неголосовой) ссылки на источник полностью неизвестны. Обычный вариант алгоритмов NR даже не анализирует декодированный аудиосигнал, но работает над анализом цифрового битового потока на уровне IP-пакетов. Следовательно, измерение ограничивается анализом транспортного потока.

PESQ - это алгоритм с полным эталоном, который анализирует речевой сигнал выборка за выборкой после временного выравнивания соответствующих выборок эталонного и тестового сигналов. PESQ[1] может применяться для обеспечения сквозной оценки качества сети (E2E) или для характеристики отдельных компонентов сети.

Результаты PESQ принципиально модель средние оценки по мнению (MOS) по шкале от 1 (плохо) до 5 (отлично). Функция отображения на MOS-LQO описана в P.862.1.[2]

Смотрите также

Рекомендации

  1. ^ а б c d http://www.itu.int/rec/T-REC-P.862/en Рекомендация МСЭ-Т P.862: Перцепционная оценка качества речи (PESQ): объективный метод сквозной оценки качества речи в узкополосных телефонных сетях и речевых кодеках
  2. ^ а б http://www.itu.int/rec/T-REC-P.862.1/en Рекомендация ITU-T P.862.1: Функция отображения для преобразования необработанных результатов P.862 в MOS-LQO
  3. ^ http://www.itu.int/rec/T-REC-P.862.2/en Рекомендация МСЭ-Т P.862.2: Широкополосное расширение Рекомендации P.862 для оценки широкополосных телефонных сетей и речевых кодеков
  4. ^ http://www.itu.int/rec/T-REC-P.862.3/en Рекомендация МСЭ-Т P.862.3 Руководство по применению для объективного измерения качества на основе Рекомендаций P.862, P.862.1 и P.862.2
  5. ^ http://www.itu.int/rec/T-REC-P.863/en Рекомендация МСЭ-Т P.863: Объективная оценка качества прослушивания.
  6. ^ а б http://www.itu.int/rec/T-REC-P.563/en Рекомендация МСЭ-Т P.563: Несимметричный метод объективной оценки качества речи в узкополосных телефонных приложениях

http://www.aes.org/e-lib/browse.cfm?elib=11063

http://www.aes.org/e-lib/browse.cfm?elib=11062

внешняя ссылка