G.711 - Википедия - G.711
Импульсно-кодовая модуляция (ИКМ) голосовых частот | |
Положение дел | Действующий |
---|---|
Год начался | 1972 |
Последняя версия | (02/00) Февраль 2000 г. |
Организация | ITU-T |
Связанные стандарты | G.711.0, G.711.1 |
Домен | сжатие звука |
Интернет сайт | https://www.itu.int/rec/T-REC-G.711 |
G.711 это узкополосный аудиокодек, изначально предназначенный для использования в телефония который обеспечивает качественный звук на скорости 64 кбит / с. G.711 передает аудиосигналы в диапазоне 300–3400 Гц и дискретизирует их со скоростью 8 000 выборок в секунду с допуском на эту скорость 50 частей на миллион (ppm). Неравномерное (логарифмическое) квантование с 8 битами используется для представления каждой выборки, что приводит к скорости передачи 64 кбит / с. Есть две немного разные версии: μ-закон, который используется в основном в Северной Америке и Японии, и Закон, который используется в большинстве других стран за пределами Северной Америки.
G.711 - это ITU-T стандарт (рекомендация) для аудио компандирование под названием Импульсно-кодовая модуляция (ИКМ) голосовых частот выпущен для использования в 1972 году. Это обязательный стандарт во многих технологиях, таких как H.320 и H.323 стандарты.[1] Его также можно использовать для факс связь по IP-сетям (как определено в T.38 Технические характеристики).
Были опубликованы два усовершенствования G.711: G.711.0 использует сжатие данных без потерь для уменьшения использования полосы пропускания и G.711.1 повышает качество звука за счет увеличения пропускной способности.
Функции
- Частота дискретизации 8 кГц
- Битрейт 64 кбит / с (частота дискретизации 8 кГц × 8 бит на выборку)
- Типичная алгоритмическая задержка составляет 0,125 мс, без упреждающей задержки.
- G.711 - это форма волны речевой кодер
- Приложение I к G.711 определяет маскировка потери пакетов (PLC) алгоритм, помогающий скрыть потери передачи в пакетной сети
- Приложение II G.711 определяет прерывистая передача (DTX) алгоритм, который использует обнаружение голосовой активности (VAD) и генерация комфортного шума (CNG) для уменьшения использования полосы пропускания в периоды тишины
- PSQM тестирование в идеальных условиях дает средние оценки по мнению 4.45 для μ-закона G.711, 4.45 для A-закона G.711[нужна цитата ]
- Тестирование PSQM в условиях стресса сети средние оценки по мнению 4.13 для μ-закона G.711, 4.11 для A-закона G.711[нужна цитата ]
Типы
G.711 определяет два основных компандирование алгоритмы, алгоритм μ-закона и Алгоритм A-law. Оба логарифмический, но A-law был специально разработан, чтобы компьютер упростил обработку. Стандарт также определяет последовательность повторяющихся значений кода, которая определяет уровень мощности 0 дБ.
Алгоритмы μ-закона и A-закона кодируют 14-битные и 13-битные линейные выборки PCM со знаком (соответственно) в логарифмические 8-битные выборки. Таким образом, G.711 кодировщик создаст битовый поток 64 кбит / с для сигнала с частотой дискретизации 8 кГц.[1]
Μ-закон G.711 имеет тенденцию давать большее разрешение для сигналов с более высоким диапазоном, в то время как A-закон G.711 обеспечивает более высокие уровни квантования при более низких уровнях сигнала.
Используются термины PCMU, G711u или G711MU для μ-закона G711 и PCMA или G711A для A-закона G711.[2]
Закон
Таким образом, кодирование по закону A принимает в качестве входных данных 13-битный линейный аудиосэмпл со знаком и преобразует его в 8-битное значение следующим образом:
Код линейного ввода [примечание 1] | Сжатый код XOR 01010101 | Код линейного вывода [заметка 2] |
---|---|---|
s0000000abcdx | s000abcd | s0000000abcd1 |
s0000001abcdx | s001abcd | s0000001abcd1 |
s000001abcdxx | s010abcd | s000001abcd10 |
s00001abcdxxx | s011abcd | s00001abcd100 |
s0001abcdxxxx | s100abcd | s0001abcd1000 |
s001abcdxxxxx | s101abcd | s001abcd10000 |
s01abcdxxxxxx | s110abcd | s01abcd100000 |
s1abcdxxxxxxx | s111abcd | s1abcd1000000 |
- ^ Это значение получается путем взятия два дополнения представление входного значения и инвертирование всех битов после знакового бита, если значение отрицательное.
- ^ Знаковая величина представление
Где s
это знаковый бит, s
является его обратным (т.е. положительные значения кодируются с помощью MSB = s = 1), а биты отмечены Икс
отбрасываются. Обратите внимание, что первый столбец таблицы использует другое представление отрицательных значений, чем третий столбец. Так, например, входное десятичное значение −21 после инверсии битов представляется в двоичном формате как 1000000010100, что соответствует 00001010 (согласно первой строке таблицы). При декодировании возвращается значение 1000000010101, которое интерпретируется как выходное значение -21 в десятичном формате. Входное значение +52 (0000000110100 в двоичном формате) сопоставляется с 10011010 (согласно второй строке), которое снова отображается на 0000000110101 (+53 в десятичном формате).
Это можно рассматривать как плавающая точка число с 4 битами мантисса м (эквивалент 5-битной точности), 3 бита показатель степени е и 1 бит знака s, отформатированный как sэээмммм
с декодированным линейным значением у дается формулой
которое представляет собой 13-битовое целое число со знаком в диапазоне от ± 1 до ± (212 − 26). Обратите внимание, что ни один сжатый код не декодируется до нуля из-за добавления 0,5 (половина шага квантования).
Кроме того, стандарт определяет, что все результирующие четные биты (LSB четно) инвертируются перед передачей октета. Это должно обеспечить множество переходов 0/1 для облегчения восстановление часов процесс в приемниках PCM. Таким образом, канал ИКМ, закодированный по закону A, имеет 8-битные отсчеты, закодированные как 0xD5 вместо 0x80 в октетах.
Когда данные отправляются через E0 (G.703 ), MSB (знак) отправляется первым, а LSB отправляется последним.
ITU-T STL[3] определяет алгоритм декодирования следующим образом (он помещает декодированные значения в 13 наиболее значимых битов 16-битного типа выходных данных).
пустота alaw_expand(lseg, logbuf, Linbuf) длинный lseg; короткая *Linbuf; короткая *logbuf;{ короткая ix, мант, iexp; длинный п; за (п = 0; п < lseg; п++) { ix = logbuf[п] ^ (0x0055); / * повторно переключаем переключенные биты * / ix &= (0x007F); / * удалить знаковый бит * / iexp = ix >> 4; / * извлечь экспоненту * / мант = ix & (0x000F); / * теперь получаем мантиссу * / если (iexp > 0) мант = мант + 16; / * добавляем ведущую '1', если показатель степени> 0 * / мант = (мант << 4) + (0x0008); / * теперь мантисса выровнена по левому краю и * / / * Добавлен 1/2 шага квантования * / если (iexp > 1) / * теперь сдвиг влево по экспоненте * / мант = мант << (iexp - 1); Linbuf[п] = logbuf[п] > 127 / * инвертировать, если образец отрицательный * / ? мант : -мант; }}
См. Также «Руководство пользователя библиотеки программных средств ITU-T 2009», которое можно найти по адресу.[4]
μ-закон
Кодирование по μ-закону (иногда называемое ulaw, G.711Mu или G.711μ) требует 14-битного линейного аудиосэмпла со знаком в два дополнения представление в качестве входных данных, инвертирует все биты после знакового бита, если значение отрицательное, добавляет 33 (двоичное 100001) и преобразует его в 8-битное значение следующим образом:
Линейное входное значение [примечание 1] | Сжатый код XOR 11111111 | Линейное выходное значение [заметка 2] |
---|---|---|
s00000001abcdx | s000abcd | s00000001abcd1 |
s0000001abcdxx | s001abcd | s0000001abcd10 |
s000001abcdxxx | s010abcd | s000001abcd100 |
s00001abcdxxxx | s011abcd | s00001abcd1000 |
s0001abcdxxxxx | s100abcd | s0001abcd10000 |
s001abcdxxxxxx | s101abcd | s001abcd100000 |
s01abcdxxxxxxx | s110abcd | s01abcd1000000 |
s1abcdxxxxxxxx | s111abcd | s1abcd10000000 |
- ^ Это значение получается путем взятия два дополнения представление входного значения, инвертируя все биты после знакового бита, если значение отрицательное, и добавляя 33.
- ^ Знаковая величина представление. Окончательный результат получается путем уменьшения величины этого значения на 33.
Где s
- знаковый бит, а биты, отмеченные Икс
отбрасываются.
Кроме того, стандарт определяет, что все биты результата инвертируются перед передачей октета. Таким образом, канал ИКМ, закодированный по μ-закону, имеет 8-битные отсчеты, закодированные как 0xFF вместо 0x00 в октетах.
Добавление 33 необходимо, чтобы все значения попали в группу сжатия, и она вычиталась обратно при декодировании.
Нарушение закодированного значения, отформатированного как похоже
на 4 части мантиссы м, 3 бита экспоненты е и 1 бит знака s, декодированная линейная величина у дается формулой
которое представляет собой 14-битовое целое число со знаком в диапазоне от ± 0 до ± 8031.
Обратите внимание, что 0 кодируется как 0xFF, а -1 кодируется как 0x7F, но при обратном декодировании результат в обоих случаях равен 0.
G.711.0
G.711.0, также известный как G.711 LLC, использует сжатие данных без потерь чтобы уменьшить использование полосы пропускания на 50 процентов.[5] В Сжатие без потерь импульсной кодовой модуляции G.711 Стандарт был одобрен ITU-T в сентябре 2009 года.[6][7]
G.711.1
G.711.1 является расширением G.711, опубликованным как Рекомендация ITU-T G.711.1 в марте 2008 г. Его официальное название: Встроенное широкополосное расширение для импульсной кодовой модуляции G.711.[7][8][9]
G.711.1, позволяет добавлять узкополосный и / или широкополосный (16000 выборок / с), каждое на 25% от скорости передачи (включенного) базового потока G.711, что приводит к скорости передачи данных 64, 80 или 96 кбит / с.
G.711.1 совместим с G.711 на скорости 64 кбит / с,[10] следовательно, эффективное развертывание в существующей передаче голоса по IP на базе G.711 (VoIP ) инфраструктуры. Кодер G.711.1 может кодировать сигналы с частотой 16 кГц с полосой пропускания 50–7000 Гц при 80 и 96 кбит / с, а для дискретизации 8 кГц выходной сигнал может генерировать сигналы с полосой пропускания от 50 до 4000 Гц, работая на 64 и 80 кбит / с.[8]
Кодер G.711.1 создает встроенный поток битов, структурированный на трех уровнях, соответствующих трем доступным скоростям передачи данных: 64, 80 и 96 кбит / с. Битовый поток не содержит никакой информации о том, какие уровни содержатся, реализация потребует внеполосной сигнализации о том, какие уровни доступны. К трем уровням G.711.1 относятся: логарифмически компандированная импульсная кодовая модуляция (ИКМ) нижней полосы, включая шумовую обратную связь, встроенное расширение ИКМ с адаптивным распределением битов для повышения качества базового уровня в нижней полосе и кодирование взвешенного векторного квантования верхняя полоса на основе модифицированное дискретное косинусное преобразование (MDCT).[8]
В 2010 году запланированы два расширения для G.711.1: сверхширокополосное расширение (ширина полосы до 14000 Гц) и сжатие битового потока без потерь.[11]
Лицензирование
Срок действия патентов на G.711, выпущенный в 1972 году, истек, поэтому его можно использовать без лицензии.[1]
Смотрите также
Рекомендации
- ^ а б c «G.711: Импульсно-кодовая модуляция (PCM) голосовых частот». www.itu.int. В архиве из оригинала на 2019-06-17. Получено 2019-11-11.
- ^ «Кодеки видео / голоса / речи». Грандстрим =. Получено 19 июля 2020.
- ^ G.191: Программные инструменты для стандартизации кодирования речи и звука. Функция
alaw_expand
в файлеПрограммное обеспечение / stl2009 / g711 / g711.c
. Itu.int. Проверено 18 сентября 2013. - ^ G.191: ITU-T Software Tool Library 2009 Руководство пользователя. Itu.int (23 июля 2010 г.). Проверено 18 сентября 2013.
- ^ ITU-T (17 июля 2009 г.). «Журнал новостей ITU-T - Голосовой кодек получает новое сжатие без потерь». В архиве из оригинала от 03.03.2016. Получено 2010-02-28.
- ^ ITU-T. "G.711.0: сжатие без потерь модуляции импульсного кода G.711". Получено 2010-02-28.
- ^ а б Последние разработки в области кодирования аудио / речи в ITU-T и будущие тенденции (PDF), Август 2008 г., получено 2010-02-28
- ^ а б c МСЭ-Т (2008 г.) G.711.1: Широкополосное встроенное расширение для импульсной кодовой модуляции G.711 Проверено 19 июня 2009 г.
- ^ Хивасаки; и другие. (2008-08-25), G.711.1: широкополосное расширение до ITU-T G.711 (PDF), получено 2015-06-13
- ^ Лапьер; и другие. (2008-08-25), Формирование шума во встроенном кодеке ITU-T G.711-Interoperable (PDF), получено 2015-06-13
- ^ Исследовательский центр Nokia (2009-04-06), Стандарты кодирования (PDF), получено 2010-03-01
внешняя ссылка
- Рекомендация МСЭ-Т G.711
- Программные средства ITU-T G.191 для кодирования речи и звука, включая код G.711 C
- Code Project C # реализация G.711 с исходным кодом
- RFC 3551 - профиль RTP для аудио- и видеоконференций с минимальным контролем - G.711 - определение PCMA и PCMU.
- RFC 4856 - Регистрация типа носителя аудио / PCMA и аудио / PCMU
- RFC 5391 - Формат полезной нагрузки RTP для Рекомендации ITU-T G.711.1 (PCMA-WB и PCMU-WB)