Аудио-видео синхронизация - Audio-to-video synchronization

Аудио-видео синхронизация (AV синхронизация, также известный как синхронизация губ, или по его отсутствию: ошибка синхронизации губ, губа) относится к относительному времени аудио (звук) и видео (изображение) детали во время создания, послепроизводственный этап (смешивание), коробка передач, обработка приема и воспроизведения. Синхронизация AV может быть проблемой в телевидение, видео-конференция, или же фильм.

В отраслевой терминологии ошибка синхронизации губ выражается как количество времени, в течение которого звук отклоняется от идеальной синхронизации с видео, где положительное значение времени указывает, что звук опережает видео, а отрицательное число указывает, что звук отстает от видео.[1] Эта терминология и стандартизация числовой ошибки синхронизации губ используются в индустрии профессионального вещания, о чем свидетельствуют различные профессиональные документы,[2] стандарты, такие как ITU-R BT.1359-1, и другие ссылки ниже.

Цифровой или аналоговый аудио-видео потоки или же видео файлы обычно содержат какой-то механизм синхронизации, либо в виде чередующихся видео- и аудиоданных, либо с помощью явных относительных отметка времени данных. Обработка данных должна учитывать относительное время передачи данных, например, растяжение или интерполяция полученных данных. Если обработка не учитывает ошибку AV-синхронизации, она будет увеличиваться всякий раз, когда данные теряются из-за ошибок передачи или из-за отсутствия или несвоевременной обработки.

Неправильно синхронизирован

Существуют различные способы некорректной синхронизации AV-синхронизации:

  • При создании AV-синхронизации возникают ошибки из-за
    • Внутренняя ошибка AV-синхронизации: другая обработка сигналов задержки между изображением и звуком в видеокамера и микрофон. Задержка AV-синхронизации обычно фиксированная.
    • Ошибка внешней AV-синхронизации: если микрофон расположен далеко от источника звука, звук будет рассинхронизирован, потому что скорость звука намного ниже, чем скорость света. Если источник звука находится на расстоянии 340 метров от микрофона, звук приходит примерно на 1 секунду позже, чем свет. Задержка AV-синхронизации увеличивается с расстоянием.
  • Во время микширования видеоклипов обычно требуется задержка звука или видео для их синхронизации. Задержка AV-синхронизации статична, но может варьироваться в зависимости от конкретного клипа.
  • Редактирование видео последствия.

Примеры передачи (вещание ), прием и воспроизведение, которые могут неправильно синхронизировать AV-синхронизацию:

  • Видеокамера со встроенными микрофонами или линейным входом не может задерживать звуковые и видеопотоки на одинаковое количество миллисекунд. Видеокамера должна иметь какую-то явную синхронизацию AV-синхронизации, помещенную в видео- и аудиопотоки. Твердотельные видеокамеры (например, устройство с зарядовой связью (CCD) и CMOS-датчики изображения ) может задерживать видеосигнал на один или несколько кадров.
  • AV-поток может быть поврежден во время передачи из-за электрического глюки (проводное) или беспроводное прерывание - это может привести к рассинхронизации. Задержка AV-синхронизации обычно увеличивается со временем.
  • В телевизионных системах широко используются схемы обработки аудио- и видеосигналов со значительными (и часто непостоянными) задержками. Конкретные схемы обработки видеосигнала, которые широко используются и вносят существенные задержки видео, включают синхронизаторы кадров, процессоры цифровых видеоэффектов, шумоподавление видео, преобразователи формата и системы сжатия.
  • Схема обработки видеомонитора может задерживать видеопоток. Пиксельные дисплеи требуют видео преобразование формата и обработка деинтерлейсинга, которая может добавлять один или несколько кадров задержки видео.
  • Видеомонитор со встроенными динамиками или линейным выходом может не задерживать звук и видео на одинаковое количество миллисекунд. Некоторые видеомониторы содержат внутренние настраиваемые пользователем задержки звука для помощи в исправлении ошибок.
  • Некоторые протоколы передачи, такие как RTP требуется внеполосный метод синхронизации медиапотоков. В случае RTP каждый медиапоток имеет свою собственную метку времени с использованием независимой тактовой частоты и рандомизированного начального значения для каждого потока. А RTCP Отчет об отправителе (SR) необходим для каждого потока для синхронизации потоков.[3] Необходимые пакеты RTCP могут быть потеряны (поскольку RTP / RTCP не гарантирует доставку ) или отправляется не ранее, чем через несколько секунд после начала потока. Многие программные клиенты вообще не отправляют RTCP или отправляют несовместимые данные.[нужна цитата ]

Эффект отсутствия явной синхронизации AV-синхронизации

Когда цифровой или аналоговый аудио-видеопоток не имеет какой-либо явной синхронизации AV-синхронизации, эти эффекты приведут к рассинхронизации потока:

  • В фильмах эти ошибки синхронизации чаще всего вызваны тем, что изношенные пленки пропускают кинопроектор звездочки, потому что пленка имеет порванные отверстия для звездочек.
  • Ошибки также могут быть вызваны киномеханик неправильное толкование пленки в проекторе, хотя такое бывает редко у компетентных киномехаников.
  • AV-синхронизация обычно корректируется и поддерживается с помощью аудио синхронизатор. Организации по стандартизации телевизионной индустрии установили допустимое количество ошибок синхронизации аудио и видео и предложили методы, связанные с поддержанием приемлемой синхронизации.[4][1]
  • Ошибки AV-синхронизации становятся серьезной проблемой в цифровое телевидение промышленности из-за использования больших объемов обработки видеосигналов в телевизионном производстве, телевещании и пиксельный телевизионные дисплеи, такие как ЖК-дисплей, DLP и плазменные дисплеи.
  • в телевидение поля, проблемы с синхронизацией аудио-видео обычно возникают, когда обработка видео выполняется на видео части телепрограммы.
  • Типичные источники значительных задержек видео в телевизионной сфере включают в себя синхронизаторы видео, кодеры и декодеры сжатия видео. Особенно проблемные кодеры и декодеры используются в MPEG системы сжатия, используемые для вещания цифровое телевидение и хранение телевизионных программ на бытовых и профессиональных устройствах записи и воспроизведения.
  • Источник значительной задержки видео обнаружен в пиксельный телевизионные дисплеи (LCD, DLP и плазменные), которые используют комплексную обработку видеосигнала для преобразования разрешения входящего видеосигнала в собственное разрешение пиксельного дисплея, например, для преобразования видео стандартной четкости для отображения на дисплее высокой четкости. «Лоскут для губ» может иногда превышать 200 мс.
  • В вещательном телевидении нет ничего необычного в том, что ошибка синхронизации губ может время от времени изменяться более чем на 100 мс (несколько видеокадров).
  • Рекомендация EBU R37 «Относительная синхронизация звуковых и визуальных компонентов телевизионного сигнала» гласит, что сквозная синхронизация аудио / видео должна быть в пределах +40 мс и -60 мс (звук до / после видео, соответственно) и что каждый stage должен быть в пределах от +5 мс до -15 мс.[5]

Зритель воспринимает неправильно синхронизированную AV-синхронизацию

В результате, как правило, снимаемый или транслируемый по телевидению персонаж двигает своим ртом, когда речь не идет о его сопровождении, отсюда и термин «лоскут губ» или «ошибка синхронизации губ». Возникающая в результате ошибка синхронизации аудио-видео может раздражать зрителя и даже может привести к тому, что зритель не получит удовольствие от программы, снизит эффективность программы или приведет к негативному восприятию говорящего со стороны зрителя.[6] Потенциальная потеря эффективности вызывает особое беспокойство у рекламных продуктов и политических кандидатов. Организации по стандартизации телевизионной индустрии, такие как Комитет передовых телевизионных систем, стали участвовать в установлении стандартов для ошибок синхронизации аудио-видео.[4]

Из-за этих неприятностей ошибка AV-синхронизации является проблемой для индустрии телевизионных программ, включая телевизионные станции, сети, рекламодателей и компании по производству программ. К сожалению, появление технологий плоских дисплеев высокой четкости (LCD, DLP и плазменные), которые могут задерживать больше видео, чем аудио, перенесло проблему в дом зрителя и вышло из-под контроля только индустрии телевизионных программ. Компании-производители потребительских товаров теперь предлагают регулировку задержки звука, чтобы компенсировать изменения задержки видео в телевизорах и A / V-ресиверах, а несколько компаний производят специальные задержки цифрового звука, предназначенные исключительно для исправления ошибок синхронизации губ.

Рекомендации

Для телевизионных приложений Комитет передовых телевизионных систем рекомендует, чтобы звук опережал видео не более чем на 15 миллисекунд, а звук отставал от видео не более чем на 45 миллисекунд.[4] Тем не менее ITU провели строго контролируемые тесты с опытными зрителями и обнаружили, что порог обнаруживаемости составляет от -125 до +45 мс.[1] Для фильма приемлемой синхронизацией губ считается не более 22 миллисекунд в любом направлении.[5][7]

В Ассоциация бытовой электроники опубликовал набор рекомендаций о том, как цифровые телевизионные приемники должны реализовывать A / V синхронизацию.[8]

SMPTE ST2064

SMPTE стандарт ST2064, опубликованный в 2015 г.,[9] предоставляет технологию для уменьшения или устранения ошибок синхронизации губ в цифровом телевидении. Стандарт использует аудио и видео отпечатки пальцев, взятые из телевизионной программы. Отпечатки пальцев можно восстановить и использовать для исправления накопленной ошибки синхронизации губ. После создания отпечатков пальцев для телепрограммы и включения необходимой технологии устройство отображения зрителя имеет возможность непрерывно измерять и исправлять ошибки синхронизации губ.[10][11]

Отметки времени

Отметки времени презентации (PTS) встроены в Транспортные потоки MPEG чтобы точно сигнализировать, когда должен быть представлен каждый аудио- и видеосегмент, чтобы избежать ошибок синхронизации AV. Однако эти временные метки часто добавляются после того, как видео проходит кадровую синхронизацию, преобразование формата и предварительную обработку, и, таким образом, ошибки синхронизации губ, созданные этими операциями, не будут исправлены путем добавления и использования временных меток.[12][13][14][15]

В Транспортный протокол в реальном времени синхронизирует медиа с использованием происхождения отметки времени на произвольной временной шкале. Часы реального времени, например, поставляемые Сетевой протокол времени и описано в Протокол описания сеанса[16] связанный с медиа, может использоваться для синхронизации медиа. Затем можно использовать сервер для окончательной синхронизации, чтобы удалить любое остаточное смещение.[17]

Смотрите также

Рекомендации

  1. ^ а б c «ITU-R BT.1359-1, Относительная синхронизация звука и изображения для радиовещания» (PDF). ITU. 1998 г.. Получено 30 мая 2015.
  2. ^ Патрик Уодделл; Грэм Джонс; Адам Голдберг. "Аудио / видео стандарты и решения. Отчет о состоянии" (PDF). ATSC. Получено 4 апреля 2012.
  3. ^ RFC  3550
  4. ^ а б c IS-191: Относительное время звука и изображения для вещательных операций, ATSC, 26.06.2003, архивировано из оригинал на 2012-03-21
  5. ^ а б «Относительная синхронизация звуковых и визуальных компонентов телевизионного сигнала» (PDF).
  6. ^ Байрон Ривз; Дэвид Фолькер (октябрь 1993 г.). «Влияние асинхронности аудио-видео на память зрителя, оценка контента и способность обнаружения» (PDF). Архивировано из оригинал (PDF) 2 октября 2008 г.. Получено 2008-10-19.
  7. ^ Сара Кудрле; и другие. (Июль 2011 г.). «Отпечаток пальца для решения проблем синхронизации аудио / видео в среде вещания». Журнал Motion Imaging. SMPTE. Были установлены соответствующие пределы синхронизации A / V, и диапазон, который считается приемлемым для пленки, составляет +/- 22 мс. Диапазон для видео, согласно ATSC, составляет до 15 мс с опережением и около 45 мс с задержкой.
  8. ^ Ассоциация бытовой электроники. «CEA-CEB20 R-2013: Рекомендуемая практика обработки синхронизации аудио / видео». Архивировано из оригинал на 2015-05-30.
  9. ^ ST 2064: 2015 - Стандарт SMPTE - Измерение синхронизации аудио и видео, SMPTE, 2015
  10. ^ Обновление стандартов SMPTE: вызов Lip-Sync, SMPTE, 10 декабря 2013 г.
  11. ^ Обновление стандартов SMPTE: вызов Lip-Sync (PDF), SMPTE, 10 декабря 2013 г.
  12. ^ «Часто задаваемые вопросы о системах MPEG-2: 19. Куда вставляются PTS и DTS?». Архивировано из оригинал на 2008-07-26. Получено 2007-12-27.
  13. ^ Арпи (7 мая 2003 г.). "MPlayer-G2-dev: время контейнера mpeg (значения PTS)".
  14. ^ "birds-eye.net: DTS - расшифровать отметку времени".
  15. ^ «SVCD2DVD: Создавайте и записывайте DVD: AVI в DVD, DivX в DVD, Xvid в DVD, MPEG в DVD, SVCD в DVD, VCD в DVD, преобразование PAL в NTSC, HDTV2DVD, HDTV в DVD, BLURAY». www.svcd2dvd.com.
  16. ^ RFC  7273
  17. ^ RFC  7272

дальнейшее чтение