Синхронизация аудио-видео
Разработка музыкального клипа |
---|
Синхронизация аудио-видео ( AV-синхронизация , также известная как синхронизация губ , или при ее отсутствии: ошибка синхронизации губ , взмах губ ) относится к относительной синхронизации аудио (звука) и видео (изображения) частей во время создания, постобработка (микширование), обработка передачи , приема и воспроизведения. AV-синхронизация может стать проблемой при использовании телевидения , видеоконференций или кино .
В отраслевой терминологии ошибка синхронизации губ выражается как количество времени, на которое звук отклоняется от идеальной синхронизации с видео, где положительное число времени указывает на то, что звук опережает видео, а отрицательное число указывает на то, что звук отстает от видео. [1] Эта терминология и стандартизация числовой ошибки синхронизации губ используются в индустрии профессионального вещания, о чем свидетельствуют различные профессиональные документы: [2] стандарты, такие как ITU-R BT.1359-1, и другие ссылки ниже.
Цифровые или аналоговые аудио-видео потоки или видеофайлы обычно содержат какой-то механизм синхронизации либо в форме чередующихся видео- и аудиоданных, либо посредством явной относительной временной метки данных.
Источники ошибок
[ редактировать ]Существуют разные способы неправильной синхронизации AV-синхронизации.
Во время создания ошибки AV-синхронизации возникают из-за внутренней ошибки AV-синхронизации из-за разной задержки обработки сигнала между изображением и звуком в видеокамере и микрофоне . Задержка AV-синхронизации обычно фиксирована. Ошибки внешней AV-синхронизации могут возникнуть, если микрофон расположен далеко от источника звука, звук будет рассинхронизирован, поскольку скорость звука намного ниже скорости света . Если источник звука находится на расстоянии 340 метров от микрофона, то звук приходит примерно на 1 секунду позже света. Задержка AV-синхронизации увеличивается с расстоянием. Во время микширования видеоклипов обычно необходимо задержать звук или видео, чтобы они были синхронизированы. Задержка AV-синхронизации является статической, но может меняться в зависимости от отдельного клипа. Эффекты редактирования видео могут задерживать видео, вызывая задержку звука.
Передача ( вещание ), прием и воспроизведение, которые могут привести к ошибкам AV-синхронизации. Видеокамера со встроенными микрофонами или линейным входом не может задерживать звуковой и видеотракты на одинаковую величину. Твердотельные видеокамеры (например, устройства с зарядовой связью (CCD) и датчики изображения CMOS ) могут задерживать видеосигнал на один или несколько кадров. В телевизионных системах схемы обработки аудио- и видеосигналов существуют со значительными (и потенциально непостоянными) задержками. Конкретные схемы обработки видеосигнала, которые широко используются и способствуют значительным задержкам видео, включают синхронизаторы кадров, процессоры цифровых видеоэффектов, подавление видеошума, преобразователи формата и системы сжатия .
Схемы обработки преобразования формата и деинтерлейсной обработки в видеомониторах могут добавлять один или несколько кадров задержки видео. Видеомонитор со встроенными динамиками или линейным выходом может не задерживать звук и видео в одинаковой степени. Некоторые видеомониторы содержат внутренние регулируемые пользователем задержки звука, помогающие исправлять ошибки.
Некоторые протоколы передачи, такие как RTP, требуют внеполосного метода синхронизации медиапотоков. В некоторых системах RTP каждый медиапоток имеет свою собственную временную метку, использующую независимую тактовую частоту и рандомизированное начальное значение для каждого потока. Отчет отправителя RTCP (SR) может потребоваться для каждого потока для синхронизации потоков. [3]
Эффект отсутствия явной синхронизации AV-синхронизации
[ редактировать ]Если поток цифровой или аналоговой AV-системы не имеет метода или механизма синхронизации, поток может рассинхронизироваться. В кинофильмах эти ошибки синхронизации чаще всего возникают из-за того, что изношенная пленка пропускает звездочки кинопроектора из-за того, что в пленке есть порванные отверстия для звездочек. Ошибки также могут быть вызваны тем, что киномеханик неправильно заправил пленку в проектор.
Ошибки синхронизации стали серьезной проблемой в индустрии цифрового телевидения из-за использования больших объемов обработки видеосигнала в телепроизводстве, телевещании и пиксельных телевизионных дисплеях, таких как ЖК-дисплеи , DLP и плазменные дисплеи . Пиксельные дисплеи используют сложную обработку видеосигнала для преобразования разрешения входящего видеосигнала в собственное разрешение пиксельного дисплея, например, преобразование видео стандартной четкости для отображения на дисплее высокой четкости. Проблемы с синхронизацией обычно возникают, когда значительный объем видеообработки в видеочасти телевизионной программы выполняется . Типичными источниками значительных задержек видео в области телевидения являются видеосинхронизаторы, а также кодеры и декодеры сжатия видео. Особенно проблемные кодеры и декодеры используются в системах сжатия MPEG , используемых для трансляции цифрового телевидения и хранения телевизионных программ на бытовых и профессиональных устройствах записи и воспроизведения.
В вещательном телевидении ошибка синхронизации губ время от времени меняется более чем на 100 мс (несколько видеокадров). AV-синхронизация обычно корректируется и поддерживается с помощью аудиосинхронизатора . Организации по стандартизации телевизионной индустрии установили допустимые величины ошибок синхронизации аудио и видео и предложили методы, связанные с поддержанием приемлемой синхронизации. [4] [1] В Рекомендации EBU R37 «Относительная синхронизация компонентов звука и изображения телевизионного сигнала» говорится, что сквозная синхронизация аудио/видео должна находиться в пределах +40 мс и -60 мс (звук до/после видео соответственно) и что каждая ступень должна находиться в пределах +5 мс и -15 мс. [5]
Опыт просмотра неправильно синхронизированной AV-синхронизации
[ редактировать ]В результате движения рта персонажа в фильме или по телевидению обычно не соответствуют разговорному диалогу, отсюда и термин « хлопанье губы» или «ошибка синхронизации губ» . Возникающая в результате ошибка синхронизации аудио-видео может раздражать зрителя и даже может привести к тому, что он не получит удовольствия от программы, снизит эффективность программы или приведет к негативному восприятию говорящего со стороны зрителя. [6] Потенциальная потеря эффективности вызывает особую озабоченность у рекламистов продуктов и политических кандидатов. Организации по стандартизации телевизионной индустрии, такие как Комитет по передовым телевизионным системам , стали участвовать в установлении стандартов ошибок синхронизации аудио-видео. [4]
Из-за этих неприятностей ошибка AV-синхронизации является проблемой для индустрии телевизионных программ, включая телевизионные станции, сети, рекламодателей и компании по производству программ. К сожалению, появление технологий плоских дисплеев высокой четкости (ЖК-дисплей, DLP и плазма), которые могут задерживать видео больше, чем звук, переместило проблему в дом зрителя и вышло из-под контроля только индустрии телевизионных программ. Компании, производящие потребительские товары, теперь предлагают регулировки задержки звука, чтобы компенсировать изменения задержки видео в телевизорах, звуковых панелях и A/V-ресиверах. [7] и несколько компаний производят специальные цифровые аудиозадержки, предназначенные исключительно для исправления ошибок синхронизации губ.
Рекомендации
[ редактировать ]Для телевизионных приложений Комитет по передовым телевизионным системам рекомендует, чтобы звук опережал видео не более чем на 15 мс , а звук отставал от видео не более чем на 45 мс. [4] Однако ITU провел строго контролируемые тесты с опытными зрителями и обнаружил, что порог обнаруживаемости составляет 45 мс с задержкой в 125 мс. [1] Для фильма приемлемой синхронизацией губ считается не более 22 миллисекунд в любом направлении. [5] [8]
Ассоциация потребительской электроники опубликовала ряд рекомендаций о том, как цифровые телевизионные приемники должны реализовывать синхронизацию A/V. [9]
СМПТЕ СТ2064
[ редактировать ]Стандарт SMPTE ST2064, опубликованный в 2015 г. [10] предоставляет технологию для уменьшения или устранения ошибок синхронизации губ в цифровом телевидении. В стандарте используются аудио- и видеоотпечатки, взятые из телевизионной программы. Отпечатки пальцев можно восстановить и использовать для исправления накопленной ошибки синхронизации губ. Когда для телепрограммы сгенерированы отпечатки пальцев и внедрена необходимая технология, устройство отображения зрителя имеет возможность непрерывно измерять и исправлять ошибки синхронизации губ. [11] [12]
Временные метки
[ редактировать ]Метки времени представления (PTS) встраиваются в транспортные потоки MPEG, чтобы точно сигнализировать, когда должен быть представлен каждый аудио- и видеосегмент, чтобы избежать ошибок AV-синхронизации. Однако эти временные метки часто добавляются после того, как видео проходит синхронизацию кадров, преобразование формата и предварительную обработку, поэтому ошибки синхронизации губ, возникающие в результате этих операций, не будут исправлены путем добавления и использования временных меток. [13] [14] [15] [16]
Транспортный протокол реального времени синхронизирует мультимедиа, используя временные метки происхождения на произвольной временной шкале. Часы реального времени, например, предоставляемые протоколом сетевого времени и описанные в протоколе описания сеанса. [17] связанные с медиа, могут использоваться для синхронизации мультимедиа. Затем сервер можно использовать для окончательной синхронизации, чтобы удалить любое остаточное смещение. [18]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с «ITU-R BT.1359-1, Относительная синхронизация звука и изображения для радиовещания» (PDF) . ЧТО. 1998 год . Проверено 30 мая 2015 г.
- ^ Патрик Уодделл; Грэм Джонс; Адам Голдберг. «Отчет о состоянии стандартов и решений в области аудио/видео» (PDF) . АТСК. Архивировано из оригинала (PDF) 17 февраля 2016 года . Проверено 4 апреля 2012 г.
- ^ РФК 3550
- ^ Jump up to: а б с IS-191: Относительное время звука и изображения для операций вещания , ATSC , 26 июня 2003 г., заархивировано из оригинала 21 марта 2012 г.
- ^ Jump up to: а б «Относительная синхронизация звуковых и визуальных компонентов телевизионного сигнала» (PDF) .
- ^ Байрон Ривз; Дэвид Фёлкер (октябрь 1993 г.). «Влияние асинхронности аудио-видео на память зрителя, оценку контента и способность обнаружения» (PDF) . Архивировано из оригинала (PDF) 2 октября 2008 года . Проверено 19 октября 2008 г.
- ^ «Ошибка синхронизации губ: причины, решения» . Проверено 13 июня 2024 г.
- ^ Сара Кудрле; и др. (июль 2011 г.). «Отпечатки пальцев для решения проблем синхронизации A/V в средах вещания». Журнал Motion Imaging . СМПТЭ .
Были установлены соответствующие пределы синхронизации A/V, а диапазон, который считается приемлемым для кино, составляет +/- 22 мс . Диапазон видео, по данным ATSC, составляет до 15 мс времени опережения и около 45 мс времени задержки.
- ^ Ассоциация потребительской электроники. «CEA-CEB20 R-2013: Рекомендуемая практика обработки синхронизации аудио/видео» . Архивировано из оригинала 30 мая 2015 г.
- ^ ST 2064:2015 – Стандарт SMPTE – Измерение синхронизации аудио и видео , SMPTE , 2015
- ^ Обновление стандартов SMPTE: The Lip-Sync Challenge , SMPTE , 10 декабря 2013 г., заархивировано из оригинала 15 декабря 2021 г.
- ^ Обновление стандартов SMPTE: The Lip-Sync Challenge (PDF) , SMPTE , 10 декабря 2013 г., заархивировано из оригинала (PDF) 26 августа 2016 г. , получено 9 июня 2016 г.
- ^ «Часто задаваемые вопросы по системам MPEG-2: 19. Где вставляются PTS и DTS?» . Архивировано из оригинала 26 июля 2008 г. Проверено 27 декабря 2007 г.
- ^ Арпи (7 мая 2003 г.). «MPlayer-G2-dev: синхронизация контейнера mpeg (значения PTS)» .
- ^ «birds-eye.net: DTS — отметка времени декодирования» .
- ^ «SVCD2DVD: создание и запись DVD-дисков: AVI в DVD, DivX в DVD, Xvid в DVD, MPEG в DVD, SVCD в DVD, VCD в DVD, преобразование PAL в NTSC, HDTV2DVD, HDTV в DVD, BLURAY» . www.svcd2dvd.com .
- ^ RFC 7273
- ^ RFC 7272
Дальнейшее чтение
[ редактировать ]- Куньини, Альдо (1 сентября 2007 г.). «Управление синхронизацией губ» . Телевизионные технологии, родом из компании Broadcast Engineering. Архивировано из оригинала 8 октября 2015 года . Проверено 19 октября 2008 г.
- РА Лосось; Эндрю Мейсон (январь 2009 г.). «Факторы, влияющие на восприятие синхронизации аудио-видео на телевидении» . BBC Исследования и разработки . Проверено 2 июня 2013 г.
- Сиераноя, С.; Сахидулла, Мэриленд; Киннунен, Т.; Комулайнен, Ю.; Хадид, А. (июль 2018 г.). «Аудиовизуальное обнаружение синхронизации с оптимизированными функциями звука» (PDF) . 2018 Третья Международная конференция IEEE по обработке сигналов и изображений (ICSIP) . стр. 377–381. дои : 10.1109/SIPROCESS.2018.8600424 . ISBN 978-1-5386-6396-7 . S2CID 51682024 .