EBU R128/BS.1770-3: Пакетная нормализация громкости аудио/видео файлов
Всем привет!
Решил поделиться опытом автоматизации контроля громкости вещания своего СМИ. Думаю, у всех профильных технарей давно болит голова, точно продолжает болеть. Введенная Минкомсвязи рекомендация в области нормирования громкости звуковых сигналов вызвала волны возмущения.
Не было предоставлено ни средств контроля, ни средств производства. Крутитесь как хотите.
Впрочем, уже давно, задолго до того знакового события существуют различные плагины к монтажным программам.
Но как быть если уже накоплена огроменная медиабаза? 
Побродил я по просторам интернета и наткнулся на очень, по моему мнению, элегантное решение. Причем, к радости моей, это оказалось свободное ПО. Проект называется r128gain.
r128gain измеряет громкость аудио файлов в единицах измерения LUFS. Понимает она, насколько я выяснил, два формата:
1. Используя утилиту SoX — Sound eXchange, получить причесанный звук:
2. Используя утилиту FFmpeg заменить/добавить аудиодорожку к фидеофайлу:
Я выбрал первый вариант. Чтобы выделить звук из моих видеофайлов, я использую ffmpeg:
Сборка готового видео файла. Так как кроме старых файлов имеется постоянный поток сторонних, приводим к единому формату. У меня используется такой стандарт:
На выходе получаем продукт в едином формате.
Спасибо за внимание! Надеюсь, моя статья окажется для вас полезной.
Как определить истинное качество звука потокового аудио
Пару лет назад мы написали статью о том, как определить истинный битрейт любого аудиофайла, а также почему конвертация YouTube в MP3 со скоростью 320 кбит / с — пустая трата времени. Наша цель состояла в том, чтобы помочь пользователям определить истинное качество звука музыкальных файлов, за которые они заплатили и загрузили, чтобы избежать музыкальных сервисов, которые утверждают, что предлагают высококачественный звук без потерь, но, к примеру, подают MP3, преобразованные в FLAC.
Многие пользователи также спрашивали, как они могут определить истинное качество звука потоковой музыки, а не локальных файлов. Это большой вопрос, так как в последние годы появилось много потоковых сервисов HiFi, утверждающих, что они предлагают своим пользователям высококачественные музыкальные потоки без потерь.
Поэтому нам нужно использовать почти идеальный точный анализатор спектра для потоковой передачи звука и понять, как его читать в режиме реального времени.
MusicScope — это анализатор звука в реальном времени и измерительный инструмент, который может обеспечить очень точную обратную связь при потоковой передаче звука. К сожалению, разработчики прекратили продавать лицензии на программное обеспечение, но пробная версия позволяет тестировать до 30 секунд звука.
Для целей данного руководства мы приведем примеры использования программного обеспечения с локальными файлами в разных форматах. Однако вся предоставленная информация может в равной степени применяться к потоковому аудио, например, от Spotify, Deezer и т. Д.
Определение частоты и диапазона громкости LRA
Давайте попробуем трек без потерь (.M4A ALAC) «Прогулка по небу» из фильма «Движущийся замок Хаула». Это оркестровая запись, поэтому мы должны получить хороший образец всех частотных диапазонов. Например, мы можем видеть изолированные высокочастотные пики, например, мерцание тарелок между 11 и 22 кГц.
Наблюдая за графиками в MusicScope, мы видим, что динамический диапазон очень высок, как и следовало ожидать от оркестровой записи.
MusicScope также может дать нам LRA (диапазон громкости), который измеряет контраст между самыми мягкими и самыми громкими частотами. Для этого конкретного трека, мы видим, что разница между самыми тихими и самыми громкими пассажами составляет около 23 децибел.
С точки зрения микродинамики, этот конкретный трек имеет очень большой динамический диапазон, который мы ожидаем от высококачественной оркестровой записи, но также происходит несколько интересных вещей.
MusicScope может сказать нам, выиграет ли трек от более высокого разрешения. Так что этот трек, в частности, записывается с 16-битной глубиной с частотой дискретизации 44 кГц. Но мы можем сказать, что у трека есть большой запас. От 0 до 6 децибел ниже полной шкалы нет данных в линейном частотном спектре.
Таким образом, эффективный битрейт этой дорожки составляет всего около 14–15 бит, что означает, что они могли применить сжатие динамического диапазона во время основной записи, или микрофоны, используемые во время записи, не улавливали всю информацию.
Поэтому, даже если бы существовала версия этого файла с тактовой частотой 96 кГц, это не принесло бы пользы, поскольку наиболее вероятно, что микрофоны, использованные во время записи, не улавливали все данные. Это связано с тем, что большинство микрофонов спроектированы для отображения на частотах человеческого слуха, поэтому, честно говоря, 96-кГц / 24-битная запись этой дорожки не принесет заметной разницы.
Вывод из этого заключается в том, что для улучшения качества звука мы фокусируемся на том, что происходит на этапе записи и мастеринга. Сосредоточение внимания на аудиофайлах с «высоким разрешением» ради файлов с высоким разрешением отвлекает нас от того, что действительно важно, а именно от оборудования для записи и используемого процесса.
Как узнать, может ли песня иметь лучшую аудио версию
Давайте попробуем использовать дорожку EDM «Zebra» из Oneohtrix Point Never в 24-битном формате 44 кГц. Что интересно в этом конкретном треке, так это просто плотность музыкальной информации в этом треке. Вы можете видеть на спектрограмме сплошной зеленый блок и наблюдать, как он заполняет всю дорожку.
Этот трек имеет LRA около 12,9, что довольно много для трека EDM. Здесь интересно то, что вы можете видеть, что это 24-битное отслеживание, которое использует почти все 24 бита динамического диапазона. Самая тихая музыка в этой записи примерно на 100 дБ ниже самого громкого шума.
Так что, глядя на спектрограмму, вы можете сказать, что этот трек обрезан на частоте 22 кГц, это действительно жесткое срезание, а высокочастотные пики на частотах около 22 кГц всего на 60 децибел ниже полной шкалы.
Это означает, что если бы у нас была версия этого трека 96 кГц, вероятно, было бы много информации выше 22 кГц, которая не попала бы в эту версию трека.
Проще говоря, ваш опыт прослушивания мог бы выиграть от версии этого трека с более высоким разрешением. Этот трек достигает пределов своего формата (частота дискретизации 44 кГц). Как только вы поймете процесс мышления, вы по-настоящему начнете понимать, обслуживаете ли вы наилучшую версию трека в потоковом сервисе hi-fi.
Как сказать плохое качество записи звука
Давайте используем трек «Fly Away» от TeddyLoid, в 16-битном формате 44 кГц. Мы сразу слышим, что трек был горячо освоен.
Посмотрев на график радара, мы увидим, что дорожка непрерывно достигает максимальной длительности песни, поэтому она непрерывно ограничивается в натуральную величину. Так что, если вы играете этот трек на оборудовании среднего уровня, он, вероятно, сильно искажает.
Также этот трек имеет LRA около 2,3, что означает, что динамический диапазон составляет 2,3 децибела по всему треку, что выглядит довольно безумно.
Плохое качество или преднамеренное производство?
При рассмотрении трека, такого как «Fly Away», мы также должны учитывать, является ли он треком с плохим мастерингом, например, любительским, или он был намеренным. Трек «Fly Away» должен был стать своего рода «одноразовым», громким танцевальным треком. Звучит так, как будто его играют через плохих ораторов, что, собственно, и было целью мастеринга трека.
Думайте об этом как о фильтрах камеры. Если вы сделаете селфи с высоким разрешением, примените фильтр сепии и добавите, например, эффект размытия. Люди могут подумать, что вы сделали нечеткую фотографию плохого качества, но на самом деле это было ваше намерение. То же самое может случиться с музыкальной продукцией, такой как намеренно плохая музыка «гаражного панка».
Итак, подведем итог. Мы можем использовать MusicScope для определения всевозможной информации о музыкальной дорожке, но мы также должны учитывать, что было задумано исполнителем, и было ли некачественное мастеринг на самом деле формой искусства или чем-то в этом роде.
Что такое LUFS и почему это важно?
Война громкостей в музыкальной индустрии где каждый хочет иметь максимально возможный уровень, привела к большому ущербу — «усталости» ушей слушателя, искажениям, и отсутствию динамического диапазона.
Война громкостей — это не просто часть закрытой индустрии, любой человек столкнется с этим при просмотре телевизора когда рекламный ролик с ненужным ему продуктом может быть в 10 раз громче, чем предшествовавшее ему ш оу.
В панике зритель хватает пульт дистанционного управления, чтобы отключить звук до того, как соседи пожалуются на шум, но затем, при повторном запуске программы, вам необходимо снова поднимать громкость. Европейский союз вещания (EBU) ненавидит это примерно так как и вы, поэтому они решили это урегулировать. Заодно облегчили процесс сведения песен и альбомов.
Обычно чтобы уровнять громкости в альбоме, инженеры нормализуют все дорожки до максимального пикового значения. Однако это не бывает эффективно, поскольку песня с более высоким средним уровнем, будет звучать громче, чем остальные. Другие же инженеры нормализуют к значению RMS, но тогда пики могут выходить за 0дб, поэтому необходимо срезать их на мастер-шине. В конечном счете, лучший способ сопоставить уровни — субъективен.
Введение в LUFS
В интернете есть множество справочных материалов о стандарте EBU R128 — как он был получен, многочисленные вариации, нюансы следующие за ним — так что давайте придерживаться практических приложений. В принципе, теперь у нас есть измерители громкости, чьи возможности расширяют обычные VU или пиковые метры и основаны на спецификации под названием Loudness Units. LUFS означает полную шкалу громкости, которая ссылается на единицы громкости и полную шкалу (т.е. максимальный уровень, который может обрабатывать система). Steinberg Cubase, PreSonus StudioOne 3, Magix Samplitude, iZotope Insight 2 и другие DAW программы теперь имеют возможность этих измерений.
В двух словах, единицы громкости — единица измерения, используемая в процессе количественного определения воспринимаемой громкости музыки, анализирующая средний уровень с течением времени. Теоретически, два музыкальных произведения, которые регистрируют идентичные уровни LUFS, должны звучать так, как будто они находятся на одном уровне, и на практике они действительно звучат так, как будто они находятся на одном уровне, независимо от того, что говорят пиковые или RMS-измерения. Таким образом, у нас есть непосредственная, практическая выгода — если вы микшируете и хотите согласовать уровни среди референсных треков, обязательно проверьте и их LUFS значения.
Без соответствия LUFS более низкий сигнал звучит намного громче. При сопоставлении LUFS даже формы сигналов, которые отличаются друг от друга, имеют одинаковый видимый уровень.
Это решать вам. Установите уровень на мастер-шине до тех пор, пока ее значение не достигнет целевого уровня. Изменение значений не даст слишком явную разницу. Кроме того, если вы решите выпустить свою музыку через агрегатор, вам нужно будет создать отдельные мастера для CD, загрузки и потоковой передачи, которые могут превратиться в логистический беспорядок. Просто сделайте лучшую музыку, которую вы можете, с нужной динамикой, не заморачиваясь над тонкостями. Слушатель сам определит, нравится ему баланс или нет. Надеемся, что в его системах воспроизведения есть новая функция контроля громкости, о которой мы говорили ранее.
Соответствие различных шкал отображения громкости наглядно иллюстрируется картинкой.
Конечно, формат «альбома» не так популярен как когда-то, но коллекции песен по-прежнему распространены, и измерение LUFS может помочь в их согласованности между собой. Данный алгоритм объявляет перемирие в войнах громкостей — вы не сможете выкрутить звук сильнее, чем звучит музыка на Spotify, потому что Spotify просто вернет баланс обратно. И если вы цените музыку с динамическим диапазоном, Spotify будет уверен, что она звучит как громко, как и все остальное — только с более динамичным диапазоном. Это прогресс!
Нормализация громкости
Меня всегда интересовало, существуют ли какие-то критерии правильной нормализации громкости аудиодорожек. Ну, что обычно подразумевается под нормализацией, так сказать, в быту? Простой пересчёт пиков до отметки в 0 дБ. Однако, результат чаще всего неудовлетворителен — динамический диапазон, т. е., разница между самым громким и самым тихим звуками вроде бы сохраняется (хотя ещё вопрос, так ли это в действительности при простом пересчёте), но сама по себе общая громкость может не повыситься совсем или повыситься незначительно из-за того, что самые громкие звуки, которых может быть один-два на всю запись, уже нормализованы и их повышать уже некуда, а остальной материал так и остался где-то снизу, и слышно его всё так же плохо.
Понятно, что простая линейная нормализация не подходит и нужна какая-то динамическая (в сочетании с компрессией), причём желательно основанная на каких-то объективных критериях. Последнее время я увлёкся изучением возможностей совершенно прекрасного консольного медиаконвертера ffmpeg, где я обнаружил аудиоплагин loudnorm, как раз занимающийся нормализацией аудиосигнала по стандарту Европейского вещательного союза EBU R128.
Какими основными критериями оперирует loudnorm?
Что касается диапазона громкости (Loudness Range, LRA), то здесь нужно действовать по ситуации. Я нашёл на сайте AudioKinetic рекомендации по максимальному уровню LRA, там даны примерные значения для разных условий:
Домашний кинотеатр — 20 единиц
Гостиная — 18 единиц
Кухня — 15 единиц
Гостиная (поздний вечер) — 9 единиц
Общественный транспорт, мобильное устройство — 6 единиц
Чем шумнее вокруг, тем меньший динамический диапазон нужно выставлять, чтобы расслышать все звуки в записи. Чем больше и громче динамики, тем больший LRA возможен. В общем, однозначного критерия здесь быть не может, хотя некоторые значения мы выяснили.
Перейдём, наконец, к практике. Имеется DVD-Video с полукустарно записанным концертом классической музыки, имеющий стандартные проблемы: громкие аплодисменты, тихая музыка и речь ведущей концерта. Графически аудиодорожка выглядит так:
После окончания анализа получаем следующие данные:
После окончания обработки получаем следующую картину:
Видно, что общая громкость стала на 6,1 выше, несмотря на то, что максимальный пик снизился на единицу, в соответствии с рекомендованным значением. Динамический диапазон стал уже на 7,1 — это привело к более ровному звучанию без резких перепадов громкости, но и сохранило динамику.
Результат обработки в графическом виде:
Субъективно могу сказать, что стало гораздо лучше. Приведу отрывки из записи, где есть большой перепад громкости.
UPD: Всё же, нужно задавать динамический диапазон вручную, чтобы автомат не зажимал его слишком сильно. В итоге, более-менее универсальные параметры получились следующие:
Если LRA уже узкий, то он обратно не разжимается, насколько я успел заметить.
Lra что это в музыке
Борис Меерзон
Вступление
В настоящее время телевизионное вещание является одним из самых популярных и эффективных видов СМИ.
В литературе описан психологический феномен, полученный в ходе проведения субъективных экспертиз телевизионных передач и много говорящий о роли звука в телевидении: даже хорошая “картинка”, если она сопровождается плохим звуком, оценивается экспертами ниже, чем она же воспринимается в сопровождении звука более высокого качества.
К сожалению, телезрители часто жалуются на то, что техническое качество звукового сопровождения наших, отечественных телевизионных передач далеко не всегда безупречно. Одной из главных проблем и общей бедой телевизионного вещания (не только отечественного, но и зарубежного), являются неожиданные резкие “скачки” громкости звука в телепередачах.
Очень часто телезрители обращают внимание на неоправданные содержанием программы завышения или занижения громкости. Режущие слух перепады громкости замечаются не только при переключении с одной программы на другую, но даже внутри одной и той же передачи. И это вызывает постоянные нарекания телезрителей.
Особенно болезненно воспринимается большая разница громкости в кинофильмах при переходе к рекламе. Происходит это потому, что в процессе производства рекламных роликов звук в них подвергается сильному сжатию по динамическому диапазону (компрессии). Делается это заведомо, чтобы сделать рекламу громче и этим привлечь к ней внимание телезрителя. Но телевизионная реклама, иногда неожиданно врываясь в программу, звучит громче по сравнению с ней децибел на 15, а то и на все 18! И это очень раздражает слушателя.
Прыжки громкости в передачах замечались и в прошлые годы, когда рекламы в вещательных передачах и в помине не было. Несбалансированность звука часто проявлялась, например, на радио. Наиболее это было заметно в передачах, в которых перемежались речевые и музыкальные фрагменты. Преобладание громкости музыкальных фрагментов над речевыми было иногда столь сильным, что слушатель был вынужден много раз в течение одной передачи подстраивать громкость своего приёмника. И причины этого явления для специалистов секретом отнюдь не являются.
Историческая справка
Традиционно, ещё с того времени, когда вещание было только аналоговым, выравнивание громкости радиовещательных и телевизионных передач проводилось на основании показаний измерителей уровня, регистрирующих максимальные величины электрического уровня сигнала (leveling).
При этом установилось неукоснительное правило: учитывая сравнительно узкий (не более 40 дБ) динамический диапазон, разрешённый аналоговой аппаратурой того времени, для его наиболее рационального использования звукорежиссёр должен был вручную строго поддерживать и нормировать уровень передачи по пикам сигнала, ориентируясь на максимальные показания измерителя уровня. Все элементы программы, вне зависимости от их содержания, “загонялись” в единый, достаточно узкий динамический диапазон, чётко ограниченный сверху уровнем, превышение которого могло бы повлечь за собой перемодуляцию передатчика. Такой метод поддержания уровня по дозволенному максимуму был оправдан тем, что это позволяло улучшить в передаче соотношение сигнал/шум.
Это правило проведения аналоговых передач, как говорится, въелось в плоть и кровь работников вещания, как на радио, так и на телевидении и действует до сих пор.
Но, при обмене программами между вещательными организациями разных стран не всегда принималось во внимание, что в разных студиях телерадиовещания для контроля уровня звукового сигнала могут использоваться измерители уровня с разными техническими характеристиками. А, как известно, показания приборов сильно зависят от их баллистических (скоростных) характеристик.
Приборы, даже совершенно одинаково откалиброванные по эффективному значению напряжения измерительного синусоидального сигнала, могут, если они имеют разное время интеграции (время, за которое прибор усредняет сигнал), на реальных программах давать существенно отличающиеся друг от друга показания уровня. Это трудно предусмотреть заранее, т.к. показания эти зависят от содержания программы, от её временной структуры, т.е. наличия в ней коротких выбросов и частоты их повторения.
Исторически сложилось так, что в вещательных студиях стран Америки, Австралии и некоторых других в основном используется VU-метры (Volume Units meter), имеющие время интеграции 300 мс и относящиеся к измерителям уровня т.н. средних значений. Этот прибор, из-за своей большой инерционности не успевает отреагировать на короткие импульсы уровня и игнорирует их.
В качестве альтернативы VU-метру, Международная электротехническая комиссия в документе IEC 60268-10, совместно с Европейским вещательным союзом (EBU), рекомендовали более быстродействующий прибор с малым временем интеграции (5 мс)
Эти приборы дают звукорежиссёру возможность следить за самыми короткими из воспринимаемых на слух выбросами текущего уровня, которые, при превышении допустимого предела, могут вызвать неприятные нелинейные искажения.
Измерители квазипиковых значений уровня звукового сигнала (QPPM) стандартизованы в России для измерений параметров звукового сигнала и применяются во всех отечественных студиях РВ и ТВ (ГОСТ 21185-75).
Таким образом, в мировом вещательном сообществе ещё со времен аналогового вещания не было единообразного подхода к контролю уровня звукового сигнала: и на радио и на телевидении вещатели разных стран ориентировались на одну из этих двух основных разновидностей приборов: либо на QPPM (квазипиковые), либо на VU-метры (средних значений).
Вот в этом различии контрольных приборов и состояла одна из серьёзных технологических проблем, затрудняющих унификацию уровней звукового вещания: более инерционные приборы занижали показания уровня, а приборы с меньшим временем интеграции, наоборот, завышали их.
Попытки выйти из этого положения осуществлялись давно. Делалось это самыми разными способами. Например, на радио уже лет 40 тому назад применялись в вещании различные модификации автоматических регуляторов уровня – компрессоров и лимитеров. Чисто аппаратным методом предельно сжимался динамический диапазон передачи и “под одну гребёнку” выравнивались пиковые значения сигнала по всей программе, без оглядки на её содержание. До сегодняшнего дня, на большинстве аналоговых FM-радиоканалов, громкость, в основном, выравнивается этим самым примитивным способом, с помощью компрессирования и лимитирования.
Такой способ проведения передач действительно может обеспечить постоянство максимального электрического уровня сигнала и дать возможность приблизительно выровнять среднюю громкость программы. Но подмена звукорежиссёра автоматическим прибором проблему нормализации уровня вещательных передач кардинально не решает. Ведь, при этом нивелируются все художественные нюансы звучания, передача становится “плоской” и невыразительной.
Известно, например, что использование компрессии звука при показе кинофильмов по телевидению приводит к снижению их привлекательности для телезрителей. Как показывают опросы телевизионной аудитории, любители кино в этих случаях просто отказываются от услуг телевидения и предпочитают воспользоваться альтернативой: ранее – прокатом DVD, в настоящее время – сервисом «видео на заказ» (VOD), предоставляемым интернет-телевидением (IPTV), скачиванием телефильмов и сериалов с торрент-серверов, либо их он-лайн просмотром. Таким образом, для высококачественного художественного вещания и, в первую очередь, телевизионного, способ автоматического сжатия динамического диапазона и нормализации уровня по пикам представляется весьма сомнительным.
Даже разработки “умных” автоматов, т.н. “стабилизаторов уровня”, которые, на основе анализа характера сигнала могут отличить музыку от речи и автоматически вносить необходимые поправки по их уровню, до сегодняшнего дня среди вещателей особого одобрения не завоевали и остаются вопросом дискуссионным.
Решение проблемы согласования показаний измерителей уровня с разными характеристиками было достигнуто только в начале 1990-х годов в результате разработки международных рекомендаций по использованию при калибровке каналов передачи системы поправок к показаниям приборов, имеющих разное время интеграции.
При калибровке канала по установочному уровню предлагалось учитывать тот факт, что прибор средних значений (VU-метр) на коротких пиках уровня (длительностью 5 – 10 мс) существенно занижает свои показания, а ещё более короткие пики вовсе игнорирует. По данным статистики, это занижение показаний VU-метра на коротких пиках реальных программ может иногда достигать 9 дБ по сравнению с показаниями на синусоидальном установочном сигнале.
В этом случае на реальных программах независимо от того, каким прибором пользовался звукорежиссёр при их создании, квазипиковые значения уровня по QPPM никогда не превысят 0 дБ, т.е. своего номинального или максимально допустимого значения (PML, Permitted Maximum Level). Разница в 9 дБ (headroom) между уровнем установочного сигнала AL и номинальным или «максимально допустимым» уровнем передачи PML хорошо знакома всем вещателям, но поправка в 9 дБ решала проблему только при аналоговых передачах.
Однако с появлением новых технологий вещания рекомендация ITU-R BS. 645-2 потребовала дополнений. При переходе радио и телевидения на цифровое вещание можно было бы наконец ожидать решения проблемы громкости передач. Однако этого не произошло. Более того, более широкий динамический диапазон, доступный при цифровом вещании, эту проблему ещё более обострил. Пришлось считаться с тем, что цифровой сигнал благодаря своей специфике требует нового подхода к измерениям текущего уровня.
В цифровых цепях даже мгновенные, неощутимые на слух пики уровня передачи становятся причиной сильнейших искажений, выражающихся в щелчках и тресках. Поэтому не показывающий пики короче 5 мс квазипиковый прибор, вполне удовлетворявший по точности требованиям аналогового вещания, для контроля уровня цифрового сигнала оказался непригоден.
Цифровой сигнал необходимо измерять практически безынерционным измерителем, реагирующим на импульсы длительностью менее 0,1 мс, т.е. дающим возможность измерить мгновенные значения сигнала. В литературе измерители мгновенных пиковых значений стали называться «истинно-пиковыми» (True peak) или SPPM (Sample peak program meter) т.е. «измерителями пиков программного уровня с точностью до семпла». Измерители мгновенных значений имеют шкалу, отградуированную в dBFS, т.е. в децибелах относительно полной цифровой шкалы уровня сигнала. Этот уровень, обозначенный на шкале прибора отметкой 0 dBFS, является пределом, превышение которого вызывает цифровое ограничение (клиппирование) сигнала и сопровождающие его необратимые искажения.
Измерения уровня цифрового сигнала имеет принципиальное отличие от измерений сигнала аналогового. Если определение уровня аналогового сигнала сводится в конечном счёте к измерению величины его напряжения (реже мощности), выраженной в децибелах по отношению к величине напряжения (мощности), выбранной за нулевое значение, то уровень цифрового сигнала ни вольтами, ни ваттами не определяется. Нельзя также уровень цифрового сигнала выразить в децибелах по абсолютной шкале в dBu, т.е. по отношению к абсолютному нулевому уровню (0 dBu), за который принимается напряжение 0,775 В эфф.
Цифровой сигнал физической размерности не имеет. Каждой выборке цифрового сигнала присваивается номер соответствующей зоны цифрового квантования. А общее число зон квантования и абсолютная величина полной шкалы уровней цифрового сигнала определяются разрядностью квантования и зависит только от параметров конкретного АЦП. Но главная особенность измерителей уровня мгновенных значений заключается в том, что эти приборы из-за своей мгновенной реакции для регулирования громкости звучания при вещании вовсе не пригодны. Сфера их использования ограничивается чисто техническими функциями – калибровкой каналов передачи и контролем за пиками цифрового сигнала, чтобы они (пики) никогда бы они не превысили 0 dBFS, т.е. точку клиппирования. Разумеется, показания таких приборов очень сильно отличаются от показаний приборов инерционных. Поэтому внедрение в РВ и ТВ цифровых технологий ещё более усложнило проблему унификации поддержания уровней передач.
Таким образом, инженерам вещания пришлось решать новую задачу по согласованию цифровых и аналоговых уровней. Этому согласованию посвящены рекомендации, изложенные в документах Европейского вещательного союза (EBU) R68-2000 и американского Общества телевизионных и киноинженеров (SMPTE) RP 155-2004. Обе эти рекомендации основываются на уже существующем правиле калибровки всех звеньев тракта международных трансляций по эталонному синусоидальному установочному сигналу (AL), аналоговая величина которого должна быть выражена путём её сопоставления с цифровой шкалой измерителя мгновенных значений, отградуированного в dBFS.
Однако несмотря на то, что все перечисленные международные рекомендации по калибровке каналов телевидения опубликованы, в том числе в интернете, и широко всем доступны, на наших отечественных телевизионных каналах на практике путаница в правилах поддержания уровней передач существует и поныне. Может быть, это частично происходит из-за того, что человеку, недостаточно знакомому с историей проблемы, трудно не запутаться в многочисленных переводах на русский язык рекомендаций по этой тематике, опубликованных, в основном, по-английски. Тем более что переводы этих документов часто выполнены так, что оставляют читателю возможность трактовать их текст достаточно вольно.
Но самая главная причина постоянных “скачков” громкости, особенно заметных в передачах, в которых чередуются речевые и музыкальные фрагменты, лежит значительно глубже, нежели разнобой в используемых в разных странах измерителях уровня.
Но этот метод измерений и нормализации уровня аудиосигнала далеко не всегда даёт звукорежиссёру возможность объективно оценить громкость, чтобы выравнивать её в передачах разных жанров таким образом, чтобы слушатель чувствовал бы себя комфортно.
Дело в том, что на основании измерений максимальных величин электрического уровня аудиосигнала VU-метром или QPPM-метром и нормализации уровня по пикам проблема выравнивания громкости передач в принципе решена быть не может, т.к. субъективное восприятие слушателем громкости звука (loudness), далеко не всегда однозначно определяется величиной электрического уровня передачи (level).
Современный взгляд на решение проблемы (Рекомендация ITU-R 1770-2)
Известно, что на восприятие громкости звука, помимо физической величины электрического сигнала, влияет целый ряд психофизиологических (психоакустических) свойств восприятия: временная структура звука (наличие и частота повторения в нём коротких импульсов), спектральный состав звуковых колебаний, эффект взаимной звуковой маскировки и многое другое. Здесь нельзя сбрасывать со счетов даже экранирующий эффект головы слушателя.
Новый метод измерений уровня аудиосигнала, адекватных его громкости, разработан и впервые изложен в Рекомендации Международного телекоммуникационного союза ITU–R BS.1770. В связи с новизной метода и отсутствием практического опыта работы с ним эта рекомендация с момента разработки первой редакции в 2006 году постоянно совершенствовалась и претерпела ряд изменений. Её последняя версия была опубликована в 2011 году.
Разработаны также дополнительные требования к приборам “Измерителям громкости”, которые должны по своим техническим характеристикам отличаться от традиционных “Измерителей уровня”, применяющихся до настоящего времени в студиях звукозаписи и эфирной трансляции. Предлагаемый алгоритм оценки громкости достаточно прост, его можно изложить кратко, если не касаться некоторых технических подробностей и не приводить математический аппарат, на основе которого строится весь процесс измерений.
Состоит этот алгоритм из четырёх этапов:
Упрощённая схема измерений громкости, в одинаковой мере пригодная для монофонических, стереофонических и многоканальных систем, приведена на рис.1.

На приведённой блок-схеме показаны входы пяти основных каналов системы Surround Sound – 5.1 (левого, центрального, правого, левого тылового и правого тылового); что позволяет осуществлять контроль записей, имеющих от одного до пяти каналов. Канал «точка один» для низкочастотных звуковых эффектов (LFE) в этом случае не учитывается. Если программа имеет менее пяти каналов, некоторые входы не используются.
На первом этапе работы алгоритма применяется двухступенчатая фильтрация сигнала с помощью фильтра взвешивания по кривой К, т.н. «К»- взвешивания.
Фильтр “K”-взвешивания осуществляет две ступени фильтрации. Первая ступень – предварительный сглаживающий фильтр, который учитывает акустическое экранирующее воздействие головы на принимаемые ушами сигналы. Частотная характеристика этого фильтра показана на рисунке 2.

Во второй ступени К-фильтра применяется алгоритм Leq (RLB), задачей которого является определенное взвешивание частотных составляющих звука, соответствующее чувственному восприятию спектрального содержимого сигнала. Это фильтр высших частот второго порядка, осуществляющий взвешивание по B-кривой c коррекцией по нижним частотам. В данном случае он используется в качестве одного из возможных вариантов метода измерений Эквивалентного уровня звукового давления (Leq) со спектральным взвешиванием. В результате обработки этим фильтром, частотные компоненты аудиосигнала становятся адекватными их слуховому восприятию. Частотная характеристика фильтра RLB изображена на рисунке 3.

В документе ITU-R 1770 рекомендуется после спектральной обработки в фильтре К-взвешивания цифровые значения громкости обозначать в LKFS, т.е. в единицах громкости, взвешенных по кривой «K», по отношению к номинальной полной шкале измерений. Единица LKFS эквивалентна децибелу, поскольку увеличение уровня сигнала на 1 дБ соответствует увеличению уровня громкости на 1 LKFS.
После спектральной обработки сигнала его взвешенные значения измеряются в определённых временных интервалах поблочно. Для расчёта измеренного значения громкости интервал измерений делится на множество перекрывающихся интервалов-блоков. Каждый блок это множество непрерывных отсчётов звукового сигнала за время продолжительностью T = 400 мс. Перекрытие блоков должно составлять 75% длительности одного блока.

Но при этом те кратковременные падения громкости в отдельных измерительных блоках, которые по уровню оказываются ниже второго установленного на основании измерений порога, из результатов суммирования исключаются, чтобы не занизить общий результат вычисления средней громкости передачи в целом. Это осуществляется благодаря применению т.н. функции gating, аналогичной прибору Gate (пороговый фильтр), который в звукорежиссуре используется в качестве шумоподавителя, производя отключение канала, когда сигнал становится меньше определённого порогового значения.
Следует отметить, что для измерений, предусмотренных рекомендацией ITU-R BS.1770, должны использоваться “Измерители истинно пиковых значений”. Здесь, во избежание путаницы в терминологии, надо пояснить, что прибор, названный в рекомендации ITU-R 1770 “Измерителем истинно пиковых значений” (True peak), несколько отличается от описанных в начале статьи безынерционных пиковых измерителей, именуемых так же. В данном контексте “Измеритель истинно пиковых значений” работает с более высокой по сравнению с аудиосигналом частотой дискретизации (обычно четырехкратной), чтобы уловить пики сигнала, попавшие между семплов, которые, тем не менее, могут превысить 0 dBFS и, таким образом, вызвать искажения сигнала. Так, при стандартизованной для радио и телевизионного вещания частоты дискретизации 48 кГц измерения громкости должны производиться прибором с собственной частотой дискретизации 192 кГц.
Нормирование громкости и максимально допустимый уровень аудиосигнала (Рекомендация EBU R 128-2011)
Положения, изложенные в рекомендации Международного телекоммуникационного союза ITU-R BS. 1770-2, легли в основу дальнейших разработок документов по практическому внедрению нового способа измерения аудиосигналов. Так, в августе 2011 года была опубликована рекомендация Европейского вещательного Союза EBU R 128, в которой суммировались все наработанные за последние годы идеи по совершенствованию методов контроля качества звукового вещания.
В этой рекомендации, озаглавленной “Нормирование громкости и максимально допустимый уровень аудиосигнала”, подчёркивалось, что:
В соответствии с вышеизложенным, Европейский вещательный союз рекомендует при измерениях аудиосигнала пользоваться новой единицей уровня LU (Loudness Unit) и LUFS (единицей громкости относительно полной шкалы). (Наименование “LUFS”, соответствует международной конвенции по терминологии и эквивалентно наименованию LKFS, которое используется ITU-R BS.1770-2).
Рекомендуется для полной характеристики передачи производить измерения по трём основным параметрам:
Основные правила измерений этих параметров сводятся к следующим пунктам:
Завершая этот обзор, нельзя не сказать о том, что известная американская компания Dolby Laboratories, один из признанных лидеров звуковой индустрии, для выбора номинального (опорного) уровня громкости разработала и использует при производстве фильмов и программ в формате Dolby Digital альтернативный метод, названный ими Dialogue Intelligence. Концепция этого метода основывается на моделировании поведения зрителя, находящегося дома у своего телевизора.
При просмотре телепрограмм зритель настраивает уровень громкости так, чтобы речь персонажей фильма (диалоги) или участников телепрограммы были бы хорошо слышны и чётко различимы. Скорее всего, зритель не будет увеличивать громкость своего телевизора, пока в программе нет диалогов. Также мала вероятность того, что он снизит уровень громкости из-за короткого всплеска громкости, вызванного, например, ружейным выстрелом.
Таким образом, выбор фрагмента, по которому человек устанавливает громкость, можно перепоручить измерительному прибору, способному распознавать те фрагменты программы, которые являются определяющими для установки громкости. Эту функцию и исполняет алгоритм Dialogue Intelligence, с требуемой периодичностью проводящий оценку громкости и помогающий оператору выбрать тот фрагмент программы, по которому можно установить оптимальную центральную громкость передачи.
И последнее замечание. На момент написания этой статьи некоторые радиотелевизионные компании Германии (NDR), Австрии (ORF), Бельгии (RTBF) и др. уже накопили определенный опыт использования нового метода измерений уровня громкости и его нормализации.
К сожалению, измерительная аппаратура, соответствующая требованиям, изложенным в рекомендациях ITU-R BS.1770 и EBU R 128, в наших отечественных студиях стала появляться лишь недавно и в единичных экземплярах. Для того чтобы данные рекомендации смогли бы быть внедрены на практике, работникам вещания надо переходить на новые методики проведения передач постепенно по мере того, как это окажется возможным.
В любом случае, есть уверенность в том, что результаты этой “маленькой революции” в телевизионном вещании не преминут весьма благотворно сказаться для огромной аудитории телезрителей.














