iZotope RX 8 — краткий обзор основных функций
Немного истории об iZotope RX.
Изначально iZotope RX изначально позиционировался, как инструмент реставрации звука. В 2007 году была была выпущено первое приложение под название RX, а до того разработчики работали над созданием плагинов для подавления шума.
Но после того, как стало понятно, что нужно иметь визуальное представление работы, появились разработки программной среды. Основу RX представляет спектрограмма, очень гибкая, прописывающаяся со множеством настроек.
В 2007 году ещё нельзя было сказать, что iZotope RX — это программа флагман в области реставрации и анализа звука. Но сегодня, глядя на rx 8 я бы сказал, что это уже полноценная Daw для редактирования аудио и обработки. Сегодня iZotope RX напоминает Adobe Audition в редакторе Edit или Sound Forge.
Это, по сути, однодорожечный аудиоредактор, но с расширенными возможностями реставрации и обработки звука. В нем нет мультитрека и вряд ли это нужно, хотя может быть разработчики пойдут по этому пути.
Но, что касается работы со звуком, с его спектром, то RX — идёт впереди всех.
В RX 8 очень огромное обилие встроенных алгоритмов для работы со звуком. iZotope RX 8 позволит вам буквально, за несколько кликов улучшить качество звука, чтобы это ни было:
Да rx по-прежнему работает, как дополнение к другим daw через плагины, но все же это уже самостоятельная программа и при чем давно. Это своего рода фотошоп для звука.
Что может делать iZotope RX?
Согласитесь, что это очень крутые возможности. Ещё лет 15 назад такое и представить было сложно, что звук можно редактировать так визуально.
Из этого примера видно, что анализ звука — занятие не только звукорежиссёров!
Итак, RX8 создан для борьбы с самыми распространёнными недостатками звукового сигнала, но сегодня выглядит, как самостоятельная Daw для работы со звуком.
Вот какими модулями снабжён iZotope RX8:
Ух! Очень огромный списочек. Rx — очень мощная программа для работы со звуком. По каждому плагину можно писать отдельную статью.
iZotope RX9, обновление (дополнительные опции спектрального редактирования)
Компания iZotope продолжила свое сентябрьское объявление выпуском RX9 и Post Production Suite 6. RX уже несколько лет является частью зрелой программной технологии, поэтому внести существенные улучшения на данный момент — настоящий подвиг. Каким бы умным оно ни было, iZotope все же удалось выпустить значительное обновление. RX9 есть что предложить. Давайте копаться.
iZotope RX9 и пост-продакшн 6
Перво-наперво, RX9 может похвастаться совершенно новым алгоритмом Dialogue Isolate, который извлекает достаточно чистый голос из записей, страдающих от фонового шума хаотического типа (толпы, движение, погода и т. д.). Кроме того, алгоритм De-Hum получает новый динамический режим для мгновенного удаления гула / звона / помех без снижения точности воспроизведения. Новый сложный режим в Ambience Match позволяет профессионалам связывать диалоги и кадры ADR с движением фона и текстурами.
Новая функция « Восстановить выделение» может откатить выделение аудио к любому шагу из истории отмен (Ctrl-Z для спектрального редактирования, да!), Которая была расширена, чтобы показать 30 шагов. Наконец, пользователям Logic Pro X предоставляется Spectral Editor на основе ARA. Хотя это не очень обширный список из примерно 40 новых функций и улучшений, мы не возражаем с решением iZotope сделать этот выпуск основным выпуском RX.
Вы также можете получить RX9 как часть iZotope Post Production Suite 6, что является финансово выгодным способом приобретения, вместе с большей частью производственного программного обеспечения разработчика (если оно вам нужно). Вы можете узнать больше о том, что включено здесь.
Стоимость
В настоящее время RX9 доступен в трех версиях с начальной ценой: Elements (29 долларов США по сравнению с 129 долларов США), Standard (299 долларов США по сравнению с 399 долларов США) и Advanced (799 долларов США по сравнению с 1199 долларами США). Функциональные различия между ними описаны здесь. Post Production Suite 6 продается по цене 999 долларов США по сравнению с 1999 годом.
Больше информации об iZotope
Спасибо, что читаете New Style Sound ( RSS-лента ). Подписывайтесь на новости или RSS и делитесь статьями с друзьями. Что такое RSS ( читать ). Скачивайте также бесплатные плагины на сайте.
iZotope RX 8: интересные новые функции и несколько улучшений
iZotope вернулся к нам с выпуском RX 8 и RX Post Production Suite 5. Помимо обычных улучшений, появились новые функции для музыки и пост-продакшна, а также для создания контента.
iZotope RX 8
Давайте сначала взглянем на RX 8. С момента выхода версии 7 IZotope прошло два года. Как обычно, RX 8 доступен в трех версиях (Elements, Standard и Advanced). Большинство новых функций и обновлений включены в версии Standard и Advanced.
Во всех трех версиях вы найдете переработанный De-hum, который ещё более разумно удаляет раздражающий гул. Горизонтальная прокрутка позволяет быстрее работать с программой восстановления, что наверняка понравится пользователям. Также доступны новые цветовые схемы.
Новые функции в стандартной и расширенной версиях
Во-первых, это улучшенный пакетный процессор, который теперь напрямую отображает битовую глубину, частоту дискретизации или время воспроизведения. Он также может одновременно экспортировать в несколько форматов. Модули для обработки можно расположить произвольно, а также масштабировать интерфейс в размерах.
Guitar De-noise специально приспособлен к требованиям к записи гитарных треков и «очищает» их в различных «проблемных областях». В видео вы можете посмотреть несколько примеров до и после, которые хорошо это демонстрируют.
Music Rebalance теперь работает еще лучше и предлагает функции соло, автоматическое разделение на основы и улучшенные алгоритмы. Это полезно не только для последующей балансировки миксов, но также помогает при создании правок или ремиксов.
Loudness Control предлагает оптимизированный контроль над громкостью проекта. В зависимости от приложения существуют разные требования.
Улучшенный композитный просмотр позволяет редактировать до 32 отдельных звуковых дорожек одновременно — ранее было возможно только 16. Посмотрим, сколько их будет в 9 версии!
Эксклюзивно в RX 8 Advanced
Spectral Recovery основан на машинном обучении и фактически расширяет недостающие частоты в записях. Это позволяет улучшить качество звучания. Например, таким записям как с мобильного телефона или файлам с уменьшенным объемом данных, такие как MP3. Конечно, есть также несколько предустановок, которые можно использовать для решения распространенных проблем.
Wow & Flutter не создает здесь «жужжащего» звука, как того требуют некоторые другие плагины — нет, RX 8 устраняет именно этот эффект.
Dialogue Isolate изолирует речь в записях от отвлекающих фоновых шумов даже при резких настройках.
Постпродакшн iZotope RX 5
RX Post Production Suite 5 также является новым. Если вы хотите быть готовым к любой задаче в области постпродакшна, вы получите следующие продукты:
Стоимость
iZotope RX 8 работает на macOS (10.13.6 или новее) и Windows 10. Плагины доступны как VST2, VST3, AU и AAX, только в 64-битной версии.
До 14 октября действует предварительное предложение, и вы платите 96 евро за Elements вместо 129 евро, 289 евро за RX 8 Standard вместо 399 евро и 969 евро за RX 8 Advanced вместо 1199 евро.
Подробнее
Спасибо, что читаете New Style Sound ( RSS-лента ). Подписывайтесь на новости или RSS и делитесь статьями с друзьями. Что такое RSS ( читать ). Скачивайте также бесплатные плагины на сайте.
Специальные фильтры для борьбы с посторонними шумами
В прошлых статьях мы рассмотрели различные возможности ослабления шума и лишних звуков в аудиофайлах. Можно заметить, что легче всего ослабить фоновый шум и фоновое гудение, в то время как более сложные варианты загрязнения сигнала лечатся с большим трудом и меньшей резутльтативностью. Так, у нас есть фильтр Deconstruct, но им очень легко удалить вместе с действительно лишней «грязью» и часть полезного шума.
А что если сделать такие инструменты, которые были бы расчитаны под определённый тип искажения сигнала? Скажем, вот в микрофон задувает ветер, и образуются помехи в довольно предсказуемом диапазоне частот и достаточно предсказуемого характера. Что если сделать фильтр, который бы трогал только эти частоты и только «подозрительные» случаи в них, всё остальное оставляя в покое? Что если применить такую логику и к другим наиболее типичным загрязнениям сигнала, ограничив частоты и характер убираемых артефактов?
Такие специализированные инструменты действительно существуют, причём некоторые из них имеют весьма почтенную историю (как, например, de-esser – фильтр для борьбы с излишне громкими шипящими и свистящими призвуками, да и вообще солидная часть вокальных фильтров). К подобным проверенным временем инструментам со временем добавлялись новые. И особенно славится подобными фильтрами как раз детище компании iZotope.
Эти фильтры условно можно разделить на две группы:
Каждой из этих групп фильтров, соответственно, будет посвящена нынешняя статья и следующая за ней.
Боремся с щелчками: De-click
В прошлой статье, говоря о фильтре De-construct, мы упомянули, что он неплохо справляется с лишними щелчками в звуке (которые встречаются как в оцифровках с аналоговых носителей, так и в изначально цифровых файлах). Существует, однако, специальный фильтр, заточенный именно под эту задачу: это фильтр De-click. Как показывает практика, нет универсального рецепта, какой из этих двух фильтров работает лучше. В большинстве случаев специализированный фильтр De-click работает более аккуратно, однако в сложных случаях (например, в треках с обилием перкуссии, которую фильтр может также посчитать лишними щелчками) возможно преимущество фильтра De-construct. Лучший критерий в этом и в других спорных случаев – это Ваш слух.
В интерфейсе фильтра De-click (рис.1) обращают на себя внимание следующие элементы:
Algorithm (Алгоритм). Позволяет выбрать среди различных алгоритмов обработки сигнала. Их всего четыре:
Справа вверху расположен регулятор чувствительности. Чем выше чувствительность, тем больше щелчков будет удалено, но также выше вероятность того, что фильтр в своей работе «перестарается».
Слева внизу расположен регулятор рабочей частоты (Frequency skew). Если регулятор отклонён влево от условного «нуля», фильтр работает с более низкими частотами, если вправо – с более высокими. Первый вариант больше подходит для борьбы с виниловым «песком», второй – для борьбы со «слюнями».
Регулятором справа внизу «Расширение щелчка» (Click widening) мы можем увеличить продолжительность того, что программа посчитает щелчком и удалит.
Наконец, флажок «Выводить только щелчки» (Output clicks only) позволяет оценить, что именно мы удаляем из нашего звука (не затронули ли чего-то лишнего).
Ещё меньше треска: De-crackle
Если отдельные щелчки воспринимаются нами как собственно щелчки, то множество щелчков, расположенных подряд или почти подряд, воспринимается уже как потрескивание. Именно для борьбы с подобным потрескиванием и был разработан фильтр De-crackle.
Так как природа потрескивания и щелчков схожа, то разработчики программы рекомендуют следующую последовательность в работе: сначала удалить самые сильные щелчки фильтром De-click, после чего уже «добить» оставшееся фильтром De-crackle.
В фильтре доступны следующие настройки (рис. 2):
Quality – качество. Доступны три уровня: low (низкий), medium (умеренный) и high (высокий). Для обработки рекомендуется высокий уровень, а достоинство низкого уровня качества лишь в одном: возможность применять в режиме реального времени.
Strength – сила. От этой настройки зависит, насколько сильно фильтр будет подавлять треск.
Amplitude skew (управление реакцией фильтра на разных амплитудах). Сила потрескивания часто зависит от уровня сигнала. Так, в перегруженном сигнале треск появляется на больших громкостях, то есть на высокой амплитуде сигнала. В записях подобного рода целесообразно подвинуть этот движок вправо, к более высоким амплитудам. В тех же случаях, когда «трещат» более тихие моменты, может потребоваться, напротив, сместить этот движок влево.
Доступна также настройка вывода только треска (output crackle only) которую можно использовать для контроля силы работы фильтра.
Ослабляем шорохи: de-rustle
Шорохи на записи могут образовываться по разным причинам, самая частая из которых – трение чего-либо недалеко от микрофона или даже о сам микрофон. Например, микрофон-петличка может тереться об одежду, на которой он закреплён. Звук такие шорохи портят очень заметно.
Есть и другие источники шорохов: например, шум ветров в листве. И если мы посмотрим на пиктограмму фильтра de-rustle, мы увидим стилизованное изображение листочка, намекающее нам на предназначение этого фильтра.
Открыв его окно (рис. 3), мы видим ряд регуляторов настроек:
Reduction strength – сила подавления. Меньшие значения соответствуют более бережной работе фильтра и большей прозрачности итогового звука. Большие значения позволяют убирать даже очень сильные шорохи, но могут исказить звучание полезного сигнала, сделать его сдавленным и непрозрачным.
Ambience preservation – защита фоновых звуков (не шорохов) от подавления. Чем ниже значение этой настройки, тем мягче фильтр проводит границу между шорохами и фоновым окружением (соответственно, в некоторой степени ослабляются и прочие фоновые звуки). Чем выше значение, тем тщательнее фильтр старается удалять только шорохи, не трогая всё остальное.
Separation Algorithm – алгоритм отделения шорохов от полезного сигнала. Доступно три алгоритма:
1) Channel independent – независимая обработка каждого из каналов. Самый быстрый из алгоритмов, который можно использовать в случае необходимости включения фильтра в режиме реального времени.
2) Joint channel – совмещённая обработка каналов. Совмещение каналов позволяет алгоритму работать более аккуратно и в меньшей степени затрагивая полезный сигнал. Этот режим особенно эффективен при обработке стерео-файлов, в которых информация о полезном сигнале в достаточной степени присутствует в обоих каналах.
3) Advanced joint channel – самый сложный алгоритм, дающий наилучшее качества и требующий наибольших затрат со стороны работы процессора и времени обработки. Помимо совмещения каналов включает в себя дополнительные алгоритмы предобработки сигнала.
Нижний блок, посвящённый предпрослушиванию и выводу, выглядит вполне обычно, однако предпрослушивание (preview) в этом фильтре имеет одну важную особенность: из-за сложности самого фильтра оно доступно только в сниженном качестве. Об этом следует помнить, предварительно оценивая качество звука по предпрослушиванию.
De-wind против ветра, задувающего в микрофон
Шум ветра, задувающего в микрофон – очень распространённая проблема, испортившая далеко не одну аудио- и видеозапись. К счастью, искажения, вносимые ветром, затрагивают лишь определённые частоты и могут быть в них легко обнаружены. А значит, нет необходимости пропускать через фильтр все частоты сигнала: и низкие, и высокие. Достаточно ограничиться теми, которые испортил ветер.
Именно по такому принципу и работает противоветровый фильтр программы Izotope RX – de-wind.
Рассмотрим интерфейс фильтра (рис. 4).
Регулятор reduction (подавление) управляет силой работы фильтра. Чем выше уровень подавления, тем жёстче будет работать фильтр.
Crossover frequency (частота кроссовера) – устанавливает верхнюю границу работы фильтра в герцах. Всё, что выше этой частоты, фильтром затронуто не будет.
Fundamental recovery – восстановление низких гармоник, их искусственный синтез. Помогает фильтру компенсировать потерю части полезного сигнала на низких частотах.
Artifact smoothing – сглаживание артефактов. Смягчает границы перехода от обработанного сигнала к необработанному и способствует меньшей слышимости артефактов «музыкального шума», вызванного быстрыми преобразованиями Фурье, лежащим, как мы помним, в основе работы очень многих цифровых аудиофильтров.
Мы рассмотрели фильтры для борьбы с посторонними звуками разного происхождения. Однако существуют и особые искажения сигнала, типичные именно для записи голоса. Именно о фильтрах, позволяющих бороться с этими искажениями, мы и поговорим в следующей статье.
DeRustle: Removing Lavalier Microphone Noise with Deep Learning
By inconspicuously attaching on clothing near a person’s mouth, the lavalier microphone (lav mic) provides multiple benefits when capturing dialogue. For video applications, there is no microphone distracting viewer attention, and the orator can move freely and naturally since they aren’t holding a microphone. Lav mics also benefit audio quality, since they are attached near the mouth they eliminate noise and reverberation from the recording environment.
Unfortunately, the freedom lav mics provide an orator to move around can also be a detriment to the audio engineer, as the mic can rub against clothing or bounce around creating disturbances often described as rustle. Here are some examples of lav-mic recordings where the person moved just a bit too much:
Because of all these variations, rustle presents itself sonically in many different ways from high frequency “crackling” sounds to low frequency “thuds” or bumps. Additionally, rustle often overlaps with speech and is not well localized in time like a click or in frequency like electrical hum. These difficulties made it nearly impossible to develop an effective deRustle algorithm using traditional signal processing approaches. Fortunately, with recent breakthroughs in source separation and deep learning removing lav rustle with minimal artifacts is now possible.
Audio Source Separation
Often referred to as “unmixing”, source separation algorithms attempt to recover the individual signals composing a mix, e.g., separating the vocals and acoustic guitar from your favorite folk track. While source separation has applications ranging from neuroscience to chemical analysis, its most popular application is in audio, where it drew inspiration from the cocktail party effect in the human brain, which is what allows you to hear a single voice in a crowded room, or focus on a single instrument in an ensemble.
We can view removing lav mic rustle from dialogue recordings as a source separation problem with two sources: rustle and dialogue. Audio source separation algorithms typically operate in the frequency domain, where we separate sources by assigning each frequency component to the source that generated it. This process of assigning frequency components to sources is called spectral masking, and the mask for each separated source is a number between zero and one at each frequency. When each frequency component can belong to only one source, we call this a binary mask since all masks contain only ones and zeros. Alternatively, a ratio mask represents the percentage of each source in each time-frequency bin. Ratio masks can give better results, but are more difficult to estimate.
For example, a ratio mask for a frame of speech in rustle noise will have values close to one near the fundamental frequency and its harmonics, but smaller values in low-frequencies not associated with harmonics and in high frequencies where rustle noise dominates.

To recover the separated speech from the mask, we multiply the mask in each frame by the noisy magnitude spectrum, and then do an inverse Fourier transform to obtain the separated speech waveform.
Mask Estimation with Deep Learning
The real challenge in mask-based source separation is estimating the spectral mask. Because of the wide variety and unpredictable nature of lav mic rustle, we cannot use pre-defined rules (e.g., filter low frequencies) to estimate the spectral masks needed to separate rustle from dialogue. Fortunately, recent breakthroughs in deep learning have led to great improvements in our ability to estimate spectral masks from noisy audio (e.g., this interesting article related to hearing aids ). In our case, we use deep learning to estimate a neural network that maps speech corrupted with with rustle noise (input) to separated speech and rustle (output).

We can then mix in some isolated rustle noise, to create a nosiy spectrogram where the true separated sources are known.

We then feed this noisy spectrogram to the neural network which outputs a ratio mask. By multiplying the ratio mask with the noisy input spectrogram we have an estimate of our clean speech spectrogram. We can then compare this estimated clean speech spectrogram with the original clean speech, and obtain an error signal which can be backpropagated through the neural network to update the weights. We can then repeat this process over and over again with different clean speech and isolated rustle spectrograms. Once training is complete we can feed a noisy spectrogram to our network and obtain clean speech.
Gathering Training Data
We ultimately want to use our trained network to generalize across any rustle corrupted dialogue an audio engineer may capture when working with a lav mic. To achieve this we need to make sure our network sees as many different rustle/dialogue mixtures as possible. Obtaining lots of clean speech samples is relatively easy; there are lots of datasets developed for speech recognition in addition to audio recorded for podcasts, video tutorials, etc. However, obtaining isolated rustle noises is much more difficult. Engineers go to great lengths to minimize rustle and recordings of rustle typically are heavily overlapped with speech. As a proof of concept, we used recordings of clothing or card shuffling from sound effects libraries as a substitute for isolated rustle.
These gave us promising initial results for rustle removal, but only worked well for rustle where the mic rubbed heavily over clothing. To build a general deRustle algorithm, we were going to have to record our own collection of isolated rustle.
We started by calling into the post production industry to obtain as many rustle corrupted dialogue samples as possible. This gave us an idea of the different qualities of rustle we would need to emulate in our dataset. Our sound design team then worked with different clothing materials, lav mounting techniques (taping and clipping), and motions from regular speech gestures to jumping and stretching to collect our isolated rustle dataset. Additionally, in machine learning any patterns can potentially be picked up by the algorithm, so we also varied things like microphone type and recording environment to make sure our algorithm didn’t specialize to a specific microphone frequency response for example. Here’s a greatest hits collection of some of the isolated rustle we used to train our algorithm:
Debugging the Data
One challenge with machine learning is when things go wrong it’s often not clear what the root cause of the problem was. Your training algorithm can compile, converge, and appear to generalize well, but still behave strangely in the wild. For example, our first attempt at training a deRustle algorithm always output clean speech with almost no energy above 10 kHz, even though there was speech energy at those frequencies.

It turned out that a large percentage of our clean speech was recorded with a microphone that attenuated high frequencies. Here’s an example problematic clean speech spectrogram with almost no high-frequency energy:

Since all of our rustle recordings had high frequency energy the algorithm learned to assign no high frequency energy to speech. Adding more high quality clean speech to our training set corrected this problem.
Before and After Examples
Once we got the problems with our data straightened out and trained the network for a couple days on a NVIDIA K80 GPU, we were ready to try it out removing rustle from some pretty messy real-world examples:
Before
After
Before
After
Conclusion
While lav mics are an extremely valuable tool, if they move a bit too much the rustle they produce can drive you crazy. Fortunately, by leveraging advances in deep learning we were able to develop a tool to accurately remove this disturbance. If you’re interested in trying this deRustle algorithm give the RX 6 Advanced demo a try.







