Цифровой звук – это способ представления электрического сигнала посредством дискретных численных значений его амплитуды. Как происходит оцифровка? Звуковая волна – это некая функция, зависимость амплитуды звуковой волны от времени. Описать данную функцию возможно путем хранения ее дискретных значений в определенных точках. Иными словами, в каждой точке времени можно измерить значение амплитуды сигнала и записать в виде чисел. Однако и в этом методе есть свои недостатки, так как значения амплитуды сигнала мы не можем записывать с бесконечной точностью, и вынуждены их округлять. Говоря иначе, мы будем приближать эту функцию по двум координатным осям – амплитудной и временной т.е. записывать их с конечной точностью.
Вы уже знаете о суперспособностях современного учителя?
Тратить минимум сил на подготовку и проведение уроков.
Быстро и объективно проверять знания учащихся.
Сделать изучение нового материала максимально понятным.
Избавить себя от подбора заданий и их проверки после уроков.
«Обычный» аналоговый звук представляется в аналоговой аппаратуре непрерывным электрическим сигналом. Компьютер оперирует с данными в цифровом виде. Это означает, что и звук в компьютере представляется в цифровом виде.
Цифровой звук – это способ представления электрического сигнала посредством дискретных численных значений его амплитуды. Как происходит оцифровка? Звуковая волна – это некая функция, зависимость амплитуды звуковой волны от времени. Описать данную функцию возможно путем хранения ее дискретных значений в определенных точках. Иными словами, в каждой точке времени можно измерить значение амплитуды сигнала и записать в виде чисел. Однако и в этом методе есть свои недостатки, так как значения амплитуды сигнала мы не можем записывать с бесконечной точностью, и вынуждены их округлять. Говоря иначе, мы будем приближать эту функцию по двум координатным осям – амплитудной и временной т.е. записывать их с конечной точностью.
Таким образом, оцифровка сигнала включает в себя два процесса – процесс дискретизации (осуществление выборки) и процесс квантования. Процесс дискретизации – это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени (рис 2.1.).
Рис 1. Процесс дискретизации
Квантование – процесс замены реальных значений сигнала приближенными с определенной точностью (рис 2.). Чаще всего применяют линейное квантование, когда числовое значение отсчета пропорционально амплитуде сигнала. Из–за логарифмической природы слуха более целесообразным было бы логарифмическое квантование, когда числовое значение пропорционально величине сигнала в децибелах, однако это сопряжено с трудностями чисто технического характера. Таким образом, оцифровка – это фиксация амплитуды сигнала через определенные промежутки времени и регистрация полученных значений амплитуды в виде округленных цифровых значений (так как значения амплитуды являются величиной непрерывной, нет возможности конечным числом записать точное значение амплитуды сигнала, именно поэтому прибегают к округлению). Записанные значения амплитуды сигнала называются отсчетами. Очевидно, что чем чаще мы будем делать замеры амплитуды (чем выше частота дискретизации) и чем меньше мы будем округлять полученные значения (чем больше уровней квантования), тем более точное представление сигнала в цифровой форме мы получим. Оцифрованный сигнал в виде набора последовательных значений амплитуды можно сохранить.
Рис 2. Процесс квантования
Для преобразования дискретизованного сигнала в аналоговый вид, пригодный для обработки аналоговыми устройствами (усилителями и фильтрами) и последующего воспроизведения через акустические системы, служит цифроаналоговый преобразователь (ЦАП). Процесс преобразования представляет собой обратный процесс дискретизации: имея информацию о величине отсчетов (амплитуды сигнала) и беря определенное количество отсчетов в единицу времени, путем интерполирования происходит восстановление исходного сигнала (рис 3.).
Рис 3. Процесс восстановления исходного сигнала по цифровым данным
Хранение цифрового звука
Для хранения цифрового звука существует много различных способов. Как мы говорили, оцифрованный звук являет собой набор значений амплитуды сигнала, взятых через определенные промежутки времени. Таким образом, во–первых, блок оцифрованной аудио информации можно записать в файл «как есть», то есть последовательностью чисел (значений амплитуды). В этом случае существуют два способа хранения информации.
Первый – PCM (Pulse Code Modulation – импульсно–кодовая модуляция) – способ цифрового кодирования сигнала при помощи записи абсолютных значений амплитуд (бывают знаковое или беззнаковое представления). Именно в таком виде записаны данные на всех аудио CD.
Второй способ (рис 4.) – ADPCM (Adaptive Delta PCM – адаптивная относительная импульсно – кодовая модуляция) – запись значений сигнала не в абсолютных, а в относительных изменениях амплитуд (приращениях).
Рис 4. Запись сигнала в относительных изменениях амплитуд
Сжатие и кодирование звуковых сигналов
Также, можно сжать или упростить данные так, чтобы они занимали меньший объем памяти. В данном случае имеются также два пути.
Кодирование данных без потерь (lossless coding) – это способ кодирования аудио, который позволяет осуществлять стопроцентное восстановление данных из сжатого потока. К такому способу сжатия данных прибегают в тех случаях, когда сохранение оригинального качества данных критично. Например, после сведения звука в студии звукозаписи, данные необходимо сохранить в архиве в оригинальном качестве для возможного последующего использования.
Имеется и второй путь кодирования, – кодирование данных с потерями (lossy coding). Цель такого кодирования – любыми способами добиться схожести звучания восстановленного сигнала с оригиналом при как можно меньшем объеме упакованных данных. Это достигается путем использования различных алгоритмов «упрощающих» оригинальный сигнал (выкидывая из него «ненужные» слабослышимые детали), что приводит к тому, что декодированный сигнал фактически перестает быть идентичным оригиналу, а лишь похоже звучит. Надо особо подчеркнуть, что в основе всех lossy–кодеров лежит использование так называемой психоакустической модели, которая как раз и занимается «упрощением» оригинального сигнала. Говоря точнее, механизм подобных кодеров выполняет анализ кодируемого сигнала, в процессе которого определяются участки сигнала, в определенных частотных областях которых имеются неслышные человеческому уху частоты звука (замаскированные или неслышимые частоты), после чего происходит их удаление из оригинального сигнала. Таким образом, степень сжатия оригинального сигнала зависит от степени его «упрощения».
Цифровые форматы сжатия звука
Методов сжатия, а также программ, реализующих эти методы, существует много. Наиболее известными являются MPEG-1 Layer I,II,III (последним является всем известный MP3), MPEG-2 AAC (advanced audio coding), Ogg Vorbis, Windows Media Audio (WMA), TwinVQ (VQF), MPEGPlus, TAC, и прочие. В среднем, коэффициент сжатия, обеспечиваемый такими кодерами, находится в пределах 10-14 (раз).
Методы, используемые для обработки звука
Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких – то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:
1. Монтаж. Состоит в выpезании из записи одних участков, вставке дpугих, их замене, pазмножении и т.п. Hазывается также pедактиpованием. Все совpеменные звуко – и видеозаписи в той или иной меpе подвеpгаются монтажу.
2. Амплитудные пpеобpазования, выполняются пpи помощи pазличных действий над амплитудой сигнала, котоpые, в конечном счете, сводятся к умножению значений сэмплов на постоянный коэффициент (усиление/ослабление) или изменяющуюся во вpемени функцию – модулятоp (амплитудная модуляция). Частным случаем амплитудной модуляции является фоpмиpование огибающей для пpидания стационаpному звучанию pазвития во вpемени. Амплитудные пpеобpазования выполняются последовательно с отдельными самплами, поэтому они пpосты в pеализации и не тpебуют большого объема вычислений.
3. Частотные (спектpальные) пpеобpазования, выполняются над частотными составляющими звука. Если использовать спектpальное pазложение – фоpму пpедставления звука, в котоpой по гоpизонтали отсчитываются частоты, а по веpтикали – интенсивности составляющих этих частот, то многие частотные пpеобpазования становятся похожими на амплитудные пpеобpазованиям над спектpом. Hапpимеp, фильтpация – усиление или ослабление опpеделенных полос частот – сводится к наложению на спектp соответствующей амплитудной огибающей. Однако частотную модуляцию таким обpазом пpедставить нельзя – она выглядит, как смещение всего спектpа или его отдельных участков во вpемени по опpеделенному закону.
Для pеализации частотных пpеобpазований обычно пpименяется спектpальное pазложение по методу Фуpье, котоpое тpебует значительных pесуpсов. Однако имеется алгоpитм быстpого пpеобpазования Фуpье (БПФ, FFT), котоpый делается в целочисленной аpифметике и позволяет pазвоpачивать в pеальном вpемени спектp сигнала сpеднего качества. Пpи частотных пpеобpазованиях, кpоме этого, тpебуется обpаботка и последующая свеpтка, поэтому фильтpация в pеальном вpемени пока не pеализуется на пpоцессоpах общего назначения. Вместо этого существует большое количество цифpовых сигнальных пpоцессоpов (Digital Signal Processor – DSP), котоpые выполняют эти опеpации в pеальном вpемени и по нескольким каналам.
4. Фазовые пpеобpазования, сводятся в основном к постоянному сдвигу фазы сигнала или ее модуляции некотоpой функцией или дpугим сигналом. Благодаpя тому, что слуховой аппаpат человека использует фазу для опpеделения напpавления на источник звука, фазовые пpеобpазования стеpеозвука позволяют получить эффект вpащающегося звука, хоpа и ему подобные.
5. Вpеменные пpеобpазования, заключаются в добавлении к основному сигналу его копий, сдвинутых во вpемени на pазличные величи – ны. Пpи небольших сдвигах (поpядка менее 20 мс) это дает эффект pазмножения источника звука (эффект хоpа), пpи больших – эффект эха.
6. Фоpмантные пpеобpазования, являются частным случаем частотных и опеpиpуют с фоpмантами – хаpактеpными полосами частот, встpечающимися в звуках, пpоизносимых человеком. Каждому звуку соответствует свое соотношение амплитуд и частот нескольких фоpмант, котоpое опpеделяет тембp и pазбоpчивость голоса. Изменяя паpаметpы фоpмант, можно подчеpкивать или затушевывать отдельные звуки, менять одну гласную на дpугую, сдвигать pегистp голоса и т.п.
Преимущества и недостатки цифрового звука
Цифровое представление звука ценно прежде всего возможностью бесконечного хранения и тиражирования без потери качества, однако преобразование из аналоговой формы в цифровую и обратно все же неизбежно приводит к частичной его потере. Наиболее неприятные на слух искажения, вносимые на этапе оцифровки – гранулярный шум, возникающий при квантовании сигнала по уровню из – за округления амплитуды до ближайшего дискретного значения. В отличие от простого широкополосного шума, вносимого ошибками квантования, гранулярный шум представляет собой гармонические искажения сигнала, наиболее заметные в верхней части спектра. Мощность гранулярного шума обратно пропорциональна количеству ступеней квантования, однако из – за логарифмической характеристики слуха при линейном квантовании (постоянная величина ступени) на тихие звуки приходится меньше ступеней квантования, чем на громкие, и в результате основная плотность нелинейных искажений приходится на область тихих звуков. Это приводит к ограничению динамического диапазона, который в идеале (без учета гармонических искажений) был бы равен соотношению сигнал/шум, однако необходимость ограничения этих искажений снижает динамический диапазон для 16 – разрядного кодирования до 50 – 60 дБ.
Положение могло бы спасти логарифмическое квантование, однако его реализация в реальном времени весьма сложна и дорога.
Искажения, вносимые гранулярным шумом, можно уменьшить путем добавления к сигналу обычного белого шума (случайного или псевдослучайного сигнала), амплитудой в половину младшего значащего разряда; такая операция называется сглаживанием (dithering). Это приводит к незначительному увеличению уровня шума, зато ослабляет корреляцию ошибок квантования с высокочастотными компонентами сигнала и улучшает субъективное восприятие. Сглаживание применяется также перед округлением отсчетов при уменьшении их разрядности. По существу, dithering и noise shaping являются частными случаями одной технологии – с той разницей, что в первом случае используется белый шум с равномерным спектром, а во втором – шум со специально "формованным" спектром.
При восстановлении звука из цифровой формы в аналоговую возникает проблема сглаживания ступенчатой формы сигнала и подавления гармоник, вносимых частотой дискретизации. Из – за неидеальности АЧХ фильтров может происходить либо недостаточное подавление этих помех, либо избыточное ослабление полезных высокочастотных составляющих. Плохо подавленные гармоники частоты дискретизации искажают форму аналогового сигнала (особенно в области высоких частот), что создает впечатление "шероховатого", "грязного" звука.
Список используемой литературы
Сергиенко А.Б. Цифровая обработка сигналов. – М.: Наука, 1999. 303 с Ю.А.Ковалгин Цифровое кодирование звуковых сигналов. – М.: Питер, 2004. 245 с
Алдошина И.А., Вологдин Э.И. Электроакустика и звуковое вещание. Учебное пособие для вузов. – М.: Питер, 2015. 409 с
Энциклопедия "WikiPedia": http://www.wikipedia.org/
"Physical audio signal processing" – информация об обработке звука с точки зрения физики: http://www – ccrma.stanford.edu/~jos/pasp/
Сергей Андрианов, "Чего можно ожидать от цифрового звука", 2014, http://www.morepc.ru/sound/sound040320041.html?print