1.8.3. Кодирование звуковой информации
1.8.3.1. Оцифровка звука
Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Для человека звук тем громче, чем больше амплитуда сигнала, и тем выше тон, чем больше частота сигнала. Непрерывный сигнал не несет в себе информации, поэтому он должен быть превращен в последовательность двоичных нулей и единиц – двоичный (цифровой) код.
Оцифровку звука выполняет специальное устройство на звуковой плате. Называется оно аналого-цифровой преобразователь (АЦП). Обратный процесс — воспроизведение закодированного звука производится с помощью цифро-аналогового преобразователя (ЦАП):
В процессе кодирования
непрерывного звукового сигнала
производится его дискретизация по
времени, или, как говорят, «временная
дискретизация». Звуковая волна разбивается
на отдельные маленькие временные участки
и для каждого участка устанавливается
определенная величина амплитуды.
Данный
метод называется импульсно-амплитудной
модуляцией РСМ I
Pulse
Code
Modulation).
A (t)
t
Время
Таким образом, гладкая кривая заменяется на последовательность «ступенек». Каждой «ступеньке» присваивается значение громкости звука (1, 2, 3 и т.д.). Чем больше «ступенек», тем большее количество уровней громкости будет выделено в процессе кодирования, и тем большее количество информации будет нести значение каждого уровня и более качественным будет звучание.
1.8.3.2. Характеристики оцифрованного звука
Качество звука зависит от двух характеристик — глубины кодирования звука и частоты дискретизации.
Глубина кодирования звука (I)
— это количество бит, используемое для
кодирования различных уровней сигнала
или состояний. Тогда общее количество
таких состояний или уровней (N)
можно вычислить по формуле: N = 2I.
Современные звуковые карты обеспечивают 16-битную глубину кодирования звука, и тогда общее количество различных уровней будет: N = 2I6 = 65536.
Частота дискретизации (М) — это количество измерений уровня звукового сигнала в единицу времени. Эта характеристика показывает качество звучания и точность процедуры двоичного кодирования. Измеряется в герцах (Гц). Одно измерение за одну секунду соответствует частоте 1 Гц, 1000 измерений за одну секунду — 1 килогерц (кГц). Частота дискретизации звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-CD.
Параметр
| Глубина кодирования | Частота дискретизации |
Радиотрансляция | 8 бит | До 8 кГц |
мрачный, приглушенный звук | 8 бит. | 11 кГц |
Среднее качество | 8 бит или 16 бит | 8 — 48 кГц |
Высокое качество звучание | 16 бит | 44,1 кГц |
Звучание CD-диска | 16 бит | До 48 кГц |
Для того, чтобы найти объем звуковой информации, необходимо воспользоваться следующей формулой:
V= MIt, где М — частота дискретизации (в Гц), I — глубина кодирования (в битах), t — время звучания (в секундах).
Пример
Звук воспроизводится в течение 10 секунд
при частоте дискретизации 22,05 кГц и
глубине звука 8 бит.
Определить его
размер (в байтах).
Решение:
М = 22,051000 = 220500 Гц;
I = 8/8 = 1 байт;
Т= 10 секунд;
V = 220500101= 2205000 байт.
Ответ: 2205000 байт.
Весь процесс кодирования и декодирования можно представить в виде следующей схемы:
Схема кодирования звука.
з вуковая микрофон переменный звуковая двоичный память ЭВМ
волна ток плата код
Cхема декодирования звука.
п амять двоичный звуковая переменный динамик звуковая
код плата ток волна
Задачи
Кодирование и обработка звуковой информации
Планирование уроков на учебный год (по учебнику Н.
Д. Угриновича)
Главная | Информатика и информационно-коммуникационные технологии | Планирование уроков и материалы к урокам | 8 классы | Планирование уроков на учебный год (по учебнику Н.Д. Угриновича) | Кодирование и обработка звуковой информации
Содержание урока
3.1. Кодирование и обработка звуковой информации
Практическая работа 3.1
3.1. Кодирование и обработка звуковой информации
Звуковая информация. Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну (колебания воздуха или другой среды) с непрерывно меняющейся амплитудой и частотой. Человек воспринимает звуковые волны с помощью слуха в форме звука различной громкости и тона. Чем больше амплитуда звуковой волны, тем громче звук, чем больше частота колебаний, тем выше тон звука (рис. 3.1).
Рис.
3.1 .Звуковая волна
Человеческое ухо воспринимает звук с частотой от 20 колебаний в секунду (низкий звук) до 20000 колебаний в секунду (высокий звук). Человек может воспринимать звук в огромном диапазоне амплитуд, в котором максимальная амплитуда больше минимальной в 1014 раз (в сто тысяч миллиардов раз). Для измерения громкости звука применяется специальная единица децибел (дБ). Уменьшение или увеличение громкости звука на 10 дБ соответствует уменьшению или увеличению амплитуды звука в 10 раз (табл. 3.1).
Таблица 3.1. Громкость звука
Временная дискретизация звука. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенный уровень громкости.
Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости.
На графике это выглядит как замена гладкой кривой на последовательность «ступенек» (рис. 3.2).
Рис. 3.2. Временная дискретизация звука
Частота дискретизации. Для записи аналогового звука и его преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений громкости звука в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за одну секунду (чем больше частота дискретизации), тем точнее «лесенка» цифрового звукового сигнала повторяет кривую аналогового сигнала.
Частота дискретизации звука — это количество измерений громкости звука за одну секунду.
Частота дискретизации звука измеряется в герцах (Гц) и может лежать в диапазоне от 8000 до 48 ООО измерений громкости звука за одну секунду (от 8000 до 48000 Гц).
Глубина кодирования.
Каждой «ступеньке» присваивается определенный уровень громкости звука. Уровни громкости звука можно рассматривать как набор N возможных состояний, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.
Глубина кодирования звука — это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.
Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле (1.1). Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:
N = 2I = 216 = 65 536.
В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню громкости будет соответствовать код 0000000000000000, а наибольшему — 1111111111111111.
Качество оцифрованного звука. Чем больше частота дискретизации и глубина кодирования звука, тем более качественным будет оцифрованный звук.
Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, будет при частоте дискретизации 8000 раз в секунду, глубине кодирования 8 битов и записи одной звуковой дорожки (режим моно). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, будет при частоте дискретизации 48 000 раз в секунду, глубине кодирования 16 битов и записи двух звуковых дорожек (режим стерео).
Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания одна секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в одну секунду и умножить на 2 (стереозвук):
16 битов • 24 000 • 2 = 768 000 битов = 96 000 байтов = 93,75 Кбайт.
Контрольные вопросы
1. Объясните, как частота дискретизации и глубина кодирования влияют на качество цифрового звука.
Задания для самостоятельного выполнения
3.1. Задание с выборочным ответом.
1)65 536 битов
2) 256 битов
3)16 битов
4) 8 битов
3.2. Задание с развернутым ответом. Оцените информационный объем цифровых звуковых файлов длительностью 10 секунд при глубине кодирования и частоте дискретизации звукового сигнала, обеспечивающих минимальное и максимальное качество звука:
а) моно, 8 битов, 8000 измерений в секунду;
б) стерео, 16 битов, 48 000 измерений в секунду.
Cкачать материалы урока
Основы — профессиональные аудиофайлы
Содержание статьи
Что такое звуковая волна?
Прежде чем говорить об оцифровке звука, важно понять, что такое звуковая волна.
Звуковые волны возникают, когда провоцирующий фактор, такой как удар по пластику барабана или передергивание струны, заставляет молекулы среды, обычно воздуха, двигаться. Молекулы колеблются в процессе, который чередуется между сжатием (становятся более плотными и плотно упакованными) и разрежением (становятся менее плотными). Таким образом, волна распространяется через среду до тех пор, пока ее энергия не рассеется в виде тепла. Следует отметить, что среда также может быть жидкостью или твердым телом, и на самом деле воздух является одной из самых медленных сред для передачи звука. На приведенной ниже диаграмме показано, как амплитуда синусоидальной волны соответствует сжатию и разрежению молекул в среде.
(источник)
Все, что вибрирует — струна, барабанная пластина, бокал, камертон — вызывает соответствующее движение молекул в среде, которое мы воспринимаем как звук.
Что такое аналоговый звук?
Для некоторых людей термин «аналоговый звук» относится к старой технологии, что, конечно, в какой-то степени верно.
Но аналоговые технологии остаются важной частью музыкального производства. Чтобы понять, почему, мы должны определить происхождение термина. Слово «аналог» происходит от слова «аналогичный», что означает сопоставимый, подобный или родственный. С точки зрения аудиотехнологии эта идея явно присутствует в двух основных устройствах для записи и создания музыки — динамике и микрофоне.
Микрофоны создают изменение напряжения или емкости, аналогичное движению его диафрагмы, вызванному звуковой волной.
(источник)
Динамики преобразуют электрический сигнал в звуковую волну, создавая аналогичные движения диффузора динамика.
(источник)
Оба устройства считаются преобразователями, поскольку они преобразуют одну форму энергии в другую. И оба являются аналоговыми устройствами, которые так же актуальны сегодня, как и в день их изобретения.
Как оцифровывается звук?
До появления компьютеров звук записывался с использованием таких технологий, как магнитная лента, винил и — очень рано — восковые цилиндры.
Инженеры стремились к максимально возможной точности в зависимости от ограничений носителя. Одним из основных потенциальных ограничений является динамический диапазон — диапазон возможных значений амплитуды от минимального уровня шума до максимального пикового уровня до начала искажения. По мере развития технологии производства звука расширяется и динамический диапазон, как показано ниже:
Приблизительные динамические диапазоны
FM Радио: 50 DB
Кассеты: 60-70 DB
VINYL: 70-88 DB
Audio CD: 96999999999999999999999999999999999999999999999999999999999999999999999999999999999999999009а. 144 дБ
Следует отметить, что цель абсолютной точности является несколько неправильным. Возрождение винила и эстетики ретро или лоу-фай указывает на то, что вкус и эффект или «ограничения» конкретного носителя могут быть оценены как часть процесса и так называемого недостатки в точности воспроизведения звука могут быть действительно желательны.
Оцифровка звука необходима всякий раз, когда компьютеры участвуют в записи, производстве или распространении музыки, что в значительной степени охватывает все, кроме живого исполнения. И даже тогда музыканты на сцене, вероятно, где-то используют цифровые эффекты.
Преобразовать аналоговый звук в цифровой формат означает взять аналоговый сигнал и создать представление этого сигнала на языке компьютеров, которое является двоичным (нули и единицы). Прочтите мою статью для получения подробной информации о двоичных системах и аудио: «Биты, байты и пиво».
Аналоговый сигнал является непрерывным, то есть постоянно изменяется по амплитуде и времени. Цифровое преобразование требует периодической выборки или измерения, чтобы сделать его понятным и редактируемым в компьютерной системе. Следует помнить о двух терминах, связанных с преобразованием:
Аналогово-цифровой преобразователь (АЦП) — преобразует аналоговый сигнал в цифровой файл
Цифро-аналоговый преобразователь (ЦАП) — преобразует цифровой файл в аналоговый signal
Это сопряжение устройств или процессов является сутью производства цифрового звука.
РЕКЛАМА
(источник)
РЕКЛАМНОЕ ОБЪЯВЛЕНИЕ
Частота дискретизации и битовая глубина
Процесс оцифровки имеет несколько определяемых пользователем переменных, которые будут влиять на такие параметры, как частотный диапазон, динамический диапазон, размер файла и точность воспроизведения. Две основные переменные, о которых вы должны знать, это частота дискретизации и битовая глубина (или разрешение).
Частота дискретизации — это частота измерения амплитуды при преобразовании аналогового сигнала или при повторной дискретизации ранее оцифрованного файла. Процесс передискретизации может понижающая дискретизация (что снижает частоту дискретизации) или повышающая дискретизация (что увеличивает частоту).
Понижающая дискретизация может потребоваться, когда файлы, записанные или созданные с более высокой частотой дискретизации, например, 48 кГц (48 000 выборок в секунду) или 96 кГц (48 000 выборок в секунду), необходимо подготовить для распространения аудио компакт-дисков.
Для этого конкретного носителя требуется частота дискретизации 44,1 кГц (44 100 выборок в секунду).
Повышение дискретизации используется инженерами мастеринга для создания файлов с более высоким разрешением перед обработкой для обеспечения лучших результатов. Затем следует процесс понижения частоты дискретизации для подготовки файла к распространению.
Визуальное представление процесса отбора проб.
(источник)
Коэффициент Найквиста
Коэффициент Найквиста — это концепция, полученная из теории цифровой выборки, которая утверждает, что для точного представления определенной частоты сигнал должен дискретизироваться с удвоенной скоростью этой частоты. Например, чтобы создать точное цифровое представление 10 кГц, вам потребуется использовать минимальную частоту дискретизации 20 кГц. Когда разрабатывался стандарт аудио компакт-дисков, это было одним из соображений при определении используемой стандартной частоты дискретизации.
Основываясь на теореме Найквиста, частота дискретизации 44,1 кГц может точно воссоздать частоту 22 050 Гц в цифровом мире. Поскольку обычно считается, что диапазон человеческого слуха составляет от 20 Гц до 20 кГц, в то время это считалось достаточным и управляемым с помощью вычислительных систем и оборудования. С тех пор более высокие частоты дискретизации стали обычным явлением, включая 48 кГц (используется в контексте видео), 88,1 кГц, 96 кГц и 192 кГц.
Логичный вопрос — зачем использовать такие высокие частоты дискретизации, когда пределы человеческого восприятия останавливаются после 20 кГц максимум. Частично ответ заключается в преимуществах передискретизации, которая может уменьшить звуковые артефакты, известные как алиасинг. Когда обработка звуковых эффектов выполняется с более высокой скоростью, результаты улучшаются, а присутствие артефактов уменьшается. Чтобы узнать больше о передискретизации, ознакомьтесь с моей статьей: «Перевыборка в цифровом аудио: что это такое и когда ее следует использовать?»
С точки зрения записи, использование более высоких частот дискретизации также обеспечивает более точный результат.
Когда происходит взаимодействие между частотами, создаются суммарные и разностные тоны, и способность процесса цифрового преобразования представлять частоты за пределами диапазона человеческого слуха может способствовать лучшим результатам в слышимом диапазоне.
В равной или, возможно, большей степени, чем частота дискретизации, важна глубина бит или разрешение . Это можно рассматривать как точность измерения каждого образца. Чем выше битовая глубина, тем точнее измерение амплитуды. Наиболее часто используются три разрядности: 16, 24 и 32 бита. Возвращаясь к упомянутой выше статье «Биты, байты и пиво», каждый бит в двоичной системе может быть либо 0, либо 1. Это соответствует определенному количеству возможных значений в зависимости от количества используемых битов. Например:
. Чем больше число возможных значений, тем меньше ошибка квантования и, следовательно, меньше шума в записи. Это приводит к значительно более широкому динамическому диапазону для 24-битных записей по сравнению с 16-битными. Ниже приведен пример двух разных разрядностей, используемых в компьютерной графике. Рассмотрим две цифровые цветовые палитры: 8-битную и 24-битную. Обратите внимание, что в 8-битной палитре есть только 256 вариантов (2 8 ), что означает, что если вы пытаетесь сопоставить существующий цвет, вы можете приблизиться только к нему. РЕКЛАМА В 24-битной палитре выбор исчисляется миллионами, и изображение кажется почти непрерывным размытием одного цвета, переходящего в другой. С помощью этой палитры вы можете значительно приблизиться к определенному цвету. РЕКЛАМНОЕ ОБЪЯВЛЕНИЕ С точки зрения звука, меньшая ошибка или округление значений означает более точное цифровое представление аналогового входа. Необходимо или рекомендуется использовать процесс, известный как сглаживание, когда требуется уменьшение разрядности, например, при подготовке файла, созданного в 24-битной системе, для распространения на компакт-диске, для которого требуется 16-битный файл. Ограничения потоковой передачи аудио через Интернет и размер файла диктуют необходимость алгоритмов сжатия, которые могут максимально сохранить исходное качество звукового файла. Вы должны знать о двух основных категориях форматов сжатия файлов — без потерь и с потерями. Форматы сжатия аудиофайлов без потерь включают: Эти файлы уменьшаются для распространения, но сохраняют все данные исходного несжатого файла. Форматы сжатия аудиофайлов с потерями включают: Эти файлы уменьшены для распространения путем удаления данных на основе психоакустических ограничений человеческого восприятия. Когда алгоритмы идентифицируют определенный аудиоконтент как незаметный в определенной степени, он удаляет эти данные, тем самым уменьшая размер файла. При таком сжатии файла исходные данные теряются, если не сохраняется копия оригинала. Несжатые форматы файлов включают: 7 как точные копии оригинала, но они конечно больше по размеру. Сжатие с потерями и скорость передачи данных Определяемая пользователем скорость передачи данных, выбранная для процесса сжатия файла, повлияет на результирующий размер и качество сжатого файла. 44 100 x 16 = 705 600 x 2 (каналы) = 1 411 200 бит = 1 411 кбит/с Захват окружающего звука и преобразование его в двоичную информацию лежит в основе производства цифрового аудио. Но чего не хватает в этом описании, так это контента, созданного на самом компьютере. Виртуальные инструменты и программные синтезаторы — это невероятно мощные творческие устройства, которые могут давать поразительные результаты с цифровыми осцилляторами, волновыми таблицами и полным спектром методов синтеза, которые когда-то были доступны только в аппаратных устройствах. Независимо от того, записываете ли вы акустические источники, генерируете звуки в коробке или используете цифровые эффекты, необходимо базовое понимание того, как компьютеры и другие цифровые устройства могут использоваться для обработки звука и управления им. Ознакомьтесь с другими моими статьями, обзорами, интервью и серией видеоуроков Synthesis 101 , доступных исключительно на The Pro Audio Files. Следуйте за мной на Филип Мантионе — композитор, синтезатор, гитарист, педагог и звукорежиссер, работающий на экспериментальной музыкальной сцене Лос-Анджелеса. Его музыка была представлена на фестивалях, в музеях и галереях по всему миру. Его текущий проект — TriAngular Bent, электроакустическое трио, в состав которого входят Дон Престон (один из основателей группы Mothers of Invention Фрэнка Заппы) и виртуоз схемотехники Джефф Бойнтон. Цифровое аудио преобразует аналоговые звуки в форму, в которой их можно хранить и обрабатывать на компьютере. Audacity — это программное приложение для редактирования, микширования и применения эффектов к цифровым аудиозаписям. Все звуки, которые мы слышим ушами, представляют собой волны давления в воздухе. Начиная с демонстрации Томасом Эдисоном первого фонографа в 1877 году, стало возможным улавливать эти волны давления на физической среде, а затем воспроизводить их позже, регенерируя те же волны давления. Звуковые волны давления, или формы волны выглядят примерно так: Аналоговые носители записи , такие как грампластинки и кассеты, представляют форму сигнала напрямую, используя глубину канавки для записи или величину намагниченности для ленты. Аналоговая запись может воспроизводить впечатляющий набор звуков, но она также страдает от шума. Цифровая запись работает по-другому: она сэмплирует форму сигнала в равномерно распределенные моменты времени, представляя каждый семпл как точное число. Цифровые записи, хранящиеся на компакт-диске (CD), цифровой аудиоленте (DAT) или на персональном компьютере, не ухудшаются со временем и могут быть идеально скопированы без каких-либо дополнительных помех. На следующем изображении показан дискретизированный звуковой сигнал: Цифровой звук можно редактировать и микшировать без добавления дополнительных шумов. Кроме того, к оцифрованным аудиозаписям можно применять множество цифровых эффектов, например, для имитации реверберации, усиления определенных частот или изменения шаг . Способность Audacity воспроизводить или записывать звук непосредственно с вашего компьютера зависит от вашего конкретного компьютерного оборудования. Качество цифровой аудиозаписи сильно зависит от двух факторов: частоты дискретизации и формата дискретизации или разрядности. Увеличение частоты дискретизации или числа 90 260 90 261 бит 90 262 90 263 в каждой выборке повышает качество записи, но также увеличивает объем места, используемого аудиофайлами на компьютере или диске. Частота дискретизации измеряются в герцах ( Гц ), или циклов в секунду. Это значение представляет собой количество выборок, захваченных в секунду для представления формы волны. Более высокие частоты дискретизации позволяют представлять более высокие звуковые частоты. При условии, что частота дискретизации более чем в два раза превышает самую высокую имеющуюся звуковую частоту, форма волны может быть точно восстановлена из цифровых выборок. Частоты, которые составляют более половины частоты дискретизации, не могут быть правильно представлены в цифровых образцах, и, если они присутствуют в исходном звуке, должны быть удалены перед преобразованием в цифровой формат. Таким образом, «половина частоты дискретизации» представляет собой верхний предел, называемый частотой Найквиста, и аналоговый сигнал должен быть полностью ниже этого предела, чтобы его можно было правильно представить в цифровом виде. Аналоговые частоты на этом пределе или выше не могут быть правильно представлены цифровыми образцами и могут вызвать своего рода искажение, называемое наложением спектров. Человеческое ухо чувствительно к звуковым моделям с частотами примерно от 20 Гц до 20 000 Гц. Звуки за пределами этого диапазона не слышны. Поэтому частота дискретизации 40 000 Гц является абсолютным минимумом, необходимым для воспроизведения всего диапазона слышимых звуков. Обычно используются более высокие скорости (называемые передискретизацией), чтобы обеспечить адекватную фильтрацию и избежать артефактов наложения спектров в районе частоты Найквиста. Частота дискретизации, используемая аудио компакт-дисками , составляет 44 100 Гц. Человеческая речь понятна, даже если исключить частоты выше 4000 Гц; на самом деле телефоны передают только частоты от 200 Гц до 4000 Гц. Поэтому обычная частота дискретизации для аудиозаписей составляет 8000 Гц, что иногда называют 9.0260 качество речи . Обратите внимание, что на частоте Найквиста требуется очень крутая фильтрация (называемая фильтром сглаживания), чтобы предотвратить сворачивание сигнала выше этой точки отсечки обратно в слышимый диапазон цифровым преобразователем и создание артефактов искажения. Наиболее распространенные частоты дискретизации, измеряемые в Гц, составляют 8 000, 16 000, 22 050, 44 100, 48 000, 96 000 и 192 000. Частота дискретизации также может упоминаться в кГц или единицы 1000 Гц. Таким образом, в единицах кГц наиболее распространенные частоты выражаются как 8 кГц, 16 кГц, 22,05 кГц, 44,1 кГц, 48 кГц, 96 кГц и 192 кГц. Audacity поддерживает любую из этих частот дискретизации, однако большинство компьютерных звуковых карт ограничены не более чем 48 000 Гц, 96 000 Гц или иногда 192 000 Гц. Опять же, наиболее распространенная частота дискретизации на сегодняшний день составляет 44 100 Гц, и поэтому многие карты по умолчанию используют эту частоту, какие бы другие частоты они ни поддерживали. На изображении ниже левая половина имеет низкую частоту дискретизации, а правая половина — высокую частоту дискретизации (то есть высокое разрешение): Другой мерой качества звука является формат выборки (или битовая глубина ), который обычно измеряется числом битов компьютера, используемых для представления каждой выборки. Динамический диапазон измеряется в децибелах ( дБ ). Человеческое ухо может воспринимать звуки с динамическим диапазоном не менее 90 дБ. Однако, когда это возможно, рекомендуется записывать цифровой звук с динамическим диапазоном намного больше 90 дБ, отчасти для того, чтобы слишком тихие звуки можно было усилить для максимальной точности. Обратите внимание, что хотя сигналы, записанные обычно с низкими уровнями, могут быть усилены (то есть нормализованы), чтобы использовать преимущества доступного динамического диапазона, при записи сигналов низкого уровня не будут использоваться все доступные разрядность . Эту потерю разрешения невозможно восстановить, просто нормализовав общий уровень цифрового сигнала. Общие форматы образцов и их соответствующий динамический диапазон включают: Обратите внимание, что существуют практические ограничения динамического диапазона из-за возможностей аппаратного обеспечения и входных и выходных преобразователей. Это делает практический предел больше похожим на 90 дБ для 16-бит. Другие форматы сэмплов, такие как ADPCM, приближают 16-битный звук к сжатым 4-битным семплам. Audacity может импортировать многие из этих форматов, но они редко используются из-за гораздо лучших новых методов сжатия. Аудио компакт-диски и большинство форматов компьютерных аудиофайлов используют 16-битные целые числа. Audacity использует 32-битные сэмплы с плавающей запятой внутри и, при необходимости, преобразует разрядность сэмпла при экспорте окончательного микса. На изображении ниже левая половина имеет образец формата с несколькими битами, а правая половина имеет образец формата с большим количеством бит. Если вы думаете о частоте дискретизации как интервале между вертикальными линиями сетки, формат выборки — это интервал между горизонтальными линиями сетки. Аудиофайлы очень большие, вероятно, намного больше, чем большинство файлов, с которыми вы работаете (если только вы не работаете с видеофайлами). Одним из ограничений цифрового звука является то, что в большинстве случаев он не может работать с волнами звукового давления, которые превышают максимальные уровни, для которых он предназначен. Когда регистрируется сигнал, превышающий максимальный уровень +/-1,0 linear или 0 дБ , сэмплы за пределами диапазона обрезаются до максимального значения, например: Звук, записанный с помощью клиппирования , будет звучать искаженно и резко. Хотя есть некоторые методы, которые могут устранить небольшое количество шума из-за клиппирования, всегда предпочтительнее избегать клиппинга во время записи. Обратите внимание, что в 32-битном формате выборки с плавающей запятой Audacity по умолчанию допустимо захваченные значения выборки, превышающие максимум, могут быть сохранены , но даже если они сохранены в экспортированном 32-битном файле с плавающей запятой, они, вероятно, все равно будут искажаться на любом обычном воспроизводящем оборудовании. . Если Audacity обнаружит законные сэмплы выше предела, эффект Amplify покажет отрицательное значение по умолчанию «Усиление (дБ)», и вы можете нажать OK в этой настройке, чтобы уменьшить пиковое усиление до максимального 0 дБ без потери исходных пиков. форма волны. Поскольку цифровые аудиофайлы очень велики, по возможности обычно использовалась пониженная частота дискретизации. При поставке Audacity может импортировать и экспортировать файлы MP3. С хорошими динамиками большинство людей могут услышать разницу между MP3 со скоростью 128 кбит/с и несжатым аудиофайлом с компакт-диска. Файлы MP3 со скоростью 256 кбит/с и 320 кбит/с более популярны среди аудиофилов, предпочитающих более высокое качество. Существует множество других форматов аудиофайлов со сжатием с потерями. Audacity полностью поддерживает формат Ogg Vorbis , который похож на MP3, но является полностью открытым и свободным от патентов стандартом. Со временем качество файлов Ogg Vorbis стало превосходить качество MP3, а его формат стал более расширяемым, поэтому возможны дополнительные улучшения. Ogg Vorbis — отличный выбор для вашего собственного аудио, однако реальность такова, что гораздо больше устройств, таких как iPhone/iPod и другие портативные аудиоплееры, поддерживают MP3, но пока не поддерживают Ogg Vorbis. Другие известные методы сжатия включают ATRAC, используемый записывающими устройствами Sony MiniDisc, Windows Media Audio (WMA) и AAC. Audacity поддерживает больше форматов, добавляя дополнительную библиотеку FFmpeg. Сжатие без потерь уменьшает размер файла без потери качества. Этот, казалось бы, волшебный метод уменьшения размеров файлов можно применить и к аудиофайлам.
(см. таблицу динамического диапазона выше, чтобы увидеть разницу между 16-битным и 24-битным звуком).
(источник) Что такое дизеринг и когда его использовать?
Дизеринг помогает смягчить ошибку квантования, которая обычно возникает в процессе, поскольку по определению цифровая точность снижается за счет уменьшения битовой глубины. Дизеринг использует сложные алгоритмы, которые нелогично вводят шум в процесс, чтобы уменьшить нежелательные артефакты. Из-за этого вы никогда не должны сглаживать файл более одного раза, и его следует использовать только при уменьшении битовой глубины. Что такое сжатие файлов с потерями и какие существуют параметры?
FLAC (бесплатное сжатие аудио без потерь)
ALAC (Apple Lossless Audio Compression)![]()
MP3 (MPEG Layer 3)
AAC (Apple Audio Compression)
BWF (Broadcast Wave — поддерживает метаданные)
WAV (аудиофайл формы волны)
AIFF (формат файла обмена аудио)
Более низкие скорости, такие как 128 кбит/с (килобит в секунду) и ниже, привнесут нежелательные артефакты в результирующий звук. 320 кбит/с — это, как правило, самый высокий битрейт для сжатого файла, который можно сразу же передать через Интернет без загрузки. Чтобы сравнить это с потоковой передачей аудиофайла компакт-диска, рассмотрим требуемую скорость передачи данных несжатого файла 44,1k/16 бит: Заключительные мысли

Twitter: @PMantione
Instagram: philipmantione
Канал Youtube Филип Мантионе
Подробности на сайте philipmantione.com Основы цифрового аудио — Руководство Audacity
Цифровое сэмплирование
Примечательно, что каждый раз, когда копируется аналоговая запись, вводится больше шума, что снижает точность воспроизведения. Этот шум можно свести к минимуму, но не полностью устранить.
Большинство настольных компьютеров поставляются со звуковой картой с разъемами 1/8 дюйма (3,5 мм), к которым можно подключить микрофон или другой источник для записи, а также динамики или наушники для прослушивания. Многие портативные компьютеры имеют встроенные динамики и микрофон. Звуковая карта, которая поставляется с большинством компьютеров, не особенно высокого качества, в этом случае вы можете рассмотреть возможность использования внешнего аудиоинтерфейса USB. Информацию о том, как настроить Audacity для воспроизведения и записи, см. в разделе Настройка и конфигурация Audacity. Качество цифрового звука

Частота дискретизации

наложения шума. Форматы выборки
Чем больше битов используется, тем точнее представление каждой выборки. Увеличение количества бит также увеличивает максимум динамический диапазон аудиозаписи, другими словами разница в громкости между самым громким и самым тихим возможным звуком, который может быть представлен.
Формат образца Audacity по умолчанию во время записи можно настроить в настройках качества или установить отдельно для каждой дорожки в раскрывающемся меню «Аудиодорожка». Во время воспроизведения звук на любых дорожках, которые имеют отличный от проекта формат семпла, будет передискретизирует на лету с помощью настроек преобразования в реальном времени в настройках качества. Настройки высококачественного преобразования используются при обработке, микшировании или экспорте. Размер аудиофайлов
Чтобы определить размер несжатого аудиофайла, умножьте частоту дискретизации (например, 44100 Гц) на формат выборки битрейт (например, 16 бит) на количество каналов (2 для стерео) на количество секунд. Полностью полный 74-минутный аудио CD со стереозвуком занимает более 6 миллиардов битов. Разделите это на 8, чтобы получить количество байтов; аудио компакт-диск весит чуть меньше 800 мегабайт (МБ). Смотрите сжатый звук ниже. Отсечение
Измените громкость на источнике входного сигнала (микрофон, кассетный проигрыватель, проигрыватель грампластинок) и установите регулятор громкости входного сигнала Audacity таким образом, чтобы форма волны была максимально возможной (для максимальной точности) без обрезки. Сжатое аудио
В 1991 году стандарт MP3 (MPEG I, слой 3) изменил все. MP3 — это метод сжатия с потерями , который может значительно уменьшить размер файла цифрового аудио с удивительно небольшим влиянием на качество. Одна секунда звука CD-качества занимает 1,4 мегабита, в то время как обычная скорость передачи для файлов MP3 составляет 128 кбит/с, что является коэффициентом сжатия более чем в 10 раз! MP3 работает, ловко «отбрасывая» детали звуковой волны, к которым люди не очень чувствительны, на основе психоакустическая модель того, как наши уши и мозг обрабатывают звуки. Все файлы MP3 создаются по-разному; разные психоакустические модели приведут к различному количеству воспринимаемых искажений в аудиофайле.
Сжатие без потерь

