Áudio Digital

As ondas sonoras se propagam de modo contínuo no tempo e no espaço. Para que sejam representadas no meio digital, seu comportamento analógico (contínuo) tem que ser convertido numa série de valores discretos (descontínuos). Esses valores são números (dígitos) que representam amostras ( samples em inglês) instantâneas do som. Isso é realizado por meio de um conversor analógico/digital (CAD). Se quisermos ouvir novamente o som, torna-se necessário que os sinais digitais representados por números binários sejam reconvertidos em sinais analógicos por meio de um conversor digital/analógico (CDA).

Amostragem

A conversão do sinal analógico para o digital é realizada por uma sequência de amostras da variação de voltagem do sinal original. Cada amostra é arredondada para o número mais próximo da escala usada e depois convertida em um número digital binário (formado por "uns" e "zeros") para ser armazenado.

Taxa de Amostragem

As amostras são medidas em intervalos fixos. O números de vezes em que se realiza a amostragem em uma unidade de tempo é a taxa de amostragem, geralmente medida em Hertz. Assim, dizer que a taxa de amostragem de áudio em um CD é de 44.100 Hz, significa que a cada segundo de som são tomadas 44.100 medidas da variação de voltagem do sinal. Dessa maneira, quanto maior for a taxa de amostragem, mais precisa é a representação do sinal, porém é necessário que se realize mais medições e que se utilize mais espaço para armazenar esses valores.

Teorema de Nyquist

A taxa de amostragem dever ser pelo menos duas vezes a maior frequência que se deseja registrar. Esse valor é conhecido como frequência de Nyquist. Ao se tentar reproduzir uma frequência maior do que a frequência de Nyquist ocorre um fenômeno chamado alising (ou foldover ), em que a frequência é "espelhada" ou "rebatida" para uma uma região mais grave do espectro.

A figura abaixo representa uma onda de 17.500 Hz (em amarelo) digitalizada com uma taxa de amostragem de 20.000 Hz. Cada amostra é representada pelos pontos verdes. A onda em azul é a onda resultante do efeito de aliasing .

A figura abaixo apresenta o efeito de aliasing (ou foldover) descrito acima:

Assim, como ouvimos numa faixa que vai aproximadamente de 20 a 20kHz, uma taxa de amostragem deveria ser de pelo menos 40khz para que todas as frequências audíveis pudessem ser registradas.

Taxas maiores permitem o uso de filtros com decaimentos mais suaves que causam menos distorções de fase, especialmente nas frequências mais agudas.

Resolução

Refere-se ao número de bits usados para representar cada amostra. Uma amostra representada por apenas um bit poderia receber apenas dois valores: "0" ou "1". Já uma representação com 3 bits poderia receber 8 valores diferentes (2³ = 8): 000, 001, 010, 100, 110, 101, 011, 111. Um CD tem uma resolução de 16 bits o que permite uma resolução binária com 65.534 (2¹⁶) valores.

No gráfico acima, a digitalização com uma taxa de amostragem e resolução muito baixas gera uma represntação muito distorcida do sinal original.

Com o aumento da taxa de amostragem e da resolução, a onda representada se aproxima cada vez mais da forma de onda do sinal original.

Faixa de Extensão Dinâmica

Cada bit acrescentado na resolução dobra o número de passos (ou valores) usados para representar a variação de amplitude da onda e com isso adiciona 6dB na escala de dinâmica que pode ser representada. Resoluções mais altas oferecem também maior relação sinal ruído.

Relação Sinal/Ruído

É a diferença, em dB, entre o nível máximo de amplitude que pode ser representado numa determinada resolução e o ruído do sistema. Quanto maior a resolução, ou seja, quanto mais bits são usados para representar a amplitude do som, maior será a diferença entre o nível mais alto de reprodução e o ruído.

Embora sistemas com 16 bits sejam suficientes para representar áudio com boa qualidade, às vezes é desejável ter alguns bits extras. Na realidade o sistema nunca usa todos os bits para a representação da amplitude do sinal. Num conversor de 16 bits são gerados de 3 a 6 dB de ruído, o que já "rouba" 1 bit da resolução e diminui a faixa de dinâmica usável de 96 dB para 90dB. Se o material musical tem uma média de 78dB com picos ocasionais em 90dB, na maior parte do tempo o sinal não estará usando toda a faixa dinâmica possível, reduzindo em um ou dois bits (6 a 12dB) o outro extremo da escala. Na melhor das hipóteses, boa parte do tempo o sistema estará utilizando apenas 13 ou 14 bits de resolução disponível.

Deve-se notar também que quando o áudio é processado, são realizadas operações matemáticas em cada uma das amostras ( samples ) digitalizadas. Como os números que representam essas amostras são finitos, a cada operação é introduzido um pequeno erro. Quando o sinal passa por sucessivas tranformações ou por transformações que envolvem operações complexas, esses erros vão se acumulando e passam a ser audíveis na forma de ruído. Quanto maior a resolução de amostragem, menores (e menos audíveis) serão esses erros.

Erro de quantização

Quando é feita a amostragem do sinal, o valor medido é aproximado (quantizado) para o patamar mais próximo na escala de amplitude gerando pequenos desvios em relação ao valor do sinal original. Esses desvios, chamados erros de quantização modificam o sinal original introduzindo ruído nas frequências mais altas. Pode-se minimizar os erros de quantização com o aumento da resolução em bits.

Alguns sistemas introduzem um processo chamado dithering que é a adição de ruído aleatório ao sinal para distribuir os erros e minimizar os efeitos auditivos causados por eles.

Clipping

Uma vez que a extensão dinâmica do áudio digital é determinada pelo número de bits utilizados, não é possível representar valores acima de um determinado limite. O valor mais alto que pode ser representado geralmente é expresso como sendo 0 dB. Se a amplitude da onda ultrapassa esse valor, ocorre um corte ( clipping ) da crista da onda, mudando sua forma original e ocasionando uma distorção do som.

Tamanho de Arquivos

Resoluções e taxas de amostragem maiores implicam em arquivos maiores e que precisam de mais espaço para serem armazenados, mais tempo para serem transmitidos e mais poder de processamento para que sejam processados. Para se calcular o tamanho em bytes de uma arquivo pode-se usar a seguinte fórmula:

TA * R/8 * C * t

Onde:

TA = taxa de amostragem em Hz
R = resolução em bits (como queremos o valor em bytes e cada byte tem 8 bits, é preciso dividir por 8)
C = número de canais de áudio
t = tempo em segundos

Assim, num CD em que o áudio é armazenado com 44,1 kHz/16 bits, em dois canais (estéreo), um minuto de música ocuparia aproximadamente 10Mb de espaço:

(44.100 Hz) X (16 bits / 8) x (2 canais) x (60 segundos) = 10.584.000 bytes, ou aproximadamente 10 Mb.