A conversão do sinal analógico para o digital é realizada por uma sequência de amostras da variação de voltagem do sinal original. Cada amostra é arredondada para o número mais próximo da escala usada e depois convertida em um número digital binário (formado por "uns" e "zeros") para ser armazenado.
As amostras são medidas em intervalos fixos. O números de vezes em que se realiza a amostragem em uma unidade de tempo é a taxa de amostragem, geralmente medida em Hertz. Assim, dizer que a taxa de amostragem de áudio em um CD é de 44.100 Hz, significa que a cada segundo de som são tomadas 44.100 medidas da variação de voltagem do sinal. Dessa maneira, quanto maior for a taxa de amostragem, mais precisa é a representação do sinal, porém é necessário que se realize mais medições e que se utilize mais espaço para armazenar esses valores.
A taxa de amostragem dever ser pelo menos duas vezes a maior frequência que se deseja registrar. Esse valor é conhecido como frequência de Nyquist. Ao se tentar reproduzir uma frequência maior do que a frequência de Nyquist ocorre um fenômeno chamado alising (ou foldover ), em que a frequência é "espelhada" ou "rebatida" para uma uma região mais grave do espectro.
A figura abaixo representa uma onda de 17.500 Hz (em amarelo) digitalizada com uma taxa de amostragem de 20.000 Hz. Cada amostra é representada pelos pontos verdes. A onda em azul é a onda resultante do efeito de aliasing .
A figura abaixo apresenta o efeito de aliasing (ou foldover) descrito acima:
Assim, como ouvimos numa faixa que vai aproximadamente de 20 a 20kHz, uma taxa de amostragem deveria ser de pelo menos 40khz para que todas as frequências audíveis pudessem ser registradas.
Taxas maiores permitem o uso de filtros com decaimentos mais suaves que causam menos distorções de fase, especialmente nas frequências mais agudas.
Refere-se ao número de bits usados para representar cada amostra. Uma amostra representada por apenas um bit poderia receber apenas dois valores: "0" ou "1". Já uma representação com 3 bits poderia receber 8 valores diferentes (23 = 8): 000, 001, 010, 100, 110, 101, 011, 111. Um CD tem uma resolução de 16 bits o que permite uma resolução binária com 65.534 (216) valores.
No gráfico acima, a digitalização com uma taxa de amostragem e resolução muito baixas gera uma represntação muito distorcida do sinal original.
Com o aumento da taxa de amostragem e da resolução, a onda representada se aproxima cada vez mais da forma de onda do sinal original.
Cada bit acrescentado na resolução dobra o número de passos (ou valores) usados para representar a variação de amplitude da onda e com isso adiciona 6dB na escala de dinâmica que pode ser representada. Resoluções mais altas oferecem também maior relação sinal ruído.
É a diferença, em dB, entre o nível máximo de amplitude que pode ser representado numa determinada resolução e o ruído do sistema. Quanto maior a resolução, ou seja, quanto mais bits são usados para representar a amplitude do som, maior será a diferença entre o nível mais alto de reprodução e o ruído.
Embora sistemas com 16 bits sejam suficientes para representar áudio com boa qualidade, às vezes é desejável ter alguns bits extras. Na realidade o sistema nunca usa todos os bits para a representação da amplitude do sinal. Num conversor de 16 bits são gerados de 3 a 6 dB de ruído, o que já "rouba" 1 bit da resolução e diminui a faixa de dinâmica usável de 96 dB para 90dB. Se o material musical tem uma média de 78dB com picos ocasionais em 90dB, na maior parte do tempo o sinal não estará usando toda a faixa dinâmica possível, reduzindo em um ou dois bits (6 a 12dB) o outro extremo da escala. Na melhor das hipóteses, boa parte do tempo o sistema estará utilizando apenas 13 ou 14 bits de resolução disponível.
Deve-se notar também que quando o áudio é processado, são realizadas operações matemáticas em cada uma das amostras ( samples ) digitalizadas. Como os números que representam essas amostras são finitos, a cada operação é introduzido um pequeno erro. Quando o sinal passa por sucessivas tranformações ou por transformações que envolvem operações complexas, esses erros vão se acumulando e passam a ser audíveis na forma de ruído. Quanto maior a resolução de amostragem, menores (e menos audíveis) serão esses erros.
Quando é feita a amostragem do sinal, o valor medido é aproximado (quantizado) para o patamar mais próximo na escala de amplitude gerando pequenos desvios em relação ao valor do sinal original. Esses desvios, chamados erros de quantização modificam o sinal original introduzindo ruído nas frequências mais altas. Pode-se minimizar os erros de quantização com o aumento da resolução em bits.
Alguns sistemas introduzem um processo chamado dithering que é a adição de ruído aleatório ao sinal para distribuir os erros e minimizar os efeitos auditivos causados por eles.
Uma vez que a extensão dinâmica do áudio digital é determinada pelo número de bits utilizados, não é possível representar valores acima de um determinado limite. O valor mais alto que pode ser representado geralmente é expresso como sendo 0 dB. Se a amplitude da onda ultrapassa esse valor, ocorre um corte ( clipping ) da crista da onda, mudando sua forma original e ocasionando uma distorção do som.
Resoluções e taxas de amostragem maiores implicam em arquivos maiores e que precisam de mais espaço para serem armazenados, mais tempo para serem transmitidos e mais poder de processamento para que sejam processados. Para se calcular o tamanho em bytes de uma arquivo pode-se usar a seguinte fórmula:
TA * R/8 * C * t
Onde:
Assim, num CD em que o áudio é armazenado com 44,1 kHz/16 bits, em dois canais (estéreo), um minuto de música ocuparia aproximadamente 10Mb de espaço:
(44.100 Hz) X (16 bits / 8) x (2 canais) x (60 segundos) = 10.584.000 bytes, ou aproximadamente 10 Mb.