Audio digital

El audio digital es la codificación digital de una señal eléctrica que representa una onda sonora. Consiste en una secuencia de valores enteros y se obtienen de dos procesos: el muestreo y la cuantificación digital de la señal eléctrica.

El muestreo consiste en fijar la amplitud de la señal eléctrica a intervalos regulares de tiempo (tasa de muestreo). Para cubrir el espectro audible (20 a 20000 Hz) suele bastar con tasas de muestreo de algo más de 40000 Hz (el estándar CD-Audio emplea una tasa un 10% mayor con objeto de contemplar el uso de filtros no ideales), con 32000 muestras por segundo se tendría un ancho de banda similar al de la radio FM o una cinta de casete, es decir, permite registrar componentes de hasta 15 kHz, aproximadamente.

Para reproducir un determinado intervalo de frecuencias se necesita una tasa de muestreo de poco más del doble (Teorema de muestreo de Nyquist-Shannon). Por ejemplo en los CD, que reproducen hasta 20 kHz, emplean una tasa de muestreo de 44,1 kHz (frecuencia Nyquist de 22,05 kHz).

La cuantificación consiste en convertir el nivel de las muestra fijadas en el proceso de muestreo, normalmente, un nivel de tensión, en un valor entero de rango finito y predeterminado. Por ejemplo, utilizando cuantificación lineal, una codificación lineal de 8 bits discriminará entre 256 niveles de señal equidistantes (2⁸). También se pueden hacer cuantificaciones no lineales, como es el caso de cuantificadores logarítmicos como la Ley Mu o la Ley A, que, a modo de ejemplo, aún usando 8 bits funcionan perceptualmente como 10 bits lineales para señales de baja amplitud en promedio, como la voz humana por ejemplo.

El formato más usado de audio digital PCM lineal es el del CD de audio: 44,1 kHz de tasa de muestreo y cuantificación lineal de 16 bits (que mide 65536 niveles de señal diferentes) y que, en la práctica, permite registrar señales analógicas con componentes hasta los 20 kHz y con relaciones señal a ruido de más de 90 dB.

Tasa de muestreo

Ejemplo de reconstrucción de una señal de 14,7 kHz (línea gris discontinua) con sólo cinco muestras. Cada ciclo se compone de sólo 3 muestras a 44100 muestras por segundo. La reconstrucción teórica resulta de la suma ponderada de la función de interpolación *g(t)* y sus versiones correspondientes desplazadas en el tiempo *g(t-nT)* con $-\infty <n<\infty \,\!$ , donde los coeficientes de ponderación son las muestras *x(n)*. En esta imagen cada función de interpolación está representada con un color (en total, cinco) y están ponderadas al valor de su correspondiente muestra (el máximo de cada función pasa por un punto azul que representa la muestra).

De acuerdo con el Teorema de muestreo de Nyquist, la tasa de muestreo, esto es, el número de muestras con las que se realiza el proceso de muestreo en una unidad de tiempo, determina exclusivamente la frecuencia máxima de los componentes armónicos que pueden formar parte del material a digitalizar.^[1] Satisfechos los requerimientos de Nyquist y un pequeño margen práctico, y al contrario de lo que es una creencia errónea muy extendida,^[2] no existe relación directa entre el sobremuestreo A/D (realizar el muestreo digital a una tasa mayor de la estrictamente necesaria para el ancho de banda de interés) y una mayor fidelidad en la posterior reconstrucción de la señal en todo el espectro (hasta la frecuencia de Nyquist).^[3]

Aliasing

Con objeto de evitar el fenómeno conocido como aliasing, es necesario eliminar todos los componentes de frecuencias que exceden la mitad de la tasa de muestreo, es decir, del límite de Nyquist, antes del proceso de digitalización (conversión A/D). En la práctica, estos componentes se atenúan fuertemente mediante un filtro activo analógico paso-bajo que se aplica a la señal analógica de interés antes de su digitalización y que para este objetivo se denomina filtro antialiasing. En el proceso de reconstrucción posterior (conversión D/A) de la reproducción se deberá aplicar en esencia el mismo filtrado analógico mediante un filtro que, empleado en este proceso, se denomina de reconstrucción.

Tamaño de las muestras

El número de bits que conforman las muestras en un proceso determinado de cuantificación determina la relación señal a ruido máxima que debe tener la señal (la salida de un micrófono y, consecuentemente, el material sonoro que recoge, la salida de un máster analógico, etc.) que se pretende cuantificar y, por tanto, limita también el rango dinámico que debe tener para su cuantificación completa, de modo parecido a cómo la capacidad de un recipiente (bits por muestra) limita el volumen de líquido (rango del material sonoro a cuantificar) que puede contener.

Sea $b\,\!$ el número de bits con las que se cuantifican las muestras, la relación señal (para sinusoidal máxima que cubre todo el rango) a ruido de cuantificación teórica se obtiene en dB:^[4]

SQNR=10b\log(4)+10\log \left({\frac {3}{2}}\right)\approx 6,0206b+1,7609\,\!

Por tanto, una cuantificación de 16 bits permite un máximo teórico para la relación señal sinusoidal a ruido de cuantificación de 98,09 dB (122,17 dB para 20 bits, valor muy cercano al límite real que permite el ruido de Johnson-Nyquist (también conocido como ruido térmico) de los mejores convertidores A/D actuales). En la práctica, el límite de una señal analógica para que pueda ser cuantificada sin merma dinámica es, aproximadamente, el 90% del límite teórico.^[5] Por lo tanto, el límite que debe tener una señal (por ejemplo, la señal directa de un micrófono o la que resultara de un máster analógico) para ser cuantificada con seguridad con sólo 14 bits es de unos 78 dB, aún cuando el límite teórico sea de 86,05 dB en este caso.

Una vez que la relación señal a ruido de cuantificación que permite un proceso de cuantificación dado excede la relación señal a ruido máxima del material sonoro que se pretende cuantificar, esta podrá ser cuantificada totalmente sin pérdidas en su rango dinámico. Pasado este umbral, de nada sirve aumentar el número de bits por muestra del proceso de cuantificación: no resultará en una conversión más fiel. Por ejemplo, una relación señal a ruido de cuantificación de 90 dB (una relación práctica que permiten sobradamente los 16 bits por muestra de un CD-Audio) es suficiente para cuantificar cualquier grabación musical normal, cuyo rango de intensidad sonora puede ir desde los 25 dB(SPL) del ruido de fondo de un estudio de grabación hasta los 115 dB(SPL), casi el umbral del dolor de la audición humana,^[6] en la posición del micrófono duante una grabación en dicho estudio.

El tamaño de las muestras necesario en un proceso de cuantificación digital se determina, por tanto, a partir del análisis del ruido de fondo y de la intensidad máxima del material sonoro a registrar. Aumentar por encima de lo necesario el tamaño de las muestras es sólo un desperdicio de ancho de banda, especialmente en los formatos finales de distribución. No supone mejora alguna, ni siquiera mensurable, ya que sólo serviría para registrar el ruido con más bits, es decir, más bits inútiles cuyo valor dependerá exclusivamente del azar o, según se ajuste la ganancia, para dejar los bits más significativos a cero en todas las muestras (o una combinación de ambas cosas). De modo parecido, un recipiente de capacidad mayor a la del líquido que se pretende depositar en él no mejora en medida alguna la calidad o cantidad de dicho líquido respecto al uso de un recipiente de menor capacidad siempre que ésta capacidad menor sea aún suficiente para el volumen del líquido. Dicho de otro modo, al contrario de lo que es una creencia errónea muy extendida,^[7] el tamaño de las muestras a emplear en una cuantificación depende del material sonoro que se pretende cuantificar y nada tienen que ver la fidelidad de la reconstrucción en la reproducción o los límites psicoacústicos humanos (por la percepción de dicha fidelidad) con esta determinación, por ejemplo. Si un material sonoro a digitalizar "cabe" en 10 bits por muestra, cuantificar a 14 bits (o 20) no hace más fiel su reconstrucción posterior ni, consecuentemente, es posible percibir diferencias subjetivas que no resulten de la sugestión.

Dither

Con objeto de evitar que el ruido de cuantificación se manifieste como una distorsión, se hace necesario añadir un ruido denominado dither antes del proceso de cuantificación en todos los casos donde el nivel del ruido de la señal (por ejemplo, ruido de Johnson-Nyquist o ruido térmico de un circuito específico) sea inferior al de cuantificación.^[8] Sea Δ el incremento de tensión (diferencia de potencial) correspondiente a un escalón de cuantificación, el valor eficaz (RMS) del ruido de cuantificación sería:

$\sigma _{e}={\sqrt {\int _{-\Delta /2}^{\Delta /2}e^{2}p(e)de}}={\sqrt {{\frac {1}{\Delta }}\int _{-\Delta /2}^{\Delta /2}e^{2}de}}={\sqrt {{\frac {1}{\Delta }}\left({\frac {\Delta ^{3}}{12}}\right)}}={\sqrt {\frac {\Delta ^{2}}{12}}}={\frac {\Delta }{2{\sqrt {3}}}}={\frac {{\sqrt {3}}\Delta }{6}}\,\!$

Dado que actualmente los mejores convertidores tienen relaciones señal a ruido térmico que raramente exceden los 122 dB a temperatura ambiente, se hace necesario añadir dither en todos los casos en los que se emplean cuantificaciones (o recuantificaciones) inferiores a 20 bits. Los cuantificadores de 24 bits, si bien no presentan ventajas prácticas sobre los de 20 bits debido al nivel del ruido térmico de los convertidores, al menos no requieren la adición de dither (y permiten registrar la muestra en un número entero de bytes). Sin embargo, sí será imprescindible añadir dither en los casos donde se recuantifican estas grabaciones a muestras de 16 bits, por ejemplo.

Formatos de archivo de audio digital

Los archivos de audio digital almacenan toda la información que ocurra en el tiempo, el tamaño del archivo no varía así contenga 'silencio' o sonidos muy complejos^{[cita requerida]}. Existen muchos formatos de archivo de audio digital, que se pueden dividir en dos categorías PCM y comprimidos. Como se vio arriba el tamaño puede depender de la cantidad de canales que tenga el archivo y de la resolución (tasa de muestreo y profundidad).

Formatos PCM Los formatos PCM contienen toda la información que salió del convertidor analógico a digital, sin ninguna omisión y por eso, tienen la mejor calidad. Dentro de esta categoría se encuentran los formatos WAV, AIFF, SU, AU y RAW (crudo). La diferencia principal que tienen estos formatos es el encabezado, alrededor de 1000 bytes al comienzo del archivo^{[cita requerida]}.

Formatos comprimidos Para usar menos memoria que los archivos PCM existen formatos de sonido comprimidos, como por ejemplo el MP3, AAC y Ogg. Ciertos algoritmos de compresión descartan información que no es perceptible por el oído humano para lograr que el mismo fragmento de audio pueda ocupar en la memoria inclusive décima parte -o menos- de lo que ocuparía de ser PCM^{[cita requerida]}. La reducción en tamaño implica una pérdida de información y por esto a los formatos de este tipo se les llama formatos comprimidos con pérdida^{[cita requerida]}. Existen también formatos de archivo comprimido sin pérdida, dentro de los que se cuentan el FLAC y el Apple Lossless Encoder, cuyo tamaño suele ser de aproximadamente la mitad de su equivalente PCM^{[cita requerida]}.

Formatos descriptivos: Archivos MIDI Este formato de archivos no es precisamente de audio digital, pero sí pertenece a las tecnologías de la informática musical. El archivo MIDI no almacena "sonido grabado", sino las indicaciones para que un sintetizador o cualquier otro dispositivo MIDI "interprete" una serie de notas u otras acciones (control de un mezclador, etc.)^{[cita requerida]}. Podemos imaginarlos como algo similar a una partitura, con los nombres de los instrumentos que hay que utilizar, las notas, tiempos y algunas indicaciones acerca de la interpretación.

Véase también

Referencias

↑ Teoría de muestreo (Dan Lavry de Lavry Engineering, Inc.): Por qué más no es mejor. (inglés)
↑ Embedded Signal Processing Laboratory (University of Texas at Austin): Debunking Audio Myths Desenmascarando los mitos del audio (inglés). Véase "Mito 4: Necesitamos 96 kHz, no, mejor 192 kHz".
↑ Las técnicas de Noise-Shaping pueden mejorar la relación señal a ruido de parte del espectro hasta el límite de Nyquist pero siempre a cambio de empeorar esa relación en otra parte de ese mismo espectro. No hay nunca, por tanto, mejora global de ningún tipo en todo el espectro hasta la frecuencia de Nyquist por aumentar la tasa, incluso cuando este aumento se realiza con la intención de aplicar estas técnicas de modelado de ruido.
↑ Smith, J.O. (2007). http://ccrma.stanford.edu/~jos/mdft/Round_Off_Error_Variance.html |urlcapítulo= sin título (ayuda). "Round-off Error Variance", en Mathematics of the Discrete Fourier Transform (DFT). ISBN 978-0-9745607-4-8.
↑ Por la necesidad de añadir dither y contemplar un margen de error de ajuste (se deberá ajustar el nivel de la señal a cuantificar para que coincida, aproximadamente, la potencia del ruido de cuantificación con la del ruido base de la señal).
↑ Carl R. Nave. «Threshold of Hearing» (en inglés). Consultado el 2 de enero de 2012.
↑ Kite, Thomas (2001). «Signal Processing Seminar: Debunking Audio Myths (Véase "Myth 5: 16 bits are not enough")». The Embedded Signal Processing Laboratory - University of Texas at Austin.
↑ Martin, Geoff (2004). «"Dither examples", en Introduction to Sound Recording».

Bibliografía

Proakis, J. G. y Manolakis, D. G. (1998). Tratamiento digital de señales. Principios, algoritmos y aplicaciones. Hertfordshire: PRENTICE HALL International (UK) Ltd. ISBN 84-8322-000-8.

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre Audio digital.

[1] Teoría de muestreo (Dan Lavry de Lavry Engineering, Inc.): Por qué más no es mejor. (inglés)

[2] Embedded Signal Processing Laboratory (University of Texas at Austin): Debunking Audio Myths Desenmascarando los mitos del audio (inglés). Véase "Mito 4: Necesitamos 96 kHz, no, mejor 192 kHz".

[3] Las técnicas de Noise-Shaping pueden mejorar la relación señal a ruido de parte del espectro hasta el límite de Nyquist pero siempre a cambio de empeorar esa relación en otra parte de ese mismo espectro. No hay nunca, por tanto, mejora global de ningún tipo en todo el espectro hasta la frecuencia de Nyquist por aumentar la tasa, incluso cuando este aumento se realiza con la intención de aplicar estas técnicas de modelado de ruido.

[4] Smith, J.O. (2007). http://ccrma.stanford.edu/~jos/mdft/Round_Off_Error_Variance.html |urlcapítulo= sin título (ayuda). "Round-off Error Variance", en Mathematics of the Discrete Fourier Transform (DFT). ISBN 978-0-9745607-4-8.

[5] Por la necesidad de añadir dither y contemplar un margen de error de ajuste (se deberá ajustar el nivel de la señal a cuantificar para que coincida, aproximadamente, la potencia del ruido de cuantificación con la del ruido base de la señal).

[6] Carl R. Nave. «Threshold of Hearing» (en inglés). Consultado el 2 de enero de 2012.

[7] Kite, Thomas (2001). «Signal Processing Seminar: Debunking Audio Myths (Véase "Myth 5: 16 bits are not enough")». The Embedded Signal Processing Laboratory - University of Texas at Austin.

[8] Martin, Geoff (2004). «"Dither examples", en Introduction to Sound Recording».

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]