Efectos de audio 3D

Los efectos de audio 3D son un grupo de efectos de sonido que manipulan el sonido emitido por altavoces estéreo, altavoces de sonido envolvente, formaciones de altavoces, o auriculares. Este efecto se consigue posicionando virtualmente fuentes de sonido en cualquier parte del espacio tridimensional, sea detrás, encima o debajo del receptor.

El procesamiento de audio 3D es la convolución espacial de ondas de sonido en un dominio utilizando funciones de transferencia relacionadas con la cabeza (Head-related transfer function). Las Head-related transfer function (HRTF) son una respuesta que caracteriza como una oreja capta un sonido desde puntos distintos en el espacio, se pueden utilizar para sintetizar un sonido binaural que parezca venir de un determinado punto en el espacio. Utilizando filtros HRTF se transforman las ondas de sonido para replicar ondas de sonido naturales, que son emitidas desde un punto en un espacio 3D. Permiten engañar al cerebro utilizando las orejas y los nervios auditivos, que intentan colocar los distintos sonidos en diferentes lugares de un espacio 3D aunque solo se hayan reproducido por dos altavoces.

Audio posicional 3D

Utilizando HTRFs y reverberación es posible simular los cambios que sufriría el sonido hasta llegar al receptor, como pueden ser reflexiones contra una pared o el suelo.

Algunas tecnologías 3D también son capaces de convertir grabaciones binaurales a grabaciones estéreo. MorrowSoundTrue3D convierte binaural, estéreo, 5.1 y otros formatos a 8.1 para crear unas llamadas “atmósferas” 3D de sonido.

Los efectos de audio posicional 3D surgieron alrededor de 1990 en consolas de videojuegos y PC. Su uso también se ha extendido a la música, permitiendo a músicos ofrecer una experiencia 3D en directo.

Existen micrófonos binaurales diseñados para captar el sonido con las mismas características que nuestras orejas, proporcionando así un efecto tridimensional.

Técnicas de sonido como las de Ambisonics, el principio de síntesis de campo de onda, Morrowsound True3D y A&G 3D-EST hacen posible la representación de sonidos 3D utilizando altavoces.

Aplicaciones del audio 3D

Algunos parques de atracciones han creado atracciones basadas en el principio de audio 3D. Un ejemplo es “Sounds Dangerous!” en Walt Disney World Resort en Florida. Los invitados deben ponerse unos auriculares especiales mientras ven un cortometraje que les producirá una experiencia binaural.

Los avances en la tecnología de realidad virtual han creado mucha demanda para perfeccionar las experiencias de sonido 3D. Cada vez existen más programas para simular audio 3D. El audio 3D tiene un papel determinante en la experiencia de realidad virtual definitiva.

Parámetros referentes al plano horizontal (azimut)

ITD (Interaural Time Difference)

Es la diferencia de tiempo que existe entre la llegada del sonido a una oreja respecto a la otra. Como la distancia entre las orejas es aproximadamente de unos 20 centímetros y la velocidad de propagación del sonido en el aire es de 340 metros por segundo, podemos aproximar este tiempo a unos 0,6 ms. Por otro lado, este parámetro sufre variaciones en función de la frecuencia debido a interferencias (difracción de la cabeza) y su percepción se ve afectada en frecuencias bajas, sobre todo por longitudes de onda del orden del doble de la distancia entre las orejas. En estos casos la diferencia de tiempo entre ambas orejas es negligible. Este tipo de llegada del sonido nos permite localizar el sonido en el plano horizontal: 90° (derecha) – 270° (izquierda).

ILD (Interaural Loudness Difference)

Es la diferencia de intensidad o amplitud que hay entre el sonido que llega a una oreja y a la otra. Por ejemplo, si nos colocamos de perfil delante de una fuente sonora, el “volumen” que escuchamos en un lado es “más elevado” que el del lado opuesto. De esta forma podemos localizar de dónde procede el sonido. Este parámetro se ve igualmente afectado por la cabeza y por los pabellones auditivos que actúan cono un filtro reforzando ciertas frecuencias y atenuando otras. El ILD, igual que el ITD, sirven para localizar la fuente sonora en el plano horizontal.

Parámetros referentes al plano medio

HRTF (Head Related Transfer Function)

Cuando la fuente Sonora se encuentra en un plano medio, los ITS y los ILD son iguales para ambas orejas. Entonces entra en juego el HTRF, que para localizar la fuente sonora, se basa en la convolución de la señal con la respuesta impulsional de nuestro torso superior, cabeza, cuello y orejas (llamado HRIR que significa Head Related Impulse Response). Este parámetro depende de cuatro variables, tres espaciales y una frecuencial y permite determinar tanto la elevación como la posición delantera o posterior de la fuente sonora.

Parámetros referentes a la distancia

Volumen global

Es un parámetro muy poco fiable que puede ayudar en la localización de fuentes sonoras. La poca fiabilidad se debe al hecho de que el colimen no está linealmente relacionado con la amplitud de una señal (la forma de onda que veríamos en un PC) y depende de los conocimientos previos de las fuentes sonoras que crean este sonido. Por eso no creemos que una persona que esté susurrando cerca de nosotras tenga más volumen que un individuo gritando a pleno pulmón a una distancia considerable.

D/R Ratio

En habitaciones cerradas, cuando más grande es la distancia que debe recorrer el rayo de sonido directo (sin reverberación) menor es su nivel. En este caso el sonido reverberante de la sala, en comparación con el sonido directo, va ganando presencia. Es lo que se llama D/R Ratio, el cociente entre sonido directo y sonido reverberante. A priori, es el parámetro más importante para localizar una fuente sonora en un espacio reverberante.

Absorción de altas frecuencias

Tiene relación con los gases del aire. Este efecto es similar al de un filtro paso bajo, que recorta las altas frecuencias dando sensación de que el sonido es más grave o que pierde “brillo”. Este efecto se considera relevante para distancias superiores a 50 metros.

Es necesario matizar que la mayoría de estos parámetros dependen de las características físicas de cada persona (medida de la cabeza, posición de las orejas, forma del canal auditivo…). Los parámetros anteriores son los más importante en la localización de una fuente sonora, pero hay otras que hay que tener en cuenta para poder recrear el sonido de una forma fiel a la realidad.

Otros parámetros influyentes

Efecto Doppler

El efecto Doppler es un efecto de compresión/descompresión que sufren las ondas acústicas debido al movimiento entre una fuente sonora y el oyente. Este produce una desviación de la longitud de onda, cosa que hace que varía el tono del sonido que se recibe. Es el típico efecto acústica que se percibe cuando pasa un coche a gran velocidad.

Efecto Haas

El efecto Haas, o efecto de precedencia, nos dice que si diferentes sonidos llegan a nuestra oreja en un intervalo inferior a 50 ms, esta los integrará y los interpretará como uno solo. Este efecto tiene consecuencias en la localización de la fuente sonora, ya que el cerebro trabaja de la siguiente forma:

Si el retardo del sonido directo llega en un intervalo inferior a 5ms, el cerebro localiza la fuente en la dirección del primer estímulo, independientemente de los otros.
Si el retardo del sonido directo se encuentra entre los 5 y los 50 ms, el oyente percibe un único sonido, de intensidad doble y localiza la fuente sonora a medio camino entre todas.

Características de la sala

RT60

Es el tiempo que tarda el sonido directo en caer 60dB, conocido también como tiempo de reverberación.

Balance espectral

Las habitaciones actúan como filtros, modificando el espectro de la señal. El espectro de la respuesta en impulso de una buena habitación tiene que se lo más plana posible en todo el ancho de banda de la señal.

Difusión

Tiene que ver con la absorción de los materiales. Normalmente los frecuencias altas caen más rápidamente.

Características de la fuente sonora

Si una fuente radia en el espacio de la misma forma, se dice que es una fuente omnidireccional.

Normalmente, las fuentes sonoras son direccionales, cosa que puede falsear, dependiendo de la posición del oyente, la localización de las mismas en el espacio.

Sonido binaural

Para recrear un efecto 3D convincente, no es necesario disponer de un gran número de canales, sino que con únicamente dos canales tenemos más que suficiente. En el apartado anterior hemos visto los parámetros que nos permiten, de forma natural, tener una tridimensionalidad del sonido. Ahora nos podemos preguntar cómo registrar una situación real y conseguir que el oyente se vea inmerso en un mundo totalmente realista, acústicamente hablando. Es aquí donde entra en juego el registra llamado binaural, que se basa en la grabación del sonido emulando las condiciones en las que escuchamos normalmente.

Grabación

La grabación se lleva a término con una cabeza Dummy. Un Dummy es el busto de un maniquí que tiene unos canales auditivos construidos con la máxima similitud a los nuestros. En su interior se introducen dos micrófonos que realizan la grabación del sonido. De esta forma se intenta recrear el comportamiento de las ondas sonoras en el interior de nuestro sistema auditivo y, así, generar las mismas diferencias de tiempo de llegada (ITD) y de nivel (fase y amplitud de señal) entre ambas orejas, tal y como lo hacemos nosotros de forma natural. A partir del busto utilizado para la grabación, se hacen una serie de medidas variando el azimut y la elevación de la fuente sonora con tal de adquirir el HRIR (si hacemos la transformación de Fourier obtenemos el HRTF). Una vez tenemos esta información, se utiliza un algoritmo que combina los sonidos captados en las dos orejas en una sola pista de audio. Este algoritmo, de la compañía Starkey, se llama Cetera y no es de código libre, por lo que no es posible conseguirlo. Inicialmente, la empresa lo diseñó para permitir a los sordos de ambas orejas, además de suplir la audición perdida, localizar la fuente sonora. Finalmente, al reproducir esta pista con unos auriculares, nuestro cerebro tiene toda la información necesaria para darnos una sensación tridimensional muy realista.

Limitaciones

El sistema binaural tiene una serie de limitaciones que se deben tener en cuenta:

Es necesario escuchar una grabación binaural con auriculares para que el efecto sea buena.
Si el oyente se desplaza, la fuente sonora también.
Las fuentes sonoras que se encuentran delante del oyente parecen estar muy cerca.
Como la forma de los canales auditivos, cabeza y torso de cada individuo, es diferente, el HTRD varía y esto hace que el resultado no sea el mismo para todos los oyentes.

Holofonía

Podríamos decir que la holofonía es para el audio lo que un holograma sería para una imagen. Este sistema fue desarrollado en el año 1980 por el argentino Hugo Zuccarelli, quien aplicó el concepto de holograma al sonido y mejoró los efectos conseguidos con el sistema binaural. Según Zuccarelli, igual que en las holografías, para crear los patrones de interferencia, era necesario un sonido de referencia. De esta forma, este sonido de referencia, en teoría, sería generado por la oreja, que contribuiría a generar el patrón de referencia que permitiría a nuestro cerebro localizar la fuente sonora. Zuccarelli añadió a su cabeza de maniquí, llamado “Ringo”, una emisión de sonido interna (inaudible) de referencia. De esta forma los micrófonos registran las interferencias creadas entre el sonido propio y el exterior, consiguiente la tridimensionalidad casi perfecta del sonido.

La holofonía da unos resultados superiores a la grabación binaural basada en el HRTF, ya que esta última intenta simular mediante el procesamiento de señal lo que la holografía registra de forma directa.

Actualidad

En los últimos años, el audio 3D está comenzando a ser un tema de gran interés para muchas empresas alrededor del mundo, que ya cuentan con un gran número de productos para realizar grabaciones binaurales u holofónicas.

Comercialización

Hay bastantes problemas alrededor de la comercialización del audio 3D:

Solo es efectivo con auriculares: Esto imposibilita su uso en cines, películas, videojuegos…
Si el oyente se mueve, la fuente sonora se mueve: Imposibilita la aplicación en películas y realidad virtual.
Cada individuo es diferente: No se puede definir un HRTF estándar para todo el mundo, entonces sería necesario que cualquier persona que quisiera un sistema de sonido 3D se hiciera un estudio de su HRTF.

Es necesario añadir que estos problemas puede que se resuelvan en un futura, ya que Hugo Zucarrelli afirma haber construido unos altavoces holofónicos que liberarían al oyente del uso de auriculares. También se están desarrollando sistemas de altavoces para reproducir sonido 3D que se basan en una técnica llamada corss-talk-cancelled stereo (o transaural stereo).

Aplicaciones

Las técnicas de sonido 3D ya se han aplicado en la industria discográfica en diversas ocasiones. Estos son algunos ejemplos de discos registrados con sistema binaural y holofonía:

The final cut de Pink Floyd (1982)
Binaural de Pearl Jam (2000)
Fire Garden de Steve Vai (1996)

En un futuro el sonido 3D podría encontrar la forma de entrar en el mercado de forma permanente y podríamos retransmitir noticias, partidos, conciertos de una forma tan realista que creeríamos estar en el lugar de los hechos.