Espectrograma

De Wikipedia, la enciclopedia libre
Espectrograma sobre una superficie 3D de una parte de una pieza de música

El espectrograma o sonograma es el resultado de calcular el espectro de frecuencias de una señal analógica por ventanas de tiempo de la misma. Resulta una gráfica tridimensional que representa la energía del contenido frecuencial de la señal según va variando esta a lo largo del tiempo.

Diagrama de onda (arriba) y espectrograma de la oración del checo Strč prst skrz krk que significa 'Introduce el dedo a través de la garganta', en el espectrograma se aprecian claramente los fonos que la componen.

Se usa, por ejemplo, para identificar sonidos fonéticos y procesado del habla, y para el radar y sonar. El instrumento que genera espectrogramas es llamado espectrómetro. También existe software que puede crear espectrogramas.

El espectrograma es una herramienta básica de representación que se utiliza para el análisis de las señales eléctricas, de comunicaciones, y cualquier señal audiovisual en su contenido frecuencial. Es una representación en tres dimensiones, temporal, frecuencial y amplitud de la distribución de energía de una señal.

La representación del espectro de una señal en el dominio frecuencial puede ayudar a entender mejor su contenido, que con una representación en el dominio temporal. El espectrograma se puede interpretar como una proyección en dos dimensiones de una sucesión de transformadas de Fourier de tramas consecutivas, donde la energía y el contenido frecuencial de la señal va variando a lo largo del tiempo.

Definición[editar]

Un espectrograma de sonido de violín. Las líneas brillantes en la parte de abajo son los fundamentales de cada nota y las otras líneas brillantes cercanas son los sobretonos armónicos; en conjunto, forman el espectro de frecuencias.
Espectrografía de sonido de una grabación infrasónica

El espectrograma consiste en coger un determinado número de muestras por medio de una ventana temporal, con un tamaño concreto. Según el tipo de análisis que se haga de la señal, armónico o resonante, la ventana deberá tener un tamaño determinado. A continuación se hace el cálculo del contenido frecuencial de las muestras puestas en ventana, y se representan en una gráfica en tres dimensiones.

Seguidamente se desplaza la ventana a lo largo del tiempo de la señal, para coger otro número de muestras diferentes, se vuelve a calcular el contenido frecuencial y se vuelve a representar en la misma gráfica que la anterior. Esta operación se repite sucesivamente a lo largo de la señal.

La suma de la representación de las transformadas de Fourier de las ventanas consecutivas, aporta información en el dominio frecuencial de la señal, y de la variación de la energía y la frecuencia en función del tiempo.

La gráfica en tres dimensiones puede ser representada de formas diferentes, pero la forma habitual de encontrarla es representante el tiempo en el eje de abscisas, representando las frecuencias en el eje de ordenadas y una representación de la energía en db en el plano tridimensional, está acompañada con una gama de colores que indican la variación en la energía.

Creación[editar]

Espectrograma de una señal en Amplitud Modulada (AM)

El análisis por tramas es el primer paso a seguir en la creación de un espectrograma. Debido a la naturaleza variante de una señal de audio, se aplica una ventana para escoger un número limitado de muestras a procesar.

La elección de la ventana es un compromiso entre el tamaño de la trama, el procesado y el análisis de la señal.

Existen dos grandes bloques de ventanas llamadas de banda ancha Wideband y de banda estrecha Narrowband. La anchura de la ventana se considera en el dominio frecuencial y hace referencia a la resolución espectral del lóbulo principal de la Transformada de Fourier de la ventana. Es posible aplicar diferentes tipos de ventana a la señal: Rectangular, Hanning, Bartlett, Blackman, Gaussiana, Kaiser, son algunos ejemplos. Ventanas con ancho de banda grandes en el dominio temporal, suponen ancho de banda reducido en el dominio frecuencial y ventanas con ancho de banda reducido en dominio temporal, suponen ancho de banda grande en dominio frecuencial. Es por ello que, según el tipo de ventana escogida, será posible conseguir más o menos resolución en los lóbulos principales y secundarios de la Transformada de Fourier.

STFT[editar]

Transformada de Fourier de tiempo corto

Una vez puesta en ventana la señal, se calcula de la Transformada de Fourier de Tiempo Reducido (STFT) del conjunto de muestras puestas en ventana. El STFT es un método de procesamiento de señales no estacionarias en las que las características estadísticas varían en función del tiempo. El STFT extrae varias tramas de una señal que son analizadas en cada uno de los desplazamientos de la ventana a lo largo del tiempo.

El desplazamiento de la ventana puede ser solapado para asegurar que las discontinuidades que se producen entre tramas no pasen por alto y se analicen en el desplazamiento de la trama siguiente. A este solapamiento de tramas también se le conoce como overlap.

Representación[editar]

Tiempo, Frecuencia, Amplitud

Cada una de las tramas que se obtienen del cálculo del STFT se indexan en una matriz. Esta matriz representa la variación en el espectro y la energía de la señal para cada una de la sucesión de tramas a lo largo del tiempo. A medida que se van obteniendo nuevas tramas, se indexan de forma consecutiva en la primera posición de la matriz, empujando la trama anterior a la segunda posición, y la segunda a la tercera, y así sucesivamente. De esta manera se puede representar la variación del espectro de la señal y la energía en función del tiempo.

Una forma de representación del espectrograma es: el tiempo en el eje de abscisas, sucesiones consecutivas de transformadas de Fourier, en el eje de ordenadas la frecuencia expresada en Hz y representada como la mitad del espectro, ya que la transformada de Fourier es periódica y su espectro se repite a lo largo del tiempo. Y por último, la representación de la energía expresada en dB como el módulo de la amplitud de la Transformada de Fourier [20*log10(abs(X(f))] y representada con una paleta de colores, o con niveles de gris, en el caso concreto en la escala de grises, con valores donde la energía es mayor representados con unos niveles más oscuros, y aquellos valores donde la energía es más pequeña con unos niveles más claros.

Características[editar]

La elección de la ventana dependerá de la señal a analizar. A continuación se muestran las características de cada una.

Narrow Band (Banda estrecha)[editar]

Al hacer el análisis de una señal de música a través de su espectro de la Transformada de Fourier se observa que tiene un armónico en la frecuencia fundamental (fo), seguido de varios armónicos secundarios que se encuentran distanciados en múltiplos de la frecuencia fundamental (2fo, 3fo ...). El ancho de banda que hay entre dos armónicos consecutivos tiene un tamaño a tener en cuenta para calcular el tamaño de la ventana. En escala logarítmica los armónicos observan equidistantes, y en escala lineal a la misma distancia.

Al ser puesta en ventana esta señal con una longitud de trama pequeña, es decir, tomando un número de muestras reducidas para calcular el STFT, el ancho de banda de la ventana será bastante reducida, como por que sea más pequeño que el ancho de banda que hay entre dos armónicos consecutivos de la señal. De este modo, al hacer la sucesión de transformadas en cada desplazamiento de la ventana, es posible visualizar con más detalle la estructura armónica de la señal, quedando los armónicos más espaciados en su representación, y permitiendo así diferenciar mejor entre cada uno de ellos .

Por ello la elección de una ventana de banda estrecha será más adecuada para el análisis de la estructura armónica de una señal.

Espectro de la Transformada de Fourier con banda estrecha
Diagrama de onda (arriba) y espectro de una señal armónica

Wideband (banda ancha)[editar]

Los espectrogramas de banda ancha son adecuados para una mejor representación de la estructura resonante de una señal. Por ejemplo en una señal de voz. La elección de una ventana de banda ancha en el análisis de una señal de voz en su contenido frecuencial, se debe a que su estructura resonante del habla es más importante que su contenido armónico, ya que la formación en las palabras por ejemplo una vocal, está relacionada con la formación de las ondas estacionarias que se provocan en la cavidad resonante de una persona, que en la información de su estructura armónica.

El hecho de escoger una banda ancha conlleva una representación más detallada en el contenido de la estructura resonante de la señal debido a que el tracto vocal es más representativo en su envolvente. Esto tiene que ver con que el ancho de banda del lóbulo principal de la ventana es lo suficientemente grande para acomodar dos o más armónicos consecutivos de la señal. De este modo la sucesión de Transformadas de Fourier queda representada por la amplitud de la envolvente de la sucesión armónica de la señal de voz.

Por esta razón los espectrogramas calculados con una ventana de banda ancha quedan representados con unas líneas verticales correspondientes a las rápidas variaciones en la amplitud de la señal.

Espectro de la Transformada de Fourier de una señal de voz con banda ancha
Diagrama de onda (arriba) y espectro de una señal resonante

Aplicaciones[editar]

  • Algunos espectrogramas analógicos se aplicaron al estudio de los cantos de los pájaros, con la investigación actual sigue con el ordenador digital moderno y se aplica a todos los sonidos de animales. Es especialmente útil para el estudio de la modulación de frecuencia a las llamadas de los animales.
  • Los espectrogramas son útiles para ayudar en la superación de defectos del habla y en la formación del habla para la parte de la población que es profundamente sorda.
  • Los estudios de la fonética y síntesis de voz se han facilitado a través del uso de espectrograma.
  • Al invertir el proceso de elaboración de un espectrograma, es posible crear una señal donde el espectrograma es una imagen arbitraria. Esta técnica se puede utilizar para ocultar una imagen en un pedazo de audio y ha sido empleado por varios artistas de la música electrónica.
  • Algunos tipos de música moderna se crean utilizando un espectrograma como medio intermedio, para cambiar la intensidad de diferentes frecuencias a través del tiempo, o incluso para crear otros nuevos, mediante la elaboración y después la transformación inversa.
  • El Espectrograma se puede utilizar para analizar los resultados al pasar una señal de prueba a través de un procesador de señales, como un filtro para comprobar su rendimiento.
  • Análisis frecuencial de cualquier señal audiovisual
  • Visualización de señales eléctricas y de comunicaciones.
  • Análisis musical.
  • Aplicaciones acústicas.
  • Aplicaciones sismológicas.
  • Análisis de señales biomédicas.
  • Extracción de características.

Referencias[editar]

  1. Ilustración of an electro-mechanical Spectrograph
  2. Spectrogram definition
  3. Praat - doing phonetics by computer
  4. Example of using spectrograms tono check filter responses

Enlaces externos[editar]