Descriptores de audio del MPEG-7

El MPEG-7 es un estándar que permite la indexación audiovisual. Dentro del estándar hay una parte dedicada al tratamiento de la información de audio, permitiendo conocer las características de la señal gracias a los descriptores. En este artículo nos centraremos en los descriptores de audio del MPEG-7, que nos darán información sobre como es la señal. Como en los descriptores visuales, los descriptores de audio podemos dividirlos en dos grandes grupos: descriptores de bajo nivel y alto nivel (herramientas específicas).

Descriptores de bajo nivel[editar]

El objetivo de estos descriptores es proporcionar la información básica de la señal para poder definir herramientas específicas de nivel superior. El método de adquisición de dicha información puede ser la extracción de las características de una serie de intervalos regulares o de segmentos arbitrarios. En general podremos dividir los descriptores de bajo nivel en los siguientes grupos:

Básicos[editar]

Estos ofrecen un valor mínimo y máximo de la amplitud de la señal de audio en el periodo de muestreo, que nos permite la visualización de la onda de sonido (descriptor AudioWaveformType), o bien definen la potencia de las muestras de la señal de audio (descriptor AudioPowerType).

Espectrales básicos[editar]

Describen el contenido espectral de la señal y reflejan la respuesta del oído humano (aproximadamente logarítmica). Dicho espectro es caracterizado por el descriptor AudioSpectrumEnvelopeType y calculado a partir de la FFT. Como complemento al AudioSpectrumEnvelopeType existen otros descriptores que nos proporcionan otras características: AudioSpectrumCentroidType, indica si el espectro está dominado por altas o bajas frecuencias. AudioSpectrumSpreadType, indica la forma de la energía del espectro y donde se concentra. AudioSpectrumFlatnessType, indica lo plano que es el espectro para cada banda de frecuencia.

Parámetros de señal[editar]

El cálculo de estos parámetros se sujeta a la estimación y pueden describir el detalle del espectro en términos de estructura armónica. Uno de los parámetros que podemos calcular es la frecuencia fundamental, para la cual no hay ninguna normal que marque el mecanismo de cálculo del descriptor AudioFundamentalFrequencyType. Otro descriptor es el AudioHarmonicityType. Nos va a dar medidas armónicas de la naturaleza de la señal del espectro gracias a dos medidas: HarmonicRatio (medida de la proporción de componentes armónicos de energía en el espectro) y UpperLimitOfHarmonicity (punto del espectro a partir del cual no tenemos armónicos).

Timbre temporal[editar]

Se utilizan para el cálculo, únicamente dentro de un segmento de audio, de los parámetros de la envolvente de la señal. Los descriptores son: LogAttackTimeType y TemporalCentroid.

Timbre espectral[editar]

Se pueden utilizar para dar más caracterización a la señal. Se complementan con los descriptores básicos y amplían las posibilidades ofrecidas por los descriptores de parámetro de señal.

Representaciones del espectro base[editar]

Ofrece herramientas para proyectar una señal de audio del espectro en una baja representación tridimensional.

Segmento silencio[editar]

Herramienta sencilla que nos indica si hay silencio en un segmento de audio.

Descriptores de alto nivel[editar]

El objetivo de estos descriptores es proporcionar información más avanzada sobre la señal, teniendo en cuenta las características básicas de dicha señal. En la actualidad se está investigando sobre estos descriptores de alto nivel ya que no están acabados de desarrollar.

Herramientas de reconocimiento general de sonido e indexación[editar]

Las herramientas de reconocimiento general del sonido sirven para indexar y clasificar los efectos sonoros y los sonidos en general.

Herramientas de descripción del contenido hablado[editar]

La descripción del contenido parte de la imperfección de los actuales sistemas de reconocimiento de voz y consiste en la combinación de palabras y enrejados telefónicos.

Herramientas de descripción del tono de un instrumento musical[editar]

Describe las características de percepción de un instrumento de sonido. Estos descriptores se refieren a conceptos como ataque, brillo o riqueza de un sonido.