Descriptores de timbre de audio del MPEG-7

El estándar MPEG-7 define varios tipos de descriptores para los metadatos (etiquetas) de las señales que contienen. Como se ha podido ver en otros artículos (véase descriptores visuales, descriptores de audio del MPEG-7, descriptores básicos de audio del MPEG-7) el estándar divide los diferentes descriptores según el tipo de señal que describen, bien sea de video o audio. En este artículo se procurará profundizar algo más sobre los descriptores de audio del MPEG-7 y en concreto se detallarán los descriptores de timbre.

Introducción[editar]

Los descriptores de timbre tienen por objetivo describir las características de percepción del sonido de un instrumento. El timbre se refiere a las características que permiten a uno distinguir dos sonidos que son iguales en el tono, el volumen y la duración subjetiva. Dentro de los descriptores de timbre podemos distinguir dos tipos distintos:

Los descriptores temporales de timbre: Ataque de tiempo diario (LAT) y centroide temporal (TC).

Los descriptores espectrales de timbre: Centroide armónico espectral (HSC), desviación del armónico espectral (HSD), propagación del armónico de espectral (HSS), variación del armónico espectral (HSV) y centroide espectral (SC).

Descriptores temporales de timbre[editar]

Los descriptores temporales de timbre son extraídos de la envolvente de la señal en el dominio temporal. La envolvente de la señal describe los cambios de energía en la señal y son el equivalente al llamado ADSR (Attack, Decay, Sustain, Release) de un sonido musical.

Forma general del ADSR de la envolvente de un sonido. Donde cada fase del sonido se define como:

Attack: és la duración del tiempo necesario para que el sonido llegue a su volumen máximo inicial. Será muy corto para un sonido de percusión.
Decay: es el tiempo necesario para que el volumen llegue a un segundo nivel de volumen conocido como el nivel mantenido.
Sustain: es el nivel de volumen en el que el sonido se sostiene después de la fase de decadencia o Decay.
Release: es el tiempo que tarda el volumen en atenuarse por completo.

La extracción de la envolvente de la señal (Env) no es normativo. Un sencillo método para la extracción, consiste en calcular cuadro a cuadro el RMS de la señal original s(n):

Env(l)={\sqrt {{\frac {1}{N_{w}}}\sum _{n=0}^{N_{w}-1}s^{2}(lN_{hop}+n)}}(0\leq l\leq L-1)

Donde L es el número total de cuadros (frames)

Dentro de los descriptores espectrales de timbre podemos encontrar los de ataque de tiempo diario (LAT) y los de centroide temporal:

Log Attack Time[editar]

El Log Attack Time (LAT) se define como el tiempo que tarda en alcanzar el máximo de la amplitud de una señal a partir de un umbral mínimo de tiempo (McAdams, 1999). Su principal motivación es la de describir los inicios de muestras individuales de sonido de diferentes instrumentos musicales. En el estándar MPEG-7, LAT se define como el logaritmo ( en base decimal) de la duración del tiempo Tstart cuando la señal empieza hasta el tiempo Tstop cuando alcanza su valor máximo (para un sonido de percusión) o es parte de un sostenido. Se define como: