MFCC

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda


Los Mel Frequency Cepstral Coefficients (coeficientes cepstrales en las frecuencias de Mel) son coeficientes para la representación del habla basados en la percepción auditiva humana. Se derivan de la Transformada de Fourier (FT) o de la Transformada de coseno discreta (DCT). La diferencia básica entre FT o la DCT y MFCC es que en MFCC las bandas de frecuencia están situadas logarítmicamente (según la escala Mel), que modela la respuesta auditiva humana más apropiadamente que las bandas espaciadas linealmente de FT o DCT. Esto permite un procesado de datos más eficiente, por ejemplo, en compresión de audio.

MFCCs se calculan comúnmente de la siguiente forma:[1]

  1. Se toma la transformada de Fourier de (un estracto de la ventana de) una señal.
  2. Mapear la energía del espectro obtenido de la escala mel, usando una función ventana triangular.
  3. Calcular el logaritmo de la energía de cada frecuencia mel.
  4. Tomar la transformada de coseno discreta de la lista de mel log powers, como si fuera una señal.
  5. Los MFCCs son las amplitudes del espectro resultante.

Aplicaciones[editar]

Los MFCCs suelen emplearse características en sistemas de Reconocimiento del habla, como los empleados en el reconocimiento de números dictados por voz. También se aplican en sistemas de Reconocimiento de locutores, cuya función es el reconocimiento de personas por medio de la voz.

Cada vez más, se empiezan a descubrir otras aplicaciones en el campo de la Recuperación de informacion en la música como por ejemplo la clasificación de géneros, medidas de similitud de audio, etc.

Sensibilidad al ruido[editar]

Los valores del MFCCs no son muy robustos ante la presencia de ruido aditivo, por ello es común la normalización de los valores en los sistemas de reconocimiento de locutor para reducir la influencia de dicho ruido. Algunos investigadores proponen modificar el algoritmo básico para hacerlo mas robusto por ejemplo aumentando las amplitudes de los logaritmos en la Escala Mel a un valor apropiado (en torno a 2 ó 3) antes de aplicar la DCT, reduciendo así la influencia de las componentes de baja potencia.[2]

  1. Min Xu et al. (2004). «HMM-based audio keyword generation». En Kiyoharu Aizawa, Yuichi Nakamura, Shin'ichi Satoh. Advances in Multimedia Information Processing - PCM 2004: 5th Pacific Rim Conference on Multimedia. Springer. ISBN 3540239855. 
  2. V. Tyagi and C. Wellekens (2005), Plantilla:Doi-inline, in Acoustics, Speech, and Signal Processing, 2005. Proceedings. (ICASSP ’05). IEEE International Conference on, vol. 1, pp. 529–532.

Enlaces externos[editar]