Tasa de cruces por cero
Tcc[m]: Tasa de cruces por cero
Donde sgn() es la función signo definida por:
Tasa de cruces por cero
Indica la relación entre la energía a baja y alta frecuencia.
Las señales sonoras dan un tasa menor que las señales sordas.
Tasa de cruces por cero de “Hipotenusa”
h i p o t e n u s a
Aplicaciones E, M y Tcc
Entre las principales aplicaciones se encuentran:
Clasificación de sonidos
Sonoros/Sordos, etc…
Detector de actividad (VAD: Voice Activity Detector)
Uso en codificación:
Ej. GSM: para reducir interferencias y ahorrar batería.
Uso en reconocimiento:
Mayor eficiencia y evitar reconocimientos erróneos.
Detector de actividad:
¿E[m] ó M
>
Umbral?
¿Tcc[m]
>
Umbral?
Voz
Ruido
Si
Si
No
No
Autocorrelación
Rm[k]: Autocorrelación
Propiedades:
Es una función par
Tiene un máximo en k=0, i.e.:
Para desplazamientos de k igual al periodo de la señal la autocorrelación tiene máximos locales
La autocorrelación de una señal periódica es periódica
En una señal de voz:
Los máximos locales de la autocorrelación corresponden con el pitch (frecuencia fundamental, f0) y los formantes del tracto vocal.
Estimación del Pitch
A partir de la correlación
Es el mayor máximo local de la autocorrelación (excluyendo el máximo global)
Segmento
Sonoro
Segmento
Sordo
Problema:
No siempre el mayor máximo local corresponde con el pitch
Para facilitar su localización emplearemos una función de recorte
Esta función eliminará toda la señal de entrada que no sobrepase un determinado umbral
Función de recorte:
Autocorrelación de la señal recortada
AMDF, Average Magnitude Difference Function
Estima del pitch empleando la Magnitud en vez de la correlación
Menor complejidad y coste computacional
En este caso en vez de buscar máximos se deben buscar mínimos
AMDF, Average Magnitude Difference Function
Análisis localizado en frecuencia
Para realizar un análisis localizado en frecuencia basta con calcular la TF de un segmento de señal enventanado.
Espectrogramas
También denominados Sonogramas
Representan la evolución del espectro con el tiempo
Estas variables son inversas
Al ganar resolución en una de ellas, la perdemos en la otra
Tipos de espectrogramas:
Banda ancha
Banda estrecha
Banda ancha (poca resolución en frecuencia)
Ventanas temporales cortas
Banda estrecha (poca resolución en el tiempo)
Ventanas temporales largas
Análisis Homomórfico: Cepstrum
Utilidad:
Permite separar la señal de excitación de la respuesta del filtro del tracto vocal
Un segmento sonoro es la convolución entre:
La señal de excitación glotal e[n]
El filtro del tracto vocal h[n]
La convolución en el tiempo es una multiplicación en frecuencia
Aprovechando las propiedades de los logaritmos:
Si ahora regresamos al “tiempo”: Cepstrum
(Gp:) s[n]
(Gp:) FFT
(Gp:) Log
(Gp:) IFFT
(Gp:) c[n]
El cepstrum puede ser real o complejo:
Cepstrum complejo: tomamos logaritmos del espectro completo (con la fase desenrollada, unwrapped)
Cepstrum real: sólo aplicamos el logaritmo al módulo del espectro
El cepstrum complejo se puede deshacer, el real no al no contener información de fase
Para voz se suele emplear el cepstrum real
Página anterior | Volver al principio del trabajo | Página siguiente |