Análisis de la voz – Parametrización

Partes: 1, 2, 3, 4

Análisis localizado de la voz
La señal de voz solo presenta características pseudo-estacionarias a corto plazo

Será necesario procesar la señal de voz en segmentos de corta duración: Análisis Localizado

El mecanismo que nos permite realizar este análisis es el enventanado de la señal

Monografias.com
Enventanado de la señal
s[n]: Señal de voz
w[n]: Ventana de análisis
N: Tamaño de la ventana
M: Desplazamiento
S[n]
(Gp:) w[n]

(Gp:) w[M-n]

(Gp:) w[2M-n]

(Gp:) w[3M-n]

N
(Gp:) M

Monografias.com
Perfiles: Rectangular, Hanning, Hamming, Blackman…

Monografias.com
Espectros de los perfiles:
Lóbulo principal
Lóbulos laterales

Monografias.com
Problemas del enventanado:
Produce derrame espectral (leakage).
El lóbulo principal dificulta la identificación de frecuencias cercanas entre sí.
Los lóbulos laterales introducen señal en frecuencias donde no debería haber nada.

Se debe llegar a un compromiso entre el ancho del lóbulo principal y la minimización de los laterales.
Generalmente se prefiere minimizar los lóbulos laterales.

Perfiles típicos para voz: Hanning/Hamming y rectangular.

Monografias.com
Análisis temporal localizado
Parámetros típicos que se suelen calcular:

Energía localizada (o en su defecto la magnitud)

Tasa de cruces por cero

Autocorrelación

Estimación de la frecuencia fundamental F0 (Pitch)

Monografias.com
Energía localizada
E[m]: Energía localizada

Energía localizada de la palabra “Hipotenusa”:
i p o t e n u s a

Monografias.com
E[m]: Energía localizada

Esta ecuación se puede interpretar como:

Esto a su vez se puede interpretar como:
Siendo:
(Gp:) x[n]2
(Gp:) x[n]
(Gp:) h[n]
(Gp:) E[m]

Monografias.com
Magnitud
M[m]: Magnitud

Es un parámetro alternativo a la energía
Menor complejidad
Menor margen dinámico
Muestras elevadas pueden desvirtuar el valor de la energía al ser elevadas al cuadrado

Monografias.com
Ejemplo del cálculo de la magnitud para la palabra “Hipotenusa”
i p o t e n u s a

Partes: 1, 2, 3, 4

Página siguiente