1.- Introducción
Reconocimiento de voz:
Identificar las palabras pronunciadas.
Entender el significado.
Ventajas:
Comunicación rápida y agradable.
Libera otros “recursos” (manos, vista, …)
Permite movilidad (no es necesario teclado, …)
Facilita la reducción de los interfaces de control
Mejora la interacción a minusválidos
2.- Problemática
Problema mucho más complejo que la síntesis de voz
Factores que determinan la complejidad:
Variabilidad locutor: Intralocutor e interlocutor.
Forma de hablar: Habla continua…
Coarticulación: Los sonidos (silabas, fonemas, …) pronunciados en una palabra o de forma aislada tienen espectros distintos
Segmentación: es difícil separar silabas, fonemas, …
Vocabulario: cuanto menor sea mejor funcionará el reconocedor. (palabras parecidas, mayor proceso, …)
El entorno: ruido de fondo.
3.- Clasificación
Según el objetivo del reconocedor:
Palabras aisladas
Habla conectada
Habla continua
Según el locutor:
Dependiente del locutor
Multilocutor
Independiente del locutor
3.- Clasificación
Según el vocabulario:
Pequeño (Menos de 100 palabras)
Mediano/Intermedio (Entre 100 y 1000 palabras)
Grande (Más de 1000 palabras)
Según el medio:
Telefónico
Microfónico
4.- Esquema de trabajo
Un reconocedor tiene dos fases:
Entrenamiento:
Se enseña al reconocedor los modelos o patrones del vocabulario
Reconocimiento:
El reconocedor analiza el sonido recibido y lo clasifica asignándole (si es el caso) una palabra del vocabulario
4.- Esquema de trabajo
Diagrama de bloques genérico:
(Gp:) Voz
(Gp:) Segmentación
(Gp:) Extracción características
(Gp:) Clasificación
(Gp:) Vocabulario
(Gp:) Preprocesado
(Gp:) Resultado
4.- Esquema de trabajo
Preprocesado:
Normalizar
Ecualizar
Eliminar ruido (sustracción espectral)
Segmentación:
Dividir la señal en bloques (10-20ms)
Extracción de características:
Transformar la información de un bloque en un conjunto reducido de parámetros (no es necesario recuperar luego la señal)
Vectores de características (feature vectors)
4.- Esquema de trabajo
Extracción de características:
En general se puede emplear todas las técnicas vistas en la parametrización de la señal de voz.
Técnicas de extracción de características:
Banco de filtros
Transformadas (FFT, DCT, …)
Predicción lineal (LPC)
MFCC: Mel Frequency Cepstral Coefficients
4.- Esquema de trabajo
Diagrama de bloques genérico:
(Gp:) Voz
(Gp:) Segmentación
(Gp:) Extracción características
(Gp:) Clasificación
(Gp:) Vocabulario
(Gp:) Preprocesado
(Gp:) Resultado
5.- Técnicas de reconocimiento
Ajuste de plantillas o patrones:
Alineamiento temporal óptimo
DTW: Dynamic Time Warping
Redes Neuronales
NN: Neural Networks
Modelos Ocultos de Markov
HMM: Hidden Markov Models
Página siguiente |