Reconocimiento de voz (Presentación Powerpoint)

Partes: 1, 2, 3

1.- Introducción
Reconocimiento de voz:
Identificar las palabras pronunciadas.
Entender el significado.

Ventajas:
Comunicación rápida y agradable.
Libera otros “recursos” (manos, vista, …)
Permite movilidad (no es necesario teclado, …)
Facilita la reducción de los interfaces de control
Mejora la interacción a minusválidos

Monografias.com

2.- Problemática
Problema mucho más complejo que la síntesis de voz

Factores que determinan la complejidad:
Variabilidad locutor: Intralocutor e interlocutor.

Forma de hablar: Habla continua…
Coarticulación: Los sonidos (silabas, fonemas, …) pronunciados en una palabra o de forma aislada tienen espectros distintos
Segmentación: es difícil separar silabas, fonemas, …

Vocabulario: cuanto menor sea mejor funcionará el reconocedor. (palabras parecidas, mayor proceso, …)

El entorno: ruido de fondo.

Monografias.com

3.- Clasificación
Según el objetivo del reconocedor:
Palabras aisladas
Habla conectada
Habla continua

Según el locutor:
Dependiente del locutor
Multilocutor
Independiente del locutor

Monografias.com

3.- Clasificación
Según el vocabulario:
Pequeño (Menos de 100 palabras)
Mediano/Intermedio (Entre 100 y 1000 palabras)
Grande (Más de 1000 palabras)

Según el medio:
Telefónico
Microfónico

Monografias.com

4.- Esquema de trabajo
Un reconocedor tiene dos fases:

Entrenamiento:
Se enseña al reconocedor los modelos o patrones del vocabulario

Reconocimiento:
El reconocedor analiza el sonido recibido y lo clasifica asignándole (si es el caso) una palabra del vocabulario

Monografias.com

4.- Esquema de trabajo
Diagrama de bloques genérico:
(Gp:) Voz
(Gp:) Segmentación
(Gp:) Extracción características
(Gp:) Clasificación
(Gp:) Vocabulario
(Gp:) Preprocesado
(Gp:) Resultado

Monografias.com

4.- Esquema de trabajo
Preprocesado:
Normalizar
Ecualizar
Eliminar ruido (sustracción espectral)

Segmentación:
Dividir la señal en bloques (10-20ms)

Extracción de características:
Transformar la información de un bloque en un conjunto reducido de parámetros (no es necesario recuperar luego la señal)
Vectores de características (feature vectors)

Monografias.com

4.- Esquema de trabajo
Extracción de características:
En general se puede emplear todas las técnicas vistas en la parametrización de la señal de voz.

Técnicas de extracción de características:
Banco de filtros
Transformadas (FFT, DCT, …)
Predicción lineal (LPC)
MFCC: Mel Frequency Cepstral Coefficients

Monografias.com

4.- Esquema de trabajo
Diagrama de bloques genérico:
(Gp:) Voz
(Gp:) Segmentación
(Gp:) Extracción características
(Gp:) Clasificación
(Gp:) Vocabulario
(Gp:) Preprocesado
(Gp:) Resultado

Monografias.com

5.- Técnicas de reconocimiento
Ajuste de plantillas o patrones:
Alineamiento temporal óptimo
DTW: Dynamic Time Warping

Redes Neuronales
NN: Neural Networks

Modelos Ocultos de Markov
HMM: Hidden Markov Models

Partes: 1, 2, 3

Página siguiente