Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Separación de voz cantada (página 2)




Enviado por Alessandro Palermo



Partes: 1, 2

procesamiento perif´erico se descompone
la entrada ac´ustica en una representaci´on T-F, que se realiza
a trav´es de ?ltrados pasabandas y un proceso de enventa-
nado temporal. En la segunda etapa se extraen caracter´isti-
cas de acuerdo a principios auditivos del ASA. Finalmente
en las etapas de segmentaci´on y agrupamiento, utilizando
las caracter´isticas halladas anteriormente, el sistema gene-
ra segmentos para las distintas fuentes ac´usticas, y luego se
agrupan los segmentos perteneciente a cada fuente en distin-
tos stream. Una vez que se tiene el stream de cada fuente, el
pr´oximo paso consiste en obtener la forma de onda temporal
de cada una de ellas.
El sistema implementado es un caso particular de un sis-
tema CASA. Se considera que la entrada ac´ustica est´a com-
puesta por dos fuentes sonoras, la voz cantada y el acom-
panamiento musical. El objetivo es lograr extraer la senal de
voz cantada de la entrada ac´ustica.
Cabe destacar, que el sistema realiza la separaci´on del
instrumento arm´onico predominante. Debido a lo anterior,
se tienen que cumplir dos hip´otesis para el correcto funcio-
namiento del algoritmo de separaci´on. La primera es que
est´e presente en el fragmento de audio la senal de voz canta-
da,yaquedeotramaneraserealizar´ialaseparaci´ondealg´un
otro instrumento arm´onico. Asimismo para que se extraiga
correctamente la senal de voz cantada, esta debe predominar
por sobre el acompanamiento musical.
El art´iculo est´a fuertemente basado en [12] y [13], los
cuales presentan un sistema para separar la voz hablada de
alguna interferencia ac´ustica. Es de destacar que se deci-
di´o basarse en [13] para realizar la implementaci´on del al-
goritmo de separaci´on, realiz´andose las modi?caciones y las
adaptaciones necesarias para el caso de la separaci´on de voz
˜
˜
˜
˜
˜
˜
˜
˜
˜
˜
cantada. En la ?gura 2 se puede observar un diagrama de
bloques de punta a punta del enfoque propuesto en [1].

Figura 2: Diagrama de bloques del enfoque propuesto por
Li-Wang en [1].
El primer bloque tiene como objetivo particionar la senal
de entrada en regiones en donde est´e presente la voz canta-
da, de forma tal de quedarse con estos fragmentos y utili-
zarlos a lo largo de todo el algoritmo, ya que en las partes
subsiguientes se requiere contar con una senal que conten-
ga la voz cantada y el acompanamiento musical al mismo
tiempo. Dicho bloque no fue implementado, debido a que se
procesan fragmentos de corta duraci´on (por lo que se deci-
di´o poner como restricci´on al sistema que la senal de entrada
contenga voz cantada y acompanamiento musical al mismo
tiempo).
Antes de proseguir, es bueno aclarar que el sistema sepa-
ra solamente las partes de la senal de voz que son sonoras,
no as´i las partes que son sordas. El algoritmo hace la sepa-
raci´on en base a la detecci´on de la frecuencia fundamental
predominante, por lo que est´a pensado para realizar la se-
paraci´on de una senal arm´onica. Los sonidos sonoros son
peri´odicos o cuasi-peri´odicos, es por ello que el sistema lle-
va a cabo su separaci´on. Por otro lado, los sonidos sordos
carecen de una estructura arm´onica, y para realizar su sepa-
raci´on se deben utilizar otras t´ecnicas, en [13] se presenta
una forma de llevar a cabo esta tarea. Esta limitaci´on no es
tan severa, ya que en diversos estilos musicales el porcenta-
je de sonidos sonoros en la voz cantada llega al 90%. Por lo
mencionado anteriormente hay que tener en cuenta que cada
vez que se hable de la separaci´on de la senal de voz cantada,
se estar´a hablando de la separaci´on de las partes sonoras de
dicha senal. Las partes sordas quedan por tanto relegadas de
la separaci´on, incurriendo en errores perceptibles.
2. Modelo auditivo
La primera etapa del sistema consiste en realizar una re-
presentaci´on en tiempo-frecuencia de la senal de entrada,
para ello se utiliza un modelo computacional del sistema au-
´
das llamados gammatone que imitan el ?ltrado que realiza
la c´oclea en el o´ido humano [14], seguido por el modelo de
Meddis que simula los procesos no lineales que all´i suceden
[15].
Elmodeloqueseutilizaparalaconstrucci´ondelos?ltros
es el propuesto en [14], la respuesta al impulso de cada uno
de ellos viene dada por:

Monografias.com

g(t) = tl-1e-2pt1,019ERBcos(2pfct)
con t = 0 (1)
˜
Donde l = 4 es el orden del ?ltro y fc es su frecuencia
central asociada. Por otro lado, el ancho de banda de ca-
da ?ltro es ajustado de acuerdo a las medidas del ancho de
banda rectangular equivalente (ERB por sus siglas en ingl´es
Equivalent Rectangular Bandwidth) 1 de los ?ltros auditi-
vos humanos [16].
Para realizar la implementaci´on se utiliz´o un banco de
128 (canales) ?ltros gammatone, con las frecuencias centra-
les dentro de un rango de inter´es de entre 80 y 5000 Hz. En
la ?gura 3 se puede observar una representaci´on gr´a?ca de
las frecuencias centrales y ERB en funci´on del n´umero de
canal. El canal n´umero 1 corresponde a la frecuencia m´as
alta y el canal 128 a la frecuencia m´as baja.

Figura 3: Frecuencias centrales y ERB vs n´umero de canal.

Se puede apreciar que las frecuencias centrales quedan
distribuidas en una escala cuasi-logar´itmica, entre los valo-
res de 80 y 5000 Hz. Del mismo modo, los anchos de ban-
da de los ?ltros tambi´en quedan distribuidos en una esca-
la cuasi-logar´itmica. Para valores de frecuencias bajas los
?ltros presentan anchos de banda angostos, y luego en los
valores de frecuencias m´as altas los anchos de banda son
mayores.
En la ?gura 4 se pueden ver las respuestas al impulso
para 8 ?ltros gammatone, as´i como tambi´en sus respuestas
en frecuencia.

1 El ERB de un ?ltro dado, se de?ne como el ancho de banda de un ?ltro
rectangular ideal con la misma ganancia de pico, y que deja pasar la misma
cantidad de potencia cuando la senal de entrada es ruido blanco.
˜
´
˜
˜
˜
Figura 4: Filtros gammatone. En la ?gura de la izquierda
se observa la respuesta al impulso para 8 ?ltros gammato-
ne. En la ?gura de la derecha se puede ver la respuesta en
frecuencia de estos ?ltros.
Las respuestas en frecuencia de la ?gura 4 muestran que
los ?ltros son pasabanda, y que sus frecuencias centrales y
sus anchos de banda aumentan logar´itmicamente con la fre-
cuencia.Otrapropiedad relevantequeseobservaenla?gura
es el solapamiento de los espectros de los ?ltros.
Los anchos de banda de los ?ltros se incrementan cuasi-
logar´itmicamente, a medida que aumenta su frecuencia cen-
tral. Por lo tanto, para una senal arm´onica se diferencian dos
casos, en el rango de las bajas frecuencias un ?ltro auditivo
tiene un ancho de banda angosto y generalmente contiene
s´olo un arm´onico, mientras que en el rango de las altas fre-
cuencias tiene un ancho de banda m´as amplio y usualmente
contiene m´ultiples arm´onicos. Un arm´onico es llamado re-
suelto si existe un canal del banco de ?ltros que responde
primariamente a el, en caso contrario, es llamado no resuel-
to.Sepuedeverentoncesqueconelmodelodelbancode?l-
tros auditivos, una serie arm´onica es dividida en arm´onicos
resueltos y no resueltos. En el rango de las bajas frecuen-
cias se encuentran los primeros arm´onicos, en general son
resueltos ya que en cada banda hay s´olo uno de ellos. Por
otro lado, en el rango de las altas frecuencias es encuentran
los arm´onicos m´as altos, son frecuentemente no resueltos
ya que en una misma banda se combinan varios [17], [18].
Tanto en el caso de voz hablada como cantada, el valor que
se toma para diferenciar el rango de las bajas y las altas fre-
cuencias es generalmente de 1 kHz, y es por tanto el que se
utiliza en el algoritmo de separaci´on.
A la salida de cada ?ltro, la senal es dividida en tramas
temporales consecutivas. Este proceso resulta en una des-
composici´on de la senal en un mapa de dos dimensiones,
tiempo y frecuencia. Cada unidad del mapa es llamada uni-
dad T-F, que corresponde a un determinado canal del banco
de ?ltros en una determinada trama temporal. A partir de
esta descomposici´on T-F, se de?ne el objetivo computacio-
nal del sistema, el cual consiste en retener las unidades T-F
en donde la voz predomina por sobre el acompanamiento,
y remover las otras. Lo anterior se puede ver tambi´en como
el hecho de identi?car una m´ascara binaria en donde un 1

Monografias.com

la cual est´a dada por: l 1 2pt1,019ERBfs, donde l y ERB son
˜
˜
˜
˜
˜
˜ ˜
indica que la voz predomina sobre el acompanamiento, y un
0 indica lo contrario. Esta m´ascara es llamada m´ascara ideal
binaria (IBM, por sus siglas en ingl´es Ideal Binary Mask)
[11], [19]. La base de lo planteado anteriormente se encuen-
tra en lo que se denomina fen´omeno de enmascaramiento
auditivo, el cual dice que dentro de una banda cr´itica una
senal tiende a ser enmascarada por otra m´as fuerte [20]. La
m´ascara binaria estimada que se obtiene en todo el proceso
de separaci´on se pretende que se parezca lo m´as posible a la
IBM.
Una propiedad muy importante es que la respuesta de los
?ltros auditivos a m´ultiples arm´onicos es modulada en am-
plitud, y la frecuencia de la envolvente de dicha respuesta
es la frecuencia fundamental (f0) 2 [21]. Adem´as, estudios
psicof´isicos muestran que el sistema auditivo humano utili-
za diferentes mecanismos para procesar arm´onicos resuel-
tos y no resueltos [17], [22]. Los primeros sistemas basa-
dos en CASA empleaban la misma estrategia para tratar a
los diferentes arm´onicos, esa t´ecnica funcionaba razonable-
mente bien para los arm´onicos resueltos pero ten´ia un po-
bre desempeno para los arm´onicos no resueltos. Tomando
en cuenta lo anterior, el art´iculo propone utilizar distintos
m´etodos para realizar la separaci´on de los arm´onicos resuel-
tos y de los no resueltos, o lo que es lo mismo, se trabaja de
distintas maneras en bajas y en altas frecuencias.
Si se observa la ecuaci´on 1, se puede ver que los ?ltros
gammatone introducen un desfasaje entre muestras, distinto
para cada canal. Si se quieren hacer comparaciones entre ca-
nales, como es el caso del algoritmo de separaci´on descrito
en este art´iculo, tal caracter´istica se vuelve un inconvenien-
te. Se implementaron dos m´etodos para tratar de resolver
este problema, uno es el de doble ?ltrado y el otro es el pre-
sentado por Hu-Wang en [13].
El m´etodo de doble ?ltrado consiste en primero ?ltrar la
senal en un sentido, aqu´ise introduce un desfasaje que viene
dado por el argumento de la transferencia del ?ltro, ?, luego
se invierte todo el sentido de las muestras de la senal, y ?-
nalmente se pasa por el ?ltro nuevamente introduciendo un
desfasaje de -?. Por lo tanto el desfasaje total luego de este
proceso es cero. 3 Si bien este m´etodo funciona correcta-
mente para lograr un desfasaje nulo, tiene como desventaja
que la ganancia del ?ltro se duplica, por lo que el ?ltrado es
m´as severo en cada banda.
Por otro lado, el m´etodo descrito en [13] consiste en re-
tardarlasmuestrasporunacantidadconstanteencadacanal,

los mismos que en la ecuaci´on 1 y fs es la frecuencia de
muestreo (16 kHz). Los detalles exactos del c´alculo pueden
encontrarse en [23]. Si bien no es una correcci´on exacta, ya

2 La suma de dos senales sinusoidales puede verse como una senal de
frecuencia intermedia, cuya amplitud est´a modulada por una sinusoide de
frecuencia igual a la resta de las frecuencias originales.
3 Matlab brinda la posibilidad de hacer este proceso mediante la funci´on
?lt?lt.
˜
˜
˜
que los ?ltros tienen fase no lineal, se comprob´o experimen-
talmente que se obtienen buenos resultados.
En la ?gura 5 se observa para una entrada sinusoidal de
300 Hz las salidas de los ?ltros junto con las correcciones
de fase.

Figura 5: Comparaci´on entre la salida original de los ?ltros
y las correcciones de fase para una entrada sinusoidal de
300 Hz. En la ?gura superior se muestra la salida sin nin-
guna correcci´on de fase, en la ?gura del medio la salida con
correcci´on de fase de Hu-Wang, mientras que en la ?gura in-
ferior est´a la salida con correcci´on de fase de doble ?ltrado.
Las frecuencias centrales var´ian entre 200 y 400 Hz.
Enla?gurasuperiorsepuedeobservarqueefectivamente
se introduce un retardo a la salida de cada canal, y que es
distinto para cada uno de ellos. Se puede ver que los picos
quedan desalineados entre los diferentes canales. Asimismo
se aprecia que debido al solapamiento de las bandas de paso
de los ?ltros, la entrada sinusoidal activa el canal de 300 Hz
y los adyacentes.

2.1. Cocleagrama
Para realizar una representaci´on gr´a?ca de la senal en
tiempo y en frecuencia generalmente se utiliza un espec-
trograma, el cual consiste en calcular el espectro de las fre-
cuencias en consecutivas tramas temporales solapadas. Se
obtiene por tanto una representaci´on de las variaciones de la
energ´ia de la senal en una matriz de dos dimensiones, cu-
yos ejes vertical y horizontal son la frecuencia y el tiempo
respectivamente. Cabe destacar que el eje de las frecuencias
tiene una escala lineal.
Al utilizar el modelo auditivo para descomponer la senal
en una representaci´on de tiempo-frecuencia, se realiza un
?ltrado pasabanda a trav´es del banco de ?ltros gammatone,
seguido por una recti?caci´on no lineal al utilizar el modelo
de Meddis. El cocleagrama consiste en gra?car el logaritmo
de la energ´ia de cada unidad T-F. Aqu´i se obtiene una escala
en frecuencia cuasi-logar´itmica, y los anchos de banda de
cada ?ltro dependen de la frecuencia. Asimismo el coclea-
grama tiene mucho m´as resoluci´on en bajas frecuencias que
en altas, debido a la distribuci´on de las frecuencias centra-
les de los distintos canales. El cocleagrama es por tanto una

Monografias.com

˜
˜
representaci´on m´as apropiada cuando se utiliza el modelo
auditivo, ya que se obtiene una resoluci´on variable de los
anchos de banda de cada ?ltro y de sus frecuencias centra-
les asociadas.

En la ?gura 6 se puede ver el espectrograma y el coclea-
grama para una senal de voz cantada.

Figura 6: Comparaci´on entre el espectrograma y el coclea-
grama. En la ?gura superior se presenta el espectrograma de
la senal, mientras que en la inferior est´a el cocleagrama.

3. Extracci´on de caracter´isticas
En esta etapa se extraen caracter´isticas para cada unidad
T-F, las cuales son utilizadas en las etapas posteriores. Una
de ellas es una estructura llamada correlograma, que consis-
˜
te en hallar la autocorrelaci´on de las respuestas de los ?ltros
en cada unidad, y es utilizada como medida de la periodici-
dad de la senal. La otra caracter´istica es la correlaci´on cru-
zada entre canales, la cual mide la similitud entre las autoco-
rrelaciones de dos canales adyacentes, o lo que es lo mismo,
la similitud entre los patrones de periocidad. Es utilizada
como indicador de si dos canales adyacentes responden a
un mismo componente ac´ustico. Ambas caracter´isticas son
calculadas en los canales de bajas frecuencias. En altas fre-
cuencias estas caracter´isticas no son buenos indicadores, de-
bido a que las respuestas de los ?ltros est´an moduladas en
amplitud y su envolvente ?uct´ua a f0. Por lo tanto en altas
frecuencias se calculan las mismas caracter´isticas, pero so-
bre la envolvente de amplitud de la respuesta de los ?ltros.

El correlograma consiste en un arreglo tridimensional,
donde cada componente es la autocorrelaci´on de las res-
puestas a la salida del modelo auditivo. Es decir, la auto-
correlaci´on de cada unidad T-F para determinado instante
de tiempo. En la ?gura 7 se puede ver una representaci´on
esquem´atica del correlograma.
˜ ´
Figura 7: Representaci´on esquem´atica del correlograma,
donde el tiempo, la frecuencia y la autocorrelaci´on son vis-
tos en ejes ortogonales.

El correlograma es generalmente usado para obtener una
representaci´on de la periocidad de la senal, es util tanto en
las etapas de segmentaci´on y agrupamiento, como en la eta-
pa de detecci´on de f0.
Para computar el correlograma, se calcula la autocorre-
laci´on en todas las unidades T-F. Para esto, en el algoritmo
implementado se utiliza la versi´on normalizada de la auto-
correlaci´on.SealaunidadT-Fuc,m paraelcanalcylatrama
m, el correlograma normalizado a la salida del bloque audi-
tivo viene dado por:
AH(c,m,t) =
N-1
n=0
h(c,mT + n)h(c,mT + n + t)
N-1
n=0
h2(c,mT + n)
N-1
n=0
h2(c,mT + n + t)
(2)
˜
Donde h es la salida del modelo auditivo, m es el ´indice de
la trama y c es el ´indice del canal. El valor de N es de 256
muestras ya que se utilizan ventanas de 16 ms, mientras que
T = 160 al utilizar solapamientos entre ventanas de 10 ms.
El correlograma es calculado para valores de t compren-
didos entre 32 y 200, debido a que corresponden al rango
de?nido de variaci´on del pitch de la senal, el cual es entre
80 y 500 Hz.
Como se mencion´o anteriormente, las caracter´isticas pre-
sentadas se calculan de diferente forma seg´un se est´e en al-
ta o baja frecuencia. En baja frecuencia se calculan sobre
la unidad T-F y en el caso de alta frecuencia se computan
sobre las envolventes de las unidades T-F. Las siguientes ?-
guras ilustran c´omo cambia el correlograma al utilizar las
envolventes para los canales de alta frecuencia.
La ?gura 8 muestra el correlograma para una trama de
audio. En el mismo, no se realiza la discriminaci´on entre
canales de baja y alta frecuencia. Se calcula las autocorrela-
ciones sobre las unidades T-F para todos los canales.

Monografias.com

˜
Figura 8: Correlograma computado sobre todas las unidades
T-F, tanto en los canales de baja frecuencia como en los de
alta.
En la parte superior de la ?gura 8 se observa la trama
de audio en estudio. En la parte central, el correlograma
computado sobre todas las unidades T-F. En bajas frecuen-
cias (canales inferiores sobre el eje vertical), se observa en
rojo, los picos de la autocorrelaci´on. Se aprecian los arm´oni-
cos f0, 2f0 y 3f0, por ejemplo. En los canales de alta fre-
cuencia se observa el efecto del batido. La ?gura inferior
muestra el resultado de sumar todos los canales del correlo-
grama. En ella se observan los picos de la autocorrelaci´on,
los cuales indican el per´iodo de la senal. Cabe destacar que
tambi´en aparecen picos espurios, esto es no deseable ya que
puede inducir a errores. Para evitar estos picos espurios es
justamente que se utiliza la envolvente.
La ?gura 9 muestra, para la misma trama de audio, el
correlograma utilizando la envolvente para los canales de
alta frecuencia.

Figura 9: Correlograma computado sobre todas las unidades
T-F en baja frecuencia y sobre las envolventes de las unida-
des en alta frecuencia.
La ?gura anterior muestra en la parte superior nuevamen-
te la trama de audio en estudio. En la parte central se tiene el
correlograma. En los canales de baja frecuencia el correlo-
grama es id´entico al de la ?gura 8, nuevamente se aprecian
los arm´onicos f0, 2f0 y 3f0. En la parte de alta frecuen-
cia se realiza el correlograma sobre las envolventes de las
unidades T-F. Se observa claramente c´omo el correlograma
˜
˜ ˜
˜
˜
en alta frecuencia presenta m´aximos (zonas rojas) s´olo en
la frecuencia fundamental f0. De este modo, se justi?ca lo
que se coment´o inicialmente, que la envolvente en alta fre-
cuencia ?uct´ua entorno a la frecuencia fundamental f0. En
la parte inferior de la ?gura 9 se calcula nuevamente la su-
ma del correlograma. Los m´aximos que se observan indican
el per´iodo de la senal en estudio. Se puede ver, que si bien
estos picos son m´as suaves que los que se muestran en la ?-
gura 8, no aparecen los picos espurios. Por lo tanto, al utili-
zar un detector de picos (o m´aximos) se obtendr´ian mejores
resultados al haber menos probabilidad de cometer error. La
?gura 9 muestra claramente el efecto que tiene la discrimi-
naci´on entre canales de baja y alta frecuencia y justi?ca el
trabajar de este modo.

La correlaci´on cruzada entre dos canales adyacentes mi-
de la similitud entre las autocorrelaciones de ambos. Es una
medida de que tan similares son los patrones de periocidad
de sus respuestas. Como un arm´onico activa varios canales
consecutivos, si dos canales adyacentes presentan alta corre-
laci´on cruzada, se puede suponer que responden a un mismo
componente ac´ustico.
Para cada unidad T-F uc,m, su correlaci´on de canal cru-
zada con uc+1,m viene dada por:
L-1
CH(c,m) = A(c,m)A(c + 1,m) (3)
t=0
Dondecindicaelcanal,mlatramayAeslaautocorrelaci´on
con media cero y varianza uno de la senal. Se utiliza la auto-
correlaci´on de esta forma para asegurarse de que CH(c,m)
sea sensible s´olo a los patrones de periocidad, y no a las
variaciones de la media que introducen los ?ltros auditivos.
4. Detecci´on del pitch predominante
Esta etapa implementa la detecci´on de pitch o frecuen-
cia fundamental f0. Est´a basado en el m´etodo propuesto en
[24], el cual permite detectar el contorno de m´ultiples pit-
ches (de voz cantada y otras fuentes arm´onicas provenientes
de instrumentos musicales, por ejemplo). Esta etapa es de
vital importancia para obtener buenos resultados al ?nal del
sistema de separaci´on de voz cantada.

Figura 10: Representaci´on esquem´atica del m´etodo para la
obtenci´on del pitch.
A diferencia de otros algoritmos de detecci´on de pitch,
como son por ejemplo los provistos por los programas Wa-
veSurfer [25] o Praat [26], se calcula el pitch para el caso

Monografias.com

˜
polif´onico, es decir, cuando est´a presente m´as de una fuente
arm´onica. Una hip´otesis fuerte que se realiza en esta etapa
es que en una trama donde est´e presente la voz cantada y el
acompanamiento musical, el pitch predominante ser´a el de
la voz cantada.
Los dos primeros bloques del algoritmo de detecci´on de
pitch son similares a los explicados anteriormente. En este
caso se usan los correlogramas para obtener los picos de la
autocorrelaci´on, los cuales se utilizan para calcular la fre-
cuencia fundamental f0.
El bloque de selecci´on de canales y picos se encarga pri-
mero de seleccionar distintos canales, con el ?n de eliminar
aquellos que posean interferencia y as´i de este modo, evitar
cometer errores en el c´alculo de la frecuencia fundamental.
Luego para cada uno de los canales resultantes, se seleccio-
nan diferentes picos y se guardan los valores de los retardos
de los picos en un conjunto de picos.
Para modelar el proceso de generaci´on de pitch se utiliza
un modelo oculto de Markov (HMM), el cual se ilustra en la
?gura 11.

Figura 11: Diagrama esquem´atico del HMM. En verde se
muestran los nodos ocultos, los cuales representan posibles
estados de pitch en cada trama. En celeste est´an los nodos
observados, los cuales representan el conjunto de picos se-
leccionados en cada trama.
El espacio de estados de pitch ? es la uni´on de tres subes-
pacios:

? = ?0 ? ?1 ? ?2 (4)
Donde ?0, ?1 y ?2 son subespacios de cero, una y dos
dimensiones respectivamente. Cada uno de ellos represen-
ta una colecci´on de hip´otesis de pitch con cero, uno y dos
pitches respectivamente. Un estado en el espacio de estados
es representado como el par:
x = (y,Y )
(5)
Donde y ? RY e Y ? 0,1,2 es el ´indice del subespacio.
En cada trama temporal, un nodo oculto del HMM indi-
ca un posible estado de pitch, mientras que el nodo obser-
´
˜
˜
˜
˜
˜
vado indica el conjunto de picos seleccionados. En el blo-
que de integraci´on de canales se calculan las probabilidades
de observaci´on, que son las probabilidades de observar un
conjunto de picos (nodo observado) estando en un estado
en particular (nodo oculto). Por ultimo, en el bloque ?nal
se calculan las probabilidades asociadas a la din´amica de
pitch (las transiciones entre distintos estados), y ?nalmente
se halla la secuencia de estados m´as probable, o lo que es lo
mismo, el valor del pitch predominante en cada trama.

5. Segmentaci´on
En las etapas anteriores, la senal de entrada ha pasado por
el modelo auditivo, donde se realiz´o una descomposici´on en
unidades T-F. Luego a cada una de ellas se le calcularon
varias caracter´isticas, adem´as de la frecuencia fundamental
predominante.
Este cap´itulo presenta la siguiente etapa, que es la etapa
de segmentaci´on de las unidades T-F. Un segmento es una
regi´on de unidades T-F, se pretende que cada uno de ellos
pertenezca a una misma fuente (una de las fuentes que ge-
nera la senal de entrada). Cabe destacar que el segmento
contiene m´as informaci´on que una unidad T-F aislada, ya
que contiene informaci´on sobre la continuidad temporal y
en frecuencia.
Considerando que las senales de voz son continuas tanto
en el tiempo como en frecuencia, las unidades T-F vecinas
en el tiempo tienden a ser originadas por la misma fuen-
te. Asimismo, debido a la forma de los ?ltros del modelo
auditivo, los cuales hacen que haya un solapamiento signi-
?cativo entre los canales de frecuencia, un arm´onico activa
cierto n´umero de canales adyacentes. Esto lleva a realizar
la formaci´on de segmentos teniendo en cuenta la continui-
dad temporal y la correlaci´on cruzada entre canales. En los
canales de alta frecuencia, ser´an las envolventes de las res-
puestas de los ?ltros las que presenten similares patrones de
periocidad en canales adyacentes. Es as´i que en los cana-
les de alta frecuencia se realiza la segmentaci´on en base a
la continuidad temporal y a la correlaci´on cruzada entre las
envolventes de los canales.
Debido a que el correlograma es una representaci´on de la
periocidad de la senal, este m´etodo est´a pensado para que
funcione bien s´olo en las partes sonoras, no esper´andose
buenos resultados en aquellas partes no peri´odicas, como
las sordas.
En una primera instancia se realiza el marcado de las
unidades T-F, el cual consiste en marcar las unidades con
alta correlaci´on cruzada entre canales (implica que el ori-
gen de esas senales provienen de la misma fuente). Toman-
do en cuenta el efecto de la modulaci´on en amplitud para
los arm´onicos no resueltos en canales de alta frecuencia, en
forma separada se marcan las unidades con alta correlaci´on
cruzada entre las envolventes de los canales.
En los canales de baja frecuencia se marcan dos unida-

Monografias.com

> TA
AE(c,m,tS(m))
des T-F adyacentes uc,m y uc+1,m 4 con un valor de 1 si se
cumple que:
CH(c,m) > ?H
(6)
DondeCH(c,m)eslacorrelaci´oncruzadaentreuc,m yuc+1,m
y ?H = 0,986.
En los canales de alta frecuencia se marcan unidades de
dos tipos. Dos unidades T-F se marcan con un valor de 1
utilizando el mismo criterio que en baja frecuencia. Por otro
lado, con el ?n de identi?car las unidades T-F que respon-
den a arm´onicos no resueltos, se marcan dos unidades T-F
adyacentes con un valor de 2 si se cumple que:
CE(c,m) > ?E
(7)
˜
Donde CE(c,m) es la correlaci´on cruzada entre las envol-
ventes de uc,m y uc+1,m y ?E = 0,975.
En la ?gura 12 se muestra un ejemplo del marcado de
unidades T-F.

Figura 12: En la ?gura superior se observa el cocleagrama
de la senal de entrada, mientras que en la ?gura inferior se
pueden ver las unidades T-F marcadas, en verde est´an las
unidades marcadas con 1, mientras que en rojo se aprecian
las que fueron marcadas con 2.
Las unidades T-F vecinas con la misma marca se juntan
en segmentos, formando por tanto segmentos tipo-1 y seg-
mentos tipo-2, de acuerdo a la naturaleza de sus arm´onicos,
es decir, si son resueltos o no.
Dos unidades son consideradas vecinas si comparten el
mismo canal y aparecen en tramas temporales consecutivas,
o si comparten la misma trama y est´an en canales adyacen-
tes.
Una vez que se termina de formar los diferentes segmen-
tos, el pr´oximo paso es agruparlos con el ?n de formar el
stream ?nal, el cual est´a constituido por segmentos prove-
nientes de una misma fuente, en este caso de la voz cantada.
Los criterios para agrupar los segmentos se presentan en la
siguiente secci´on.
4
Donde ui,j es la unidad T-F del canal c, en la trama m-´esima.
6. Agrupamiento
En esta secci´on se presenta la etapa de agrupamiento. El
objetivo es obtener una m´ascara binaria llamada stream for-
˜
mada por las unidades T-F. Un valor de 1 en dicha m´ascara
indica que la unidad pertenece a la senal de voz cantada,
˜
˜
˜
˜
˜
mientras que un valor de 0 indica que pertenece a la senal
de acompanamiento musical.
En una primera instancia se realiza un etiquetado indivi-
dual de las unidades T-F. Las unidades en las que la voz pre-
domina sobre el acompanamiento son etiquetadas como voz
dominante, mientras que las otras se etiquetan como acom-
panamiento dominante.
Luego se etiqueta cada segmento como voz dominante o
acompanamiento dominante, teniendo en cuenta si la suma
de la energ´ia de sus unidades T-F etiquetadas como voz do-
minante es mayor a la energ´ia total de todo el segmento. Los
˜
segmentos etiquetados como voz dominante son agrupados
al stream ?nal. Finalmente con el objetivo de re?nar el re-
sultado se remueven regiones signi?cativas de unidades T-F
etiquetadas como acompanamiento dominante, y se agregan
unidades T-F vecinas etiquetadas como voz dominante que
no pertenecen a ning´un segmento.
Para etiquetar las unidades T-F se procede de distinta ma-
nera seg´un los segmentos hayan sido formados teniendo en
cuenta si sus arm´onicos eran resueltos o no. En las bajas fre-
cuencias, para etiquetar una unidad se compara su perioci-
dad con el per´iodo del pitch predominante en esa trama. Por
otro lado, en las altas frecuencias, las respuestas son modu-
ladas en amplitud y sus envolventes ?uct´uan a la frecuencia
fundamental f0, por lo que se compara la periocidad de su
envolvente con el per´iodo del pitch predominante.
Las unidades T-F uc,m que pertenecen a segmentos tipo-
1 son etiquetadas como voz dominante si la autocorrelaci´on
en el canal c y la trama m, evaluada en el pitch estimado
tS(m) es comparable con el m´aximo valor de la autocorre-
laci´on dentro del posible rango de pitch G:
AH(c,m,tS(m))
m´axt?G AH(c,m,t)
> TT
(8)
˜
Donde TT = 0,688. En el caso de no cumplir esta condi-
ci´on, la unidad T-F se etiqueta como acompanamiento do-
minante.
El resto de las unidades T-F se etiquetan como voz domi-
nante si el valor del correlograma de la envolvente, evaluado
en el pitch estimado, es comparable con su valor m´aximo
dentro del posible rango de pitch:

(9)
m´axt?G AE(c,m,t)
Donde TA = 0.688.
En la ?gura 13 se muestra un ejemplo del etiquetado de
unidades. Se pueden ver las unidades marcadas y las unida-
des etiquetadas.

Monografias.com

˜
˜ ´
Figura 13: En la ?gura superior se pueden ver las unidades
marcadas, en verde son las tipo 1 y en rojo las tipo 2. En la
?gura inferior se observan en rojo las unidades etiquetadas
comovozdominante,ylasrestantessonlaetiquetadascomo
acompanamiento dominante.
El proceso de agrupaci´on de segmentos se divide en tres
etapas. La primera etapa es la m´as importante, en la cual
se realiza una agrupaci´on inicial de los segmentos formados
en la etapa de segmentaci´on. Un segmento es considerado
como voz dominante y agrupado en el stream ?nal, si se
cumple que la suma de la energ´ia correspondiente a sus uni-
dades etiquetadas como voz dominante, es mayor a la mitad
de la energ´ia contenida en todo el segmento. Las pr´oximas
dos etapas son de re?namiento del proceso descrito ante-
riormente. La segunda etapa consiste en eliminar del stream
anterior, grandes regiones de unidades T-F etiquetadas como
acompanamiento dominante. La tercera y ultima etapa, tie-
ne como objetivo reunir m´as unidades T-F etiquetadas como
voz dominante para agregarlas al stream. Para ello se buscan
unidades etiquetadas como voz dominante en la vecindad de
los segmentos etiquetados como voz dominante, y que no
pertenezcan a ning´un segmento.
A modo de comparaci´on, en la ?gura 14 se puede ob-
servar el stream ?nal obtenido, junto con la m´ascara ideal
binaria para el ejemplo de voz cantada que se ha venido
mostrando. Se observa que hay similitud entre ambas.
Figura 14: En la ?gura superior se observa la m´ascara bina-
ria obtenida con el c´odigo implementado. En la ?gura infe-
rior se ve la m´ascara ideal binaria.
En la ?gura 15 se pueden ver los cocleagramas del ejem-
plo de voz cantada. Se muestra el correspondiente al de la
˜ ˜
˜
senal de voz, al del acompanamiento musical y ?nalmente
al de la mezcla. Se puede observar que el cocleagrama de la
senal de mezcla es una superposici´on de los otros dos.
˜ ˜
˜
˜
˜
˜
Figura 15: En la ?gura superior se puede ver el cocleagra-
ma de la senal de voz, en la central el de la senal de acom-
panamiento musical, y en la inferior el de la mezcla.
El objetivo del sistema es identi?car cu´ales regiones del
cocleagrama de la mezcla pertenecen a la senal de voz. El
stream es justamente un indicador de en qu´e zonas la voz
predomina por sobre el acompanamiento. En la ?gura 16 se
ilustra lo anterior. En ella se puede observar el cocleagrama
de la senal de voz original, junto con el cocleagrama de la
mezcla enmascarado con la m´ascara ideal binaria y con el
stream obtenido con el algoritmo. Se observa la similitud
entre los cocleagramas enmascarados con el cocleagrama de
la voz original.
˜
˜
Figura 16: En la ?gura superior se encuentra el cocleagrama
de la senal de voz, en la central el cocleagrama de la mezcla
enmascarado con la m´ascara ideal binaria, y en la inferior el
enmascarado con la m´ascara producida por el algoritmo.
7. Res´intesis
La funci´on de res´intesis constituye el bloque ?nal del al-
goritmo de separaci´on, la cual permite obtener la forma de
onda en el dominio del tiempo de la senal de voz cantada.
Para ello, en esta etapa se utilizan como entradas el stream
?nal obtenido en la etapa de agrupamiento y la salida del
banco de ?ltros auditivos.

Monografias.com

I2(n)
SNR = 10log10[
]
(10)
n(I(n) – O(n))
˜
˜
˜
˜
˜
˜
˜
El algoritmo de res´intesis, realiza la reconstrucci´on de
la senal utilizando las unidades T-F a la salida de los ?ltros
gammatone en donde el stream ?nal vale 1, o sea, se utilizan
las unidades en las cuales la voz predomina sobre el acom-
panamiento. Por lo tanto, se hace un enmascaramiento entre
el mapa de unidades T-F obtenido por los ?ltros auditivos y
el stream ?nal.
A diferencia de etapas anteriores, en esta etapa es muy
importante que el desfasaje entre muestras de la senal sea
lo menor posible, ya que se reconstruye la senal muestra a
muestra. Por tanto en esta etapa se utiliza la salida del ban-
co de ?ltros con correcci´on de fase mediante doble ?ltrado,
ya que aqu´i lo que interesa es la alineaci´on de las muestras
entre diferentes canales.
La implementaci´on del algoritmo de res´intesis consiste
en 3 pasos:
1 Quedarse con aquellas unidades T-F que valen 1 en el
stream ?nal, o lo que es lo mismo, con las unidades
T-F en las cuales la voz predomina sobre el acom-
panamiento. Para ello se realiza un enmascaramiento
entre el mapa de unidades T-F y el stream ?nal.
2 Utilizar una ventana de coseno elevado para ponderar
cada muestra dentro de las unidades T-F resultantes
del paso anterior.
3 Sumar todas las senales que se obtienen del paso 2
para reconstruir la senal de voz cantada en el dominio
del tiempo.
En la ?gura 17 se muestra un ejemplo de los resultados
obtenidos.

Figura 17: Formas de ondas obtenidas con el algoritmo de
res´intesis para el ejemplo de voz cantada. En la ?gura su-
perior se muestra la forma de onda original de la voz. En la
?gura central est´a la forma de onda obtenida al resintetizar
con la m´ascara ideal binaria, mientras que en la ?gura in-
ferior est´a la forma de onda obtenida al resintetizar con el
stream ?nal.
En el ejemplo anterior se puede ver que la forma de onda
queseobtienealresintetizarconlam´ascaraidealesmuypa-
recida a la de la voz original. Asimismo, se puede observar
˜ ˜
˜
˜
˜
˜
˜
˜
˜
˜
˜
˜
˜
que la forma de onda obtenida con el algoritmo implemen-
tado es similar a la forma de onda obtenida con la m´ascara
ideal.
8. Evaluaci´on y resultados
Los conceptos principales para realizar la evaluaci´on son
la m´ascara binaria obtenida (stream ?nal) y la m´ascara ideal
binaria (IBM). Cabe recordar que el objetivo computacional
delsistemaesqueelstream?nalsealom´asparecidoposible
a la IBM.
La m´ascara ideal puede obtenerse f´acilmente si se tiene
por separado la senal de voz cantada y la senal del acom-
panamiento musical. Primero se calcula la energ´ia de cada
unidad T-F para ambas senales, y luego se comparan estos
resultados. Si la energ´ia de la unidad perteneciente a la voz
cantada es mayor o igual a la del acompanamiento musical,
se asigna el valor 1 en la m´ascara ideal, de lo contrario toma
el valor 0. Los fragmentos de senales necesarios para la ob-
tenci´on de la m´ascara ideal se obtuvieron a partir de discos
compactos de karaoke.
Teniendo en cuenta lo anterior, la forma de onda que se
obtiene al resintetizar la mezcla a partir de la m´ascara bina-
ria ideal, es tomada como la senal de voz cantada de referen-
cia. Si bien a priori, se podr´ia pensar en utilizar la senal de
voz cantada disponible en forma separada para realizar las
evaluaciones,esto no ser´ia del todo correcto. En este caso no
se estar´ia tomando en cuenta el verdadero objetivo del siste-
ma, el cual es obtener la m´ascara binaria, as´i como tampoco
se tendr´ian en cuenta el enmascaramiento auditivo y las dis-
torsiones introducidas en la representaci´on de la senal y en
la res´intesis.
Seg´un estudios realizados, la inteligibilidad de la senal
obtenida con la m´ascara ideal binaria para el caso de voz
hablada es muy buena [27], [28], [29].
En lo que sigue se presenta un criterio para medir la per-
formance del sistema. Para cuanti?car la mejora obtenida
por el sistema, lo que se hace es calcular la relaci´on senal a
ruido (SNR por sus siglas en ingl´es Signal to Noise Ratio)
antes y despu´es de la separaci´on.
Luego,setomacomomedidadeperformancelaganancia
de la SNR, es decir, la diferencia entre la SNR antes y des-
pu´es de la separaci´on. La SNR es una comparaci´on entre la
potencia de la senal portadora de informaci´on, y la potencia
del ruido que obstaculiza la percepci´on de la informaci´on,
como es habitual se mide en decibeles (dB). En el sistema
planteado la SNR se de?ne como [1]:

n
2
Cuando se considera el c´alculo de la SNR antes de la
separaci´on, I(n) es la senal de voz cantada obtenida al re-
sintetizar la mezcla con la m´ascara ideal binaria, y O(n)
es la mezcla resintetizada con una m´ascara cuyos valores
son todos 1, lo cual compensa la distorsi´on introducida en

Monografias.com

˜
˜
˜
˜ ˜ ˜
˜
˜
˜
˜
˜ ˜
la res´intesis. Por otro lado, cuando se considera el c´alculo
despu´es de la separaci´on, I(n) es la misma senal que la an-
terior, pero O(n) es la salida del sistema.
Si se considera a la senal de entrada como la suma de
I(n) m´as una senal de error e(n), tal que I(n) + e(n) =
O(n), la ganancia da una medida de cu´anto se redujo la
senal de error que acompana a la senal de voz I(n) al pa-
sar por el sistema. Previo a la separaci´on, se puede conside-
rar que la senal e(n) est´a principalmente compuesta por el
acompanamiento musical. Luego de la separaci´on, se puede
considerar que e(n) est´a compuesta por la senal de acom-
panamiento que no fue correctamente separada. Por lo tan-
to, la ganancia del sistema es una medida de cu´anto se pudo
disminuir la senal de acompanamiento musical.
Con el ?n de realizar una evaluaci´on intermedia al siste-
ma, se implementa una comparaci´on entre la m´ascara bina-
ria obtenida (stream ?nal) y la m´ascara ideal. De esta ma-
nera, se puede tomar un indicador que es independiente de
la etapa de res´intesis. Para llevar a cabo la evaluaci´on del
stream obtenido, se compara la cantidad de unidades distin-
tas entre ambas m´ascaras en relaci´on a las unidades totales.
Sea L la cantidad de canales y sea M la cantidad de tramas,
se de?ne entonces la siguiente medida de performance:
?M =
|IBM – stream|
L × M
(11)
˜
˜
Por otra parte, debido a que el bloque de detecci´on de la
frecuencia fundamental es de vital importancia y en el mis-
mo se introducen errores considerables, se decidi´o realizar
la evaluaci´on del sistema tomando en cuenta dos escenarios
diferentes:

1. Utilizando el pitch hallado con WaveSurfer sobre la
voz cantada solamente. De esta manera puede eva-
luarse al sistema sin considerar el bloque de detecci´on
de f0, lo que permite evaluar toda la parte de separa-
ci´on sin considerar los errores de ese bloque.

2. Utilizando el pitch hallado por el algoritmo imple-
mentado.Aqu´iserealizalaevaluaci´ondepuntaapun-
ta del sistema, obteni´endose las medidas de perfor-
mance del algoritmo implementado.

Para realizar la evaluaci´on del sistema se construy´o una
base de datos compuesta por 18 fragmentos de grabaciones
musicalesdecortaduraci´on.Paradichosfragmentossetiene
disponibledeantemanolavozcantadayelacompanamiento
musical en forma separada. Se trat´o de encontrar ejemplos
que contemplen distintos casos, como por ejemplo fragmen-
tos que contengan principalmente sonidos sonoros u otros
con muchos sordos, que hayan tanto cantantes masculinos
como femeninos, o tambi´en que se encuentren distintos ti-
pos de acompanamientos. Todos ellos son fragmentos en
idioma ingl´es de m´usica rock, pop y country.
A continuaci´on se presenta una gr´a?ca comparativa para
las ganancias obtenidas en ambos casos, se muestran para
los 18 fragmentos utilizados.

Figura 18: Ganancias obtenidas.
Puede observarse que si bien se obtienen mejores resul-
tados con el pitch calculado con WaveSurfer, los resultados
obtenidos al utilizar el algoritmo de detecci´on de f0 imple-
mentado, no di?eren mucho, salvo en algunos casos.
Para el primer caso tomando promedios entre los valores
˜
˜
˜
˜
de las ganancias, se llega a un valor de 4,54dB. Tambi´en
promediando la comparaci´on entre las m´ascaras se obtiene
al valor de ?M = 29,8. Los valores obtenidos para las ga-
nancias son comparables con los valores presentados en [1],
en dicho art´iculo los mismos est´an entre 0dB y 12dB. Cabe
destacar que en [1] se realiza la medida de la performan-
ce sobre distintos fragmentos, mezclados a diferentes SNR.
Es decir, Se mezcla un fragmento para que la voz est´e pre-
sente con mayor intensidad que el acompanamiento, por lo
tanto se obtiene una ganancia mayor, y vice versa, para que
est´e presente el acompanamiento con mayor intensidad, se
obtiene por lo tanto una ganancia menor.
Enelsegundocasolagananciallegaalvalorpromediode
2,97 dB, y la comparaci´on entre las m´ascaras da un porcen-
taje de error promedio de ?M = 32,6%. Si bien el valor
de la ganancia promedio es algo menor al obtenido en el ca-
so 1, es comparable con los valores presentados en [1]. Una
observaci´on importantes es que en casi todos los casos se
consigue mejorar la SNR.
Con respecto a los resultados de inteligibilidad, vale la
pena destacar que si bien se obtienen senales de audio que
se escuchan correctamente, en todos los casos queda un rui-
do de fondo y distorsi´on. Otra observaci´on importante es
que las senales obtenidas utilizando el pitch obtenido con el
WaveSurfer se escuchan mejor. Esto era de esperarse, ya que
el error al calcular el pitch, es menor al que se puede obtener
con el algoritmo de detecci´on de f0 presentado.

Monografias.com

Optimizar el algoritmo de detecci´on de pitch. Este es
[4] Y. Wang, M. Kan, T.Nwe, A. Shenoy, and J. Yin, “Lyrically:
Optimizar la funci´on de autocorrelaci´on. Esta puede
˜
˜
˜ ˜
˜
9. Conclusiones
Los resultados obtenidos mediante el c´odigo implemen-
tado son exitosos, estando a la par de los algoritmos de se-
paraci´on de voz cantada existentes, [1] y [30] por ejemplo.
Como se mencion´o anteriormente el bloque de detecci´on
de pitch es desde el punto de vista de desarrollo equivalente
al resto del algoritmo, siendo computacionalmente la parte
m´as costosa. La evaluaci´on del algoritmo de separaci´on de
voz cantada aqu´i presentada se realiza en dos escenarios di-
ferentes, teniendo en cuenta este hecho. Se realiza una eva-
luaci´on utilizando el pitch calculado con WaveSurfer por un
lado y luego utilizando el bloque de detecci´on de f0 im-
plementado, observ´andose que el resultado ?nal del sistema
depende fuertemente de la detecci´on de pitch. Asimismo,
tambi´en se realiza por separado la evaluaci´on del m´etodo de
detecci´on de pitch. De los resultados de las evaluaciones an-
teriores, se puede a?rmar que, si se impone que el contorno
de pitch sea una entrada al sistema implementado los resul-
tados obtenidos son muy buenos, concluyendo por lo tanto,
que el m´etodo de separaci´on funciona de manera aceptable.
Cuando se utiliza la funci´on de detecci´on de f0 implementa-
dalosresultadosobtenidostambi´ensonexitosos,peroexiste
una mayor dependencia de las caracter´isticas de la senal de
entrada, incurriendo en mayores errores en general. Cuan-
do la senal de entrada no presenta un porcentaje elevado de
sonidos sordos y no presenta largos silencios, el pitch obte-
nido es muy bueno. Es importante destacar nuevamente, que
el pitch detectado por el algoritmo presentado en este docu-
mento, detecta el contorno de pitch para la voz cantada a
partir de la senal de mezcla, voz cantada y acompanamien-
to musical, a diferencia de WaveSurfer que lo calcula s´olo
sobre la senal de voz cantada.
Finalmente al comparar los resultados obtenidos contra
la IBM, la cual es el objetivo computacional, tambi´en se ob-
tienenresultadosaceptables.Enelcasodeevaluaralsistema
utilizando el contorno de pitch como una entrada m´as al sis-
tema, se comete un error de 29,8% en promedio, mientras
que si se eval´ua al sistema utilizando el m´etodo de detec-
ci´on de pitch implementado, se comete un error de 32,6%
en promedio. Cabe destacar que el error que se comete en
el m´etodo de detecci´on de pitch es de 30% en promedio.
Si bien estos valores pueden parecer elevados, son compa-
rables con los obtenidos en [1].

10. Trabajo futuro
Como trabajo futuro quedan pendientes varios puntos a
mejorar del algoritmo implementado.

´
implementarse utilizando la transformada discreta de
Fourier (fft en Matlab), de este modo se podr´ian dis-
minuir los tiempos de ejecuci´on, ya que dicha funci´on
implica un gran costo computacional y es una de las
˜
˜
˜
limitantes para introducir fragmentos de mayor dura-
ci´on al sistema implementado.
´
el que insume mayor tiempo y costo computacional.

Incluir las funciones necesarias para manejar los so-
nidos sordos. Se recuerda que si bien son un porcen-
taje menor que los sonoros (10% frente a un 90% de
sonidos sonoros), el algoritmo implementado, trata a
ambos sonidos por igual, cometiendo errores al en-
contrase frente a un sonido sordo. Recientemente se
public´o un art´iculo que trata sobre la separaci´on de
los sonidos sordas [31].

Mejora de la funci´on de detecci´on de Pitch.Esta fun-
ci´on es de vital importancia para obtener buenos re-
sultados al ?nal del sistema.

En la etapa ?nal del algoritmo se podr´ia implementar
alg´un m´etodo de mejora para la senal obtenida luego
de la res´intesis. Si bien luego de normalizarla y ?ltrar-
la se obtiene una senal entendible, en general suena
“poco natural”.

Incluir el bloque de detecci´on vocal/no-vocal. Este
primer bloque es de vital importancia para el correc-
to funcionamiento del sistema implementado. Debido
a la limitante de poder usar solamente fragmentos de
corta duraci´on se opt´o por descartar la implementa-
ci´on del mismo, ya que al utilizar fragmentos cortos
se pueden elegir f´acilmente aquellos que incluyan voz
cantada y acompanamiento musical todo el tiempo.

Pasaje del sistema implementado en Matlab a C o
C++.
Referencias

[1] Y. Li and D. Wang, “Separation of singing voice from
music accompaniment for monaural recordings,” disponi-
ble WWW, http://www.cse.ohio-state.edu/ dwang/papers/Li-
Wang.taslp07.pdf, 2007.
[2] M. Rocamora, E. L´opez, and G. Sosa, “B´usqueda de m´usica
por tarareo,” IIE, Facultad de Ingenier´ia, Universidad de la
Republica Oriental del Uruguay, 2004.
[3] R.L.C.K.WangandY.Chiang,“Anautomaticsingingtrans-
cription system with multilingual singing lyric recognizer
and robust melody tracker,” Proceedings of EUROSPEECH,
2003.
˜
automatic synchronization of acoustic musical signals and
textual lyrics,” Proceedings of the 12th Annual ACM Inter-
national Conference on Multimedia, pp. 212–219, 2004.
[5] A. Berenzweig, D. Ellis, and S. Lawrence, “Using voice seg-
ment to improve artist classi?ction of music,” AES 22nd In-
ternational Conference on Virtual, Synthetic and Entertain-
ment Audio, 2002.

Monografias.com

[6] Y. Kim and B. Whitman, “Singer identi?cation in popular
music recording using voice coding features,” Proceeding
of International Conference on Music Information Retrieval,
2002.
[7] A. Bregman, Auditory Scene Analysis. MIT Press, 1990.
[8] G. Brown and D. Wang, “Separation of speech by compu-
tational auditory scene analysis,” Speech Enhancement,
pp. 371–402, 2005.
[9] P. Divenyi, Speech Separation by Humans and Machines.
Norwell, MA: Kluver Academic, 2005.
[10] D. Rosenthal and H. Okuno, Computational Auditory Scene
Analysis. Mahwah, New Jersey: Lawrence Erlbaum, 1998.
[11] D. Wang and G. Brown, Computational Auditory Scene
Analysis: Principles, Algorithms and Applications. Wiley-
IEEE Press, 2006.
[12] A. Hu and D. Wang, “Monoaural speech segregation based
on pitch tracking and amplitude modulation,” IEEE Transac-
tions on Neural, vol. 15, pp. 1135–1150, 2004.
[13] A. Hu and D. Wang, “An auditory scene analysis approach
to monaural speech segregation,” Hansler E. and Schmidt G.
(ed.), pp. 485–515, 2006.
[14] R. Patterson, Nimmo-Smith, J. Holdsworth, and P. Rice, “An
ef?cient auditory ?lterbank based on the gammatone fun-
ction,” tech. rep., MRC Applied Psychology Unit, Cambrid-
ge, 1987.
[15] R. Meddis, “Simulation of auditory–neural transduction:
Further studies,” Journal of the Acoustical Society of Ame-
rica, vol. 83, pp. 1056–1063, 1988.
[16] B. Glasberg and B. Moore, “Derivation of auditory ?lter sha-
pes from notched–noise data,” Hearing Research, vol. 47,
pp. 103–138, 1990.
[17] R. Carlyon and T. Shackleton, “Comparing the fundamental
frequencies of resolved and unresolved harmonics: Evidence
for two pitch mechanisms?,” Acoustical Society of America
Journal, vol. 95, pp. 3541–3554, 1994.
[18] R. Plomp and M. Mimpen, “The ear as a frequency
analyzer,” Acoustical Society of America Journal, vol. 43,
pp. 764–767, 1964.
[19] D. Wang, “On ideal binary mask as the computational goal
of auditory scene analysis,” Speech Separation by Humans
and Machines, pp. 181–197, 2005.
[20] B. Moore, An Introduction to the Psychology of Hearing.
San Diego, CA, USA: Academic Press, 5th ed., 2003.
[21] H.Helmholtz,OntheSensationofTone. Braunschweig,Ger-
many: Vieweg and Son, 1863.
[22] J. Bird and C. Darwin, “Effects of a difference in fundamen-
tal frequency in separating two sentences,” Psychophysical
and Physiological Advances in Hearing, 1997.
[23] J. Holdsworth, Nimmo-Smith, R. Patterson, and P.Rice, “Im-
plementing a gammatone ?lter bank,” tech. rep., MRC Ap-
plied Psychologi Unit, Cambridge, 1988.
[24] Y. Li and D. Wang, “Detecting pitch of singing voice in
polyphonic audio,” Proceedings of IEEE International Con-
ference on Acoustics, Speech, and Signal Processing, vol. 3,
pp. 17–20, 2005.
[25] K. Sj¨ol and J. Beskow, “Wavesurfer- an open source speech
tool,” http://www.speech.kth.se/wavesurfer.
[26] P. Boersma and D. Weenink, “Praat: doing phonetics by
computer,” http://www.fon.hum.uva.nl/praat.
[27] D. Brungart, P. Chang, B. Simpson, and D. Wang, “Isolating
the energetic component of speech-on-speech masking with
ideal time-frequency segregation,” Journal of the Acoustical
Society of America, vol. 120, pp. 4007–4018, 2006.
[28] P. Chang, “Exploration of behavioral, physiological, and
compuetationalapproachestoauditorysceneanalysis,”Mas-
ter’s thesis, The Ohio State University, Deparment of Com-
puter Science and Engineering, 2004.
[29] N. Roman, D. Wang, and G. Brown, “Speech segregation ba-
sed on sound localization,” Journal of the Acoustical Society
of America, vol. 114, no. 4, pp. 2236–2252, 2003.
[30] A. Ozerov, P. Philippe, R. Gribonval, and F. Bimbot, “Adap-
tation of bayesian models for single-channel source separa-
tion and its application to voice/music separation in popular
songs,” IEE Workshop on Application of Signal Processing
to Audio an Acoustics, 2007.
[31] G. Hu and D. Wang, “Segregation of unvoiced speech from
nonspeech interference,” Journal of the Acoustical Society of
America, 2008.

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter