una grabaci´on musical en un s´olo canal. Esta pudo haber
Separaci´on de Voz Cantada
(Singing Voice Separation)
Ariel Decarlini, Alessandro Palermo, Andr´es Samas
Instituto de Ingenier´ia El´ectrica
Facultad de Ingenier´ia de la Universidad de la Rep´ublica
Montevideo, Uruguay
decaland,ok.aless,andres.samas@gmail.com
˜
´
´
˜
Abstract
El problema principal que abord´o este proyecto de ?n de
carrera es la extracci´on de la voz cantada en una grabaci´on
musical. El objetivo es construir un sistema que reciba co-
mo entrada un archivo de m´usica, y que devuelva como sa-
lida la voz cantada. Con el ?n de desarrollar la soluci´on, se
realiz´o un estudio de los enfoques existentes y ?nalmente se
opt´o por implementar el propuesto en [1].
Keywords: Cocleagrama, pitch, m´ascara binaria.
1. Introducci´on
El sistema auditivo humano tiene la capacidad de separar
los sonidos de diferentes fuentes ac´usticas, en especial pue-
deescucharyseguirlavozcantadaenpresenciadeunacom-
panamiento musical. Esta tarea le requiere poco esfuerzo,
sin embargo, un sistema computacional que realice lo ante-
rior no es algo trivial, y se han propuesto pocas soluciones.
Debido al gran volumen de datos multimedia que circula
por las redes, se tiene la necesidad de implementar siste-
mas que permitan realizar b´usquedas por contenido, ya sea
con el ?n del ordenamiento, del almacenamiento o de la cla-
si?caci´on de los datos. Esto permitir´a luego, por ejemplo,
buscar en una base de datos alg´un archivo con cierta carac-
ter´istica, como ser canciones de un mismo cantante o de un
mismo g´enero. Un sistema de separaci´on de voz cantada es
muy util para realizar esta tarea, ya que la voz cantada con-
tiene informaci´on como la melod´ia. Por lo tanto se podr´ia
usar como un primer bloque de procesamiento para este ti-
po de sistemas. Por ejemplo, la extracci´on de la voz cantada
podr´ia ir seguida de alg´un sistema de b´usqueda de canciones
mediante tarareo, como el presentado en [2].
Otrasareasdeaplicaci´onsonelreconocimientoautom´ati-
co de las letras de las canciones y el alineamiento. Los siste-
mas de reconocimiento de letras a menudo necesitan que la
entrada sea la voz cantada [3]. El alineamiento de letras con
la voz cantada es una tarea fundamental para sistemas del
tipo karaoke, tal proceso es muy dif´icil cuando est´a presen-
te el acompanamiento, sin embargo, al tener la voz cantada
separada se pueden lograr mejores resultados [4]. Tambi´en
se encuentra especial uso en la identi?caci´on de cantantes
[5], [6].
˜
˜
˜
El enfoque propuesto en [1] es el que se decidi´o imple-
mentar para resolver el problema de separaci´on de voz can-
tada. A continuaci´on se presenta un resumen de la t´ecnica
utilizada.
El objetivo es separar la voz cantada del acompanamien-
to musical en el caso monoaural, es decir, cuando se tiene
´
sido obtenida al grabar utilizando un micr´ofono solamen-
te, o como resultado de una mezcla ?nal de audio. Como
senales de entrada se utilizan archivos de audio muestrea-
dos a 16 kHz, los cuales deben ser fragmentos musicales de
corta duraci´on que contengan voz cantada y acompanamien-
to al mismo tiempo. Esto es debido a que el sistema presenta
un gran costo computacional, y la demora para procesar ar-
chivos de m´as duraci´on es considerable.
El punto de partida de la teor´ia sobre la que se basa el
art´iculo se encuentra en los resultados de los estudios psi-
cof´isicos del sistema auditivo humano, en los cuales se bus–
ca conocer la forma en que nuestro sistema auditivo sepa-
ra las distintas fuentes sonoras que constituyen la entrada
ac´ustica. El libro m´as in?uyente es el escrito por Bregman
[7], en este libro se propone que el sonido que llega al o´ido
humano est´a sujeto a un proceso llamado an´alisis de la es-
cena auditiva (ASA, por sus siglas en ingl´es Auditory Sce-
ne Analysis). Este proceso se realiza en dos grandes etapas:
segmentaci´on y agrupamiento. En la etapa de segmentaci´on,
la entrada ac´ustica es descompuesta en una serie de regiones
tiempo-frecuencia (T-F) locales, llamadas segmentos. Cada
uno de ellos se espera que sea originado por una sola fuente
de la entrada ac´ustica. La segunda etapa es la de agrupa-
miento, en donde los segmentos que probablemente perte-
nezcan a una misma fuente son agrupados juntos, forman-
do unas estructuras perceptuales llamadas stream para cada
fuente sonora. La segmentaci´on y el agrupamiento son lle-
vados a cabo por mecanismos perceptuales, que determinan
c´omo la escena auditiva es organizada de acuerdo a princi-
pios auditivos del ASA.
A partir del ASA, se ha investigado y se han desarrollado
sistemas para obtener la representaci´on computacional de la
teor´ia del an´alisis de la escena auditiva. Se abord´o a lo que
se conoce como an´alisis de la escena auditiva computacio-
ditivo humano. Este consta de un banco de ?ltros pasaban-
˜
˜
˜ ˜
˜
˜ ´
˜
nal (CASA, por sus siglas en ingl´es Computational Auditory
Scene Analysis) [8], [9], [10], [11]. El objetivo de los siste-
mas CASA es realizar la separaci´on de las distintas fuentes
sonorasquecomponenlaentradaac´ustica.Setieneportanto
una senal ac´ustica de entrada compuesta por varias fuentes
sonoras, y el objetivo es obtener a la salida cada una de ellas
en forma separada. Una de las grandes ventajas que tienen
lossistemasCASAfrenteaotrosm´etodosesquenosesupo-
nen grandes restricciones sobre las propiedades ac´usticas de
las senales de entrada, lo cual permite abordar un espectro
amplio de problemas. En la ?gura 1 se puede ver un diagra-
ma de bloques de un sistema CASA t´ipico.
Figura 1: Sistema CASA.
En la etapa de
Página siguiente |