Identificación automática de cantante en música polifónica

Massaferro Saquieres, Pablo

Supervisor(es): Rocamora, Martín - Cancela, Pablo

Resumen:

La aplicación de la tecnología digital a la producción y distribución de música ha dado lugar a una verdadera revolución, facilitando el acceso de los artistas a los estudios de grabación, y generando un crecimiento exponencial de la cantidad de registros fonográficos. Esto ha generado que los sistemas de clasificación y sugerencia, basados en herramientas de procesamiento de señales y aprendizaje automático, se hayan transformado en puntos clave en la gestión de la oferta musical. En este contexto, es de especial relevancia automatizar algunas tareas, como la identificación del cantante a partir de un archivo de audio. La voz cantada es sin duda el instrumento musical más antiguo y familiar para nuestro sistema auditivo. Además, la voz suele transmitir mucha información en la música, porque generalmente interpreta la melodía principal, trasmite la letra y contiene características expresivas. Pero varios aspectos dificultan la tarea de reconocer automáticamente al cantante, en particular, a diferencia de la identificación del hablante, el acompañamiento musical es una señal de un nivel de energía similar al de la voz y no puede ser modelado como un ruido aleatorio independiente. En este trabajo se exploran las técnicas existentes de identificación de cantantes en archivos de audio de música polifónica. Varios trabajos abordan el problema sin realizar separación de fuentes, debido a las dificultades que esto conlleva, lo que genera que los algoritmos de clasificación aprendan a reconocer al cantante junto con su acompañamiento musical. La selección de la instrumentación, efectos de audio, mezcla y masterizado juegan un rol importante en el sonido final de las canciones que integran un álbum. En trabajos previos, los efectos vinculados a estos aspectos de la producción fonográfica han sido poco explorados. Para mostrar estos efectos y poder cuantificarlos, en este trabajo se crea la base de datos VoicesUy, en la cual canciones populares rioplatenses son cantadas por artistas profesionales y grabadas en multipista. Los cantantes interpretan las mismas canciones de forma de poder realizar identificación de voces entre archivos donde la única diferencia es la voz. Esta base de datos permite evaluar tanto algoritmos de separación de fuentes como de clasificación de voces. El hecho de que los cantantes que participan en la grabación de la base tengan su propia discografía, permite además evaluar la incidencia de los efectos de diferentes etapas de la producción musical en la identificación de cantante. VoicesUy es la primer base de datos de música popular en castellano para identificación de cantante y separación de fuentes. Se presentan experimentos que muestran que, si bien el acompañamiento musical dificulta la identificación de cantante, un artista interpretando sus composiciones junto con su banda es más fácil de identificar que interpretando versiones. Denominamos a este comportamiento "efecto banda". Se muestra como mejora la clasificación del intérprete al utilizar técnicas de separación de fuentes. Se prueba una técnica de enmascaramiento sobre una representación tiempo-frecuencia no tradicional y se comparan los resultados utilizado representaciones clásicas como el espectrograma. Para aplicar estas técnicas se utiliza la información de la frecuencia fundamental de la voz. Los resultados de identificación de cantante obtenidos son comparables con otros trabajos de referencia. La clasificación de voces sobre VoicesUy, aplicando separación de fuentes, alcanza un acierto del 95.1 %.


Detalles Bibliográficos
2018
Español
Universidad de la República
COLIBRI
http://hdl.handle.net/20.500.12008/20176
Acceso abierto
Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)