Resumen |
Este artículo propone un enfoque de aprendizaje por transferencia para abordar la separacion de frecuencias musicales en pistas de audio no disponibles publicamente. La arquitectura combina una red convolucional (U-NET) y una red recurrente (LSTM) para segmentar y organizar la información a lo largo de una línea de tiempo utilizando coeficientes cepstrales de frecuencia Mel (MFCC). Esta arquitectura permite la extraccion de pistas de audio individuales correspondientes a diferentes instrumentos (bajo, batería, voz y melodía), comunmente conocidas como STEMS. Además de abordar la escasez de recursos en la separacion de fuentes y satisfacer la creciente demanda de habilidades de produccion musical, también facilita el aprendizaje y la práctica musical, fomentando la creatividad y la exploracion de nuevas ideas musicales. Se destaca que los beneficios de esta arquitectura se enfocan exclusivamente a fines educativos y de obtencion de pistas de canciones inaccesibles. Esta arquitectura de aprendizaje profundo propuesta representa una alternativa automatizada para la obtencion de STEMS.
|