Mô hình dự đoán âm nhạc dựa trên việc học biểu diễn quãng

37

Trong âm nhạc, các mô hình liên kết chuỗi (Connectionist sequence model) như mạng nơ-ron hồi quy (RNN) luôn gặp phải hai vấn đề lớn khi được áp dụng lên các chuỗi âm. Thứ nhất, những mô hình này chỉ cảm nhận cảm âm tuyệt đối (absolute pitch), khiến cho chúng không thể khái quát hóa các khái niệm âm nhạc liên quan tới khoảng cách giữa các cao độ (như giai điệu, kiểu âm giai, điệu thức, đoạn kết, hợp âm).

Thứ hai, các mô hình này không thể hiểu các khái niệm liên quan tới lặp và hình thức bài nhạc. Để giải quyết những vấn đề đã được nêu trên, nghiên cứu này sẽ giới thiệu về RGAE (Recurrent gated auto encoder – Mã hóa tự động sử dụng cổng hồi quy), loại mạng nơ-ron hồi quy có thể học và hoạt động trên các biểu diễn quãng (interval) của đoạn nhạc. Việc mô hình cảm âm tương đối tăng khả năng khái quát hóa và giảm độ thưa của dữ liệu đầu vào.

Hơn nữa, hệ cũng có thể học các chuỗi lệnh Sao chép và dịch chuyển (Copy-and-Shift) (sao chép và biến đổi âm sắc của một đoạn nhạc), một khả năng hứa hẹn cho việc học cấu trúc âm nhạc lặp. Nghiên cứu cũng sẽ chứng minh RGAE sẽ cải thiện những mô hình liên kết chuỗi tốt nhất hiện hành trong việc dự đoán các giai điệu đơn âm, và chứng tỏ rằng mô hình xử lý âm nhạc kết hợp theo cả hai mức cảm âm tương đối và tuyệt đối đã cải thiện kết quả rõ ràng. Ngoài ra, nghiên cứu cũng chỉ ra rằng khả năng xử lý cảm âm tương đối của RGAE giúp thúc đẩy quá trình học và khái quát hóa các chuỗi lệnh copy-and-shift, khiến RGAE vượt trội hơn hẳn hệ nơ-ron hồi quy sử dụng cảm âm tuyệt đối thông thường cho bài toán này.

Xem thêm tại ĐÂY.

Video: Mô hình dự báo âm nhạc dựa trên việc học biểu diễn quãng

Tin liên quan: