3 Đa mô hình nhận diện cảm xúc

61

Trong thời đại của trí tuệ nhân tạo ngày càng phát triển, khả năng phân tích cảm xúc là một trở ngại lớn. Nó nằm ở việc phân tích mạng xã hội, đánh giá hội thoại, cũng như tìm hiểu người dùng, đóng góp một vai trò quan trọng trong nâng cao hiệu quả giao tiếp.

Ảnh: Vince Fleming, Unsplash.

Hiện nay, dữ liệu không chỉ đơn thuần là văn bản, mà bao gồm cả ảnh, video, cũng như giọng nói, và những đặc điểm cảm xúc. Chính vì vậy, những nhà nghiên cứu đang cố gắng xây dựng một mô hình toàn diện nhất, tích hợp đủ các đặc điểm trên.

Những đa mô hình về nhận diện cảm xúc được nhắc tới trong bài viết bao gồm:

  • Đa mô hình nhân diện cảm xúc giọng nói qua âm thanh và văn bản (Multimodal Speech Emotion Recognition using Audio and Text).
  • Đa mô hình phân tích cảm xúc theo điểm chuẩn (Benchmarking Multimodal Sentiment Analysis).
  • Đa mô hình nhận diện cảm xúc trên IEMOCAP với mạng nơ-ron thần kinh (Multi-modal Emotion Recognition on IEMOCAP with Neural Networks).
Đa mô hình nhận diện cảm xúc giọng nói qua âm thanh và văn bản

Yoon cùng với các cộng sự đã đưa ra một mô hình mã hóa hồi quy kép với khả năng nhận diện cảm xúc qua giọng nói trong cả văn bản và âm thanh.

Mã hóa âm thanh hồi quy (ARE – Audio Recurrent Encoder)

ARE sẽ được cung cấp các đặc trưng MFCC (Mel Frequency Cepstral Coefficient). Mỗi sự kiện cung cấp trên (ký hiệu \(t\)), kết hợp với đặc trưng âm điệu (prosodic feature) sẽ được tích hợp, tạo thành véc-tơ biểu diễn \(e\), rồi từ đó ứng dụng hàm số softmax (softmax function), biến âm thanh cần dùng thành \(A\).

Mã hóa văn bản hồi quy (TRE – Text Recurrent Encoder)

Với văn bản, ta cũng có thể tổng hợp ra các đặc trưng riêng, mà trong đó, văn bản sẽ được token hóa thành 300 véc-tơ chỉ hướng. Tiếp tục lấy giá trị số lần \(t\) được cung cấp đặc trưng văn bản tới TRE và áp dụng hàm số softmax để biến đoạn văn bản cần dùng thành T.

Đa mô hình mã hóa hồi quy kép (MDRE – Multimodal Dual Recurrent Encoder)

Mô hình thứ 3 kết hợp kết quả từ ARE và TRE, và áp dụng hàm softmax lần cuối để tạo ra “cảm xúc”.

Kiến trúc mã hóa hồi quy kép (Yoon et al., 2018)

Thử nghiệm

Có thể thấy, MDRE (kết hợp ARE và TRE) cho kết quả tốt nhất.Từ đó có thể kết luận đa mô hình kết hợp đặc trưng âm thanh và văn bản có hiệu quả tốt hơn đơn mô hình.

ARE yếu trong phân loại các cảm xúc vui, trong khi TRE yếu trong phân loại các cảm xúc buồn, còn MDRE đã loại bỏ được nhược điểm của 2 mô hình trên.

So sánh kết quả của  ARE, TRE và MDRE (Yoon et al., 2018)
Đa mô hình phân tích cảm xúc theo điểm chuẩn 

Cambria và các cộng sự đã đề xuất một đa mô hình nhận diện cảm xúc thông qua các đặc trưng văn bản, âm thanh, cũng như hình ảnh. Đối với video, sẽ có 3 dòng trích xuất đặc trưng thông qua các mạng nơ-ron tích chập (CNN – convolution neural network) và openSMILE.

Đặc trưng văn bản

Thay vì sử dụng “túi từ” (BoW – Bag-of-Word), nhóm nghiên cứu của Cambria đã sử dụng word2vec để biểu thị văn bản, tức đã đào tạo trước với Google News. Khi xuất hiện những từ không thuộc hệ từ vựng (Out-Of-Vocabulary hay OOV), những từ này sẽ được khởi tạo ngẫu nhiên.

Sau đó, các véc-tơ từ nghĩ sẽ được nối với nhau theo câu khi đạt ngưỡng 50 từ. Các đặc trưng sau đó sẽ được nhập vào CNN để tổng hợp đặc trưng cho đa mô hình.

Đặc trưng âm thanh

Các đặc trưng âm thanh được trích xuất từ thư viện phổ biến openSMILE, ở tốc độ 10Hz, với giao thức cửa sổ trượt ở mức 100ms.

Đặc trưng hình ảnh

Trái với các đặc trưng văn bản và âm thanh, kích cỡ của đặc trưng hình ảnh rất lớn, và cần phải liên tục được thu nhỏ lại. Trong nghiên cứu, Cambria đã sử dụng mỗi khung hình số 10, cũng như giảm độ phân giải để giảm tài nguyên điện toán. Sau khi đạt được một khung hình ảnh nhất định, hình phác thảo khuôn mặc sẽ được tổng hợp bằng các CLM (Constrained Local Model), và tích hợp thành đặc trưng hình ảnh thông qua CNN.

Dung hợp

Sau khi có được những đặc trưng văn bản, âm thanh, và hình ảnh, các véc tơ sẽ được nối với nhau, và sử dụng để phân loại các nhóm cảm xúc bằng một máy véc-tơ hỗ trợ (SVM).

Kiến trúc của đa mô hình phân tích cảm xúc (Cambria et al.. 2017)

Thử nghiệm

Kết quả tương tự như đa mô hình trước: càng nhiều đặc trưng thì kết quả càng tốt hơn. Các đa mô hình bao gồm nhiều đặc trưng luôn cho kết quả tốt nhất trong IEMOCAP, MOUD và MOSI.

So sánh kết quả giữa đơn mô hình, mô hình kép và đa mô hình (Cambria et al., 2017)

Một số mẫu thử khác cũng được đưa vào thử nghiệm. Trước hết, các nhà nghiên cứu so sánh điểm khác nhau giữa việc “học” phụ thuộc và không phụ thuộc vào người nói, và phát hiện ra việc phụ thuộc vào người nói sẽ cho ra kết quả tốt hơn. Tuy nhiên, đây không phải là một kết luận chắc chắn do quy mô mẫu thử còn quá nhỏ để mang tính đại diện.

Đa mô hình nhận diện cảm xúc trên IEMOCAP với mạng nơ-ron thần kinh (Multi-modal Emotion Recognition on IEMOCAP with Neural Networks)

Tripathi và Beigi đề xuất sử dụng giọng nói.

Phát hiện cảm xúc dựa trên giọng nói

Hoạt động tương tự như những mô hình âm thanh truyền thống: sử dụng MFCC, dựa trên nền tảng chromagram và các đặc trưng về quang phổ thời gian. Đồng thời, nghiên cứu cũng tiến hành đánh giá trên dải quang phổ mel và trình cài đặt để quan sát ảnh hưởng của các đặc trưng lên kết quả của mô hình.

Phát hiện cảm xúc dựa trên văn bản

Các mô hình văn bản sử dụng GloVe để chuyển hóa văn bản thành véc-tơ, sau đó chuyển giao những véc-tơ này sang đa hệ CNN/LSTM để đào tạo các đặc trưng.

Phát hiện cảm xúc dựa trên MoCap

Motion Capture (MoCap) ghi lại các nét mặt, cử động tay và đầu của diễn viên. Mô hình này hoạt động giống với mô hình văn bản: những dữ liệu trên sẽ được chuyển giao sang đa hệ CNN/LSTM để đào tạo các đặc trưng.

Phát hiện cảm xúc dựa trên đa mô hình phối hợp

Giống như các đa mô hình được nêu trên, các véc-tơ được tổng hợp và chạy qua phương trình softmax để phân loại cảm xúc.

Kiến trúc mô hình (Tripathi và Beigi, 2018)

Thử nghiệm

Minh họa dưới đây cho thấy các mô hình kết hợp nhiều đặc trưng sẽ cho hiệu quả tốt hơn. Hình dưới đây minh họa 6 kiến trúc mô hình.

So sánh hiệu quả giữa các mô hình (Tripathi và Beigi, 2018)
Kết luận
  • Nhìn chung, các đặc trưng văn bản sẽ đóng góp nhiều nhất trong xây dựng vô hình và tập dữ liệu. Còn các đặc trưng khác sẽ hỗ trợ cho mô hình hoạt động tốt hơn.
  • Dù đặc trưng hình ảnh và âm thanh cải thiện kết quả mô hình, chúng lại có thể gây ra phức tạp trong quá trình đào tạo, cũng như nguy cơ xảy ra lỗi.

Tham khảo

  • Yoon, S. Byun, and K. Jung. Multimodal Speech Emotion Recognition using Audio and Text. 2018.
  • Cambria, D. Hazarika, S. Poria, A. Hussain and R.B.V. Subramaanyam. Benchmarking Multimodal Sentiment Analysis. 2017.
  • Samarth Tripathi, Homayoon Beigi. Multi-modal Emotion Recognition on IEMOCAP with Neural Networks. 2018

Theo Becoming Human

Tin liên quan: