Tại sao các công ty đều muốn khai thác giọng nói người dùng?

106

Giọng nói mang tính cá nhân rất cao, khó giả mạo và nó cũng tiết lộ phần nào tình trạng sức khỏe và thái độ của chúng ta.

Voicesense từng đưa ra một lời hứa hấp dẫn với khách hàng của mình: đưa cho chúng tôi giọng nói của ai đó và chúng tôi sẽ nói cho bạn biết họ sắp sửa làm gì. Một công ty khác ở Israel phân tích giọng nói trong các cuộc gọi theo thời gian thực để phán đoán xem liệu khách hàng có trả được nợ hay không, liệu họ có khả năng mua một sản phẩm đắt tiền hơn không hay liệu họ có là ứng viên tốt nhất cho công việc.

Nguồn ảnh: TheVerge.

Trong những năm gần đây, các nhà nghiên cứu và các startup đã bắt đầu để ý đến kho thông tin phong phú có thể khai thác từ giọng nói, đặc biệt là khi sự phổ biến của các trợ lý gia đình như Alexa của Amazon khiến người tiêu dùng ngày càng thấy dễ dàng và thoải mái hơn khi nói chuyện với thiết bị của họ. Theo một báo cáo của công ty phân tích kinh doanh IdTechEx, thị trường công nghệ giọng nói đang phát triển và dự kiến ​​sẽ đạt 15,5 tỷ đô la vào năm 2029. Ông Satrajit Ghosh, một nhà khoa học nghiên cứu tại Trung tâm nghiên cứu não của McGbad cho biết “Hầu như tất cả mọi người đều nói chuyện và có rất nhiều thiết bị thu được giọng nói, từ chiếc điện thoại của bạn cho đến những thứ như Alexa hay Google Home. Giọng nói đang dần được khai thác ở mọi nơi trong cuộc sống ngày nay”.

Giọng nói không chỉ có ở mọi nơi mà nó còn mang tính cá nhân rất cao, khó giả mạo. Mọi người có thể nói chuyện với Alexa trong nhà của họ, và trợ lý giọng nói kỹ thuật số cũng ngày càng được sử dụng nhiều trong các bệnh viện. Các ứng dụng giọng nói như Maslo cho phép người dùng nói thẳng về các vấn đề của họ. Chính giọng nói của chúng ta là một dạng dữ liệu có thể cho chúng ta biết về bản thân và cũng cho chúng ta biết về người khác. Chính vì thế, nhiều nghiên cứu thú vị đã ra đời về cách giọng nói có thể làm phong phú cuộc sống của chúng ta, giải đáp những lo ngại về quyền riêng tư và cách chúng sẽ được sử dụng.

Chìa khóa để nghiên cứu phân tích giọng nói thành công không chỉ nằm ở nội dung của câu nói, mà còn ở cách nói: âm điệu, tốc độ, cách nhấn mạnh, ngắt nghỉ. Và với học máy, chúng ta lấy các mẫu được dán nhãn từ hai nhóm – những người lo lắng và những người không lo lắng – và đưa dữ liệu vào một thuật toán. Thuật toán này sau đó sẽ học được cách chọn các dấu hiệu tinh vi có thể cho chúng ta biết ai đó thuộc Nhóm A hay Nhóm B, và máy lại có thể làm điều tương tự với các mẫu mới trong tương lai.

Ông Louis-Philippe Morency, một nhà khoa học máy tính tại Đại học Carnegie Mellon, founder dự án có tên SimSensei có thể giúp phát hiện trầm cảm bằng giọng nói cho biết: “Kết quả đôi khi có thể ngược lại với trực giác của chúng ta”. Trong một số nghiên cứu ban đầu cố gắng liên hệ các đặc điểm của giọng nói với khả năng tự tử của một người, nhóm của Morency đã phát hiện ra rằng những người có giọng nói nhẹ nhàng, dễ chịu mới có nhiều khả năng sẽ tự tử hơn, chứ không phải những người có giọng nói căng thẳng, giận dữ. Tuy nhiên, nghiên cứu đó chỉ là sơ bộ và các liên kết thường không đơn giản như vậy. Thông thường, có nhiều các tính năng và kiểu nói phức tạp mà chỉ các thuật toán mới có thể cảm nhận được.

“Chúng tôi có thể đưa ra dự đoán về sức khỏe, cách làm việc và giải trí của bạn”

Các nhà nghiên cứu đã xây dựng các thuật toán sử dụng giọng nói để giúp chẩn đoán nhiều bệnh từ bệnh Parkinson cho đến rối loạn sau chấn thương. Đối với nhiều người, tiềm năng lớn nhất của công nghệ này nằm ở mối liên hệ giữa phân tích giọng nói và sức khỏe tinh thần, với hy vọng có thể dễ dàng theo dõi và giúp đỡ những người có nguy cơ tái phát bệnh.

Những người có tình trạng sức khỏe không ổn định được theo dõi sát sao khi họ ở trong bệnh viện, “nhưng cũng có rất nhiều vấn đề có thể xảy ra trong cuộc sống hàng ngày của họ”, theo David Ahern, người chỉ đạo chương trình Sức khỏe Hành vi Kỹ thuật số tại Bệnh viện Brigham và Women. Ông nói rằng bên ngoài bệnh viện nơi họ được giám sát, cuộc sống hàng ngày có thể khiến con người mệt mỏi và chậm chạp. Trong tình huống đó, một người từng mắc bệnh trầm cảm thậm chí có thể không biết rằng họ đã bị trầm cảm trở lại. “Những biến cố này lại xảy ra khi họ không được kết nối với bất kỳ hệ thống y tế nào. Và nếu một tình trạng trở nên tồi tệ đến mức họ phải vào phòng cấp cứu thì đã quá muộn rồi” Ahern nói. “Ý tưởng về một máy cảm biến bỏ túi có thể theo dõi các hoạt động, hành vi của bệnh nhân khá hợp lý. Nó có thể giúp cảnh báo sớm hơn cho chúng ta.”

Ahern hiện đang khảo sát một hệ thống theo dõi sức khỏe có tên là CompanionMx, vừa ra mắt vào tháng 12 vừa rồi. Bệnh nhân ghi lại nhật ký bằng âm thanh vào ứng dụng. Chương trình phân tích các nhật ký đó cùng với siêu dữ liệu như nhật ký cuộc gọi và vị trí để xác định tình trạng bệnh nhân theo bốn yếu tố – tâm trạng chán nản, sự giảm hứng thú, trốn tránh và mệt mỏi – và theo dõi thay đổi của họ theo thời gian. Thông tin này, được bảo vệ bởi luật riêng tư liên bang HIPAA, được chia sẻ với bệnh nhân và cũng được trình bày trong bảng điều khiển của các bác sĩ.

Công ty đã thử nghiệm sản phẩm này trong bảy năm với hơn 1.500 bệnh nhân. Kết quả được công bố trên Tạp chí Nghiên cứu Internet Y tế cho thấy công nghệ này có thể dự đoán các triệu chứng trầm cảm và PTSD, nhưng vẫn cần được xác minh thêm.

Trong các nghiên cứu thí điểm, 95% bệnh nhân đã để lại nhật ký âm thanh ít nhất một lần một tuần và các bác sĩ lâm sàng truy cập bảng điều khiển ít nhất một lần một ngày. Những con số này rất hứa hẹn, mặc dù vẫn còn nhiều câu hỏi về thành phần, ứng dụng, phản hồi, hay bảng điều khiển… Nghiên cứu vẫn đang được tiếp tục, và một vài kết quả khác đã được công bố. CompmateMx cũng đang có kế hoạch hợp tác với các tổ chức y tế khác và đang xem xét hợp tác với Bộ Cựu chiến binh.

Các dịch vụ như Voicesense, CallMiner, RankMiner và công ty mẹ một thời của Cogito cũng hứa hẹn sẽ sử dụng phân tích giọng nói trong kinh doanh. Điều này có nghĩa là cải thiện dịch vụ khách hàng tại các trung tâm chăm sóc khách hàng, nhưng Voicesense lại có những giấc mơ lớn hơn. “Ngày nay, chúng tôi đã có thể tạo ra một hồ sơ cá nhân hoàn chỉnh”, Giám đốc điều hành Yoav Degani tuyên bố. Kế hoạch của ông không chỉ để làm thỏa mãn những khách hàng khó tính. Ông quan tâm đến tất cả mọi thứ: từ dự đoán định mức cho vay, dự đoán yêu cầu bảo hiểm, tiết lộ phong cách đầu tư của khách hàng, cho đến đánh giá ứng viên, phán đoán xem nhân viên có khả năng nghỉ việc hay không. “Chúng tôi có thể không đạt tỉ lệ chính xác 100% nhưng con số của chúng tôi vẫn rất ấn tượng. Chúng tôi có thể đưa ra dự đoán về sức khỏe, cách làm việc và giải trí của bạn.”

Trong một case study, Voicesense đã thử nghiệm công nghệ của mình ở một ngân hàng lớn ở châu Âu. Ngân hàng cung cấp các mẫu giọng nói của vài ngàn người vay (Ngân hàng đã biết ai có thể và ai không thể trả nợ) Voicesense chạy thuật toán của mình trên các mẫu này và phân loại các bản ghi âm thành 3 loại rủi ro thấp, trung bình và cao. Trong một phân tích như vậy, chỉ 6 phần trăm những người trong nhóm rủi ro thấp bị vỡ nợ, và có đến 27% nhóm rủi ro cao thực sự không trả được nợ. Trong một đánh giá khác, xem xét khả năng các nhân viên sẽ nghỉ việc, chỉ 13% người nhóm rủi ro thấp nghỉ việc, và có đến 39% nhóm rủi ro cao thực sự nghỉ việc.

Điều gì xảy ra khi các thuật toán sai?

Ghosh, nhà khoa học tại MIT cho biết: “Không có gì đáng báo động với chúng ta. Nhưng cũng như với bất kỳ công nghệ dự đoán nào, sẽ xảy ra sai sót nếu việc phân tích không được thực hiện tốt. Nói chung, cho đến khi ta thấy bằng chứng rằng một cái gì đó đã được xác thực trên số người X, thì vẫn chưa thể tin cậy hoàn toàn vào các phán đoán được. Các đặc điểm của giọng nói có thể thay đổi khá nhiều trừ phi bạn lấy đủ số mẫu, đó là lý do tại sao chúng tôi tránh xa việc đưa ra các phán đoán tuyệt đối”.

Về phần mình, Degani nói rằng thuật toán xử lý giọng nói của Voicesense đo được hơn 200 thông số mỗi giây và có thể được áp dụng với nhiều ngôn ngữ khác nhau, bao gồm các ngôn ngữ có âm như tiếng Quan thoại. Chương trình này vẫn đang trong giai đoạn thử nghiệm, nhưng công ty đã liên lạc với các ngân hàng lớn và các nhà đầu tư. Hầu hết mọi người đều ấn tượng bởi tiềm năng của những công nghệ như vậy.

Dịch vụ khách hàng là một chuyện, nhưng Robert D’Ovidio, giáo sư tội phạm học tại Đại học Drexel, lo ngại rằng một số ứng dụng mà Voicesense cung cấp có thể gây phân biệt đối xử. Thử tưởng tượng bạn gọi cho một công ty thế chấp, họ sẽ phân tích giọng nói của bạn và xác định rằng bạn có nguy cơ mắc bệnh tim cao, và từ đó họ sẽ xếp bạn vào nhóm “khách hàng rủi ro cao” và có thể sẽ nhận những cách đối xử khác biệt. “Chúng ta sẽ cần luật bảo vệ người tiêu dùng để chống lại việc thu thập những thứ này”.

Ryan Calo, giáo sư tại Trường Luật của Đại học Washington chỉ ra rằng “Một số biện pháp bảo vệ người tiêu dùng như thế này vẫn đã tồn tại. Giọng nói được coi là thước đo sinh trắc học, và ở một vài tiểu bang, như Illinois, đã có luật đảm bảo an ninh sinh trắc học”. Calo cho biết thêm, các vấn đề nhạy cảm như chủng tộc hay giới tính vốn hay gặp ở kỹ thuật học máy, cho dù các kỹ thuật đó được sử dụng trong phân tích giọng nói hay xem xét sơ yếu lý lịch. Nhưng thường mọi người cảm thấy khó chịu khi những phương pháp học máy đó được sử dụng để nhận dạng khuôn mặt hoặc giọng nói, có lẽ một phần là vì những đặc điểm đó mang tính cá nhân cao. Và trong khi luật chống phân biệt đối xử vẫn ở đó, thì nhiều vấn đề xoay quanh việc phân tích giọng nói lại đặt ra câu hỏi về điều gì tạo nên sự phân biệt đối xử, đó là vấn đề mà xã hội chúng ta chưa giải quyết được.

“Tôi hy vọng rằng khi chúng ta tiến về phía trước, chúng ta sẽ nhận ra rằng đây chỉ là dữ liệu, bất kể nó thuộc dạng nào, giống như một loạt các số được nhập vào một bảng tính”, D’Ovidio nói. Ít nhất, ông nói thêm, chúng ta nên có quyền được biết khi nào thì thông tin của chúng ta bị khai thác. “Và tôi cũng muốn thấy những thay đổi trong luật bảo vệ người tiêu dùng. Điều gì sẽ xảy ra khi các thuật toán sai?”

Angela Chen

Tin liên quan:
  • 50
    Shares