Với 300 triệu lượt tải và định giá lên tới 700 triệu đô-la, Duolingo là ứng dụng học ngoại ngữ phổ biến nhất trên thế giới. Có nhiều nhân tố dẫn tới sự thành công này, trong đó công nghệ, đặc biệt là trí tuệ nhân tạo đóng vai trò quan trọng.

Thị trường học ngôn ngữ trực tuyến toàn cầu đã đạt mức chín tỷ đô-la vào năm 2018, theo hãng nghiên cứu Verified Market Research, con số này có thể đạt hơn 20 tỷ đô-la vào năm 2026. Duolingo đã đầu tư vào AI và học máy để khiến các bài học trở nên hấp dẫn và gắn kết hơn, bằng cách tự động tùy chỉnh cho từng cá nhân, giống như cách của một gia sư thực hiện vậy.

Duolingo là một ứng dụng đa nền tảng, nơi người dùng có thể học ngôn ngữ miễn phí, họ cũng có thể bỏ ra 7 đô-la mỗi tháng sử dụng dịch vụ cao cấp (premium) giúp loại bỏ quảng cáo, cung cấp quyền truy cập các lớp học ngoài đời và nhiều dịch vụ khác. Thông qua việc ứng dụng các yếu tố trò chơi vào việc kinh doanh (gamification) và các bài học được chia ra thành các module nhỏ, bất kỳ ai cũng có thể học đọc, nghe và nói trên hàng chục ngôn ngữ.  Duolingo thu hút người dùng bằng các thủ thuật chơi trò chơi như điểm, rương kho báu và đợt ngày học để sử dụng liên tục. Các bài học dài ba phút của ứng dụng được thiết kế đơn giản.

Mỗi người có lý do riêng để học một ngôn ngữ mới khác nhau: để tăng sức hấp dẫn của họ với các nhà tuyển dụng tiềm năng, để trò chuyện với phụ huynh của bạn đời mới, hoặc đơn giản là để thỏa mãn cá nhân. Nhưng dù động cơ là gì, việc học một ngôn ngữ cần có thời gian và công sức – những sẽ nhiều hơn vậy nếu người học không đắm chìm trong ngôn ngữ 24/7.

Ứng dụng công nghệ học máy và dữ liệu lớn

Một vài từ khi học sẽ dễ nhớ, cũng như khó nhớ hơn, Duolingo sử dụng công nghệ học máy để xác định xu hướng này. Duolingo rà soát qua mọi bài tập đã hoàn thành từ trước tới nay và xác định một từ dễ nhớ hay khó nhớ dựa trên mức độ học sinh hoàn thành lần sau khi nhìn thấy từ đó. Với đủ dữ liệu, nó dự đoán sinh viên quên từ đó nhanh đến mức nào, và sau đó dự đoán khi nào nên kiểm tra bạn về từ này một lần nữa. Nếu bạn nhận diện từ đúng hoặc sai vào lần tiếp theo thì Duolingo sẽ hiệu chỉnh lại công thức dựa trên cách bạn và các sinh viên khác đã học, để từ đó và điều chỉnh lại khoảng thời gian bạn được kiểm tra từ đó lần nữa.
Năm 2016, Duolingo cũng đã xây dựng bài kiểm tra năng lực tiếng Anh (DET) để cạnh tranh với TOEFL, đo lường khả năng tiếng Anh của người học. Để xây dựng bài kiểm tra này, Duolingo đã phân tích chuẩn chung đo lường khả năng ngôn ngữ. Startup này đã xử lý hàng ngàn đoạn văn, với những trình độ ngôn ngữ khác nhau và sử dụng kĩ thuật học máy để phát triển thuật toán xây dựng từ hoặc khái niệm sẽ kiểm tra tại mỗi trình độ.

Burr Settles, người đứng đầu mảng nghiên cứu và trí tuệ nhân tạo tại Duolingo chia sẻ trong một cuộc phỏng vấn tại Hội nghị thượng đỉnh AI tại London: “Mối quan tâm của tôi là sự giao thoa của ngôn ngữ, AI trong công nghệ và khoa học nhận thức. Lưu ý rằng không nhiều công việc hội tụ được các yếu tố nói trên. Bạn chỉ có thể đếm chúng trên đầu ngón tay mà thôi”. Sau một thời gian làm nhà khoa học nghiên cứu sau tiến sĩ tại Đại học Carnegie Mellon, Settles gia nhập Duolingo vào năm 2013 với tư cách là một kỹ sư phần mềm, bao quát mọi thứ từ mảng front-end tới back-end. Settles đã chọn Duolingo thay vì các công ty lớn hơn vì tiềm năng trong quá trình đảm nhận vị trí tại đây đem lại.

Ngay sau khi Settles gia nhập Duolingo, anh và nhóm bắt đầu xác định các cách để thay đổi các nền tảng xây dựng nên mô hình học tập của Duolingo, vốn dựa trên các thuật toán lập flashcard từ thập kỷ 70. Theo Settles, một trong những thách thức là có rất ít nghiên cứu về việc ứng dụng AI cho giáo dục ở bất kỳ quy mô thực tế nào. Anh chia sẻ: “Có rất ít ấn phẩm khoa học và tồn tại hai vấn đề chính: Một là chúng như những nghiên cứu thực hiện trong phòng thí nghiệm với 30 người và hầu hết là 30 sinh viên đại học tại Hoa Kỳ. Và đó là một thống kê rất khác so với 300 triệu người từ khắp nơi trên thế giới với văn hóa khác nhau khi sử dụng Duolingo. Những gì Duolingo đã làm là rất nhiều dữ liệu học tập có thể được sử dụng để phát triển các mô hình và thuật toán mới từ đầu. Một phần lý do tôi nhận công việc là thu thập được một lượng lớn dữ liệu, loại dữ liệu và tính độc đáo của dữ liệu. Chúng tôi đã sử dụng phương pháp phỏng đoán và đang thu thập dữ liệu về các bài tập mà người học giải đúng, những gì họ giải sai và mất bao lâu kể từ lần cuối họ nhìn thấy nó trong ứng dụng. Và vì chúng tôi đã theo dõi những thống kê đó, chúng tôi nghĩ: ‘Thay vì làm như trên thì tại sao không tạo ra các mô hình dự đoán để thực hiện công việc?’ ”

Phát triển triết lý, phương pháp luận của riêng mình

Nền tảng của phương pháp luận bắt nguồn từ hiệu ứng ngắt quãng (spacing effect): các bài tập ngắn được bố trí dần dần sẽ tốt hơn việc “nhồi nhét”; ngoài ra còn hiệu ứng độ trễ (lag effect): bạn sẽ học tốt hơn nếu dần tăng khoảng ngắt quãng giữa các bài luyện tập. Ý tưởng này bắt nguồn từ năm 1885, khi nhà tâm lý học người Đức Hermann Ebbinghaus tiên phong với khái niệm “đường cong quên.” Nhìn vào đường cong của đồ thị này, ta có thể thấy được khả năng lưu trữ ký ức giảm rất nhanh. Điều này cho thấy những mảnh thông tin được học và lưu trữ sớm sẽ có thể được nhớ lại dễ dàng nhất. Tuy nhiên, khả năng truy cập lại thông tin trong bộ nhớ sẽ giảm rất nhanh nếu người học không cố gắng ôn lại những thông tin đó.

Mô hình đường cong quên.

Duolingo đã phát triển các mô hình thống kê và học máy của riêng mình, đồng thời kết hợp các kỹ thuật học tập đã thử nghiệm và kiểm chứng như kỹ thuật lặp lại ngắt quãng (spaced repetition) để tối ưu hóa và cá nhân hóa các bài học. Lý thuyết đằng sau kỹ thuật lặp lại ngắt quãng là lặp đi lặp lại các bài học ngắn trong một khoảng thời gian sẽ tốt hơn là nhồi nhét cùng một thông tin trong một khung thời gian ngắn. Liên quan đến điều này là hiệu ứng độ trễ (lag effect), theo đó người dùng có thể cải thiện kỹ năng nhiều hơn nếu khoảng cách giữa các buổi thực hành được tăng dần.

Nhưng vấn đề chính với các chương trình tự động thay vì do con người vận hành là con người khác rất nhiều

Vấn đề chính của các chương trình tự động nằm ở việc thay vì do con người vận hành là từng cá nhân con người rất khác nhau – tùy thuộc vào kiến ​​thức hiện có của họ về ngôn ngữ, hoàn cảnh cá nhân hoặc tính cách khác nhau. Và các mô hình học máy có xu hướng theo hướng nhị phân, thay vì chú ý vào bản chất mới của cá nhân. Đây là lí do Duolingo đưa vào mô hình thống kê – còn được gọi là là hồi quy chu kỳ bán rã (half-life regression). Mô hình này phân tích các mẫu lỗi của hàng triệu người học ngôn ngữ để dự đoán “chu kỳ bán rã” cho mỗi từ trong bộ nhớ dài hạn của từng cá nhân. Settles chia sẻ: “Việc ứng dụng mô hình này đã giúp gia tăng 12% trong mức độ gắn kết người dùng.”

Khái niệm chu kỳ bán rã thường được sử dụng trong vật lý để mô tả thời gian cần thiết để một đại lượng giảm xuống một nửa giá trị ban đầu. Trong việc học một ngôn ngữ, điều này có thể mô tả từ vựng hoặc kiến ​​thức ngữ pháp mà bạn ghi nhớ – vì vậy nếu một chu kỳ bán rã là một ngày và bạn có một ngày không thực hành một ngôn ngữ mới, có 50% khả năng bạn sẽ quên bài học đó. Hồi quy chu kỳ bán rã đi vào bên trong tâm trí con người, tìm ra những gì họ biết hoặc không biết, và sau đó đưa ra mục tiêu tài liệu khóa học phù hợp cho người học.

Settles cho biết: “Nếu bạn có hai người, một người chưa bao giờ học tiếng Pháp trước đây và một người khác đã học bốn năm trung học (tiếng Pháp), có lẽ họ sẽ sớm bộc lộ những xu hướng khác nhau về thứ họ làm đúng hoặc sai. Và vì vậy, các xu hướng “phân rã” giữa hai người sẽ rất khác nhau. Người đã có nền tảng sẽ ít mắc lỗi hơn và các loại sai lầm họ sẽ mắc phải có thể sẽ khác nhau, nghĩa là họ không phải thường xuyên luyện tập các bài tập mình đã nắm được cách làm.”

Các phương pháp được sử dụng để nhắm mục tiêu nội dung – như đưa vào hồi quy chu kỳ bán rã để thâm nhập vào tâm trí học sinh theo cách mà một giáo viên làm là rất quan trọng. Nhưng bản thân nội dung cũng quan trọng không kém, và ở đây Duolingo cũng đang chuyển sang dựa vào AI để xây dựng chương trình giảng dạy phù hợp. Settles chia sẻ thêm: “Có hàng triệu từ trong tiếng Anh và có thể 10.000 từ được sử dụng với tần suất cao – bạn dạy chúng theo thứ tự nào? Làm thế nào để bạn xâu chuỗi chúng lại với nhau? Vì vậy, chúng tôi đã xây dựng các hệ thống để giúp người sáng tạo nội dung tài liệu tùy chỉnh cho người ở trình độ mới bắt đầu, trung cấp và nâng cao.”

Một thách thức nữa là trong khi chỉ có 40% người dùng Duolingo học tiếng Anh, hầu hết các dữ liệu sư phạm mà công ty sử dụng để huấn luyện các hệ thống AI của họ được phát triển cho tiếng Anh. Vì vậy, Duolingo buộc phải đưa các hệ thống của mình ứng dụng lên các ngôn ngữ khác, được biết đến trong ngành AI là học chuyển tiếp (transfer learning).

Chú trọng vào tương tác giữa người với người

“Phần cốt lõi trong chiến lược AI của chúng tôi là đến gần nhất tới trải nghiệm giữa người với người.” Một trong những thách thức lớn nhất với việc dạy một ngôn ngữ từ xa là chúng ta khó có thể tạo ra một trải nghiệm hấp dẫn và đủ để lôi cuốn học viên trải nghiệm, từ đó lôi kéo họ quay trở lại học. Trong nỗ lực thúc đẩy độ gắn kết, vào năm 2016, Duolingo đã đưa ra các bot để giúp dạy ngôn ngữ thông qua các cuộc hội thoại dựa trên văn bản tự động bên trong ứng dụng của nó.

Nhiều nhân vật bot khác nhau được thiết kế để đưa ra phản hồi khác biệt với một loạt các câu trả lời, người dùng có thể nhấn nút “giúp tôi trả lời” nếu họ thấy bí trong câu trả lời. Về mặt lý thuyết, các bot càng được sử dụng nhiều sẽ càng thông minh hơn.

Hiện tại các bot của Duolingo đang tạm thời gián đoạn, nhưng kiểu học này, trong đó các trợ lý ảo sẽ thay thế gia sư là con người, có thể nâng tầm việc dạy trực tuyến lên cấp độ cao hơn. Những phát triển gần đây trong các trợ lý AI đàm thoại, như Amazon Alexa và Trợ lý Google, có thể mở ra cơ hội hoàn toàn mới cho những người học ngôn ngữ. Hãy tưởng tượng nếu chúng ta nói rằng: “Này, Alexa, tôi đã sẵn sàng để học tiếng Pháp” có thể là câu kích hoạt việc học ngoại ngữ mới, hỗ trợ cho tương lai của bạn? Và nếu Google Assistant có thể sửa lỗi phát âm và ngữ pháp của bạn chỉ bằng cách lắng nghe bạn thì sao?

Kết hợp khả năng của thực tế ảo (VR), với người dùng có thể đeo tai nghe để vào nhập học trong môi trường lớp học ảo. Với điều kiện này thì việc học một ngôn ngữ mới sẽ hấp dẫn hơn nhiều lần. Khi được hỏi về khả năng Duolingo lấn sang lĩnh vực nhập vai như trên, Settles đã không đưa ra bình luận nhưng thừa nhận rằng đó là điều có thể xảy ra. Tuy vậy, công ty nhận thức được rằng lợi ích từ các công nghệ nhập vai và tiềm năng để ứng dụng công nghệ nhập vai là vô cùng lớn.

Duolingo đã không tiết lộ bất kỳ kế hoạch nào xung quanh việc tích hợp trợ lý giọng nói thông minh hoặc nhập vai, công ty đã cam kết tiếp tục cá nhân hóa nội dung và sản phẩm của mình, trong quá trình đưa yếu tố con người vào việc học tự động.

Settles chia sẻ: “Nếu bạn nghĩ về cách những giáo viên giỏi giảng dạy, bạn sẽ thấy ba đặc điểm. Một là họ biết rất rõ nội dung; thứ hai là họ biết cách thâm nhập vào trong tâm trí bạn, tìm ra những gì bạn biết và những gì bạn không biết. Và thứ ba là họ rất gắn kết với lớp học và tìm ra các cách tốt nhất để thu hút bạn học tài liệu đó với trình độ hiện tại. Hồi quy bán rã là một ví dụ về việc thâm nhập vào tâm trí bạn, tìm ra một mô hình tinh thần về những gì bạn biết, những gì bạn đang gặp khó khăn khi học và tùy chỉnh chính xác tài liệu cho bạn. Có rất nhiều mảng chưa được khai phá. Tôi nghĩ rằng có rất nhiều cơ hội để AI tạo ra những trải nghiệm học tập mới và hấp dẫn.”

Duolingo cũng sử dụng công nghệ học sâu, một nhánh của AI, sử dụng mạng nơ-ron để mô phỏng hành vi não bộ, từ đó phân tích dữ liệu và đưa ra dự đoán thông minh. Thông qua việc sử dụng các thuật toán học sâu trong xử lý ngôn ngữ tự nhiên, công ty có thể phân tích dữ liệu lịch sử (log) để từ đó dự đoán khả năng người dùng đưa ra câu trả lời chính xác. Những dự đoán đó là nền tảng cho việc cá nhân hóa cả các bài kiểm tra việc học thích ứng (adaptive learning) và nội dung trên ứng dụng này.

Ryan Hoang

Tin liên quan: