Hành trình nghiên cứu cuộn gập protein của DeepMind – Phần 2

84

Theo nhiều người, thập kỷ trước chính là “mùa đông của AI”, thời điểm các thành tựu không rõ ràng nhưng lại đem lại những ảnh hưởng vô cùng lớn lao. Cuộn gập protein cũng là một quá trình có vai trò tương tự – đó là khoa học dự đoán hình thái cơ bản nhất của thứ được coi là nguồn cội của sự sống. Mời độc giả hãy cùng TechInsight dõi theo hành trình nghiên cứu cuộn gập protein của DeepMind. 

Trong quá trình học tập tại UCL và sau đó là MIT, Hassabis nhận ra rằng việc hợp tác liên ngành là một chủ đề nóng. Đồng thời, ông cũng hồi tưởng lại những buổi workshop với nội dung bao hàm nhiều chủ đề khác nhau như khoa học thần kinh, tâm lý học, toán học, và triết học. Ở đó, những buổi chia sẻ, bàn luận sẽ được tổ chức trong nhiều ngày, và những học giả sẽ lại quay về với lĩnh vực nghiên cứu của mình với lời hứa sẽ tiếp tục tìm cách để hợp tác. Buổi gặp tiếp theo sẽ diễn ra cách đó 1 năm giữa những ứng dụng, bài giảng, nghiên cứu và lịch học bậc cao dày đặc.

Hassanis chia sẻ: “Nghiên cứu liên ngành thật sự rất khó khăn. Bạn có thể có 2 chuyên gia giỏi nhất về toán học và về bộ gen, và rõ ràng là hai vấn đề này có thể tìm được một sân chơi chung. Nhưng ai sẽ là người thật sự tìm hiểu lĩnh vực còn lại, hiểu được những khái niệm đặc thù, cũng như những vấn đề tồn đọng trong lĩnh cực đó?”

Một người bình thường sẽ có thể thẳng thắn đưa ra câu hỏi, hiểu tại sao câu hỏi đó chưa có lời giải, và biết được cái khó trong câu hỏi nằm ở đâu. Tuy nhiên, các nhà khoa học, thậm chí khi nghiên cứu về cùng một lĩnh vực, vẫn sẽ hiểu một công trình theo nhiều cách khác nhau. Và với họ, việc xây dựng thêm giá trị cho một lĩnh vực khác, hoặc tìm ra một vấn đề chung giữa hai lĩnh vực là cực kỳ khó khăn.

Trụ sở hiện tại của DeepMind chiếm 2 tầng trong toàn nhà King’s Cross của Google và đã trở nên vô cùng náo nhiệt trong vòng vài năm qua. Chỉ nội trong nghiên cứu AI đã bao hàm từ 6 tới 7 lĩnh vực, và DeepMind liên tục tuyển dụng các chuyên gia về toán học, vật lý, khoa học thần kinh, tâm lý học, sinh học, triết học, và thậm chí còn có tham vọng vươn xa hơn nữa.

Chính những điểm giao thoa giữa các lĩnh vực lại là những vấn đề đáng lưu tâm”, Hassabis chia sẻ. “Việc chúng tôi đang làm là tìm “hồ dán” cho các lĩnh vực – tức tìm kiến các cá nhân có thể làm việc trên nhiều lĩnh vực, và sở hữu khả năng sáng tạo để tìm ra những điểm giao thoa đó. Và nếu tìm được, thì nó sẽ tạo ra phép màu.”

Pushmeet Kohli, cựu trưởng ban nghiên cứu Microsoft là một trong những nhân tố gắn kết này. Theo nhiều người, thập kỷ trước chính là “mùa đông của AI”, thời điểm các thành tựu không rõ ràng nhưng lại đem lại những ảnh hưởng vô cùng lớn lao. Cuộn gập protein cũng là một quá trình có vai trò tương tự – đó là khoa học dự đoán hình thái cơ bản nhất của thứ được coi là nguồn cội của sự sống.

Để đối mặt với thách thức này – một thách hức vô cùng quan trọng trong khoa học, Kohli đã tập trung một đội bao gồm các nhà sinh học cấu trúc, các chuyên gia về học máy, cũng như các nhà vật lý học. Với động vật có vú, protein chính là nền tảng tạo nên cấu trúc và chức năng của tế bào là nội tạng cơ thể, ở cấp độ tế bào. Mỗi protein lại được cấu thành bởi các chuỗi amino axit, thứ quyết định hình thái cũng như chức năng của protein.

Protein là những cỗ máy kỳ diệu: chúng có thể tạo ra các phân tử di chuyển, và thực hiện các phản ứng hóa học hiệu quả hơn so với toàn bộ lịch sử loài ngườiVà nghiên cứu những cỗ máy tự thiết lập này cũng rất khó khăn.” John Jumper, một nhà nghiên cứu chuyên sâu về cuộn gập protein tại DeepMind phát biểu.

Protein sắp xếp các nguyên tử nhỏ tới cỡ đơn vị angstrom (tức 1/1.000.000.000 mét); chính vì vậy, nếu có thể hiểu được sâu hơn về protein, các nhà khoa học sẽ có được kiến thức đầy đủ hơn về sinh học cấu trúc. Cụ thể, protein là thiết yếu cho mọi chức năng của một tế bào, và khi chúng bị cuộn gập không đúng, thì có thể sẽ gây ra các bệnh lý như Parkinson, Alzheimer, hay tiểu đường.

Jumper chia sẻ: “Để có thể tự tạo ra protein, ta cần học và nghiên cứu về protein sẵn có trong tự nhiên. Nói chung, việc hiểu về protein sẽ giúp ta định hình rõ hơn về thế giới vô cùng phức tạp của những nguyên tử và tế bào.”

Sự đồ sộ của những bộ dữ liệu về bộ gen, cũng như khả năng tiếp cận chúng một các dễ dàng, là một trong những nguyên nhân khiến DeepMind chú trọng bài toán cuộn gập protein. Kể từ 2006, lượng dữ liệu AND thu được, được phân phối và phân tích đã thực sự bùng nổ. Dự kiến, tới năm 2025, sẽ có tới 2 tỷ bộ dữ liệu về bộ gen đã được phân tích, chiếm tới 40 exabytes.

Qua vô cùng nhiều thời gian, tốn vô cùng nhiều chi phí, trải qua vô cùng nhiều quá trình phức tạp, ta hiện có một nguồn dồi dào về dữ liệu protein đã được phân tích và hiểu rõ. Chính vì vậy, bài toán cuộn gập gen lại càng thú vị, nhất là trên quan điểm về học sâu,” Jumper chia sẻ.

Nhưng cũng không nên quá hồ hởi về từng bước tiến. Cyrus Levinthao, một nhà sinh học tế bào lại đề cập tới sự phức tạp của vấn đề này. Ông cho rằng, thời gian để biết được mọi thông số khả thi trong một protein, chứ chưa nói tới việc xây dụng mô hình 3D chính xác, đã là vô cùng dài. “Phạm vi tìm kiếm quá rộng, rộng hơn cờ vây rất nhiều,” Rich Evans, một nhà nghiên cứu tại DeepMind khẳng định.

Khó khăn là vậy, nhưng hành trình nghiên cứu cuộn gập protein của DeepMind đã đạt được cột mốc đầu tiên vào tháng 12 năm 2018, tại cuộc thi CASP (Critical Assessment of Techniques for Protein Structure Prediction), được tổ chức tại Cancun, Mexico. Đây là một sự kiện được tổ chức 2 năm 1 lần, giúp những nhà nghiên cứu tìm ra những hướng đi độc lập hơn. Tại năm 2018, mục tiêu của các đội thi là dự đoán hoạt động của protein dựa trên các dãy amino axit, được mô phỏng bằng các mô hình 3D chưa công bố. Sau đó, các dự đoán này sẽ được đánh giá một cách độc lập.

Đội ngũ cuộn gập protein của DeepMind đã tham gia cuộc thi nhằm thử nghiệm tuân thủ tiêu chuẩn AlphaFold – thuật máy mà hãng vẫn luôn áp dụng trong 2 năm qua. Trong những tháng trước khi hội nghị diễn ra, ban tổ chức đã gửi dữ liệu tới các thành viên tại King’s Cross, sau đó nhận lại các dự đoán của họ. Tổng cộng, đội ngũ này phải dự đoán 90 cấu trúc protein, trong đó có những cấu trúc xây dựng theo mẫu (tức phỏng theo các cấu trúc từng đã từng được dự đoán), đồng thời cũng có những cấu trúc được mô hình hóa từ đầu. Kết quả dự đoán đã được gửi tới DeepMind gần sát hội nghị, kết quả là mức độ chính xác của AlphaFold cao hơn các thuật toán khác, và cao vượt bậc trong một số thông số. Trong 43 trên 90 protein được cấu trúc từ đầu, AlphaFold đã dự đoán chính xác 25, vượt xa so với thuật toán chính xác thứ 2 với chỉ 3 dự đoán chính xác.

Về cơ bản, cấu trúc của một protein sẽ được minh họa bằng một sơ đồ dây, sau đó thuật toán AlphaFold sẽ cuộn gập lại thành các cấu trúc 3D để tham gia cuộc thi CASP13.

Mohammed AlQuraishi, một nghiên cứu sinh tại Phòng nghiên cứu Hệ thống Dược lý và Phòng Hệ thống Sinh học, Đại học Y Harvard cũng đã tham dự sự kiện và biết được về hướng tiếp cận của DeepMind chia sẻ: “Khi đọc tóm tắt, tôi không cảm thấy sự mới mẻ của cách tiếp cận này. Tôi đã nghĩ là DeepMind sẽ làm khá tốt, chứ không phải tốt ngoài mong đợi như kết quả chung cuộc.”

Theo AlQuraishi, phương pháp tiếp cận của DeepMind cũng tương tự nhiều phòng nghiên cứu khác, nhưng quá trình thực thi của họ tốt hơn, dẫn tới kết quả vượt bậc. Anh cũng dành lời khen cho năng lực của đội ngũ kỹ sư tại DeepMind.

Tôi nghĩ họ có thể làm tốt hơn những nhóm nghiên cứu học thuật, bởi lẽ những nhóm náy quá quan trọng việc giữ bí mật trong lĩnh vực này,” AlQuraishi nói. “Chính vì vậy, dù ý tưởng trong thuật toán của DeepMind là không mới, và đã có rất nhiều người thử nghiệm các ý tưởng này, nhưng chưa có ai thật sự thành công.”

Để so sánh, AlQuraishi đã nhấn mạnh thành quả của các nhóm học thuật so với những công ty như Google Brain, DeepMind và Facebook, với những bộ máy tổ chức hiệu quả hơn, trả lương hậu hĩnh hơn, và nguồn lực máy tính dồi dào hơn.

Những cộng đồng khoa học máy tính, đặc biệt là học máy đã nhận thức được điều này từ vài năm trước,” anh chia sẻ. “Trong khi cộng đồng sinh học máy tính chỉ vừa mới nhận thức được thực tại này.”

Chia sẻ này làm ta nhớ lại thương vụ mua bán của DeepMind và Google hồi 2014, khi DeepMind đồng ý bán cho Google với lí do mạng máy tính của Google là một nguồn tài nguyên lớn cho việc nghiên cứu của DeepMind, giúp hãng có thể mở rộng phạm vi nghiên cứu một cách nhanh chóng. Ngoài ra, 400.000.000 bảng Anh kiếm được từ thương vụ này sẽ giúp DeepMind có thể thuê được những nhân tài giỏi giang nhất. Theo Hassabis, DeepMind có một chiến lược để xác định những cá nhân phù hợp cho từng lĩnh vực nghiên cứu: “Chúng tôi có một báo cáo chỉ rõ các lĩnh vực chính và các lĩnh vực phụ nào là cần thiết. Sau đó, chúng tôi tìm người phù hợp với lĩnh vực, về cả kiến thức học thuật lẫn văn hóa nghiên cứu.”

Hiện tại, DeepMind đã có thể đạt những thành tựu nghiên cứu lớn, và cuộn gập protein là một lĩnh vực tốt để bắt đầu: đây là một vấn đề cụ thể, có nhiều dữ liệu, và có thể được coi như một vấn đề thuần túy về khoa học máy tính,” AlQuraishi nói, “Không phải lĩnh vực sinh học nào cũng đều thỏa mãn những yếu tố này, thường thì chúng rắc rối hơn nhiều. Cũng chính vì vậy, thành công của DeepMind trong cuộn gập protein không có nghĩa là công ty sẽ thành công trong các lĩnh vực khác.”

Các nhân viên của DeepMind chụp ảnh trên nóc tòa nhà văn phòng của Google tại King’s Cross | Jason Madara.

Còn tiếp

Phía sau nhiệm vụ đặc biệt của DeepMind: Giải quyết vấn đề khó khăn nhất trong khoa học – Phần 1
Co-founder và CEO DeepMind: “Tất cả những gì tôi cần làm là hy sinh quân hậu” – Phần 3

Theo Wired

Tin liên quan: