Các mạng nơ-ron tích chập có thể giúp tăng cường khả năng dự đoán, hỗ trợ việc phân tích mẫu vật cho dược phẩm với hiệu quả cao hơn rất nhiều so với các mô hình machine learning truyền thống.

Các nghiên cứu về quá trình hấp thụ chất, phân bổ, trao đổi, và bài tiết là vô cùng quan trọng đối với việc phát hiện ra thuốc mới. Những nghiên cứu này giúp chỉ ra các tính chất dược động học và dược lý học của các loại thuốc khả thi, đồng thời cũng cung cấp các thông tin về mức độ an toàn và hiệu lực của các loại thuốc.

Trong số các nghiên cứu trên, phân tích mẫu vật vi thể gan chuột (MLM) là một công trình phân tích chủ chốt trong dược học, giúp ta dự đoán được tính ổn định của việc trao đổi chất, đồng thời cũng là một tác vụ bắt buộc trong mọi quy trình ứng dụng thử nghiệm thuốc mới (IND). Việc sử dụng các mô hình hoặc công cụ máy tính trong việc dự đoán kết quả các phép phân tích mẫu vật ADME, bao gồm MLM, sẽ giúp xúc tiến quá trình phát hiện thuốc, đồng thời làm giảm chi phí cần thiết.

Trong một bài báo mới được đăng tải trên tờ WIRES Computational Molecular Science, Tiến sĩ Yufeng Tseng cùng đội ngũ của ông tại Đại học Quốc gia Đài Loan đã so sánh các mô hình machine learning dùng để dự đoán tính ổn định của MLM với một mô hình được xây dựng bằng các kỹ thuật deep learning.

Các mô hình deep learning là một nhánh của kỹ thuật machine learning, trong đó sử dụng các mạng nơ-ron được lấy cảm hứng từ chính não bộ con người. Những mạng nơ-ron này sẽ bao gồm các nơ-ron nhân tạo, còn được gọi là node, được kết nối với một mạng lưới các node khác thông qua các “cạnh” (edge), giúp các nơ-ron này có thể nhận và truyền tín hiệu với nhau.

Thông thường, node được sắp xếp thành nhiều lớp khác nhau: node đầu vào – nơi dữ liệu được truyền qua nhiều lớp ẩn, giúp mô hình học được cách liên kết giữa các đặc điểm và hệ quả tương ứng; node đầu ra – nơi điểm dữ liệu được phân loại cuối cùng. Quá trình học của các mạng nơ-ron này bao gồm việc thay đổi các thông số weight và bias của một số node cụ thể, khiến một số đặc điểm trong lớp đầu vào luôn luôn được phân loại đúng trong lớp đầu ra. Các mô hình deep learning có vô cùng nhiều lợi thế so với các mô hình machine learning truyền thống, bao gồm thời gian huấn luyện nhanh hơn, năng lực máy tính được sử dụng hiệu quả hơn, và khả năng dự đoán chính xác cho nhiều bộ dữ liệu hơn.

Sự phát triển của các mạng nơ-ron tích chập đồ thị (graph convolutional neural networks – GCN) cũng đã cải thiện tính ứng dụng của mô hình deep learning trong lĩnh vực hóa học máy tính. Ngoài ra, do bản chất đồ thị của phân tử (trong đó các nguyên tử là đỉnh của đồ thị, và liên kết là các cạnh của đồ thị đó), phương thức GCN có thể trực tiếp xử lý các đặc tính đồ thị của phân tử vào mạng nơ-ron.

GCN có thể đạt độ chính xác cao chưa từng thấy so với các phương thức machine learning thông thường.

Trái với cách biểu hiện phân tử truyền thống, GCN có thể tự tạo ra vân riêng linh hoạt hơn và tối ưu trên máy tính hơn. Sau thử nghiệm, có thể thấy rằng, GCN dự đoán tốt hơn, có khả năng phân tích tốt hơn, và sở hữu quy trình biểu diễn đặc tính tối ưu hơn. Đồng thời, so với các phương thức cũ, GCN cũng giảm bớt năng lực máy tính cần dùng, cũng như các yêu cầu thiết yếu.

Kết quả tương tự cũng được phản ánh trên một GCN chuyên biệt cho việc dự đoán tính ổn định của phép MLM. Cụ thể, GCN này được huấn luyện bằng cùng một bộ dữ liệu với mô hình phân loại Bayesian tân tiến nhất, nhưng lại cho khả năng dự đoán tốt hơn trên cả bộ dữ liệu kiểm nghiệm và thử nghiệm so với mô hình nói trên. Dự đoán của GCN chính xác cao hơn, cụ thể hơn, nhạy hơn, đồng thời đạt điểm AUC ROC cao hơn. Kết quả cụ thể như sau: với bộ dữ liệu thử nghiệm, GCN cho độ chính xác là 83,3%, cao hơn 6,6% so với mô hình Bayesian; với bộ dữ liệu kiểm nghiệm, GCN cho độ chính xác là 78,8%, cao hơn 22,6% so với mô hình Bayesian. Ngoài ra, điểm ROC của GCN đạt 0,861 ở bộ dữ liệu kiểm nghiệm, tức cao hơn 0,076 so với mô hình Bayesian, còn ở bộ dữ liệu thử nghiệm, GCN đạt 0,864 điểm, cao hơn 0,16 điểm so với mô hình Bayesian.

Các nhà nghiên cứu cũng đã phát triển ra một cây quyết định (decision tree – một mô hình phân loại C5.0), được xây dựng từ 1875 điểm mô tả PaDEL, 12 loại vân, và được huấn luyện trên cùng một bộ dữ liệu. Khi so sánh với GCN, ở cây quyết định đã xảy ra hiện tượng giảm độ chính xác khi dự đoán các phân tử ở bộ dữ liệu kiểm nghiệm. Ngoài ra, nhiều mô hình machine learning khác (bao gồm nhiều mô hình phân loại Bayesian và random forest), đều có độ chính xác thấp hơn so với GCN.

Pills over white Free Photo

Trong bối cảnh các thuyết về tích chập đồ thị và thuật toán ngày càng được phát triển và cải tiến mạnh mẽ hơn, GCN sẽ trở thành công cụ quyết định trong các quy trình phát hiện thuốc, rút ngắn thời gian thực hiện, cũng như làm các quy trình này trở nên chuẩn hóa với hiệu suất cao hơn.

Theo Advanced Science News

Tin liên quan: