Ung thư da là một trong các bênh ung thư phổ biến nhất trên thế giới, song lại hoàn toàn có thể chữa trị được nếu được phát hiện sớm. Do đó, việc phát hiện sớm các tổn thương ác tính thông qua những kỹ thuật chính xác và công nghệ tiên tiến đã góp phần lớn giúp giảm tỷ lệ tử vong của ung thư da.

Gần đây, Trí tuệ nhân tạo cũng đã được ứng dụng trong chẩn đoán căn bệnh này dựa trên các hình ảnh y tế. Tính tới nay, đã có rất nhiều mô hình deep learning được nghiên cứu và phát triển, song ta vẫn phải đối mặt với một vấn đề lớn, đó là: sự mất cân bằng về hiệu quả giữa các lớp trong phép phân loại nhiều lớp (multi-class classification). Nghiên cứu sẽ đề xuất một phương thức kết hợp nhằm giải quyết sự mất cân bằng lớp này trong bài toán phân loại bệnh lý da liễu.

Cụ thể, phương thức sẽ kết hợp phương pháp logic mini-batch và phóng đại hình ảnh trên thời gian thực ở cấp dữ liệu, với phương pháp thiết kế hàm mất mát mới ở cấp thuật toán. Phương thức này sẽ được huấn luyện thông qua một bộ dữ liệu bao gồm 24.530 ảnh dermoscopic (ảnh soi da) của bảy chủng bệnh da liễu khác nhau – cũng là bộ dữ liệu về ung thư da lớn nhất ở hiện tại. Các tham số hiệu quả của từng phương thức được đề xuất sau đó sẽ được đánh giá dựa trên một bộ dữ liệu thử nghiệm bao gồm 2.453 hình ảnh.

Kết quả cho thấy, mô hình EfficientNetB4-CLF cho độ chính xác cao nhất ở 89,97%, đạt recall trung bình (tức tỷ lệ dự đoán Positive mà mô hình dự đoán đúng trên tổng Positive thực tế) cao nhất ở 86,13%, và đạt recall độ lệch chuẩn 7,60%, thấp nhất trong 6 phương thức. So với các phương thức truyền thống, giải pháp này không chỉ đạt recall trung bình lớn hơn 4,65% (86.13% so với 81.48%), mà còn giảm recall độ lệch chuẩn xuống (từ ±11.84% xuống ±7.60%).

Điều này cho thấy phương thức kết hợp của các nhà nghiên cứu cho hiệu quả cao trong việc huấn luyện mạng CNN sau (Deep CNN network) trên bộ dữ liệu bệnh da liễu không cân bằng. Phương thức này, do đó, giải quyết được vấn đề học chậm với các lớp thiểu số trong mạng nơ-ron, thông qua việc kết hợp phương thức logici mini-batch cân bằng và phóng đại hình ảnh ở cấp dữ liệu với phương thức thiết kế hàm mất mát mới tại cấp thuật toán.

Improving skin-disease classification based on customized loss function combined with balanced mini-batch logic and real-time image augmentation” (tạm dịch: Nâng cao hiệu quả phân loại bệnh về da dựa vào tối ưu hàm mất mát kết hợp với lựa chọn dữ liệu cân bằng và nhân bản dữ liệu thời gian thực trong mỗi bước huấn luyện) là công trình nghiên cứu khoa học được đăng trên tạp chí IEEE Access – một tạp chí uy tín quốc tế thuộc danh mục SCIE, Scopus, nhóm Q1 có chỉ số IF (Impact Factor) cao. Nhóm Q1 là nhóm cao nhất và uy tín nhất trong bảng đánh giá chất lượng của tạp chí chuyên ngành. CAIO Nguyễn Xuân Phong cho rằng, kết quả này chứng tỏ phần nào FPT Software đã bắt đầu có công trình, môi trường nghiên cứu khoa học chuyên sâu, tạo điều kiện cho sự đổi mới, sáng tạo phát triển.

Đăng tải tại: IEEE Access
Xem thêm tại ĐÂY.

Tin liên quan: