Mặc dù mạng nơ-ron tích chập (CNN – Convolutional Neural Networks) đang được sử dụng ngày càng phổ biến, các hoạt động tích chập trong mạng này vẫn vấp phải một số hạn chế. Để khắc phục những hạn chế đó, các nhà nghiên cứu của NVIDIA và Đại học Massachusetts Amherst đã phát triển một loại hoạt động tích chập mới, có khả năng thích ứng với các hình ảnh đầu vào và đưa ra bộ lọc phù hợp.

Các nhà nghiên cứu sẽ công bố nghiên cứu này tại hội nghị Computer Vision and Pattern Recognition (CVPR), được tổ chức hàng năm tại Long Beach, California.

Nhằm cải thiện năng suất của CNN, cũng như giảm hạn chế nêu trên, nhóm nghiên cứu đã đưa ra một giải pháp khái quát hóa các hoạt động tích chập – PAC (Pixel-Adaptive Convolution).

Hoạt động mới có thể được coi như “một sự cải tiến đơn giản của những tích chập tiêu chuẩn,” mà trong đó “khối lượng của bộ lọc được nhân với một hạt nhân thay đổi theo không gian, dựa trên các tính năng pixel có sẵn và có thể học được.”

Hình 1 minh họa một lớp PAC, trong đó, để thực hiện phép tích chập thích ứng pixel, bộ lọc tích chập bất biến tiêu chuẩn (W) sẽ được nhân với hạt nhân thay đổi không gian (K).

Đây là một phương trình khá đơn giản, nhưng PAC lại có thể được khái quát cho rất nhiều bộ lọc phổ biến như standard convolution, bilateral filtering, và nhiều thao tác gộp được sử dụng rộng rãi trong thị giác máy tính và đồ họa máy tính. Nhóm nghiên cứu cũng đồng thời cho thấy khả năng tiềm tàng của PAC qua nhiều use case khác nhau.

Trong một use case nổi bật, mạng nơ-ron sâu được sử dụng để upsample các tín hiệu với độ phân giải thấp bằng các hình ảnh chỉ dẫn với độ phân giải cao.

Sau đây là một ví dụ minh họa cách phục hồi các chi tiếp này, kể cả khi upsample tới 16 lần.

Hình 2. Upsample chiều sâu chung và luồng quang sử dụng PAC.

Một vài use case khác bao gồm sử dụng mạng nơ-ron sâu trong phân đoạn ngữ nghĩa và suy luận hiệu quả trong một số lĩnh vực có điều kiện bất kỳ.

Thành tựu nghiên cứu này lần đầu được giới thiệu bởi nhóm nghiên cứu bao gồm Hang Su, Varun Jampani, Deqing Sun, Orazio Gallo, Erik Learned-Miller và Jan Kautz, tại hội nghị CVPR vào 20/6/2019 ở Long Beach, California.

Theo NVIDIA Developer

Tin liên quan: