Với các độc giả đã bỏ lỡ Hội thảo CVPR 2019 về thị giác máy tính, đây sẽ là một bài viết vô cùng hữu ích về 10 nghiên cứu nhận được nhiều phản hồi nhất, đi sâu vào các chủ đề như DeepFakes, Facial Recognition, Reconstruction…

1. Learning Individual Styles of Conversational Gesture

Đọc nghiên cứu đầy đủ tại: https://www.profillic.com/paper/arxiv:1906.04160

Cơ bản nghiên cứu: Sử dụng dữ liệu âm thành đầu vào, tổng hợp các cử chỉ có thể đi cùng chúng và tạo ra một video về người nói.

Mô hình/Kiến trúc sử dụng: Mô hình chuyển từ giọng nói sang cử chỉ. Trong đó, bộ mã hóa âm thanh tích chập sẽ downsample phổ âm 2D thành tín hiệu 1D, rồi mô hình (G) sẽ dự đoán ra một ngăn xếp của phổ âm 2D tương ứng theo trình tự thời gian. Tiếp đó, các ground truth (đầu ra thực sự) sẽ được phân tích hồi quy L1 để tạo ra tín hiệu đào tạo, đồng thời một máy phân biệt đối kháng (D), sẽ đảm bảo phong cách nói và tính mạch lạc của ngôn ngữ cho dữ liệu được dự đoán.

Độ chính xác của mô hình: Các nhà nghiên cứu đã so sánh định tính kết quả chuyển tới so với quy chuẩn và đầu vào cuối (theo như bảng thống kê, mô hình mới mất ít dữ liệu hơn, và có PCK cao hơn)

Các bộ dữ liệu được sử dụng: Dữ liệu cử chỉ về những người nói cụ thể được lấy từ Youtube, độ dài 144 tiếng. Dữ liệu được chia thành 80% để huấn luyện, 10% để xác minh, và 10% để thử nghiệm. Mỗi video nguồn chỉ sử dụng cho 1 mục đích.

2. Textured Neural Avatar

Đọc nghiên cứu đầy đủ tại: https://www.profillic.com/paper/arxiv:1905.08776

Cơ bản nghiên cứu: Các nhà nghiên cứu trình bày một hệ thống để học các neural avatar toàn cơ thể, tức các mạng nơ-ron sâu có khả năng tạo ra hình ảnh toàn thân của một người trên nhiều hành động và góc nhìn khác nhau. Về cơ bản, đây là một góc nhìn không phụ thuộc vào thần kinh, tạo ra avatar con người mà không sử dụng tái thiết hình học.

Mô hình/Kiến trúc sử dụng: Hệ thống textured neural avatar chung, với đầu vào là các ảnh raster “xương” (1 xương/kênh ảnh), xử lý qua mạng tích chập toàn phần để tạo nên một biểu đồ về từng bộ phận cơ thể. Sau đó, các texture cơ thể sẽ được thêm vào, từng bộ phận được cho vào đúng vị trí để tạo ra một ảnh RGB. Ngoài ra, hình ảnh cơ thể cũng sẽ tương thích với nền. Trong quá trình học, ảnh RGB và mask sẽ được so sánh với đầu ra cuối, và những hình ảnh bị mất sẽ được truyền ngược vào mạng tích chập toàn phần thông qua xử lý thử, cho lên texture, và tạo ra các hình ảnh được cập nhật.

Độ chính xác của mô hình: Vượt qua 2 mô hình còn lại về SSIM (structured self-similarity, tức tính tự đồng nhất có cấu trúc), kém hiệu quả hơn mô hình V2V về FID (Frechet Inception Distance).

Các bộ dữ liệu được sử dụng:

– 2 bộ phụ từ bộ dữ liệu CMU Panoptic.

– Dữ liệu tự thu thập qua quá trình quay 3 đối tượng sử dụng 7 camera, góc nhìn rộng 30 độ.

– 2 dãy hình ảnh gắn (sử dụng 1 ống kính) từ một nghiên cứu khác, cùng với 1 video trên Youtube.

3. DSFD: Dual Shot Face Detector

Đọc nghiên cứu đầy đủ tại: https://www.profillic.com/paper/arxiv:1810.10220

Cơ bản nghiên cứu: Một hệ nhận diện gương mặt mới với 3 phát hiện mới về 3 yếu tố chính trong nhận diện giương mặt, theo thứ tự là: khả năng học đặc điểm giương mặt tốt hơn, thiết kế hạn chế mất dữ liệu, và tăng cường dữ liệu dưa trên phân bố mẩu neo.

Mô hình/Kiến trúc sử dụng: Khung DSFD sử dụng module tăng cường đặc điểm (Feature Enhance Module), kết hợp kiến trúc VGG/ResNet để tổng hợp các đặc điểm được tăng cường so với gốc (a), cùng 2 lớp first shot PAL và second shot PAL.

Độ chính xác của mô hình: Thử nghiệm nhiều trên những mốc phổ biến như WIDER FACE và FDDB cho thấy DSFD (Dual Shot face Detector) hoạt động hiệu quả hơn so với các hệ thống nhận diện gương mặt tân tiến nhất hiện tại (như PyramidBox và SRN).

Các bộ dữ liệu được sử dụng: WIDER FACE và FDDB.

4. GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction

Đọc nghiên cứu đầy đủ tại: https://www.profillic.com/paper/arxiv:1902.05978

Cơ bản nghiên cứu: Lối nghiên cứu cho phép tái tạo texture và đặc điểm hình học với chất lượng cao chỉ từ một hình ảnh duy nhất, từ đó khôi phục danh tính một cách chính xác. Các kết quả tái tạo trong mô hình và phần còn lại của nghiên cứu được thể hiện qua một vector với 700 điểm nổi, được kết xuất mà không sử dụng hiệu ứng đặc biệt (texture được tái tạo bởi mô hình, mà không cần sử dụng trực tiếp đặc điểm trên hình ảnh đầu vào).

Mô hình/Kiến trúc sử dụng: Khuôn mặt 3D sẽ được tái tạo sử dụng một máy kết xuất vi phân. Trong đó, hàm chi phí hoạt động trên những đặc điểm nhận dạng trên một mạng nhận diện đã qua đào tạo, và được tối ưu hóa bằng phương thức so sánh các lỗi sai với thông số ngầm được tổng hợp qua việc tối ưu hóa sử dụng hàm gradient descent. Kiến trúc vi phân end-to-end cũng sẽ giảm thiểu chi phí, cũng như nâng cao độ chính xác của thông số dẫn xuất, từ đó có thể áp dụng các mạng nơ-ron sâu để tổng hợp, hoặc để làm hàm chi phí.

Độ chính xác của mô hình: Độ chính xác được đo trên lưới dữ liệu MICC, sử dụng khoảng cách từ điểm đến mặt phẳng. Bảng dưới đây cho thấy độ lệch về giá trị trung bình cũng như độ lệch chuẩn đều là thấp nhất so với các công trình khác.

Các bộ dữ liệu được sử dụng: MoFA-Test, MICC, Labelled Faces in the Wild (LFW), BAM.

5. DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images

Đọc nghiên cứu đầy đủ tại: https://www.profillic.com/paper/arxiv:1901.07973

Cơ bản nghiên cứu:  Deepfashion 2 là điểm chuẩn mới trong phát hiện, phán đoán tư thế, phân khúc và tái nhận diện hình ảnh quần áo.

Mô hình/Kiến trúc sử dụng: Match R-CNN với 3 thành phần chính là: mạng trích xuất đặc điểm hình ảnh (FN), mạng nhận thức (PN), và mạng kết nối (MN).

Độ chính xác của mô hình: Match R-CNN đạt độ chính xác thuộc top 20, ít hơn 0.7 quy chuẩn so với đầu ra cuối cùng, vì vậy điểm chuẩn thu hồi sẽ khó đạt được.

Các bộ dữ liệu được sử dụng: Bộ dữ liệu DeepFashion2 bao gồm 491.000 hình ảnh đa dạng trên 13 kiểu quần áo, với nguồn từ khách hàng cũng như trang web bán hàng.

6. Inverse Cooking: Recipe Generation from Food Images

Đọc nghiên cứu đầy đủ tại: https://www.profillic.com/paper/arxiv:1812.06164

Cơ bản nghiên cứu: Các nhà nghiên cứu của Facebook đã sử dụng AI để có thể tổng hợp công thức nấu ăn từ hình ảnh.

Mô hình: Mô hình tổng hợp công thức nấu ăn, sử dụng một bộ mã hóa ảnh để trích xuất đặc điểm hình ảnh, và một bộ giải mã để dự đoán nguyên liệu nấu ăn, sau đó gắn nhãn cho nguyên liệu. Bộ giải mã hướng dẫn nấu ăn sẽ tạo ra tên công thức và trình tự nấu ăn, sử dụng các nhãn hình ảnh, nguyên liệu và các từ ngữ được dự đoán từ trước.

Độ chính xác của mô hình: Hiệu quả vượt xa những phương thức tối ưu khác (kể cả sử dụng con người lẫn máy, cho kết quả F1 là 49,08%).

Các bộ dữ liệu được sử dụng: Cả hệ thống được đánh giá sử dụng bộ dữ liệu Recipe1M.

7. ArcFace: Additive Angular Margin Loss for Deep Face Recognition

Đọc nghiên cứu đầy đủ tại: https://arxiv.org/pdf/1801.07698.pdf

Cơ bản nghiên cứu: ArcFace có thể nhận diện những đặc điểm sâu, có khả năng phân biệt cao và cho kết quả tối ưu, có thể làm lại trong thử thách MegaFace Challenge.

Mô hình: Additive Angular Margin Loss (ArcFace) là công trình sử dụng để tăng cường độ gọn trong cùng lớp, cũng như sự khác biệt đa lớp, bằng các sử dụng khoảng cách giữa sample và tâm, giúp tăng độ chính xác cho các mô hình nhận diên gương mặt.

Độ chính xác của mô hình: Qua các thử nghiệm toàn diện, có thể kết luận ArcFace chính xác hơn cả những mô hình tối ưu nhất hiện tại.

Các bộ dữ liệu được sử dụng: CASIA, VGGFace2, MS1MV2 and DeepGlint-Face (bao gồm MS1M-DeepGlint và Asian-DeepGlint) được sử dụng làm dữ liệu huấn luyện, giúp so sánh công bằng với các phương thức khác. Ngoài ra cũng sử dụng một số bộ dữ liệu khác như LFW, CFP-FP, AgeDB-30, CPLFW, CALFW, YTF, MegaFace, IJB-B, IJB-C, Trillion-Pairs, iQIYI-VID.

8. Fast Online Object Tracking and Segmentation: A Unifying Approach

Đọc nghiên cứu đầy đủ tại: https://www.profillic.com/paper/arxiv:1812.05050

Cơ bản nghiên cứu: Phương thức này còn gọi là SiamMask, giúp cải thiện quá trình đào tạo ngoại tuyến của các phương thức tích chập hoàn toàn trong định vị vật, cũng như tăng cường loss với tác vụ phân khúc nhị phân.

Mô hình: SiamMask nhắm tới điểm giao giữa theo dõi hình ảnh và phân khúc vật qua video, nhằm tăng độ tiện lợi thực tiễn. Tương tự như những hệ thống theo dõi hiện vật khác, SiamMask hoạt động trực tuyến và dựa vào sự khởi tạo bounding box. Tuy nhiên, SiamMask có khả năng tạo mask cho phân khúc nhị phân, giúp mô tả chính xác vật cần theo dõi. SiamMask bao gồm 2 chủng loại: cấu trúc 3 nhánh và cấu trúc 2 nhánh (được nêu chi tiết trong nghiên cứu).

Độ chính xác của mô hình: Các kết quả đánh giá định tính của SiamMask về VOT (theo dõi thị giác) và DAVIS (Phân khúc video nhiều chú thích) đã được nêu chi tiết trong nghiên cứu. SiamMask có thể cho mask phân khúc chính xác kể cả trong điều kiện tồn tại yếu tố gây nhiễu.

Các bộ dữ liệu được sử dụng: VOT2016, VOT-2018, DAVIS-2016, DAVIS-2017 và YouTube-VOS.

9. Revealing Scenes by Inverting Structure from Motion Reconstructions

Đọc nghiên cứu đầy đủ tại: https://www.profillic.com/paper/arxiv:1904.03303

Cơ bản nghiên cứu: Một đội nghiên cứu từ Microsoft đã hợp tác với các học giả để tái tạo hình ảnh màu của một khung cảnh từ mô hình điểm đám mây.

Mô hình: Nghiên cứu sử dụng U-NET, với một hình ảnh 2D đa kênh với các điểm được kết xuất từ một điểm nhìn cụ thể, có độ sâu, màu và các điểm mô tả SIFT, từ đó tạo ra một hình ảnh 2D có màu từ góc nhìn đó.

Mô hình bao gồm 3 mạng phụ với cấu trúc tương đương: VISIBNET, COARSENET và REFINENET, với dữ liệu đầu vào là một mảng nD đa chiều. Nghiên cứu cũng xét tới các biến hệ thống khi thay đổi độ sâu, màu và yếu tố SIFT của dữ liệu đầu vào. Các mạng phụ đều là U-Net, với các lớp mã hóa và giải mã, xen kẽ với kết nối cách quãng đối xứng. Các lớp bổ sung sau lớp giải mã được sử dụng cho các đầu vào đa chiều sâu.

Độ chính xác của mô hình: Nghiên cứu cho thấy, các hình ảnh chất lượng cao có thể được tái tạo từ dữ liệu hạn chế, và lưu trữ cạnh các mô hình điểm đám mây 3D.

Bộ dữ liệu được sử dụng: Mô hình được huấn luyện qua hơn 700 ảnh táo tạo SfM trong cũng như ngoài nhà, được tổng hợp từ hơn 500.000 bức ảnh từ nhiều góc nhìn khác nhau thuộc bộ dữ liệu NYU2 và MegaDepth.

10. Semantic Image Synthesis with Spatially-Adaptive Normalization

Đọc nghiên cứu đầy đủ tại: https://www.profillic.com/paper/arxiv:1903.07291

Cơ bản nghiên cứu: Biến những bản vẽ nháp thành những khung cảnh đẹp đẽ siêu thực. Qua đó, các họa sĩ chỉ cần dùng bút vẽ, công cụ đổ màu và gắn nhãn hiện vật để thiết kế các khung cảnh tùy thích,

Mô hình:

Trong SPADE, mask sẽ đầu tiên được áp vào một khoảng nhúng, rồi tích chập để tạo ra các thông số γ và β trong module. Trái với những phương thức có bình thường hóa có điều kiện trước đây, γ và β không phải véc-tơ, mà là ten-xơ có độ sâu không gian. Sau đó, module sẽ lấy tích của γ và β, và tích này sẽ được dùng làm một yếu tố kích hoạt quá trình.

Trong máy tổng hợp SPADE, từng lớp đều sẽ sử dụng mask phân khúc trong kích hoạt. Trái: Cấu trúc của một khối dư trong SPADE. Phải: Máy tổng hợp bao gồm nhiều khối dư với các lớp upsample.

Độ chính xác của mô hình: Hiệu quả cao hơn trên một số thông số bằng cách bỏ đi một vài lớp downsample trong mạng chuyển đổi image-to-image, giúp tạo ra nhiều hình ảnh giống thật đa dạng, từ động vật, khung cảnh, cho tới hoạt động thể thao.

Bộ dữ liệu được sử dụng: COCO-Stuff, ADE20K, Cityscapes, Flickr Landscape.

Theo Hackernoon

Tin liên quan: