Các nhà nghiên cứu chip khẳng định: Định luật Moore chưa chết, nó cần phải sống để phát triển AI

49

Để có thể huấn luyện các mạng nơ-ron nhanh chóng, ta cần sử dụng thật nhiều transistor.

Việc đẩy nhanh quá trình huấn luyện các mô hình AI là một nỗi ám ảnh của lĩnh vực học máy (Machine Learning) và nếu cộng đồng phần cứng có thể theo kịp tốc độ trên, thì trong tương lai, tăng bộ nhớ chip là điều cần thiết.

Và đây cũng chính là những gì ông Phillip Woong, Phó Bộ phận nghiên cứu kinh doanh tại TSMC, một trong những nhà sản xuất chip lớn nhất toàn cầu, đã nêu trong keynote của ông về định luật Moore, tại hội thảo Hot Chips được tổ chức tại Thung lũng Silicon.

Không hề bày tỏ đau buồn về “cái chết” của định luật Moore, Wong khẳng định rằng nó vẫn chưa hề trở nên lỗi thời: trái lại, số lượng transistor trong các bộ vi xử lý quả thật là đang ngày một tăng. Tại buổi hội thảo, ông phát biểu: “Định luật Moore vẫn còn sống, thậm chí là còn sống một cách khỏe mạnh. Nó chưa chết, chưa chậm lại, và cũng chẳng hề có một vấn đề nào.”

Theo Wong, sự chững lại của tốc độ xử lý trên từng transistor không hề là một vấn đề. Ông tin rằng, kể cả khi bạn xây dựng được một con chip với tốc độ xử lý của transistor cao, thì mật độ transistor lại thấp, song song với đó là lợi ích cho học máy cũng giảm đi. Cụ thể, với mật độ transistor cao, các kỹ sư sẽ có thể dễ dàng hỗ trợ các chip đa nhân, tạo ra các máy gia tốc với giá thành rẻ, cũng như tăng số lượng SRAM trong các bộ vi xử lý.

SRAM là một dạng bộ nhớ tạm thời, sử dụng trong một số chip như GPU, ASIC, và FPGA. Trong đó, các mạng nơ-ron sẽ được huấn luyện để thực hiện một số tác vụ cụ thể, ví dụ như học về các xu thế phổ biến trong một bộ dữ liệu. Các dữ liệu đầu vào sau đó sẽ được chuyển qua mô hình, sau đó được xử lý qua một loạt phép toán véc-tơ, trước khi trở thành dữ liệu đầu ra.

Quá trình này được lặp lại rất nhiều lần trong huấn luyện, nhằm đạt hiệu quả tốt nhất trong các hệ thống mạng nơ-ron. Điều này cũng có nghĩa là, những hệ thống này sẽ có thể nhận diện các gương mặt và giọng nói của con người trong một bộ dữ liệu cho trước, với độ chính xác cao. Tuy nhiên, trong phần cứng, chip lại phải xử lý nhiều bộ dữ liệu đồng thời.

Cụ thể, sẽ có hàng nghìn, thậm chí là hàng triệu hình ảnh, video, và đoạn ghi âm được chuyển qua một data pipeline, cho phép chip xử lý những lượng dữ liệu này theo từng khối. Trong đó, các bộ dữ liệu sẽ được lưu trữ trên CPU hoặc RAM trên chip và các bits sẽ được chuyển sang xử lý bởi SRAM của GPU. 2 phần hành này sẽ liên lạc với nhau để truyền dữ liệu qua lại một cách hiệu quả.

Để đẩy nhanh tốc độ của quá trình này, các con chip sẽ cần nhiều bộ nhớ hơn để chứa lượng dữ liệu nhiều nhất có thể từ bộ dữ liệu huấn luyện, Wong giải thích. Việc có thêm bộ nhớ cũng sẽ giúp tăng mức năng lượng sử dụng cho việc chạy các tính toán cần thiết để huấn luyện các mạng nơ-ron thần kinh, thay vì tiêu tốn những năng lượng này để kiểm soát lưu truyền dữ liệu từ CPU tới GPU.

Hiện nay, các mô hình AI đang dần trở nên lớn hơn, với nhiều lớp và thông số hơn. Chính vì vậy, các con chip sẽ cần nhiều bộ nhớ hơn, từ đó đẩy nhanh quá trình huấn luyện mạng nơ-ron. Quá trình này cũng tương tự việc chuyển nước từ giếng vào nhà: với một cái xô to hơn, ta sẽ có thể chuyển nhiều nước hơn tại một thời điểm, từ đó giảm đi số lần di chuyển cần thiết, giảm thời gian cần thiết để chuyển hết số nước.

Đây cũng là lý do tại sao băng thông bộ nhớ (lượng dữ liệu được chuyển hóa ra vào một chip AI) lại quan trọng hơn độ trễ (tốc độ chuyển dữ liệu). Cụ thể, theo Wong, điều kiện lý tưởng nhất sẽ là khi bộ nhớ chip rộng hơn so với bộ dữ liệu huấn luyện. Ông cũng khẳng định:  “Để điều kiện lý tưởng này có thể diễn ra, chúng ta sẽ cần tương tác từ đầu giữa các kỹ sư làm việc với ứng dụng hệ thống, công nghệ thiết bị, và thiết kế chip.”

Theo The Register

Tin liên quan: