Salesforce mở mã nguồn TransmogrifAI, thư viện học máy đằng sau nền tảng Einstein

341

Các mô hình học máy (machine learning) rất khó để xây dựng. Các nhà khoa học dữ liệu không chỉ phải xử lý dữ liệu tương ứng với mô hình huấn luyện mà còn phải trích xuất các thuộc tính hữu ích ra khỏi dữ liệu, hay thu hẹp thuật toán và cuối cùng là xây dựng (hoặc thử nghiệm trong việc xây dựng) một hệ thống vận hành tốt không chỉ ở trong phòng thí nghiệm khép kín mà còn ở ngoài thực tế.

Bộ công cụ mới của Salesforce hướng tới việc giảm gánh nặng như đã nói ở trên. Salesforce là công ty chuyên về lĩnh vực điện toán đám mây, có trụ sở tại San Francisco. Công ty đã công bố trên trang Github thư viện TransfogrifAI, thư viện học máy tự động cho các dữ liệu có cấu trúc. Đó là các dữ liệu có thể tìm kiếm được, đã được phân loại quy củ trên các spreadsheet và cơ sở dữ liệu. TransmogrifAI giúp thực hiện xây dựng thuộc tính (feature engineering), lựa chọn thuộc tính (feature selection) và huấn luyện mô hình chỉ với ba dòng code.

Ngôn ngữ được sử dụng là Scala, được xây trên nền Apache Spark (đây cũng là công nghệ đằng sau nền tảng trí tuệ nhân tạo Einstein của Salesforce). Thư viện được thiết kế giúp thuận lợi cho việc nhân rộng hệ thống sau này. Nó có thể xử lý tập dữ liệu trải rộng từ vài chục tới hàng triệu hàng và chạy trên một tập máy trên nền Spark hoặc máy tính xách tay có sẵn.

Mayukh Bhaowal, giám đốc quản lý sản phẩm Salesforce Einstein đã chia sẻ với VentureBeat trong một cuộc phỏng vấn: TransmogrifAI về cơ bản chuyển đổi các tập dữ liệu thô thành các mô hình tùy chỉnh. Đó có thể coi là một bước tiến thư viện học máy tự phát triển của Salesforce, cho phép nhóm phát triển Einstein triển khai các mô hình tùy chỉnh cho các khách hàng doanh nghiệp chỉ trong vài giờ.

Ông Bhaowal cũng cho biết “Nó được cập nhật bởi những gì các nhà khoa học dữ liệu của chúng tôi học được khi xây dựng Einstein“. Đứng đầu trong số những bài học đó là: Các mô hình được xây dựng để đánh bại các mô hình toàn cầu và đã được huấn luyện. “Nếu bạn đang sử dụng cùng một mô hình để đưa ra dự đoán cho một công ty trong danh sách Fortune 500 và một cửa hàng tạp hóa, bạn sẽ gặp khó khăn trong việc tìm ra mô hình hợp ý.”

Học máy giúp đơn giản hóa vấn đề

TransmogrifAI đã đưa ra quy trình làm việc ba bước

Đầu tiên là suy luận thuộc tính và lựa chọn thuộc tính tự động. Đó là một phần quan trọng trong khi huấn luyện mô hình, vì việc chọn các thuộc tính sai có thể dẫn đến mô hình đánh giá trở nên quá lạc quan, không chính xác hoặc thiên lệch.

Khi sử dụng TransmogrifAI, người dùng sẽ vạch ra một lược đồ cho dữ liệu của họ. Đây cũng là dữ liệu mà thư viện sẽ sử dụng để trích xuất tự động các thuộc tính (ví dụ như số điện thoại và zip code). Nó cũng thực hiện các kiểm tra thống kê, tự động lập danh mục các trường văn bản với số lượng nhỏ, ví dụ tập số lượng nhỏ các yếu tố, loại bỏ các tính năng có ít khả năng dự đoán, hoặc những yếu tố có khả năng dẫn đến thiên lệch nhận thức muộn (hindsight bias) và các tín hiệu không mong muốn khác.

Trong một buổi giới thiệu sản phẩm, Bhaowal đã chỉ ra cách TransmogrifAI có thể nhanh chóng cô lập các thuộc tính như chức vụ, email và địa chỉ và tìm hiểu xem chúng có dự đoán được hay không. Những người không phải nằm ở đối tượng ban tổ chức mời sẽ đươc máy loại bỏ tự động. Khi đề cập đến quá trình giảm số lượng các thuộc tính mà mô hình được huấn luyện trên đó, Bhaowal cho biết “Nó hoàn hảo cho việc giảm chiều dữ liệu”

Bước tiếp theo trong tiến trình của TransmogrifAI là xây dựng thuộc tính tự động. Dựa trên các loại thuộc tính được trích xuất ở bước đầu tiên, thư viện sẽ chuyển đổi dữ liệu có cấu trúc thành vectơ, tự động lấy các yếu tố ví dụ như danh sách các số điện thoại và tách mã quốc gia để xem liệu số điện thoại có hợp lệ hay không.

Khi TransmogrifAI đã trích xuất các thuộc tính từ tập dữ liệu cũng là lúc nó đã sẵn sàng để bắt đầu huấn luyện mô hình tự động. Ở giai đoạn này, nó chạy một giải các thuật toán học máy song song với dữ liệu và tự động lựa chọn mô hình hoạt động tốt nhất, cùng các mẫu và hiệu chỉnh lại các dự đoán để tránh việc dữ liệu mất cân bằng.

Điểm căn bản của việc huấn luyện TransmogrifAI là “khả năng giải thích mô hình”, theo cách gọi của Shubha Nabar, giám đốc khoa học dữ liệu của Salesforce Einstein. Khả năng này đem lại minh bạch về các nhân tố ảnh hưởng đến dự đoán của mô hình. Bà cho biết: “Từ góc độ quyền riêng tư dữ liệu, điều quan trọng là mô hình được tạo ra không phải là “hộp đen”.TransmogrifAI cho thấy hiệu ứng toàn cầu của từng thuộc tính .”

Và đó mới chỉ là phần nổi của một tảng băng chìm vô cùng lớn

TransmogrifAI hỗ trợ các công cụ giúp dễ dàng điều chỉnh các hyperparameter – các biến như tỷ lệ lấy mẫu và bộ lọc vốn ảnh hưởng và tối ưu hóa các mô hình học máy. Trong môi trường phát triển tích hợp, TransmogrifAI sẽ nêu bật ra lỗi chính tả và lỗi cú pháp, gợi ý hoàn thành code và các thuộc tính với phân cấp có thể mở rộng, từ đó cho phép người dùng phân biệt giữa các thuộc tính mới và thuộc tính nguyên gốc.

Bhaowal chia sẻ: “TransmogrifAI thật sự là một bước ngoặt, giúp giảm thời gian quay vòng trung bình để huấn luyện một mô hình xuống chỉ trong một vài giờ và cho phép các nhà khoa học dữ liệu của chúng tôi triển khai hàng nghìn mô hình sản xuất với sự hạn chế tối thiểu tương tác con người. Mục tiêu của việc phổ cập học máy chỉ có thể đạt được thông qua việc trao đổi cởi mở các ý tưởng và code. Những đóng góp đa dạng từ cộng đồng sẽ làm cho công nghệ tốt hơn để phục vụ nhân loại.

Một sự kiện khá trùng hợp đó là màn ra mắt của TransmogrifAI đến một ngày sau sự kiện mở mã nguồn GraphPipe của Oracle, một công cụ giúp việc triển khai các mô hình học máy được thực hiện dễ dàng hơn bằng TensorFlow của Google, MXNet hay Caffe2 của Facebook và PyTorch trên điện toán đám mây.

Dịch giả: Nam Mac
Nguồn: venturebeat 

Tin liên quan:
  • 10
    Shares