Dự đoán nhân viên nghỉ việc – Lời giải cho bài toán nhân lực

718

Nhân lực là tài nguyên quan trọng đối với sự phát triển của mọi doanh nghiệp, tổ chức, đặc biệt là các công ty công nghệ, luôn đòi hỏi nguồn nhân lực trình độ cao, được đào tào bài bản. Nhân viên nghỉ việc/chuyển viện là vấn đề nghiêm trọng, đặc biệt là các công ty về IT.

Hệ thống dự đoán nhân viên nghỉ việc nhằm mục đích dự đoán trước những nhân viên có khả năng sẽ rời công ty trong thời gian tới. Cụ thể, hệ thống sẽ sử dụng các phương pháp kỹ thuật học máy thống kê (statistical machine learning) thực hiện các phân tích trên thông tin được cung cấp từ bộ phận nhân sự, từ đó đưa ra danh sách các nhân viên có khả năng sẽ rời công ty. Ngoài việc đưa ra danh sách nhân viên được dự đoán sẽ rời công ty, hệ thống cũng đưa ra mức độ tin cậy của phép dự đoán cho từng nhân viên cụ thể. Mức độ tin cậy được thể hiện qua một giá trị số, có thể hiểu như là một giá trị xác suất, giá trị ứng với một nhân viên càng cao thể hiện khả năng nhân viên đó rời công ty càng lớn. Cùng với đó hệ thống sẽ đưa ra một số nguyên nhân có khả năng dẫn tới quyết định nghỉ việc của nhân viên.

Hệ thống đưa ra báo cáo hàng tháng để bộ phận quản lý nhân sự có thể duyệt danh sách các nhân viên được dự đoán nghỉ việc cùng các thông tin chi tiết về nhân viên, những lý do được cho là nguyên nhân dẫn tới quyết định nghỉ việc. Từ đó bộ phận nhân sự có được cái nhìn tổng quát về tình hình nhân sự công ty và đưa ra chiến lược giữ người và tuyển dụng phù hợp. Với quản lý dự án và trưởng nhóm (PMs and leaders), hệ thống cung cấp một phiên bản ứng dụng trên điện thoại di động cho phép họ theo dõi và nhận thông báo khi một nhân viên có dấu hiệu nghỉ việc.

1. Thiết lập bài toán 

Ở đây chúng ta quan tâm tới 2 bài toán như sau:

Bài toán 1: Giả sử có một danh sách các nhân viên công ty, đã nghỉ việc hoặc còn đang làm việc, lấy một nhân viên bất kỳ trong danh sách, dựa vào các thông tin của nhân viên đó dự đoán xem nhân viên đã nghỉ việc hay vẫn còn đang làm cho công ty?

Bài toán 2: Giả sử có một danh sách các nhân viên đang làm việc cho công ty, lấy một nhân viên bất kỳ trong danh sách, dựa vào các thông tin của nhân viên đó dự đoán xem liệu nhân viên có nghỉ việc trong thời gian tới (3 tháng tới) hay không?

Bài toán 1 rõ ràng dễ hơn bài toán 2 vì chúng ta không xét tới yếu tố thời gian, tức là chỉ có nghỉ hoặc không mà không quan tâm tới nghỉ khi nào. Bài toán 2 khó hơn và có ý nghĩa thực tế hơn bởi chúng ta quan tâm tới thời điểm nhân viên nghỉ việc. Vậy ý nghĩa của bài toán 1 là gì? Ý nghĩa ở đây là chúng tôi muốn xem liệu các thông tin về nhân viên mà bộ phận nhân sự cung cấp có phù hợp để đưa ra dự đoán nhân viên nghỉ việc hay không, ít nhất trong trường hợp đơn giản.

2. Mô hình dự đoán

2.1. Mô hình học máy

Giải pháp là mô hình bài toán dự đoán dưới dạng bài toán phân lớp (classification), trong đó hệ thống sẽ phân loại một nhân viên (tại một thời điểm) vào một trong 2 lớp là sẽ nghỉ việc (nhãn +) hoặc không (nhãn -) dựa vào các thông tin thu thập được về nhân viên và quá trình công tác của nhân viên.

Mô hình dự đoán nhân viên nghỉ việc được cho trong Hình 1. Trong quá trình huấn luyện (training), dữ liệu sẽ được tiền xử lý (preprocessing), trích chọn đặc trưng (feature extraction) và đưa vào mô hình học máy có giám sát (supervised learning). Hệ thống sử dụng thuật toán XGBoost, kết hợp nhiều bộ phân loại (combination of mutiple classifiers) để tăng độ chính xác dự đoán. Hệ thống cũng có khả năng đưa ra mức độ tin cậy (xác suất) cho mỗi phép dự đoán, và những đặc trưng quan trọng (important features) ảnh hưởng nhiều nhất tới việc đưa ra quyết định.

Mô hình dự đoán nhân viên nghỉ việc.

2.2. Đặc trưng 

Các đặc trưng được sử dụng cho mô hình học máy bao gồm 3 loại thông tin chính là các thông tin tĩnh về nhân viên, các thông tin về quá trình công tác của nhân viên, và các thông tin cập nhật gần đây của nhân viên:

  • Các thông tin tĩnh (Static information):
    • Tuổi (DOB)
    • Quê quán (hometown)
    • Thông tin người phụ thuộc (Dependent)
    • Thông tin về quá trình đào tạo (Education background)
    • Thông tin về kinh nghiệm, kỹ năng (Experience, skill)
  • Các thông tin quá trình công tác (Process information)
    • Đơn vị làm việc (Branch)
    • Địa điểm làm việc (Location)
    • Lương (Salary)
    • Cấp cán bộ (Employee level)
    • Thông tin OT (OT)
    • Thông tin onsite (onsite)
  • Các thông tin cập nhật gần đây (Recent updates)
    • Thay đổi lương (Salary)
    • Bổ nhiệm, miễn nhiệm (Promotion, demotion)
    • Các dự án gần đây (Project)
    • Thông tin OT gần đây (OT)
    • Thông tin onsite gần đây (onsite)

3. Thực nghiệm và đánh giá 

Thực nghiệm được tiến hành trên danh sách nhân viên đã và đang làm việc tại Fsoft trong khoảng thời gian từ năm 2014 đến 2017. Với bài toán 1, hệ thống đạt độ chính xác (precision) là 86%, độ bao phủ (Recall) là 70%, và độ đo F1 là 77%. Với bài toán 2, hệ thống đạt độ chính xác, độ bao phủ, và độ đo F1 lần lượt là 51%, 33%, và 40%. Các giá trị này có thể được diễn giải như sau. Giả sử trong 3 tháng tới có 100 nhân viên nghỉ việc, hệ thống sẽ đoán được 33 người trong số đó (33%), và để đoán đúng 33 người này hệ thống đưa ra danh sách đự đoán gồm 65 người (tỷ lệ đúng 51%).

Bảng 1: Kết quả thực nghiệm trên dữ liệu nhân sự của Fsoft

Precision (%)Recall (%)F1(%)
Bài toán 1867077
Bài toán 2513340

Một số khó khăn gặp phải khi giải quyết bài toán:

  • Dữ liệu thiếu giá trị (missing data): Do cách thức thu thập thông tin hiện tại của Fsoft, nhiều trường thông tin không được lưu trữ đầy đủ. Điều này dẫn tới một số đặc trưng chỉ có mặt ở một phần dữ liệu, gây khó khăn cho việc xây dựng mô hình dự đoán.
  • Dữ liệu không cập nhật (Out-of-date data): Một số thông tin không được cập nhật thường xuyên dẫn tới thông tin không có ý nghĩa. Ví dụ một nhân viên có thêm người phụ thuộc (sinh con) hoặc nhưng nửa năm sau hệ thống mới cập nhật lại.
  • Các đặc trưng từ bên ngoài (Outside features): Trong nhiều trường hợp nhân viên nghỉ việc không xuất phát từ lý do về công việc hiện tại mà xuất phát từ một thông tin bên ngoài. Ví dụ vào một ngày nhân viên nhận được lời đề nghị từ một doanh nghiệp với chế độ tốt hơn và quyết định nghỉ việc. Những đặc trưng như vậy nằm ngoài khả năng phân tích của hệ thống.

Ngô Xuân Bách – FPT Software

Tin liên quan: