10 cuốn sách miễn phí về Khoa học dữ liệu bạn nên đọc

495

Có rất nhiều tài nguyên tuyệt vời hoàn toàn miễn phí cho những ai muốn tìm hiểu về khoa học và phân tích dữ liệu. Nếu bạn đang học hoặc làm việc trong lĩnh vực khoa học dữ liệu và chưa từng đọc những cuốn sách này, thì chúng đáng để được thêm vào danh sách đọc năm 2019 của bạn. Dưới đây là danh sách 10 quyến sách hàng đầu được cho là hữu ích nhất và hiện đã có sẵn trực tuyến.

Automate the boring stuff (Tạm dịch: Tự động hóa những thứ nhàm chán)

Cuốn sách mang đến cho những người mới bắt đầu tìm hiểu về python một cái nhìn đơn giản và thực tế. Mặc dù không hoàn toàn là một cuốn sách liên quan đến khoa học dữ liệu, nhưng nó bao gồm hầu hết các khái niệm cơ bản xung quanh việc sử dụng python cho khoa học dữ liệu. Bao gồm kiểm soát luồng, chức năng, quét web, làm việc với các tệp csv và json và chạy các chương trình. Quyển sách đa phần nhắm vào người mới vì vậy nó sẽ là một cuốn sách tuyệt vời cho những người mới bắt đầu tìm hiểu về python. Cùng với việc hướng dẫn từng bước cho từng kỹ thuật, ở cuối mỗi chương cũng có những câu hỏi và các bài tập thực hành.

Data science at the command line (Tạm dịch: Khoa học dữ liệu với dòng lệnh)

Bạn có thể bắt đầu sử dụng python chỉ để phân tích dữ liệu trong Jupyter Notebooks. Tuy nhiên, theo thời gian, bạn sẽ thấy rằng việc sử dụng dòng lệnh giúp người dùng làm việc hiệu quả hơn nhiều. Ví dụ: bạn có thể nhanh chóng lấy dữ liệu, chạy chương trình và tìm kiếm tất cả các tệp bằng cách nhập lệnh và nhấn enter trong cửa sổ cuối. Cuốn sách này hướng dẫn toàn diện về khoa học dữ liệu với dòng lệnh. Trong mỗi chương, bên cạnh các ví dụ cụ thể, quyển sách nói về cách tìm kiếm, dọn dẹp, khám phá, mô hình hóa và giải thích dữ liệu thông qua dòng lệnh.

Think stats (Tạm dịch: Tư duy thống kê)

Cuốn sách cung cấp một tổng quan thực tế về thống kê cho khoa học dữ liệu. Cuốn sách sử dụng một bộ dữ liệu từ Viện Y tế Quốc gia để giải thích các khái niệm cốt lõi về xác suất và thống kê cần thiết cho khoa học và phân tích dữ liệu. Đây là một cuốn sách rất thực tế bao gồm rất nhiều mã python điển hình, và các chương trình đơn giản để giải thích các khái niệm. Cuốn này nhẹ nhàng hơn rất nhiều so với rất nhiều sách giáo khoa lý thuyết mà bạn có thể tìm thấy về chủ đề này.

Python data science handbook (Tạm dịch: Cẩm nang khoa học dữ liệu Python)

Đây là một bản hướng dẫn toàn diện về python cho khoa học dữ liệu. Cuốn sách đi từ khái niệm mới cho người mới bắt đầu cho đến kiến thức nâng cao, trong đó có một chương về iPython thực sự tạo ra sự khác biệt như vậy đối với người thực hành khoa học dữ liệu. Cuốn sách này cũng nhắc đến Numpy, thao tác dữ liệu với Pandas, phương pháp trực quan hóa và Machine Learning. Đặc biệt, chương Machine Learning thực sự hay và nó bao gồm cả việc triển khai thực tế các thư viện khác nhau cũng như chi tiết về cách chúng hoạt động.

R for data science (Tạm dịch: R cho khoa học dữ liệu)

Mặc dù chúng ta chủ yếu làm việc cùng python nhưng sẽ thực sự hữu ích khi có một chút kiến thức, dù ít ỏi về R. Nếu một thư viện tốt cho một phương thức cụ thể không có sẵn trong python, thì trong R thường sẽ có. Cuốn sách này là một hướng dẫn thực sự toàn diện để làm khoa học dữ liệu với R. Nó bao gồm mọi thứ, từ trực quan hóa và chuyển đổi dữ liệu đến quy trình R, đến mô hình hóa dữ liệu.

Probabilistic Programming and Bayesian methods for hackers (Tạm dịch: Lập trình xác suất và phương pháp Bayes cho hacker)

Theo lời của tác giả, cuốn sách này là kết quả của nỗ lực thu hẹp khoảng cách giữa toán học Bayes và lập trình xác suất, và có lẽ nó đã hoàn thành rất tốt nhiệm vụ này. Giống với Think Stats, cuốn sách tránh xa các lý thuyết nặng nề và đưa ra các trường hợp sử dụng thực tế cho suy luận Bayes, với cách tiếp cận là một sự hiểu biết về tính toán, sau đó là hiểu biết toán học. Đây lại là một cuốn sách dựa trên python với rất nhiều ví dụ thực tế và chủ yếu sử dụng các thư viện PyMC.

Machine learning yearning (Tạm dịch: Học máy cùng đam mê)

Cuốn sách này đã được phát hành trong dự thảo của Andrew Ng trong năm nay. Nó được thiết kế với mục đích dạy các nhà khoa học dữ liệu cách cấu trúc các dự án Machine Learning và định ra hướng đi cho các nhà nghiên cứu khoa học dữ liệu. Cuốn sách cung cấp một góc nhìn tổng quan về thời điểm và cách sử dụng Machine Learning và cách xử lý các vấn đề phức tạp liên quan đến việc ứng dụng AI trong thế giới thực.

Ethics and data science (Tạm dịch: Đạo đức và khoa học dữ liệu)

Có rất nhiều tin tức trong năm nay liên quan đến sự sai lệch của các ứng dụng học máy, và các vấn đề bảo vệ dữ liệu và quyền riêng tư. Cuốn sách này đưa ra các nguyên tắc đạo đức áp dụng vào các dự án khoa học dữ liệu. Quyển sách đưa ra một checklist đầy đủ các tiêu chuẩn đạo đức khi thiết kế một dự án cũng như rất nhiều đề xuất để xây dựng đạo đức thành văn hóa dữ liệu chung. Một nguồn khác được phát hành trong năm nay với nội dung tương tự là công cụ dòng lệnh deon từ drivendata.org. Công cụ này cho phép bạn xây dựng một checklist các tiêu chuẩn đạo đức cho các dự án khoa học dữ liệu.

Deep learning (Tạm dịch: Học sâu)

Đây là một cuốn sách tuyệt vời hiện có sẵn cho người đọc online miễn phí. Sách bao gồm các môn toán ứng dụng cho Machine Learning và đặc biệt chú trọng vào việc học sâu. Sách đề cập đến toán học đằng sau các khái niệm chính trong học sâu như mạng tích chập, mạng chính quy và lưới đệ quy. Cũng như một cuốn sách dựa trên lý thuyết, nhưng nó cung cấp một mức độ hiểu biết sâu sắc về chủ đề này, bao gồm các chương về việc ứng dụng thực tế các kỹ thuật này.

Rules for machine learning (Tạm dịch: Quy tắc học máy)

Đây là một ebook chỉ dài khoảng 24 trang. Tuy nhiên, nó là một nguồn tài liệu tuyệt vời. Sách đề cập một số ứng dụng tốt nhất từ Google về cách triển khai dự án học máy. Sách nhấn mạnh tầm quan trọng của kỹ thuật để tạo ra các tính năng dữ liệu và nó còn đóng vai trò như một chuyên gia học máy.

Nguồn: Blog Rebecca Vickery

Tin liên quan:
  • 42
    Shares