Xây dựng cơ sở tri thức trong kỷ nguyên học máy

379

Ba điểm mấu chốt quan trọng: Phương pháp học kết hợp, học có giám sát yếu và sử dụng các biểu diễn mới.

Những bước tiến trong lĩnh vực học máy gần đây đã giúp các cơ sở tri thức (Knowledge Base) vốn có lịch sử phát triển từ thập niên 70 thế kỉ trước thực sự hồi sinh. Hiện nay, cơ sở tri thức là nền tảng cho phần lớn các tính năng của những sản phẩm như Google Assistant Amazon Alexa, Apple Siri, and Wolfram Alpha. Bài viết của Alex Ratner và Chris Re dưới đây sẽ chỉ ra những điểm mấu chốt trong quy trình xây dựng cơ sở tri thức, từ giao diện cho phép đưa vào tri thức từ các chuyên gia cho tới các thuật toán, các biểu diễn của tri thức để áp dụng trong các bài toán ứng dụng khác nhau.

Khối lượng thông tin chúng ta tiếp cận ngày nay nhiều hơn tất cả những thời kỳ trước đó cộng lại. Tuy nhiên, dưới góc độ xây dựng phần mềm thì phần lớn những dữ liệu thu về đều không sử dụng được bởi chúng ở những định dạng phi cấu trúc như dạng văn bản (text), PDF, các trang web, hình ảnh và các định dạng khó phân tích khác. Mục tiêu của việc xây dựng cơ sở tri thức (Knowledge base construction-KBC) là trích xuất một cách tự động các thông tin có cấu trúc từ “dữ liệu tối” (dark data) này để nó có thể ứng dụng được trong việc tìm kiếm, trả lời câu hỏi, dự đoán liên kết giữa các đối tượng thông tin, trực quan hóa, mô hình hóa và nhiều hơn thế nữa. Ngày nay, chúng ta đã có những hệ thống ứng dụng mà sử dụng KB (cơ sở tri thức) như là nhân tố then chốt của các hệ thống giúp ngăn nạn buôn người18, tăng tốc quá trình khám phá y sinh9 và không ngừng phát triển các công nghệ tìm kiếm trên mạng và trả lời câu hỏi4.

Tuy nhiên, việc xây dựng cơ sở tri thức là một công việc đầy thử thách do bản chất công việc là làm việc với các dữ liệu đầu vào đặc biệt phức tạp và nhiều tác vụ con liên quan tới nhau như: phân tích cú pháp, trích xuất, làm sạch dữ liệu, liên kết và tích hợp dữ liệu. Từ trước đến nay, ngay cả với việc sử dụng các kỹ thuật học máy, mỗi tác vụ con này đòi hỏi công đoạn xây dựng đặc trưng (feature engineering) khá phức tạp (ví dụ nhập thủ công vào hệ thống các thuộc tính của dữ liệu đầu vào). Vì lý do này mà KBC là một quá trình kéo dài hàng tháng thậm chí hàng năm và chỉ một số ít nhóm học thuật có thể tiếp cận được (ví dụ: YAGO8, DBPedia7, KnowItNow2, DeepDive19 vv) hoặc các dự án lớn được tài trợ vốn hùng hậu trong ngành và trong khối chính phủ (ví dụ: Google Knowledge Vault, IBM Watson, Đồ thị sản phẩm của Amazon, v.v.).

Tuy nhiên, hiện nay đã có những bước tiến rõ rệt trong lĩnh vực xây dựng cơ sở tri thức KBC nhờ vào những mô hình học sâu (deep learning) giúp giảm nhẹ những tác vụ của công đoạn xây dựng đặc trưng. Các mô hình học sâu hiện đại hoạt động trực tiếp dựa trên các dữ liệu thô đầu vào như các văn bản, hình ảnh và giúp các tác vụ con của KBC như phân tích cú pháp, gắn nhãn từ loại, phân lớp, liên kết thực thể đạt được mức độ hiệu quả cao nhất, vượt qua các phương pháp học máy truyền thống. Hơn thế nữa, các kiến trúc mạng nơron học sâu tiêu chuẩn lại có thể được sử dụng tốt cho nhiều bài toán khác nhau, chẳng hạn như mạng nơron bộ nhớ dài ngắn hạn hai chiều (bi-LSTM-bidirectional long short-term memory) được sử dụng phổ biến cho nhiều bài toán trên dữ liệu chuỗi ký tự trong văn bản, hoặc mạng nơron tích chập (CNN-convolutional neural network) được sử dụng phổ biến cho dữ liệu hình ảnh. Ngoài ra, mã nguồn mở của các mạng nơron này hoàn toàn có thể được tải về và triển khai một cách dễ dàng.

Tuy nhiên, đối với những phương pháp tiếp cận dựa trên học sâu để xây dựng KBC nhanh hơn và dễ dàng hơn thì cần phải giải quyết một số điểm mấu chốt thiết kế quan trọng, chẳng hạn như cách ghép chúng lại với nhau, cách thu thập dữ liệu huấn luyện một cách hiệu quả, cách biểu diễn các dữ liệu đầu vào và dữ liệu đầu ra. Bài viết này nêu bật ba bài báo khoa học tập trung vào các điểm thiết kế quan trọng sau đây: (1) sử dụng các phương pháp học kết hợp để tổng hợp thông tin và phối hợp giữa các phương pháp khác nhau; (2) sử dụng các kỹ thuật học máy có giám sát yếu để giảm thiểu khối lượng dữ liệu mẫu; (3) sử dụng các cách thức mới để biểu diễn dữ liệu đầu vào và đầu ra của KB.

Học kết hợp: Chia sẻ thông tin và tránh lỗi liên hoàn

Mitchell, T.M., Cohen, W. W., Hruschka Jr., E. R., Talukdar, P. P., Betteridge, J., Carlson, A., Mishra, B. D., Gardner, M., Kisiel, B., Krishnamurthy, J., và cộng sự, xuất bản năm 2015. Dự án máy học không ngừng (Never-ending learning). Trong Kỷ yếu Hội nghị về trí tuệ nhân tạo (AAAI): trang 2302-2310.

Việc xây dựng cơ sở tri thức KBC đặc biệt khó khăn bởi số lượng lớn các tác vụ liên quan, mỗi một tác vụ có thể dùng một hoặc nhiều mô hình học máy. Việc thực hiện các tác vụ này một cách ngắt quãng, rời rạc và độc lập lẫn nhau là chưa tối ưu, thể hiện ở ít nhất hai vấn đề: nó có thể dẫn đến các lỗi liên hoàn (ví dụ, một lỗi phân tích cú pháp ban đầu sẽ làm giảm chất lượng tác vụ gắn nhãn thực tể có tên và tác vụ liên kết thực thể sau đó); nó làm lỡ mất cơ hội để tập hợp thông tin và tín hiệu huấn luyện giữa các tác vụ liên quan (ví dụ, các tác vụ trích xuất các kiểu quan hệ tương tự có thể sử dụng các biểu diễn dữ liệu đầu vào tương tự nhau). Ý tưởng về suy diễn kết hợp (join inference) hay học đa nhiệm (multitask learning) – mà chúng ta gọi chung là học kết hợp- là cùng học, cùng suy diễn nhiều mô hình đồng thời, kết nối chúng bằng mối quan hệ logic của các giá trị đầu ra và / hoặc sử dụng chung biểu diễn của các giá trị đầu vào.

NELL (Never-Ending Language Learner) là ví dụ kinh điển về mức độ ảnh hưởng của học kết hợp trên KBC ở quy mô lớn, rất ấn tượng. NELL là hệ thống trích xuất các thông tin có tính hiển nhiên về thế giới thực (Ví dụ: ServedWith(Tea, Biscuits) – Bánh quy được sử dụng cùng với trà) trên Internet kể từ năm 2010, KB tính tới 2015 có hơn 80 triệu thực thể. Vấn đề tiếp cận theo NELL bao gồm hơn 2.500 tác vụ học máy riêng biệt: phân loại cụm danh từ thành các danh mục cụ thể, liên kết tham chiếu các thực thể tương tự và trích xuất mối quan hệ giữa các thực thể. Thay vì học tất cả các tác vụ này một cách riêng biệt, NELL xây dựng các ràng buộc liên kết (coupling constrains) đã biết (hoặc đã học) giữa các tác vụ khác nhau, mà Mitchell và cộng sự đã chỉ rõ tầm quan trọng của phương pháp này để huấn luyện NELL. Nó bao gồm các mối quan hệ logic như tập hợp con / tập mẹ (ví dụ, IsSandwhich (Hamburger) ⇒ IsFood (Hamburger)) và các ràng buộc loại trừ lẫn nhau giúp kết nối nhiều tác vụ khác nhau trong quá trình suy diễn và học mô hình.

Trong các hệ thống khác, phương pháp kết nối hoặc kết hợp nhiều tác vụ cũng được sử dụng trong nhiều bối cảnh khác nhau: ví dụ như cách tránh lỗi liên hoàn giữa các bước (tác vụ) khác nhau như trích xuất và tích hợp (ví dụ: trong DeepDive19) hoặc cách sử dụng chung các trọng số của mô hình hay chung biểu diễn của dữ liệu đầu vào giữa các tác vụ như trong học đa nhiệm3,17. Dù bằng cách nào, quyết định làm thế nào để kết hợp các tác vụ con khác nhau là một nhiệm vụ quan trọng trong việc thiết kế bất kỳ hệ thống KBC nào.

Học có giám sát yếu: Lập trình học máy với dữ liệu huấn luyện

Ratner, A. J., Bach, S. H., Ehrenberg, H., Fries, J., Wu, S., và C. Ré. Xuất bản năm 2017. Snorkel: tạo nhanh chóng dữ liệu huấn luyện với giám sát yếu. Trong Kỷ yếu của cơ sở dữ liệu rất lớn (VLDB) 11(3): trang 269-282.

Trong hầu như tất cả các hệ thống KBC ngày nay, đa phần các tác vụ quan trọng được thực hiện bởi các mô hình học máy ngày càng phức tạp, chẳng hạn như học sâu. Trong khi những mô hình này thực sự làm giảm bớt gánh nặng xây dựng đặc trưng vốn là nút thắt cổ chai cố hữu trong quá trình phát triển KBC, chúng cũng yêu cầu khối lượng lớn dữ liệu huấn luyện được dán nhãn để từ đó có thể học được. Để con người gắn nhãn dữ liệu huấn luyện này bằng tay có thể mất hàng tháng hoặc nhiều năm; kết quả là các dữ liệu được gán nhãn cực kỳ đơn điệu và bất động: nếu lược đồ của KB thay đổi, như thường lệ trong quá trình vận hành thực tế, bộ huấn luyện phải được tách ra và dán nhãn lại. Vì những lý do này, nhiều hệ thống KBC ngày nay sử dụng một số phương pháp học có giám sát yếu15: giám sát mức thô hơn, nhiều nhiễu hơn với nhãn được cung cấp bởi  các chuyên gia từng lĩnh vực (domain experts) 6.10 Ví dụ, một kỹ thuật phỏng đoán (heuristic) phổ biến là giám sát từ xa, khi mà các thực thể trong một cơ sở tri thức đã có được liên kết theo phương pháp phỏng đoán với dữ liệu đầu vào mới để sinh ra dữ liệu huấn luyện1,13,16.

Snorkel đã đưa ra một khung làm việc tổng thể sử dụng mô hình học giám sát yếu bằng cách để các chuyên gia trong từng lĩnh vực viết các hàm gắn nhãn (labelling function-LF), chỉ đơn giản là những hàm black-box để gắn nhãn dữ liệu huấn luyện, thay vì phải gắn nhãn dữ liệu huấn luyện thủ công bằng tay. Những LF này bổ sung vào một dải rộng những kĩ thuật giám sát yếu và tỏ rả rất hiệu quả trong việc giúp các chuyên gia không phải về lĩnh vực học máy có một giải pháp đơn giản để “lập trình” các mô hình học máy. Hơn thế nữa, Snorkel cũng tự động học tính chính xác của các LFs và ước lượng được đầu ra của LFs sử dụng các kĩ thuật mô hình thống kê, đồng thời cũng có thể giảm nhiễu dữ liệu huấn luyện hiệu quả để tạo ra đầu vào tốt hơn cho xây dựng KBC. Trong bài báo này, các tác giả đã chứng minh rằng Snorkel cải thiện hơn các hướng tiếp cận giám sát yếu trước đó bằng cách cho phép sử dụng dễ dàng nhiều nguồn dữ liệu (có thể có chất lượng thấp, đa nhiễu), và đạt được chất lượng tương đương với các phương pháp học có giám sát với tập dữ liệu huấn luyện được gẵn nhãn thủ công ở quy mô lớn. Việc này cho thấy hiệu quả của hướng tiếp cận học có giám sát yếu giúp xây dựng hệ thống KBC nhanh hơn và dễ phát triển hơn.

Nhúng (embeddings): Biểu diễn và và tích hợp tri thức phân tán

Riedel, S., Yao, L., McCallum, A., Marlin, B. M. 2013. Trích rút quan hệ với kỹ thuật phân rã ma trận và các lược đồ tổng quát. Trong Kỷ yếu Hội nghị của hội phụ trách khu vực Bắc Mỹ, thuộc Hiệp hội Ngôn ngữ học Tính toán – Các công nghệ Ngôn ngữ con người: trang 74–84.

Cuối cùng quyết định tối quan trọng trong KBC là cách biểu diễn dữ liệu: cả dữ liệu đầu vào phi cấu trúc và kết quả đầu ra cấu thành nên cơ sở tri thức. Trong xây dựng KBC và trong cài đặt các giải thuật học máy tổng quát, việc sử dụng các vectơ dày (dense vector) để biểu diễn cho dữ liệu đầu vào, đặc biệt là dạng văn bản đã trở thành một công cụ phổ biến12. Ví dụ, biểu diễn từ nhúng trong không gian vector  (word embedding), có thể được học thông qua áp dụng phương pháp phân tích thành phần chính (PCA-principal component analysis) hoặc một số biến thể trên tập ngữ liệu không có nhãn. Việc học biểu diễn này có thể dưa ra biểu diễn trên không gian vector cho từ mà giữ được mối quan hệ về mặt ngữ nghĩa cho các từ (chẳng hạn như từ đồng nghĩa). Đây cũng là một cách đơn giản nhưng tỏ ra rất hiệu quả trong việc tích hợp tri thức thống kê từ các tập lớn. Các loại biểu diễn trên không gian vector ngày càng phức tạp hơn, chẳng hạn như dưới dạng hyperbolic14, đa phương thức, hay dưới dạng đồ thị5. Chúng góp phần cải tiến chất lượng cho các hệ thống cuối (end-system) một cách mạnh mẽ ở một phạm vi mở rộng các thiết lập được đặt ra.

Trong bài báo khoa học của Riedel và cộng sự, nhóm tác giả đã cung cấp một góc nhìn thú vị thông qua việc chỉ ra rằng việc biểu diễn trên không gian vector cũng có thể được sử dụng để biểu diễn cho cơ sở tri thức. Trong xây dựng KBC truyền thống, một lược đồ đầu ra (nghĩa là các loại quan hệ nào được trích xuất) được lựa chọn và cố định từ đầu, đây là một quy trình thủ công. Thay vào đó, Riedel và cộng sự đề xuất sử dụng các biểu diễn trên không gian vector hóa để biểu diễn chính KB và có thể học các biểu diễn này từ sự kết hợp của tất cả các lược đồ của KB có sẵn hoặc lược đồ tiềm năng có thể sử dụng.

Hơn nữa, nhóm tác giả lập luận rằng cách tiếp cận như vậy giúp thống nhất các tác vụ riêng lẻ của việc trích xuất và tích hợp. Nói chung, trích xuất là quá trình chuyển từ dữ liệu đầu vào tới một quan hệ trong KB — ví dụ, ánh xạ chuỗi văn bản X thích Y đến mối quan hệ KB Lượt thích (X, Y) trong khi tích hợp là nhiệm vụ hợp nhất hoặc liên kết các thực thể và mối quan hệ liên quan. Tuy nhiên, trong phương pháp tiếp cận của nhóm tác giả, cả dữ liệu đầu vào và các thực thể trong KB được thể hiện trong cùng một không gian vectơ, do đó các hoạt động này về cơ bản là tương đương nhau. Do đó, việc biểu diễn vector hóa này có thể được học chung và được truy vấn cho một loạt các tác vụ dự đoán tiếp sau.

KBC trở nên dễ tiếp cận hơn

Bài viết này đã rà soát các phương pháp tiếp cận với ba điểm mấu chốt tối quan trọng của việc xây dựng một hệ thống cơ sở tri thức hiện đại và cách chúng có thể đẩy nhanh quá trình xây dựng cơ sở tri thức (1) ghép nối nhiều mô hình thành phần để cùng học đồng thời; (2) sử dụng giám sát yếu để học các mô hình một cách hiệu quả và linh hoạt hơn; và (3) chọn một biểu diễn vectơ cho dữ liệu. Trong khi việc xây dựng các hệ thống KBC dựa trên học máy vẫn còn phức tạp và tốn kém, hiện nay rất nhiều mô hình học máy tiên tiến nhất  cho các tác vụ con trong xây dựng KBC đều có thể dùng mã nguồn mở cài đặt trên các nền tảng học máy phổ biến như PyTorch và TensorFlow. Với các kỹ thuật như trình bày trong bài báo này, xây dựng KBC với khả năng đạt được hiệu suất cao đang trở nên dễ tiếp cận hơn bao giờ hết.

Tài liệu tham khảo

  1. Bunescu, R. C., Mooney, R. J. 2007. Learning to extract relations from the web using minimal supervision. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics: 576–583.
  2. Cafarella, M. J., Downey, D., Soderland, S., Etzioni, O. 2005. KnowItNow: fast, scalable information extraction from the web. In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing: 563–570.
  3. Caruana, R. 1993. Multitask learning: A knowledge-based source of inductive bias. In Proceedings of the 10th International Conference on Machine Learning: 41-48.
  4. Dong, X., Gabrilovich, E., Heitz, G., Horn, W., Lao, N., Murphy, K., Strohmann, T., Sun, S., Zhang, W. 2014. Knowledge Vault: a web-scale approach to probabilistic knowledge fusion. In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining: 601–610.
  5. Grover, A., Leskovec, J. 2016. node2vec: scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining: 855–864.
  6. Hoffmann, R., Zhang, C., Ling, X., Zettlemoyer, L., Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL)–Human Language Technologies, Volume 1: 541-550.
  7. Lehmann, J., Isele, R., Jakob, M., Jentzsch, A., Kontokostas, D., Mendes, P., Hellmann, S., Morsey, M., van Kleef, P., Auer, S., Bizer, C. 2014. DBpedia—a large-scale, multilingual knowledge base extracted from Wikipedia. Semantic Web 6(2): 167–195.
  8. Mahdisoltani, F., Biega, J. Suchanek, F. M. 2013. YAGO3: a knowledge base from multilingual wikipedias. In the 7th Biennial Conference on Innovative Data Systems Research (CIDR).
  9. Mallory, E. K., Zhang, C., Ré, C., Altman, R. B. 2015. Large-scale extraction of gene interactions from full-text literature using DeepDive. Bioinformatics32(1):106–113.
  10. Mann, G. S., McCallum, A. 2010. Generalized expectation criteria for semi-supervised learning with weakly labeled data. Journal of Machine Learning Research 11(Feb):955–984.
  11. Manning, C. 2017. Representations for language: from word embeddings to sentence meanings. Presented at Simons Institute for the Theory of Computing, UC Berkeley; https://nlp.stanford.edu/manning/talks/Simons-Institute-Manning-2017.pdf.
  12. Mikolov, T., Chen, K., Corrado, G., Dean, J. 2013. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
  13. Mintz, M., Bills, S., Snow, R., Jurafsky, D. 2009. Distant supervision for relation extraction without labeled data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguistics (ACL) and the 4th Conference of the Asian Federation of Natural Language Processing (AFNLP): 1003–1011.
  14. Nickel, M., Kiela, D. 2017. Poincaré embeddings for learning hierarchical representations. In Advances in Neural Information Processing Systems 30: 6341–6350.
  15. Ratner, A., Bach, S., Varma, P., Ré, C. Weak supervision: the new programming paradigm for machine learning. Hazy Research; https://hazyresearch.github.io/snorkel/blog/ws_blog_post.html.
  16. Ren, X., He, W., Qu, M., Voss, C. R., Ji, H., Han, J. 2016. Label noise reduction in entity typing by heterogeneous partial-label embedding. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining: 1825–1834.
  17. Ruder, S. 2017. An overview of multi-task learning in deep neural networks. arXiv preprint arXiv: 1706.05098.
  18. Zhang, C., Shin, J., Ré, C., Cafarella, M., Niu, F. 2016. Extracting databases from dark data with DeepDive. In Proceedings of the International Conference on Management of Data: 847–859.
  19. Zhang, C., Ré, C., Cafarella, M., De Sa, C., Ratner, A., Shin, J., Wang, F., Wu, S. 2017. DeepDive: declarative knowledge base construction. Communications of the ACM 60(5):93–102.

Alex Ratner là nghiên cứu sinh tiến sĩ viên khoa học máy tính tại Đại học Stanford, được hướng dẫn bởi Chris Ré. Các công trình nghiên cứu của ông tập trung vào giám sát yếu – ý tưởng sử dụng đầu vào cao cấp, nhiều nhiễu hơn hệ thống các chuyên gia nghiệp vụ để huấn luyện các mô hình hiện đại và phức tạp. Tại đây, các dữ liệu gắn nhãn thủ công được huấn luyện. Ông là người chịu trách nhiệm phát triển khung Snorkel cho hệ thống học máy giám sát yếu, vốn được ứng dụng cho các vấn đề của KBC trong các lĩnh vực như gen, chẩn đoán lâm sàng và khoa học chính trị. Ông được hỗ trợ bởi học bổng Stanford Bio-X SIGF.

 

Christopher Ré là phó giáo sư ngành khoa học máy tính tại Đại học Stanford. Mục tiêu công việc của ông là cho phép người dùng và nhà phát triển xây dựng các ứng dụng hiểu sâu hơn và khai thác dữ liệu. Những đóng góp của ông bao gồm lý thuyết cơ sở dữ liệu, hệ thống cơ sở dữ liệu và học máy, và đã giành được giải thưởng bài nghiên cứu khoa học tốt nhất từ PODS (Principles of Database Systems- Nguyên lý hệ thống cơ sở dữ liệu), SIGMOD (Special Interest Group on Management of Data -Nhóm lợi ích đặc biệt về quản lý dữ liệu) và ICML (International Conference on Machine Learning-Hội nghị quốc tế về học máy). Công việc nhóm của ông và nhóm mang tính khoa học cao và nhân đạo, bao gồm máy phát hiện neutrino của IceCube, PaleoDeepDive và MEMEX trong cuộc chiến chống nạn buôn người, và các sản phẩm thương mại từ các công ty web và doanh nghiệp lớn. Ông là người nhận giải thưởng SIGMOD Dissertation Award, Giải thưởng NSF CAREER, Học bổng Alfred P. Sloan, Giải thưởng Moore Data Driven Investigator, VLDB early Career Award, Học bổng Quỹ MacArthur và Học bổng nghiên cứu Okawa.

Tác giả: Alex Ratner and Chris Ré
Dịch giả: Lê Hoàng, Trần Việt Trung
Nguồn: queue.acm

Tin liên quan:
  • 20
    Shares