Mô hình NLP tốt nhất bao giờ hết? Google BERT đặt tiêu chuẩn mới trong 11 nhiệm vụ ngôn ngữ

Tài liệu mới về AI AI của BERT: Đào tạo trước Máy biến áp hai chiều sâu để hiểu ngôn ngữ đang nhận được nhiều lời khen ngợi từ cộng đồng máy học. Các nhà nghiên cứu của Google trình bày một mô hình Biến áp hai chiều sâu xác định lại trạng thái nghệ thuật cho 11 nhiệm vụ xử lý ngôn ngữ tự nhiên, thậm chí vượt qua hiệu suất của con người trong lĩnh vực trả lời câu hỏi đầy thách thức. Một số điểm nổi bật từ bài báo:

  • Các nhà nghiên cứu NLP đang khai thác số lượng lớn dữ liệu ngôn ngữ có sẵn và kỹ thuật học chuyển giao trưởng thành để phát triển các phương pháp đào tạo trước mới. Đầu tiên, họ huấn luyện một kiến ​​trúc mô hình trên một mục tiêu mô hình hóa ngôn ngữ, và sau đó tinh chỉnh nó cho một nhiệm vụ hạ nguồn được giám sát. Nhà nghiên cứu của Aylien, nhà khoa học Sebastian Ruder gợi ý trong blog của mình rằng các mô hình được đào tạo trước có thể có tác động trên phạm vi rộng tương tự đối với NLP giống như các mô hình ImageNet được đề xuất trước về thị giác máy tính.
  • Kiến trúc mô hình BERT là một bộ mã hóa Biến áp hai chiều. Việc sử dụng Transformer không có gì đáng ngạc nhiên - đây là một xu hướng gần đây do hiệu quả đào tạo Transformers và hiệu suất vượt trội trong việc nắm bắt các phụ thuộc đường dài so với kiến ​​trúc mạng thần kinh tái phát. Trong khi đó, bộ mã hóa hai chiều là một tính năng nổi bật giúp phân biệt BERT với OpenAI GPT (Biến áp từ trái sang phải) và ELMo (kết hợp giữa LSTM được đào tạo độc lập từ trái sang phải và phải sang trái).
  • BERT là một mô hình khổng lồ, với 24 khối Biến áp, 1024 đơn vị ẩn trong mỗi lớp và 340M tham số.
  • Mô hình này được đào tạo trước trên 40 kỷ nguyên với khối lượng 3,3 tỷ từ, bao gồm BooksCorpus (800 triệu từ) và Wikipedia tiếng Anh (2,5 tỷ từ).
  • Mô hình chạy trên 16 vỏ TPU để đào tạo.
  • Trong quá trình đào tạo trước, các nhà nghiên cứu đã thực hiện một phương pháp liên quan đến việc che giấu ngẫu nhiên một tỷ lệ phần trăm mã thông báo đầu vào (15 phần trăm) để đào tạo một đại diện hai chiều sâu. Họ gọi phương pháp này là Mô hình ngôn ngữ đeo mặt nạ (MLM).
  • Một mô hình ngôn ngữ được đào tạo trước không thể hiểu mối quan hệ giữa các câu, điều này rất quan trọng đối với các nhiệm vụ ngôn ngữ như trả lời câu hỏi và suy luận ngôn ngữ tự nhiên. Do đó, các nhà nghiên cứu đã đào tạo trước một nhiệm vụ dự đoán câu tiếp theo có thể được tạo ra có thể được tạo ra một cách tầm thường từ bất kỳ tập thể đơn nhân nào.
  • Mô hình tinh chỉnh cho các bộ dữ liệu khác nhau cải thiện điểm chuẩn GLUE lên 80,4% (cải thiện tuyệt đối 7,6%), độ chính xác MultiNLI lên 86,7% (cải thiện tuyệt đối 5,6%), câu hỏi SQuAD v1.1 trả lời Kiểm tra F1 đến 93.2 (cải thiện tuyệt đối 1.5) , v.v. trên tổng số 11 nhiệm vụ ngôn ngữ.

Tác giả đầu tiên của tờ giấy là Jacob Devlin, một nhà khoa học nghiên cứu cao cấp của Google, có mối quan tâm nghiên cứu chính trong việc phát triển các mô hình học tập sâu cho các nhiệm vụ ngôn ngữ tự nhiên. Trước đây, ông đã lãnh đạo Microsoft Dịch từ chuyển đổi từ dịch thuật dựa trên cụm từ sang dịch máy thần kinh (NMT) với tư cách là Nhà khoa học nghiên cứu nguyên tắc tại Microsoft Research từ 2014 đến 2017.

Nhà khoa học nghiên cứu não Google Thang Lương đã nhiệt tình tweet về một kỷ nguyên mới của NLP vừa bắt đầu vài ngày trước: các mô hình đào tạo trước lớn (Biến áp 24 lớp, 1024 mờ, 16 đầu) + máy tính lớn là tất cả những gì bạn cần.

Baoxun Wang, Nhà khoa học trưởng của công ty khởi nghiệp AI Trung Quốc Tricorn, cũng ca ngợi bài báo của Google là một cột mốc quan trọng trong bài phát biểu chính của ông tại hội nghị Liên minh ngành công nghiệp trí tuệ nhân tạo tuần này tại Tô Châu, Trung Quốc. Bài viết tận dụng lượng dữ liệu khổng lồ và các công trình kỹ thuật tính toán và được trau chuốt kỹ lưỡng, đại diện cho những gì Wang gọi là truyền thống thẩm mỹ bạo lực của Google.

Mô hình và mã được đào tạo trước sẽ được phát hành trong hai tuần tới. Bài viết trên arXiv.

Cập nhật:

Google đã mở nguồn dữ liệu và mã dữ liệu trên Github.

Nhà báo: Tony Bành | Biên tập: Michael Sarazen

Theo dõi chúng tôi trên Twitter @Synced_Global để biết tin tức AI hàng ngày

Chúng tôi biết bạn không muốn bỏ lỡ bất kỳ câu chuyện nào. Đăng ký Tuần báo AI Toàn cầu được Đồng bộ hóa phổ biến của chúng tôi để nhận các bản cập nhật AI hàng tuần.