Chọn khung AutoML tốt nhất

Đối đầu trực tiếp so sánh bốn khung máy học tự động trên 87 bộ dữ liệu.

Adithya Balaji và Alexander Allen

Giới thiệu

Automatic Machine Learning (AutoML) có thể mang AI trong tầm với cho đối tượng lớn hơn nhiều. Nó cung cấp một bộ công cụ để giúp các nhóm khoa học dữ liệu với các cấp độ kinh nghiệm khác nhau đẩy nhanh quá trình khoa học dữ liệu. Đó là lý do tại sao AutoML được coi là giải pháp dân chủ hóa AI. Ngay cả với một nhóm có kinh nghiệm, bạn có thể sử dụng AutoML để tận dụng tối đa các nguồn lực hạn chế. Mặc dù có các giải pháp độc quyền cung cấp học máy như một dịch vụ, nhưng nó đáng để xem xét các giải pháp nguồn mở hiện tại giải quyết nhu cầu này.

Trong phần trước của chúng tôi, chúng tôi đã khám phá cảnh quan AutoML và đánh dấu một số gói có thể hoạt động cho các nhóm khoa học dữ liệu. Trong phần này, chúng ta sẽ tìm hiểu bốn giải pháp đường ống đầy đủ của Google được đề cập: auto_ml, auto-sklearn, TPOT và giải pháp AutoML H2O.

Mỗi gói điểm mạnh và điểm yếu của gói được chi tiết trong bài báo đầy đủ của chúng tôi, Khung điểm chuẩn của máy học tự động điểm chuẩn. Bài viết cũng chứa thông tin bổ sung về phương pháp luận và một số kết quả bổ sung.

Phương pháp luận

Để đưa ra đánh giá chính xác và công bằng, một lựa chọn gồm 87 bộ dữ liệu mở, 30 hồi quy và 57 phân loại, đã được chọn từ OpenML, một kho lưu trữ trực tuyến các bộ dữ liệu học máy tiêu chuẩn được hiển thị thông qua API REST một cách nhất quán. Việc phân chia các bộ dữ liệu cung cấp một mẫu lớn các bộ dữ liệu dạng bảng có thể được tìm thấy trong một vấn đề học máy kinh doanh. Rất nhiều sự cân nhắc đã được đưa ra cho việc lựa chọn các bộ dữ liệu để ngăn ngừa sự nhiễm bẩn của các bộ xác nhận. Ví dụ, tự động sklearn sử dụng một khởi đầu ấm áp đã được đào tạo trên một bộ dữ liệu OpenML. Các dữ liệu như vậy đã được tránh.

Mỗi trong số bốn khung, auto_ml, auto-sklearn, TPOT và H2O đã được kiểm tra với các tham số được đề xuất của họ, trên 10 hạt ngẫu nhiên trên mỗi tập dữ liệu. Điểm F1 (có trọng số) và sai số bình phương trung bình được chọn làm tiêu chí đánh giá cho các vấn đề phân loại và hồi quy tương ứng.

Giới hạn 3 giờ đã được sử dụng để giới hạn mỗi phương thức AutoML trong khoảng thời gian phản ánh tìm kiếm khám phá ban đầu được thực hiện bởi nhiều nhóm khoa học dữ liệu. Điều này dẫn đến thời gian tính toán ước tính là 10,440 giờ. Do đó, chúng tôi đã quyết định đánh giá các mô hình sử dụng dịch vụ lô AWS tựa để xử lý song song hóa tác vụ này bằng cách sử dụng các phiên bản EC2 được tối ưu hóa tính toán C4 phân bổ 2 vCPU và 4 GB bộ nhớ mỗi lần chạy.

Chúng tôi đã sử dụng phương pháp nỗ lực tốt nhất để đảm bảo tất cả các bài kiểm tra đã hoàn thành và tất cả các bài kiểm tra có ít nhất 3 cơ hội để thành công trong giới hạn 3 giờ. Trong một số trường hợp, môi trường tính toán AWS Batch từ tính và quản lý tài nguyên dựa trên docker dẫn đến hành vi không thể đoán trước. Để khắc phục điều này, chúng tôi đã phát triển một phương pháp tiếp cận kim loại trần tùy chỉnh của cải tiến để sao chép AWS Batch trên các phiên bản EC2 với sự kiểm soát chi tiết hơn đối với việc quản lý bộ nhớ quá trình. Cụ thể, trình quản lý bộ nhớ docker đã gửi tín hiệu tiêu diệt đến quy trình đo điểm chuẩn nếu lượng bộ nhớ được sử dụng bởi quá trình vượt quá số lượng được phân bổ bởi Batch. Giới hạn cứng này không thể thay đổi mà không tăng đáng kể kích thước cá thể trên mỗi lần chạy. Sử dụng các ràng buộc tính toán tương tự, chúng tôi đã thử nghiệm các lần chạy thất bại trong các điều kiện rất cụ thể này trong quá trình thực hiện tùy chỉnh kim loại trần của chúng tôi.

Cũng trong quá trình chạy các thử nghiệm này, chúng tôi đã sửa một vài lỗi trong các khung công tác nguồn mở được mô tả trong bài báo đầy đủ của chúng tôi. Sau khi sửa lỗi, không có bộ dữ liệu nào hoàn toàn thất bại. Những thất bại này thường bị che khuất khỏi việc sử dụng hàng ngày nhưng xuất hiện trong quy mô thử nghiệm đã được thực hiện.

Các kết quả

Hình 1 mô tả sự đa dạng của các bộ dữ liệu đã chọn của chúng tôi. Bạn có thể thấy rằng phân loại thường là nhị phân và số hàng hồi quy tương đối đồng đều trong khi số lượng hàng phân loại bị lệch về phía bộ dữ liệu khoảng 1000 hàng. Số lượng tính năng cho cả trung tâm hồi quy và phân loại khoảng 10 tính năng với phân loại hơi lệch về 100. Chúng tôi tin rằng nhóm dữ liệu này là mẫu đại diện cho các vấn đề khoa học dữ liệu chung mà nhiều nhà khoa học dữ liệu sẽ gặp phải.

Hình 1: Các đặc điểm của bộ dữ liệu thô được phân chia giữa các vấn đề phân loại và hồi quy

Một số khung đã hết thời gian trên các hạt giống và khung cụ thể. Tổng cộng có 29 kết hợp chạy (tập dữ liệu và hạt giống) đã bị loại bỏ. Các kết hợp chạy này đã được loại bỏ trên tất cả các khung để duy trì khả năng so sánh của các khung riêng lẻ. Quá trình này dẫn đến tổng số 132 điểm dữ liệu (29 * 4) đã bị hủy, chiếm khoảng ~ 3% tổng thể (chạy 116/3480).

Hình 2: Hiệu suất từ ​​đầu đến đầu có nghĩa là các bộ dữ liệu phân loại

Hình 3: Hiệu suất từ ​​đầu đến đầu trung bình trên các tập dữ liệu hồi quy

Mỗi khung được đánh giá trên cả hai tập dữ liệu hồi quy và phân loại được đề cập ở trên. Hiệu suất của chúng được tính bằng cách tổng hợp điểm F1 và điểm MSE trên các tập dữ liệu theo khung. Mỗi số liệu được chuẩn hóa trên cơ sở từng tập dữ liệu trên các khung và được chia tỷ lệ từ 0 đến 1. Trong trường hợp MSE, các giá trị này được đảo ngược có nghĩa là các giá trị cao hơn biểu thị kết quả tốt hơn, do đó các biểu đồ sẽ nhất quán giữa trực quan hóa phân loại và hồi quy. Giá trị trung bình trên 10 hạt được đánh giá đại diện cho hiệu suất khung hình trên một tập dữ liệu cụ thể. Trong hình 2 và 3, các màu tối hơn cho thấy sự khác biệt hiệu suất lớn hơn.

Hình 4: Hiệu suất khung trên tất cả các bộ dữ liệu phân loại

Hình 5: Hiệu suất khung trên tất cả các bộ dữ liệu hồi quy

Chúng tôi đã sử dụng các khung hình để thể hiện hiệu suất khung ở đây trong hình 4 và 5. Các rãnh trong các ô hình biểu thị khoảng tin cậy của các trung vị. Các phương tiện và độ lệch chuẩn trong bảng 1 cho thấy sự khác biệt chính xác.

Bảng 1: Chính xác cho mỗi kết quả khung

Kết luận và giải thích

Nhìn chung, mỗi hình dung và giải thích trình bày cùng một hình ảnh. Auto-sklearn thực hiện tốt nhất trên các bộ dữ liệu phân loại và TPOT thực hiện tốt nhất trên các bộ dữ liệu hồi quy. Điều quan trọng cần lưu ý là các kết quả định lượng từ thử nghiệm này có phương sai rất cao và do đó, điều quan trọng hơn là phải suy nghĩ về trạng thái của cơ sở mã, tiếp tục phát triển, bộ tính năng và mục tiêu của các khung riêng lẻ này thay vì hiệu suất độc lập. Chúng tôi đề xuất cả TPOT và tự động sklearn do các yếu tố này và do sự tương tác của chúng tôi với từng cộng đồng của họ trong suốt thời gian chúng tôi thực hiện phân tích này.

Mỗi gói (Auto-sklearn, TPOT, H2O, Auto_ml), giấy tờ đầy đủ và việc thực hiện điểm chuẩn được liên kết tại đây.