Tốt nhất của cả hai thế giới: Cây mô hình tuyến tính

Cây mô hình tuyến tính (LMT) là một trong những mô hình ML yêu thích của tôi - và vì những lý do chính đáng. Cây mô hình tuyến tính kết hợp mô hình tuyến tính và cây quyết định để tạo ra mô hình lai tạo ra dự đoán tốt hơn và dẫn đến hiểu biết tốt hơn so với mô hình một mình. Cây mô hình tuyến tính đơn giản là cây quyết định với các mô hình tuyến tính tại các nút của nó. Đây có thể được xem như là một mô hình tuyến tính từng phần với các nút được học thông qua thuật toán cây quyết định. LMT có thể được sử dụng cho các vấn đề hồi quy (ví dụ: với các mô hình hồi quy tuyến tính thay vì phương tiện dân số) hoặc các vấn đề phân loại (ví dụ: với hồi quy logistic thay vì chế độ dân số).

Trên đây là biểu đồ heuristic của các mô hình học máy dọc theo trục chính xác và dễ hiểu. Góc phần tư phía trên bên phải là tốt nhất, với cả hiệu suất cao và khả năng diễn giải cao. Biểu đồ này cho thấy LMT đều có khả năng diễn giải cao và có hiệu suất cao.

Các công cụ giao dịch thông thường của tôi là Python, scikit-learn và gấu trúc. Tuy nhiên, scikit-learn không bao gồm triển khai LMT và tôi không thể tìm thấy phiên bản nguồn mở, vì vậy tôi đã tự triển khai nó để sử dụng tại Convoy. Việc thực hiện được liên kết ở dưới cùng của bài này. Trong phần còn lại của bài đăng, chúng tôi sẽ so sánh LMT với các mô hình khác được liệt kê ở trên trong cốt truyện khung.

LMT so với những người khác

Dưới đây chúng tôi sẽ chứng minh LMT với bộ dữ liệu tự động mpg mã nguồn mở. Bộ dữ liệu tự động mpg liên quan đến mức tiêu thụ nhiên liệu của 398 xe từ những năm 1970 và đầu những năm 1980. Chúng tôi sẽ dự đoán mức tiêu thụ nhiên liệu (mpg) dựa trên trọng lượng xe, năm mô hình, mã lực, khả năng tăng tốc, dung tích động cơ và số xi-lanh. Sổ ghi chép jupyter được liên kết ở dưới cùng của bài đăng này chứa toàn bộ khám phá về dữ liệu và mô hình xây dựng này. Kết quả sẽ được tóm tắt tại đây.

Bảng trên cho thấy hiệu suất của bốn thuật toán khác nhau với nhiệm vụ dự đoán mpg trên bộ dữ liệu này. Không có gì ngạc nhiên khi Gradient Boosting Tree (GBT) hoạt động tốt nhất, vì thuật toán này thường tạo ra hiệu suất dự đoán tốt nhất. Tuy nhiên, LMT thực hiện rất gần như là tốt, và như chúng ta sẽ thấy bên dưới, nó có những lợi ích khác. Hồi quy tuyến tính và một cây quyết định duy nhất thực hiện kém so với hai mô hình còn lại.

LMT so với GBT

GBT đã làm rất tốt trong hiệu suất dự đoán với MSE. Câu hỏi tiếp theo là những gì thúc đẩy tiết kiệm xăng của những chiếc xe? Chúng tôi đi sâu vào vấn đề này với tầm quan trọng khác nhau trên mô hình GBT và nhận được những điều sau đây:

Thuộc tính quan trọng của biến GBT mẹo cho chúng ta biết rằng trọng lượng là tính năng quan trọng nhất, tiếp theo là mã lực, gia tốc, chuyển vị và model_year, tất cả đều tương tự nhau. Thật không may, GBT không cho chúng ta biết bất cứ điều gì về cường độ số hoặc dấu hiệu tác động của chúng, cũng như mối quan hệ của các tính năng này.

LMT chỉ tạo ra 2 phần tách, với tổng số 3 nút lá. Nó phân chia đầu tiên ở mã lực = 78 và đối với mã lực> = 78, nó phân tách ở mã lực = 97. Chúng ta sẽ gọi ba nhóm dân số là công suất thấp, công suất trung bình và công suất cao.

Kiểm tra các trọng số từ cây mô hình tuyến tính cho chúng ta một sự hiểu biết rất khác nhau về những gì ảnh hưởng đến hiệu quả nhiên liệu so với các mô hình khác. Mặc dù có một số điểm tương đồng giữa các nhóm dân cư khác nhau mà LMT của chúng tôi đã xác định, chúng tôi cũng thấy một số khác biệt đáng kể.

Điều quan trọng cần lưu ý là các tính năng hoạt động khác nhau trong phạm vi và phân phối giữa các nhóm công suất thấp, trung bình và cao. Tham khảo đồ họa bên dưới và sau đó so sánh các bản phân phối của chúng so với các tính năng quan trọng của mỗi nhóm ở trên. Trục x cho mỗi cột được cố định để dễ dàng so sánh các phân phối khác nhau.

Đối với tất cả các phương tiện, trọng lượng có tác động tiêu cực lớn, điều này có ý nghĩa vì tiết kiệm nhiên liệu sẽ trở nên tồi tệ hơn với khối lượng xe phải di chuyển nhiều hơn. Năm mô hình có tác động tích cực lớn cho tất cả các phương tiện; có lẽ công nghệ động cơ được cải thiện đáng kể trong giai đoạn này. Đây là tương tự như những gì chúng ta thấy trong mô hình tuyến tính duy nhất. Tuy nhiên, mức độ của những tác động đó thay đổi trên các quần thể mà LMT của chúng tôi đã xác định, và kích thước và sức mạnh động cơ có cường độ hiệu ứng khác nhau trong các quần thể khác nhau.

Đối với các phương tiện công suất thấp, năm mô hình có tác động tích cực rất lớn và chúng tôi thấy rằng trong nền kinh tế nhiên liệu dân số này rất nhạy cảm với sự dịch chuyển của động cơ.

Trong loại công suất trung bình, trọng lượng một lần nữa có tác động tiêu cực rất lớn nhưng tiết kiệm nhiên liệu chỉ tăng vừa phải với năm mô hình.

Đối với các phương tiện có công suất cao, trọng lượng có tác động ít hơn đáng kể, và điều tương tự có thể được nói cho năm mô hình. Kích thước động cơ và tính năng sức mạnh có liên quan nhiều hơn trong dân số này khi so sánh với trọng lượng và năm mô hình. Trong quần thể này, kích thước động cơ thay đổi nhiều hơn so với các quần thể khác, vì vậy kích thước động cơ cuối cùng có tác động lớn hơn đến dự đoán so với những gì các hệ số cho chúng ta biết.

Tóm tắt về lợi ích LMT

Đối với những từ cuối cùng của tôi về Cây mô hình tuyến tính, đây là tóm tắt về lợi ích của chúng:

  • LMT có thể giải thích mạnh mẽ. Nhận thông tin chi tiết về mối quan hệ tuyến tính và phi tuyến tính trong dữ liệu của bạn. Điều này có thể dẫn đến các giả thuyết mô hình hóa hoặc ý tưởng sản phẩm khác.
  • LMT xác định các quần thể với hành vi khác nhau.
  • LMT có thể dễ dàng xác định và sử dụng các mối quan hệ tuyến tính. Các mô hình dựa trên cây (bao gồm Rừng ngẫu nhiên và Cây tăng cường độ dốc) mất rất nhiều nỗ lực để tìm hiểu một dòng vì chúng phù hợp với mô hình hằng số từng phần bằng cách dự đoán trung bình của tất cả các quan sát trong mỗi nút lá. Do đó, họ yêu cầu nhiều phân chia để xấp xỉ mối quan hệ tuyến tính. Một số ví dụ về các mối quan hệ tuyến tính phổ biến bao gồm: khách hàng chi tiêu trong tháng này có thể là một chức năng chi tiêu của họ vào tháng trước, doanh số tháng này có thể là chức năng bán hàng tháng trước, chi phí cho một chức năng của kích thước, trong vận tải đường bộ, $ / dặm.
  • Quá mức (phương sai cao) có thể tránh được bằng cách sử dụng xác thực chéo để tối ưu hóa kích thước nút tối thiểu và độ sâu cây tối đa.
  • LMT có thể hoạt động tốt với lượng dữ liệu khiêm tốn (so với nhiều mô hình phi tuyến)
  • LMT thường tạo ra các mô hình đơn giản, dễ thực hiện trong hệ thống sản xuất, ngay cả khi hệ thống đó không được viết bằng cùng ngôn ngữ mà bạn sử dụng để tạo mô hình