Trở thành kỹ sư máy học | Bước 4: Thực hành, thực hành, thực hành

Phương pháp tốt nhất để nhanh chóng nắm bắt các kỹ năng học máy cần thiết là thực hành xây dựng các kỹ năng của bạn với các bộ dữ liệu nhỏ dễ hiểu. Kỹ thuật này giúp bạn xây dựng các quy trình của mình bằng cách sử dụng dữ liệu thực tế thú vị, đủ nhỏ để bạn xem xét trong excel hoặc WEKA. Trong bài viết này, bạn sẽ tìm hiểu về một cơ sở dữ liệu chất lượng cao với nhiều bộ dữ liệu và một số mẹo để giúp bạn tập trung thời gian vào những gì quan trọng với bạn!

Tại sao thực hành với bộ dữ liệu?

Thực hiện theo các hướng dẫn trực tuyến sẽ khiến bạn bị mắc kẹt trong một tư duy phụ thuộc sẽ hạn chế sự phát triển của bạn vì bạn không học CÁCH để giải quyết bất kỳ vấn đề nào. Việc học của bạn làm thế nào để áp dụng một giải pháp cụ thể cho một loại vấn đề cụ thể. Nó tương đương với quá mức, mà tất cả chúng ta đều biết dẫn đến hiệu suất thực tế kém. Nếu bạn quan tâm đến việc trở thành một kỹ sư máy học, bạn cần chắc chắn rằng bạn có thể khái quát hóa thành dữ liệu thực. Thử thách bản thân mỗi ngày và tấn công các vấn đề bằng cách sử dụng một quy trình xác định. Thực hành kỹ năng của bạn bằng cách sử dụng bộ dữ liệu là cách tốt nhất để làm điều này.

Tôi lấy bộ dữ liệu ở đâu?

May mắn cho tất cả mọi người, có một kho lưu trữ tuyệt vời về các vấn đề máy học mà bạn có thể truy cập miễn phí.

Kho lưu trữ máy học UCI

Trung tâm học máy và hệ thống thông minh tại Đại học California, Irvine đã xây dựng kho lưu trữ máy học UCI. Trong 30 năm, đây là nơi dành cho các nhà nghiên cứu về máy học và sinh viên học máy cần bộ dữ liệu để thực hành. Bạn có thể tải xuống tất cả các bộ dữ liệu có sẵn trên trang web của họ. Họ cũng liệt kê tất cả các chi tiết về nó bao gồm bất kỳ ấn phẩm nào đã sử dụng nó, điều này thực sự hữu ích khi bạn muốn tìm hiểu các nhà nghiên cứu tấn công vấn đề. Các bộ dữ liệu cũng có thể được tải xuống theo một vài cách khác nhau (CSV / TXT).

Chỉ có hai nhược điểm đối với bộ dữ liệu UCI.

  1. Nhược điểm khác là chúng nhỏ để bạn giành được nhiều kinh nghiệm trong các dự án quy mô lớn, nhưng đó không phải là vấn đề vì các bạn mới biết điều này! Khởi đầu nhỏ!
  2. Nhược điểm đáng kể nhất là các bộ dữ liệu này được làm sạch và xử lý trước. Làm sạch và xử lý trước là những phần thiết yếu của quá trình học máy mà bạn sẽ phải đối mặt trong sự nghiệp. Không dành thời gian thực hành kỹ năng này sẽ làm tổn thương bạn sau này.

Thực hành theo cách nhắm mục tiêu

Làm thế nào để bạn đi về thực hành theo cách nhắm mục tiêu khi có rất nhiều bộ dữ liệu? Một kỹ sư máy học khao khát sẽ làm tốt nhất để tìm ra mục tiêu của họ là gì và chọn một bộ dữ liệu sẽ đưa họ đến mục tiêu đó tốt nhất. Tôi đã phát triển một số câu hỏi mà bạn có thể tự hỏi mình để giúp thu hẹp số lượng bộ dữ liệu.

  • Những loại vấn đề bạn đang tìm cách giải quyết?
  • Hồi quy, phân loại, hồi quy, phân cụm?
  • Nó có kích thước bao nhiêu? Hàng chục điểm dữ liệu hoặc hàng triệu
  • Bộ dữ liệu có bao nhiêu tính năng?
  • Những loại tính năng?
  • Bộ dữ liệu này thuộc miền nào?

Chỉ ra loại bộ dữ liệu bạn muốn tập trung vào để phù hợp với các mục tiêu rộng lớn hơn của bạn. Khi bạn có thứ này, bạn sẽ có thể lọc qua số lượng lớn bộ dữ liệu có sẵn trên nền tảng.

Các vấn đề mẫu

Đừng lo lắng nếu bạn không chắc chắn chính xác những gì bạn đang cố gắng học. Sẽ tốt hơn nhiều nếu không gặp khó khăn khi cố gắng tìm kế hoạch học tập hoàn hảo. Tôi đã lập một danh sách một số bộ dữ liệu mà bạn có thể thấy thú vị. Có một vài loại vấn đề ở đây vì vậy hãy cung cấp cho họ tất cả.

Hồi quy: http://archive.ics.uci.edu/ml/datasets/Wine+Quality

Phân cụm: https://archive.ics.uci.edu/ml/datasets/Bag+of+emme

Phân loại: http://archive.ics.uci.edu/ml/datasets/Wine

Phân loại sức khỏe: https://archive.ics.uci.edu/ml/datasets/BTHER+Cancer+Wis ERIC +% 28Origen%29

Nhưng..

Tôi không nghĩ rằng tôi có những kỹ năng cho việc này hoặc tôi cảm thấy như có gì đó đang ngăn tôi bắt đầu!
Thỉnh thoảng bạn có thể nghi ngờ bản thân, nhưng bạn có thể để nó ngăn bạn khỏi mục tiêu trở thành kỹ sư máy học. Thời gian để điều chỉnh suy nghĩ của bạn.

Tôi không biết cách lập trình!
Điều đó tốt vì bài viết của tôi đã trở thành một kỹ sư máy học | Bước 3: chọn một công cụ đi qua một công cụ không cần bất kỳ kỹ năng lập trình nào để sử dụng và điều đó cho phép bạn thực hiện nhiều thuật toán học máy.

Tôi thậm chí sẽ bắt đầu từ đâu khi giải quyết vấn đề?
Một quy trình cho phép bạn xem xét bất kỳ vấn đề nào là cực kỳ quan trọng và tôi tin rằng việc học quy trình đó tốt hơn là tìm hiểu về cách thức truyền bá ngược. Kiểm tra bài viết của tôi nơi tôi đi vào chi tiết về cách chọn một quy trình Liên kết để chọn một quy trình

Tôi không nghĩ rằng tôi có thể làm điều này một mình?
Tự học máy học không phải là cách tốt nhất để học. Tham gia vào một nhóm các cá nhân có cùng chí hướng sẽ làm nên điều kỳ diệu đối với khả năng học hỏi của bạn. Kiểm tra bài viết này để tìm hiểu thêm.

Lấy đi

Nếu bạn nghiêm túc về việc tự học, hãy xem xét việc lập một danh sách khiêm tốn các bộ dữ liệu bạn muốn điều tra thêm. Thực hiện theo kế hoạch thực hành được nhắm mục tiêu để xây dựng một nền tảng có giá trị để đi sâu vào các vấn đề máy học phức tạp và thú vị hơn.

Cảm ơn đã đọc :) Nếu bạn thích nó, nhấn nút vỗ tay bên dưới và theo dõi tôi! Nó có ý nghĩa rất lớn đối với tôi và khuyến khích tôi viết nhiều câu chuyện như thế này

Hãy cũng có thể kết nối trên Twitter, LinkedIn hoặc email