Bộ dữ liệu mở miễn phí cho máy học & khoa học dữ liệu | Hướng tới AI

Các bộ dữ liệu công cộng tốt nhất cho máy học và khoa học dữ liệu

Các bộ dữ liệu tốt nhất cho máy học là gì? Sau khi quét web hàng giờ sau nhiều giờ, chúng tôi đã tạo ra một bảng cheat tuyệt vời cho các bộ dữ liệu học máy chất lượng cao và đa dạng.

TÁC GIẢ:

Stacy Stanford, Machine Learning Memoirs Inc.

Roberto Iriondo, Khoa học máy, Đại học Carnegie Mellon.

ĐƯỢC PHÁT HÀNH:

Ngày 2 tháng 10 năm 2018

CẬP NHẬT MỚI NHẤT:

Ngày 15 tháng 5 năm 2019

Một số điều cần lưu ý khi tìm kiếm bộ dữ liệu chất lượng cao:

1.- Một bộ dữ liệu chất lượng cao không nên lộn xộn, vì bạn không muốn mất nhiều thời gian để làm sạch dữ liệu.

2.- Một bộ dữ liệu chất lượng cao không nên có quá nhiều hàng hoặc cột, vì vậy nó rất dễ làm việc.

3.- Dữ liệu càng sạch thì càng tốt - làm sạch một tập dữ liệu lớn có thể cực kỳ tốn thời gian.

4.- Mục tiêu cuối cùng của bạn nên có một câu hỏi / quyết định trả lời, đến lượt nó có thể được trả lời bằng dữ liệu.

Công cụ tìm dữ liệu

Google Dataset Search: Tương tự như cách Google Scholar hoạt động, Dataset Search cho phép bạn tìm các bộ dữ liệu ở bất cứ nơi nào họ lưu trữ, cho dù đó là một trang web của nhà xuất bản, một thư viện kỹ thuật số hay một trang web cá nhân của tác giả.

Kaggle: Một trang web khoa học dữ liệu có chứa nhiều loại đóng góp bên ngoài vào các bộ dữ liệu thú vị. Bạn có thể tìm thấy tất cả các loại bộ dữ liệu thích hợp trong danh sách chính của nó, từ xếp hạng ramen đến dữ liệu bóng rổ đến và thậm chí cả giấy phép thú cưng của Seattle.

Kho lưu trữ học máy của UCI: Một trong những nguồn dữ liệu lâu đời nhất trên web và là điểm dừng đầu tiên tuyệt vời khi tìm kiếm các bộ dữ liệu thú vị. Mặc dù các bộ dữ liệu được đóng góp bởi người dùng và do đó có mức độ sạch khác nhau, nhưng đại đa số đều sạch sẽ. Bạn có thể tải xuống dữ liệu trực tiếp từ kho lưu trữ UCI Machine Learning mà không cần đăng ký.

VisualData: Khám phá bộ dữ liệu thị giác máy tính theo thể loại, nó cho phép các truy vấn có thể tìm kiếm.

Tìm tập dữ liệu | Thư viện CMU: Khám phá các bộ dữ liệu chất lượng cao nhờ bộ sưu tập của Huajin Wang, CMU.

Bộ dữ liệu chung

Bộ dữ liệu công

Data.gov: Trang web này cho phép tải xuống dữ liệu từ nhiều cơ quan chính phủ Hoa Kỳ. Dữ liệu có thể bao gồm từ ngân sách chính phủ đến điểm thành tích học tập. Được cảnh báo mặc dù: phần lớn dữ liệu đòi hỏi nghiên cứu bổ sung.

Bản đồ môi trường thực phẩm: Chứa dữ liệu về cách lựa chọn thực phẩm địa phương ảnh hưởng đến chế độ ăn uống ở Mỹ.

Tài chính hệ thống trường học: Một cuộc khảo sát về tài chính của các hệ thống trường học ở Mỹ.

Dữ liệu về bệnh mãn tính: Dữ liệu về các chỉ số bệnh mãn tính ở các khu vực trên khắp Hoa Kỳ.

Trung tâm Thống kê Giáo dục Quốc gia Hoa Kỳ: Dữ liệu về các tổ chức giáo dục và nhân khẩu học giáo dục từ Hoa Kỳ và trên toàn thế giới.

Dịch vụ dữ liệu Vương quốc Anh: Bộ sưu tập dữ liệu xã hội, kinh tế và dân số lớn nhất Vương quốc Anh.

Dữ liệu Hoa Kỳ: Một hình ảnh toàn diện về dữ liệu công cộng của Hoa Kỳ.

Bộ dữ liệu nhà ở

Bộ dữ liệu nhà ở Boston: Chứa thông tin được thu thập bởi Dịch vụ điều tra dân số Hoa Kỳ liên quan đến nhà ở trong khu vực của Boston Mass. Nó được lấy từ kho lưu trữ StatLib và đã được sử dụng rộng rãi trong các tài liệu cho các thuật toán điểm chuẩn.

Bộ dữ liệu địa lý

Google-Cột-v2: Một bộ dữ liệu được cải tiến để nhận dạng và truy xuất mốc. Bộ dữ liệu này chứa 5M + hình ảnh của 200k + cột mốc từ khắp nơi trên thế giới, có nguồn gốc và được chú thích bởi cộng đồng Wiki Commons.

Bộ dữ liệu tài chính & kinh tế

Quandl: Một nguồn tốt cho dữ liệu kinh tế và tài chính - hữu ích cho việc xây dựng các mô hình để dự đoán các chỉ số kinh tế hoặc giá cổ phiếu.

Dữ liệu mở của Ngân hàng Thế giới: Các bộ dữ liệu bao gồm nhân khẩu học dân số, một số lượng lớn các chỉ số kinh tế và phát triển từ khắp nơi trên thế giới.

Dữ liệu IMF: Quỹ tiền tệ quốc tế công bố dữ liệu về tài chính quốc tế, tỷ lệ nợ, dự trữ ngoại hối, giá cả hàng hóa và đầu tư.

Financial Times Market Data: Cập nhật thông tin về thị trường tài chính từ khắp nơi trên thế giới, bao gồm các chỉ số giá cổ phiếu, hàng hóa và ngoại hối.

Google Xu hướng: Kiểm tra và phân tích dữ liệu về hoạt động tìm kiếm trên internet và xu hướng tin tức trên toàn thế giới.

Hiệp hội kinh tế Mỹ (AEA): Một nguồn tốt để tìm dữ liệu kinh tế vĩ mô của Hoa Kỳ.

Bộ dữ liệu học máy:

Bộ dữ liệu hình ảnh

xView: xView là một trong những bộ dữ liệu công khai lớn nhất có sẵn của hình ảnh trên cao. Nó chứa hình ảnh từ các cảnh phức tạp trên khắp thế giới, được chú thích bằng các hộp giới hạn.

Labelme: Một bộ dữ liệu lớn của hình ảnh chú thích.

ImageNet: Bộ dữ liệu hình ảnh thực tế cho các thuật toán mới, được sắp xếp theo phân cấp WordNet, trong đó hàng trăm và hàng ngàn hình ảnh mô tả từng nút của hệ thống phân cấp.

LSUN: Hiểu cảnh với nhiều nhiệm vụ phụ trợ (ước tính bố trí phòng, dự đoán độ mặn, v.v.)

MS COCO: Hiểu và hình ảnh chung chung.

COIL100: 100 đối tượng khác nhau được chụp ở mọi góc trong một vòng quay 360.

Visual Genome: Cơ sở kiến ​​thức trực quan rất chi tiết với chú thích ~ 100K hình ảnh.

Hình ảnh mở của Google Google: Một bộ sưu tập gồm 9 triệu URL tới hình ảnh mà Google đã được chú thích với các nhãn trải dài trên 6.000 danh mục của Google theo Creative Commons.

Khuôn mặt được gắn nhãn trong tự nhiên: 13.000 hình ảnh được dán nhãn của khuôn mặt người, để sử dụng trong việc phát triển các ứng dụng liên quan đến nhận dạng khuôn mặt.

Bộ dữ liệu chó Stanford: Chứa 20.580 hình ảnh và 120 loại giống chó khác nhau.

Nhận dạng cảnh trong nhà: Một bộ dữ liệu rất cụ thể và rất hữu ích, vì hầu hết các mô hình nhận dạng cảnh đều tốt hơn ‘bên ngoài. Chứa 67 danh mục trong nhà và 15620 hình ảnh.

Bộ dữ liệu phân tích tình cảm

Tập dữ liệu phân tích tình cảm đa miền: Một tập dữ liệu cũ hơn một chút có tính năng đánh giá sản phẩm từ Amazon.

Đánh giá IMDB: Một bộ dữ liệu cũ, tương đối nhỏ để phân loại tình cảm nhị phân có 25.000 đánh giá phim.

Stanford Sentiment Treebank: Tập dữ liệu tình cảm tiêu chuẩn với chú thích tình cảm.

Sentiment140: Một bộ dữ liệu phổ biến, sử dụng 160.000 tweet với các biểu tượng cảm xúc được loại bỏ trước.

Twitter US Airline Sentiment: Dữ liệu Twitter về các hãng hàng không Hoa Kỳ từ tháng 2 năm 2015, được phân loại là tweet tích cực, tiêu cực và trung tính

Bộ dữ liệu xử lý ngôn ngữ tự nhiên

HotspotQA Dataset: Bộ dữ liệu trả lời câu hỏi có các câu hỏi tự nhiên, nhiều bước nhảy, với sự giám sát mạnh mẽ để hỗ trợ các sự kiện để cho phép các hệ thống trả lời câu hỏi dễ giải thích hơn.

Enron Dataset: Dữ liệu email từ quản lý cấp cao của Enron, được sắp xếp thành các thư mục.

Amazon Nhận xét: Chứa khoảng 35 triệu đánh giá từ Amazon kéo dài 18 năm. Dữ liệu bao gồm thông tin về sản phẩm và người dùng, xếp hạng và đánh giá bản rõ.

Google Books Ngrams: Tập hợp các từ trong sách của Google.

Blogger Corpus: Một bộ sưu tập gồm 681.288 bài đăng trên blog được thu thập từ blogger.com. Mỗi blog chứa tối thiểu 200 lần xuất hiện các từ tiếng Anh thông dụng.

Wikipedia Liên kết dữ liệu: Toàn văn của Wikipedia. Bộ dữ liệu chứa gần 1,9 tỷ từ từ hơn 4 triệu bài viết. Bạn có thể tìm kiếm theo từ, cụm từ hoặc một phần của chính đoạn văn.

Danh sách sách điện tử Gutenberg: Một danh sách các sách điện tử có chú thích từ Dự án Gutenberg.

Hansards văn bản khối của Quốc hội Canada: 1,3 triệu cặp văn bản từ các hồ sơ của Quốc hội Canada thứ 36.

Nguy hiểm: Lưu trữ hơn 200.000 câu hỏi từ chương trình đố vui Jeopardy.

Đánh giá cà chua thối: Lưu trữ hơn 480.000 đánh giá phê bình (tươi hoặc thối).

SMS Spam Collection bằng tiếng Anh: Một bộ dữ liệu bao gồm 5.574 tin nhắn SMS SMS tiếng Anh

Nhận xét về Yelp: Một bộ dữ liệu mở được phát hành bởi Yelp, chứa hơn 5 triệu đánh giá.

UCITHER Spambase: Một bộ dữ liệu email spam lớn, hữu ích cho việc lọc thư rác.

Bộ dữ liệu tự lái (Lái xe tự động)

Berkeley DeepDrive BDD100k: Hiện là bộ dữ liệu lớn nhất cho AI tự lái. Chứa hơn 100.000 video về hơn 1.100 giờ trải nghiệm lái xe trong các thời điểm khác nhau trong ngày và điều kiện thời tiết. Các hình ảnh chú thích đến từ các khu vực New York và San Francisco.

Baidu Apolloscapes: Bộ dữ liệu lớn xác định 26 mặt hàng ngữ nghĩa khác nhau như ô tô, xe đạp, người đi bộ, tòa nhà, đèn đường, v.v.

Comma.ai: Hơn 7 giờ lái xe trên đường cao tốc. Chi tiết bao gồm tốc độ xe, gia tốc, góc lái và tọa độ GPS.

Xe máy Oxford Oxford: Hơn 100 lần lặp lại trên cùng một tuyến đường qua Oxford, Vương quốc Anh, bị bắt trong khoảng thời gian một năm. Bộ dữ liệu ghi lại các kết hợp khác nhau của thời tiết, giao thông và người đi bộ, cùng với những thay đổi dài hạn như xây dựng và công trường.

Cityscape Dataset: Một bộ dữ liệu lớn ghi lại cảnh đường phố đô thị ở 50 thành phố khác nhau.

CSSAD Dataset: Bộ dữ liệu này rất hữu ích cho nhận thức và điều hướng các phương tiện tự trị. Các tập dữ liệu nghiêng rất nhiều trên các con đường được tìm thấy trong thế giới phát triển.

Bộ dữ liệu biển báo giao thông KUL Bỉ: Hơn 10000 chú thích biển báo giao thông từ hàng ngàn biển báo giao thông khác biệt trong khu vực Flanders ở Bỉ.

MIT AGE Lab: Một mẫu của hơn 1000 giờ bộ dữ liệu lái xe đa cảm biến được thu thập tại AgeLab.

LISA: Phòng thí nghiệm cho ô tô thông minh & an toàn, Bộ dữ liệu UC San Diego: Bộ dữ liệu này bao gồm các biển báo giao thông, phát hiện phương tiện, đèn giao thông và mô hình quỹ đạo.

Bộ dữ liệu đèn giao thông nhỏ của Bosch: Bộ dữ liệu cho đèn giao thông nhỏ để học sâu.

LaRa Traffic Light Recognition: Một bộ dữ liệu khác cho đèn giao thông. Điều này được thực hiện ở Paris.

Bộ dữ liệu WPI: Bộ dữ liệu cho đèn giao thông, phát hiện người đi bộ và làn đường.

Dữ liệu lâm sàng

MIMIC-III: Bộ dữ liệu có sẵn công khai được phát triển bởi MIT Lab for Computational Physiology, bao gồm dữ liệu sức khỏe không xác định liên quan đến ~ 40.000 bệnh nhân chăm sóc quan trọng. Nó bao gồm nhân khẩu học, các dấu hiệu quan trọng, xét nghiệm trong phòng thí nghiệm, thuốc men, v.v.

Ghi chú:

Nếu bạn biết về các bộ dữ liệu công cộng, chất lượng cao khác mà bạn đề xuất cho mọi người để nghiên cứu và ứng dụng học máy, học sâu, khoa học dữ liệu, v.v. Xin vui lòng đề xuất chúng cùng với lý do, tại sao nên đưa chúng vào trong các bình luận dưới đây hoặc bằng cách gửi email cho Stacy trực tiếp tại sstanford@mlmemoirs.xyz.

Nếu lý do là mạnh mẽ, chúng tôi sẽ phân tích chúng và đưa chúng vào danh sách này. Ngoài ra, vui lòng cho chúng tôi biết kinh nghiệm của bạn khi sử dụng bất kỳ bộ dữ liệu nào trong phần nhận xét này.

Chúc bạn học máy vui vẻ!

Sự nhìn nhận:

Các tác giả xin cảm ơn các thành viên của Cộng đồng AI vì sự hỗ trợ to lớn, cùng với những lời chỉ trích mang tính xây dựng trong việc chuẩn bị bài viết này.

TUYÊN BỐ TỪ CHỐI: Các quan điểm thể hiện trong bài viết này là của các tác giả và không đại diện cho các quan điểm của Đại học Carnegie Mellon, Machine Learning Memoirs Inc. cũng như các công ty khác (trực tiếp hoặc gián tiếp) liên quan đến (các) tác giả. Những bài viết này không nhằm mục đích trở thành sản phẩm cuối cùng, mà là sự phản ánh suy nghĩ hiện tại, cùng với đó là chất xúc tác để thảo luận và cải tiến.

Câu chuyện được đề xuất:

Nguồn:

[1] https://cloud.google.com/public-datasets/

[2] https: //guides.l Library.cmu.edu/c.php?g=844845&p=6191907

[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazed-and-free-public-data-source-for-2018/# f3bdeb5f8aec

[4] https://github.com/takeitallsource/awclaw-autonomous-vehicles#datasets

[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[6] https://www.dataquest.io/blog/free-datasets-for-projects/

[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-lingu- Processing /

[8] https://github.com/awesomedata/awgie-public-datasets#machinelearning

[9] http://lib.stat.cmu.edu/datasets/

[10] Nghiên cứu và phân tích thể chế | Bộ dữ liệu chung | https://www.cmu.edu/ira/CDS/index.html

[11] Bộ dữ liệu và đề xuất dự án | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html

[12] Bộ dữ liệu | Kho lưu trữ máy học | MIT | https://ocw.mit.edu/cifts/sloan-school-of-manloyment/15-097-predtions-machine-learning-and-statistic-spring-2012/datasets/

[13] Bộ dữ liệu | Phòng thí nghiệm MIT Lincoln | https://www.ll.mit.edu/r-d/datasets

[14] Bộ sưu tập dữ liệu mạng lớn Stanford | Đại học Stanford | https://snap.stanford.edu/data/

[15] Bộ dữ liệu chung Stanford | Đại học Stanford | https://snap.stanford.edu/data/

[16] Datalab | UC Berkeley | http: //www.lib.ber siêu.edu / lologists / data-lab

[17] Khám phá bộ dữ liệu | Khoa học dữ liệu tại Berkeley | https: //dascascience.ber siêu.edu / open-data-sets /

[18] DeepDrive | UC Berkeley | https: //bdd-data.ber siêu.edu /

Trích dẫn:

Để ghi nhận trong bối cảnh học thuật, xin vui lòng trích dẫn công việc này là

Stanford, et al., "Bộ dữ liệu công cộng tốt nhất cho máy học và khoa học dữ liệu", hướng tới AI, 2018

Trích dẫn BibTex:

@misc {stanford_2018,
  title = {Bộ dữ liệu công cộng tốt nhất cho máy học và khoa học dữ liệu},
  url = {https://towardsai.net/datasets},
  lưu ý = {https://towardsai.net/datasets},
  tạp chí = {Trung bình},
  nhà xuất bản = {Hướng tới AI},
  tác giả = {Stanford, Stacy và Iriondo, Roberto},
  năm = {2018},
  tháng = {tháng 10}
}