Giải thích tốt nhất về Mạng thần kinh Convolutional trên Internet!

CNN có nhiều ứng dụng trong nhận dạng hình ảnh và video, hệ thống đề xuất và xử lý ngôn ngữ tự nhiên. Trong bài viết này, ví dụ mà tôi sẽ lấy có liên quan đến Thị giác máy tính. Tuy nhiên, khái niệm cơ bản vẫn giữ nguyên và có thể được áp dụng cho bất kỳ trường hợp sử dụng nào khác!

Để có một bản tóm tắt nhanh chóng về Mạng nơ-ron, ở đây, một loạt bài viết được giải thích rất rõ ràng.

CNN, giống như các mạng lưới thần kinh, được tạo thành từ các tế bào thần kinh với trọng lượng và thành kiến ​​có thể học được. Mỗi nơ-ron nhận được một số đầu vào, lấy một tổng có trọng số so với chúng, chuyển qua chức năng kích hoạt và phản hồi với đầu ra. Toàn bộ mạng có chức năng mất và tất cả các mẹo và thủ thuật mà chúng tôi đã phát triển cho các mạng thần kinh vẫn được áp dụng trên CNN. Khá đơn giản phải không?

Vậy, Mạng nơ-ron kết hợp khác với Mạng nơ-ron như thế nào?

CNNs hoạt động trên Khối!

Chúng ta có ý nghĩa gì bởi điều này?

1. Ví dụ về hình ảnh RGB (hãy gọi là hình ảnh đầu vào)

Không giống như các mạng thần kinh, trong đó đầu vào là một vectơ, ở đây đầu vào là một hình ảnh đa kênh (3 kênh trong trường hợp này).

Có một số khác biệt mà chúng ta sẽ nói về một thời gian.

Trước khi chúng ta đi sâu hơn, trước tiên chúng ta hãy hiểu ý nghĩa của tích chập.

Kết luận

2. Kết hợp hình ảnh với bộ lọc

Chúng tôi lấy bộ lọc 5 * 5 * 3 và trượt nó qua hình ảnh hoàn chỉnh và trên đường đi, lấy sản phẩm chấm giữa bộ lọc và khối của hình ảnh đầu vào.

3. Đây là vẻ ngoài của nó

Đối với mỗi sản phẩm chấm được thực hiện, kết quả là vô hướng.

Vậy, điều gì xảy ra khi chúng ta kết hợp hình ảnh hoàn chỉnh với bộ lọc?

4. Cái này!

Tôi để nó cho bạn biết con số 28 28 đến như thế nào. (Gợi ý: Có 28 * 28 vị trí duy nhất trong đó bộ lọc có thể được đặt trên hình ảnh)

Bây giờ, quay lại CNN

Lớp chập là khối xây dựng chính của mạng nơ ron tích chập.

5. Lớp kết hợp

Lớp chập bao gồm một tập hợp các bộ lọc độc lập (6 trong ví dụ được hiển thị). Mỗi bộ lọc được kết hợp độc lập với hình ảnh và chúng tôi kết thúc với 6 bản đồ đặc trưng có hình dạng 28 * 28 * 1.

Giả sử chúng ta có một số lớp tích chập theo trình tự. Điều gì xảy ra sau đó?

6. Các lớp kết hợp theo trình tự

Tất cả các bộ lọc này được khởi tạo ngẫu nhiên và trở thành tham số của chúng tôi sẽ được mạng tìm hiểu sau đó.

Tôi sẽ cho bạn thấy một ví dụ về một mạng lưới được đào tạo.

7. Bộ lọc trong một mạng được đào tạo

Hãy xem các bộ lọc trong lớp đầu tiên (đây là các bộ lọc 5 * 5 * 3 của chúng tôi). Thông qua việc truyền bá trở lại, họ đã tự điều chỉnh để trở thành những đốm màu và các cạnh màu. Khi chúng ta đi sâu hơn vào các lớp chập khác, các bộ lọc đang thực hiện các sản phẩm chấm vào đầu vào của các lớp chập trước đó. Vì vậy, họ đang lấy những mảnh hoặc cạnh màu nhỏ hơn và tạo ra những mảnh lớn hơn từ chúng.

Hãy nhìn vào hình ảnh 4 và tưởng tượng lưới 28 * 28 * 1 là một lưới gồm 28 * 28 nơ-ron. Đối với một bản đồ đặc trưng cụ thể (đầu ra nhận được khi kết hợp hình ảnh với một bộ lọc cụ thể được gọi là bản đồ đặc trưng), mỗi nơ-ron chỉ được kết nối với một đoạn nhỏ của hình ảnh đầu vào và tất cả các nơ-ron có cùng trọng lượng kết nối. Vì vậy, một lần nữa trở lại với sự khác biệt giữa CNN và mạng lưới thần kinh.

CNN có một vài khái niệm gọi là chia sẻ tham số và kết nối cục bộ

Chia sẻ tham số là chia sẻ trọng lượng của tất cả các tế bào thần kinh trong một bản đồ tính năng cụ thể.

Kết nối cục bộ là khái niệm của mỗi nơ-ron chỉ được kết nối với một tập hợp con của hình ảnh đầu vào (không giống như mạng thần kinh nơi tất cả các nơ-ron được kết nối đầy đủ)

Điều này giúp giảm số lượng tham số trong toàn hệ thống và làm cho việc tính toán hiệu quả hơn.

Tôi sẽ không nói về khái niệm đệm không ở đây vì ý tưởng là giữ cho nó đơn giản. Những người quan tâm có thể đọc về nó một cách riêng biệt!

Lớp tổng hợp

Một lớp gộp là một khối xây dựng khác của CNN.

Bể bơi

Chức năng của nó là giảm dần kích thước không gian của biểu diễn để giảm lượng tham số và tính toán trong mạng. Lớp gộp hoạt động trên từng bản đồ tính năng độc lập.

Cách tiếp cận phổ biến nhất được sử dụng trong gộp chung là gộp chung tối đa.

Tối đa

Kiến trúc tiêu biểu của một CNN

Kiến trúc tiêu biểu của CNN

Chúng tôi đã thảo luận về các lớp chập (ký hiệu là CONV) và các lớp gộp (ký hiệu là POOL).

RELU chỉ là một phi tuyến tính được áp dụng tương tự như các mạng thần kinh.

FC là lớp tế bào thần kinh được kết nối đầy đủ ở cuối CNN. Các nơ-ron trong một lớp được kết nối đầy đủ có các kết nối đầy đủ với tất cả các kích hoạt trong lớp trước đó, như đã thấy trong Mạng nơ-ron thông thường và hoạt động theo cách tương tự.

Tôi hy vọng bạn hiểu kiến ​​trúc của một CNN bây giờ. Có nhiều biến thể cho kiến ​​trúc này nhưng như tôi đã đề cập trước đây, khái niệm cơ bản vẫn giống nhau. Trong trường hợp bạn có bất kỳ nghi ngờ / phản hồi, xin vui lòng bình luận.

Tình yêu của bạn tiếp nhiên liệu cho tôi! Vì vậy, nếu bạn thích đọc bài viết này, xin vui lòng nhấn nút trái tim nhỏ màu xanh lá cây!

Bạn có thể theo tôi để đọc thêm các bài viết TechnologyMade Easy!

Và nếu bạn muốn bạn bè của mình cũng đọc nó, hãy nhấp vào chia sẻ!

Tài liệu tham khảo: http://cs231n.github.io/convolutional-networks/#overview