Rumah Audio Bagaimana max pooling membantu menjadikan alexnet teknologi yang hebat untuk pemrosesan gambar?

Bagaimana max pooling membantu menjadikan alexnet teknologi yang hebat untuk pemrosesan gambar?

Anonim

Q:

Bagaimana max pooling membantu menjadikan AlexNet teknologi yang hebat untuk pemrosesan gambar?

SEBUAH:

Dalam AlexNet, jaringan saraf convolutional yang inovatif, konsep max pooling dimasukkan ke dalam model yang kompleks dengan beberapa lapisan konvolusional, sebagian untuk membantu pemasangan dan merampingkan pekerjaan yang dilakukan jaringan saraf dalam bekerja dengan gambar dengan apa yang oleh para ahli disebut "strategi downsampling non-linear."

AlexNet secara luas dianggap sebagai CNN yang cukup hebat, setelah memenangkan ILSVRC 2012 (ImageNet Large-Scale Visual Recognition Challenge 2012), yang dipandang sebagai peristiwa penting untuk pembelajaran mesin dan kemajuan jaringan saraf (beberapa menyebutnya sebagai "Olimpiade" visi komputer ).

Dalam kerangka kerja jaringan, di mana pelatihan dipecah menjadi dua GPU, ada lima lapisan konvolusional, tiga lapisan yang terhubung penuh dan beberapa implementasi penyatuan maks.

Pada dasarnya, pengumpulan max mengambil "kumpulan" output dari kumpulan neuron dan menerapkannya pada nilai-nilai lapisan berikutnya. Cara lain untuk memahami ini adalah bahwa pendekatan pengumpulan max dapat mengkonsolidasikan dan menyederhanakan nilai-nilai demi menyesuaikan model yang lebih tepat.

Max pooling dapat membantu menghitung gradien. Orang bisa mengatakan bahwa itu "mengurangi beban komputasi" atau "menyusut overfitting" - melalui downsampling, max pooling melibatkan apa yang disebut "pengurangan dimensi."

Pengurangan dimensi berkaitan dengan masalah memiliki model yang terlalu rumit yang sulit dijalankan melalui jaringan saraf. Bayangkan bentuk yang kompleks, dengan banyak kontur bergerigi kecil, dan setiap bit garis ini diwakili oleh titik data. Dengan pengurangan dimensi, para insinyur membantu program pembelajaran mesin untuk “memperkecil” atau sampel lebih sedikit data poin, untuk membuat model secara keseluruhan lebih sederhana. Itu sebabnya jika Anda melihat lapisan penyatuan maksimum dan hasilnya, Anda kadang-kadang dapat melihat pixelasi sederhana yang berkaitan dengan strategi pengurangan dimensi.

AlexNet juga menggunakan fungsi yang disebut rectified linear units (ReLU), dan max pooling dapat menjadi pelengkap teknik ini dalam memproses gambar melalui CNN.

Para ahli dan mereka yang terlibat dalam proyek ini telah memberikan banyak model visual, persamaan dan detail lainnya untuk menunjukkan bentuk spesifik dari AlexNet, tetapi dalam arti umum, Anda dapat berpikir tentang penyatuan maks sebagai penggabungan atau penggabungan output dari beberapa neuron buatan. Strategi ini adalah bagian dari keseluruhan pembangunan CNN, yang telah menjadi identik dengan visi dan klasifikasi gambar mesin mutakhir.

Bagaimana max pooling membantu menjadikan alexnet teknologi yang hebat untuk pemrosesan gambar?