Rumah Audio Mengapa mengantongi pembelajaran mesin mengurangi varian?

Mengapa mengantongi pembelajaran mesin mengurangi varian?

Anonim

Q:

Mengapa mengantongi pembelajaran mesin mengurangi varian?

SEBUAH:

Agregasi bootstrap, atau "bagging, " dalam pembelajaran mesin mengurangi varian melalui pembuatan model set data kompleks yang lebih maju. Secara khusus, pendekatan bagging menciptakan himpunan bagian yang sering tumpang tindih untuk memodelkan data dengan cara yang lebih terlibat.

Satu gagasan yang menarik dan langsung tentang bagaimana menerapkan pengantongan adalah mengambil satu set sampel acak dan mengekstrak mean sederhana. Kemudian, dengan menggunakan set sampel yang sama, buat lusinan himpunan bagian yang dibangun sebagai pohon keputusan untuk memanipulasi hasil akhirnya. Mean kedua harus menunjukkan gambaran yang lebih benar tentang bagaimana masing-masing sampel berhubungan satu sama lain dalam hal nilai. Gagasan yang sama dapat diterapkan pada properti apa pun dari set poin data apa pun.

Unduh Gratis: Pembelajaran Mesin dan Mengapa Itu Penting

Karena pendekatan ini mengkonsolidasikan penemuan ke dalam batas-batas yang lebih jelas, ia mengurangi varians dan membantu overfitting. Pikirkan sebar sebaran dengan titik data yang agak terdistribusi; dengan menggunakan metode bagging, para insinyur "menyusutkan" kompleksitas dan mengarahkan garis penemuan ke parameter yang lebih halus.

Beberapa berbicara tentang nilai mengantongi sebagai "membagi dan menaklukkan" atau jenis "heuristik yang dibantu." Idenya adalah bahwa melalui pemodelan ensemble, seperti penggunaan hutan acak, mereka yang menggunakan bagging sebagai teknik bisa mendapatkan hasil data yang lebih rendah dalam varian. Dalam hal mengurangi kompleksitas, mengantongi juga dapat membantu dengan overfitting. Pikirkan model dengan terlalu banyak titik data: katakanlah, hubungkan-the-dots dengan 100 titik yang tidak selaras. Lini data visual yang dihasilkan akan bergerigi, dinamis, tidak stabil. Kemudian "selesaikan" varians dengan mengumpulkan set evaluasi. Dalam pembelajaran ansambel, ini sering dianggap sebagai bergabung dengan beberapa "peserta didik yang lemah" untuk memberikan hasil kolaboratif "pembelajaran yang kuat". Hasilnya adalah garis data yang lebih halus, lebih berkontur, dan varians yang kurang liar dalam model.

Sangat mudah untuk melihat bagaimana ide mengantongi dapat diterapkan pada sistem IT perusahaan. Para pemimpin bisnis sering menginginkan "pandangan mata burung" tentang apa yang terjadi dengan produk, pelanggan, dll. Model yang terlalu lengkap dapat menghasilkan lebih sedikit data yang dapat dicerna, dan lebih banyak hasil "tersebar", di mana mengantongi dapat "menstabilkan" suatu model dan membuatnya lebih berguna untuk pengguna akhir.

Mengapa mengantongi pembelajaran mesin mengurangi varian?