Q:
Apa cara sederhana untuk menggambarkan bias dan varians dalam pembelajaran mesin?
SEBUAH:Ada sejumlah cara rumit untuk menggambarkan bias dan varians dalam pembelajaran mesin. Banyak dari mereka menggunakan persamaan matematika yang sangat kompleks dan menunjukkan melalui grafik bagaimana contoh spesifik mewakili berbagai jumlah bias dan varians.
Berikut adalah cara sederhana untuk menggambarkan bias, varians, dan bias / varians trade-off dalam pembelajaran mesin.
Pada intinya, bias adalah penyederhanaan yang berlebihan. Penting untuk menambahkan definisi bias beberapa asumsi atau kesalahan yang diasumsikan.
Jika hasil yang sangat bias tidak salah - jika itu pada uang - itu akan sangat akurat. Masalahnya adalah bahwa model yang disederhanakan berisi beberapa kesalahan, sehingga tidak pada mata banteng - kesalahan yang signifikan terus berulang atau bahkan diperkuat ketika program pembelajaran mesin bekerja.
Definisi varian yang sederhana adalah bahwa hasilnya terlalu tersebar. Hal ini sering mengarah pada kompleksitas program yang berlebihan dan masalah antara tes dan pelatihan.
Varians tinggi berarti bahwa perubahan kecil membuat perubahan besar dalam output atau hasil.
Cara lain untuk hanya menggambarkan varians adalah bahwa ada terlalu banyak noise dalam model, sehingga semakin sulit bagi program pembelajaran mesin untuk mengisolasi dan mengidentifikasi sinyal nyata.
Jadi salah satu cara paling sederhana untuk membandingkan bias dan varians adalah dengan menyarankan bahwa insinyur pembelajaran mesin harus berjalan di garis tipis antara terlalu banyak bias atau penyederhanaan berlebihan, dan terlalu banyak varians atau overcomplexity.
Cara lain untuk mewakili sumur ini adalah dengan bagan empat kuadran yang menunjukkan semua kombinasi varian tinggi dan rendah. Dalam kuadran bias rendah / varians rendah, semua hasil dikumpulkan bersama dalam sebuah cluster yang akurat. Dalam bias yang tinggi / hasil varians rendah, semua hasil dikumpulkan bersama dalam sebuah cluster yang tidak akurat. Dalam bias yang rendah / hasil varians tinggi, hasilnya tersebar di sekitar titik pusat yang akan mewakili kluster yang akurat, sedangkan dalam hasil bias / varians tinggi, titik data tersebar dan secara kolektif tidak akurat.