Q:
Mengapa beberapa proyek pembelajaran mesin membutuhkan banyak aktor?
SEBUAH:Ketika Anda memikirkan pembelajaran mesin, Anda cenderung memikirkan ilmuwan data yang terampil yang bekerja pada keyboard di ruang komputer. Ada penekanan ekstrim pada analisis kuantitatif dan algoritma. Tidak ada banyak konteks dunia nyata langsung ke banyak program ini - setidaknya, itulah yang akan dipikirkan banyak orang.
Namun, beberapa program pembelajaran mesin yang paling inovatif saat ini adalah memanfaatkan pasukan benar-benar aktor manusia di jalan, di toko-toko dan di mana saja mereka dapat memodelkan kegiatan dasar manusia seperti berjalan, bekerja atau berbelanja.
Unduh Gratis: Pembelajaran Mesin dan Mengapa Itu Penting |
Sebuah artikel Wired oleh Tom Simonite mengilustrasikan hal ini dengan sangat baik dengan judul yang tepat "Untuk Membuat AI Lebih Cerdas, Manusia Melakukan Tugas Rendah Oddball."
Menggunakan contoh video pendek yang diambil di toko bahan makanan Whole Foods, Simonite menyoroti jenis pekerjaan yang akan membantu membangun beberapa tahap pembelajaran mesin berikutnya.
Ini mengarah pada pertanyaan mengapa semua orang ini terlibat dalam pembuatan film sendiri dalam video pendek dan sederhana yang mendokumentasikan tindakan yang belum sempurna seperti menggerakkan lengan atau kaki.
Jawabannya memberi titik terang di mana pembelajaran mesin dan ke mana ia pergi.
"Para peneliti dan pengusaha ingin melihat AI memahami dan bertindak di dunia fisik, " tulis Simonite, menjelaskan mengapa ia dan yang lainnya keliling dengan kamera. “Karena itu, kebutuhan pekerja untuk memerankan adegan di supermarket dan rumah. Mereka menghasilkan materi pengajaran untuk mengajarkan algoritma tentang dunia dan orang-orang di dalamnya. "
Seperti yang akan ditunjukkan oleh banyak ahli, beberapa batas terbesar pembelajaran mesin melibatkan pemrosesan gambar dan pemrosesan bahasa alami. Ini adalah prosedur yang sangat kuantitatif - dengan kata lain, tidak ada spektrum input yang luas seperti yang ada di lingkungan dunia nyata "performant". Sebaliknya, program pembelajaran mesin menggunakan data visual dan audio dengan cara yang sangat spesifik untuk membangun model. Dengan pemrosesan gambar, memilih fitur dari bidang visi (terbatas). Untuk NLP, itu merakit fonem.
Melampaui kategori input spesifik ini melibatkan sesuatu yang Anda sebut "gambar dan celah bicara" - dalam melampaui hal-hal seperti pemrosesan gambar dan pengenalan suara, Anda pindah ke area di mana komputer harus analitik dengan cara yang berbeda. Set pelatihan akan berbeda secara mendasar.
Masukkan pasukan videografer. Dalam beberapa proyek pembelajaran mesin baru ini, ide terkecil dari aktivitas manusia adalah perangkat pelatihan. Alih-alih dilatih untuk mencari fitur dan tepi dan piksel yang menyusun tugas klasifikasi, komputer malah menggunakan video pelatihan untuk menilai seperti apa bentuk tindakan yang berbeda.
Kuncinya adalah apa yang dapat dilakukan oleh para insinyur dengan data ini ketika dikumpulkan dan dimuat, dan ketika komputer dilatih untuk hal itu. Anda akan segera melihat hasilnya di berbagai bidang - misalnya, ini akan membuat pengawasan menjadi sangat efektif. Komputer akan dapat "melihat" dalam bidang visual apa yang dilakukan orang, dan menerapkannya pada bidang seperti pemasaran dan penjualan, atau mungkin, dalam beberapa kasus, pekerjaan lembaga pemerintah atau peradilan pidana.
Konsekuensi juga memberi titik terang pada perdebatan antara manfaat maksimum dan pertanyaan privasi. Sebagian besar penggunaan video ini akan membangun model pembelajaran mesin yang berfungsi untuk pengawasan - tetapi bagaimana dengan orang yang tidak ingin diawasi? Ketika program pembelajaran mesin baru ini digunakan di ruang publik, apa hak-hak individu dan di mana garis itu ditarik?
Dalam kasus apa pun, perusahaan menggunakan sumber daya manusia dan video semacam ini untuk benar-benar menggali beberapa putaran berikutnya dari kemajuan pembelajaran mesin yang benar-benar akan memungkinkan komputer untuk mengenali apa yang terjadi di sekitar mereka, daripada hanya mengklasifikasikan gambar atau bekerja dengan fonem dari pidato. Ini adalah perkembangan yang sangat menarik dan kontroversial dalam kecerdasan buatan, dan salah satu yang layak mendapat perhatian di media teknologi dan seterusnya.