Rumah Audio Bagaimana pengikisan data untuk pembelajaran mesin menjadi hambatan paling padat karya sejak entri data manual dalam migrasi lama?

Bagaimana pengikisan data untuk pembelajaran mesin menjadi hambatan paling padat karya sejak entri data manual dalam migrasi lama?

Anonim

Q:

Bagaimana pengikisan data untuk pembelajaran mesin menjadi hambatan paling padat karya sejak entri data manual dalam migrasi lama?

SEBUAH:

Salah satu masalah praktis yang mungkin dihadapi perusahaan ketika mencoba memulai proyek pembelajaran mesin (ML) adalah tantangan untuk memperoleh set data pelatihan awal. Ini mungkin termasuk proses padat karya seperti pengikisan web atau pengikisan data lainnya.

Istilah pengikisan web dan pengikisan data sebagian besar mengacu pada aktivitas otomatis oleh perangkat lunak komputer, tetapi untuk banyak proyek ML, akan ada kasus di mana komputer tidak memiliki kecanggihan untuk mengumpulkan data yang ditargetkan dengan benar, sehingga harus dilakukan "dengan tangan." Ini Anda mungkin menyebutnya "web human / data scraping, " dan ini adalah pekerjaan tanpa pamrih. Biasanya melibatkan keluar dan mencari data atau gambar untuk "memberi makan" program ML melalui set pelatihan. Ini seringkali sangat berulang, yang membuatnya membosankan, lamban, pekerjaan yang menuntut.

Unduh Gratis: Pembelajaran Mesin dan Mengapa Itu Penting

Pengikisan data untuk set pelatihan ML menunjukkan hambatan unik unik dalam pembelajaran mesin, sebagian karena begitu banyak pekerjaan lain yang sangat konseptual dan tidak berulang. Banyak orang dapat memberikan ide bagus untuk aplikasi baru yang melakukan tugas pembelajaran mesin, tetapi mur dan baut dan pekerjaan praktis bisa menjadi jauh lebih sulit. Secara khusus, mendelegasikan pekerjaan merakit set pelatihan sebenarnya dapat menjadi salah satu bagian tersulit dari proyek ML, seperti yang sepenuhnya dieksplorasi dalam acara TV "Silicon Valley" Mike Judge. Dalam episode empat musim, seorang pengusaha pemula pertama-tama menggertak seorang mitra untuk melakukan pekerjaan padat karya, kemudian mencoba untuk menularkannya pada mahasiswa dengan menyamarkannya sebagai tugas pekerjaan rumah.

Contoh ini bersifat instruktif karena menunjukkan betapa tidak disukai dan tampaknya tidak penting pengikisan data manual. Namun, ini juga menunjukkan bahwa proses ini diperlukan untuk berbagai produk pembelajaran mesin. Meskipun kebanyakan orang membenci entri data, set pelatihan harus dikumpulkan dengan cara tertentu. Para ahli pada proses sering merekomendasikan menggunakan layanan pengikisan web - pada dasarnya hanya outsourcing pekerjaan yang sangat padat karya ini ke pihak eksternal, tetapi itu bisa memiliki konsekuensi keamanan dan menyebabkan masalah lain. Ketika menjaga pengumpulan data manual tetap berjalan, sekali lagi, harus ada ketentuan yang dibuat untuk apa yang seringkali merupakan proses yang sangat manual dan memakan waktu.

Dalam beberapa hal, "pengikisan data manusia" untuk pembelajaran mesin terlihat seperti entri data manual yang terkadang harus dilakukan dalam migrasi lawas. Ketika cloud menjadi semakin populer, dan perusahaan memasukkan proses dan alur kerja mereka ke cloud, beberapa menemukan bahwa mereka belum bekerja melalui aspek-aspek praktis tentang cara mendapatkan data perusahaan mereka dari sistem warisan yang terisolasi ke dalam aplikasi cloud-native. Akibatnya, beberapa orang yang sebelumnya adalah ilmuwan data atau orang-orang kreatif dengan keterampilan TI penting menemukan diri mereka melakukan tugas entri data yang tidak menyenangkan.

Hal yang sama kemungkinan terjadi dengan pembelajaran mesin. Anda mungkin mendengar seorang ilmuwan data mengeluh bahwa "Saya adalah orang yang kreatif" atau "Saya berada di sisi pengembangan" - tetapi seseorang harus melakukan pekerjaan kotor.

Sekali lagi, jika aliran kreatif tidak cocok dengan penilaian praktis delegasi alur kerja, akan ada ketidakcocokan dalam bagaimana penanganan tugas diarahkan. Ketika sebuah perusahaan tidak memiliki orang untuk melakukan pekerjaan pengikisan data dalam mengumpulkan set data, ia tidak memiliki bagian penting dari rantai prosedur untuk proyek yang sukses. Sebaiknya ingat hal ini setiap kali perusahaan mencoba membuat ide yang didasarkan pada pengembangan aplikasi pembelajaran mesin baru.

Bagaimana pengikisan data untuk pembelajaran mesin menjadi hambatan paling padat karya sejak entri data manual dalam migrasi lama?