Q:
Apa sajakah cara kunci untuk mengotomatisasi dan mengoptimalkan proses ilmu data?
SEBUAH:Proses sains data dalam konteks pembelajaran mesin dan AI dapat dibagi menjadi empat fase berbeda:
- akuisisi dan eksplorasi data,
- bangunan model,
- penyebaran model dan
- evaluasi dan penyempurnaan online.
Dari pengalaman saya, fase yang paling menghambat adalah fase akuisisi data dan model penyebaran dalam setiap proses ilmu data berbasis pembelajaran mesin, dan berikut adalah dua cara untuk mengoptimalkannya:
1. Buat datastore yang sangat mudah diakses.
Di sebagian besar organisasi, data tidak disimpan di satu lokasi pusat. Mari kita ambil informasi yang terkait dengan pelanggan. Anda memiliki informasi kontak pelanggan, email dukungan pelanggan, umpan balik pelanggan, dan riwayat penelusuran pelanggan jika bisnis Anda adalah aplikasi web. Semua data ini tersebar secara alami, karena melayani tujuan yang berbeda. Mereka mungkin berada di database yang berbeda dan beberapa mungkin sepenuhnya terstruktur dan beberapa tidak terstruktur, dan bahkan dapat disimpan sebagai file teks biasa.
Sayangnya, penyebaran dataset ini sangat terbatas pada pekerjaan sains data sebagai dasar dari semua NLP, pembelajaran mesin dan masalah AI adalah data . Jadi, memiliki semua data ini di satu tempat - datastore - sangat penting dalam mempercepat pengembangan dan penyebaran model. Mengingat ini adalah bagian penting untuk semua proses sains data, organisasi harus merekrut insinyur data yang berkualitas untuk membantu mereka membangun datastore mereka. Ini dapat dengan mudah dimulai ketika data sederhana dibuang ke satu lokasi dan perlahan-lahan tumbuh menjadi repositori data yang dipikirkan dengan matang, sepenuhnya didokumentasikan dan dapat dipertanyakan dengan alat utilitas untuk mengekspor subset data ke dalam format yang berbeda untuk tujuan yang berbeda.
2. Ekspos model Anda sebagai layanan untuk integrasi tanpa batas.
Selain memungkinkan akses ke data, penting juga untuk dapat mengintegrasikan model yang dikembangkan oleh para ilmuwan data ke dalam produk. Mungkin sangat sulit untuk mengintegrasikan model yang dikembangkan dengan Python dengan aplikasi web yang berjalan di Ruby. Selain itu, model mungkin memiliki banyak ketergantungan data yang mungkin tidak dapat disediakan oleh produk Anda.
Salah satu cara untuk mengatasinya adalah dengan menyiapkan infrastruktur yang kuat di sekitar model Anda dan mengekspos fungsionalitas yang cukup yang dibutuhkan oleh produk Anda untuk menggunakan model itu sebagai "layanan web." Misalnya, jika aplikasi Anda memerlukan klasifikasi sentimen pada ulasan produk, yang perlu dilakukan adalah memohon layanan web, memberikan teks yang relevan dan layanan akan memberikan kembali klasifikasi sentimen yang tepat yang dapat digunakan langsung oleh produk. Dengan cara ini, integrasi hanya dalam bentuk panggilan API. Memisahkan model dan produk yang menggunakannya membuatnya sangat mudah untuk produk baru yang Anda hasilkan juga menggunakan model ini dengan sedikit kerumitan.
Sekarang, menyiapkan infrastruktur di sekitar model Anda adalah cerita lain dan membutuhkan investasi awal yang besar dari tim teknik Anda. Setelah infrastruktur ada di sana, itu hanya masalah membangun model dengan cara yang sesuai dengan infrastruktur.