Q:
Bisakah ada terlalu banyak data dalam data besar?
SEBUAH:Jawaban atas pertanyaan itu adalah YA yang tegas. Pasti ada terlalu banyak data dalam proyek big data.
Ada banyak cara di mana ini bisa terjadi, dan berbagai alasan mengapa para profesional perlu membatasi dan mengumpulkan data dalam berbagai cara untuk mendapatkan hasil yang tepat. (Baca 10 Mitos Besar Tentang Data Besar.)
Secara umum, para ahli berbicara tentang membedakan "sinyal" dari "noise" dalam suatu model. Dengan kata lain, di lautan data besar, data wawasan yang relevan menjadi sulit untuk ditargetkan. Dalam beberapa kasus, Anda mencari jarum di tumpukan jerami.
Misalnya, misalkan sebuah perusahaan mencoba menggunakan data besar untuk menghasilkan wawasan spesifik pada segmen basis pelanggan, dan pembelian mereka dalam jangka waktu tertentu. (Baca Apa yang dilakukan data besar?)
Mengambil dalam jumlah besar aset data dapat mengakibatkan pengambilan data acak yang tidak relevan, atau bahkan mungkin menghasilkan bias yang memiringkan data dalam satu arah atau yang lain.
Ini juga memperlambat proses secara dramatis, karena sistem komputasi harus bergulat dengan set data yang lebih besar dan lebih besar.
Dalam berbagai jenis proyek, sangat penting bagi para insinyur data untuk mengumpulkan data ke set data yang terbatas dan spesifik - dalam kasus di atas, itu hanya akan menjadi data untuk segmen pelanggan yang sedang dipelajari, hanya data untuk waktu itu bingkai sedang dipelajari, dan pendekatan yang menyingkirkan informasi pengidentifikasi atau latar belakang tambahan yang dapat membingungkan hal-hal atau memperlambat sistem. (Peran ReadJob: Insinyur Data.)
Untuk lebih lanjut, mari kita lihat bagaimana ini bekerja di garis depan pembelajaran mesin. (Baca Pembelajaran Mesin 101.)
Pakar pembelajaran mesin berbicara tentang sesuatu yang disebut "overfitting" di mana model yang terlalu rumit mengarah ke hasil yang kurang efektif ketika program pembelajaran mesin dilepaskan pada data produksi baru.
Overfitting terjadi ketika satu set poin data yang kompleks cocok dengan set latihan awal yang terlalu baik, dan tidak memungkinkan program untuk dengan mudah beradaptasi dengan data baru.
Sekarang secara teknis, overfitting bukan disebabkan oleh terlalu banyak sampel data, tetapi oleh penobatan terlalu banyak titik data. Tetapi Anda bisa berargumen bahwa memiliki terlalu banyak data juga dapat menjadi faktor penyebab jenis masalah ini. Menghadapi kutukan dimensi melibatkan beberapa teknik yang sama yang dilakukan dalam proyek-proyek big data sebelumnya ketika para profesional mencoba untuk menunjukkan dengan tepat apa yang mereka makan dengan sistem TI.
Intinya adalah bahwa data besar dapat sangat membantu perusahaan, atau itu bisa menjadi tantangan besar. Salah satu aspek dari ini adalah apakah perusahaan memiliki data yang tepat dalam permainan. Para ahli tahu bahwa tidak disarankan untuk hanya membuang semua aset data ke dalam hopper dan menghasilkan wawasan seperti itu - dalam sistem data asli dan canggih yang baru cloud, ada upaya untuk mengontrol dan mengelola dan mengumpulkan data untuk mendapatkan lebih akurat dan penggunaan yang efisien dari aset data.