Daftar Isi:
- Bagaimana Big Data Digunakan
- Di mana nilai sebenarnya?
- Terkadang, Data Kecil Membuat Dampak Lebih Besar (dan Lebih Murah)
Big data adalah kata selimut yang digunakan untuk merujuk pada penanganan volume data yang besar. Kita semua mengerti bahwa semakin besar volume data, semakin kompleks pula jadinya. Solusi database tradisional sering gagal mengelola volume data yang besar dengan benar karena kerumitan dan ukurannya. Oleh karena itu, mengelola volume data yang besar dan mengekstraksi wawasan nyata adalah tugas yang menantang. Konsep "nilai" yang sama juga berlaku untuk data kecil.
Bagaimana Big Data Digunakan
Solusi basis data konvensional berdasarkan konsep RDBMS dapat mengelola data transaksional dengan sangat baik dan banyak digunakan dalam berbagai aplikasi. Tetapi ketika datang untuk menangani satu set besar data (data yang diarsipkan dan dalam terabyte atau petabytes), solusi database ini sering gagal. Kumpulan data ini terlalu besar dan seringkali tidak cocok dengan arsitektur database tradisional. Saat ini, big data telah menjadi pendekatan yang hemat biaya untuk menangani set data yang lebih besar. Dari sudut pandang organisasi, penggunaan data besar dapat dibagi ke dalam kategori berikut, di mana nilai riil big data berada:- Penggunaan Analitik
Analis data besar telah mengungkapkan banyak aspek tersembunyi penting dari data yang terlalu mahal untuk diproses. Misalnya, jika kita harus memeriksa minat tren siswa pada topik baru tertentu, kita dapat melakukan ini dengan menganalisis catatan kehadiran harian dan fakta sosial dan geografis lainnya. Fakta-fakta ini ditangkap dalam database. Jika kami tidak dapat mengakses data ini secara efisien, kami tidak dapat melihat hasilnya.
- Aktifkan Produk Baru
Di masa lalu baru-baru ini, banyak perusahaan Web baru, seperti Facebook, sudah mulai menggunakan data besar sebagai solusi untuk meluncurkan produk baru. Kita semua tahu betapa populernya Facebook - Facebook telah berhasil menyiapkan pengalaman pengguna berkinerja tinggi menggunakan data besar.
Di mana nilai sebenarnya?
Solusi big data yang berbeda berbeda dalam pendekatan di mana mereka menyimpan data, tetapi pada akhirnya, mereka semua menyimpan data dalam struktur file datar. Secara umum, Hadoop terdiri dari sistem file dan beberapa abstraksi data tingkat sistem operasi. Ini termasuk mesin MapReduce dan Sistem File Terdistribusi Hadoop (HDFS). Cluster Hadoop sederhana termasuk satu node master dan beberapa node pekerja. Node master terdiri dari yang berikut:- Pelacak Tugas
- Pelacak Pekerjaan
- Beri Nama Node
- Simpul Data
- Pelacak Tugas
- Simpul Data
Beberapa implementasi hanya memiliki simpul data. Node data adalah area aktual tempat data berada. HDFS menyimpan file besar (dalam kisaran terabyte ke petabytes) didistribusikan di beberapa mesin. Keandalan data pada setiap node dicapai dengan mereplikasi data di semua host. Dengan demikian, data tersedia bahkan ketika salah satu node sedang down. Ini membantu dalam mencapai respons yang lebih cepat terhadap pertanyaan. Konsep ini sangat berguna dalam hal aplikasi besar seperti Facebook. Sebagai pengguna, kami mendapat respons terhadap permintaan obrolan kami, misalnya, segera. Pertimbangkan skenario di mana pengguna harus menunggu lama saat mengobrol. Jika pesan dan respons selanjutnya tidak segera terkirim, maka berapa banyak orang yang benar-benar akan menggunakan alat obrolan ini?
Kembali ke implementasi Facebook, jika data tidak direplikasi di seluruh cluster, itu tidak akan mungkin untuk memiliki implementasi yang menarik. Hadoop mendistribusikan data lintas mesin dalam kelompok yang lebih besar, dan menyimpan file sebagai urutan blok. Blok-blok ini berukuran identik kecuali blok terakhir. Ukuran blok dan faktor replikasi dapat disesuaikan sesuai kebutuhan. File dalam HDFS benar-benar mengikuti pendekatan menulis-sekali dan karenanya hanya dapat ditulis atau diedit oleh satu pengguna pada suatu waktu. Keputusan tentang replikasi blok dibuat oleh simpul nama. Node nama menerima laporan dan respons pulsa dari masing-masing node data. Respons pulsa memastikan ketersediaan simpul data yang sesuai. Laporan tersebut berisi rincian blok pada simpul data.
Implementasi big data lainnya, Cassandra, juga menggunakan konsep distribusi yang serupa. Cassandra mendistribusikan data berdasarkan lokasi geografis. Oleh karena itu, dalam Cassandra, data dipisahkan berdasarkan lokasi geografis dari penggunaan data.
Terkadang, Data Kecil Membuat Dampak Lebih Besar (dan Lebih Murah)
Sesuai Rufus Pollock dari Open Knowledge Foundation, tidak ada gunanya menciptakan hype di sekitar data besar sementara data kecil masih merupakan tempat di mana nilai sebenarnya berada.
Seperti namanya, data kecil adalah sekumpulan data yang ditargetkan dari sekumpulan data yang lebih besar. Data kecil bermaksud mengalihkan fokus dari penggunaan data dan juga bertujuan untuk melawan tren bergerak menuju data besar. Pendekatan data kecil membantu dalam mengumpulkan data berdasarkan persyaratan khusus menggunakan sedikit usaha. Akibatnya, ini adalah praktik bisnis yang lebih efisien saat menerapkan intelijen bisnis.
Pada intinya, konsep data kecil berputar di sekitar bisnis yang membutuhkan hasil yang memerlukan tindakan lebih lanjut. Hasil ini harus diambil dengan cepat dan tindakan selanjutnya juga harus dilakukan segera. Dengan demikian, kita dapat menghilangkan jenis sistem yang biasa digunakan dalam analitik data besar.
Secara umum, jika kami mempertimbangkan beberapa sistem khusus yang diperlukan untuk akuisisi data besar, perusahaan mungkin berinvestasi dalam menyiapkan banyak penyimpanan server, menggunakan server canggih dan aplikasi data mining terbaru untuk menangani bit data yang berbeda., termasuk tanggal dan waktu tindakan pengguna, informasi demografis dan informasi lainnya. Seluruh kumpulan data ini bergerak ke gudang data pusat, tempat algoritma kompleks digunakan untuk mengurutkan dan memproses data untuk ditampilkan dalam bentuk laporan terperinci.
Kita semua tahu bahwa solusi ini telah menguntungkan banyak bisnis dalam hal skalabilitas dan ketersediaan; ada organisasi yang menemukan bahwa mengadopsi pendekatan ini memerlukan upaya yang substansial. Juga benar bahwa dalam beberapa kasus, hasil serupa dicapai dengan menggunakan strategi penambangan data yang kurang kuat.
Data kecil menyediakan cara bagi organisasi untuk mundur dari obsesi dengan teknologi terbaru dan terbaru yang mendukung proses bisnis yang lebih canggih. Perusahaan yang mempromosikan data kecil berpendapat bahwa penting dari sudut pandang bisnis untuk menggunakan sumber daya mereka secara efisien, sehingga pengeluaran yang berlebihan pada teknologi dapat dihindari sampai batas tertentu.
Kami telah membahas banyak tentang data besar dan realitas data kecil, tetapi kita harus memahami bahwa memilih platform yang tepat (data besar atau data kecil) untuk penggunaan yang benar adalah bagian terpenting dari seluruh latihan. Dan kebenarannya adalah meskipun data besar dapat memberikan banyak manfaat, itu tidak selalu terbaik.