Rumah Tren Bagaimana hadoop membantu memecahkan masalah big data

Bagaimana hadoop membantu memecahkan masalah big data

Daftar Isi:

Anonim

Data besar adalah … baik … ukurannya besar! Berapa banyak data yang dapat digolongkan sebagai data besar tidak terlalu jelas, jadi jangan terjebak dalam perdebatan itu. Untuk perusahaan kecil yang terbiasa menangani data dalam gigabyte, data 10 TB akan menjadi BESAR. Namun untuk perusahaan seperti Facebook dan Yahoo, petabytes besar.


Hanya ukuran data besar, membuatnya tidak mungkin (atau setidaknya biaya mahal) untuk menyimpannya di penyimpanan tradisional seperti database atau filer konvensional. Kita berbicara tentang biaya untuk menyimpan gigabytes data. Menggunakan filer penyimpanan tradisional dapat menghabiskan banyak uang untuk menyimpan data besar.


Di sini kita akan melihat data besar, tantangannya, dan bagaimana Hadoop dapat membantu menyelesaikannya. Pertama, tantangan terbesar big data.


Big Data Tidak Terstruktur atau Semi-Terstruktur

Banyak data besar tidak terstruktur. Misalnya, klik stream data log mungkin terlihat seperti:


cap waktu, user_id, halaman, referrer_page


Kurangnya struktur membuat database relasional tidak cocok untuk menyimpan data besar. Plus, tidak banyak basis data yang dapat mengatasi penyimpanan miliaran baris data.

Tidak Ada gunanya Menyimpan Data Besar Jika Kita Tidak Dapat Memprosesnya

Menyimpan data besar adalah bagian dari permainan. Kita harus memprosesnya untuk menggali informasi intelijen darinya. Sistem penyimpanan tradisional cukup "bodoh" dalam arti mereka hanya menyimpan bit. Mereka tidak menawarkan kekuatan pemrosesan.


Model pemrosesan data tradisional memiliki data yang disimpan dalam cluster penyimpanan, yang disalin ke cluster komputasi untuk diproses. Hasilnya ditulis kembali ke cluster penyimpanan.


Model ini, bagaimanapun, tidak cukup berfungsi untuk data besar karena menyalin begitu banyak data ke cluster komputasi mungkin terlalu memakan waktu atau tidak mungkin. Jadi apa jawabannya?


Salah satu solusinya adalah mengolah data besar di tempat, seperti dalam cluster penyimpanan yang berfungsi sebagai cluster komputasi.


Jadi seperti yang telah kita lihat di atas, big data menentang penyimpanan tradisional. Jadi bagaimana kita menangani data besar?

Bagaimana Hadoop Memecahkan Masalah Big Data

Hadoop dibangun untuk dijalankan pada sekelompok mesin

Mari kita mulai dengan sebuah contoh. Katakanlah kita perlu menyimpan banyak foto. Kami akan mulai dengan satu disk. Ketika kami melebihi satu disk, kami dapat menggunakan beberapa disk yang ditumpuk pada mesin. Ketika kita maks semua disk pada satu mesin, kita perlu mendapatkan banyak mesin, masing-masing dengan banyak disk.


Inilah tepatnya bagaimana Hadoop dibangun. Hadoop dirancang untuk berjalan pada sekelompok mesin dari awal.



Skala cluster Hadoop secara horizontal

Lebih banyak penyimpanan dan daya komputasi dapat dicapai dengan menambahkan lebih banyak node ke cluster Hadoop. Ini menghilangkan kebutuhan untuk membeli lebih banyak perangkat keras yang lebih kuat dan mahal.


Hadoop dapat menangani data tidak terstruktur / semi-terstruktur

Hadoop tidak menerapkan skema pada data yang disimpannya. Itu dapat menangani teks dan data biner sewenang-wenang. Jadi Hadoop dapat mencerna data tidak terstruktur dengan mudah.


Cluster Hadoop menyediakan penyimpanan dan komputasi

Kami melihat bagaimana memiliki cluster penyimpanan dan pemrosesan yang terpisah bukan yang paling cocok untuk data besar. Cluster Hadoop, bagaimanapun, menyediakan penyimpanan dan komputasi terdistribusi secara keseluruhan.

Kasus Bisnis untuk Hadoop

Hadoop menyediakan penyimpanan untuk data besar dengan biaya yang masuk akal

Menyimpan data besar menggunakan penyimpanan tradisional bisa mahal. Hadoop dibangun di sekitar perangkat keras komoditas, sehingga dapat menyediakan penyimpanan yang cukup besar dengan biaya yang masuk akal. Hadoop telah digunakan di lapangan pada skala petabyte.


Satu studi oleh Cloudera menyarankan bahwa perusahaan biasanya menghabiskan sekitar $ 25.000 hingga $ 50.000 per terabyte per tahun. Dengan Hadoop, biaya ini turun menjadi beberapa ribu dolar per terabyte per tahun. Karena perangkat keras menjadi lebih murah dan lebih murah, biaya ini terus turun.


Hadoop memungkinkan untuk menangkap data baru atau lebih

Terkadang organisasi tidak menangkap tipe data karena terlalu mahal untuk menyimpannya. Karena Hadoop menyediakan penyimpanan dengan biaya yang wajar, tipe data ini dapat ditangkap dan disimpan.


Salah satu contohnya adalah log klik situs web. Karena volume log ini bisa sangat tinggi, tidak banyak organisasi yang menangkapnya. Sekarang dengan Hadoop dimungkinkan untuk mengambil dan menyimpan log.


Dengan Hadoop, Anda dapat menyimpan data lebih lama

Untuk mengelola volume data yang disimpan, perusahaan secara berkala membersihkan data yang lebih lama. Misalnya, hanya log selama tiga bulan terakhir yang dapat disimpan, sementara log lama dihapus. Dengan Hadoop dimungkinkan untuk menyimpan data historis lebih lama. Ini memungkinkan analitik baru dilakukan pada data historis yang lebih lama.


Misalnya, ambil log klik dari situs web. Beberapa tahun yang lalu, log-log ini disimpan dalam waktu singkat untuk menghitung statistik seperti halaman-halaman populer. Sekarang dengan Hadoop, layak untuk menyimpan log klik ini untuk jangka waktu yang lebih lama.


Hadoop menyediakan analitik yang skalabel

Tidak ada gunanya menyimpan semua data ini jika kami tidak dapat menganalisisnya. Hadoop tidak hanya menyediakan penyimpanan terdistribusi, tetapi juga pemrosesan terdistribusi juga, yang berarti kita dapat mengolah data dalam jumlah besar secara paralel. Kerangka kerja komputasi Hadoop disebut MapReduce. MapReduce telah terbukti dengan skala petabyte.


Hadoop menyediakan analitik yang kaya

Native MapReduce mendukung Java sebagai bahasa pemrograman utama. Bahasa lain seperti Ruby, Python dan R dapat digunakan juga.


Tentu saja, menulis kode MapReduce khusus bukan satu-satunya cara untuk menganalisis data di Hadoop. Pengurangan Peta tingkat tinggi tersedia. Sebagai contoh, alat bernama Pig mengambil bahasa Inggris seperti data flow language dan menerjemahkannya ke MapReduce. Alat lain, Hive, mengambil kueri SQL dan menjalankannya menggunakan MapReduce.


Alat intelijen bisnis (BI) dapat memberikan tingkat analisis yang lebih tinggi. Ada alat untuk jenis analisis ini juga.


Konten ini dikutip dari "Hadoop Illuminated" oleh Mark Kerzner dan Sujee Maniyam. Ini telah tersedia melalui Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Lisensi Tidak Berportasi.

Bagaimana hadoop membantu memecahkan masalah big data