Daftar Isi:
- Bagaimana Hadoop memulainya?
- Apa yang begitu penting tentang Hadoop?
- Apakah Skema sedang dibaca?
- Apa itu Sarang?
- Jenis data apa yang dianalisis Hadoop?
- Bisakah Anda memberikan contoh dunia nyata Hadoop?
- Apakah Hadoop sudah usang atau hanya berubah?
Apa itu Hadoop? Ini gajah mainan kuning. Tidak apa yang Anda harapkan? Bagaimana dengan ini: Doug Cutting - co-pencipta proyek perangkat lunak sumber terbuka ini - meminjam nama dari putranya yang kebetulan menyebut mainannya gajah Hadoop. Singkatnya, Hadoop adalah kerangka kerja perangkat lunak yang dikembangkan oleh Apache Software Foundation yang digunakan untuk mengembangkan komputasi terdistribusi data-intensif. Dan itu adalah komponen kunci dalam pembaca kata kunci lain yang sepertinya tidak pernah bisa mendapatkan cukup: data besar. Berikut adalah tujuh hal yang harus Anda ketahui tentang perangkat lunak unik dan berlisensi gratis ini.
Bagaimana Hadoop memulainya?
Dua belas tahun yang lalu, Google membangun sebuah platform untuk memanipulasi sejumlah besar data yang dikumpulkannya. Seperti yang sering dilakukan perusahaan, Google membuat desainnya tersedia untuk umum dalam bentuk dua makalah: Google File System dan MapReduce.
Pada saat yang sama, Doug Cutting dan Mike Cafarella sedang mengerjakan Nutch, mesin pencari baru. Keduanya juga berjuang dengan cara menangani data dalam jumlah besar. Kemudian kedua peneliti mendapatkan kabar dari Google. Persimpangan yang beruntung itu mengubah segalanya dengan memperkenalkan Cutting dan Cafarella ke sistem file yang lebih baik dan cara untuk melacak data, akhirnya mengarah ke penciptaan Hadoop.
Apa yang begitu penting tentang Hadoop?
Saat ini, mengumpulkan data lebih mudah dari sebelumnya. Memiliki semua data ini menghadirkan banyak peluang, tetapi ada juga tantangan:- Jumlah besar data memerlukan metode pemrosesan baru.
- Data yang diambil dalam format tidak terstruktur.
Selanjutnya, mereka harus menangani data yang tidak terstruktur atau data dalam format yang tidak dapat ditangani oleh sistem basis data relasional standar. Cutting dan Cafarella merancang Hadoop untuk bekerja dengan semua jenis data: terstruktur, tidak terstruktur, gambar, file audio, bahkan teks. Buku putih Cloudera (Hadoop integrator) ini menjelaskan mengapa ini penting:
-
"Dengan membuat semua data Anda dapat digunakan, bukan hanya apa yang ada di database Anda, Hadoop memungkinkan Anda mengungkap hubungan tersembunyi dan mengungkapkan jawaban yang selalu tidak terjangkau. Anda dapat mulai membuat lebih banyak keputusan berdasarkan data keras, alih-alih firasat, dan mencari pada set data lengkap, bukan hanya sampel dan ringkasan. "
Apakah Skema sedang dibaca?
Seperti yang disebutkan sebelumnya, salah satu kelebihan Hadoop adalah kemampuannya menangani data yang tidak terstruktur. Dalam arti tertentu, itu adalah "menendang kaleng di jalan." Akhirnya data membutuhkan semacam struktur untuk menganalisisnya.
Di situlah skema baca dibaca berperan. Skema yang dibaca adalah perpaduan dari format data apa, di mana menemukan data (ingat data tersebar di beberapa server), dan apa yang harus dilakukan untuk data - bukan tugas yang sederhana. Dikatakan bahwa memanipulasi data dalam sistem Hadoop membutuhkan keterampilan seorang analis bisnis, ahli statistik dan seorang programmer Java. Sayangnya, tidak banyak orang dengan kualifikasi itu.
Apa itu Sarang?
Jika Hadoop akan berhasil, bekerja dengan data harus disederhanakan. Jadi, kerumunan open-source mulai bekerja dan menciptakan Hive:-
"Hive menyediakan mekanisme untuk memproyeksikan struktur ke data ini dan meminta data menggunakan bahasa seperti SQL yang disebut HiveQL. Pada saat yang sama bahasa ini juga memungkinkan peta tradisional / programer pengurangan untuk menyambungkan pembuat peta dan reduksi khusus mereka ketika tidak nyaman atau tidak efisien untuk mengekspresikan logika ini dalam HiveQL. "
Hive memungkinkan yang terbaik dari kedua dunia: personel basis data yang akrab dengan perintah SQL dapat memanipulasi data, dan pengembang yang akrab dengan skema proses baca masih dapat membuat kueri yang disesuaikan.
Jenis data apa yang dianalisis Hadoop?
Analisis Web adalah hal pertama yang terlintas dalam pikiran, menganalisis log Web dan lalu lintas Web untuk mengoptimalkan situs web. Facebook, misalnya, jelas ke dalam analisis Web, menggunakan Hadoop untuk memilah-milah terabyte data yang diakumulasi perusahaan.
Perusahaan menggunakan cluster Hadoop untuk melakukan analisis risiko, deteksi penipuan, dan segmentasi basis pelanggan. Perusahaan utilitas menggunakan Hadoop untuk menganalisis data sensor dari jaringan listrik mereka, memungkinkan mereka untuk mengoptimalkan produksi listrik. Perusahaan besar seperti Target, 3M dan Medtronics menggunakan Hadoop untuk mengoptimalkan distribusi produk, penilaian risiko bisnis, dan segmentasi berdasarkan pelanggan.
Universitas juga berinvestasi di Hadoop. Brad Rubin, seorang associate professor di University of St. Thomas Program Pascasarjana dalam Perangkat Lunak, menyebutkan bahwa keahlian Hadoop membantu memilah-milah jumlah data yang dikumpulkan oleh kelompok-kelompok penelitian di universitas.
Bisakah Anda memberikan contoh dunia nyata Hadoop?
Salah satu contoh yang lebih dikenal adalah TimesMachine. The New York Times memiliki koleksi gambar TIFF surat kabar satu halaman penuh, metadata terkait, dan teks artikel dari tahun 1851 hingga 1922 yang berjumlah terabyte data. Derek Gottfrid NYT, menggunakan sistem EC2 / S3 / Hadoop dan kode khusus, :-
"Mencerna 405.000 gambar TIFF yang sangat besar, 3, 3 juta artikel dalam SGML dan 405.000 file xml memetakan artikel ke wilayah persegi panjang di TIFFs. Data ini dikonversi menjadi 810.000 gambar PNG yang lebih ramah web (gambar kecil dan gambar penuh) dan 405.000 file JavaScript. "
Menggunakan server di cloud Amazon Web Services, Gottfrid menyebutkan bahwa mereka dapat memproses semua data yang diperlukan untuk TimesMachine dalam waktu kurang dari 36 jam.
Apakah Hadoop sudah usang atau hanya berubah?
Hadoop telah ada selama lebih dari satu dekade sekarang. Banyak yang mengatakan itu sudah usang. Seorang ahli, Dr. David Rico, mengatakan bahwa "Produk-produk TI berumur pendek. Pada tahun-tahun anjing, produk-produk Google adalah sekitar 70, sedangkan Hadoop adalah 56."
Mungkin ada kebenaran atas apa yang dikatakan Rico. Tampaknya Hadoop akan melalui perombakan besar. Untuk mempelajari lebih lanjut tentang hal itu, Rubin mengundang saya ke pertemuan Kelompok Pengguna Hadoop Kota Kembar, dan topik diskusi adalah Pengantar YARN:
-
"Apache Hadoop 2 mencakup mesin MapReduce baru, yang memiliki sejumlah keunggulan dibandingkan implementasi sebelumnya, termasuk skalabilitas dan pemanfaatan sumber daya yang lebih baik. Implementasi baru ini dibangun di atas sistem manajemen sumber daya umum untuk menjalankan aplikasi terdistribusi yang disebut YARN."