Rumah Tren Apa $ @! adalah hadoop?

Apa $ @! adalah hadoop?

Daftar Isi:

Anonim

Semua orang berbicara tentang Hadoop, teknologi baru panas yang sangat dihargai di kalangan pengembang dan mungkin saja mengubah dunia (lagi). Tapi apa itu? Apakah ini bahasa pemrograman? Database? Sistem pemrosesan? Teh India yang enak?


Jawaban luas: Hadoop adalah semua hal ini (kecuali teh yang nyaman), dan banyak lagi. Ini adalah pustaka perangkat lunak yang menyediakan kerangka kerja pemrograman untuk pemrosesan kata kunci modern lain yang murah dan bermanfaat: data besar.

Dari mana Hadoop berasal?

Apache Hadoop adalah bagian dari Proyek Yayasan dari Apache Software Foundation, sebuah organisasi nirlaba yang misinya adalah "menyediakan perangkat lunak untuk kepentingan umum." Dengan demikian, perpustakaan Hadoop gratis, perangkat lunak sumber terbuka tersedia untuk semua pengembang.


Teknologi yang mendasari kekuatan Hadoop sebenarnya diciptakan oleh Google. Dulu, mesin pencari yang tidak terlalu besar membutuhkan cara untuk mengindeks sejumlah besar data yang mereka kumpulkan dari Internet, dan mengubahnya menjadi hasil yang bermakna dan relevan bagi penggunanya. Dengan tidak ada yang tersedia di pasar yang dapat memenuhi persyaratan mereka, Google membangun platform mereka sendiri.


Inovasi-inovasi itu dirilis dalam proyek sumber terbuka bernama Nutch, yang kemudian digunakan Hadoop sebagai sebuah yayasan. Pada dasarnya, Hadoop menerapkan kekuatan Google untuk data besar dengan cara yang terjangkau untuk perusahaan dari semua ukuran.

Bagaimana cara kerja Hadoop?

Seperti yang disebutkan sebelumnya, Hadoop bukan satu hal - banyak hal. Pustaka perangkat lunak yaitu Hadoop terdiri dari empat bagian utama (modul), dan sejumlah solusi tambahan (seperti basis data dan bahasa pemrograman) yang meningkatkan penggunaannya di dunia nyata. Keempat modul tersebut adalah:

  • Hadoop Common: Ini adalah kumpulan utilitas umum (perpustakaan umum) yang mendukung modul Hadoop.
  • Sistem File Terdistribusi Hadoop (HDFS): Sistem file terdistribusi yang kuat tanpa batasan pada data yang disimpan (artinya data dapat terstruktur atau tidak terstruktur dan tanpa skema, di mana banyak DFS hanya akan menyimpan data terstruktur) yang menyediakan akses throughput tinggi dengan redundansi ( HDFS memungkinkan data disimpan di banyak mesin - jadi jika satu mesin gagal, ketersediaan dipertahankan melalui mesin lain).
  • Hadoop YARN: Kerangka kerja ini bertanggung jawab untuk penjadwalan pekerjaan dan manajemen sumber daya klaster; itu memastikan data tersebar cukup di beberapa mesin untuk mempertahankan redundansi. YARN adalah modul yang menjadikan Hadoop cara yang terjangkau dan hemat biaya untuk memproses data besar.
  • Hadoop MapReduce: Sistem berbasis YARN ini, dibangun di atas teknologi Google, melakukan pemrosesan paralel dari kumpulan data besar (terstruktur dan tidak terstruktur). MapReduce juga dapat ditemukan di sebagian besar kerangka kerja pemrosesan data besar saat ini, termasuk database MPP dan NoSQL.
Semua modul ini bekerja bersama menghasilkan pemrosesan terdistribusi untuk set data besar. Kerangka kerja Hadoop menggunakan model pemrograman sederhana yang direplikasi di seluruh kelompok komputer, yang berarti sistem dapat ditingkatkan dari server tunggal menjadi ribuan mesin untuk meningkatkan daya pemrosesan, daripada hanya mengandalkan perangkat keras saja.


Perangkat keras yang dapat menangani jumlah daya pemrosesan yang dibutuhkan untuk bekerja dengan data besar mahal, untuk membuatnya lebih sederhana. Ini adalah inovasi sebenarnya dari Hadoop: kemampuan untuk memecah sejumlah besar daya pemrosesan di beberapa mesin yang lebih kecil, masing-masing dengan perhitungan dan penyimpanan lokalnya sendiri, bersama dengan redundansi bawaan pada tingkat aplikasi untuk mencegah kegagalan.

Apa yang dilakukan Hadoop?

Secara sederhana, Hadoop membuat data besar dapat diakses dan dapat digunakan oleh semua orang.


Sebelum Hadoop, perusahaan yang menggunakan data besar melakukan sebagian besar dengan database relasional dan gudang data perusahaan (yang menggunakan perangkat keras mahal dalam jumlah besar). Walaupun alat ini sangat bagus untuk memproses data terstruktur - yaitu data yang sudah dipilah dan diatur dengan cara yang dapat dikelola - kapasitas untuk memproses data tidak terstruktur sangat terbatas, sehingga praktis tidak ada. Agar dapat digunakan, data harus terlebih dahulu disusun agar cocok dengan tabel.


Kerangka kerja Hadoop mengubah persyaratan itu, dan melakukannya dengan murah. Dengan Hadoop, sejumlah besar data dari 10 hingga 100 gigabyte ke atas, baik terstruktur dan tidak terstruktur, dapat diproses menggunakan server (komoditas) biasa.


Hadoop menghadirkan aplikasi big data potensial untuk bisnis dari semua ukuran, di setiap industri. Kerangka kerja open-source memungkinkan perusahaan pembiayaan untuk membuat model-model canggih untuk evaluasi portofolio dan analisis risiko, atau pengecer online untuk menyempurnakan jawaban pencarian mereka dan mengarahkan pelanggan ke arah produk yang lebih cenderung mereka beli.


Dengan Hadoop, kemungkinannya benar-benar tidak terbatas.

Apa $ @! adalah hadoop?