Daftar Isi:
Apache Hadoop telah menjadi dasar untuk aplikasi data besar untuk waktu yang lama, dan dianggap sebagai platform data dasar untuk semua penawaran terkait data besar. Namun, basis data dan komputasi dalam memori semakin populer karena kinerja yang lebih cepat dan hasil yang cepat. Apache Spark adalah kerangka kerja baru yang memanfaatkan kemampuan dalam memori untuk memberikan pemrosesan cepat (hampir 100 kali lebih cepat dari Hadoop). Jadi, produk Spark semakin banyak digunakan di dunia data besar, dan terutama untuk pemrosesan yang lebih cepat.
Webinar: Kekuatan Saran: Bagaimana Katalog Data Memberdayakan Analis Daftar disini |
Apa itu Apache Spark?
Apache Spark adalah kerangka kerja open-source untuk memproses volume data yang besar (big data) dengan kecepatan dan kesederhanaan. Sangat cocok untuk aplikasi analitik berdasarkan data besar. Spark dapat digunakan dengan lingkungan Hadoop, mandiri atau di awan. Ini dikembangkan di University of California dan kemudian ditawarkan ke Apache Software Foundation. Dengan demikian, itu milik komunitas open-source dan bisa sangat hemat biaya, yang selanjutnya memungkinkan pengembang amatir untuk bekerja dengan mudah. (Untuk mempelajari lebih lanjut tentang sumber terbuka Hadoop, lihat Apa Pengaruh Sumber Terbuka pada Ekosistem Apache Hadoop?)
Tujuan utama Spark adalah menawarkan pengembang dengan kerangka kerja aplikasi yang bekerja di sekitar struktur data terpusat. Spark juga sangat kuat dan memiliki kemampuan bawaan untuk dengan cepat memproses sejumlah besar data dalam rentang waktu singkat, sehingga menawarkan kinerja yang sangat baik. Ini membuatnya jauh lebih cepat daripada apa yang dikatakan pesaing terdekatnya, Hadoop.