Q:
Bagaimana saya bisa belajar menggunakan Hadoop untuk menganalisis data besar?
SEBUAH:Perangkat lunak Apache yang dikenal sebagai Hadoop menjadi sumber daya yang sangat populer untuk menangani set data besar. Jenis kerangka kerja perangkat lunak penanganan data ini dibangun untuk membantu agregat data dengan cara tertentu, berdasarkan desain yang dapat membuat beberapa jenis proyek data lebih efisien. Yang mengatakan, Hadoop hanyalah salah satu dari banyak alat untuk menangani set data yang besar.
Salah satu cara pertama dan paling mendasar untuk mempelajari tentang analisis data besar dengan Hadoop adalah memahami beberapa komponen tingkat atas Hadoop dan apa fungsinya. Ini termasuk Hadoop YARN "platform manajemen sumber daya" yang dapat diterapkan untuk beberapa jenis pengaturan jaringan, serta serangkaian fungsi Hadoop MapReduce yang berlaku untuk kumpulan data besar. Ada juga sistem file terdistribusi Hadoop (HDFS), yang membantu untuk menyimpan data di seluruh sistem terdistribusi sehingga dapat dengan cepat dan efisien diindeks atau diambil.
Di luar ini, mereka yang ingin menjadi lebih akrab dengan Hadoop dapat melihat sumber daya yang diterbitkan secara individual untuk para profesional yang menjelaskan perangkat lunak pada tingkat yang dapat dihubungkan. Contoh dari Chris Stucchio di blog pribadi ini memberikan sekumpulan poin hebat tentang Hadoop dan skala data. Salah satu dasar takeaways adalah bahwa Hadoop mungkin lebih umum digunakan daripada yang diperlukan, dan mungkin bukan solusi terbaik untuk proyek individu. Meninjau sumber daya semacam ini akan membantu para profesional menjadi lebih terbiasa dengan perincian penggunaan Hadoop dalam skenario apa pun. Stucchio juga menyediakan metafora untuk menghubungkan fungsi Hadoop dengan tugas fisik tertentu. Di sini, contohnya adalah menghitung jumlah buku di perpustakaan, sedangkan fungsi Hadoop mungkin memecah perpustakaan itu menjadi beberapa bagian, memberikan jumlah individu yang dicampur menjadi satu hasil data agregat.
Cara yang lebih mendalam bahwa para profesional dapat mempelajari lebih lanjut tentang Hadoop dan penerapannya pada data besar adalah melalui sumber daya dan program pelatihan khusus. Sebagai contoh, perusahaan pembelajaran online Cloudera, penyedia terkemuka sesi pelatihan jarak jauh, memiliki sejumlah opsi menarik seputar penggunaan Hadoop dan jenis penanganan data serupa.