Daftar Isi:
Definisi - Apa yang dimaksud dengan Babi Apache?
Apache Pig adalah platform yang digunakan untuk menganalisis set data besar. Ini terdiri dari bahasa tingkat tinggi untuk mengekspresikan program analisis data, bersama dengan infrastruktur untuk mengevaluasi program-program ini. Salah satu fitur paling penting dari Babi adalah bahwa strukturnya responsif terhadap paralelisasi yang signifikan.
Babi beroperasi pada platform Hadoop, menulis data ke dan membaca data dari Sistem File Terdistribusi Hadoop (HDFS) dan melakukan pemrosesan dengan menggunakan satu atau lebih pekerjaan MapReduce. Apache Pig tersedia sebagai sumber terbuka.
Babi Apache juga dikenal sebagai Bahasa Pemrograman Babi atau Babi Hadoop.
Techopedia menjelaskan Babi Apache
Apache Babi memiliki dua bagian: Babi bahasa Latin dan mesin Babi. Bahasa Babi Latin adalah bahasa scripting yang memungkinkan pengguna untuk menggambarkan cara aliran data dari satu atau lebih input harus dibaca dan diproses, dan lokasi di mana harus disimpan.
Beberapa sifat utama dari Pig Latin adalah sebagai berikut:
- Mudah diprogram: Tugas rumit yang terdiri dari berbagai transformasi data yang saling berhubungan jelas dikodekan sebagai urutan aliran data. Ini membuat mereka mudah untuk menulis, memahami dan memelihara
- Kemungkinan optimasi: Cara di mana tugas dikodekan memungkinkan sistem untuk mengoptimalkan eksekusi otomatis. Ini memungkinkan pengguna untuk memperhatikan semantik alih-alih efisiensi.
- Ekstensibilitas: Pengguna diizinkan untuk membuat fungsi mereka sendiri untuk melakukan pemrosesan tujuan khusus. Mesin Babi bertanggung jawab atas pelaksanaan aliran data yang ditulis dalam Babi Latin. Sama seperti desain sistem manajemen basis data relasional standar (RDBMS), Apache Pig terdiri dari pengurai, pengoptimal dan pemeriksa tipe, di samping operator yang melakukan pemrosesan data. Babi tidak termasuk transaksi, katalog data atau kemampuan untuk secara langsung menangani penyimpanan data atau menggunakan kerangka kerja eksekusi.