Rumah Komputasi awan Apa itu mapreduce? - definisi dari techopedia

Apa itu mapreduce? - definisi dari techopedia

Daftar Isi:

Anonim

Definisi - Apa yang dimaksud dengan MapReduce?

MapReduce adalah model pemrograman yang diperkenalkan oleh Google untuk memproses dan menghasilkan set data besar pada cluster komputer.

Google pertama kali merumuskan kerangka kerja untuk tujuan melayani pengindeksan halaman Web Google, dan kerangka kerja baru menggantikan algoritma pengindeksan sebelumnya. Pengembang pemula menemukan kerangka kerja MapReduce bermanfaat karena rutinitas perpustakaan dapat digunakan untuk membuat program paralel tanpa khawatir tentang komunikasi infra-cluster, pemantauan tugas atau proses penanganan kegagalan.

MapReduce berjalan pada sekelompok besar mesin komoditas dan sangat scalable. Ini memiliki beberapa bentuk implementasi yang disediakan oleh beberapa bahasa pemrograman, seperti Java, C # dan C ++.

Techopedia menjelaskan MapReduce

Kerangka kerja MapReduce memiliki dua bagian:

  1. Fungsi yang disebut "Peta, " yang memungkinkan titik berbeda dari cluster terdistribusi untuk mendistribusikan pekerjaan mereka
  2. Fungsi yang disebut "Reduce, " yang dirancang untuk mengurangi bentuk akhir dari hasil cluster menjadi satu output

Keuntungan utama kerangka kerja MapReduce adalah toleransi kesalahannya, di mana laporan periodik dari setiap node dalam cluster diharapkan saat pekerjaan selesai.

Suatu tugas ditransfer dari satu node ke node lainnya. Jika master node memperhatikan bahwa sebuah node telah diam untuk interval yang lebih lama dari yang diharapkan, node utama melakukan proses penugasan kembali ke tugas yang beku / tertunda.

Kerangka kerja MapReduce terinspirasi oleh fungsi "Map" dan "Reduce" yang digunakan dalam pemrograman fungsional. Pemrosesan komputasi terjadi pada data yang disimpan dalam sistem file atau dalam database, yang mengambil satu set nilai kunci input dan menghasilkan satu set nilai kunci output.

Setiap hari, banyak program MapReduce dan pekerjaan MapReduce dieksekusi di cluster Google. Program secara otomatis diparalelkan dan dijalankan pada sekelompok besar mesin komoditas. Sistem runtime berkaitan dengan mempartisi data input, menjadwalkan eksekusi program di seluruh set mesin, penanganan kegagalan mesin, dan mengelola komunikasi antar mesin yang diperlukan. Pemrogram tanpa pengalaman dengan sistem paralel dan terdistribusi dapat dengan mudah menggunakan sumber daya dari sistem terdistribusi besar.

MapReduce digunakan dalam grep terdistribusi, sortir terdistribusi, pembalikan link-grafik Web, statistik log akses Web, pengelompokan dokumen, pembelajaran mesin dan terjemahan mesin statistik.

Apa itu mapreduce? - definisi dari techopedia