Rumah Audio Analitik Hadoop: tidak mudah di berbagai sumber data

Analitik Hadoop: tidak mudah di berbagai sumber data

Daftar Isi:

Anonim

Hadoop adalah tempat yang tepat untuk mengeluarkan data untuk pemrosesan analitik atau untuk memodelkan volume yang lebih besar dari satu sumber data tunggal yang tidak mungkin dilakukan dengan sistem yang ada. Namun, ketika perusahaan membawa data dari banyak sumber ke Hadoop, ada peningkatan permintaan untuk analisis data di berbagai sumber, yang bisa sangat sulit untuk dicapai. Posting ini adalah yang pertama dari seri tiga bagian yang menjelaskan masalah yang dihadapi organisasi, ketika mereka berusaha untuk menganalisis berbagai sumber data dan tipe dalam Hadoop, dan bagaimana mengatasi tantangan ini. Posting hari ini berfokus pada masalah yang terjadi ketika menggabungkan beberapa sumber internal. Dua tulisan berikutnya menjelaskan mengapa masalah ini bertambah rumit, karena sumber data eksternal ditambahkan, dan bagaimana pendekatan baru membantu menyelesaikannya.

Data Dari Berbagai Sumber Sulit Dihubungkan dan Peta

Data dari berbagai sumber memiliki struktur berbeda yang membuatnya sulit untuk terhubung dan memetakan tipe data bersama, bahkan data dari sumber internal. Menggabungkan data bisa sangat sulit jika pelanggan memiliki beberapa nomor akun atau organisasi telah mengakuisisi atau bergabung dengan perusahaan lain. Selama beberapa tahun terakhir, beberapa organisasi telah berusaha menggunakan penemuan data atau aplikasi ilmu data untuk menganalisis data dari berbagai sumber yang disimpan di Hadoop. Pendekatan ini bermasalah karena melibatkan banyak dugaan: pengguna harus memutuskan kunci asing mana yang akan digunakan untuk menghubungkan berbagai sumber data dan membuat asumsi ketika membuat overlay model data. Dugaan ini sulit untuk diuji dan seringkali salah ketika diterapkan pada skala, yang mengarah pada analisis data yang salah dan ketidakpercayaan terhadap sumber.

Para Ahli Hadoop Mencoba Menggabungkan Data Bersama

Oleh karena itu, organisasi yang ingin menganalisis data lintas sumber data terpaksa menggunakan tenaga ahli Hadoop untuk membuat skrip khusus sumber khusus untuk menggabungkan kumpulan data bersama. Pakar Hadoop ini biasanya bukan ahli integrasi data atau resolusi entitas, tetapi mereka melakukan yang terbaik untuk mengatasi kebutuhan mendesak organisasi. Para ahli ini biasanya menggunakan Pig atau Java untuk menulis aturan keras dan cepat yang menentukan cara menggabungkan data terstruktur dari sumber tertentu, misalnya pencocokan catatan berdasarkan nomor akun. Setelah skrip untuk dua sumber telah ditulis, jika sumber ketiga perlu ditambahkan, skrip pertama harus dibuang dan skrip baru dirancang untuk menggabungkan tiga sumber spesifik. Hal yang sama terjadi jika sumber lain ditambahkan dan seterusnya. Tidak hanya pendekatan ini tidak efisien, tetapi juga gagal ketika diterapkan pada skala, menangani kasus tepi buruk, dapat menghasilkan sejumlah besar catatan duplikat, dan sering menggabungkan banyak catatan yang tidak boleh digabungkan.

Analitik Hadoop: tidak mudah di berbagai sumber data