Mengapa hadoop sangat cocok untuk sekuensing genom

2026

Daftar Isi:

Masa Sekarang dan Masa Depan Genomik
Kebutuhan Industri Pemetaan Genom

Genomik klinis adalah subjek yang menarik, di mana orang bekerja pada teknologi mutakhir untuk memproses hasil yang cepat dan akurat. Ada banyak sequencer genom yang tersedia di pasaran, dan mereka memproduksi petabytes data sekuens, dan pertumbuhan sekuensing akan menghasilkan exabytes data dalam waktu dekat. Di sini, Hadoop adalah platform yang sempurna untuk memproses alur kerja genomik yang kompleks. Hadoop dapat menyimpan dan mengurutkan sejumlah besar informasi dan juga dapat membuat analisis yang bermakna. (Untuk mendapatkan gambaran tentang seberapa banyak data ini benar-benar memerlukan, baca Memahami Bits, Bytes dan Multiples mereka.)

Masa Sekarang dan Masa Depan Genomik

Saat ini, pemetaan genom telah mencapai puncak perkembangannya. Banyak orang yang terkait dengan industri genom meledak dengan rasa ingin tahu, dan ketika peluang baru muncul, teknologi yang lebih baik adalah kebutuhan saat ini. Sekuensing genom adalah tugas yang sangat berulang dan membutuhkan banyak sumber daya. Pada 2013 saja, sekitar 15 petabyte data diproduksi, dan hanya oleh 2.000 sequencer. Jumlah rahang ini termasuk 300 KB data genom manusia berurutan. Pada tingkat produksi data ini, dapat diperkirakan bahwa pada tahun 2018, sekitar satu exabyte data akan diproduksi. Ini akan terjadi karena pertumbuhan sequencer, yang akan menghasilkan lebih banyak data per run. Alasan lain adalah munculnya mesin sekuensing genom yang sangat kuat dan murah. Sejak 2008, harga mesin-mesin ini terus menurun. Ini karena mesin generasi baru yang kuat yang telah merambah pasar.

Kebutuhan Industri Pemetaan Genom

Algoritma kompleks digunakan untuk memproses data yang dikumpulkan dari genom manusia. Kemudian, informasi ini perlu disimpan. Ini dapat ditinjau di masa depan untuk perbandingan dengan data asli. Tugas memproses dan menyimpan 100 GB data tidak terlalu sulit, terutama ketika Anda melakukannya dengan mesin yang kuat yang digunakan di pusat pengurutan. Studi menunjukkan bahwa jumlah data ini dapat diproses hanya dalam sekitar 1.000 jam CPU, sehingga sangat mudah. Pada tingkat kemajuan teknis ini, jelas bahwa industri genom akan segera memproses ribuan gigabytes hanya dalam beberapa detik.