Daftar Isi:
Definisi - Apa yang dimaksud dengan Data Kotor?
Data kotor mengacu pada data yang berisi informasi yang salah. Ini juga dapat digunakan saat merujuk ke data yang ada di memori dan belum dimuat ke dalam basis data. Penghapusan total data kotor dari sumber tidak praktis atau hampir tidak mungkin.
Data berikut dapat dianggap sebagai data kotor:
- Data menyesatkan
- Data rangkap
- Data salah
- Data tidak akurat
- Data tidak terintegrasi
- Data yang melanggar aturan bisnis
- Data tanpa pemformatan umum
- Data dengan tanda baca atau ejaan salah
Techopedia menjelaskan Data Kotor
Selain entri data yang salah, data kotor dapat dihasilkan karena metode yang tidak tepat dalam pengelolaan data dan penyimpanan data. Beberapa tipe data kotor dijelaskan di bawah ini:
- Data salah - Untuk memastikan bahwa data itu valid atau benar, nilai yang dimasukkan harus sesuai dengan nilai yang valid bidang itu. Misalnya, nilai yang dimasukkan dalam bidang bulan harus berkisar dari 1 hingga 12, atau usia seseorang harus kurang dari 130. Kebenaran nilai data dapat ditegakkan secara terprogram melalui tabel pencarian atau dengan pemeriksaan edit.
- Data tidak akurat - Ada kemungkinan bahwa nilai data bisa benar, tetapi tidak akurat. Terkadang, praktis untuk memeriksa file atau bidang lain untuk mengetahui apakah nilai data akurat berdasarkan konteks yang digunakan. Namun, akurasi seringkali hanya dapat divalidasi dengan verifikasi manual.
- Pelanggaran aturan bisnis - Data yang melanggar aturan bisnis adalah tipe lain dari data kotor. Misalnya, tanggal efektif harus selalu datang sebelum tanggal kedaluwarsa. Contoh pelanggaran aturan bisnis lainnya dapat berupa klaim asuransi Medicare pasien di mana pasien mungkin masih di bawah usia pensiun dan gagal berhak atas Medicare.
- Data tidak konsisten - Redundansi data yang tidak dicentang menyebabkan inkonsistensi data. Setiap organisasi dipengaruhi oleh data yang tidak konsisten dan berulang. Ini sangat khas dengan data pelanggan.
- Data tidak lengkap - Data dengan nilai yang hilang adalah tipe utama dari data yang tidak lengkap.
- Data duplikat - Data duplikat dapat terjadi karena pengiriman berulang, penggabungan data yang tidak benar, atau kesalahan pengguna.
Untuk meningkatkan kualitas data dan mencegah data kotor, organisasi harus memasukkan metodologi untuk memastikan kelengkapan, validitas, konsistensi, dan kebenaran data.
