Data Cleaning: Fondasi Analisis yang Sering Diremehkan
Jika pada artikel sebelumnya kita membahas apa itu Data Analyst dan perannya, maka sekarang kita masuk ke skill yang paling sering dipakai di dunia kerja: data cleaning.
Banyak pemula mengira kerja Data Analyst itu penuh grafik cantik dan dashboard keren. Faktanya? 70–80% waktu analis habis untuk membersihkan data.
Kalau data kotor → insight salah → keputusan bisnis bisa fatal.
Apa Itu Data Cleaning?
Data cleaning adalah proses menyiapkan data mentah agar siap dianalisis.
Tujuannya:
Menghilangkan kesalahan
Menyamakan format
Menghapus duplikasi
Menangani data kosong (missing value)
Data mentah di dunia nyata hampir tidak pernah rapi.
Contoh data kotor:
Nama pelanggan dobel
Format tanggal beda-beda
Kolom angka tersimpan sebagai teks
Nilai kosong atau tidak masuk akal
Contoh Kasus Nyata (Real-World Case)
Bayangkan kamu bekerja di perusahaan retail.
Data penjualan yang kamu terima:
Nama_Toko: ada yang "Alfamart", "ALFA MART", "alfamrt"Tanggal: 01/01/2025, 2025-01-01, 1 Jan 25Total_Penjualan: ada yang kosongData transaksi dobel karena sistem error
Jika langsung dianalisis tanpa dibersihkan:
➡️ Total penjualan salah
➡️ Toko terlaris salah
➡️ Laporan ke manajemen menyesatkan
Masalah Data Paling Umum
Sebagai Data Analyst, kamu pasti sering ketemu ini:
1. Duplikat Data
Data pelanggan dobel
Transaksi tercatat lebih dari sekali
2. Missing Value (Data Kosong)
Kolom penjualan kosong
Umur pelanggan tidak diisi
3. Format Tidak Konsisten
Tanggal
Penulisan teks
Mata uang
4. Tipe Data Salah
Angka terbaca sebagai teks
Tanggal terbaca sebagai string
Tools Data Cleaning yang Wajib Dikuasai
Kabar baiknya: kamu tidak perlu jago coding dulu.
Urutan tools yang umum dipakai di industri:
1. Microsoft Excel
Remove Duplicates
Text to Columns
TRIM, CLEAN, PROPER
IF, VLOOKUP / XLOOKUP
👉 Cocok untuk pemula & data skala kecil–menengah
2. Power Query (Excel / Power BI)
Otomatisasi cleaning
Cocok untuk data berulang
No-code / low-code
👉 Ini game changer buat Data Analyst
3. SQL
DISTINCT
WHERE
GROUP BY
👉 Dipakai jika data sudah di database
4. Python (Pandas)
drop_duplicates()
fillna()
astype()
👉 Dipakai untuk data besar & kompleks
Urutan Belajar Data Cleaning untuk Pemula
Kalau kamu baru mulai, ikuti urutan ini:
1️⃣ Excel dasar (filter, sort, formula)
2️⃣ Excel data cleaning
3️⃣ Power Query
4️⃣ SQL
5️⃣ Python (pandas)
❗ Jangan lompat-lompat, nanti bingung sendiri.
Mindset Penting Data Analyst
"Insight bagus datang dari data yang bersih, bukan dari dashboard yang cantik."
Banyak Data Analyst junior gagal bukan karena kurang pintar, tapi karena:
Terburu-buru analisis
Tidak ngecek kualitas data
Senior analyst selalu curiga dulu sama datanya.
Penutup
Data cleaning mungkin terasa membosankan,
Tapi inilah skill yang bikin kamu dipercaya oleh bisnis.
Di artikel berikutnya, kita akan bahas:
👉 Exploratory Data Analysis (EDA): Cara Membaca Cerita dari Data
Kalau kamu ingin jadi Data Analyst dari nol sampai siap kerja, ikuti terus series ini.
✍️ Ditulis oleh: Seorang Data Analyst yang tahu rasanya nangis gara-gara duplikat data
