Monday, January 12, 2026

Data Cleaning: Fondasi Analisis yang Sering Diremehkan

 

Data Cleaning: Fondasi Analisis yang Sering Diremehkan

Jika pada artikel sebelumnya kita membahas apa itu Data Analyst dan perannya, maka sekarang kita masuk ke skill yang paling sering dipakai di dunia kerja: data cleaning.

Banyak pemula mengira kerja Data Analyst itu penuh grafik cantik dan dashboard keren. Faktanya? 70–80% waktu analis habis untuk membersihkan data.

Kalau data kotor → insight salah → keputusan bisnis bisa fatal.

Apa Itu Data Cleaning?

Data cleaning adalah proses menyiapkan data mentah agar siap dianalisis.
Tujuannya:

  • Menghilangkan kesalahan

  • Menyamakan format

  • Menghapus duplikasi

  • Menangani data kosong (missing value)

Data mentah di dunia nyata hampir tidak pernah rapi.

Contoh data kotor:

  • Nama pelanggan dobel

  • Format tanggal beda-beda

  • Kolom angka tersimpan sebagai teks

  • Nilai kosong atau tidak masuk akal

Contoh Kasus Nyata (Real-World Case)

Bayangkan kamu bekerja di perusahaan retail.

Data penjualan yang kamu terima:

  • Nama_Toko: ada yang "Alfamart", "ALFA MART", "alfamrt"

  • Tanggal: 01/01/2025, 2025-01-01, 1 Jan 25

  • Total_Penjualan: ada yang kosong

  • Data transaksi dobel karena sistem error

Jika langsung dianalisis tanpa dibersihkan:
➡️ Total penjualan salah
➡️ Toko terlaris salah
➡️ Laporan ke manajemen menyesatkan

Masalah Data Paling Umum

Sebagai Data Analyst, kamu pasti sering ketemu ini:

1. Duplikat Data

  • Data pelanggan dobel

  • Transaksi tercatat lebih dari sekali

2. Missing Value (Data Kosong)

  • Kolom penjualan kosong

  • Umur pelanggan tidak diisi

3. Format Tidak Konsisten

  • Tanggal

  • Penulisan teks

  • Mata uang

4. Tipe Data Salah

  • Angka terbaca sebagai teks

  • Tanggal terbaca sebagai string

Tools Data Cleaning yang Wajib Dikuasai

Kabar baiknya: kamu tidak perlu jago coding dulu.

Urutan tools yang umum dipakai di industri:

1. Microsoft Excel

  • Remove Duplicates

  • Text to Columns

  • TRIM, CLEAN, PROPER

  • IF, VLOOKUP / XLOOKUP

👉 Cocok untuk pemula & data skala kecil–menengah

2. Power Query (Excel / Power BI)

  • Otomatisasi cleaning

  • Cocok untuk data berulang

  • No-code / low-code

👉 Ini game changer buat Data Analyst

3. SQL

  • DISTINCT

  • WHERE

  • GROUP BY

👉 Dipakai jika data sudah di database

4. Python (Pandas)

  • drop_duplicates()

  • fillna()

  • astype()

👉 Dipakai untuk data besar & kompleks

Urutan Belajar Data Cleaning untuk Pemula

Kalau kamu baru mulai, ikuti urutan ini:

1️⃣ Excel dasar (filter, sort, formula)
2️⃣ Excel data cleaning
3️⃣ Power Query
4️⃣ SQL
5️⃣ Python (pandas)

❗ Jangan lompat-lompat, nanti bingung sendiri.

Mindset Penting Data Analyst

"Insight bagus datang dari data yang bersih, bukan dari dashboard yang cantik."

Banyak Data Analyst junior gagal bukan karena kurang pintar, tapi karena:

  • Terburu-buru analisis

  • Tidak ngecek kualitas data

Senior analyst selalu curiga dulu sama datanya.

Penutup

Data cleaning mungkin terasa membosankan,
Tapi inilah skill yang bikin kamu dipercaya oleh bisnis.

Di artikel berikutnya, kita akan bahas:

👉 Exploratory Data Analysis (EDA): Cara Membaca Cerita dari Data

Kalau kamu ingin jadi Data Analyst dari nol sampai siap kerja, ikuti terus series ini.


✍️ Ditulis oleh: Seorang Data Analyst yang tahu rasanya nangis gara-gara duplikat data

Bagikan

Jangan lewatkan

Data Cleaning: Fondasi Analisis yang Sering Diremehkan
4/ 5
Oleh

Subscribe via email

Suka dengan artikel di atas? Tambahkan email Anda untuk berlangganan.