Menjadi Data Analyst dari Nol (Part 18)
Data Cleaning & Data Transformation Menggunakan SQL (Studi Kasus Nyata Data Analyst)
(lanjutan dari Part 2 – Studi Kasus SQL Data Analyst)
Pendahuluan
Di dunia nyata, tugas Data Analyst jarang langsung “query → insight”.
Yang paling sering terjadi justru:
👉 data berantakan
👉 duplikat
👉 format tidak konsisten
👉 nilai kosong
👉 kolom tidak rapi
Inilah fase yang sering memakan 60–70% waktu kerja seorang Data Analyst:
Data Cleaning & Data Transformation.
Di Part 3 ini, kita akan lanjutkan studi kasus manufaktur sebelumnya, dan fokus ke:
✅ membersihkan data menggunakan SQL
✅ menyiapkan dataset agar siap dianalisis
✅ membangun mindset “real-world Data Analyst”
Dataset Awal (Raw Data)
Misalnya kita punya tabel:
manufacturing_sales_raw
Contoh masalah umum:
• Order ID duplikat
• Customer name tidak konsisten (uppercase/lowercase)
• Qty kosong
• Revenue berbentuk text
• Tanggal format berbeda
• Produk sama tapi penamaan beda
Ini kondisi normal di lapangan.
1️⃣ Menghapus Data Duplikat
Langkah pertama: identifikasi duplikat.
Jika sudah ketemu, kita buat CTE:
👉 Result: hanya 1 baris per order_id.
2️⃣ Standarisasi Nama Customer & Produk
SQL sangat powerful untuk normalisasi text:
Untuk produk:
Tujuannya supaya:
• “Widget A”
• “widget a”
• “Widget A ”
jadi satu versi saja.
3️⃣ Menangani Nilai Kosong (NULL)
Qty kosong? Revenue kosong?
Revenue:
Mindset penting:
👉 jangan biarkan NULL tanpa alasan bisnis.
4️⃣ Convert Kolom Text Menjadi Numeric
Kasus umum:
Revenue tersimpan sebagai TEXT.
atau
Ini penting supaya bisa dipakai untuk agregasi.
5️⃣ Membuat Kolom Baru (Derived Column)
Contoh bikin kolom total_sales:
Sekarang dataset sudah siap untuk analisis.
6️⃣ Final Clean Dataset
Kita simpan hasil bersih:
Inilah table yang biasanya dipakai untuk:
👉 dashboard
👉 reporting
👉 business insight
Mindset Data Analyst: Bukan Cuma Query
Banyak pemula berpikir Data Analyst itu:
“SELECT, JOIN, selesai.”
Padahal real job:
✅ memahami struktur data
✅ membersihkan data
✅ standarisasi
✅ validasi angka
✅ baru analisis
SQL hanyalah alat.
Yang paling penting: cara berpikir.
Kesimpulan
Di Part 3 ini kita belajar bahwa:
✔ Data mentah hampir selalu kotor
✔ Cleaning adalah bagian terbesar dari pekerjaan DA
✔ SQL bisa digunakan bukan hanya untuk query, tapi juga transformasi data
✔ Dataset yang rapi = insight yang akurat
Next Part 🚀
Di Part 4 nanti kita akan masuk ke:
👉 Exploratory Data Analysis (EDA) menggunakan SQL
👉 mencari tren penjualan
👉 produk terlaris
👉 customer paling profitable
👉 insight bisnis nyata

