Friday, February 06, 2026

Menjadi Data Analyst dari Nol (Part 18)

 


Data Cleaning & Data Transformation Menggunakan SQL (Studi Kasus Nyata Data Analyst)

(lanjutan dari Part 2 – Studi Kasus SQL Data Analyst)

Pendahuluan

Di dunia nyata, tugas Data Analyst jarang langsung “query → insight”.

Yang paling sering terjadi justru:

👉 data berantakan
👉 duplikat
👉 format tidak konsisten
👉 nilai kosong
👉 kolom tidak rapi

Inilah fase yang sering memakan 60–70% waktu kerja seorang Data Analyst:
Data Cleaning & Data Transformation.

Di Part 3 ini, kita akan lanjutkan studi kasus manufaktur sebelumnya, dan fokus ke:

✅ membersihkan data menggunakan SQL
✅ menyiapkan dataset agar siap dianalisis
✅ membangun mindset “real-world Data Analyst”

Dataset Awal (Raw Data)

Misalnya kita punya tabel:

manufacturing_sales_raw

Contoh masalah umum:

• Order ID duplikat
• Customer name tidak konsisten (uppercase/lowercase)
• Qty kosong
• Revenue berbentuk text
• Tanggal format berbeda
• Produk sama tapi penamaan beda

Ini kondisi normal di lapangan.

1️⃣ Menghapus Data Duplikat

Langkah pertama: identifikasi duplikat.

SELECT order_id, COUNT(*) FROM manufacturing_sales_raw GROUP BY order_id HAVING COUNT(*) > 1;

Jika sudah ketemu, kita buat CTE:

WITH cte AS ( SELECT *, ROW_NUMBER() OVER(PARTITION BY order_id ORDER BY order_date) rn FROM manufacturing_sales_raw ) DELETE FROM cte WHERE rn > 1;

👉 Result: hanya 1 baris per order_id.

2️⃣ Standarisasi Nama Customer & Produk

SQL sangat powerful untuk normalisasi text:

UPDATE manufacturing_sales_raw SET customer_name = UPPER(customer_name);

Untuk produk:

UPDATE manufacturing_sales_raw SET product = TRIM(product);

Tujuannya supaya:

• “Widget A”
• “widget a”
• “Widget A ”

jadi satu versi saja.

3️⃣ Menangani Nilai Kosong (NULL)

Qty kosong? Revenue kosong?

UPDATE manufacturing_sales_raw SET qty = 0 WHERE qty IS NULL;

Revenue:

UPDATE manufacturing_sales_raw SET revenue = qty * price WHERE revenue IS NULL;

Mindset penting:

👉 jangan biarkan NULL tanpa alasan bisnis.

4️⃣ Convert Kolom Text Menjadi Numeric

Kasus umum:

Revenue tersimpan sebagai TEXT.

CAST(revenue AS INTEGER)

atau

CAST(revenue AS FLOAT)

Ini penting supaya bisa dipakai untuk agregasi.

5️⃣ Membuat Kolom Baru (Derived Column)

Contoh bikin kolom total_sales:

ALTER TABLE manufacturing_sales_raw ADD COLUMN total_sales FLOAT; UPDATE manufacturing_sales_raw SET total_sales = qty * price;

Sekarang dataset sudah siap untuk analisis.

6️⃣ Final Clean Dataset

Kita simpan hasil bersih:

CREATE TABLE manufacturing_sales_clean AS SELECT order_id, order_date, customer_name, product, qty, price, qty * price AS total_sales FROM manufacturing_sales_raw;

Inilah table yang biasanya dipakai untuk:

👉 dashboard
👉 reporting
👉 business insight

Mindset Data Analyst: Bukan Cuma Query

Banyak pemula berpikir Data Analyst itu:

“SELECT, JOIN, selesai.”

Padahal real job:

✅ memahami struktur data
✅ membersihkan data
✅ standarisasi
✅ validasi angka
✅ baru analisis

SQL hanyalah alat.

Yang paling penting: cara berpikir.

Kesimpulan

Di Part 3 ini kita belajar bahwa:

✔ Data mentah hampir selalu kotor
✔ Cleaning adalah bagian terbesar dari pekerjaan DA
✔ SQL bisa digunakan bukan hanya untuk query, tapi juga transformasi data
✔ Dataset yang rapi = insight yang akurat


Next Part 🚀

Di Part 4 nanti kita akan masuk ke:

👉 Exploratory Data Analysis (EDA) menggunakan SQL
👉 mencari tren penjualan
👉 produk terlaris
👉 customer paling profitable
👉 insight bisnis nyata

Bagikan

Jangan lewatkan

Menjadi Data Analyst dari Nol (Part 18)
4/ 5
Oleh

Subscribe via email

Suka dengan artikel di atas? Tambahkan email Anda untuk berlangganan.