Methodology

Appendix ยท A1

Data Pipeline & Pendekatan Teknis

Dari 3 file sumber ke dataset bersih โ€” setiap langkah didokumentasikan.

Data Pipeline Overview

Proyek ini mengikuti pipeline 4 langkah: Collect โ†’ Validate โ†’ Clean โ†’ Analyze. Tiga file sumber dikonsolidasikan menjadi satu dataset bersih untuk analisis.

StepSourceInputOutput
1Sales TransactionsRaw transaction data (CSV)2,547 raw rows
2Sales TargetsTarget per channel/monthTarget benchmarks
3Customer FeedbackSurvey responses899 feedback entries
4Cleaning & AnalysisAll 3 sources2,460 clean rows + insights

Anomaly Summary

Dari 2.547 baris raw data, ditemukan beberapa jenis anomali yang harus dibersihkan sebelum analisis:

Issue TypeCountAction Taken
Duplicate rows24Removed exact duplicates
Negative values15Converted to absolute values
Missing fields18Imputed or removed
Format inconsistency20Standardized date/text formats
Outliers (price zero)10Removed zero-price transactions

โš ๏ธ Data Quality Note

Total 87 rows were affected by anomalies (3.4% of raw data). After cleaning, 2,460 clean rows remained โ€” a 96.6% retention rate. This is within acceptable range for multi-source consolidated data.

Cleaning Process

Proses cleaning dilakukan secara sistematis dengan urutan prioritas:

  1. Remove duplicates โ€” identifikasi dan hapus baris yang persis sama
  2. Fix negative values โ€” konversi nilai negatif di kolom quantity/revenue ke absolut
  3. Handle missing data โ€” imputasi untuk field non-critical, hapus untuk field critical
  4. Standardize formats โ€” unifikasi format tanggal, nama channel, kategori produk
  5. Remove outliers โ€” hapus transaksi dengan harga 0 atau nilai yang tidak masuk akal

Tools & Stack

ToolPurpose
Microsoft ExcelData cleaning, pivot tables, formula-based analysis
Google SheetsCollaborative review, sharing with stakeholders
HTML/CSS/JSPortfolio presentation (this website)

๐Ÿ“‹ Reproducibility

All cleaning steps are documented in the Excel workbook with formulas (not hardcoded values). The analysis can be reproduced by anyone with access to the original 3 source files.