Course: Data Analytics di Asia Tenggara: Difference between revisions

Line 322: Line 322:


Untuk melakukan ini, kamu perlu mempunyai indikator statistik, seperti mean (rata-rata) dan standar deviasi.
Untuk melakukan ini, kamu perlu mempunyai indikator statistik, seperti mean (rata-rata) dan standar deviasi.
[[File:Course RevoU Data Analytics 190647.png|center|thumb]]
Alasan di balik pembersihan data sangatlah simple, kamu perlu memberikan ''insight'' yang baik, sehingga kamu memerlukan data yang dapat membantu membawamu ke sana.
Mari kita lihat di bawah apa yang bisa dilakukan ''outlier'' terhadap kesimpulanmu.
Bayangkan kamu mempunyai kumpulan data: 50,15,12,13,15,15.
Seperti yang mungkin kamu bisa lihat dengan mudah, 50 benar-benar berbeda dari angka lainnya, jadi ini adalah ''outlier''.
Lihat tabel di bawah ini:
{| class="wikitable"
|+
!Statistical Indicator
!Without the outlier
!With the outlier
!Effect of Outlier
|-
|Mean
|14
|20
|Caused to increase
|-
|Median
|15
|15
|No effect
|-
|Mode
|15
|15
|No effect
|-
|Range
|3
|38
|Caused it to increase
|}
Seperti yang kamu lihat, rata-rata dan ''range'' (rentang) meningkat secara signifikan saat kamu memasukkan dan menghitung 50 (''outlier'').
Namun, dalam kasus lain, ''outlier'' dapat menunjukkan kepada kita indikasi sesuatu yang lain atau tren yang menarik.
Paradigma ''garbage in'', ''garbage out'' adalah hal besar dalam analisis data.
Kamu tidak dapat menghasilkan hasil yang baik kalau datanya '''garbage'' (sampah)'.