Course: Data Analytics di Asia Tenggara: Difference between revisions
| Line 322: | Line 322: | ||
Untuk melakukan ini, kamu perlu mempunyai indikator statistik, seperti mean (rata-rata) dan standar deviasi. | Untuk melakukan ini, kamu perlu mempunyai indikator statistik, seperti mean (rata-rata) dan standar deviasi. | ||
[[File:Course RevoU Data Analytics 190647.png|center|thumb]] | |||
Alasan di balik pembersihan data sangatlah simple, kamu perlu memberikan ''insight'' yang baik, sehingga kamu memerlukan data yang dapat membantu membawamu ke sana. | |||
Mari kita lihat di bawah apa yang bisa dilakukan ''outlier'' terhadap kesimpulanmu. | |||
Bayangkan kamu mempunyai kumpulan data: 50,15,12,13,15,15. | |||
Seperti yang mungkin kamu bisa lihat dengan mudah, 50 benar-benar berbeda dari angka lainnya, jadi ini adalah ''outlier''. | |||
Lihat tabel di bawah ini: | |||
{| class="wikitable" | |||
|+ | |||
!Statistical Indicator | |||
!Without the outlier | |||
!With the outlier | |||
!Effect of Outlier | |||
|- | |||
|Mean | |||
|14 | |||
|20 | |||
|Caused to increase | |||
|- | |||
|Median | |||
|15 | |||
|15 | |||
|No effect | |||
|- | |||
|Mode | |||
|15 | |||
|15 | |||
|No effect | |||
|- | |||
|Range | |||
|3 | |||
|38 | |||
|Caused it to increase | |||
|} | |||
Seperti yang kamu lihat, rata-rata dan ''range'' (rentang) meningkat secara signifikan saat kamu memasukkan dan menghitung 50 (''outlier''). | |||
Namun, dalam kasus lain, ''outlier'' dapat menunjukkan kepada kita indikasi sesuatu yang lain atau tren yang menarik. | |||
Paradigma ''garbage in'', ''garbage out'' adalah hal besar dalam analisis data. | |||
Kamu tidak dapat menghasilkan hasil yang baik kalau datanya '''garbage'' (sampah)'. | |||