Statistika Dasar yang Sering Digunakan Pada Machine Learning

Kali ini saya akan mencoba membahas dasar statistik yang diperlukan untuk belajar machine learning. Pada tutorial kali ini kita akan menggunakan data set seperti dibawah

contoh data

15, 16, 18, 19, 22, 24, 29, 30, 34

Ok langsung saja kita bahas dari yang pertama yaitu …

Average

average atau bahasa indonesianya adalah rata-rata, dapat di peroleh dengan dua cara yaitu mean dan median. Baik keduanya dapat dikatakan average tetapi bisa dibilang mean lebih akurat daripada median

1. Mean

Mean adalah hasil dari penjumlahan seluruh data dibagi jumlah banyaknya data

Cara menghitung mean

(15 + 16 + 18 + 19 + 22 + 24 + 29 + 30 + 34) / 9 =  207/9 = 23

2. Median

Median adalah nilai yang berada di tengah data yang telah diurutkan.

Berdasarkan data diatas. Kita mempunyai 9 data, maka data yang ada ditengah adalah data ke 5 yaitu 22

Percentile

Median pada dasarnya dapat disebut 50% persentile. Artinya 50% data lebih kecil dari median dan 50% lainnya lebih besar daripada median.

Tapi biasanya kita ingin lebih mengerti bagaimana data itu didistribusikan. Biasanya kita ingin mencari 25% percentile dan 75% percentile pada data itu

Rumus percentile

((% percentile) x (jumlah data)) (dibulatkan keatas) = letak data

25% Percentile

25% percentile adalah 1/4 dari data, dimana 25% dari data lebih kecil dari ini, dan 75% data lebih besar dari ini

rumus 25% percentile

25% x 9 = 2.25 (dibulatkan keatas) = 3

Maka dapat disimpulkan 25% percentile pada data diatas ada pada data ke 3 yaitu 18

75% Percentile

75% percentile adalah 3/4 dari data, dimana 75% dari data lebih kecil dari ini, dan 25% dari data lebih besar dari ini

rumus 75% percentile

75% x 9 = 6.75 ( dibulatkan keatas ) = 7

Maka dapat disimpulkan 75% percentile pada data diatas ada pada data ke 7 yaitu 29

Standar Deviation dan Variance

Standar deviation dan variance digunakan untuk mengukur seberapa tersebarnya data-data kita.

Mencari variance

Mari kita lihat contoh data kita sebelumnya

15, 16, 18, 19, 22, 24, 29, 30, 34

Kurangi setiap datanya dengan mean (23)

23-15, 23-16, 23-18, ......

sehingga menjadi seperti berikut

8, 7, 5, 4, 1, 1, 6, 7, 11

Selanjutnya kita pangkat 2 setiap data kita, lalu jumlahkan semuanya

8x8 + 7x7 + 5x5 + 4x4 + 1x1 + ... = 362

Maka diperolehlah Variance = 362 / 9 = 40.22

Catatan

9 = jumlah data kita

Mencari Standar deviation

untuk mencari standar deviation, kita kuadratkan variance = 6.34

Kesimpulan

Mean = 23

50% percentile (Median)= 22

25% percentile = 18

75% percentile = 29

Variance = 40.22

Standar deviation = 6.34

Ok sekian dari saya, kalau ada yang kurang jelas atau kesalahan dari saya, dimohon untuk berkomentar, karna saya hanyalah manusia yang tidak sempurna, sekian dan terimakasih, sampai ketemu lagi !!!

Komentar