Apa itu Pandas?
Salah satu alasan kenapa python sangat populer adalah karena dia mempunyai banyak module pemrosesan data. Salah satunya adalah apa yang akan kita bahas, yaitu Pandas.
Pandas adalah module python yang sangat berguna untuk membaca dan memanipulasi data. Yang keren dari pandas adalah kita dapat mengambil data lalu memvisualisasikannya sebagai tabel agar lebih mudah terbaca. Tapi pandas juga dapat menginterpretasikan data secara numeric, jadi kita bisa melakukan banyak komputasi dengan Pandas.
Selanjutnya kita memanggil tabel data sebagai DataFrame
Membaca data
Kita akan memulai dengan mengimport Pandas ke kode kita. Biasanya Pandas selalu menggunakan pd sebagai nama object karna akan lebih cepat saat memanggilnya di bagian kode nanti.
Kita akan menggunakan dataset penumpang titanic. Untuk seriap penumpang, kita akan mempunyai beberapa data untuk mereka dan tentunya data apakah mereka selamat atau tidak saat kecelakaan terjadi.
Data penumpang titanic ini berupa file berformat csv. Titanic.csv seperti dibawah. Baris pertama merupakan header sedangkan setiap baris selanjutnya adalah data untuk 1 orang penumpang.
Kita akan pull datanya ke Pandas agar dijadikan dataframe.
Fungsi "read_csv" mengambil file berupa format csv lalu mengkonversikan data ke pandas dataframe.
Objek df sekarang adalah dataframe dari titanic dataset. Sekarang kita bisa menggunakan method "head" untuk melihat data.
method head akan return 5 baris pertama dari dataframe.
Jalankan kode ini untuk melihat hasilnya :
Menampilkan data
Kadang sebuah data sangat besar untuk ditampilkan semuanya di layar.
Untuk itu, kita akan hanya melihat beberapa baris saja, tapi kadang juga kita hanya ingin melihat data dari beberapa kolom saja.
Dengan pandas, kita dapat menggunakan method "describe" untuk memuat tabel statistik tentang kolom yang kita inginkan.
Kita tambahkan 1 baris kode dibawah untuk memaksa python menampilkan semua 6 kolom. Tanpa baris kode ini, python akan menyebabkan hasil yang abbrevative
Jalankan kode ini untuk melihat hasilnya :
Untuk setiap kolom kita melihat beberapa statistik.
Catatan: pandas hanya akan memberikan statistik untuk kolom yang datanya numeric
Ok sekarang mari kita review apa arti dari statistik diatas :
Count: ini adalah jumlah baris data yang mempunyai value. Dalam kasus kita, setiap penumpang punya value untuk setiap kolom, jadi valuenya adalah 887 (total penumpang).
Mean: adalah rata-rata atau juga disebut standard average
Std: kependekan dari standard deviation. Untuk mengukur seberapa tersebarnya data kita.
Min: value paling kecil.
25%: 25th percentile.
50%: 50th percentile, atau juga disebut median.
75%: 75th percentile.
Max: value terbesar.
Komentar
Posting Komentar