import seaborn as sns
import pandas as pd
df = sns.load_dataset('titanic')
df.iloc[:5, :6]| survived | pclass | sex | age | sibsp | parch | |
|---|---|---|---|---|---|---|
| 0 | 0 | 3 | male | 22.0 | 1 | 0 |
| 1 | 1 | 1 | female | 38.0 | 1 | 0 |
| 2 | 1 | 3 | female | 26.0 | 0 | 0 |
| 3 | 1 | 1 | female | 35.0 | 1 | 0 |
| 4 | 0 | 3 | male | 35.0 | 0 | 0 |
Dasar-dasar library Pandas yang perlu diketahui.
Pandu Mulya Muhammad Syah
24 September 2022

Pandas merupapkan salah satu library Python yang umum digunakan untuk keperluan data analysis karena memiliki banyak fitur yang memudahkan pengguna untuk mengolah data. Terdapat beberapa fitur umum statistik seperti mean(), sum(), max(), min(), dan quantile() sehingga pengguna dapat dengan mudah mendapatkan hasil nilainya. Pada artikel ini akan dibahas secara ringkas penggunaan Pandas pada dataset titanic dari library Seaborn.
| survived | pclass | sex | age | sibsp | parch | |
|---|---|---|---|---|---|---|
| 0 | 0 | 3 | male | 22.0 | 1 | 0 |
| 1 | 1 | 1 | female | 38.0 | 1 | 0 |
| 2 | 1 | 3 | female | 26.0 | 0 | 0 |
| 3 | 1 | 1 | female | 35.0 | 1 | 0 |
| 4 | 0 | 3 | male | 35.0 | 0 | 0 |
Dataset berasal dari library Seaborn dan dibaca menggukana Pandas. Metode .iloc[:5, :6] berfungsi untuk menampilkan 5 baris pertama dan 6 kolom pertama dari data.
Ukuran dataset (jumlah baris dan kolom) dapat diketahui dengan atribut .shape.
Nama kolom yang terdapat dalam dataset dapat diaksek menggunakan atribut .columns.
Tipe data setiap kolom dapat diketahui menggunakan atribut .dtypes pada dataset.
survived int64
pclass int64
sex object
age float64
sibsp int64
parch int64
fare float64
embarked object
class category
who object
adult_male bool
deck category
embark_town object
alive object
alone bool
dtype: object
Dari hasil di atas terlihat beberapa tipe data seperti int64 untuk bilangan bulat, float64 untuk bilangan desimal, bool untuk data True atau False, object untuk karakter atau kalimat dan category untuk kategori data.
Terdapat dua cara umum untuk memanggil data pada kolom tertentu, menggunakan nama kolom sebagai indeks dan menggunakan nama kolom sebagai atribut.
Untuk memanggil data pada beberapa kolom, cara paling mudah adalah dengan menggunakan list (daftar) yang berisi beberapa nama kolom.
Kedua nilai tersebut dapat ditentukan dengan metode .min() dan .max(). Diambil data pada kolom age sebagai contoh pada bagian ini.
Nilai tersebut dapat ditentukan dengan metode .mean() dan .std().
Nilai kuantil dapat ditentukan dengan metode .quantile(). Q10, Q20 maupun Q30 bisa diketahui dengan memasukkan parameter pada metode .quantile(.10), .quantile(.20) dan .quantile(.30) untuk masing-masing nilai kuantil yang ingin dicari.