Pengenalan Dasar-dasar Pandas

Python
Pandas

Dasar-dasar library Pandas yang perlu diketahui.

Penulis

Pandu Mulya Muhammad Syah

Diterbitkan

24 September 2022

Pendahuluan

Pandas merupapkan salah satu library Python yang umum digunakan untuk keperluan data analysis karena memiliki banyak fitur yang memudahkan pengguna untuk mengolah data. Terdapat beberapa fitur umum statistik seperti mean(), sum(), max(), min(), dan quantile() sehingga pengguna dapat dengan mudah mendapatkan hasil nilainya. Pada artikel ini akan dibahas secara ringkas penggunaan Pandas pada dataset titanic dari library Seaborn.

Memuat Dataset

import seaborn as sns
import pandas as pd

df = sns.load_dataset('titanic')
df.iloc[:5, :6]
survived pclass sex age sibsp parch
0 0 3 male 22.0 1 0
1 1 1 female 38.0 1 0
2 1 3 female 26.0 0 0
3 1 1 female 35.0 1 0
4 0 3 male 35.0 0 0

Dataset berasal dari library Seaborn dan dibaca menggukana Pandas. Metode .iloc[:5, :6] berfungsi untuk menampilkan 5 baris pertama dan 6 kolom pertama dari data.

Ukuran dataset

Ukuran dataset (jumlah baris dan kolom) dapat diketahui dengan atribut .shape.

df.shape
(891, 15)

Akses nama kolom

Nama kolom yang terdapat dalam dataset dapat diaksek menggunakan atribut .columns.

df.columns
Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

Tipe data kolom

Tipe data setiap kolom dapat diketahui menggunakan atribut .dtypes pada dataset.

df.dtypes
survived          int64
pclass            int64
sex              object
age             float64
sibsp             int64
parch             int64
fare            float64
embarked         object
class          category
who              object
adult_male         bool
deck           category
embark_town      object
alive            object
alone              bool
dtype: object

Dari hasil di atas terlihat beberapa tipe data seperti int64 untuk bilangan bulat, float64 untuk bilangan desimal, bool untuk data True atau False, object untuk karakter atau kalimat dan category untuk kategori data.

Mengakses data pada kolom tertentu

Terdapat dua cara umum untuk memanggil data pada kolom tertentu, menggunakan nama kolom sebagai indeks dan menggunakan nama kolom sebagai atribut.

  1. Nama kolom sebagai indeks
df['age'].head()
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64
  1. Nama kolom sebagai atribut
df.age.head()
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

Untuk memanggil data pada beberapa kolom, cara paling mudah adalah dengan menggunakan list (daftar) yang berisi beberapa nama kolom.

df[['survived', 'age']].head()
survived age
0 0 22.0
1 1 38.0
2 1 26.0
3 1 35.0
4 0 35.0

Pengolahan Dataset

Nilai minimum dan maksimum

Kedua nilai tersebut dapat ditentukan dengan metode .min() dan .max(). Diambil data pada kolom age sebagai contoh pada bagian ini.

print(f'Nilai min: {df.age.min()}')
print(f'Nilai max: {df.age.max()}')
Nilai min: 0.42
Nilai max: 80.0

Nilai rata-rata dan standar deviasi

Nilai tersebut dapat ditentukan dengan metode .mean() dan .std().

print(f'Nilai mean: {df.age.mean()}')
print(f'Nilai std: {df.age.std()}')
Nilai mean: 29.69911764705882
Nilai std: 14.526497332334042

Nilai kuantil

Nilai kuantil dapat ditentukan dengan metode .quantile(). Q10, Q20 maupun Q30 bisa diketahui dengan memasukkan parameter pada metode .quantile(.10), .quantile(.20) dan .quantile(.30) untuk masing-masing nilai kuantil yang ingin dicari.

print(f'Nilai Q10: {df.age.quantile(.10)}')
print(f'Nilai Q20: {df.age.quantile(.20)}')
print(f'Nilai Q30: {df.age.quantile(.30)}')
Nilai Q10: 14.0
Nilai Q20: 19.0
Nilai Q30: 22.0