Pembersihan Data
Apa itu Pembersihan Data?
Pembersihan data adalah proses memperbaiki dan menyiapkan data untuk analisis dengan menghapus atau memperbaiki kesalahan, ketidaklengkapan, dan inkonsistensi dalam data.
Langkah-langkah Pembersihan Data:
- Menangani Nilai Hilang:
- Menghapus Baris dengan Nilai Hilang: data = data.dropna()
- Mengisi Nilai Hilang dengan Rata-rata atau Median: data[‘column_name’].fillna(data[‘column_name’].mean(), inplace=True)
- Mengisi Nilai Hilang dengan Nilai Konstanta: data[‘column_name’].fillna(‘Unknown’, inplace=True)
- Menghapus Duplikat:
- Menghapus Baris Duplikat: data = data.drop_duplicates()
- Transformasi Data:
- Mengubah Tipe Data: data[‘column_name’] = data[‘column_name’].astype(int)
- Menstandardisasi atau Normalisasi Data:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data[[‘column1’, ‘column2’]] = scaler.fit_transform(data[[‘column1’, ‘column2’]])
- Menangani Data Kategori:
- Mengubah Data Kategori Menjadi Variabel Dummy: data = pd.get_dummies(data, columns=[‘categorical_column’])
- Pembersihan Teks:
- Menghapus Karakter Tidak Perlu dari Teks: data[‘text_column’] = data[‘text_column’].str.replace(‘[^a-zA-Z0-9 ]’, ”)