Course Content
Pengenalan Data Mining
Dengan materi ini, peserta diharapkan dapat memahami konsep dasar data mining, proses yang terlibat, dan Sejarah singkat Data Mining.
0/5
Lingkungan Kerja dan Instalasi
Dengan materi ini, peserta diharapkan dapat mengatur lingkungan kerja mereka untuk data mining menggunakan Python dan memahami dasar-dasar penggunaan Jupyter Notebook serta pustaka yang diperlukan.
0/5
Pengumpulan dan Pembersihan Data
Dengan materi ini, peserta diharapkan dapat memahami dan menerapkan proses pengumpulan serta pembersihan data menggunakan Python.
0/4
Exploratory Data Analysis (EDA)
Dengan materi ini, peserta diharapkan dapat memahami dan menerapkan teknik eksplorasi data untuk memperoleh wawasan awal dari dataset mereka.
0/6
Teknik Data Mining Dasar
Dengan materi ini, peserta diharapkan dapat memahami teknik dasar data mining, termasuk klasifikasi, regresi, dan clustering, serta cara mengevaluasi model-model tersebut.
0/5
Penutup
peserta diharapkan dapat memahami capaian dari kursus dan mengenali keterampilan yang telah diperoleh untuk pengembangan keterampilan lebih lanjut.
0/1
Dasar Data Mining Menggunakan Python
About Lesson

Pembersihan Data

Apa itu Pembersihan Data?

Pembersihan data adalah proses memperbaiki dan menyiapkan data untuk analisis dengan menghapus atau memperbaiki kesalahan, ketidaklengkapan, dan inkonsistensi dalam data.

Langkah-langkah Pembersihan Data:

  • Menangani Nilai Hilang:
  1. Menghapus Baris dengan Nilai Hilang: data = data.dropna()
  2. Mengisi Nilai Hilang dengan Rata-rata atau Median: data[‘column_name’].fillna(data[‘column_name’].mean(), inplace=True)
  3. Mengisi Nilai Hilang dengan Nilai Konstanta: data[‘column_name’].fillna(‘Unknown’, inplace=True)
  • Menghapus Duplikat:
  1. Menghapus Baris Duplikat: data = data.drop_duplicates()
  • Transformasi Data:
  1. Mengubah Tipe Data: data[‘column_name’] = data[‘column_name’].astype(int)
  2. Menstandardisasi atau Normalisasi Data: 

          from sklearn.preprocessing import StandardScaler
          scaler = StandardScaler()
          data[[‘column1’, ‘column2’]] = scaler.fit_transform(data[[‘column1’, ‘column2’]])

  • Menangani Data Kategori:
  1. Mengubah Data Kategori Menjadi Variabel Dummy: data = pd.get_dummies(data, columns=[‘categorical_column’])
  • Pembersihan Teks:
  1. Menghapus Karakter Tidak Perlu dari Teks: data[‘text_column’] = data[‘text_column’].str.replace(‘[^a-zA-Z0-9 ]’, ”)