Course Content
Pengenalan Data Mining
Dengan materi ini, peserta diharapkan dapat memahami konsep dasar data mining, proses yang terlibat, dan Sejarah singkat Data Mining.
0/5
Lingkungan Kerja dan Instalasi
Dengan materi ini, peserta diharapkan dapat mengatur lingkungan kerja mereka untuk data mining menggunakan Python dan memahami dasar-dasar penggunaan Jupyter Notebook serta pustaka yang diperlukan.
0/5
Pengumpulan dan Pembersihan Data
Dengan materi ini, peserta diharapkan dapat memahami dan menerapkan proses pengumpulan serta pembersihan data menggunakan Python.
0/4
Exploratory Data Analysis (EDA)
Dengan materi ini, peserta diharapkan dapat memahami dan menerapkan teknik eksplorasi data untuk memperoleh wawasan awal dari dataset mereka.
0/6
Teknik Data Mining Dasar
Dengan materi ini, peserta diharapkan dapat memahami teknik dasar data mining, termasuk klasifikasi, regresi, dan clustering, serta cara mengevaluasi model-model tersebut.
0/5
Penutup
peserta diharapkan dapat memahami capaian dari kursus dan mengenali keterampilan yang telah diperoleh untuk pengembangan keterampilan lebih lanjut.
0/1
Dasar Data Mining Menggunakan Python
About Lesson

Klasifikasi

Apa itu Klasifikasi? Klasifikasi adalah teknik dalam data mining yang digunakan untuk mengategorikan data ke dalam label atau kelas yang telah ditentukan. Model klasifikasi belajar dari data pelatihan dan digunakan untuk memprediksi kelas dari data yang belum terlihat.

Algoritma Klasifikasi Dasar:

Decision Trees:

  • Model yang membagi data berdasarkan fitur untuk membuat keputusan. Mudah dipahami dan diinterpretasikan.
  • Implementasi dengan Scikit-learn:

          from sklearn.tree import DecisionTreeClassifier
          from sklearn.model_selection import train_test_split
          from sklearn.metrics import accuracy_score

          # Memuat data
          X = data[[‘feature1’, ‘feature2’]]
          y = data[‘target’]

          # Membagi data
          X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

          # Membuat dan melatih model
          model = DecisionTreeClassifier()
          model.fit(X_train, y_train)

         # Membuat prediksi
         y_pred = model.predict(X_test)

        # Mengukur akurasi
        accuracy = accuracy_score(y_test, y_pred)
        print(f’Accuracy: {accuracy:.2f}’)

k-Nearest Neighbors (k-NN):

  • Algoritma yang mengklasifikasikan data berdasarkan kedekatannya dengan titik data lain dalam ruang fitur.
  • Implementasi dengan Scikit-learn:

       from sklearn.neighbors import KNeighborsClassifier
       from sklearn.model_selection import train_test_split
       from sklearn.metrics import accuracy_score

      # Memuat data
      X = data[[‘feature1’, ‘feature2’]]
      y = data[‘target’]

     # Membagi data
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

     # Membuat dan melatih model
     model = KNeighborsClassifier(n_neighbors=5)
     model.fit(X_train, y_train)

     # Membuat prediksi
     y_pred = model.predict(X_test)

     # Mengukur akurasi
     accuracy = accuracy_score(y_test, y_pred)
     print(f’Accuracy: {accuracy:.2f}’)