Klasterisasi
Apa itu Klasterisasi? Klasterisasi adalah teknik yang digunakan untuk mengelompokkan data ke dalam grup atau cluster yang mirip. Tidak memerlukan label data sebelumnya dan digunakan untuk menemukan struktur dalam data.
k-Means Clustering:
- Algoritma yang membagi data ke dalam k cluster dengan cara meminimalkan jarak antara data dan pusat cluster.
- Implementasi dengan Scikit-learn:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
# Memuat data
X = data[[‘feature1’, ‘feature2’]]
# Membuat dan melatih model
model = KMeans(n_clusters=3, random_state=42)
model.fit(X)
# Menambahkan label cluster ke data
data[‘cluster’] = model.labels_
# Visualisasi hasil clustering
plt.scatter(data[‘feature1’], data[‘feature2’], c=data[‘cluster’], cmap=’viridis’)
plt.xlabel(‘Feature 1’)
plt.ylabel(‘Feature 2’)
plt.title(‘k-Means Clustering’)
plt.show()