Tutorial K-means Clustering Dengan RapidMiner

 

 Cluster Analysis merupakan salah satu metode objek mining yang bersifat tanpa Latihan (unsupervised analysis), sedangkan K-Means Cluster Analysis merupakan salah satu metode cluster analysis non hirarki yang berusaha untuk mempartisi objek yang ada kedalam satu atau lebih cluster atau kelompok objek berdasarkan karakteristiknya, sehingga objek yang mempunyai karakteristik yang sama dikelompokan dalam satu cluster yang sama dan objek yang mempunyai karakteristik yang berbeda dikelompokan kedalam cluster yang lain.

Tujuan pengelompokan adalah untuk meminimalkan objective function yang di set dalam proses clustering, yang pada dasarnya berusaha untuk meminimalkan variasi dalam satu cluster dan memaksimalkan variasi antar cluster. Metode cluster ini meliputi sequential

threshold, pararel threshold dan optimizing threshold. Sequential threshold melakukan pengelompokan dengan terlebih dahulu memilih satu objek dasar yang akan dijadikan nilai awal cluster, kemudian semua cluster yang ada dalam jarak terdekat dengan cluster ini akan bergabung, lalu dipilih cluster kedua dan semua objek yang mempunyai kemiripan dengan cluster ini akan digabungkan, demikian seterusnya sehingga terbentuk beberapa cluster dengan keseluruhan objek yang terdapat didalamnya.

Menurut (Santosa, 2007) dan Ong, langkah-langkah melakukan Clustering dengan metode KMeans adalah sebagai berikut:

1. Pilih jumlah cluster k

2. Inisialisasi k pusat cluster ini bisa dilakukan dengan berbagai cara. Namun yang paling sering dilakukan adalah dengan cara random. Pusat pusat cluster diberi nilai awal dengan angka-angka random,

3. Alokasikan semua data/ objek kecluster terdekat. Kedekatan dua objek ditentukan berdasarkan jarak kedua objek tersebut. Demikian juga kedekatan suatu data ke cluster tertentu ditentukan jarak antara data dengan pusat cluster. Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat cluster. Jarak paling antara satu data dengan satu cluster tertentu akan menentukan suatu data masuk dalam cluster mana. Untuk menghitung jarak semua data ke setiap titik pusat cluster dapat menggunakan teori jarak Euclidean yang dirumuskan sebagai berikut:

 Gambar 1. Rumus K-Means

4. Hitung kembali pusat cluster dengan keanggotaan cluster yang sekarang.Pusat cluster adalah rata-rata dari semua data/objek dalam cluster tertentu. Jika dikehendaki bisa juga menggunakan median dari cluster tersebut. Jadi rata-rata (mean) bukan satusatunya ukuran yang bisa dipakai

5. Tugaskan lagi setiap objek memakai pusat cluster yang baru. Jika pusat cluster tidak berubah lagi maka proses Clustering selesai. Atau, kembali kelangkah nomor 3 sampai pusat cluster tidak berubah lagi.

 

 

Jika masih bingung, simak video K-Means berikut https://www.youtube.com/watch?v=EgXQvvbmtnM

0 Komentar