K-means Algorithm (KMA

)
Kasus 1.
Diketahui angka kematian kasar (CDR) dan angka kelahiran kasar (CBR) 10 negara seperti terlihat pada Tabel 1. Negara-negara tersebut akan dikelompokkan berdasarkan CBR dan CDRnya menjadi tiga kelompok. Proses pengelompokkan menggunakan metode k-means. Tabel 1. CDR dan CBR tahun 1994 (sumber: ESCAP Population Data Sheet 1996) http://bankdata.depkes.go.id/Profil/Indo98/Annex/lvia5.htm No Negara CBR CDR 1 Brunei Darusalam 27 3 2 Kamboja 38 14 3 Indonesia 24 8 4 Laos 43 15 5 Malaysia 28 5 6 Myanmar 32 11 7 Filipina 30 7 8 Singapura 17 5 9 Thailand 20 6 10 Vietnam 29 8 1. Misalkan kita akan pengelompokkan data tersebut menjadi 3 cluster, K = 3. Misalkan pusat cluster kita tetapkan sembarang, c1 = (20, 5); c2 = (25,4); dan c3 = (30,10). 2. Hitung jarak setiap data terhadap setiap pusat cluster. Misalkan untuk menghitung jarak data pertama (Brunei Darusalam) dengan pusat cluster pertama adalah:
d 11 =

(27 − 20)2 + (3 − 5)2

= 7,2801

Jarak data pertama (Brunei Darusalam) dengan pusat cluster kedua adalah:
d 12 =

(27 − 25)2 + (3 − 4)2

= 2,2361

Jarak data pertama (Brunei Darusalam) dengan pusat cluster ketiga adalah:
d 13 =

(27 − 30)2 + (3 − 10)2

= 7,6158

Hasil perhitungan jarak selengkapnya adalah;

4164 10. Hitung pusat cluster baru.1231 21. maka data tersebut akan masuk pada cluster ketiga.3246 13.0000 13.0000 25.3852 5. 2 . Untuk cluster pertama.1980 3. 4.6569 C3 7.4868 Jarak C2 2. jarak terkecil ada pada cluster ketiga.2361 16.3852 2.9284 10. sehingga data pertama akan menjadi anggota dari cluster pertama. sehingga: c11 = 17 + 20 = 18.8310 8.2801 20.7703 2. dan cluster keempat ada 5.0799 8.1623 9.6158 8.5 . 2 c12 = 5+6 = 5.8995 5.9443 6.5 .4012 4.0950 3.9284 5.No 1 2 3 4 5 6 7 8 9 10 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura Thailand Vietnam CBR 27 38 24 43 28 32 30 17 20 29 CDR 3 14 8 15 5 11 7 5 6 8 C1 7. Suatu data akan menjadi anggota dari suatu cluster yang memiliki jarak terkecil dari pusat clusternya. ada 2 data yaitu data ke-8 dan data ke-9.0000 13.2361 3. Demikian juga untuk data kedua (Kamboja).2361 3.1246 5.0000 1.0623 5. Posisi cluster selengkapnya adalah: No 1 2 3 4 5 6 7 8 9 10 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura Thailand Vietnam CBR 27 38 24 43 28 32 30 17 20 29 CDR 3 14 8 15 5 11 7 5 6 8 Anggota Cluster C1 C2 C3 * * * * * * * * * * Berdasarkan hasil penggolongan tersebut. cluster kedua ada 3. Misalkan untuk data pertama.0000 9. diperoleh anggota cluster pertama ada 2. jarak terkecil diperoleh pada cluster kedua.

Untuk cluster kedua. Hasil perhitungan jarak selengkapnya terlihat pada Tabel 4.5335 3. Ulangi menghitung jarak setiap data terhadap setiap pusat cluster yang baru. data ke-7 dan data ke-10.0277 9.33 .6861 10.8600 21. sehingga: c 21 = c 22 = 27 + 24 + 28 = 26. data ke-6.2671 1.5974 1.0139 4. ada 3 data yaitu data ke-1. No 1 2 3 4 5 6 7 8 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura CBR 27 38 24 43 28 32 30 17 CDR 3 14 8 15 5 11 7 5 C1 Anggota Cluster C2 C3 * * * * * * ** * . sehingga: c 31 = c 32 = 38 + 43 + 32 + 30 + 29 = 34.8240 9.4 .5811 10.5131 14.4000 5.5774 11.5434 19. Posisi cluster selengkapnya terlihat pada Tabel 5. data ke-4.7935 Jarak C2 2. 3 3+8+5 = 5.33 3 Untuk cluster ketiga.4847 8.7712 C3 10.8977 4.2720 6.6997 8. 5 14 + 15 + 11 + 7 + 8 = 11 5 5.5811 1. data ke-3 dan data ke-5.4054 15.0415 26.3393 6.7727 2. ada 5 data yaitu data ke-2.1774 6.4267 14.2434 6.2774 9. No 1 2 3 4 5 6 7 8 9 10 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura Thailand Vietnam CBR 27 38 24 43 28 32 30 17 20 29 CDR 3 14 8 15 5 11 7 5 6 8 C1 8.9464 18.3683 3.

Ulangi menghitung jarak setiap data terhadap setiap pusat cluster yang baru.1283 9.7935 Jarak C2 3.2774 9.5115 2. yaitu data ke-7 dan ke-10.7628 6. c22 = 6. sehingga diperoleh: c11 = 18.0249 17.2804 C3 14.33.0000 4. c12 = 5.1762 9.5811 10.8511 0. c32 = 13.6705 5.2720 6.5.6.0415 26.2558 13.7370 1.9 10 Thailand Vietnam 20 29 6 8 * ** Terlihat masih ada 2 data yang berubah posisi dari kondisi semula.6026 2. No 1 2 3 4 5 6 7 8 9 10 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura Thailand Vietnam CBR 27 38 24 43 28 32 30 17 20 29 CDR 3 14 8 15 5 11 7 5 6 8 C1 8. Hasil perhitungan jarak selengkapnya terlihat pada Tabel 6. Sehingga perlu dihitung pusat cluster baru. c21 = 27.8600 21.6677 7.67. c31 = 37.5131 14.1282 10.2649 6.5811 1. Hitung pusat cluster baru sebagaimana pada langkah ke-4.2835 19.5298 10. Posisi cluster selengkapnya terlihat pada Tabel 7. No 1 2 3 4 5 6 7 8 9 10 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura Thailand Vietnam CBR 27 38 24 43 28 32 30 17 20 29 CDR 3 14 8 15 5 11 7 5 6 8 Anggota Cluster C1 C2 C3 * * * * * * * * * * .7454 14.5974 1.2.5774 11. 8. 7.5877 12.9443 22.5.

• Cluster kedua memiliki pusat (27. Ada 3 negara yang termasuk dalam kelompok ini.Terlihat bahwa posisi data sudah tidak mengalami perubahan. 6. yaitu Singapura dan Thailand. Indonesia. Laos dan Myanmar. yaitu Kamboja. 13. dengan: • Cluster pertama memiliki pusat (18.33) yang dapat diartikan sebagai kelompok negara-negara dengan dengan CBR tinggi dan CDR tinggi. Ada 2 negara yang termasuk dalam kelompok ini. Filipina dan Vietnam. Malaysia.67.6.5.5) yang dapat diartikan sebagai kelompok negara-negara dengan dengan CBR rendah dan CDR rendah. sehingga proses iterasi sudah dapat dihentikan.2) yang dapat diartikan sebagai kelompok negara-negara dengan dengan CBR sedang dan CDR sedang. . • Cluster ketiga memiliki pusat (37. 5. Ada 5 negara yang termasuk dalam kelompok ini. Hasil akhir yang diperoleh adalah 3 cluster. yaitu Brunei Darusalam.

047 5.83 4.24 7 5 10.41 8 10.2 22.37 9 7.Untuk mendapatkan jumlah cluster optimal dengan metode silhoutte measure.22 Berada pada Cluster ke1 2 1 2 1 2 1 1 1 1 Untuk data pertama.03 11.26 27.2 + 7.62 4.21 4.63 22.65 3.24 9.08 15.41 12.15 10.2 7. perlu dilakukan proses clustering dengan jumlah cluster dari 2 sampai 9.16 6 9.7 15.03 7.62 + 5. 7 – 10.24 + 5 + 10. yaitu: a1 = (5.43 6. Dengan menggunakan KMA.06 13 10.86 11 16.45 5 18.7 10.86 24. dihitung rata-rata jarak antara X1 dengan semua data yang ada dicluster pertama (karena data pertama terletak di cluster pertama).83 + 2.54 6.22 10 5.47 16.23 20.33) Posisi data pada cluster adalah sebagai berikut: Data ke1 2 3 4 5 6 7 8 9 10 Jarak antar data adalah: Data ke1 2 3 4 5 6 7 8 9 10 Jarak 1 15.43 5 10. Nilai a1 merupakan rata-rata jarak tersebut. i 1 2 3 ai 6.24 13.39 2 15.16 4.45 6.05 1.71 8.62 19.05 3.71 10.16 13 4.08 7.62 27. yaitu jarak terhadap data ke-3.65 5 2.047.25 5 8.25 18.37 9.diperoleh nilai ai sebagai berikut. 13.56 5.1 20.82 5 15.16 9.39 10.904 5.1 13.7 7.06 3.67.39)/6 = 6.21 2.47 13.63 6.23 5. 6) dan C2 = (37. pusat cluster untuk jumlah cluster = 2 adalah: C1 = (25.7 15.83 20 2.15 3.47 5 4 20 5.62 5.83 11 8.667 .82 3 5. Demikian seterusnya.7 8.47 24.85 7.85 19.7 4.26 2.16 13.56 15.16 12.54 11. 5.24 1.83 15.

022 0.583 7.43)/3 = 14.629 0.402 5.614 0. i 1 2 3 4 5 6 7 8 9 10 Rata-rata si 0.675 20.4 5 6 7 8 9 10 8. diperoleh nilai si sebagai berikut. Nilai rata-rata jarak tersebut = (15.366 0.570 0.287 19. Demikian seterusnya sehingga diperoleh bi sebagai berikut. Karena hanya ada 1 cluster diluar cluster pertama.237 Dengan menggunakan persamaan (3).585 0. i 1 2 3 4 5 6 7 8 9 10 bi 14. untuk data pertama. 4.597 0.382 9.56 + 20 + 9.462 14.997.997 15.997. dihitung rata-rata jarak antara X1 dengan semua data yang ada dicluster kedua (hanya ada cluster kedua selain cluster pertama).009 10.207 6.898 9.122 22. yaitu jarak terhadap data ke-2.092 Demikian pula.422 9. dan 6.250 12. maka diperoleh nilai b1 = 14.405 0.583 -0.098 6.495 .618 0.132 10.

. sehingga diperoleh s2 = 0. proses Sehingga nilai rata-rata si untuk 2 cluster adalah ~ tersebut dilakukan untuk jumlah cluster 3 sampai 9.403 = 0. hasilnya dapat dilihat pada Tabel. 6.495.047 s1 = 1 − = 1 − 0.299 0. Jumlah cluster 2 3 4 5 6 7 8 9 ~ sk 0.418 0. yaitu 0. Demikian seterusnya.159 0. pada data pertama.997 nilai a1 < b1.Sebagai contoh.105 s2 memiliki angka terbesar.185 0. sehingga jumlah cluster Terlihat bahwa nilai ~ yang optimal untuk kasus tersebut adalah 2. 14.131 0.193 0.495.597.495 0.