K-means Algorithm (KMA

)
Kasus 1.
Diketahui angka kematian kasar (CDR) dan angka kelahiran kasar (CBR) 10 negara seperti terlihat pada Tabel 1. Negara-negara tersebut akan dikelompokkan berdasarkan CBR dan CDRnya menjadi tiga kelompok. Proses pengelompokkan menggunakan metode k-means. Tabel 1. CDR dan CBR tahun 1994 (sumber: ESCAP Population Data Sheet 1996) http://bankdata.depkes.go.id/Profil/Indo98/Annex/lvia5.htm No Negara CBR CDR 1 Brunei Darusalam 27 3 2 Kamboja 38 14 3 Indonesia 24 8 4 Laos 43 15 5 Malaysia 28 5 6 Myanmar 32 11 7 Filipina 30 7 8 Singapura 17 5 9 Thailand 20 6 10 Vietnam 29 8 1. Misalkan kita akan pengelompokkan data tersebut menjadi 3 cluster, K = 3. Misalkan pusat cluster kita tetapkan sembarang, c1 = (20, 5); c2 = (25,4); dan c3 = (30,10). 2. Hitung jarak setiap data terhadap setiap pusat cluster. Misalkan untuk menghitung jarak data pertama (Brunei Darusalam) dengan pusat cluster pertama adalah:
d 11 =

(27 − 20)2 + (3 − 5)2

= 7,2801

Jarak data pertama (Brunei Darusalam) dengan pusat cluster kedua adalah:
d 12 =

(27 − 25)2 + (3 − 4)2

= 2,2361

Jarak data pertama (Brunei Darusalam) dengan pusat cluster ketiga adalah:
d 13 =

(27 − 30)2 + (3 − 10)2

= 7,6158

Hasil perhitungan jarak selengkapnya adalah;

sehingga data pertama akan menjadi anggota dari cluster pertama. Untuk cluster pertama. Demikian juga untuk data kedua (Kamboja). jarak terkecil ada pada cluster ketiga.3246 13.0000 13.1231 21. sehingga: c11 = 17 + 20 = 18.2801 20.7703 2.3852 5.9284 10. 2 c12 = 5+6 = 5.2361 16. Misalkan untuk data pertama.9443 6.1246 5.0000 9.0000 25.2361 3.6158 8. Posisi cluster selengkapnya adalah: No 1 2 3 4 5 6 7 8 9 10 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura Thailand Vietnam CBR 27 38 24 43 28 32 30 17 20 29 CDR 3 14 8 15 5 11 7 5 6 8 Anggota Cluster C1 C2 C3 * * * * * * * * * * Berdasarkan hasil penggolongan tersebut. maka data tersebut akan masuk pada cluster ketiga. jarak terkecil diperoleh pada cluster kedua.4164 10.0623 5. Suatu data akan menjadi anggota dari suatu cluster yang memiliki jarak terkecil dari pusat clusternya.0000 13.6569 C3 7. 4. ada 2 data yaitu data ke-8 dan data ke-9.1980 3. dan cluster keempat ada 5.8310 8.5 .No 1 2 3 4 5 6 7 8 9 10 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura Thailand Vietnam CBR 27 38 24 43 28 32 30 17 20 29 CDR 3 14 8 15 5 11 7 5 6 8 C1 7. Hitung pusat cluster baru. cluster kedua ada 3. diperoleh anggota cluster pertama ada 2.4012 4.2361 3.9284 5.0799 8.5 .3852 2.0000 1. 2 .1623 9.8995 5.0950 3.4868 Jarak C2 2.

3683 3. sehingga: c 21 = c 22 = 27 + 24 + 28 = 26.4054 15.1774 6.5434 19.0139 4.7935 Jarak C2 2. sehingga: c 31 = c 32 = 38 + 43 + 32 + 30 + 29 = 34.5974 1.5811 1. data ke-7 dan data ke-10.8600 21. No 1 2 3 4 5 6 7 8 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura CBR 27 38 24 43 28 32 30 17 CDR 3 14 8 15 5 11 7 5 C1 Anggota Cluster C2 C3 * * * * * * ** * .6997 8.5774 11.0415 26.8977 4.2720 6.7727 2. 3 3+8+5 = 5.5131 14. data ke-6.2774 9. ada 5 data yaitu data ke-2.33 3 Untuk cluster ketiga. ada 3 data yaitu data ke-1. Posisi cluster selengkapnya terlihat pada Tabel 5.33 . No 1 2 3 4 5 6 7 8 9 10 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura Thailand Vietnam CBR 27 38 24 43 28 32 30 17 20 29 CDR 3 14 8 15 5 11 7 5 6 8 C1 8.5335 3. data ke-3 dan data ke-5.7712 C3 10.4000 5. data ke-4.9464 18. Hasil perhitungan jarak selengkapnya terlihat pada Tabel 4.Untuk cluster kedua.3393 6.4267 14.2434 6.6861 10. Ulangi menghitung jarak setiap data terhadap setiap pusat cluster yang baru.4 .4847 8.8240 9.5811 10. 5 14 + 15 + 11 + 7 + 8 = 11 5 5.0277 9.2671 1.

6026 2.5811 10.1282 10.5811 1.8511 0.2835 19.33. yaitu data ke-7 dan ke-10.2804 C3 14. Hitung pusat cluster baru sebagaimana pada langkah ke-4.0415 26.2.5. Sehingga perlu dihitung pusat cluster baru.5774 11.9 10 Thailand Vietnam 20 29 6 8 * ** Terlihat masih ada 2 data yang berubah posisi dari kondisi semula.67.5.2558 13.1762 9.2720 6.2774 9.7370 1. 7.5115 2.1283 9.9443 22.7454 14.0249 17. Posisi cluster selengkapnya terlihat pada Tabel 7. No 1 2 3 4 5 6 7 8 9 10 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura Thailand Vietnam CBR 27 38 24 43 28 32 30 17 20 29 CDR 3 14 8 15 5 11 7 5 6 8 C1 8.2649 6. Ulangi menghitung jarak setiap data terhadap setiap pusat cluster yang baru.5877 12. c21 = 27. c31 = 37.7935 Jarak C2 3. c12 = 5. c32 = 13.6705 5.5298 10. 8. c22 = 6.7628 6.6677 7.0000 4. No 1 2 3 4 5 6 7 8 9 10 Negara Brunei Darusalam Kamboja Indonesia Laos Malaysia Myanmar Filipina Singapura Thailand Vietnam CBR 27 38 24 43 28 32 30 17 20 29 CDR 3 14 8 15 5 11 7 5 6 8 Anggota Cluster C1 C2 C3 * * * * * * * * * * .5974 1.6. Hasil perhitungan jarak selengkapnya terlihat pada Tabel 6. sehingga diperoleh: c11 = 18.5131 14.8600 21.

13. yaitu Brunei Darusalam.6. .2) yang dapat diartikan sebagai kelompok negara-negara dengan dengan CBR sedang dan CDR sedang.5. dengan: • Cluster pertama memiliki pusat (18. sehingga proses iterasi sudah dapat dihentikan. Filipina dan Vietnam. Laos dan Myanmar. yaitu Singapura dan Thailand. Malaysia. Ada 5 negara yang termasuk dalam kelompok ini. 5. yaitu Kamboja. Ada 3 negara yang termasuk dalam kelompok ini. Hasil akhir yang diperoleh adalah 3 cluster. • Cluster ketiga memiliki pusat (37. 6. Ada 2 negara yang termasuk dalam kelompok ini.33) yang dapat diartikan sebagai kelompok negara-negara dengan dengan CBR tinggi dan CDR tinggi. • Cluster kedua memiliki pusat (27.67.5) yang dapat diartikan sebagai kelompok negara-negara dengan dengan CBR rendah dan CDR rendah. Indonesia.Terlihat bahwa posisi data sudah tidak mengalami perubahan.

23 5.85 19.62 27.67.62 4.86 24. Dengan menggunakan KMA.63 6.37 9 7.047 5.71 8.23 20.03 11.16 12.83 20 2.21 2.15 3.06 13 10.24 + 5 + 10.39)/6 = 6.24 7 5 10.62 19.39 2 15.08 7.667 .82 5 15.83 11 8.21 4.7 15.Untuk mendapatkan jumlah cluster optimal dengan metode silhoutte measure.65 5 2.22 Berada pada Cluster ke1 2 1 2 1 2 1 1 1 1 Untuk data pertama.24 1.22 10 5.47 13.83 15.83 4.7 15.2 7.62 5.1 13.54 6. perlu dilakukan proses clustering dengan jumlah cluster dari 2 sampai 9.16 9.7 7.65 3.45 6.15 10.56 15.86 11 16.7 4.diperoleh nilai ai sebagai berikut. Demikian seterusnya. 5.62 + 5.71 10.83 + 2.25 5 8.39 10.1 20.26 27.24 9.43 6.47 24.41 8 10.16 13 4. yaitu: a1 = (5.7 10.08 15. dihitung rata-rata jarak antara X1 dengan semua data yang ada dicluster pertama (karena data pertama terletak di cluster pertama).16 6 9.05 1.54 11.85 7.25 18.24 13.904 5.16 13.047.63 22.33) Posisi data pada cluster adalah sebagai berikut: Data ke1 2 3 4 5 6 7 8 9 10 Jarak antar data adalah: Data ke1 2 3 4 5 6 7 8 9 10 Jarak 1 15.05 3.2 22.37 9.2 + 7.26 2. 13.47 16.7 8.06 3. 7 – 10.41 12. pusat cluster untuk jumlah cluster = 2 adalah: C1 = (25.16 4. 6) dan C2 = (37.56 5.45 5 18.43 5 10.47 5 4 20 5.03 7.82 3 5. yaitu jarak terhadap data ke-3. i 1 2 3 ai 6. Nilai a1 merupakan rata-rata jarak tersebut.

997.366 0.122 22.287 19.56 + 20 + 9.583 7. i 1 2 3 4 5 6 7 8 9 10 bi 14. i 1 2 3 4 5 6 7 8 9 10 Rata-rata si 0. dihitung rata-rata jarak antara X1 dengan semua data yang ada dicluster kedua (hanya ada cluster kedua selain cluster pertama).405 0.092 Demikian pula.618 0.132 10. dan 6.237 Dengan menggunakan persamaan (3). yaitu jarak terhadap data ke-2.597 0.022 0.207 6.898 9. untuk data pertama.614 0.250 12.997.43)/3 = 14. diperoleh nilai si sebagai berikut. Karena hanya ada 1 cluster diluar cluster pertama.583 -0.402 5.098 6.382 9. Nilai rata-rata jarak tersebut = (15.422 9.585 0. 4. maka diperoleh nilai b1 = 14.009 10.495 . Demikian seterusnya sehingga diperoleh bi sebagai berikut.4 5 6 7 8 9 10 8.570 0.462 14.629 0.997 15.675 20.

403 = 0. .418 0.495 0. yaitu 0.495.997 nilai a1 < b1.047 s1 = 1 − = 1 − 0.185 0. Jumlah cluster 2 3 4 5 6 7 8 9 ~ sk 0.299 0.597. sehingga jumlah cluster Terlihat bahwa nilai ~ yang optimal untuk kasus tersebut adalah 2. 14.Sebagai contoh.105 s2 memiliki angka terbesar.495.193 0. sehingga diperoleh s2 = 0.159 0.131 0. 6. pada data pertama. Demikian seterusnya. proses Sehingga nilai rata-rata si untuk 2 cluster adalah ~ tersebut dilakukan untuk jumlah cluster 3 sampai 9. hasilnya dapat dilihat pada Tabel.

Sign up to vote on this title
UsefulNot useful