You are on page 1of 12

ANALISIS PENGELOMPOKAN DESA TERTINGGAL DI KABUPATEN KUTAI TIMUR DENGAN PENDEKATAN METODE K-MEANS DAN CENTROID LINKAGE (Minkowski

Distance Measure)

[makalah] Adi Wijaya1 adiw@bps.go.id NRP. 1310201720 1 Mahasiswa Program Pascasarjana, Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, Surabaya

Abstract

1. Pendahuluan

Salah satu masalah utama saat ini baik di negara-negara miskin, berkembang maupun di negara-negara maju adalah kemiskinan. Kemiskinan merupakan awal dari timbulnya masalah-masalah sosial lainnya yang terkait erat dengan kualitas pendidikan, kriminalitas, kelaparan dsb yang secara tidak langsung akan mengganggu ketahanan atau stabilitas negara (Arisanti, 2008). Oleh karena itu pemerintah daerah di tiap negara berjuang keras untuk mengatasi masalah kemiskinan dengan beragam kebijakan-kebijakan, termasuk daerah-daerah di Indonesia. Kutai Timur sebagai salah satu kabupaten di Propinsi Kalimantan Timur juga berjuang untuk mengatasi kemiskinan di daerahnya dengan beragam kebijakan baik nasional maupun lokal antara lain bantuan langsung tunai (BLT), pelayanan kesehatan

ad

iw

Keywords: poverty, villages, k-means clustering, centroid linkage, Minkowski distance

ta l

ks

Poverty is one of the complicated problems in Indonesia and many countries. In Indonesia especially in East Kutai Regency, the government has published many policies to press the poverty rate. However, poverty is not only about people but also about related to surrounding areas like village. Therefore, this research uses clustering analysis method to find how many clusters will be produced by this method and how many villages that be included in each cluster. The different methods used in this research are non-hierarchical method with k-means clustering analysis and hierarchical method with centroid linkage method using Minkowski distance measure . The results show that the number of clusters of villages in East Kutai is two clusters with different members of each cluster of each method.

.w

or

dp

re

ss .c

om
1

gratis (JAMKESMAS), pendidikan gratis dsb. Selain itu pembangunan sarana-sarana penunjang kebijakan-kebijakan tersebut juga ditingkatkan baik dari segi jumlah maupun kualitas di berbagai lini dari desa, kecamatan hingga tingkat kabupaten (BPS, 2009). Salah satu langkah awal memerangi kemiskinan adalah dengan mengetahui kantong-kantong kemiskinan di Kabupaten Kutai Timur. Kantong-kantong

kemiskinan ini merupakan kelompok desa-desa yang memiliki kedekatan karakteristik sarana dan kemiripan dalam nilai-nilai sejumlah variabel sehingga didefinisikan sebagai desa tertinggal. Dengan mengetahui secara geografis desa-desa yang mengalami ketertinggalan, diharapkan akan lahir kebijakan-kebijakan yang tepat sasaran dan efektif dalam memerangi kemiskinan di Kutai Timur. Badan Pusat Statistik telah melakukan perhitungan skor desa tertinggal sejak

Potensi Desa. Akan tetapi untuk mengklasifikasian tertinggal tidaknya suatu desa,

skor desa adalah dengan nilai indeks komposit ketertinggalan desa yang merupakan rata-rata dari jumlah skor kondisi desa berdasarkan faktor alam/lingkungan, faktor kelembagaan, keterbatasan sarana prasarana dan akses serta faktor sosial ekonomi penduduk. Kemudian Kementerian Pembangunan Daerah Tertinggal menetapkan

Metode scoring dengan tanpa memperhitungkan faktor jarak atau kedekatan karakteristik antar wilayah memiliki beberapa kelemahan yaitu tidak tertangkapnya perbedaan kondisi geografis dan sosilogis antar wilayah, sehingga menghasilkan pengklasifikasian yang tidak tepat (Widyasthika, 2005). Oleh karena itu perlu dilakukan sebuah penelitian yang menggunakan metode dengan memperhitungkan faktor jarak kedekatan antar desa. Sehingga diperoleh pengelompokan desa tertinggal yang tepat dan akurat. Salah satu metode yang cukup populer untuk menjawab permasalahan ini adalah clustering. Metode clustering merupakan suatu metode untuk mengelompokkan individu atau unit penelitian ke dalam beberapa kelompok dimana setiap unit penelitian dalam suatu kelompok akan mempunyai ciri yang relatif sama sedangkan antar kelompok
2

ad

ulang kepada pihak kabupaten yang bersangkutan.

iw

Supaya penetapan desa tertinggal lebih valid, maka dilakukanlah proses klarifikasi

ta l

desa-desa yang memiliki skor terkecil sebagai desa tertinggal dalam suatu kabupaten.

ks

.w

or

dp

skor yang diperoleh setiap desa. Metode yang digunakan BPS dalam menentukan

re

dilakukan oleh Kementerian Pembangunan Daerah Tertinggal berdasarkan pada nilai

ss .c

1993 sebagai penentu identifikasi daerah kantong-kantong kemiskinan melalui data

om

unit pengamatan memiliki sifat yang berbeda. Pada penelitian ini, akan digunakan pendekatan hierarchical method yaitu metode centroid linkage dengan menggunakan ukuran jarak Minkowski. Selain itu, untuk mendapatkan keterbandingan dengan metode yang lain akan digunakan non-hierarchical method yaitu metode k-means cluster analysis. Diharapkan penggunaan metode cluster ini mampu mengklasifikasikan desadesa tertinggal dengan baik, sehingga diperoleh suatu kesimpulan dan keputusan yang dapat dijadikan salah satu rujukan dalam program pengentasan kemiskinan yang tepat sasaran melalui program di desa-desa tertinggal di Kabupaten Kutai Timur.

2. Tinjauan Pustaka 2.1 Analisis Faktor

mereduksi data dari banyak variabel menjadi variabel yang lebih sedikit (Supranto,

yang akan digunakan dalam pemodelan dan perlunya mereduksi jumlah variabelvariabel tersebut pada tahap yang dapat dikelola sehingga lebih menyederhanakan variabel-variabel penelitian dari sisi jumlah variabel. Menurut Jhonson dan Wichern (1992) beberapa manfaat analisis faktor

dan saling berkorelasi menjadi set data lain yang ringkas dan tidak lagi saling berkorelasi

2.1. Metode Cluster . Analisis cluster merupakan analisis yang bertujuan untuk

mengelompokkan unit penelitian ke dalam beberapa kelompok dimana setiap unit penelitian dalam suatu kelompok akan mempunyai ciri yang relatif sama sedangkan antar kelompok unit pengamatan memiliki sifat yang berbeda (Rencher, 2002). Metode cluster yang akan digunakan dalam penelitian ini adalah sebagai berikut: 1. Hierarchical Method (Centroid Linkage method) Tujuan utama penggunaan metode ini adalah apabila jumlah kelompok yang
3

ad

2. Untuk menyederhanakan deskripsi dari suatu set data yang banyak

iw

1. Untuk meneliti keterkaitan peubah-peubah dalam satu set data

ta l

diantaranya adalah:

ks

.w

or

dp

data dan perangkuman data. Dalam beberapa penelitian, dijumpai banyak variabel

re

2004). Analisis faktor adalah sebuah kelas prosedur yang digunakan untuk mereduksi

ss .c

Analisis faktor merupakan suatu metode yang dapat digunakan untuk

om

diinginkan tidak diketahui. Metode ini memulai pengelompokkan pada unit penelitian yang mempunyai kesamaan karakteristik terdekat yang dianalogikan dengan jarak. Proses dilanjutkan dengan unit penelitian lainnya dengan pertimbangan sama sepert i proses sebelumnya yaitu unit penelit ian yang memilik i kesamaan karakteristik terdekat berikutnya, proses yang sama dilakukan hingga ada tingkatan c u k u p jelas antar unit penelitian dari yang paling mirip sampai yang paling tidak mirip, sehingga pada akhirnya akan membentuk hanya satu kelompok. Pada pengelompokan Hierarki terdapat beberapa jenis metode antara lain between-groups linkage, within-groups linkage, nearest neighbor, furthest neighbor, centroid linkage clustering, median clustering dan Ward's method. Metode clustering yang digunakan dalam penelitian ini adalah metode centroid linkage. Penentuan ukuran interval yang digunakan dalam penelitian ini adalah jarak

variabel dari dua unit penelitian yang berbeda. Minkowski distance antara dua unit (, ) = [ ( ) ]1/ , dimana n adalah jumlah variabel. =1

Untuk m = 1, d(x,y) mengukur jarak city-block antara dua titik dalam p-dimensi; untuk m = 2 , d(x,y) menjadi jarak Euclidian.

Centroid linkage clustering adalah proses pengelompokan yang didasarkan pada jarak antar centroidnya. Metode ini sangat tepat jika digunakan untuk memperkecil variance within cluster karena melibatkan centroid pada saat

ad

outlier (Ardiyanto, 2007). () =

iw

penggabungan antar cluster. Metode ini juga baik untuk data yang mengandung + + + + +

Pada metode ini ukuran ketidakmiripan yang digunakan adalah:

dimana,

ni = banyaknya unit penelitian dalam cluster i nj = banyaknya unit penelitian dalam cluster j nk = banyaknya unit penelitian dalam cluster k 2. Non Hierarchical Method (K-means clustering) Menurut MacQueen (1967), metode ini dimulai dengan menentukan jumlah cluster terlebih dahulu yang diinginkan misalkan c cluster. Langkah berikutnya adalah K-Means, dengan langkah-langkah sebagai berikut:
4

ta l

ks

.w

or

dp

re

penelitian misalkan X dan Y dapat dirumuskan sebagai berikut:

ss .c

Minkowski yaitu akar m dari penjumlahan pangkat m dari selisih antara nilai-nilai

om

a. Mempartisi objek menjadi sejumlah c initial cluster, kemudian dihitung nilai rata-rata (centroid) untuk masing-masing kelompok cluster yang ada b. Memasukkan unit-unit penelitian pada cluster yang memiliki centroid terdekat (dihitung dari jaraknya). Kemudian hitung kembali centroid untuk masingmasing cluster yang mengalami perubahan anggotanya (unit penelitian) c. Ulangi langkah ( b ) sampai diperoleh cluster yang tidak berubah-ubah lagi atau stabil

2.3 Analisis Diskriminan Tujuan dari analisis diskriminan adalah untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam populasi yang diketahui, baik secara grafis maupun aljabar dengan membentuk fungsi diskriminan (Johnson dan Wichern, 2002).

kategoris dan variabel independen bersifat interval. Adapun tujuan dilakukannya

variabel independen akan mendiskriminasikan yang terbaik antara kategorikategori variabel dependen.

2. Pengujian apakah terdapat perbedaan signifikan diantara kelompok-kelompok dalam hal variabel independen.

variabel independen. 5. Evaluasi akurasi klasifikasi.

2.2 Konsep dan Definisi Desa tertinggal adalah desa-desa yang kondisinya relatif tertinggal dari desadesa lainnya. Kemajuan atau ketertinggalan suatu desa dicerminkan oleh indikator utama, yaitu tinggi rendahnya rata-rata pengeluaran perkapita penduduk desa (BPS, 2003). Menurut Sumaryadi dalam Widhyast ika (1997), desa tertinggal dicirikan sebagai desa dengan potensi sumber daya alam yang terbatas, prasarana dan sarana pelayanan dasar yang tidak lengkap, serta kelembagaan sosial ekonomi yang
5

ad

4. Pengklasifikasian kasus-kasus ke dalam kelompok berdasarkan nilainilai

iw

terhadap perbedaan kelompok.

ta l

3. Penentuan variabel independen mana yang memberikan sumbangan terbesar

ks

.w

or

dp

1. Pengembangan fungsi diskriminan atau kombinasi linier prediktor atau

re

analisis diskriminan diantaranya adalah:

ss .c

Analisis diskriminan digunakan untuk menganalisis variabel dependen yang bersifat

om

belum berkembang. Desa miskin tidak memberikan sumber penghidupan yang memadai kepada penduduk yang tinggal di dalamnya.

3. Metodologi 3.1 Sumber Data Data yang digunakan dalam penelitian ini adalah data Potensi Desa Kabupaten Kutai Timur, Propinsi Kalimantan Timur tahun 2008. Secara keseluruhan data yang digunakan merupakan data cross section dengan unit observasi sejumlah 135 desa tanpa dibedakan antara rural dan urban. Sedangkan variabel yang digunakan sebagai dasar clustering pada penelitian ini adalah karakteristik dari desa yaitu: persentase keluarga yang memiliki listrik (PLN), persentase keluarga yang tinggal di bantaran sungai, persentase keluarga yang tinggal di pemukiman kumuh, persentase keluarga

1. Menentukan jumlah cluster yang ingin dibentuk yaitu dua cluster desa tertinggal dan bukan desa tertinggal

2. Analisis faktor terhadap variabel-variabel yang akan digunakan sebagai dasar clustering

4. Analisis cluster dengan menggunakan non-Hierarchical Method (K-means) dengan menggunakan semua variabel asal dan menggunakan hasil dari analisis faktor (2) 5. Analisis perbandingan efektifitas hasil cluster antara metode (3) dan (4) dengan analisis diskriminan 6. Interpretasi dan kesimpulan

4. Hasil dan Pembahasan 4.1 Analisis Faktor Analisis Faktor dianggap cukup berarti apabila nilai akar cirinya (eigen value) lebih dari 1. Semakin besar nilai akar ciri, maka semakin besar pula persentase
6

ad

dari analisis faktor (2)

iw

Linkage) dengan menggunakan semua variabel asal dan menggunakan hasil

ta l

3. Analisis cluster dengan menggunakan Hierarchical Method (Centroid

ks

.w

or

dp

Langkah-langkah analisis yang dilakukan pada penelitian ini adalah sebagai berikut.

re

3.2 Metode Analisis

ss .c

penerima askeskin dan persentase keluarga yang berlangganan telepon kabel.

om

keragaman yang diterangkan oleh masing-masing komponen, sehingga akar ciri tersusun dari nilai tetinggi sampai nilai terendah. Tabel 1. Output Analisis Faktor
Initial Eigenvalues Component 1 2 3 4 5 Total 1.350 1.265 .916 .825 .644 % of Variance 26.990 25.304 18.324 16.499 12.882 Cumulative % 26.990 52.295 70.619 87.118 100.000

diketahui bahwa terdapat dua faktor dengan nilai eigen value yang lebih dari 1. Dengan kata lain, dari variabel-variabel yang digunakan sebagai dasar clustering terbentuk dua faktor. Faktor yang terbentuk ini kemudian akan dilakukan analisis cluster lanjutan untuk dibandingkan dengan analisis cluster tanpa menggunakan analisis faktor (dengan menggunakan semua variabel).

cluster dilakukan proses clustering selesai dengan kata lain jumlah cluster tidak dapat diketahui sebelumnya, yang hasilnya diserahkan sepenuhnya pada peneliti dengan mengedepankan subyektifitas sesuai dengan tujuan penelitian. Hal ini mengakibatkan cluster yang terbentuk bisa saja sejumlah 4, 5, 3 atau 2 terkait subyektifitas peneliti. Sedangkan pada metode non-hierarki, penentuan atau pemilihan jumlah cluster sudah harus ditentukan di awal sebelum proses clustering berjalan, sehingga hasil akhirnyapun akan terbentuk jumlah cluster yang sama. Penentuan ini menuntut kehati-hatian, pengetahuan, informasi memadai dan intuisi yang cukup tinggi dari peneliti. Dari hasil pengolahan data dengan menggunakan hierarchical method (centroid linkage) dengan atau tanpa menggunakan analisis faktor terlihat bahwa baik dengan tiga atau dua cluster yang ingin dibentuk, jumlah desa yang masuk ke
7

ad

iw

penentuan jumlah cluster. Pada metode hierarki, penentuan atau pemilihan jumlah

ta l

Perbedaan hasil pengelompokan desa antar kedua metode adalah pada

ks

4.2 Analisis Cluster

.w

or

dp

re

ss .c

Dari hasil pengolahan dengan menggunakan bantuan software SPSS dapat

om

dalam masing-masing cluster tidak begitu jauh berbeda. Tabel 2. Perbandingan hasil pengelompokan desa di Kabupaten Kutai Timur dengan menggunakan metode centroid linkage (minkowski distance measure) dengan dan tanpa analisis faktor
Jumlah Cluster yang terbentuk 2 Cluster 3 Cluster Cluster kecentroid tanpa analisis faktor (desa) 134 1 132 1 2 91 3 6 centroid dengan analisis faktor (desa) 132 3 126 3 6

1 2 1 2 3

2 3 4

om ss .c

4 cluster

35

131 1 1 2

method (K-means) dengan atau tanpa menggunakan analisis faktor terlihat bahwa baik dengan tiga atau dua cluster yang ingin dibentuk, jumlah desa yang masuk ke dalam masing-masing cluster sangat bervariasi, ketika cluster yang dibentuk berubah maka sususan pengelompokan menjadi berubah lagi. Tabel 3. Perbandingan hasil pengelompokan desa di Kabupaten Kutai Timur dengan menggunakan metode K-means dengan dan tanpa analisis faktor
Jumlah Cluster yang terbentuk 2 Cluster 3 Cluster

ad

iw

ta l
Cluster ke-

ks

.w

or

K-means tanpa analisis faktor (desa) 28 107 6 16 113 10 34 9 82

dp

Sedangkan dari hasil pengolahan data dengan menggunakan non-hierarchical

re

K-means dengan analisis faktor (desa) 101 34 12 34 89 2 108 9 16

1 2 1 2 3

4 Cluster

1 2 3 4

4.2 Analisis Diskriminan Tepat tidaknya hasil pengelompokan baik melalui metode hierarki maupun non-hierarko dapat didekati dengan analisis diskriminan. Dimana, semakin banyak anggota cluster yang tepat diprediksikan maka akan semakin tinggi tingkat akurasinya. Hal ini menandakan bahwa hasil pengelompokan akan semakin baik. Dari hasil pengolahan data dengan menggunakan analisis diskriminan terlihat tingkat akurasi yang dihasilkan hierarchical clustering method(centroid linkage) dan non-hierarchical clustering method (k-means) dengan atau tanpa menggunakan analisis faktor sebagai berikut:

re

Tingkat Akurasi (%)

ss .c
3 Cluster 98,5 97,5 100 100

Tabel 4. Perbandingan akurasi hasil pengelompokan desa di Kabupaten Kutai Timur dengan menggunakan metode centroid linkage (minkowski distance measure) dan K-means dengan dan tanpa analisis faktor

om

ad

K-means dengan analisis faktor

iw

K-means tanpa analisis faktor

ta l

ks

centroid dengan analisis faktor

.w

centroid tanpa analisis faktor

or

98,5 100

dp

2 Cluster

4 cluster 98,5 95,6 100 100

100 100

5. Kesimpulan Dari hasil pembahasan di atas dapat disimpulkan bahwa 1. Pengelompokan desa dengan hierarchical method (centroid linkage) dengan atau tanpa menggunakan analisis faktor terlihat bahwa baik dengan tiga atau dua cluster yang ingin dibentuk, jumlah desa yang masuk ke dalam masingmasing cluster tidak begitu jauh berbeda. 2. Dengan menggunakan analisis diskriminan terlihat tingkat akurasi yang dihasilkan hierarchical clustering method (centroid linkage) dan non9

hierarchical clustering method (k-means) dengan atau tanpa menggunakan analisis faktor hampir sama-sama menghasilkan tingkat akurasi yang cukup tinggi khususnya metode k-means dengan maupun tanpa analisis faktor 3. Perbedaan antar metode hierarki dan non-hierarki terletak pada penentuan jumlah cluster yang terbentuk, metode hierarki setelah proses clustering sedangkan pada metode non-hierarki sebelum proses clustering

Daftar Pustaka Ardyanto, Fendy (2007), Gambaran Karakterist Tahun 2005. ik Rumah Tangga Miskin di Indonesia dan Pengelompokannya. Skripsi. Jakarta: Sekolah Tinggi Ilmu Statistik (STIS). Arisanti, Restu. (2011), Model Regresi Spasial Untuk Deteksi Faktor-faktor Kemiskinan di Provinsi Jawa Timur. Tesis. Bogor: Institut Pertanian Bogor (IPB).

Ward, J.H. 1963. Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association. Vol. 58, 236-244. W. Wichern Dean, Richard A.Johnson. 2002. Applied Multivariate Statistical Analysis. USA : Prentice-Hall, Inc. Supranto J. 2004. Analisis Multivariat Arti dan Interpretasi. Jakarta: Rineka Cipta

adiw@bps.go.id

ad

Widyasthika, Hayu Fadlun (2005), Evaluasi Pengklasifikasian Desa Tertinggal Kabupaten Purworejo Tahun 2005. Skripsi. Jakarta: Sekolah Tinggi Ilmu Statistik (STIS).

iw

ta l

ks

Rencher, Alvin C. 2000. Methods of Multivariate Analysis:2nd edition. England: Jhon Willey & Sons Ltd

.w

MacQueen, J.B. 1967. Some Methods for Classification and Analysis of Multivariate Observations Hierarchical Grouping to Optimize an Objective Function. Berkeley: University of California Press A967

or

dp

re

[BPS] Badan Pusat Statistik. 2009. Kutai Timur Dalam Angka. Kutai Timur: Badan Pusat Statistik.

ss .c

om

10

Ilustrasi pengelompokan cluster dengan menggunakan centroid linkage method dengan menggunakan jarak minkowski Masing-masing kelompok diganti dengan nilai rata-rata unit penelitian, misalkan sebagai contoh, untuk cluster pertama dibentuk dengan mengkombinasikan unit penelitian A1 dan A2 yang digambarkan dengan centroid dari A1 dan A2. Cluster pertama memiliki rata-rata 5,5 variabel X1, rata-rata 5,5 variabel X2 begitu juga dengan variabel X3. Saat jarak antar unit penelitian menujukkan nilai yang paling kecil, maka kedua unit penelitian digabung menjadi 1 cluster dst. Kemiripan sebagai dasar pembentukan cluster ini menggunakan jarak minkowski.

Data untuk lima cluster Jumlah cluster 1 2 3 4 5 Anggota cluster Variabel X1 A1&A2 A3 A4 A5 A6 5.5 15 16 25 30

ss .c
5.5 14 15 20 19 A5 0 26

Variabel X2

om
Variabel X3 5,5 14 15 20 19 A6 0
11

Hasil pengelompokannya dapat dilihat pada tabel berikut:

Matriks kemiripan (minkowski distance)

iw

A1&A2 0

ta l
0 2

ks
A3 250

.w
A4 0 106 212 135.96

A1&A2 A3 A4 A5 A6

ad

162.5 200,5 590,5 782,5

or

dp

re

Data untuk empat cluster Jumlah cluster 1 2 3 4 Anggota cluster Variabel X1 A1&A2 A3&A4 A5 A6 5.5 15.5 25 30 Variabel X2 5.5 14.5 20 19 Variabel X3 5.5 14.5 20 19

Matriks kemiripan (minkowski distance) A1&A2 A1&A2 A3&A4 A5 A6 0 181 590,5 782,5 0 A3&A4 A5 A6

230.5

26

Data untuk tiga cluster Jumlah Cluster 1 2 3 Anggota cluster Variabel X1 A1&A2 A3&A4 A5&A6 5.5

re
A5&A6 0

ss .c
Variabel X2 5.5 14.5 19.5 Variabel X3 5.5 14.5 19.5

Matriks kemiripan (minkowski distance) A1&A2 A1&A2 A3&A4 A5&A6 0

ad

iw

181 680

Proses ini berlanjut hinga terbentuk hanya 1 cluster.

ta l

ks

.w

A3&A4

0 169

or
27.5

15.5

dp

om
0
12

120.5

You might also like