Clustering

LABORATORIUM DATA MINING
JURUSAN TEKNIK INDUSTRI

FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS ISLAM INDONESIA

Modul II
ANALISIS CLUSTER

2.1. TUJUAN PRAKTIKUM
1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan dan
menerapkan Analisis Cluster
2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari Analisis Cluster
dalam Data Mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap
pengelompokan, serta mengaplikasikannya dalam kasus-kasus yang dihadapi.

2.2. LANDASAN TEORI
2.2.1. Konsep Clustering
Analisis cluster merupakan salah satu teknik multivariat yang digunakan dalam data
mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai
kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya,
sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama)
daripada obyek yang berada pada kelompok yang berbeda.
Jumlah kelompok yang dapat diidentifikasi tergantung pada banyak dan variasi data
obyek. Tujuan dari pembentukan cluster ini adalah untuk analisis dan interpretasi lebih lanjut
sesuai dengan tujuan penelitian yang dilakukan. Solusi cluster secara keseluruhan bergantung
pada variabel-variabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan
atau pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasil analisis
cluster.

2.2.2. Penerapan Analisis Cluster
Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknik ini
lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang dilakukan
dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar. Penerapan analisis
cluster di dalam pemasaran adalah sebagai berikut :
1. Membuat segmen pasar (segmenting the market)
Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan yang
diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeli yang
relatif homogen, dinyatakan dalam manfaat yang dicari.
2. Memahami perilaku pembeli
Analisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeli yang
homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok perlu dikaji

secara terpisah. Responden (pembeli) dikelompokkan didasarkan pada self-reported
importance yang terkait pada setiap faktor pilihan yang digunakan untuk memilih toko
atau mall di mana para pembeli membeli barang yang dibutuhkan.
3. Mengenali peluang produk baru
Dengan mengklasterkan merk dan produk, competitive set di dalam pasar bisa
ditentukan. Merek di dalam klaster yang sama bersaing sengit satu sama lain, daripada
merek dari klaster lain.

2.2.3. Cara Kerja Analisis Cluster
Secara garis besar ada tiga hal yang harus terjawab dalam proses kerja analisis cluster,
yaitu :
1. Bagaimana mengukur kesamaan ?
Dalam analisis cluster, pengukuran kesamaan menggunakan konsep pengukuran jarak
(distance). Distance merupakan ukuran tentang jarak pisah antar obyek yang pada
akhirnya akan menunjukkan mana kelompok yang homogen.
2. Bagaimana membentuk cluster ?
Prosedur yang diterapkan harus dapat mengelompokkan objek-objek yang memiliki
kesamaan (homogenitas) yang tinggi ke dalam suatu cluster yang sama, dan
memisahkan kelompok antar cluster yang berbeda dengan ketidaksamaan
(heterogenitas) yang tinggi.
3. Berapa banyak cluster/kelompok yang akan dibentuk ?
Pada prinsipnya jika jumlah cluster berkurang maka homogenitas dalam cluster
secara otomatis akan menurun.

2.2.4. Tahap-tahap dalam Analisis Cluster
Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu:
1. Tujuan Analisis Cluster
2. Desain Penelitian dalam Analisis Cluster
3. Asumsi-asumsi dalam Analisis Cluster
4. Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit)
5. Interpretasi terhadap Culster
6. Proses Validasi dan Pembuatan Profil (profiling) Cluster

Tahap Pertama : Tujuan Analisis Cluster
Tujuan utama analisis cluster adalah memisahkan suatu himpunan objek menjadi dua
kelompok atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya.
Sedangkan tujuan analisis cluster secara khusus, antara lain:
a. Penyederhanaan Data
Penyederhanaan data merupakan bagian dari suatu taksonomi. Dengan struktur
yang terbatas observasi/objek dapat dikelompokkan untuk analisis selanjutnya.
b. Identifikasi Hubungan (Relationship Identification)

Hubungan antar objek diidentifikasi secara empiris. Struktur analisis cluster yang
sederhana dapat menggambarkan adanya hubungan atau kesamaan dan perbedaan
yang tidak dinyatakan sebelumnya.
c. Pemilihan pada Pengelompokan Variabel
Tujuan analisis cluster tidak dapat dipisahkan dengan pemilihan variabel yang
digunakan untuk menggolongkan objek ke dalam clucter-cluster. Cluster yang
terbentuk merefleksikan struktur yang melekat pada data seperti yang
didefinisikan oleh variabel-variabel. Pemilihan variabel harus sesuai dengan teori
dan konsep yang umum digunakan dan harus rasional. Rasionalitas ini didasarkan
pada teori-teori eksplisit atau penelitian sebelumnya. Variabel-variabel yang
dipilih hanyalah variabel yang dapat mencirikan objek yang akan dikelompokkan
dan secara spesifik harus sesuai dengan tujuan analisis cluster.

Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tiga hal penting dalam tahap ini adalah pendeteksian outlier, mengukur kesamaan.
A. Pendeteksian Outliers
Outlier adalah suatu objek yang sangat berbeda dengan objek lainnya. Outliers dapat
terjadi karena:
1. Observasi menyimpang yang tidak mewakili populasi
2. Suatu undersampling kelompok-kelompok dalam populasi yang menyebabkan
underrepresentation kelompok-kelompok dalam sampel
Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dalam
populasi sehingga kita akan memperoleh cluster-cluster yang tidak sesuai dengan
struktur sebenarnya dari populasi tersebut dan tidak representatif.
B. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang sangat penting dalam analisis cluster. Kesamaan
antar objek merupakan ukuran kedekatan antar objek. Kesamaan dapat diketahui
dengan melakukan pengukuran jarak antar setiap individu. Ukuran jarak merupakan
ukuran ketidakmiripan, dimana jarak yang besar menunjukkan sedikit kesamaan
sebaliknya jarak yang pendek/kecil menunjukkan bahwa suatu objek makin mirip
dengan objek lain.

Gambar 2.1 Ilustrasi pengukuran jarak

Metode untuk mengukur kesamaan obyek antara lain :
1) Euclidean Distance
Jarak euclidean antara dua titik i dan j merupakan sisi miring (sisi terpanjang) dari
segitiga ABC.
2
2 2
2
1 1
2 2 2
) ( ) ( Yi) (Xi j) D(i,
j i j i
X X X X B A + = = + =

2) Squared Euclidean Distance
Merupakan pengukuran kuadrat jarak euclidean antara dua titik i dan j.
2
2 2
2
1 1
2 2 2
) ( ) ( Yi) (Xi j) D(i,
j i j i
X X X X B A + = = + =

3) Chebychev
i i i
Y X max ) Y , X ( D =
4) City Block Distance
=
i i
Y X Y X D ) , (

j i j i i
X X X X Y B A
2 2 1 1 i
X j) D(i, + = = + =

Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster
Seperti hal teknik analisis lain,analisis cluster juga menetapkan adanya suatu asumsi. Ada
dua asumsi dalam analisis cluster, yaitu :
A. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi
Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh sekelompok
sampel. Sampel yang digunakan dalam analisis ckuster harus dapat mewakili
populasi yang ingin dijelaskan, karena analisis ini baik jika sampel representatif.
Jumlah sampel yang diambil tergantung penelitinya, seorang peneliti harus yakin
bahwa sampel yang diambil representatif terhadap populasi.
B. Pengaruh Multikolinieritas
Ada atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam analisis
cluster karena hal itu berpengaruh, sehingga variabel-variabel yang bersifat
multikolinieritas secara eksplisit dieprtimbangkan dengan lebih seksama.

Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara
keseluruhan (overall fit)
Ada dua proses penting yaitu algoritma cluster dalam pembentukan cluster dan
menentukan jumlah cluster yang akan dibentuk. Keduanya mempunyai implikasi
substansial tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan
dilakukan terhadap hasil tersebut.

Gambar 1.1. algoritma dalam analisis cluster

METODE HIRARKI
Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi
hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan).
Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap.
Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode
yang digunakan dalam teknik hirarki:
1. Agglomerative Methods
2. Divisive Methods
1) Agglomerative Methods
Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya masing-
masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga
akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster
baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut
hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek. Ada beberapa
teknik dalam Agglomerative methods yaitu:
a) Single linkage (nearest neighbor methods)
Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua
obyek terdekat dan keduanya membentuk cluster yang pertama.
Pada langkah selanjutnya terdapat dua kemungkinan, yaitu :
- obyek ketiga akan bergabung dengan cluster yang telah terbentuk, atau
- dua obyek lainnya akan membentu cluster baru.
Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Pada metode ini
jarak antar cluster didefinisikan sebagai jarak terdekat antar anggotanya.

Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0
C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0

Langkah penyelesaiannya :
1. Mencari obyek dengan jarak minimum
A dan B mempunyai jarak terdekat, yaitu 1.0 maka obyek A dan A bergabung
menjadi satu cluster.
2. Menghitung jarak antara cluster AB dengan obyek lainnya.
D
(AB)C
= min {d
AC
, d
BC
}= d
BC
= 3.0
D
(AB)D
= min {d
AD
, d
BD
}= d
AD
= 6.0
D
(AB)E
= min {d
AE
, d
BE
}= d
BE
= 7.0
Dengan demikian terbentuk matriks jarak yang baru
AB C D E
AB 0.0 3.0 6.0 7.0
C 3.0 0.0 4.0 6.0
D 6.0 4.0 0.0 2.0
E 7.0 6.0 2.0 0.0

3. Mencari obyek dengan jarak terdekat
D dan E mempunyai jarak yang terdekat yaitu 2.0 maka obyek D dan E
bergabung menjadi satu cluster.
4. menghitung jarak antara cluster dengan obyek lainnya.
D
(AB)C
= 3.0
D
(AB)(DE)
= min {d
AD,
d
AE
, d
BD
, d
BE
} = d
AD
= 6.0
D
(DE)C
= min {d
CD
, d
CE
} = d
CD
= 4.0
5. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C
bergabung dengan cluster AB
6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga
terbentuk cluster tunggal.
b) Complete linkage (furthest neighbor methods)
Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single
linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek.
Contoh : Terdapat matriks jarak antara lima buah obyek yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0

C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0

A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung
2. Menghitung jarak antara cluster AB dengan obyek lainnya.
D
(AB)C
= max {d
AC
, d
BC
}= d
AC
= 5.0
D
(AB)D
= max {d
AD
, d
BD
}= d
BD
= 8.0
D
(AB)E
= max {d
AE
, d
BE
}= d
AE
= 8.0
Dengan demikian terbentuk matriks jarak yang baru
AB C D E
AB 0.0 5.0 8.0 8.0
C 5.0 0.0 4.0 6.0
D 8.0 4.0 0.0 2.0
E 8.0 6.0 2.0 0.0

3. Mencari obyek dengan jarak terdekat.
D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung
menjadi satu cluster
4. Menghitung jarak antar cluster dengan obyek lainnya.
D
(AB)C
= 5.0
D
(AB)(DE)
= max {d
AD
, d
AE
, d
BD
, d
BE
} = d
AE
= d
BD
= 8.0
D
(DE)C
= max {d
CD
, d
CE
} = d
CE
= 6.0
5. Maka terbentuklah matriks jarak yang baru, yaitu :
AB C DE
AB 0.0 5.0 8.0
C 5.0 0.0 6.0
DE 8.0 6.0 0.0

bergabung dengan cluster AB
7. Pada langkah yang terakhir cluster ABC bergabung dengan DE sehingga
c) Average linkage methods ( between groups methods)
Metode ini mengikuti prosedur yang sama dengan kedua metode sebelumnya. Prinsip
ukuran jarak yang digunakan adalah jarak rata-rata antar tiap pasangan obyek yang
mungkin

Contoh :
Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0
C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0

A dan B mempunyai jarak terdekat, yaitu 1,0 maka obyek A dan B bergabung
2. Menghitung jarak antara cluster AB dengan obyek lainnya
d
(AB)C
= max {d
AC
, d
BC
} = d
AC
= 5,0
d
(AB)D
= max {d
AD
, d
BD
} = d
BD
= 8,0
d
(AB)E
= max {d
AE
, d
BE
} = d
AE
= 8,0
Dengan demikian terbentuk matriks jarak yang baru :
AB C D E
AB
0.0 5.0 8.0 8.0
C 5.0 0.0 4.0 6.0
D 8.0 4.0 0.0 2.0
E 8.0 6.0 2.0 0.0

3. Mencari obyek dengan jarak terdekat.
D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E bergabung
4. Menghitung jarak antara cluster dengan obyek lainnya.
d
(AB)C
= 4,0
d
(AB)(DE)
= 1/2{d
AD
, d
AE,
d
BD
, d
BE
} = 7,25
d
(DE)C
= 1/2{d
CD
, d
CE,
} = d
CE
= 5,00

Maka terbentuklah matrik jarak yang baru, yaitu :
AB C DE
AB 0.0 4.0 7.25
C 4.0 0.0 5.00
DE 7.25 5.0 0.00

bergabung dengan clster AB.

6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga

d) Wards error sum of squares methods
Ward mengajukan suatu metode pembentukan cluster yang didasari oleh hilangnya
informasi akibat penggabungan obyek menjadi cluster. Hal ini diukur dengan jumlah
total dari deviasi kuadrat pada mean cluster untuk tiap observasi.
Error sum of squares (ESS) digunakan sebagai fungsi obyektif. Dua obyek akan
digabungkan apabila mempunyai fungsi obyektif terkecil diantara kemungkinan yang
ada.
ESS =
( )

2
ij j
2
ij
X n
1 X

Dengan X
ij
adalah nilai untuk obyek ke-i pada cluster ke-j.
2) Divisive Methods
Metode divisive berlawanan dengan metode agglomerative. Metode ini pertama-tama
diawali dengan satu cluster besar yang mencakup semua observasi (obyek). Selanjutnya
obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga
membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai
sejumlah cluster yang diinginkan.
a) Splinter average distance methods
Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan
obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada
grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh
sehingga terbentuklan dua group. Kemudian dibandingkan dengan jarak rata-rata
masing-masing obyek dengan group splinter dengan groupnya sendiri. Apabila suatu
obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya
sendiri, maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke
group splinter. Apabila komposisinya sudah stabil, yaitu jarak suatu obyek ke
groupnya selalu lebih kecil daripada jarak obyek itu ke group splinter, maka proses
berhenti dan dilanjutkan dengan tahap pemisahan dalam group.
Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0 12 9 32 31
B 12 0 9 25 27
C 9 9 0 23 24
D 32 25 23 0 9
E 31 27 24 9 0

Perhitungan :
1. Menghitung jarak rata-rata antar obyek
A = (12+9+32+31) = 21 D = (32+25+23+9) = 22.25

B = (12+9+25+27) = 18.25 E = (31+27+24+9) = 22.75
C = (9+9+23+24) = 16.25
Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E dipisahkan
dari group utama dan membentuk group splinter.

2. Menghitung jarak rata-rata obyek dengan group utama dengan group splinter

Obyek
Jarak Rata-rata dengan
Group Splinter (x)
Group Utama (y)

x - y
A 31 17.67 -13.33
B 27 15.33 -11.67
C 24 13.67 -10.33
D 9 26.67 17.67

Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan group
utama. Dengan demikian D harus dikeluarkan dari group utama dan masuk ke
group splinter.

3. Perhitungan jarak rata-rata

Obyek
Group Splinter (x)
Group Utama (y)

x - y
A 31.5 10.5 -21.0
B 26 10.5 -15.5
C 23.5 9.0 -14.5

Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya ke
group splinter, maka komposisinya sudah stabil.
METODE NON-HIRARKI
Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means Clustering)
dimulai dengan memilih sejumlah nilai cluster awal sesuai dengan jumlah yang diinginkan
dan kemudian obyek digabungkan ke dalam cluster-cluster tersebut.

1) Sequential Threshold Procedure
Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek dasar
yang akan dijadikan nilai awal cluster, kemudian semua obyek yang ada didalam jarak
terdekat dengan cluster ini akan bergabung lalu dipilih cluster kedua dan semua obyek
yang mempunyai kemiripan dimasukkan dalam cluster ini. Demikian seterusnya hingga
terbentuk beberapa cluster dengan keseluruhan obyek didalamnya.
2) Parallel Threshold Prosedure

Secara prinsip sama dengan prosedur sequential threshold, hanya saja dilakukan
pemilihan terhadap beberapa obyek awal cluster sekaligus dan kemudian melakukan
penggabungan obyek ke dalamnya secara bersamaan.
3) Optimizing
Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi pada
penempatan obyek yang ditukar untuk cluster lainnya dengan pertimbangan krteria
optimasi.

Tahap Kelima : Interpretasi terhadap Cluster
Tahap interpretasi meliputi pengujian tiap cluster dalam term untuk menamai dan
menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian cluster.
Membuat profil dan interpretasi cluster tidak hanya untuk memperoleh suatu gambaran
saja melainkan pertama, menyediakan suatu rata-rata untuk menilai korespondensi pada
cluster yang terbentuk, kedua, profil cluster memberikan araha bagi penilainan terhadap
signifikansi praktis. Namun demikian yang perlu diperhatikan pada tahapan interpretasi
adalah karakteristik yang membedakan masing-masing cluster sehingga kita dapat
memberikan label pada masing-masing cluster tersebut.

Tahap Keenam: Proses Validasi dan Pembuatan Profil (profiling) Cluster
A. Proses validasi solusi cluster
Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis cluster
dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan ini
membandingkan solusi cluster dan menilai korespondensi hasil. Terkadang tidak
dapat dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan
objek untuk analisis cluster ganda.
B. Pembuatan Profil ( profiling) solusi cluster
Tahap ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-cluster
tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada
karakteristik yang secara signifikan berbeda antar clustre dan memprediksi anggota
dalam suatu cluster khusus.

2.3. Studi Kasus
Fizi Shop merupakan toko yang bergerak dibidang retail. Pihak perusahaan ingin
meningkatkan pelayanan terhadap konsumen yang berkunjung melalui web mereka.
Dengan menyebarkan kuesioner, dan menggunakan clustering, pihak perusahaan ingin
mengetahui selera konsumen dan faktor faktor yang paling berpengaruh terhadap
kemajuan bisnisnya.
Berikut adalah hasil kuesioner yang telah dibagikan kepada 100 konsumen yang telah
berkunjung ke toko.

Data Kuesioner 1 :

Data kuesioner 2 :

Lakukan prosedur pengclusteran dengan menggunakan metode hirarki dan non-hirarki!
Tentukan berapa jumlah cluster yang terbentuk, dan analisislah hasil profilisasi customernya!

No Nama Jenis
Kelamin
Usia Pekerjaan Uang
Keluar
Intensitas Lama
Berlangganan
1 Doni 1 4 4 4 4 4
2 Hesti 2 4 4 4 4 5
3 Rizka 2 4 4 4 4 2
4 Sukma 2 3 3 2 3 2
5 Windy 2 4 4 4 5 4
6 Edo 1 4 4 4 5 4
7 Mega 2 3 4 3 3 3
8 Topan 2 2 3 3 2 3
9 Desi 1 4 3 2 3 3
10 Oky 1 2 5 3 1 2
11 Taman 1 3 3 3 2 3
12 Jesikha 2 3 2 4 2 2
13 Puthut 1 2 4 2 1 3
14 Latifah 1 4 5 1 2 1
15 Evita 1 4 3 2 1 3
16 Hifni 2 2 4 2 3 2
17 Sardi 2 2 2 3 2 1
18 Rangga 1 3 5 1 2 5
19 Ajoex 2 3 2 1 2 2
20 Woyo 1 3 5 4 2 5
no Nama kecepatan
pelayanan
kelengkap
an barang
Harga Pemberian
Promo/diskon
Kenyamanan
tempat
Luas
parkir
1 Pipit 2 3 3 4 3 2
2 Minyak 1 2 3 4 5 1
3 Vida 1 4 5 4 2 1
4 Temon 3 3 3 3 3 3
5 Karina 5 5 5 5 5 5
6 Rinda 3 4 4 3 3 3
7 Tetha 4 3 4 4 3 4
8 Sinta 3 4 3 4 3 3
9 Santo 2 3 4 3 4 2
10 Prima 3 4 4 3 4 3
11 Jatu 1 2 2 2 3 1
12 Anggit 2 2 3 2 2 2
13 Aldi 3 3 3 4 1 3
14 Pari 2 3 4 4 3 2
15 Nena 2 3 2 3 3 2
16 Yosi 1 1 5 2 2 1
17 Ipank 3 3 4 2 3 3
18 Adib 1 2 3 2 2 1
19 Vei 3 2 2 1 2 3
20 Ines 1 2 2 2 2 1

KUISIONER 1
Nama : Jenis kelamin :
Berilah tanda silang pada salah satu option berikut, sesuai dengan jawaban anda!
1. Berapakah usia anda saat ini?
a. 16 tahun
b. 17 21 tahun
c. 22 30 tahun
d. 31 50 tahun
e. 51 tahun
2. Apakah profesi anda saat ini ?
a. Pelajar
b. Mahasiswa
c. PNS
d. Wiraswasta
e. dll ____________
3. Berapa banyak anda biasanya menghabiskan uang untuk berbelanja di toko retail SOGA?
a. 20.000
b. 20.001 50.000
c. 50.001 100.000
d. 100.001 - 250.000
e. 250.000
4. seberapa seringkah anda berbelanja di toko retail SOGA?
a. Sangat sering
b. sering
c. sedang
d. jarang
e. jarang sekali
5. Sudah berapa lama anda menjadi pelanggan di toko retail SOGA?
a. 1 bulan
b. 2 4 bulan
c. 5 8 bulan
d. 9 11 bulan
e. 12 tahun

KUISIONER 2
Jawablah pertanyaan berikut dengan menberikan tanda silang sesuai tingkat kepuasan anda!

No Pertanyaan SP P CP TP STP
1 Kecepatan pelayanan (X1)
2 Kelengkapan barang (X2)
3 Harga yang ditawarkan (X3)
4 Pemberian promo atau diskon (X4)
5 Kenyamanan Tempat (X5)
6 Luas Parkir (X6)

Keterangan:
- SP : sangat puas (1)
- P : puas (2)
- CP : cukup puas (3)
- TP : tidak puas (4)
- STP : sangat tidak puas (5)

2.4. Langkah Penyelesaian
1. Input Data ( Data View )
P : nama responden
X : Variabel tingkat kepuasan
Y : varibel profilisasi

Nama Tipe Label Value measure
P Nama
responde
n
String Nama None Nominal
X Xi Xn Numeric Nama
tiap
variabel
None Nominal
Y Yi Yn Numeric Nama
tiap
variabel
None Nominal

2. Clustering Metode Hirarki
1. Pilih analyze klik Clasify lelu pilih Hirarchical Cluster
2. Variabel : Letakkan semua Variabel yang valid
3. Label case by : Letakkan nama responden
4. Cluster : Case
5. Display : statistic, plot
6. Statistik : agglomeration schedule
7. Plots : klik Dendogram
8. I ccicle : none

9. Method : Cluster Method Pilih nearest neighbor measure
Interval pilih Squared Euqliden Distance
10. Klik save
Cluster membership : none

3. Profilisasi Costumer
1. Pilih Analyze, klik Descriptive Statistik pilih crosstab
2. Rows : Letakkan semua variabel profil ( variable Y )
3. Coloumns : Cluster member
4. Statistik : Correlation
5. Cells :
Counts : observed
Percentage : total
6. Format :
Row order : ascending

2.5. DAFTAR PUSTAKA
1. Han, Jiawei. Data Mining Concept and Technique. Presentation.
http://www.cse.msu.edu/~cse980
2. Bertalya, Konsep Data Mining. Universitas Gunadarma, 2009.
3. Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.

Clustering

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clustering

Uploaded by

Copyright:

Available Formats

LABORATORIUM DATA MINING

JURUSAN TEKNIK INDUSTRI

You might also like