P. 1
(1) Clustering

(1) Clustering

|Views: 258|Likes:

More info:

Published by: Rarautis Mademoisselle on May 20, 2012
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

04/26/2015

pdf

text

original

LABORATORIUM DATA MINING

JURUSAN TEKNIK INDUSTRI
FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS ISLAM INDONESIA

Modul II
ANALISIS CLUSTER

2.1. TUJUAN PRAKTIKUM
1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan dan
menerapkan Analisis Cluster
2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari Analisis Cluster
dalam Data Mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap
pengelompokan, serta mengaplikasikannya dalam kasus-kasus yang dihadapi.

2.2. LANDASAN TEORI
2.2.1. Konsep Clustering
Analisis cluster merupakan salah satu teknik multivariat yang digunakan dalam data
mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai
kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya,
sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama)
daripada obyek yang berada pada kelompok yang berbeda.
Jumlah kelompok yang dapat diidentifikasi tergantung pada banyak dan variasi data
obyek. Tujuan dari pembentukan cluster ini adalah untuk analisis dan interpretasi lebih lanjut
sesuai dengan tujuan penelitian yang dilakukan. Solusi cluster secara keseluruhan bergantung
pada variabel-variabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan
atau pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasil analisis
cluster.

2.2.2. Penerapan Analisis Cluster
Analisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknik ini
lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang dilakukan
dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar. Penerapan analisis
cluster di dalam pemasaran adalah sebagai berikut :
1. Membuat segmen pasar (segmenting the market)
Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntungan yang
diperoleh dari pembelian barang. Setiap cluster akan terdiri dari pelanggan/pembeli yang
relatif homogen, dinyatakan dalam manfaat yang dicari.
2. Memahami perilaku pembeli
Analisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeli yang
homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompok perlu dikaji

secara terpisah. Responden (pembeli) dikelompokkan didasarkan pada self-reported
importance yang terkait pada setiap faktor pilihan yang digunakan untuk memilih toko
atau mall di mana para pembeli membeli barang yang dibutuhkan.
3. Mengenali peluang produk baru
Dengan mengklasterkan merk dan produk, competitive set di dalam pasar bisa
ditentukan. Merek di dalam klaster yang sama bersaing sengit satu sama lain, daripada
merek dari klaster lain.

2.2.3. Cara Kerja Analisis Cluster
Secara garis besar ada tiga hal yang harus terjawab dalam proses kerja analisis cluster,
yaitu :
1. Bagaimana mengukur kesamaan ?
Dalam analisis cluster, pengukuran kesamaan menggunakan konsep pengukuran jarak
(distance). Distance merupakan ukuran tentang jarak pisah antar obyek yang pada
akhirnya akan menunjukkan mana kelompok yang homogen.
2. Bagaimana membentuk cluster ?
Prosedur yang diterapkan harus dapat mengelompokkan objek-objek yang memiliki
kesamaan (homogenitas) yang tinggi ke dalam suatu cluster yang sama, dan
memisahkan kelompok antar cluster yang berbeda dengan ketidaksamaan
(heterogenitas) yang tinggi.
3. Berapa banyak cluster/kelompok yang akan dibentuk ?
Pada prinsipnya jika jumlah cluster berkurang maka homogenitas dalam cluster
secara otomatis akan menurun.

2.2.4. Tahap-tahap dalam Analisis Cluster
Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu:
1. Tujuan Analisis Cluster
2. Desain Penelitian dalam Analisis Cluster
3. Asumsi-asumsi dalam Analisis Cluster
4. Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit)
5. Interpretasi terhadap Culster
6. Proses Validasi dan Pembuatan Profil (profiling) Cluster

Tahap Pertama : Tujuan Analisis Cluster
Tujuan utama analisis cluster adalah memisahkan suatu himpunan objek menjadi dua
kelompok atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya.
Sedangkan tujuan analisis cluster secara khusus, antara lain:
a. Penyederhanaan Data
Penyederhanaan data merupakan bagian dari suatu taksonomi. Dengan struktur
yang terbatas observasi/objek dapat dikelompokkan untuk analisis selanjutnya.
b. Identifikasi Hubungan (Relationship Identification)

Hubungan antar objek diidentifikasi secara empiris. Struktur analisis cluster yang
sederhana dapat menggambarkan adanya hubungan atau kesamaan dan perbedaan
yang tidak dinyatakan sebelumnya.
c. Pemilihan pada Pengelompokan Variabel
Tujuan analisis cluster tidak dapat dipisahkan dengan pemilihan variabel yang
digunakan untuk menggolongkan objek ke dalam clucter-cluster. Cluster yang
terbentuk merefleksikan struktur yang melekat pada data seperti yang
didefinisikan oleh variabel-variabel. Pemilihan variabel harus sesuai dengan teori
dan konsep yang umum digunakan dan harus rasional. Rasionalitas ini didasarkan
pada teori-teori eksplisit atau penelitian sebelumnya. Variabel-variabel yang
dipilih hanyalah variabel yang dapat mencirikan objek yang akan dikelompokkan
dan secara spesifik harus sesuai dengan tujuan analisis cluster.

Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tiga hal penting dalam tahap ini adalah pendeteksian outlier, mengukur kesamaan.
A. Pendeteksian Outliers
Outlier adalah suatu objek yang sangat berbeda dengan objek lainnya. Outliers dapat
terjadi karena:
1. Observasi ‘menyimpang’ yang tidak mewakili populasi
2. Suatu undersampling kelompok-kelompok dalam populasi yang menyebabkan
underrepresentation kelompok-kelompok dalam sampel
Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dalam
populasi sehingga kita akan memperoleh cluster-cluster yang tidak sesuai dengan
struktur sebenarnya dari populasi tersebut dan tidak representatif.
B. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang sangat penting dalam analisis cluster. Kesamaan
antar objek merupakan ukuran kedekatan antar objek. Kesamaan dapat diketahui
dengan melakukan pengukuran jarak antar setiap individu. Ukuran jarak merupakan
ukuran ketidakmiripan, dimana jarak yang besar menunjukkan sedikit kesamaan
sebaliknya jarak yang pendek/kecil menunjukkan bahwa suatu objek makin mirip
dengan objek lain.

Gambar 2.1 Ilustrasi pengukuran jarak


Metode untuk mengukur kesamaan obyek antara lain :
1) Euclidean Distance
Jarak euclidean antara dua titik i dan j merupakan sisi miring (sisi terpanjang) dari
segitiga ABC.
2
2 2
2
1 1
2 2 2
) ( ) ( Yi) (Xi j) D(i,
j i j i
X X X X B A ÷ + ÷ = ÷ = + =
¿

2) Squared Euclidean Distance
Merupakan pengukuran kuadrat jarak euclidean antara dua titik i dan j.
2
2 2
2
1 1
2 2 2
) ( ) ( Yi) (Xi j) D(i,
j i j i
X X X X B A ÷ + ÷ = ÷ = + =
¿

3) Chebychev
i i i
Y X max ) Y , X ( D ÷ =
4) City Block Distance
¿
÷ =
i i
Y X Y X D ) , (

j i j i i
X X X X Y B A
2 2 1 1 i
X j) D(i, ÷ + ÷ = ÷ = + =
¿


Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster
Seperti hal teknik analisis lain,analisis cluster juga menetapkan adanya suatu asumsi. Ada
dua asumsi dalam analisis cluster, yaitu :
A. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi
Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh sekelompok
sampel. Sampel yang digunakan dalam analisis ckuster harus dapat mewakili
populasi yang ingin dijelaskan, karena analisis ini baik jika sampel representatif.
Jumlah sampel yang diambil tergantung penelitinya, seorang peneliti harus yakin
bahwa sampel yang diambil representatif terhadap populasi.
B. Pengaruh Multikolinieritas
Ada atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam analisis
cluster karena hal itu berpengaruh, sehingga variabel-variabel yang bersifat
multikolinieritas secara eksplisit dieprtimbangkan dengan lebih seksama.

Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara
keseluruhan (overall fit)
Ada dua proses penting yaitu algoritma cluster dalam pembentukan cluster dan
menentukan jumlah cluster yang akan dibentuk. Keduanya mempunyai implikasi
substansial tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan
dilakukan terhadap hasil tersebut.















Gambar 1.1. algoritma dalam analisis cluster

METODE HIRARKI
Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi
hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan).
Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap.
Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode
yang digunakan dalam teknik hirarki:
1. Agglomerative Methods
2. Divisive Methods
1) Agglomerative Methods
Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya masing-
masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga
akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster
baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut
hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek. Ada beberapa
teknik dalam Agglomerative methods yaitu:
a) Single linkage (nearest neighbor methods)
Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua
obyek terdekat dan keduanya membentuk cluster yang pertama.
Pada langkah selanjutnya terdapat dua kemungkinan, yaitu :
- obyek ketiga akan bergabung dengan cluster yang telah terbentuk, atau
- dua obyek lainnya akan membentu cluster baru.
Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Pada metode ini
jarak antar cluster didefinisikan sebagai jarak terdekat antar anggotanya.


Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0
C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0

Langkah penyelesaiannya :
1. Mencari obyek dengan jarak minimum
A dan B mempunyai jarak terdekat, yaitu 1.0 maka obyek A dan A bergabung
menjadi satu cluster.
2. Menghitung jarak antara cluster AB dengan obyek lainnya.
D
(AB)C
= min {d
AC
, d
BC
}= d
BC
= 3.0
D
(AB)D
= min {d
AD
, d
BD
}= d
AD
= 6.0
D
(AB)E
= min {d
AE
, d
BE
}= d
BE
= 7.0
Dengan demikian terbentuk matriks jarak yang baru
AB C D E
AB 0.0 3.0 6.0 7.0
C 3.0 0.0 4.0 6.0
D 6.0 4.0 0.0 2.0
E 7.0 6.0 2.0 0.0

3. Mencari obyek dengan jarak terdekat
D dan E mempunyai jarak yang terdekat yaitu 2.0 maka obyek D dan E
bergabung menjadi satu cluster.
4. menghitung jarak antara cluster dengan obyek lainnya.
D
(AB)C
= 3.0
D
(AB)(DE)
= min {d
AD,
d
AE
, d
BD
, d
BE
} = d
AD
= 6.0
D
(DE)C
= min {d
CD
, d
CE
} = d
CD
= 4.0
5. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C
bergabung dengan cluster AB
6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga
terbentuk cluster tunggal.
b) Complete linkage (furthest neighbor methods)
Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single
linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek.
Contoh : Terdapat matriks jarak antara lima buah obyek yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0

C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0

Langkah penyelesaiannya :
1. Mencari obyek dengan jarak minimum
A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung
menjadi satu cluster.
2. Menghitung jarak antara cluster AB dengan obyek lainnya.
D
(AB)C
= max {d
AC
, d
BC
}= d
AC
= 5.0
D
(AB)D
= max {d
AD
, d
BD
}= d
BD
= 8.0
D
(AB)E
= max {d
AE
, d
BE
}= d
AE
= 8.0
Dengan demikian terbentuk matriks jarak yang baru
AB C D E
AB 0.0 5.0 8.0 8.0
C 5.0 0.0 4.0 6.0
D 8.0 4.0 0.0 2.0
E 8.0 6.0 2.0 0.0

3. Mencari obyek dengan jarak terdekat.
D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung
menjadi satu cluster
4. Menghitung jarak antar cluster dengan obyek lainnya.
D
(AB)C
= 5.0
D
(AB)(DE)
= max {d
AD
, d
AE
, d
BD
, d
BE
} = d
AE
= d
BD
= 8.0
D
(DE)C
= max {d
CD
, d
CE
} = d
CE
= 6.0
5. Maka terbentuklah matriks jarak yang baru, yaitu :
AB C DE
AB 0.0 5.0 8.0
C 5.0 0.0 6.0
DE 8.0 6.0 0.0

6. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C
bergabung dengan cluster AB
7. Pada langkah yang terakhir cluster ABC bergabung dengan DE sehingga
terbentuk cluster tunggal.
c) Average linkage methods ( between groups methods)
Metode ini mengikuti prosedur yang sama dengan kedua metode sebelumnya. Prinsip
ukuran jarak yang digunakan adalah jarak rata-rata antar tiap pasangan obyek yang
mungkin


Contoh :
Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0.0 1.0 5.0 6.0 8.0
B 1.0 0.0 3.0 8.0 7.0
C 5.0 3.0 0.0 4.0 6.0
D 6.0 8.0 4.0 0.0 2.0
E 8.0 7.0 6.0 2.0 0.0

Langkah penyelesaiannya :
1. Mencari obyek dengan jarak minimum
A dan B mempunyai jarak terdekat, yaitu 1,0 maka obyek A dan B bergabung
menjadi satu cluster.
2. Menghitung jarak antara cluster AB dengan obyek lainnya
d
(AB)C
= max {d
AC
, d
BC
} = d
AC
= 5,0
d
(AB)D
= max {d
AD
, d
BD
} = d
BD
= 8,0
d
(AB)E
= max {d
AE
, d
BE
} = d
AE
= 8,0
Dengan demikian terbentuk matriks jarak yang baru :
AB C D E
AB
0.0 5.0 8.0 8.0
C 5.0 0.0 4.0 6.0
D 8.0 4.0 0.0 2.0
E 8.0 6.0 2.0 0.0

3. Mencari obyek dengan jarak terdekat.
D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E bergabung
menjadi satu cluster.
4. Menghitung jarak antara cluster dengan obyek lainnya.
d
(AB)C
= 4,0
d
(AB)(DE)
= 1/2{d
AD
, d
AE,
d
BD
, d
BE
} = 7,25
d
(DE)C
= 1/2{d
CD
, d
CE,
} = d
CE
= 5,00

Maka terbentuklah matrik jarak yang baru, yaitu :
AB C DE
AB 0.0 4.0 7.25
C 4.0 0.0 5.00
DE 7.25 5.0 0.00

5. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C
bergabung dengan clster AB.

6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga
terbentuk cluster tunggal.

d) Ward’s error sum of squares methods
Ward mengajukan suatu metode pembentukan cluster yang didasari oleh hilangnya
informasi akibat penggabungan obyek menjadi cluster. Hal ini diukur dengan jumlah
total dari deviasi kuadrat pada mean cluster untuk tiap observasi.
Error sum of squares (ESS) digunakan sebagai fungsi obyektif. Dua obyek akan
digabungkan apabila mempunyai fungsi obyektif terkecil diantara kemungkinan yang
ada.
ESS =
( )
¿
¿
¿
÷
2
ij j
2
ij
X n
1 X

Dengan X
ij
adalah nilai untuk obyek ke-i pada cluster ke-j.
2) Divisive Methods
Metode divisive berlawanan dengan metode agglomerative. Metode ini pertama-tama
diawali dengan satu cluster besar yang mencakup semua observasi (obyek). Selanjutnya
obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga
membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai
sejumlah cluster yang diinginkan.
a) Splinter average distance methods
Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan
obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada
grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh
sehingga terbentuklan dua group. Kemudian dibandingkan dengan jarak rata-rata
masing-masing obyek dengan group splinter dengan groupnya sendiri. Apabila suatu
obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya
sendiri, maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke
group splinter. Apabila komposisinya sudah stabil, yaitu jarak suatu obyek ke
groupnya selalu lebih kecil daripada jarak obyek itu ke group splinter, maka proses
berhenti dan dilanjutkan dengan tahap pemisahan dalam group.
Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :
A B C D E
A 0 12 9 32 31
B 12 0 9 25 27
C 9 9 0 23 24
D 32 25 23 0 9
E 31 27 24 9 0

Perhitungan :
1. Menghitung jarak rata-rata antar obyek
A = ¼ (12+9+32+31) = 21 D = ¼ (32+25+23+9) = 22.25

B = ¼ (12+9+25+27) = 18.25 E = ¼ (31+27+24+9) = 22.75
C = ¼ (9+9+23+24) = 16.25
Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E dipisahkan
dari group utama dan membentuk group splinter.

2. Menghitung jarak rata-rata obyek dengan group utama dengan group splinter


Obyek
Jarak Rata-rata dengan
Group Splinter (x)
Jarak Rata-rata dengan
Group Utama (y)

x - y
A 31 17.67 -13.33
B 27 15.33 -11.67
C 24 13.67 -10.33
D 9 26.67 17.67

Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan group
utama. Dengan demikian D harus dikeluarkan dari group utama dan masuk ke
group splinter.

3. Perhitungan jarak rata-rata

Obyek
Jarak Rata-rata dengan
Group Splinter (x)
Jarak Rata-rata dengan
Group Utama (y)

x - y
A 31.5 10.5 -21.0
B 26 10.5 -15.5
C 23.5 9.0 -14.5

Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya ke
group splinter, maka komposisinya sudah stabil.
METODE NON-HIRARKI
Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means Clustering)
dimulai dengan memilih sejumlah nilai cluster awal sesuai dengan jumlah yang diinginkan
dan kemudian obyek digabungkan ke dalam cluster-cluster tersebut.

1) Sequential Threshold Procedure
Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek dasar
yang akan dijadikan nilai awal cluster, kemudian semua obyek yang ada didalam jarak
terdekat dengan cluster ini akan bergabung lalu dipilih cluster kedua dan semua obyek
yang mempunyai kemiripan dimasukkan dalam cluster ini. Demikian seterusnya hingga
terbentuk beberapa cluster dengan keseluruhan obyek didalamnya.
2) Parallel Threshold Prosedure

Secara prinsip sama dengan prosedur sequential threshold, hanya saja dilakukan
pemilihan terhadap beberapa obyek awal cluster sekaligus dan kemudian melakukan
penggabungan obyek ke dalamnya secara bersamaan.
3) Optimizing
Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi pada
penempatan obyek yang ditukar untuk cluster lainnya dengan pertimbangan krteria
optimasi.

Tahap Kelima : Interpretasi terhadap Cluster
Tahap interpretasi meliputi pengujian tiap cluster dalam term untuk menamai dan
menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian cluster.
Membuat profil dan interpretasi cluster tidak hanya untuk memperoleh suatu gambaran
saja melainkan pertama, menyediakan suatu rata-rata untuk menilai korespondensi pada
cluster yang terbentuk, kedua, profil cluster memberikan araha bagi penilainan terhadap
signifikansi praktis. Namun demikian yang perlu diperhatikan pada tahapan interpretasi
adalah karakteristik yang membedakan masing-masing cluster sehingga kita dapat
memberikan label pada masing-masing cluster tersebut.

Tahap Keenam: Proses Validasi dan Pembuatan Profil (profiling) Cluster
A. Proses validasi solusi cluster
Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis cluster
dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan ini
membandingkan solusi cluster dan menilai korespondensi hasil. Terkadang tidak
dapat dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan
objek untuk analisis cluster ganda.
B. Pembuatan Profil ( profiling) solusi cluster
Tahap ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-cluster
tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada
karakteristik yang secara signifikan berbeda antar clustre dan memprediksi anggota
dalam suatu cluster khusus.

2.3. Studi Kasus
Fizi Shop merupakan toko yang bergerak dibidang retail. Pihak perusahaan ingin
meningkatkan pelayanan terhadap konsumen yang berkunjung melalui web mereka.
Dengan menyebarkan kuesioner, dan menggunakan clustering, pihak perusahaan ingin
mengetahui selera konsumen dan faktor – faktor yang paling berpengaruh terhadap
kemajuan bisnisnya.
Berikut adalah hasil kuesioner yang telah dibagikan kepada 100 konsumen yang telah
berkunjung ke toko.


Data Kuesioner 1 :

Data kuesioner 2 :

Lakukan prosedur pengclusteran dengan menggunakan metode hirarki dan non-hirarki!
Tentukan berapa jumlah cluster yang terbentuk, dan analisislah hasil profilisasi customernya!





No Nama Jenis
Kelamin
Usia Pekerjaan Uang
Keluar
Intensitas Lama
Berlangganan
1 Doni 1 4 4 4 4 4
2 Hesti 2 4 4 4 4 5
3 Rizka 2 4 4 4 4 2
4 Sukma 2 3 3 2 3 2
5 Windy 2 4 4 4 5 4
6 Edo 1 4 4 4 5 4
7 Mega 2 3 4 3 3 3
8 Topan 2 2 3 3 2 3
9 Desi 1 4 3 2 3 3
10 Oky 1 2 5 3 1 2
11 Taman 1 3 3 3 2 3
12 Jesikha 2 3 2 4 2 2
13 Puthut 1 2 4 2 1 3
14 Latifah 1 4 5 1 2 1
15 Evita 1 4 3 2 1 3
16 Hifni 2 2 4 2 3 2
17 Sardi 2 2 2 3 2 1
18 Rangga 1 3 5 1 2 5
19 Ajoex 2 3 2 1 2 2
20 Woyo 1 3 5 4 2 5
no Nama kecepatan
pelayanan
kelengkap
an barang
Harga Pemberian
Promo/diskon
Kenyamanan
tempat
Luas
parkir
1 Pipit 2 3 3 4 3 2
2 Minyak 1 2 3 4 5 1
3 Vida 1 4 5 4 2 1
4 Temon 3 3 3 3 3 3
5 Karina 5 5 5 5 5 5
6 Rinda 3 4 4 3 3 3
7 Tetha 4 3 4 4 3 4
8 Sinta 3 4 3 4 3 3
9 Santo 2 3 4 3 4 2
10 Prima 3 4 4 3 4 3
11 Jatu 1 2 2 2 3 1
12 Anggit 2 2 3 2 2 2
13 Aldi 3 3 3 4 1 3
14 Pari 2 3 4 4 3 2
15 Nena 2 3 2 3 3 2
16 Yosi 1 1 5 2 2 1
17 Ipank 3 3 4 2 3 3
18 Adib 1 2 3 2 2 1
19 Vei 3 2 2 1 2 3
20 Ines 1 2 2 2 2 1

KUISIONER 1
Nama : Jenis kelamin :
Berilah tanda silang pada salah satu option berikut, sesuai dengan jawaban anda!
1. Berapakah usia anda saat ini?
a. ≤ 16 tahun
b. 17 – 21 tahun
c. 22 – 30 tahun
d. 31 – 50 tahun
e. ≥ 51 tahun
2. Apakah profesi anda saat ini ?
a. Pelajar
b. Mahasiswa
c. PNS
d. Wiraswasta
e. dll ____________
3. Berapa banyak anda biasanya menghabiskan uang untuk berbelanja di toko retail SOGA?
a. ≤ 20.000
b. 20.001 – 50.000
c. 50.001 – 100.000
d. 100.001 - 250.000
e. ≥ 250.000
4. seberapa seringkah anda berbelanja di toko retail SOGA?
a. Sangat sering
b. sering
c. sedang
d. jarang
e. jarang sekali
5. Sudah berapa lama anda menjadi pelanggan di toko retail SOGA?
a. ≤ 1 bulan
b. 2 – 4 bulan
c. 5 – 8 bulan
d. 9 – 11 bulan
e. ≥ 12 tahun


KUISIONER 2
Jawablah pertanyaan berikut dengan menberikan tanda silang sesuai tingkat kepuasan anda!

No Pertanyaan SP P CP TP STP
1 Kecepatan pelayanan (X1)
2 Kelengkapan barang (X2)
3 Harga yang ditawarkan (X3)
4 Pemberian promo atau diskon (X4)
5 Kenyamanan Tempat (X5)
6 Luas Parkir (X6)

Keterangan:
- SP : sangat puas (1)
- P : puas (2)
- CP : cukup puas (3)
- TP : tidak puas (4)
- STP : sangat tidak puas (5)

2.4. Langkah Penyelesaian
1. Input Data ( Data View )
P : nama responden
X : Variabel tingkat kepuasan
Y : varibel profilisasi

Nama Tipe Label Value measure
P Nama
responde
n
String Nama None Nominal
X Xi – Xn Numeric Nama
tiap
variabel
None Nominal
Y Yi – Yn Numeric Nama
tiap
variabel
None Nominal

2. Clustering – Metode Hirarki
1. Pilih analyze klik Clasify lelu pilih Hirarchical Cluster
2. Variabel : Letakkan semua Variabel yang valid
3. Label case by : Letakkan nama responden
4. Cluster : Case
5. Display : statistic, plot
6. Statistik : agglomeration schedule
7. Plots : klik Dendogram
8. I ccicle : none

9. Method : Cluster Method Pilih nearest neighbor measure
Interval pilih Squared Euqliden Distance
10. Klik save
Cluster membership : none

3. Profilisasi Costumer
1. Pilih Analyze, klik Descriptive Statistik pilih crosstab
2. Rows : Letakkan semua variabel profil ( variable Y )
3. Coloumns : Cluster member
4. Statistik : Correlation
5. Cells :
Counts : observed
Percentage : total
6. Format :
Row order : ascending


2.5. DAFTAR PUSTAKA
1. Han, Jiawei. ”Data Mining Concept and Technique”. Presentation.
http://www.cse.msu.edu/~cse980
2. Bertalya, ”Konsep Data Mining”. Universitas Gunadarma, 2009.
3. Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.

Berapa banyak cluster/kelompok yang akan dibentuk ? Pada prinsipnya jika jumlah cluster berkurang maka homogenitas dalam cluster secara otomatis akan menurun. 3. b. Bagaimana membentuk cluster ? Prosedur yang diterapkan harus dapat mengelompokkan objek-objek yang memiliki kesamaan (homogenitas) yang tinggi ke dalam suatu cluster yang sama. Cara Kerja Analisis Cluster Secara garis besar ada tiga hal yang harus terjawab dalam proses kerja analisis cluster. Sedangkan tujuan analisis cluster secara khusus. Desain Penelitian dalam Analisis Cluster 3. Mengenali peluang produk baru Dengan mengklasterkan merk dan produk. 2. Penyederhanaan Data Penyederhanaan data merupakan bagian dari suatu taksonomi. daripada merek dari klaster lain.4.2. yaitu : 1. diantaranya yaitu: 1. Bagaimana mengukur kesamaan ? Dalam analisis cluster.2. Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit) 5. Tujuan Analisis Cluster 2. Dengan struktur yang terbatas observasi/objek dapat dikelompokkan untuk analisis selanjutnya. 2.secara terpisah. Asumsi-asumsi dalam Analisis Cluster 4. antara lain: a. Distance merupakan ukuran tentang jarak pisah antar obyek yang pada akhirnya akan menunjukkan mana kelompok yang homogen. 3. competitive set di dalam pasar bisa ditentukan. Identifikasi Hubungan (Relationship Identification) . dan memisahkan kelompok antar cluster yang berbeda dengan ketidaksamaan (heterogenitas) yang tinggi.3. Merek di dalam klaster yang sama bersaing sengit satu sama lain. Proses Validasi dan Pembuatan Profil (profiling) Cluster Tahap Pertama : Tujuan Analisis Cluster Tujuan utama analisis cluster adalah memisahkan suatu himpunan objek menjadi dua kelompok atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya. Interpretasi terhadap Culster 6. 2. Tahap-tahap dalam Analisis Cluster Ada beberapa tahapan dalam malekukan Analisis Cluster. pengukuran kesamaan menggunakan konsep pengukuran jarak (distance). Responden (pembeli) dikelompokkan didasarkan pada self-reported importance yang terkait pada setiap faktor pilihan yang digunakan untuk memilih toko atau mall di mana para pembeli membeli barang yang dibutuhkan.

mengukur kesamaan. Mengukur Kesamaan antar Objek Konsep kesamaan adalah hal yang sangat penting dalam analisis cluster. Gambar 2. Kesamaan antar objek merupakan ukuran kedekatan antar objek. Ukuran jarak merupakan ukuran ketidakmiripan. Pendeteksian Outliers Outlier adalah suatu objek yang sangat berbeda dengan objek lainnya. Suatu undersampling kelompok-kelompok dalam populasi yang menyebabkan underrepresentation kelompok-kelompok dalam sampel Dalam kedua kasus tersebut.1 Ilustrasi pengukuran jarak . Outliers dapat terjadi karena: 1. Pemilihan variabel harus sesuai dengan teori dan konsep yang umum digunakan dan harus rasional. A.Hubungan antar objek diidentifikasi secara empiris. Tahap Kedua : Desain Penelitian dalam Analisis Cluster Tiga hal penting dalam tahap ini adalah pendeteksian outlier. Pemilihan pada Pengelompokan Variabel Tujuan analisis cluster tidak dapat dipisahkan dengan pemilihan variabel yang digunakan untuk menggolongkan objek ke dalam clucter-cluster. B. Cluster yang terbentuk merefleksikan struktur yang melekat pada data seperti yang didefinisikan oleh variabel-variabel. Kesamaan dapat diketahui dengan melakukan pengukuran jarak antar setiap individu. dimana jarak yang besar menunjukkan sedikit kesamaan sebaliknya jarak yang pendek/kecil menunjukkan bahwa suatu objek makin mirip dengan objek lain. Variabel-variabel yang dipilih hanyalah variabel yang dapat mencirikan objek yang akan dikelompokkan dan secara spesifik harus sesuai dengan tujuan analisis cluster. Struktur analisis cluster yang sederhana dapat menggambarkan adanya hubungan atau kesamaan dan perbedaan yang tidak dinyatakan sebelumnya. Observasi ‘menyimpang’ yang tidak mewakili populasi 2. Rasionalitas ini didasarkan pada teori-teori eksplisit atau penelitian sebelumnya. c. outliers dapat mengubah struktur sebenarnya dalam populasi sehingga kita akan memperoleh cluster-cluster yang tidak sesuai dengan struktur sebenarnya dari populasi tersebut dan tidak representatif.

Kecukupan Sampel untuk merepresentasikan/mewakili Populasi Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh sekelompok sampel. Y)  maxi Xi  Yi 4) City Block Distance D( X . j)  A 2  B 2   (Xi  Yi) 2  ( X 1i  X 1 j ) 2  ( X 2i  X 2 j ) 2 3) Chebychev D(X . karena analisis ini baik jika sampel representatif. Pengaruh Multikolinieritas Ada atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam analisis cluster karena hal itu berpengaruh. j)  A2  B 2   (Xi  Yi) 2  ( X 1i  X 1 j ) 2  ( X 2i  X 2 j ) 2 2) Squared Euclidean Distance Merupakan pengukuran kuadrat jarak euclidean antara dua titik i dan j. Ada dua asumsi dalam analisis cluster. B. Sampel yang digunakan dalam analisis ckuster harus dapat mewakili populasi yang ingin dijelaskan. sehingga variabel-variabel yang bersifat multikolinieritas secara eksplisit dieprtimbangkan dengan lebih seksama. Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit) Ada dua proses penting yaitu algoritma cluster dalam pembentukan cluster dan menentukan jumlah cluster yang akan dibentuk.analisis cluster juga menetapkan adanya suatu asumsi.Metode untuk mengukur kesamaan obyek antara lain : 1) Euclidean Distance Jarak euclidean antara dua titik i dan j merupakan sisi miring (sisi terpanjang) dari segitiga ABC. seorang peneliti harus yakin bahwa sampel yang diambil representatif terhadap populasi. D(i. Jumlah sampel yang diambil tergantung penelitinya. yaitu : A. j)  A  B   X i  Yi  X 1i  X 1 j  X 2i  X 2 j Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster Seperti hal teknik analisis lain. Keduanya mempunyai implikasi substansial tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan dilakukan terhadap hasil tersebut.Y )   X i  Yi D(i. . D(i.

Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Kemudian dua obyek dengan jarak terdekat bergabung. algoritma dalam analisis cluster METODE HIRARKI Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). yaitu :   obyek ketiga akan bergabung dengan cluster yang telah terbentuk. . Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Selanjutnya obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster baru. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Ada beberapa teknik dalam Agglomerative methods yaitu: a) Single linkage (nearest neighbor methods) Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk cluster yang pertama. Pada metode ini jarak antar cluster didefinisikan sebagai jarak terdekat antar anggotanya. atau dua obyek lainnya akan membentu cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Pada langkah selanjutnya terdapat dua kemungkinan.1. Divisive Methods 1) Agglomerative Methods Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya masingmasing.Gambar 1. Metode-metode yang digunakan dalam teknik hirarki: 1. Agglomerative Methods 2.

0 0. D(AB)C D(AB)(DE) D(DE)C = 3.0 7.0 E 8.0 = min {dCD.0 E 7.0 5.Contoh : Terdapat matriks jarak antara 5 buah obyek. yaitu : A A B C D E 0.0 C 5. dAE.0 1.0 0. dBD= dAD = 6.0 Dengan demikian terbentuk matriks jarak yang baru AB AB C D E 0. Mencari obyek dengan jarak terdekat D dan E mempunyai jarak yang terdekat yaitu 2. 2.0 3.0 3.0 D 6.0 6.0 .0 0. dBE= dBE = 7.0 4.0 D 6.0 maka obyek D dan E bergabung menjadi satu cluster.0 7.0 6.0 B 1.0 3.0 2. menghitung jarak antara cluster dengan obyek lainnya. Menghitung jarak antara cluster AB dengan obyek lainnya.0 3.0 Langkah penyelesaiannya : 1. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C bergabung dengan cluster AB 6.0 6. Contoh : Terdapat matriks jarak antara lima buah obyek yaitu : A A B 0. dBD.0 C 5. Mencari obyek dengan jarak minimum A dan B mempunyai jarak terdekat.0 2.0 D 6.0 0. dCE} = dCD = 4.0 0.0 7.0 maka obyek A dan A bergabung menjadi satu cluster.0 4.0 = min {dAD. b) Complete linkage (furthest neighbor methods) Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single linkage. cluster ABC bergabung dengan DE sehingga terbentuk cluster tunggal. dBC= dBC = 3.0 8.0 5.0 0. 4.0 8.0 3.0 8.0 1.0 6.0 D(AB)E = min dAE.0 0.0 8. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek.0 C 3.0 B 1.0 6.0 E 8.0 2.0 7. dBE} = dAD = 6.0 4. yaitu 1. D(AB)C = min dAC.0 0.0 D(AB)D = min dAD.0 2.0 6.0 4. Pada langkah yang terakhir.

0 8.0 8. yaitu : AB AB C DE 0.0 6. Pada langkah yang terakhir cluster ABC bergabung dengan DE sehingga terbentuk cluster tunggal. D(AB)C = max dAC.0 D(AB)E = max dAE.0 D(AB)D = max dAD.0 4.0 D 8.0 6.0 0.0 8.0 3.0 3.0 0. Mencari obyek dengan jarak minimum A dan B mempunyai jarak terdekat yaitu 1.0 0. dBD= dBD = 8.0 6.0 C 5. Maka terbentuklah matriks jarak yang baru. c) Average linkage methods ( between groups methods) Metode ini mengikuti prosedur yang sama dengan kedua metode sebelumnya.0 = max {dCD.0 6.0 6. dBE} = dAE = dBD = 8.0 8. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh bergabung dengan cluster AB obyek C 7. dAE.0 4. D dan E mempunyai jarak terdekat yaitu 2. Menghitung jarak antar cluster dengan obyek lainnya. Mencari obyek dengan jarak terdekat.0 0.0 0. D(AB)C D(DE)C = 5.0 maka obyek A dan B bergabung menjadi satu cluster.0 6.0 2.0 0.0 5.0 maka obyek D dan E bergabung menjadi satu cluster 4. Menghitung jarak antara cluster AB dengan obyek lainnya.0 0.0 DE 8.0 4.0 C 5.0 6.0 E 8.0 2.0 4.0 2.0 Dengan demikian terbentuk matriks jarak yang baru AB AB C D E 0.0 Langkah penyelesaiannya : 1.0 8. dBD.0 7.0 0.0 D(AB)(DE) = max {dAD. dBE= dAE = 8.0 2. Prinsip ukuran jarak yang digunakan adalah jarak rata-rata antar tiap pasangan obyek yang mungkin .0 5.0 6.C D E 5. dCE} = dCE = 6. 2.0 5. dBC= dAC = 5.

dBE = dAE = 8.Contoh : Terdapat matriks jarak antara 5 buah obyek. dCE. Mencari obyek dengan jarak terdekat. dBD. d(AB)C = 4.0 4.0 5. = dCE = 5.0 6.0 d(AB)D = max dAD.00 5. dBD = dBD = 8.0 6.0 3.0 3.0 E 8.0 0.0 6. dBC = dAC = 5.0 8.0 7.0 8.0 d(AB)E = max dAE.0 8.0 Dengan demikian terbentuk matriks jarak yang baru : AB AB C D E 0.0 D 6.25 5.0 4.0 DE 7.0 3. dBE = 7.0 0.0 0.0 6.00 0.0 4.0 2. yaitu : AB AB C DE 0. Mencari obyek dengan jarak minimum A dan B mempunyai jarak terdekat.0 7.0 Langkah penyelesaiannya : 1.0 d(AB)(DE) = 1/2dAD.0 1.25 C 4.25 d(DE)C = 1/2dCD.0 2.0 B 1.0 5.0 2.0 0. .00 Maka terbentuklah matrik jarak yang baru. yaitu : A A B C D E 0.0 C 5.0 D 8.0 maka obyek A dan B bergabung menjadi satu cluster. yaitu 1.0 0. 4. 2. dAE.0 5.0 0.0 6. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C bergabung dengan clster AB.0 8.0 7.0 8.0 E 8.0 4.0 maka obyek D dan E bergabung menjadi satu cluster. Menghitung jarak antara cluster dengan obyek lainnya.0 0.0 2. yaitu 2.0 0.0 C 5.0 4. Menghitung jarak antara cluster AB dengan obyek lainnya d(AB)C = max dAC. D dan E mempunyai jarak terdekat.

a) Splinter average distance methods Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada grupnya. cluster ABC bergabung dengan DE sehingga terbentuk cluster tunggal. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh sehingga terbentuklan dua group. Error sum of squares (ESS) digunakan sebagai fungsi obyektif. Dua obyek akan digabungkan apabila mempunyai fungsi obyektif terkecil diantara kemungkinan yang ada. Menghitung jarak rata-rata antar obyek A = ¼ (12+9+32+31) = 21 D = ¼ (32+25+23+9) = 22. 2) Divisive Methods Metode divisive berlawanan dengan metode agglomerative.25 . maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke group splinter. Kemudian dibandingkan dengan jarak rata-rata masing-masing obyek dengan group splinter dengan groupnya sendiri. Apabila suatu obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya sendiri. Pemisahan ini dilanjutkan sehingga mencapai sejumlah cluster yang diinginkan. Apabila komposisinya sudah stabil. d) Ward’s error sum of squares methods Ward mengajukan suatu metode pembentukan cluster yang didasari oleh hilangnya informasi akibat penggabungan obyek menjadi cluster. Pada langkah yang terakhir.6. Contoh : Terdapat matriks jarak antara 5 buah obyek. yaitu jarak suatu obyek ke groupnya selalu lebih kecil daripada jarak obyek itu ke group splinter. maka proses berhenti dan dilanjutkan dengan tahap pemisahan dalam group. Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga membentuk cluster yang lebih kecil. Metode ini pertama-tama diawali dengan satu cluster besar yang mencakup semua observasi (obyek). X 1 ESS =  n  X  2 ij 2 j ij Dengan Xij adalah nilai untuk obyek ke-i pada cluster ke-j. Hal ini diukur dengan jumlah total dari deviasi kuadrat pada mean cluster untuk tiap observasi. yaitu : A A B C D E 0 12 9 32 31 B 12 0 9 25 27 C 9 9 0 23 24 D 32 25 23 0 9 E 31 27 24 9 0 Perhitungan : 1.

33 17. prosedur non hirarkikal (K-means Clustering) dimulai dengan memilih sejumlah nilai cluster awal sesuai dengan jumlah yang diinginkan dan kemudian obyek digabungkan ke dalam cluster-cluster tersebut.5 10.5 9. Menghitung jarak rata-rata obyek dengan group utama dengan group splinter Jarak Rata-rata dengan Jarak Rata-rata dengan Obyek A B C D Group Splinter (x) 31 27 24 9 Group Utama (y) 17.5 Group Utama (y) 10.67 15.0 x-y -21.5 26 23. 3.5 -14.5 Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya ke group splinter.67 Pada D.25 C = ¼ (9+9+23+24) = 16. maka E dipisahkan dari group utama dan membentuk group splinter.75 Terlihat bahwa E mempunyai nilai jarak terjauh.67 -10.75.25 E = ¼ (31+27+24+9) = 22.33 13. Dengan demikian D harus dikeluarkan dari group utama dan masuk ke group splinter. 2) Parallel Threshold Prosedure . yaitu 22. jarak rata-rata dengan group splinter lebih dekat daripada dengan group utama.0 -15. Perhitungan jarak rata-rata Jarak Rata-rata dengan Jarak Rata-rata dengan Obyek A B C Group Splinter (x) 31. maka komposisinya sudah stabil.B = ¼ (12+9+25+27) = 18.33 -11.67 26.67 x-y -13. METODE NON-HIRARKI Berbeda dengan metode hirarkikal. kemudian semua obyek yang ada didalam jarak terdekat dengan cluster ini akan bergabung lalu dipilih cluster kedua dan semua obyek yang mempunyai kemiripan dimasukkan dalam cluster ini. 1) Sequential Threshold Procedure Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek dasar yang akan dijadikan nilai awal cluster. 2. Demikian seterusnya hingga terbentuk beberapa cluster dengan keseluruhan obyek didalamnya.

Terkadang tidak dapat dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan objek untuk analisis cluster ganda. . Tahap Keenam: Proses Validasi dan Pembuatan Profil (profiling) Cluster A. Studi Kasus Fizi Shop merupakan toko yang bergerak dibidang retail. Pihak perusahaan ingin meningkatkan pelayanan terhadap konsumen yang berkunjung melalui web mereka. Tahap Kelima : Interpretasi terhadap Cluster Tahap interpretasi meliputi pengujian tiap cluster dalam term untuk menamai dan menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian cluster. Membuat profil dan interpretasi cluster tidak hanya untuk memperoleh suatu gambaran saja melainkan pertama. profil cluster memberikan araha bagi penilainan terhadap signifikansi praktis. hanya saja dilakukan pemilihan terhadap beberapa obyek awal cluster sekaligus dan kemudian melakukan penggabungan obyek ke dalamnya secara bersamaan. pihak perusahaan ingin mengetahui selera konsumen dan faktor – faktor yang paling berpengaruh terhadap kemajuan bisnisnya. Pembuatan Profil ( profiling) solusi cluster Tahap ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-cluster tersebut dapat dapat berbeda pada dimensi yang relevan.3.Secara prinsip sama dengan prosedur sequential threshold. dan menggunakan clustering. Titik beratnta pada karakteristik yang secara signifikan berbeda antar clustre dan memprediksi anggota dalam suatu cluster khusus. Berikut adalah hasil kuesioner yang telah dibagikan kepada 100 konsumen yang telah berkunjung ke toko. kedua. Proses validasi solusi cluster Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis cluster dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. menyediakan suatu rata-rata untuk menilai korespondensi pada cluster yang terbentuk. 2. Dengan menyebarkan kuesioner. Namun demikian yang perlu diperhatikan pada tahapan interpretasi adalah karakteristik yang membedakan masing-masing cluster sehingga kita dapat memberikan label pada masing-masing cluster tersebut. B. Pendekatan ini membandingkan solusi cluster dan menilai korespondensi hasil. 3) Optimizing Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi pada penempatan obyek yang ditukar untuk cluster lainnya dengan pertimbangan krteria optimasi.

dan analisislah hasil profilisasi customernya! .Data Kuesioner 1 : No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nama Doni Hesti Rizka Sukma Windy Edo Mega Topan Desi Oky Taman Jesikha Puthut Latifah Evita Hifni Sardi Rangga Ajoex Woyo Jenis Kelamin 1 2 2 2 2 1 2 2 1 1 1 2 1 1 1 2 2 1 2 1 Usia 4 4 4 3 4 4 3 2 4 2 3 3 2 4 4 2 2 3 3 3 Pekerjaan 4 4 4 3 4 4 4 3 3 5 3 2 4 5 3 4 2 5 2 5 Uang Keluar 4 4 4 2 4 4 3 3 2 3 3 4 2 1 2 2 3 1 1 4 Intensitas 4 4 4 3 5 5 3 2 3 1 2 2 1 2 1 3 2 2 2 2 Lama Berlangganan 4 5 2 2 4 4 3 3 3 2 3 2 3 1 3 2 1 5 2 5 Data kuesioner 2 : no 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nama Pipit Minyak Vida Temon Karina Rinda Tetha Sinta Santo Prima Jatu Anggit Aldi Pari Nena Yosi Ipank Adib Vei Ines kecepatan pelayanan 2 1 1 3 5 3 4 3 2 3 1 2 3 2 2 1 3 1 3 1 kelengkap an barang 3 2 4 3 5 4 3 4 3 4 2 2 3 3 3 1 3 2 2 2 Harga 3 3 5 3 5 4 4 3 4 4 2 3 3 4 2 5 4 3 2 2 Pemberian Promo/diskon 4 4 4 3 5 3 4 4 3 3 2 2 4 4 3 2 2 2 1 2 Kenyamanan tempat 3 5 2 3 5 3 3 3 4 4 3 2 1 3 3 2 3 2 2 2 Luas parkir 2 1 1 3 5 3 4 3 2 3 1 2 3 2 2 1 3 1 3 1 Lakukan prosedur pengclusteran dengan menggunakan metode hirarki dan non-hirarki! Tentukan berapa jumlah cluster yang terbentuk.

5 – 8 bulan d. jarang sekali 5. 22 – 30 tahun d. sering c. 100. ≤ 20.001 . Berapa banyak anda biasanya menghabiskan uang untuk berbelanja di toko retail SOGA? a. ≤ 16 tahun b. ≥ 250. PNS d. jarang e. 17 – 21 tahun c.000 4. ≥ 51 tahun 2.000 e. ≥ 12 tahun .001 – 50. 9 – 11 bulan e.000 b. Wiraswasta e.KUISIONER 1 Nama : Jenis kelamin : Berilah tanda silang pada salah satu option berikut.001 – 100. Apakah profesi anda saat ini ? a. 50.250. Mahasiswa c. 31 – 50 tahun e. ≤ 1 bulan b. Pelajar b. sesuai dengan jawaban anda! 1. Sangat sering b. 2 – 4 bulan c. Sudah berapa lama anda menjadi pelanggan di toko retail SOGA? a. 20. seberapa seringkah anda berbelanja di toko retail SOGA? a.000 c.000 d. dll ____________ 3. Berapakah usia anda saat ini? a. sedang d.

I ccicle : none . plot 6. Label case by : Letakkan nama responden 4. Display : statistic. Langkah Penyelesaian 1.4. Cluster : Case 5.KUISIONER 2 Jawablah pertanyaan berikut dengan menberikan tanda silang sesuai tingkat kepuasan anda! No 1 2 3 4 5 6 Pertanyaan Kecepatan pelayanan (X1) Kelengkapan barang (X2) Harga yang ditawarkan (X3) Pemberian promo atau diskon (X4) Kenyamanan Tempat (X5) Luas Parkir (X6) SP P CP TP STP Keterangan:      SP P CP TP STP : sangat puas : puas : cukup puas : tidak puas : sangat tidak puas (1) (2) (3) (4) (5) 2. Plots : klik Dendogram 8. Input Data ( Data View ) P : nama responden X : Variabel tingkat kepuasan Y : varibel profilisasi Nama Nama responde n Xi – Xn Yi – Yn Tipe String Label Nama Value None measure Nominal P X Numeric Y Numeric Nama tiap variabel Nama tiap variabel None Nominal None Nominal 2. Clustering – Metode Hirarki 1. Statistik : agglomeration schedule 7. Variabel : Letakkan semua Variabel yang valid 3. Pilih analyze klik Clasify lelu pilih Hirarchical Cluster 2.

Rows : Letakkan semua variabel profil ( variable Y ) 3. Format : Row order : ascending . Method : Cluster Method Pilih nearest neighbor measure Interval pilih Squared Euqliden Distance 10. Statistik : Correlation 5. Pilih Analyze. Cells : Counts : observed Percentage : total 6. Profilisasi Costumer 1. Coloumns : Cluster member 4. Klik save Cluster membership : none 3.9. klik Descriptive Statistik pilih crosstab 2.

Bertalya.msu. Probability and Statistics for Engineers and Scientists. ”Data Mining Concept and Technique”. . ”Konsep Data Mining”.5.edu/~cse980 2. Han. Ronald E. DAFTAR PUSTAKA 1. Universitas Gunadarma. Walpole. Jiawei. 2009.cse. 3. http://www.2. Presentation.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->