P. 1
Pohon Keputusan

Pohon Keputusan

|Views: 1,283|Likes:
Published by perdamean

More info:

Published by: perdamean on Oct 13, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

06/24/2013

pdf

text

original

ALGORITMA ID3

Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan. Algoritma pada metode ini berbasis pada Occam’s razor: lebih memilih pohon keputusan yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu occam’s razor bersifat heuristik. Occam’s razor diformalisasi menggunakan konsep dari entropi informasi. Berikut algoritma dari ID3:

Adapun sample data yang digunakan oleh ID3 memiliki beberapa syarat, yaitu: 1. Deskripsi atribut-nilai. Atribut yang sama harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang sudah ditentukan. 2. Kelas yang sudah didefinisikan sebelumnya. Suatu atribut contoh harus sudah didefinisikan, karena mereka tidak dipelajari oleh ID3. 3. Kelas-kelas yang diskrit. Kelas harus digambarkan dengan jelas. Kelas yang kontinu dipecah-pecah menjadi kategori-kategori yang relatif, misalnya saja metal dikategorikan menjadi “hard, quite hard, flexible, soft, quite soft”. 4. Jumlah contoh (example) yang cukup. Karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid dari peluang suatu kejadian.

Pemillihan atribut pada ID3 dilakukan dengan properti statistik. pertama-tama digunakanlah ide dari teori informasi yang disebut entropi. yang disebut dengan information gain. Dengan tujuan untuk mendefinisikan gain. Gain mengukur seberapa baik suatu atribut memisahkan training example ke dalam kelas target. Atribut dengan informasi tertinggi akan dipilih. Contoh : Obyek penelitian adalah semua tipe kapal berbendera Indonesia diatas 500GT. Data yang digunakan adalah data register kapal tahun 2006 yang dikeluarkan oleh Biro Klasifikasi Indonesia (BKI) dan data laporan hasil pemeriksaan kelaiklautan kapal serta mekanisme penentuan kelaiklautan kapal yang diatur didalam regulasi baik nasional maupun internasional. Entropi mengukur jumlah dari informasi yang ada pada atribut. Berikut gambar skema kriteria yang mempengaruhi kelaiklautan kapal : .

atribut klas) dengan 729 record. Dokumentasi b. 1atribut klas) dengan 243 record. Untuk kriteria radio terdiri atas 6 kolom atribut (1atribut sampel. 5 atribut bebas. Data set disajikan dalam bentuk tabel yang terdiri dari : 1. Mesin kemudi d. Instalasi kemudi & hidraulik e. Peralatan pemadam akomodasi & pelayanan 2. Sistem keselamatan dari kebakaran f. Variabel ini menyatakan status kapal yang dikategorikan sebagai kapal yang laik dan tidak laik. . Untuk kriteria radio : a.Variabel bebas (predictor) pada penelitian ini adalah : 1. Untuk kriteria teknis : a. Untuk kriteria nautis : a. 3. Dokumentasi Sedangkan variabel tidak bebasnya (output) adalah status kelaiklautan kapal. Sumber listrik darurat b. Jadi total keseluruhan data yang dianalisa adalah berjumlah 1099 record. Sistem pencegahan kebakaran akibat listrik c. Instalasi radio c. 2. Untuk kriteria teknis terdiri atas 8 kolom atribut (1atribut sampel. Alat-alat keselamatan d. Sumber tenaga listrik b. Untuk kriteria nautis terdiri atas 7 kolom atribut (1atribut sampel. 1atribut klas) dengan 127 record. Alat-alat radio d. 6 atribut bebas. Permesinan 3. Keselamatan pelayaran c. Alat-alat pemadam e. 4 atribut bebas.

Bentuk pemecahan (split) yang digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam split. . Algoritma C4. Ross Quinlan.2007]. Algoritma C4. Algoritma C4. ID3 dikembangkan oleh J.5 merupakan pengembangan dari ID3. Jika jumlah pengamatan terbatas maka atribut dengan missing value dapat diganti dengan nilai rata-rata dari variabel yang bersangkutan. lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama.[Santosa. Dalam prosedur algoritma ID3. Jika suatu set data mempunyai beberapa pengamatan dengan missing value yaitu record dengan beberapa nilai variabel tidak ada.ALGORITMA C4.5 Salah satu algoritma induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3). Sedangkan pada perangkat lunak open source WEKA mempunyai versi sendiri C4. Split untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontiyu A. label training dan atribut.5 Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data yang berasal dari kelas yang sama. kemudian membentuk minimum permulaan (threshold) M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan. Split untuk atribut diskret A mempunyai bentuk value (A) ε X dimana X ⊂ domain(A). input berupa sampel training.5 yang dikenal sebagai J48.5 dapat menangani data numerik (kontinyu) dan diskret.

Entropi(S) sama dengan 1. Perolehan informasi. gain (y.Untuk melakukan pemisahan obyek (split) dilakukan tes terhadap atribut dengan mengukur tingkat ketidakmurnian pada sebuah simpul (node). jika jumlah contoh positif dan negative dalam S adalah sama. jika jumlah contoh positif dan negative dalam S tidak sama [Mitchell. Sebelum menghitung rasio perolehan. Pemisahan informasi dihitung dengan cara : bahwa S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai sebanyak c nilai. S adalah ruang (data) sampel yang digunakan untuk pelatihan. Cara menghitungnya dilakukan dengan menggunakan konsep entropi. Pada algoritma C. Term pertama dalam persamaan diatas adalah entropy total y dan term kedua adalah entropy sesudah dilakukan pemisahan data berdasarkan atribut A.adalah jumlah yang bersolusi negatif atau tidak mendukung pada data sampel untuk kriteria tertentu. dinotasikan dengan gain (y.A). Selanjutnya rasio perolehan (gain ratio) dihitung dengan cara : . dan yc adalah subset dari y dimana A mempunyai nilai c.1997].Entropi split yang membagi S dengan n record menjadi himpunan-himpunan S1 dengan n1 baris dan S2 dengan n2 baris adalah : Kemudian menghitung perolehan informasi dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A.A). perlu menghitung dulu nilai informasi dalam satuan bits dari suatu kumpulan objek. Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi (SplitInfo). dari atribut A relative terhadap output data y adalah: nilai (A) adalah semua nilai yang mungkin dari atribut A. ntropi(S) sama dengan 0. Entropi(S) lebih dari 0 tetapi kurang dari 1. jika semua contoh pada S berada dalam kelas yang sama. p+ adalah jumlah yang bersolusi positif atau mendukung pada data sampel untuk kriteria tertentu dan p.45 menggunakan rasio perolehan (gain ratio).

Penentuan apakah diteruskan menuju predictor variable (decision node) atau menuju target variable (leaf node) tergantung pada keyakinan (knowledge) apakah potential customer dengan nilai atribut variable keputusan tertentu memiliki keakuratan nilai target variable 100% atau tidak. dan income. Setiap nilai atribut dari predictor variable akan memiliki cabang menuju predictor variable selanjutnya. Dapat dilihat pada gambar tersebut. . Misalnya pada kasus di atas untuk saving medium. asset dan income tertentu memiliki good credit risk atau bad credit risk. asset. dan seterusnya hingga tidak dapat dipecah dan menuju pada target variable.Contoh Aplikasi Credit Risk Berikut ini merupakan contoh dari salah satu kasus resiko kredit (credit risk) yang menggunakan decision tree untuk menentukan apakah seorang potential customer dengan karakteristik saving. bahwa target variable dari decision tree tersebut atau variable yang akan diprediksi adalah credit risk dengan menggunakan predictor variable : saving.

di mana untuk setiap nilai predictor variable yang sama akan memiliki nilai target variable yang sama.ternyata knowledge yang dimiliki bahwa untuk seluruh potential customer dengan saving medium memiliki credit risk yang baik dengan keakuratan 100%. Sehingga solusinya adalah membentuk leaf node yang disebut “diverse” leaf node. Tetapi. yaitu bersifat non‐unary untuk nilai target variablenya. Misalnya untuk contoh data berikut ini : Dari training data tersebut kemudian disusunlah alternatif untuk candidate split. yaitu sebagai berikut: . maka algoritma decision tree akan berhenti membentuk decision node yang baru. Kondisi tersebut menyebabkan tidak dapat dilakukan pencabangan lagi berdasarkan nilai predictor variable. di mana untuk setiap record dengan nilai predictor variable yang sama ternyata memiliki nilai target variable yang berbeda. sehingga setiap nilai untuk predictor variable di atas hanya membentuk 2 cabang. yaitu leaf node dengan target variable yang bersifat unary untuk setiap records pada node tersebut. Jika tidak terdapat pemisahan lagi yang mungkin dilakukan. terdapat kemungkinan decision node memiliki “diverse” atributes. dengan menyatakan level kepercayaan dari diverse leaf node tersebut. Sedangkan untuk nilai low asset terdapat kemungkinan good credit risk dan bad credit risk. Seharusnya setiap branches diakhiri dengan “pure” leaf node.

yaitu split dengan : assets = low dengan assets = {medium. yaitu : . Untuk penentuan pencabangan. high} masih terdapat 2 nilai. high}. Oleh karena itu split 4 lah yang akan digunakan pada root node. Adapun variabel‐variabel tersebut. dihitung variabel‐variabel berikut berdasarkan training data yang dimiliki. Sedangkan untuk assets = {medium. dapat dilihat bahwa dengan assets=low maka didapatkan pure node leaf. yaitu bad risk (untuk record 2 dan 7). yaitu good credit risk dan bad credit . bahwa yang memiliki nilai goodness of split * Φ(s/t) + yang terbesar.64275.di mana Adapun contoh hasil perhitungannya adalah sebagai berikut : Dapat dilihat dari contoh perhitungan di atas. yaitu split 4 dengan nilai 0.Kemudian untuk setiap candidate split di atas.

high} memiliki decision node baru. yaitu dengan menyusun perhitungan nilai Φ(s/t) yang baru tanpa melihat split 4. Sehingga pencabangan untuk assets = {medium. Demikian seterusnya hingga akhirnya dibentuk leaf node dan membentuk decision tree yang utuh (fully grown form) seperti di bawah ini : . Adapun pemilihan split yang akan digunakan. record 2 dan 7.risk.

berisi data asli rekam medis pasien Tabel Kasus. dalam sistem ini akan dillakukan dengan urutan proses ditunjukkan pada gambar berikut: Hasil pembentukan pohon keputusan bisa seperti pohon keputusan yang tampak pada gambar: . Daerah_Tinggal. Hasil_Tes_1 s/d Hasi_Tes_n. beisi data variabel yang dapat mempengaruhi kesimpulan diagnosis dari pasien-pasien yang ada. Proses akuisisi pengetahuan yang secara biasanya dalam sistem pakar dilakukan oleh sistem pakar. Selain itu dalam tabel ini juga memiliki field Hasil_Diagnosis. Gejala_1 s/d gejala_n. Tabel Aturan.Sistem Pakar Diagnosa Penyakit (Kusrini) Dalam aplikasi ini terdapat tabel-tabel sebagai berikut: • • • Tabel Rekam_Medis. Umur. misalnya Jenis Kelamin. berisi aturan hasil ekstrak dari pohon keputusan.

Jika Atr_1 = N_1 Dan Atr_2 = N_4 Dan Atr_3 = N_9 Maka H_1 2.Lambang bulat pada pohon keputusan melambangkan sebagai node akar atau cabang (bukan daun) sedangkan kotak melambangkan node daun. Dari gambar pohon keputusan pada gambar 4. dapat dibentuk aturan sebagai berikut: 1. Jika Atr_1 = N_1 Dan Atr_2 = N_4 Dan Atr_3 = N_10 Dan Atr_4 = N_11 Maka H_2 . Jika pengetahuan yang terbentuk beruka kaidah produksi dengan format: Jika Premis Maka Konklusi Node-node akar akan menjadi Premis dari aturan sedangkan node daun akan menjadi bagian konklusinya.

Jika Atr_1 = N_3 Dan Atr_5 = N_7 Maka H_7 8. Jika Atr_1 = N_2 Maka H_5 6. Aturan yagn dihasilkan system ini mampu digunakan untuk mendiagnosis penyakit didasarkan pada data-data pasien. Jika Atr_1 = N_1 Dan Atr_2 = N_5 Maka H_4 5. Jika Atr_1 = N_3 Dan Atr_5 = N_6 Maka H_6 7. Dalam penentuan diagnosis penyakit belum diimplementasikan derajat kepercayaan terhadap hasil diagnosis tersebut. .3. Jika Atr_1 = N_3 Dan Atr_5 = N_8 Maka H_8 Model case based reasoning dapat digunakan sebagai metode akuisisi pengetahuan dalam aplikasi system pakar diagnosis penyakit. Jika Atr_1 = N_1 Dan Atr_2 = N_4 Dan Atr_3 = N_10 Dan Atr_4 = N_12 Maka H_2 4.

Atribut A memiliki nilai tertentu {a1. Formula untuk information gain adalah (Kantardzic. Secara heuristik akan dipilih atribut yang menghasilkan simpul yang paling bersih (purest).0 merupakan penyempurnaan algoritme terdahulu yang dibentuk oleh Ross Quinlan pada tahun 1987. maka subset ini akan berhubungan pada cabang dari node himpunan S.ALGORITMA C5 Algoritme C5. Dalam algoritme C5.0 memiliki fitur penting yang membuat algoritme ini menjadi lebih unggul dibandingkan dengan algoritme terdahulunya dan mengurangi kelemahan . dimana Sj berisi sample pada S yang bernilai aj pada A.5. …. Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node selanjutnya.1). untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi dengan menggunakan aturan seperti di atas (2. Diketahui atribut class adalah m dimana mendefinisikan kelas-kelas di dalamnya. Ci (for i= 1. selanjutnya digunakan formula C5. Ukuran information gain digunakan untuk memilih atribut uji pada setiap node di dalam tree. Untuk mendapatkan informasi nilai subset dari atribut A tersebut maka digunakan formula. av}. Ukuran ini digunakan untuk memilih atribut atau node pada pohon. {S1.0 adalah salah satu algoritme yang terdapat dalam klasifikasi data mining disamping algoritme CART. adalah jumlah subset j yang dibagi dengan jumlah sampel pada S. Kalau dalam cabang suatu decision tree anggotanya berasal dari satu kelas maka cabang ini disebut pure. pemilihan atribut yang akan diproses menggunakan information gain. Sv}. …. Sij adalah jumlah sample pada class Ci dalam sebuah subset Sj. yaitu ID3 dan C4. Jadi dalam memilih atribut untuk memecah obyek dalam beberapa kelas harus kita pilih atribut yang menghasilkan information gain paling besar. S2. Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split). Atribut A dapat digunakan pada partisi S ke dalam v subset. …. si adalah jumlah sampel pada S dalam class Ci. Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci dan diestimasikan dengan si /s. 2003): S adalah sebuah himpunan yang terdiri dari s data sampel.0. yang khususnya diterapkan pada teknik decision tree. maka untuk mendapatkan nilai gain. C5. m). Kriteria yang digunakan adalah information gain. a2.

pada Tabel 1 berikut ini disajikan contoh penerapan rumus Euclidean. Sebagai ilustrasi.dan titik pada data testing (y) maka digunakan rumus Euclidean. Sebanyak tiga data yang sudah .…. Lalu periksa output atau labelnya masing-masing. dimana x=x1. 2 dan 3 tetangga data terhadap data baru x (Pramudiono. Lalu masukkan suatu data testing ke kelompok dengan output paling banyak. dengan d adalah jarak antara titik pada data training x dan titik data testing y yang akan diklasifikasi. Untuk mendefinisikan jarak antara dua titik yaitu titik pada data training (x) .…. Misalkan dalam kasus klasifikasi dengan 3 kelas.xi dan y=y1. 3.yang ada pada algoritme decision tree sebelumnya. Untuk memaksimumkan tingkat penafsiran pengguna terhadap hasil yang disajikan. maka klasifikasi C5. maka dapat disimpulkan bahwa output dengan label kelas 1 adalah yang paling banyak.0 mudah digunakan dan tidak membutuhkan pengetahuan tinggi tentang statistik atau machine learning. Contoh Dalam hal ini jumlah data/tetangga terdekat ditentukan oleh user yang dinyatakan dengan k.y2.0 disajikan dalam dua bentuk. Prosedur ini dilakukan untuk semua data testing (Santosa. Gambar 4 berikut ini adalah bentuk representasi K-NN dengan 1. C5. 2003). 2007). 2004) : 1. Maka data baru tadi dapat dikelompokkan ke dalam kelas 1. pada empat data klasifikasi kualitas baik dan tidak baik sebuah kertas tisu yang dinilai berdasarkan daya tahan kertas tersebut dan fungsinya.0 telah dirancang untuk dapat menganalisis basis data subtansial yang berisi puluhan sampai ratusan record dan satuan hingga ratusan field numerik dan nominal. Misalkan ditentukan k=5. lima data tadi terbagi atas tiga data dengan output kelas 1. maka setiap data testing dihitung jaraknya terhadap data training dan dipilih 5 data training yang jaraknya paling dekat ke data testing. satu data dengan output kelas 2 dan satu data dengan output kelas 3.x2. 2. kemudian tentukan output mana yang frekuensinya paling banyak. 2001).yi dan I merepresentasikan nilai atribut serta n merupakan dimensi atribut (Han & Kamber. menggunakan pohon keputusan dan sekumpulan aturan IF-then yang lebih mudah untuk dimengerti dibandingkan neural network. C5. Fitur tersebut adalah (Quinlan.

Tabel 1. Jarak data no satu ke data no empat: Dari hasil perhitungan di atas diperoleh jarak antara data no tiga dan data no empat adalah jarak yang terdekat maka kelas data no empat adalah baik. . Tingkat ketepatan klasifikasi terhadap data dari kedua algoritma yang digunakan menjadi titik fokus analisa dalam penelitian. Tabel klasifikasi kualitas baik atau tidak baik sebuah kertas tisu No 1 2 3 4 Fungsi 7 7 3 1 Daya Tahan 7 4 4 4 Klasifikasi Tidak baik Tidak baik Baik ? Berikut ini disajikan pula perhitungan yang dilakukan terhadap tiga data yang sudah terklasifikasi dengan data yang belum terklasifikasi pada Tabel 1 di atas.2. dan 3 masing-masing data dihitung jaraknya ke data no 4 untuk mendapatkan kelas yang sesuai bagi data no 4 maka k=1 (Teknomo. Teknik ini akan diujicobakan terhadap dataset akademik yang belum terklasifikasi atau data yang belum dikenal. 2006).terklasifikasi yaitu data no 1. untuk menemukan kelas yang sesuai dengan berdasarkan pada data tetangga terdekatnya yang sudah terklasifikasi.

CLUSTERING Clustering adalah proses mengelompokkan objek berdasarkan informasi yang diperoleh dari data yang menjelaskan hubungan antar objek dengan prinsip untuk memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi sehingga tidak ada data yang overlap dan satu data hanya memiliki satu cluster. Namun. Metode ini terbagi menjadi dua yaitu buttom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan topdown yang memecah cluster besar menjadi cluster yang lebih kecil. dan skalabilitas terhadap penambahan ukuran dimensi dan record dataset. yang menghasilkan cluster yang bersarang artinya suatu data dapat memiliki cluster lebih dari satu. karena pada data multidimensi kemungkinan terdapat dimensidimensi yang tidak relevan yang dapat membingungkan algoritma clustering sehingga bisa mengaburkan cluster sebenarnya yang seharusnya dapat ditemukan. Divisive Hierarchical Clustering (CLIQUE. Metode Partisi. Kesamaan objek biasanya diperoleh dari kedekatan nilai-nilai atribut yang menjelaskan objek-objek data. Dengan menggunakan clustering. b. Secara garis besar ada beberapa kategori algoritma clustering yang dikenal yaitu: a. polapola distribusi secara keseluruhan dan keterkaitan yang menarik antara atribut-atribut data. beberapa hal yang perlu diperhatikan adalah input parameter yang tidak menyulitkan user. dapat diidentifikasi daerah yang padat. Kelemahan metode ini adalah bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah. . ENCLUE). Subspace Clustering Subspace clustering adalah suatu teknik clustering yang mencoba menemukan cluster pada dataset multidimensi dengan pemilihan dimensi yang paling relevan untuk setiap cluster. cluster hasil yang dapat dianalisa. Tujuannya menemukan cluster yang berkualitas dalam waktu yang layak. MAFIA. Dalam data mining usaha difokuskan pada metode-metode penemuan untuk cluster pada basisdata berukuran besar secara efektif dan efisien. tidak akan didapatkan cluster yang optimal. Contohnya: Agglomerative (FINDIT. Metode Hierarki. PROCLUS). Banyaknya pendekatan clustering menyulitkan dalam menentukan ukuran kualitas yang universal. Contohnya: algoritma K-Means. sedangkan objek-objek data biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi. Clustering dalam data mining berguna untuk menemukan pola distribusi di dalam sebuah data set yang berguna untuk proses analisa data.

metode reduksi dimensi dan feature selection tidak mampu memperoleh kembali semua struktur cluster. berakibat hilangnya satu atau dua cluster yang seharusnya ada. mengilustrasikan bagaimana peningkatan jumlah dimensi mengakibatkan terpecahnya titik pada dataset. semakin banyak dimensi yang digunakan. karena setiap dimensi merupakan salah satu subspace cluster yang terbentuk. dimensionalitas dataset dikurangi dengan menghilangkan beberapa dimensi. cluster akan sulit ditemukan. Algoritma . dimana setiap subspace dibentuk dari kombinasi dimensi yang berbeda-beda. Jika konsep ini diterapkan dalam kasus di Gambar di bawah. Cara yang sudah dikenal untuk mengatasi peningkatan jumlah dimensi adalah menggunakan teknik reduksi dimensi atau feature selection. y) dan (x. z). Berdasarkan strategi pencariannya algoritma susbsapce clustering dapat dikatagorikan ke dalam dua kategori yaitu metode top down search iterative dan metode bottom up search grid based. Akibatnya. cluster dapat saja berada dalam subspace yang berbeda. Untuk dataset seperti ini. Pada Gambar diatas. Dengan cara ini. satu cluster berada di bidang (x. Dengan menggunakan metode subspace clustering. Subspace clustering secara otomatis akan menemukan unit-unit yang padat pada tiap subspace. pendekatan ini berakibat pada hilangnya beberapa informasi dan sekaligus mengurangi efektifitas penemuan cluster yang mungkin melibatkan dimensi yang dihilangkan tersebut. karena masingmasing dimensi menjadi bagian dari satu buah cluster. Misalnya ada suatu dataset 3-dimensi yang mempunyai 2 cluster. dua cluster yang terbentuk pada Gambar 2-3 diharapkan dapat diperoleh karena teknik clustering ini dapat menemukan cluster dengan subspace yang berbeda dalam dataset.Masalah lainnya.

menentukan calon dense unit berdimensi 1 dengan melakukan pass over data. Algoritma diproses level demi level. Pertama-tama. calon dense unit berdimensi-k ditentukan dengan menggunakan prosedur candidate generation. Setelah menentukan dense unit berdimensi-k-1.MAFIA termasuk algoritma yang menggunakan strategi metode bottom up search grid based. Algoritma berhenti jika tidak ada dense unit yang dibangkitkan. proyeksi titik dalam cluster C yang berdimensi-k juga berada dalam cluster yang sama pada proyeksi dimensi-(k-1). Contoh : Buttom-up Subspace Search Grid Method Algoritma Bottom-up ini menggunakan prinsip yang serupa dengan algoritma Apriori untuk menghasilkan rule asosiasi. . Karena semua unit dalam cluster terhubung. Proyeksi setiap unit u dalam C harus memiliki selectivity minimal agar bersifat padat. Artinya. Prosedur candidat generation menyatakan Dk-1 sebagai kumpulan dense unit berdimensi (k-1). maka proyeksinya juga terhubung. Prosedur ini mengembalikan superset kumpulan calon dense unit berdimensi-k yang akan di bandingkan dengan density treshold apakah layak atau tidak digunakan sebagai penentu cluster. Lemma 1 (monotonicity): Jika kumpulan titik S merupakan cluster dalam ruang dimensi–k maka S juga merupakan bagian suatu cluster dalam ruang proyeksi dimensi-(k-1) Penjelasan: Suatu cluster C yang berdimensi-k memasukkan titik yang jatuh di dalam gabungan dense unit berdimensi-k yang masing-masing memiliki selectivity minimal.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->