P. 1
Database Clustering

Database Clustering

|Views: 13|Likes:
Published by Lutfi ALmubarok
Database
Database

More info:

Categories:Types, Reviews
Published by: Lutfi ALmubarok on Jan 10, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

12/10/2013

pdf

text

original

CLUSTER DATABASE

Clustering Clustering adalah proses mengelompokkan atau penggolongan objek berdasarkan informasi yang diperoleh dari data yang menjelaskan hubungan antar objek dengan prinsip untuk memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dalam data mining berguna untuk menemukan pola distribusi di dalam sebuah data set yang berguna untuk proses analisa data. Kesamaan objek biasanya diperoleh dari kedekatan nilai-nilai atribut yang menjelaskan objek-objek data, sedangkan objek-objek data biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi. Clustering digunakan untuk mendapatkan high availability dan scalability. Pada high available cluster, dapat digunakan failover database cluster, dimana hanya ada satu node yang aktif melayani user, sedangkan node lainnya standby. Storage yang digunakan mempunyai koneksi ke setiap node pada cluster, sehingga jika primary node mati, database engine, listener process, dan logical host ip address akan dijalankan pada secondary node tanpa perlu menunggu operating system boot, sehingga downtime dapat diminimalisasi. High availability mempunyai standard uptime 99.999 persen, atau hanya boleh mati selama 5 menit dalam setahun. Beberapa contoh software yang dapat digunakan untuk membuat HA cluster adalah Sun Cluster dan Veritas Cluster. Pada scalable cluster, digunakan produk Oracle RAC, dimana setiap node aktif melayani user, sehingga diperoleh performa yang semakin baik dengan menggunakan lebih banyak node. Sun cluster dapat digunakan sampai 16 node, sedangkan Veritas Storage Foundation for Oracle RAC bisa sampai 32 node. Jika ada node yang mati, tentu akan menurunkan performa, namun tidak terjadi down time. Pada scalable cluster, seluruh node dapat terhubung secara langsung ke shared storage, namun dapat juga tidak mempunyai koneksi fisik ke storage, melainkan melalui private cluster transport.

Subspace Clustering Subspace clustering adalah suatu teknik clustering yang mencoba menemukan cluster pada dataset multidimensi dengan pemilihan dimensi yang paling relevan untuk setiap cluster, karena pada data multidimensi kemungkinan terdapat dimensi-dimensi yang tidak relevan yang dapat membingungkan algoritma clustering sehingga bisa mengaburkan cluster sebenarnya yang seharusnya dapat ditemukan. Masalah lainnya, cluster dapat saja berada

Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. dimensionalitas dataset dikurangi dengan menghilangkan beberapa dimensi. tidak dapat didapatkan cluster yang optimal. yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. cluster akan sulit ditemukan. Akibatnya. Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas. Cara yang sudah dikenal untuk mengatasi peningkatan jumlah dimensi adalah menggunakan teknik reduksi dimensi atau feature selection. mengilustrasikan bagaimana peningkatan jumlah dimensi mengakibatkan terpecahnya titik pada dataset.dalam subspace yang berbeda. diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi. metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Pada Gambar diatas. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. data-data tsb dimasukkan dalam cluster. clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu. Dengan cara ini. pendekatan ini berakibat pada hilangnya beberapa informasi dan sekaligus mengurangi efektifitas penemuan cluster yang mungkin melibatkan dimensi yang dihilangkan tersebut. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Subspace clustering secara otomatis akan menemukan unit-unit yang padat pada tiap subspace. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data. Kelemahan 3 metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah. . Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon. Algoritma yang terkenal adalah DBSCAN. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. semakin banyak dimensi yang digunakan. dimana setiap subspace dibentuk dari kombinasi dimensi yang berbeda-beda.

Database tercluster tersebut dapat dianggap personal desktop atau database tunggal bagi penggunanya. dan tidak ada bottleneck. Metode clustering seperti ini sangat baik untuk load balancing dan penanganan system failure karena kemampuan tiap mesin akan digunakan dan jika ada salah satu mesin yang mengalami failure maka sistem tidak akan langsung terganggu karena mesin lain akan tetap berfungsi. baik dalam hal kegunaan. Aplikasi-aplikasi database dituntut untuk mampu melayani banyak akses data. konsekuensi dari semua itu adalah beban databse server akan semakin bertambah berat dan mengakibatkan kurang optimalnya kinerja dari server tersebut. semua mesin yang menyimpan data tersebut dianggap sebagai satu kesatuan. Oleh sebab itu. Solusi praktis dan tepat yang dapat diterapkan untuk mengatasi permasalahan diatas antara lain dengan penerapan Teknologi Cluster. setiap server mengerjakan beban semestinya. Dengan clustering ini database yang disimpan dapat terbagi ke beberapa mesin dan pada saat aplikasi berjalan. Hal ini secara langsung akan berdampak pada server database sebagai penyedia layanan terhadap akses databse. Berbagai jenis server diikat menjadi satu untuk menjadikan suatu pelayanan tunggal (one stop shopping). Banyak sekali manfaat yang diperoleh dari teknologi cluster diantaranya meningkatkan ketersediaan dan performansi system. Hal yang sangat penting bagi Teknologi komunikasi data adalah database sebagai penyedia data. diperlukan perancangan yang tepat dan handal dalam membangun databse server. Kemampuan clustering memungkinkan sebuah database tetap hidup dalam waktu yang lama. tetapi dilayani oleh sekelompok server database. Database pada masa sekarang ini dituntut agar dapat berjalan dengan cepat dan mempunyai kehandalan yang tinggi. Pada server database yang besar dalam pelayanannya tidak menggunakan server databse tunggal. Saat ini aplikasi databse semakin berkembang. maupun kompleksitas. Banyak sekali manfaat yang diperoleh dari teknologi cluster diantaranya meningkatkan ketersediaan dan performansi system.Teknologi Cluster Kebutuhan akan komunikasi data dewasa ini sangat penting seiring dengan kemajuan dan perkembangan teknologi komunikasi data yang semakin canggih. Arsitektur yang digunakan harus menjamin bahwa sistem bekerja dengan baik.999 . Hal ini dapat dimaklumi karena database server telah di rancang untuk dapat melayani beragam jenis akses data. MySQL berani menjanjikan angka 99. beberapa buah server databse dihubungkan menjadi satu pada lingkungan yang sangat kompleks. ukuran.

Sebuah MySQL Cluster terdiri dari sekumpulan komputer. sedangkan MySQL Cluster diartikan sebagai kombinasi atau gabungan dari MySQL dan mesin penyimpanan yang baru tersebut. cluster tersebut dapat menangani kegagalan dari node-node penyimpanan individual dengan tidak ada dampak lain dari sejumlah transaksi dihentikan karena kegagalan . Ketika data disimpan di dalam mesin penyimpan media NDB cluster.persen ketersediaan databasenya. dan tidak membutuhkan perangkat keras dan lunak dengan spesifikasi khusus. node-node penyimpanan untuk cluster NDB.1. pihak MySQL sedang membuat/mengembangkan agar cluster NDBdapat berjalan pada semua system operasi yang didukung oleh MySQL termasuk Windows. Sederhananya. Data yang disimpan di dalam node-node penyimpanan pada MySQL Cluster dapat di mirror (dicerminkan). Mesin penyimpanan cluster NDB tersedia di dalam BitKepper dari MySQL release 4. dan Solaris. Tabel-tabel seperti itu dapat diakses secara langsung dari semua MySQL server yang lain di dalam cluster tersebut. server-server manajemen dan program-program pengakses data yang khusus.1. Dengan cara demikian. MySQL Cluster menggabungkan MySQL Server biasa dengan sebuah mesin penyimpanan in-memory tercluster yang dinamakan NDB.3 System operasi yang didukung adalah Linux. Arsitektur tersebut juga handal karena masing-masing komponen mempunyai memory dan disk tersendiri. Arsitektur share-nothing mengijinkan sistem dapat bekerja dengan hardware/perangkat keras yang sangat murah. jika sebuah aplikasi mengupdate/memperbaharui gaji seorang karyawan. tabel-tabel disimpan didalam node-node penyimpanan pada NDB Cluster. Semua program-program tersebut bekerja bersama-sama untuk membentuk MySQL Cluster.2 dan di dalam binary releases dari MySQL-Max 4. Overview MySQL Cluster adalah sebuah teknologi baru untuk memungkinkan clustering di dalam memory database dalam sebuah sistem share-nothing. Mac OS X. MySQL Cluster MySQL Cluster menggunakan mesin penyimpanan cluster NDB baru yang mampu menjalankan beberapa MySQL Server di dalam sebuah cluster. dalam satu tahun kira-kira hanya lima menit waktu database itu tidak hidup. NDB berarti bagian dari suatu rangkaian yang dikhususkan sebagai mesin penyimpanan. masing-masing menjalankan sejumlah proses mencakup beberapa MySQL server. semua MySQL server yang lain yang meminta data ini dapat melihat perubahannya dengan seketika. sebuah aplikasi daftargaji menyimpan data di dalam sebuah cluster.

market research. Mesin penyimpanan NDB pada MySQL Cluster berisi sebuah kumpulan lengkap dari data.proses transaksi. Kebanyakan aplikasi2 data mining menggunakan clusteing menurut similarity (kesamaan). Dengan memperkenalkan MySQL Cluster pada dunia open source. bergantung hanya pada data lainnya di dalam cluster itu sendiri. Dasar konsep-konsep MySQL Cluster NDB adalah sebuah mesin penyimpanan memory yang menawarkan ketersediaan yang tinngi dan fitur-fitur persistensi data. … – clustering dokumen2 – clustering data log web untuk mendapatkan group dengan pola akses yang sama. MySQL membuat manajemen data cluster dengan ketersediaan yang tinggi. maka terdapat sejumlah teknik untuk membentuk cluster. Jika pengukuran kesamaan tersedia. tetapi untuk memulai paling mudah dengan mesin penyimpanan pada level cluster. Di dalam MySQL Cluster. karena itu setiap partisi atau group adalah sama menurut kriteria atau metrik tertentu. . WWW. Contoh aplikasi : – Perangkat ‘stand-alone’ : explore data distribution – Langkah preprocessing untuk algoritma lain – Pengenalan pola. Mesin penyimpanan NDB dapat diatur dengan sebuah bidang failover dan pilihan-pilhan load-balancing. misalnya ketika mensetting tarif asuransi klien dapat disegmentasi menurut sejumlah parameter. Analisis Cluster Clustering dan segmentasi sebenarnya mempartisi database. analisis data spasial. ini semua tidak seharusnya menjadi sumber permasalahan. perfomance yang tinggi dan skalabilitas ketersediaan untuk siapa saja yang memerlukannya. Sejak aplikasi untuk proses-proses transaksi diharapkan mampu menangani kegagalan transaksi. masing-masing bagian dari cluster dianggap sebagai sebuah node. pengenalan citra. Clustering menurut optimasi dari sekumpulan fungsi-fungsi digunakan pada analisis data. contohnya segmentasi basis klien. Sekarang akan diuraikan bagaimana mengatur sebuah MySQL Cluster yang terdiri dari sebuah mesin penyimpanan NDB dan beberapa MySQL server. Sebagian dari MySQL Cluster dikonfigurasi tidak tergantung/bebas dari server-server MySQL yang lain.

ordinal dan rasio · Variable2 dari berbagai tipe variable .Penggelompokkan data ke cluster2 – Data yang sama satu sama lain berada pada cluster yang sama – Yang tidak sama berada pada cluster lain – ‘Unsupervised learning’: klas2 yang belum ditentukan Clustering Yang Baik · Intraclass similarity (Kesamaan di dalam klas) yang tinggi dan interclass similarity (kesamaan antar klas) yang rendah bergantung pada pengukuran kesamaan · Kemampuan untuk mendapatkan beberapa atau semua pola yang tersembunyi. Kebutuhan Clustering · Scalability : Kemampuan mengerjakan atribut2 dari berbagai tipe · Penemuan clusters dengan bentuk yang tidak tentu · Kebutuhan minimal untuk pengetahuan domain untuk menentukan parameter input · Dapat menerima noise dan outlier · Tidak mengindahkan susunan record dari input · Dimensi yang tinggi · Menyatu dengan batasan yang dispesifikasikan oleh user · Interpretability and usability Tipe-tipe Data pada Clustering · Variabel2 berskala interval · Variabel biner · Variabel nominal.

kemudian temukan cluster2 dalam bentuk sembarang – Metode berbasis grid – Kuantisasi ruang objek ke dalam struktur grid Berbasis Model – Gunakan model untuk menemukan keadaan data yang baik Contoh Clustering  Terdapat Database Foodmart2000 dengan OLAP Cube Sales. . Kita tertarik untuk menemukan 3 segmen pelanggan dari toko Foodmart dalam rangka menciptakan suatu program untuk menawarkan manfaat yang berbeda untuk pelanggan yang tergantung pada karakteristik pribadi mereka. Pada tugas saat ini kita tertarik akan Jenis kelamin pelanggan/Customers’ Gender. Langkah 2– pada langkah ini kita memilih karakteristik yang akan diproses oleh algoritma tsb. Pendapatan tahunan. Kartu Anggota. Kita akan menggunakan algoritma clustering di database Foodmart2000 dimana segmen pelanggan ada di OLAP cube sales dalam tiga kategori yang berdasarkan pada informasi berikut: Jenis kelamin. status perkawinan. Tujuannya adalah untuk meningkatkan kesetiaan mereka terhadap toko tsb. dan Penjual toko.   Langkah 1 Ketika kita akan menggolongkan pelanggan. pembagian cluster tersebut membentuk cluster2 yang kecil Metode berbasis densitas – Berbasis koneksitas dan fungsi densitas – Noise disaring. Pendidikan. Status Perkawinan/marital status.Kategori Pendekatan Clustering · Algoritma Partisi · Mempartisi objek2 ke dalam k cluster · Realokasi objek2 secara iteratif untuk memperbaiki clustering Algoritma Hirarkis – Agglomerative: setiap objek merupakan cluster. gabungan dari cluster-cluster membentuk cluster yang besar – Divisive: semua objek berada dalam suatu cluster. Pada basis cluster mereka yang akan dibuat. kita harus memilih Customer sebagai kasus pada halaman yang pertama dari OLAP Data Mining Wizard.

Oracle9 menggunakan teknologi bersama-penyimpanan. jangkauan lebih luas dari aplikasi adalah: Oracle Corporation Oracle9 dengan IBM. ringkasan hasil. kedua campuran. itu sebabnya mengapa kita memilihnya. pilih DB2 teknologi Bersama-apa-apa. Teori database cluster terbaru didasarkan pada komputasi terdistribusi. distribusi data ke setiap node. Pendapatan tahunan/yearly income dan penjual toko. Tapi masih belum mencapai semua fitur. Ini tidak diragukan lagi cara yang paling sempurna. semua node dalam komputasi paralel untuk memproses data. DB2. . Kartu anggota/Member Card.  Hasil Penerapan sistem cluster database saat ini lebih berhasil.pendidikan/education.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->