P. 1
Data Mining

Data Mining

|Views: 20|Likes:
Published by nurdin_sumantri

More info:

Published by: nurdin_sumantri on Mar 30, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

11/04/2013

pdf

text

original

Pengantar Data Mining

Dalam era informasi, informasi dipercaya dapat mengarah pada kekuatan dan kesuksesan, dan berkat teknologi canggih seperti komputer, satelit, dll. Awalnya, dengan munculnya komputer dan sarana untuk penyimpanan digital, akan dapat digunakan untuk mengumpulkan dan menyimpan segala macam data, menghitung dengan jumlah data yang besar dan membantu memilah-milah campuran dari informasi. Sayangnya, koleksi data yang banyak dan yang tersimpan dengan struktur yang bermacammacam akan menimbulkan kekacauan dalam menyusun database terstruktur (DBMS). Perkembangan sistem manajemen database juga memberikan kontribusi untuk pertemuan massa di massa sekarang ini dengan segala macam informasi. Informasi dapat menangani: transaksi bisnis dan data ilmiah, untuk gambar satelit, laporan teks dan intelijen militer. Pencarian informasi tidak cukup lagi untuk mengambil keputusan. Dengan koleksi besar data, kita sekarang telah menciptakan kebutuhan baru untuk membantu kita membuat pilihan yang lebih baik. Kesimpulan data secara otomatis, ekstraksi dari informasi yang tersimpan, dan penemuan pola-pola dalam data mentah dapat lebih mudah dilakukan. Jenis informasi yang kumpulkan? Pengumpulan data dapat dilakukan terhadap data dari pengukuran numerik sederhana dan dokumen teks, dan untuk informasi yang lebih kompleks seperti data spasial, saluran multimedia, serta dokumen hypertext. Berikut adalah daftar non-eksklusif dari berbagai informasi yang dikumpulkan dalam bentuk digital dalam database dan di flat file : • Transaksi Bisnis: Setiap transaksi dalam industri bisnis (sering) disimpan untuk selamanya. Transaksi tersebut biasanya berupadta terkait urusan antar-bisnis seperti pembelian, pertukaran, perbankan, saham, dll, atau intra-operasi bisnis seperti manajemen in-house barang dan aset. Department store besar, misalnya, berkat meluasnya penggunaan kode bar, toko jutaan transaksi sehari-hari sering mewakili terabyte data. Ruang penyimpanan bukan masalah besar, karena harga hard disk terus menurun, tetapi penggunaan yang efektif dari data dalam kerangka waktu yang wajar untuk kompetitif pengambilan keputusan pasti masalah yang paling penting untuk memecahkan untuk bisnis yang berjuang untuk bertahan hidup di dunia yang sangat kompetitif. Scientific data(Data ilmiah): Berupa data nuklir, data kehutanan, aktivitas kelautan, atau data dalam sebuah universitas, psikologi manusiadan lain sebagainya yang perlu dianalisis. Sayangnya, kita dapat menyimpan data baru lebih cepat dari pada yang kita dapat menganalisis data lama yang sudah menumpuk. Medical and personal data : Data sensus penduduk, file pelanggan, data rumah sakit, adalah penimbunan jumlah yang sangat besar dan penting dari data pribadi untuk membantu mereka dalam mengelola sumber daya manusia, memahami pasar, atau hanya membantu klien. Data tersebut sering berbenturan dengan masalah privasi. Data video dan gambar : Dengan runtuhnya harga dari kamera video analog, kamera video menjadi mana-mana. Video rekaman dari kamera pengintai biasanya didaur ulang setelah itu data dihilangkan. Namun, ada kecenderungan saat ini menyimpan kaset-kaset dan bahkan mendigitalkan data analog tersebut untuk penggunaan masa depan dan kebutuhan analisis. Satelit sensing (satelit penginderaan): terhitung banyak satelit di seluruh dunia, beberapa orbitt di atas wilayah geo-stasioner , dan ada pula yang mengorbit mengelilingi bumi, tapi semua mengirim aliran data non-stop ke bumi. NASA, yang menguasai sejumlah besar satelit, menerima lebih banyak data setiap detik. Gambar dari banyak satelit dipublikasikan segera setelah mereka diterima dengan harapan bahwa peneliti lain dapat dilakukan analisis

pemain dan atlet. Data Mining. dan repositori lain. saluran televisi dan studio film yang melakukan digitalisasi audio mereka dan koleksi video untuk meningkatkan pengelolaan aset multimedia. petinju. banyak stasiun radio. dokumen dari segala macam format. Komentator dan wartawan menggunakan informasi ini untuk pelaporan. Pesan ini secara teratur disimpan dalam bentuk digital untuk penggunaan masa depan.• • • • • sesegera mungkin. Asosiasi seperti NHL dan NBA sudah mulai mengkonversi koleksi game yang sangat besar ke dalam bentuk digital. Gambar berikut menunjukkan data mining sebagai hasil penemuan pengetahuan. basket dan mobil-balap. Ada sejumlah objek virtual reality dan repositori ruang yang tersedia. Selain itu. tetapi pelatih dan atlet akan ingin memanfaatkan data ini untuk meningkatkan kinerja dan lebih memahami lawan. Apakah Data Mining dan Penemuan Pengetahuan? Dengan data yang banyak yang disimpan dalam file. Dunia virtual : Ada banyak aplikasi yang memanfaatkan tiga dimensi ruang virtual. Dari skor hoki. ruang-ruang virtual yang dijelaskan sedemikian rupa sehingga mereka dapat berbagi objek dan tempat. The World Wide Web repositories : Sejak pengoperasian www pada tahun 1993. interpretasi data dan untuk ekstraksi pengetahuan dapat digunakan untuk membantu dalam pengambilan keputusan. Idealnya. renang. juga dikenal sebagai Penemuan Pengetahuan dalam Database atau Knowledge Discovery in Databases (KDD). sedangkan ukuran koleksi terus bertambah. Meskipun sifatnya dinamis dan tidak terstruktur. database. Game (Permainan): Masyarakat kita mengumpulkan sejumlah besar data dan statistik tentang permainan. www digunakan untuk referensi karena berbagai macam topik yang dibahas dan kontribusi tak terbatas oleh sumber daya dan penerbit. Text reports and memos (e-mail messages) : Sebagian besar komunikasi di dalam dan antar perusahaan atau organisasi penelitian atau bahkan swasta. didasarkan pada laporan dan memo dalam bentuk tekstual dan sering dikirim melalui e-mail. . karakteristik heterogen. catur. pengembangan sarana yang kuat untuk proses analisis. redundansi dan inkonsistensi. isi dan deskripsi telah dikumpulkan dan saling terkoneksi dengan hyperlink sehingga menjadi data repositori terbesar yang pernah dibangun. Manajemen dari repositori serta konten berbasis pencarian dan pengambilan dari repositori ini masih menjadi isu penelitian. kamera video desktop dan kamera digital adalah salah satu penyebab dari ledakan di repositori media digital. Media digital: Perkembangan scanner murah. semua data disimpan. didapatkan berbagai informasi yang tidak diketahui sebelumnya dari data dalam database. Banyak yang percaya bahwa www akan menjadi kompilasi pengetahuan manusia.

untuk mendapatkan yang berbeda. • Data Integration/Integrasi data: beberapa sumber data yang sering heterogen. dapat digabungkan dalam sumber yang sama. Berikut adalah beberapa contoh secara lebih rinci: • Flat file: Flat file sebenarnya sumber data yang paling umum untuk algoritma data mining. Ini langkah penting untu menggunakan teknik visualisasi untuk membantu pengguna memahami dan menafsirkan data hasil pertambangan. data clearing dan integrasi data dapat dilakukan bersama-sama sebagai fase pra-pengolahan untuk menghasilkan data warehouse. • Data Selection/Data seleksi: data yang relevan dengan analisis tersebut ditetapkan dan diambil dari koleksi data. • Pattern Evaluation/Evaluasi Pola: pada langkah ini. dll.Penemuan Pengetahuan dalam proses Database terdiri dari beberapa langkah terkemuka dari koleksi data mentah ke beberapa bentuk pengetahuan baru. Pada berikut disajikan beberapa tabel : Customer hubungan. Langkah-langkah tersebut dapat dilakukan secara bersama. Proses iteratif terdiri dari langkah-langkah berikut: • Data Clearing/Pembersihan data: adalah tahap di mana kebisingan data dan data yang tidak relevan dikeluarkan dari koleksi. data warehouse. time-series database dan tekstual database. algoritma dan pendekatan mungkin berbeda bila diterapkan pada berbagai jenis data. Setelah menemukan pengetahuan yang disajikan kepada pengguna. • Data mining: adalah langkah penting dalam teknik yang cerdas. Sebuah tuple dalam tabel relasional sesuai dengan baik objek atau hubungan antara objek dan diidentifikasi oleh seperangkat nilai atribut yang mewakili kunci yang unik. Data seleksi dan transformasi data juga dapat dikombinasikan dengan konsolidasi data. • Knowledge Representation/Representasi pengetahuan: adalah tahap akhir di mana pengetahuan ditemukan secara visual kepada pengguna. Sebagai contoh. Tantangan yang disajikan oleh berbagai jenis data bervariasi secara signifikan. berpotensi dan berguna yang diterapkan untuk mengekstrak pola. Tabel memiliki kolom dan baris. pola dievaluasi agar dapat mewakili pengetahuan dan diidentifikasi berdasarkan langkah-langkah yang diberikan. • Database Relasional: Secara singkat. objectrelational database dan berorientasi objek database. atau sumber data baru dapat diintegrasikan. dan bahkan flat file. data baru bisa dipilih atau lebih jauh berubah. database canggih seperti database spasial. database relasional terdiri dari satu set tabel yang mengandung baik nilai dari atribut entitas. KDD adalah proses berulang-ulang. time-series data. Data mining harus berlaku untuk setiap jenis repositori informasi. database multimedia. pengukuran ilmiah. • Data Transformation/Transformasi data: juga dikenal sebagai konsolidasi data. Data mining sedang mulai digunakan dan dipelajari. mining dapat lebih disempurnakan. langkah-langkah evaluasi dapat ditingkatkan. database transaksional. di mana kolom mewakili atribut dan baris mewakili tupel. Data dalam file-file ini bisa transaksi. termasuk database relasional. data mining tidak spesifik untuk satu jenis media atau data. khususnya di tingkat penelitian. tidak terstruktur dan semi-terstruktur repositori seperti World Wide Web. adalah fase di mana data yang dipilih akan diubah menjadi bentuk yang sesuai dengan prosedur (maining prosedur). Namun. Produk. Jenis data apa yang dapat digali(mining)? Pada prinsipnya. Flat file adalah data sederhana file dalam format teks atau biner dengan struktur yang dikenal oleh algoritma data mining untuk diterapkan. atau nilai-nilai atribut dari hubungan. hasil yang lebih tepat. dan Pinjam mewakili kegiatan usaha dalam VideoStore: .

sebuah query SQL untuk memilih video yang dikelompokkan berdasarkan kategori adalah: SELECT count(*) FROM Items WHERE type=video GROUP BY category. seperti memprediksi. • Data Warehouses: Sebuah data warehouse sebagai gudang. Sementara data mining bisa mendapatkan keuntungan dari SQL untuk seleksi data. itu akan lebih tepat untuk menyimpan semua data dalam satu situs dengan struktur homogen yang memungkinkan analisis interaktif. mendeteksi penyimpangan. data warehouse biasanya dimodelkan dengan struktur data multi-dimensi. pemasaran masa depan. melampaui apa yang bisa menyediakan SQL. . dll. serta perhitungan fungsi agregat seperti rata-rata. Algoritma data mining menggunakan database relasional dapat lebih fleksibel daripada algoritma data mining khusus ditulis untuk file flat. Banyak toko video milik perusahaan VideoStore mungkin memiliki database yang berbeda dan struktur yang berbeda. Untuk memudahkan pengambilan keputusan dan multi-dimensi. dibersihkan. Dengan kata lain. transformasi dan konsolidasi. min. karena mereka dapat mengambil keuntungan dari struktur yang melekat ke database relasional. yang memungkinkan pengambilan dan manipulasi data yang disimpan dalam tabel. Gambar berikut menunjukkan contoh subset tiga dimensi dari struktur kubus data yang digunakan untuk data warehouse VideoStore. diubah dan terintegrasi bersama. Jika eksekutif perusahaan ingin mengakses data dari semua toko untuk pengambilan keputusan strategis. dll.Bahasa query yang paling umum digunakan untuk database relasional adalah SQL. Mari kita anggap bahwa VideoStore menjadi waralaba di Amerika Utara. max dan jumlah. arah. Sebuah data warehouse memberikan pilihan untuk menganalisa data dari sumber yang berbeda di bawah satu atap. membandingkan. Misalnya. jumlah. data dari toko yang berbeda akan dimuat. adalah gudang data yang dikumpulkan dari berbagai sumber data (sering heterogen) dan dimaksudkan untuk digunakan secara keseluruhan di bawah skema terpadu yang sama.

manajemen proses bisnis (MPB). maka tabel silang penyewaan diringkas oleh kategori film dan waktu (dalam perempat). Operasi OLAP memungkinkan navigasi data pada berbagai tingkat abstraksi. waktu. penganggaran dan peramalan. Aplikasi khusus dari OLAP adalah pelaporan bisnis untuk penjualan. OLAP adalah bagian dari kategori yang lebih global dari pemikiran bisnis. Istilah OLAP merupakan perampingan dari istilah lama database OLTP (Online Transaction Processing). . dll Gambar 1. yang juga merangkum hubungan antara pelaporan dan penggalian data. Setiap dimensi kubus data berisi hirarki nilai untuk satu atribut. dan kota. manajemen pelaporan. pemasaran. dadu. seperti drill-down. Online Analytical Processing atau disingkat OLAP adalah sebuah pendekatan secara cepat menyediakan jawaban-jawaban terhadap kueri analitik yang multidimensi di dalam alam. Untuk mengembangkan hasil dikenal sebuah teknologi yaitu On-Line Analytical Processing (OLAP) . dan sel khusus yang menyimpan penjumlahan sepanjang dimensi. roll-up.4 mengilustrasikan drill-down (pada dimensi waktu) dan roll-up (pada lokasi dimensi) operasi. laporan keuangan dan bidang-bidang yang serupa. Kubus berisi sel-sel yang menyimpan nilai dari beberapa tindakan agregat (dalam hal ini jumlah sewa). Kubus Data memberikan sewa dirangkum sepanjang tiga dimensi: kategori. iris.Angka ini menunjukkan sewa diringkas dikelompokkan berdasarkan kategori film.

dll). Mereka dapat disimpan pada database object-relational atau object-oriented databases . Sebagai contoh. dan metodologi pengolahan bahasa alami. masing-masing ditandai dengan tanda waktu. dalam kasus toko video. VCR. Terkait dengan file transaksi juga bisa menjadi data deskriptif untuk item.• Transaction Databases: satu set catatan yang mewakili transaksi. dan global positioning atau regional. audio dan media teks. Database spasial tersebut memberikan tantangan baru untuk algoritma data mining. Setiap record adalah kontrak sewa dengan pelanggan. transaksi biasanya disimpan dalam flat file atau disimpan dalam dua tabel transaksi normal. tabel sewa seperti yang ditunjukkan pada Gambar berikut merupakan database transaksi. atau hanya pada sistem file. dan daftar item sewa (misalnya kaset video. yang membuat data mining lebih hallenging. • . gambar. tanggal. Ciri khas data mining adalah analisis pada data tersebut aturan asosiasi di mana hubungan antara item yang terjadi bersama-sama atau secara berurutan dapat dipelajari. Database Spasial: database spasial adalah database bukan data biasa. permainan. sebuah identifier dan satu set item. komputer grafis. Karena database relational tidak mengijinkan tabel bersarang. interpretasi citra. satu untuk transaksi dan satu untuk item transaksi. Data mining dari repositori multimedia mungkin memerlukan Computer vision. menyimpan informasi geografis seperti peta. • Database Multimedia: Multimedia database termasuk video. Multimedia ditandai dengan dimensi tinggi.

dan bahkan aplikasi. . data mentah. Data mining di World Wide Web. Dokumen-dokumen ini dapat berupa teks. yang meliputi dokumen. Database ini biasanya memiliki aliran data baru masuk secara kontinu . struktur Web. Dimensi keempat dapat ditambahkan berkaitan sifat dinamis atau evolusi dari dokumen. • World Wide Web: World Wide Web adalah repositori yang paling heterogen dan dinamis yang tersedia. Data mining dalam database tersebut umumnya meliputi studi tentang trend dan korelasi antara evolusi dari variabel yang berbeda. World Wide Web terdiri dari tiga komponen utama: Isi dari Web. Gambar berikut menunjukkan beberapa contoh time-series data.• Time-Series Databases: berisi data terkait data pasar saham atau kegiatan login. Secara konseptual. menjelaskan bagaimana dan ketika sumber daya yang diakses. mencoba untuk mengatasi semua masalah ini dan sering dalam web. yang mencakup hyperlink dan hubungan antara dokumen. serta prediksi tren dan pergerakan variabel waktu. Data dalam World Wide Web ini saling terkoneksi antar dokumen. Sebuah jumlah yang sangat besar dari penulis dan penerbit terus berkontribusi terhadap pertumbuhan dan metamorfosis. audio. dan penggunaan web. yang kadang-kadang menyebabkan kebutuhan analisis secara real time. dan sejumlah besar pengguna yang mengakses sumber daya sehari-hari. video.

dan bahwa ada kepastian 55% bahwa pelanggan remaja yang menyewa permainan juga membeli pop. Teknik yang digunakan untuk diskriminasi data sangat mirip dengan teknik yang digunakan untuk karakterisasi data dengan pengecualian bahwa data hasil diskriminasi mencakup langkah-langkah perbandingan. Aturan ini mempelajari frekuensi item yang terjadi bersama-sama dalam database transaksional. misalnya. Fungsionalitas data mining dan berbagai pengetahuan yang ditemukan secara singkat disajikan dalam daftar berikut: • Karakterisasi: karakterisasi Data adalah summarization dari fitur umum dari objek dalam kelas target. “game”) ∧ Age(X. Aturan asosiasi ditemukan adalah dari bentuk: P → Q [s.c=55%] akan menunjukkan bahwa 2% dari transaksi dipertimbangkan adalah pelanggan berusia antara 13 dan 19 yang menyewa game dan membeli pop. beberapa jenis film dan membeli pop. ada dua jenis tugas data mining: – data mining deskriptif (descriptive data mining tasks) yang menggambarkan sifat umum dari data yang ada. Klasifikasi pendekatan biasanya menggunakan training set di mana semua benda sudah dikaitkan dengan label kelas yang diketahui. Analisis klasifikasi akan . operasi OLAP sederhana sesuai dengan tujuan karakterisasi data. • Diskriminasi: diskriminasi data menghasilkan apa yang disebut aturan diskriminan dan pada dasarnya adalah perbandingan fitur umum dari objek antara dua kelas disebut sebagai kelas target dan kelas kontras. Data yang relevan dengan kelas yang ditentukan pengguna biasanya diambil oleh query database dan dijalankan melalui modul summarization untuk mengekstrak esensi dari data pada berbagai tingkat abstraksi. atribut berorientasi metode induksi dapat digunakan. "berisiko" dan "sangat berisiko". manajer VideoStore ingin tahu apa film yang sering disewa bersama atau jika ada hubungan antara menyewa. dan label sesuai pelanggan yang menerima kredit dengan tiga label mungkin "aman". Sebagai contoh. di mana P dan Q adalah konjungsi atribut nilai-pasangan. aturan asosiasi hipotetik: RentType(X. dan berdasarkan ambang batas yang disebut dukungan. Model ini digunakan untuk mengklasifikasikan objek baru. Sebagai contoh. klasifikasi penggunaan yang diberikan label kelas untuk memerintahkan objek dalam pengumpulan data. seseorang mungkin ingin membandingkan karakteristik umum pelanggan yang menyewa lebih dari 30 film dalam setahun terakhir dengan mereka yang sewa akun lebih rendah dari 5. Sebagai contoh. mengidentifikasi set item yang sering muncul. Dengan konsep hirarki pada atribut yang menggambarkan kelas target. untuk melakukan summarization data. Sebagai contoh. “13-19”) → Buys(X. seseorang mungkin ingin mencirikan pelanggan VideoStore yang rutin menyewa lebih dari 30 film setahun. • Asosiasi analisis: Asosiasi analisis adalah penemuan dari apa yang biasanya disebut aturan asosiasi. • Klasifikasi: Juga dikenal sebagai klasifikasi terbimbing. Perhatikan bahwa kubus dengan data yang berisi rangkuman data. dan s (dukungan) adalah probabilitas bahwa P dan Q muncul bersama dalam suatu transaksi dan c (untuk onfidence) adalah probabilitas bersyarat bahwa Q muncul dalam transaksi ketika P hadir. dan menghasilkan apa yang disebut aturan khas. setelah memulai kebijakan kredit. “pop”) [s=2% .Apa yang bisa digali? Jenis pola yang dapat ditemukan tergantung pada tugas data mining yang digunakan. para manajer dapat menganalisis perilaku VideoStore pelanggan kredit mereka. Sebagai contoh. – Data mining prediksi data (predictive data mining tasks) yang berusaha untuk melakukan prediksi berdasarkan inferensi pada data yang tersedia. Algoritma klasifikasi belajar dari training set dan membangun model. c]. Pada umumnya.

mereka dapat mengungkapkan pengetahuan penting di domain lainnya. mereka seringkali sangat penting untuk identifikasi. Clustering: Serupa dengan klasifikasi. Prediksi: Prediksi telah menarik banyak perhatian diberikan implikasi potensi peramalan yang sukses dalam konteks bisnis. tidak seperti klasifikasi. Evolusi dan analisis deviasi: Evolusi dan analisis penyimpangan berkaitan dengan studi waktu terkait data yang berubah dan upaya untuk mencari penyebab penyimpangan dari nilai-nilai diantisipasi. label kelas tidak diketahui dan terserah dengan algoritma clustering untuk menemukan kelas yang diterima. Juga dikenal sebagai pengecualian atau kejutan. Ada banyak pendekatan pengelompokan didasarkan pada prinsip memaksimalkan kemiripan antara objek dalam kelas yang sama (intra-kelas kesamaan) dan meminimalkan kesamaan antara obyek dari kelas yang berbeda (antar-kelas kesamaan). karena klasifikasi ini tidak ditentukan oleh label kelas yang diberikan. Namun. dalam clustering.• • • • menghasilkan model yang dapat digunakan untuk menerima atau menolak permintaan kredit di masa depan. Outlier analisis: adalah data elemen yang tidak dapat dikelompokkan dalam kelas tertentu atau cluster. dan dengan demikian bisa sangat signifikan dan analisis berharga. clustering adalah organisasi data dalam kelas. Clustering juga disebut klasifikasi tak terawasi. . Ada dua jenis utama dari prediksi: satu dapat mencoba untuk memprediksi beberapa nilai data tidak tersedia atau tren yang tertunda (intuisi). Sementara outlier dapat dianggap kebisingan dan dibuang dalam beberapa aplikasi. atau memprediksi label kelas untuk beberapa data.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->