P. 1
RESUME-PAPER_BC-D_5210100029_5210100033

RESUME-PAPER_BC-D_5210100029_5210100033

|Views: 8|Likes:
Published by Amira Herwindyani
Paper resume Bisnis Cerdas tentang klasifikasi
Paper resume Bisnis Cerdas tentang klasifikasi

More info:

Published by: Amira Herwindyani on Nov 30, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

07/07/2014

pdf

text

original

Knowledge Discovery in Databases (KDD) dan Proses Data Mining

Amira Herwindyani1 dan Amrina Friska2
Jurusan Sistem Informasi, Institut Teknologi Sepuluh Nopember Surabaya, Indonesia
1amira10@mhs.is.its.ac.id 2amrina.friska10@mhs.is.its.ac.id

Abstrak— Dewasa ini kemampuan penyimpanan dan pengumpulan data telah memungkinkan akumulasi pada sejumlah besar data. Knowledge Discovery in Databases (KDD) dan data mining dapat menjadi alat yang berguna dalam mengubah sejumlah besar data mentah (raw data) menjadi informasi yang berguna. Makalah ini memberikan ikhtisar mengenai data mining dan KDD, menjelaskan bagaimana keduanya saling terkait, menjelaskan beberapa metode data mining, serta memberikan contoh penggunaan metode data mining. Kata kunci— KDD, data mining, data, database

I. DEFINISI KNOWLEDGE DISCOVERY IN DATABASES (KDD) DAN DATA MINING Knowledge Discovery in Databases (KDD) adalah suatu proses yang penting untuk mengidentifikasi pola yang valid, baru, dan memiliki kemungkinan yang memberi manfaat serta mudah dipahami dalam data (Fayyad, Piatetsky-Shapiro and Smyth 1996). Data mining dapat diartikan sebagai proses ekstraksi informasi yang berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data. II. PROSES DATA MINING Proses data mining atau KDD meliputi sembilan langkah berikut, yaitu: a. Mengembangkan Pemahaman tentang domain aplikasi. Proses pertama ini merupakan langkah awal persiapan untuk mengembangkan pemahaman tentang domain aplikasi.Selain itu untuk mempersiapkan wadah untuk memahami apa yang harus dilakukan dengan banyaknya keputusan (tranformasi, alogaritma, representasi, dll). Orang – orang yang bertanggung jawab pada proyek KDD perlu untuk memahami dan menentukan tujuan dari pengguna akhir dan lingkungan, di mana proses penemuan pengetahuan akan berlangsung (termasuk yang relevan dari sebelumnya).Sebagai hasil proses KDD, mungkin terdapat revisi dilangkah ini. Setelah memahamio tujuan dari KDD, sebelum pengolahan dimulai dari data, kemudian didefinisikan dalam tiga langkah berikutnya. b. Memilih dan menciptakan kumpulan data yang penemuannya akan dilakukan. Setelah

c.

d.

mendefinisikan tujuan, data yang akan digunakan untuk penemuan pengetahuan harus ditentukan.Proses ini sangat penting dikarenakan data mining mempelajari tentang penemuan dari data yang tersedia.Ini merupakan dasar bukti untuk membangun model. Jika beberapa atribut penting yang ada yang hilang, maka seluruh penelitian dapat gagal. Dari hal ini, semakin banyak atribut yang dipertimbangkan semakin baik. Di sisi lain, untuk mengumpulkan, mengatur dan beroperasi repository data yang mahal dan terdapat tradeoff dengaan kesempatan untuk memahami fenomena.Tradeoff ini merupakan aspek dimana aspek interaktif yang berulang dari KDD. Dimulai dengan menyediakan kumpulan data dan kemudian mengembangkan dan mengamati efek dalam pengetahuan dan modeling. Pra pengolahan dan pembersihan data. Pada tahap ini, keandalan data dapat ditingkatkan. Ini termasuk dalam menyelesaikan data, seperti penangan kehilangan nilai dan pengahapusan keambiguan dan outlier.Ada banyak metode yang dijelaskan pada buku, dari yang tidak melakukan apa – apa menjadi bagian yang utama ( alam waktu pengerjaan) dari proyek KDD dalam proyek – proyek tertentu.Ini melibatkan metode statistik yang kompleks atau menggunakan alogaritma Data mining dalm konteks ini.Contoh : jika dalam satu permasalahan tersebut atribut yang digunakan cukup dapat di pertanggung jawabkan atau banyak memiliki data yang hilang maka atribuit tersebut akan menjadi tujuan dari pengawasan algoritma data mining.Model prediksi untuk atribut ini akan dikembangkan, dan kemudian data yang hilang dapat diprediksi.Ekstensi yang memperhatikan tingkat ini tergantung pada banyak faktor. Perubahan data. Pada tahap ini, generasi data yang lebih baik untuk data mining dipersiapkan dan dikembangkan.Metode di sini mencakupp reduksi dimensi ( seperti pemilihan fitur dan ekstraksi dan merekam smpling), dan transformasi atribut (diskritisasi, atribut numeric, dan transformasi fungsional). Langkah ini menjadi sangat penting bagi keberhasilan seluruh proyek KDD dan sangat spesifik .Contoh dalam pemeriksaan medis hasil bagi atribut sering menjadi faktor yang paling penting dan tidak satu per satu. Dalam pemasaran, perlu

aturan asosiasi untuk menggambarkan barang yang sering dibeli dengan barang lainnya di supermarket). f. Regression: memetakan suatu data ke variabel prediksi real-value dan penemuan hubungan fungsional antara variabel. Contohnya adalah pengelompokan pelanggan toko buku berdasarkan usia. Sekarang menggabungkan pengetahuan ke dalam sistem untuk melakukan lebih tindakan lebih lanjut. kita dapat membagi tujuan Discovery menjadi dua. di mana sistem ini terbatas untuk membuktikan hipotesis pengguna.Pertama mempertimbangkan langkah – langakh preprocessing sehubungan dengan efek pada hasil data mining algortima.Jika tidak menggunakan perubahan yang tepat di awal. Kelompok atau cluster didefinisikan dengan mencari pengelompokan alami dari data berdasarkan kesamaan ukuran.Dari pengetahuan menjadi aktif yang maksutnya dapat membuat perubahan system dan mengukur dampak. Summarization: memberikan gambaran ringkas untuk subset data. Setelah memiliki strategi. Keberhasilan langkah ini menentukan efektifitas dari proses KDD keseluruhan. j. dan juga pada langkah – langkah sebelumnya. dapat memperoleh efek mengejutkan petunjuk tentang perubahan yang dibutuhkan. atau pengelompokan. Dalam langkah ini perlu untuk menggunakan alogaritma beberapa kai sampai hasil yang diperoleh memuaskan. contohnya klasifikasi hewan bertulang belakang dan hewan tidak bertulang belakang. dan Discovery. regresi. Contoh sederhana adalah rata-rata dan standar deviasi untuk berbagai hal. Dependency modelling: menemukan model yang menggambarkan dependensi yang signifikan antara variable Link analysis: menentukan hubungan antara bidang dalam database (misalnya. Kepentingan relatif dari prediksi dan deskripsi untuk aplikasi data mining tertentu sangat beragam. Namun. dan Deskripsi (Description).Untuk keputusan masing – masing strategi meta-learning terdapat beberapa kemungkinan bagaiman hal tersebut dapat dicapai.Dengan demikian proses KDD mencerminkan proses dan mengarah tentang pemahamn perubahan yang dibutuhkan. Kita dapat membedakan tujuan KDD menjadi dua: Verifikasi. Tujuan prediksi dan deskripsi dapat dicapai melalui metode data mining utama berikut. g. sementara deskriptif data mining meliputi aspek – aspek tanpa pengawan dan visualisasi data mining. contohnya klasifikasi.Strategi ini juga memperhitungkan tingkat meta-learning untuk set data tertentu yang tersedia.Tahap ini meliputi pemilihan metode khusus yang akan digunakan untuk mencari pola. Selanjutnya. Memilih data mining task yang tepat. Walaupun batas antara prediksi dan deskripsi tidak terlalu menyolok (beberapa dari model prediktif bisa jadi deskriptif. Dalam hal ini sebagian besar tergantung pada tujuan KDD. dan vice versa). teknik visualisasi multivariat.Meta-learning berfokus pada menjelaskan apa yang menyebabkan alogaritma data mining untuk menjadi sukse atau tidak jika pada masalah tertentu.Teknik data mining didasarkan pada pembelajaran induktif. Menggunakan algoritma data mining. deskripsi cenderung lebih penting daripada prediksi. dengan kondisi di mana model tersebut dapat dipahami. di mana sistem menemukan pola dengan tujuan untuk memprediksi kemungkinan perilaku yang akan terjadi dari suatu entitas. perbedaan ini berguna memahami keseluruhan tujuan discovery.Dengan demikian strategi ini diusahakan untuk memahami kondisi dimana alogaritma data mining yang paling tepat. Pada tahap ini mengevaluasi dan mengartikan pola sehubungan dengan tujuan yang ditetapkan dalam tiap proses. i. Memilih algoritma data mining.Langkah ini berfokus pada comprehensibility dan penggunaan dari model induksi. Classification: memetakan (atau mengklasifikasikan) suatu data ke dalam satu dari kategori kelas yang telah ditentukan sebelumnya. Fungsi summarization sering digunakan dalam analisis data eksplorasi yang interaktif dan pembuatan laporan otomatis. di mana sistem ini dimana sistem secara otonom menemukan pola pola baru. dan hubungan fungsional antara variabel. yaitu Prediksi (Prediction). dimana model dibangun secara eksplisit maupun implisit dengan generalisasi dari jumlah yang cukup. Sekarang siap untuk memutuskan jenis data mining untuk penggunaan. Evaluasi. Struktur Databisa berubah dan domain data dapat dimodifikasi. dalam konteks KDD. mempertimbangkan efek di luar kendali serta upaya dan isu – isu temporal. Fungsi yang lebih rumit melibatkan aturan ringkasan (summarization rules).Prediksi sering disebut dengan supervised data mining. Hal ini berbeda dengan kebanyakan aplikasi pengenalan pola dan machine learning di mana prediksi sering menjadi tujuan utama. di mana sistem menemukan pola suatu entitas dengan tujuan untuk menyajikannya ke pengguna dalam bentuk yang lebih mudah dipahami. - - - . Clustering: memetakan suatu data ke dalam satu dari beberapa kategori kelas (atau kelompok) di mana kelas tersebut ditentukan dari data –tidak seperti klasifikasi di mana kelas sudah ditentukan sebelumnya.Terdapat dua tujuan utama dalam Data Mining yaitu prediksi dan deskripsi. sekarang memutuskan untuk taktik. Menggunakan ilmu pengetahuan yang telah ditemukan.Setiap alogaritma memiliki parameter dan taktik belajar. III. METODE DATA MINING Tujuan KDD ditentukan oleh tujuan penggunaan sistem.e.

G.-N. (1996).). & Padhraic.05 . Tan. Aturan asosiasi dari contoh ini adalah jika pelanggan membeli popok. From Data Mining to Knowledge Discovery in Databases. Williams.. (n.. Data Mining and Knowledge Discovery Handbook. Support menentukan berapa kali aturan ini relevan untuk satu set data tertentu. Contoh penggunaan aturan asosiasi adalah: sebuah toko menyimpulkan bahwa dari 100 pelanggan yang berbelanja pada Selasa malam. 2006). Aturan ini memiliki support 5/100 = 5% dan confidence 5/20 = 25% (popok  bir: 0. L. dan dari 20 pelanggan yang membeli popok tersebut .. Pearson. Larose. Aturan asosiasi adalah ekspresi 𝑌 𝑌 implikasi dalam bentuk: 𝑋 → 𝑌 ∶ 𝑠𝑢𝑝𝑋 . (1997). Discovering Knowledge in Data: An Introduction to Data Mining. 37-54. M. (2006).d. 𝑠𝑢𝑝𝑋 𝑌 adalah support . IV. Maimon. Clustering and Predictive Modelling: An Ensemble Approach. (n. 0. dan 𝑐𝑜𝑛𝑓𝑋 adalah confidence. Kuat atau baiknya suatu aturan diukur oleh support dan confidence.- Sequence analysis: Model pola berurutan (misalnya. [2] [3] [4] [5] [6] . DAFTAR PUSTAKA [1] Fayyad. American Association for Artificial Intelligence. (2005). S. Piatetsky-Shapiro. O. 27-34 Fayyad. D. & Smyth. 𝑋 ∩ 𝑌 = ∅ ). Piatetsky-Shapiro. CONTOH PENERAPAN METODE DATA MINING Metode data mining yang kami contohkan adalah aturan asosiasi (association rules).. Tujuannya adalah untuk memodelkan pernyataan dari proses yang menghasilkan urutan waktu atau untuk menggali dan melaporkan penyimpangan dan tren dari waktu ke waktu. Steinbach. G. Confidence mendefinisikan seberapa sering item dalam Y muncul dalam kasus yang mengandung X.).25) (Tan. 20 pelanggan membeli popok. & Kumar. dalam data yang memiliki dependensi terhadap waktu. Introduction to Knowledge Discovery in Databases. P. Tujuan dari jenis analisis ini adalah untuk mendapatkan aturan (atau asosiasi) untuk mengukur hubungan antara dua atau lebih atribut (Larose. Communications of The ACM. maka pelanggan juga akan membeli bir. P. Analisis asosiasi berguna untuk menemukan hubungan unik yang terdapat dalam set data yang besar. Steinbach. 𝑐𝑜𝑛𝑓𝑋 . 5 pelanggan membeli bir. U. Hubungan ini ditampilkan dalam bentuk aturan asosiasi.. 2005). U. seperti analisis time-series). P. V.. & Rokach.d.. Introduction to Data Mining. The KDD Process for Extracting Useful Knowledge from Volumes of Data. & Kumar. dimana X dan 𝑌 Y adalah set data yang terpisah (misal.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->