Professional Documents
Culture Documents
Data Mining
Data Preprocessing
lizda@fti.uii.ac.id
Februari 2011
Materi
Definisi data beserta atributnya
Kualitas data
Deskripsi dasar dan eksplorasi data
Apakah yang disebut Data?
Attributes
Kumpulan sejumlah objek
data beserta dengan
atributnya. Tid Refund Marital Taxable
Atribut adalah properti atau Status Income Cheat
timeout
season
coach
game
score
team
ball
lost
play
win
Document 1 3 0 5 0 2 6 0 2 0 2
Document 2 0 7 0 2 1 0 0 3 0 0
Document 3 0 1 0 0 1 2 2 0 3 0
Data Transaksi
Bentuk khusus suatu data record, dimana:
◦ Setiap record (transaksi) melibatkan sejumlah item.
◦ Contoh: pada suatu supermarket, barang-barang yang
dibeli customer dalam sekali belanja merupakan suatu
transaksi, sedangkan tiap jenis barang yang dibeli
dinyatakan sebagai item.
TID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Data Graf
Contoh: graf umum dan link HTML
<a href="papers/papers.html#bbbb">
Data Mining </a>
<li>
2 <a href="papers/papers.html#aaaa">
Graph Partitioning </a>
<li>
5 1 <a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a>
<li>
2 <a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers
5
Data Kimia
Molekul Benzene: C6H6
Ordered Data (Data yang terurut)
Urutan transaksi
Items/Events
An element of
the sequence
Ordered Data
Urutan data genome (gen)
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered Data
Spatio-Temporal Data
Rata-rata bulanan
temperatur suhu di
darat dan di laut
Kualitas Data
Apa sajakah permasalahan yang berkaitan dengan
kualitas data?
Bagaimanakah cara kita mengetahui adanya masalah
pada data yang dimiliki?
Apakah yang dapat kita lakukan terkait dengan masalah
ini?
Contoh masalah-masalah terkait dengan kualitas data:
◦ Noise dan outliers
◦ Missing values
◦ Duplicate data
Noise
Noise mengacu pada adanya modifikasi pada nilai data
asli.
◦ Contoh: distorsi/gangguan pada suara seseorang ketika sedang
berbicara menggunakan telpon berkualitas jelek, ataupun adanya
“snow” pada layar televisi.
◦ Data reduction
mengurangi jumlah atribut.
◦ Mengubah skala
kota dapat di-agregasi sebagai kabupaten, propinsi, negara, ...
◦ Untuk mendapatkan data yang lebih “stabil”
data yang di-agregasi cenderung untuk memiliki tingkat
variabilitas yang tidak terlalu tinggi.
Aggregation (2)
Variasi curah hujan di Australia
N
i 1
( xi
2
)
N
x
i 1
i
2
2