You are on page 1of 44

Materi Kuliah – [2]:

Data Mining

Data Preprocessing

lizda@fti.uii.ac.id
Februari 2011
Materi
 Definisi data beserta atributnya
 Kualitas data
 Deskripsi dasar dan eksplorasi data
Apakah yang disebut Data?
Attributes
 Kumpulan sejumlah objek
data beserta dengan
atributnya. Tid Refund Marital Taxable
 Atribut adalah properti atau Status Income Cheat

karakteristik dari sebuah 1 Yes Single 125K No


objek. 2 No Married 100K No
◦ Contoh : warna mata dari objek 3 No Single 70K No
seorang manusia, merk mobil 4 Yes Married 120K No
dari objek sebuah mobil, ...
5 No Divorced 95K Yes
◦ Atribut juga dikenal dengan Objects
istilah : variabel, field, 6 No Married 60K No
karakteristik, atau fitur/feature. 7 Yes Divorced 220K No
 Kumpulan sejumlah atribut 8 No Single 85K Yes
digunakan untuk 9 No Married 75K No
mendefinisikan suatu objek. 10
10 No Single 90K Yes
Nilai Atribut
 Nilai atribut dapat berupa angka (numbers) atau
simbol.
 Perbedaan antara atribut dan nilai atribut
adalah:
◦ Atribut yang sama dapat ditentukan untuk nilai yang
berbeda..
 Contoh : tinggi seseorang dapat diukur dalam meter atau feet.
◦ Atribut yang berbeda dapat diberi dengan sejumlah
nilai yang sama.
 Contoh : Nilai atribut untuk ID dan Usia berupa interger.
 Namun, properti dari nilai atribut dapat ditentukan secara
berbeda.
 Nilai ID tidak memiliki batas (limit), sedangkan usia memiliki nilai
batas maksimum dan minimum.
Jenis Atribut
 Terdapat berbagai jenis atribut:
◦ Nominal
 Contoh: Nomor ID, warna mata, kode pos
◦ Ordinal
 Data yang dapat dirangking (Contoh: rasa keripik kentang
dalam skala 1-10, peringkat di kelas, tinggi badan dalam
{tinggi, sedang, rendah})
◦ Interval
 Contoh: tanggal di kalender, temperatur suhu badan
◦ Ratio
 Contoh: temperatur dalam Celcius, panjang suatu benda, hasil
perhitungan
Properti Nilai Atribut
 Jenis atribut sangat dipengaruhi oleh properti apa yang
dimiliki atribut tersebut.
 Properti nilai atribut terbagi atas 4 kelompok:
◦ Distinctness: = 
◦ Order: < >
◦ Addition: + -
◦ Multiplication: */
 Untuk ke-4 jenis atribut dapat ditentukan propertinya sbb:
◦ Nominal attribute: distinctness
◦ Ordinal attribute: distinctness & order
◦ Interval attribute: distinctness, order & addition
◦ Ratio attribute: semua (ke-4) jenis properti di atas
Tipe Deskripsi Contoh Operasi
Atribut
Nominal Nilai atribut nominal berupa Kode pos, nomor mode, entropy,
nama/nilai yang dapat dibedakan, ID pegawai, jenis contingency
sehingga nilai antar objek harus mobil correlation, 2
berbeda. Penggunaan operator (=, test
)

Ordinal Nilai atribut ordinal berupa nilai Kekuatan bahan median,


yang dapat diurutkan. mineral dalam percentiles, rank
Penggunaan operator (<, >) {good, better, best}, correlation, run
tests, sign tests
rangking di kelas,
Interval Nilai atribut interval berlaku jika nomor
Tanggalrumah
kalender, mean, standard
perbedaan nilai antar atribut temperatur dalam deviation,
memiliki makna yang signifikan, Celsius atau Pearson's
adanya unit pengukuran. Fahrenheit correlation, t and
Penggunaan operator (+, - ) F tests
Ratio Untuk atribut ratio, perbedaan Usia, panjang benda geometric mean,
nilai ataupun ratio nilai , hasil perhitungan harmonic mean,
memiliki makna yang percent variation
signifikan. Penggunaan
operator (*, /)
Atribut Kontinu vs Diskret
 Atribut Diskret
◦ Berupa nilai yang finite/terbatas.
◦ Contoh : kode pos, sejumlah kata dalam suatu dokumen.
◦ Biasanya dinyatakan sebagai data bertipe integer.
◦ Atribut bertipe biner merupakan kasus khusus yang termasuk
sebagai atribut diskret.
 Atribut Kontinu
◦ Berupa real numbers.
◦ Contoh : temperature, tinggi badan, atau berat barang.
◦ Biasanya dinyatakan sebagai variabel bertipe floating-point.
Tipe Data Set
 Record
◦ Relational records
◦ Data matriks: numerical matrix
◦ Data dokumen : text documents
◦ Data transaksi
 Graf
◦ World Wide Web
◦ Social or information networks
◦ Struktur Molekul
 Ordered
◦ Spatial data: maps
◦ Temporal data: time-series
◦ Sequential Data: transaction sequences
◦ Genetic sequence data
Relational Record
 Data yang terdiri atas Tid Refund Marital
Status
Taxable
Income Cheat
sejumlah record dengan
1 Yes Single 125K No
tiap record terbentuk
2 No Married 100K No
dari sejumlah atribut No
3 No Single 70K
yang tetap. 4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Data Matrik
 Jika objek data memiliki jumlah atribut numerik yang
sama, maka objek tersebut dapat dianggap sebagai
point dalam ruang representasi data yang
multidimensi, dimana setiap dimensi akan
merepresentasikan atribut yang berbeda.
 Objek data seperti di atas dapat direpresentasikan
sebagai matriks (m x n), dimana m bertindak sebagai
baris dan n bertindak sebagai kolom untuk tiap
atribut.
Projection Projection Distance Load Thickness
of x Load of y load

10.23 5.27 15.22 2.7 1.2


12.65 6.25 16.22 2.2 1.1
Data Dokumen
 Setiap dokumen merupakan ‘term' suatu vector,
dalam artian:
◦ Setiap ‘term’ menjadi komponen (atribut) dari suatu vektor
◦ Nilai setiap komponen merupakan jumlah kejadian suatu
term yang terjadi pada tiap dokumen.

timeout

season
coach

game
score
team

ball

lost
play

win
Document 1 3 0 5 0 2 6 0 2 0 2

Document 2 0 7 0 2 1 0 0 3 0 0

Document 3 0 1 0 0 1 2 2 0 3 0
Data Transaksi
 Bentuk khusus suatu data record, dimana:
◦ Setiap record (transaksi) melibatkan sejumlah item.
◦ Contoh: pada suatu supermarket, barang-barang yang
dibeli customer dalam sekali belanja merupakan suatu
transaksi, sedangkan tiap jenis barang yang dibeli
dinyatakan sebagai item.
TID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Data Graf
 Contoh: graf umum dan link HTML
<a href="papers/papers.html#bbbb">
Data Mining </a>
<li>
2 <a href="papers/papers.html#aaaa">
Graph Partitioning </a>
<li>
5 1 <a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a>
<li>
2 <a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers
5
Data Kimia
 Molekul Benzene: C6H6
Ordered Data (Data yang terurut)
 Urutan transaksi
Items/Events

An element of
the sequence
Ordered Data
 Urutan data genome (gen)

GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered Data
 Spatio-Temporal Data

Rata-rata bulanan
temperatur suhu di
darat dan di laut
Kualitas Data
 Apa sajakah permasalahan yang berkaitan dengan
kualitas data?
 Bagaimanakah cara kita mengetahui adanya masalah
pada data yang dimiliki?
 Apakah yang dapat kita lakukan terkait dengan masalah
ini?
 Contoh masalah-masalah terkait dengan kualitas data:
◦ Noise dan outliers
◦ Missing values
◦ Duplicate data
Noise
 Noise mengacu pada adanya modifikasi pada nilai data
asli.
◦ Contoh: distorsi/gangguan pada suara seseorang ketika sedang
berbicara menggunakan telpon berkualitas jelek, ataupun adanya
“snow” pada layar televisi.

Two Sine Waves Two Sine Waves + Noise


Outliers
 Outliers merupakan objek data dengan
karakteristik yang dianggap sangat berbeda
dengan objek data lainnya dalam suatu data set.
Missing Values
 Alasan terjadinya missing values:
◦ Informasi tidak dikumpulkan
(contoh: ada responden yang menolak untuk memberi tahu usia
dan berat badan mereka)
◦ Atribut tidak dapat diterapkan (not applicable) untuk semua kasus
(contoh: pendapatan per tahun tidak dapat diterapkan untuk
anak-anak)
 Mengatasi missing values:
◦ Meng-eliminasi objek data
◦ Meng-estimasi missing values
◦ Mengabaikan missing values saat dilakukan data analisis
◦ Mengisi missing values tersebut dengan data yang
mungkin/relevan (didasarkan pada nilai probabilitasnya)
Data Duplicate
 Suatu data set sangat mungkin memiliki data
yang sama persis (terduplikasi seutuhnya) atau
hanya terduplikasi sebagian (sebagian atribut
memiliki nilai yang sama).
 Hal ini dapat terjadi jika beberapa sumber data
yang heterogen digabung.
 Contoh: seseorang dapat memiliki beberapa
alamat email.
 Untuk itu diperlukan proses data cleaning yang
berhubungan dengan pembersihan data yang
terduplikasi tersebut.
Data Preprocessing
 Untuk mengatasi masalah-masalah tersebut di
atas dapat dilakukan beberapa teknik data
preprocessing, seperti:
◦ Aggregation
◦ Sampling
◦ Dimensionality Reduction
◦ Feature subset selection
◦ Feature creation
◦ Discretization and Binarization
◦ Attribute Transformation
Aggregation
 Menggabungkan dua atau lebih atribut sebagai
sebuah atribut.
 Tujuannya:

◦ Data reduction
 mengurangi jumlah atribut.
◦ Mengubah skala
 kota dapat di-agregasi sebagai kabupaten, propinsi, negara, ...
◦ Untuk mendapatkan data yang lebih “stabil”
 data yang di-agregasi cenderung untuk memiliki tingkat
variabilitas yang tidak terlalu tinggi.
Aggregation (2)
 Variasi curah hujan di Australia

Standard Deviation of Average Standard Deviation of Average


Monthly Precipitation Yearly Precipitation
Sampling
 Sampling merupakan teknik utama yang digunakan
untuk memilih data (data selection).
◦ Seringkali teknik ini digunakan baik untuk investigasi awal data
maupun analisis data akhir.
 Para ahli statistik cenderung memilih menggunakan
teknik statistik dikarenakan untuk memperoleh seluruh
data set of interest biasanya membutuhkan biaya yang
besar dan memakan waktu.
 Teknik sampling juga sering digunakan dalam data
mining karena untuk memproses seluruh data of interest
akan memakan waktu dan biaya yang besar.
Sampling (2)
 Prinsip utama dalam menjalankan teknik
sampling yang efektif adalah:
◦ Gunakan sample data yang bekerja sama baiknya
seperti menggunakan seluruh data set, untuk itu
dibutuhkan sample yang representatif.
◦ Sample dinyatakan representatif jika memiliki seluruh
properti/atribut seperti data set yang asli.
Jenis Sampling
 Simple Random Sampling
◦ Terdapat probabilitas yang sama untuk item-item apapun yang
terpilih.
 Sampling with replacement
◦ Setiap item yang terpilih akan disisihkan dari populasinya untuk
dianalisis.
 Sampling without replacement
◦ Item-item yang terpilih tidak akan dipisahkan dari populasinya,
meskipun mereka dianggap sebagai sample namun dalam
perhitungan tetap akan melibatkan populasi.
◦ Dalam teknik sampling seperti ini, item/objek yang sama dapat
dipilih lebih dari satu kali.
 Stratified sampling
◦ Memisahkan data dalam sejumlah partisi, kemudian mengambil
data secara random dari setiap partisi tersebut.
Ukuran Sample

8000 points 2000 Points 500 Points


Deskripsi Dasar dan Eksplorasi
Data
 Tujuan : untuk mendapatkan pemahaman yang
lebih baik tentang pusat data (central tendency),
variasi, dan penyebaran (spread) data.
 Karakteristik
Distribusi Data : median, max, min,
quantiles, outliers, variance, ...
Ukuran Pemusatan Data
(Central Tendency)
 Mean : nilai rata-rata, biasanya mengacu pada mean
aritmetika. 1 n
◦ Mean suatu sampel : x  n  xi
i 1
◦ Mean suatu populasi :

x
N
 Median : nilai tengah / posisi tengah dari nilai data
terjajar (data array).
 Modus : nilai/data yang paling sering muncul atau
data yang memiliki frekuensi terbesar.
Symmetric vs Skewed Data
 Mean, median, dan modus symmetric
dari :
◦ Data yang simetris
◦ Data yang condong/miring
(skewed)

positively skewed negatively skewed


Mengukur Penyebaran Data
(Dispersion)
 Ukuran penyebaran (dispersion) menunjukkan
seberapa jauh data menyebar dari nilai rata-
ratanya (variabialitas data).
 Terdapat 2 alasan penting mengukur dispersion
dari suatu data set :
◦ Untuk membuat suatu penilaian mengenai seberapa
baik suatu nilai rata-rata (ukuran pemusatan)
menggambarkan data.
◦ Untuk mengetahui seberapa jauh penyebaran
(scattering) data, sehingga variasi data dapat
dikendalikan.
Mengukur Dispersion (2)
 Beberapa jenis dispersion :
◦ Range/jangkauan : perbedaan nilai terbesar dan
terkecil dari data set.
◦ Simpangan rata-rata (Mean Deviation) : jumlah nilai
mutlak dari selisih semua nilai dengan nilai rata-rata
dibagi banyaknya data.
◦ Variansi (Variance) : kuadrat simpangan dari semua
nilai data terhadap rata-rata hitung.
1 n 1 n 2 1 n 1 n
1 n
s 
2

n  1 i 1
( xi  x ) 
2
[ xi  ( xi ) 2 ]
n  1 i 1 n i 1
 
2

N

i 1
( xi  
2
) 
N
x
i 1
i
2
 2

◦ Standar Deviasi : akar pangkat dua dari variansi (s2


atau σ2)
Mengukur Dispersion (3)
 Kuantil : nilai-nilai yang membagi suatu data set
menjadi bagian yang sama.
◦ Kuantil untuk 2 bagian : median
◦ Kuantil untuk 4 bagian : kuartil (Q1, Q2, Q3)
 Simpangan Kuartil (Inter Quartile Range) : IQR
= Q3 – Q1
 Five Number Summary : min, Q , M, Q , max
1 3
 Outlier : biasanya berupa nilai yang lebih

besar/kecil dari 1.5 IQR.


Visualisasi Data Statistik
 Boxplot : grafik yang menggambarkan five-number
summary.
 Histogram : x-axis menyatakan nilai data, y-axis
menyatakan frekuensi data.
 Quantile plot : untuk mengetahui banyaknya data yang
bernilai kurang/lebih dari suatu nilai tertentu
dibandingkan dengan nilai yang berada dalam suatu
interval.
 Scatter plot : setiap data merupakan sepasang koordinat
yang digambarkan sebagai titik pada bidang gambar.
 Kurva Loess (local regression) : menambakan kurva
yang halus pada scatter plot sehingga pola
keterhubungan data dapat dibaca/di-persepsi lebih baik
lagi.
Boxplot Analysis
 Distribusi Five-number summary:
◦ Menggunakan: Minimum, Q1, M, Q3, Maximum
 Boxplot
◦ Data direpresentasikan sebagai sebuah kotak.
◦ Bagian tepi kotak bawah adalah Q1, bagian tepi Q3,
sehingga tinggi kotak merupakan IQR.
◦ Nilai median dinyatakan sebagai garis yang terdapat
di tengah kotak.
◦ Whiskers: adalah dua garis yang terletak di luar kotak
yang menyatakan nilai Minimum dan Maximum
Histogram Analysis
 Berupa graf yang menunjukkan deskripsi kelas statistik
dasar.
 Biasanya berupa frequency histograms:
 Metode grafik yang univariate
 Terdiri atas sejumlah batang yang menggambarkan jumlah atau
frekuensi kelas terhadap data yang digunakan.
Histograms vs Boxplots
 Kedua histogram
disamping memiliki
representasi boxplot
yang sama.
◦ Nilai yang sama untuk:
min, Q1, median, Q3,
max
 Namun, jika
diperhatikan mereka
ternyata memiliki
distribusi data yang
berbeda.
Scatter plot
 Memberikan informasi awal bivariate data, yaitu ada tidaknya
cluster points, outliers, ...
 Setiap pasangan nilai dinyatakan sebagai sepasang koordinat.
Loess Curve
 Penambahan garis penghubung yang halus di scatter plot untuk
memberikan persepsi yang lebih baik tentang adanya pattern of
dependence
 Loess curve didasarkan atas dua parameter: a smoothing parameter
(parameter penghubung), dan degree of the polynomials (tingkat
polinomial) yang disesuaikan dengan persamaan regresi.
Positively and Negatively Correlated Data

 The left half fragment is positively


correlated
 The right half is negative correlated
Not Correlated Data

You might also like