P. 1
DM-02-Preprocessing_2

DM-02-Preprocessing_2

|Views: 144|Likes:
Published by Galuh Iswari

More info:

Published by: Galuh Iswari on Mar 08, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PPT, PDF, TXT or read online from Scribd
See more
See less

08/28/2014

pdf

text

original

lizda@fti.uii.ac.id
Februari 2011

Data Preprocessing

Materi Kuliah – [2]:
Data Mining

Materi

Definisi data beserta atributnya
Kualitas data
Deskripsi dasar dan eksplorasi data

Apakah yang disebut
Data?

Kumpulan sejumlah objek
data beserta dengan
atributnya.
Atribut adalah properti atau
karakteristik dari sebuah
objek.

◦ Contoh : warna mata dari objek
seorang manusia, merk mobil dari
objek sebuah mobil, ...
◦ Atribut juga dikenal dengan istilah
: variabel, field, karakteristik, atau
fitur/feature.

Kumpulan sejumlah atribut
digunakan untuk
mendefinisikan suatu objek.

Tid Refund Marital

Status Taxable

Income Cheat

1 Yes

Single

125K

No

2 No

Married 100K

No

3 No

Single

70K

No

4 Yes

Married 120K

No

5 No

Divorced 95K

Yes

6 No

Married 60K

No

7 Yes

Divorced 220K

No

8 No

Single

85K

Yes

9 No

Married 75K

No

10 No

Single

90K

Yes

10

Attributes

Objects

Nilai Atribut

Nilai atribut dapat berupa angka (numbers)
atau simbol.
Perbedaan antara atribut dan nilai atribut
adalah:

◦ Atribut yang sama dapat ditentukan untuk nilai
yang berbeda..

Contoh : tinggi seseorang dapat diukur dalam meter atau

feet.

◦ Atribut yang berbeda dapat diberi dengan
sejumlah nilai yang sama.

Contoh : Nilai atribut untuk ID dan Usia berupa interger.
Namun, properti dari nilai atribut dapat ditentukan secara
berbeda.

Nilai ID tidak memiliki batas (limit), sedangkan usia memiliki
nilai batas maksimum dan minimum.

Jenis Atribut

Terdapat berbagai jenis atribut:

◦ Nominal

Contoh: Nomor ID, warna mata, kode pos

◦ Ordinal

Data yang dapat dirangking (Contoh: rasa keripik
kentang dalam skala 1-10, peringkat di kelas, tinggi
badan dalam {tinggi, sedang, rendah})

◦ Interval

Contoh: tanggal di kalender, temperatur suhu badan

◦ Ratio

Contoh: temperatur dalam Celcius, panjang suatu
benda, hasil perhitungan

Properti Nilai Atribut

Jenis atribut sangat dipengaruhi oleh properti apa
yang dimiliki atribut tersebut.
Properti nilai atribut terbagi atas 4 kelompok:

◦ Distinctness: = ≠
◦ Order: < >
◦ Addition:

+ -

◦ Multiplication: * /

Untuk ke-4 jenis atribut dapat ditentukan propertinya

sbb:

◦ Nominal attribute: distinctness
◦ Ordinal attribute: distinctness & order
◦ Interval attribute: distinctness, order & addition
◦ Ratio attribute: semua (ke-4) jenis properti di atas

Tipe
Atribut

Deskripsi

Contoh

Operasi

Nominal Nilai atribut nominal berupa
nama/nilai yang dapat dibedakan,
sehingga nilai antar objek harus
berbeda. Penggunaan operator (=,
≠ )

Kode pos, nomor
ID pegawai, jenis
mobil

mode, entropy,
contingency
correlation, χ 2
test

Ordinal Nilai atribut ordinal berupa nilai
yang dapat diurutkan.
Penggunaan operator (<, >)

Kekuatan bahan
mineral dalam
{good, better, best},

rangking di kelas,
nomor rumah

median,
percentiles, rank
correlation, run
tests, sign tests

Interval Nilai atribut interval berlaku jika
perbedaan nilai antar atribut
memiliki makna yang signifikan,
adanya unit pengukuran.
Penggunaan operator (+, - )

Tanggal kalender,
temperatur dalam
Celsius atau
Fahrenheit

mean, standard
deviation,
Pearson's
correlation, t and
F tests

Ratio Untuk atribut ratio, perbedaan
nilai ataupun ratio nilai
memiliki makna yang
signifikan. Penggunaan
operator (*, /)

Usia, panjang benda
, hasil perhitungan geometric mean,
harmonic mean,
percent variation

Atribut Kontinu vs Diskret

Atribut Diskret

◦ Berupa nilai yang finite/terbatas.
◦ Contoh : kode pos, sejumlah kata dalam suatu dokumen.
◦ Biasanya dinyatakan sebagai data bertipe integer.
◦ Atribut bertipe biner merupakan kasus khusus yang
termasuk sebagai atribut diskret.

Atribut Kontinu

◦ Berupa real numbers.
◦ Contoh : temperature, tinggi badan, atau berat barang.
◦ Biasanya dinyatakan sebagai variabel bertipe floating-

point.

Tipe Data Set

Record

◦ Relational records
◦ Data matriks: numerical matrix
◦ Data dokumen : text documents
◦ Data transaksi

Graf

◦ World Wide Web
◦ Social or information networks
◦ Struktur Molekul

Ordered

◦ Spatial data: maps
◦ Temporal data: time-series
◦ Sequential Data: transaction sequences
◦ Genetic sequence data

Relational Record

Data yang terdiri atas
sejumlah record
dengan tiap record
terbentuk dari
sejumlah atribut yang
tetap.

Tid Refund Marital

Status Taxable

Income Cheat

1 Yes

Single

125K

No

2 No

Married 100K

No

3 No

Single

70K

No

4 Yes

Married 120K

No

5 No

Divorced 95K

Yes

6 No

Married 60K

No

7 Yes

Divorced 220K

No

8 No

Single

85K

Yes

9 No

Married 75K

No

10 No

Single

90K

Yes

10

Data Matrik

Jika objek data memiliki jumlah atribut numerik
yang sama, maka objek tersebut dapat dianggap
sebagai point dalam ruang representasi data
yang multidimensi, dimana setiap dimensi akan
merepresentasikan atribut yang berbeda.
Objek data seperti di atas dapat
direpresentasikan sebagai matriks (m x n),
dimana m bertindak sebagai baris dan n
bertindak sebagai kolom untuk tiap atribut.

1.1

2.2

16.22

6.25

12.65

1.2

2.7

15.22

5.27

10.23

Thickness

Load

Distance

Projection
of y load

Projection
of x Load

1.1

2.2

16.22

6.25

12.65

1.2

2.7

15.22

5.27

10.23

Thickness

Load

Distance

Projection
of y load

Projection
of x Load

Data Dokumen

Setiap dokumen merupakan ‘term' suatu vector,
dalam artian:

◦ Setiap ‘term’ menjadi komponen (atribut) dari suatu

vektor

◦ Nilai setiap komponen merupakan jumlah kejadian suatu
term yang terjadi pada tiap dokumen.

Document 1

s
e
a
s
o
n

tim
e
o
u
t

lo
s
t

w
in

g
a
m
e

s
c
o
re

b
a
ll

p
la
y

c
o
a
c
h

te
a
m

Document 2

Document 3

3 0 5 0 2 6 0 2 0 2

0

0

7 0 2 1 0 0 3 0 0

1 0 0 1 2 2 0 3 0

Data Transaksi

Bentuk khusus suatu data record, dimana:

◦ Setiap record (transaksi) melibatkan sejumlah item.
◦ Contoh: pada suatu supermarket, barang-barang
yang dibeli customer dalam sekali belanja
merupakan suatu transaksi, sedangkan tiap jenis
barang yang dibeli dinyatakan sebagai item.

TID

Items

1

Bread, Coke, Milk

2

Beer, Bread

3

Beer, Coke, Diaper, Milk

4

Beer, Bread, Diaper, Milk

5

Coke, Diaper, Milk

Data Graf

Contoh: graf umum dan link HTML

5 2

1

2

5


Data Mining



  • Graph Partitioning



  • Parallel Solution of Sparse Linear System of Equations



  • N-Body Computation and Dense Linear System Solvers

    Data Kimia

    Molekul Benzene:
    C6H6

    An element of
    the sequence

    Items/Events

    Ordered Data (Data yang
    terurut)

    Urutan transaksi

    Ordered Data

    Urutan data genome (gen)

    GGTTCCGCCTTCAGCCCCGCGCC
    CGCAGGGCCCGCCCCGCGCCGTC
    GAGAAGGGCCCGCCTGGCGGGCG
    GGGGGAGGCGGGGCCGCCCGAGC
    CCAACCGAGTCCGACCAGGTGCC
    CCCTCTGCTCGGCCTAGACCTGA
    GCTCATTAGGCGGCAGCGGACAG
    GCCAAGTAGAACACGCGAAGCGC
    TGGGCTGCCTGCTGCGACCAGGG

    Ordered Data

    Spatio-Temporal Data

    Rata-rata bulanan
    temperatur suhu di
    darat dan di laut

    Kualitas Data

    Apa sajakah permasalahan yang berkaitan dengan
    kualitas data?
    Bagaimanakah cara kita mengetahui adanya masalah
    pada data yang dimiliki?
    Apakah yang dapat kita lakukan terkait dengan
    masalah ini?

    Contoh masalah-masalah terkait dengan kualitas

    data:

    ◦ Noise dan outliers
    ◦ Missing values
    ◦ Duplicate data

    Noise

    Noise mengacu pada adanya modifikasi pada
    nilai data asli.

    ◦ Contoh: distorsi/gangguan pada suara seseorang ketika
    sedang berbicara menggunakan telpon berkualitas jelek,
    ataupun adanya “snow” pada layar televisi.

    Two Sine Waves

    Two Sine Waves + Noise

    Outliers

    Outliers merupakan objek data dengan karakteristik
    yang dianggap sangat berbeda dengan objek data
    lainnya dalam suatu data set.

    Missing Values

    Alasan terjadinya missing values:

    ◦ Informasi tidak dikumpulkan
    (contoh: ada responden yang menolak untuk memberi tahu
    usia dan berat badan mereka)
    ◦ Atribut tidak dapat diterapkan (not applicable) untuk semua

    kasus
    (contoh: pendapatan per tahun tidak dapat diterapkan untuk
    anak-anak)

    Mengatasi missing values:

    ◦ Meng-eliminasi objek data
    ◦ Meng-estimasi missing values
    ◦ Mengabaikan missing values saat dilakukan data analisis
    ◦ Mengisi missing values tersebut dengan data yang
    mungkin/relevan (didasarkan pada nilai probabilitasnya)

    Data Duplicate

    Suatu data set sangat mungkin memiliki data
    yang sama persis (terduplikasi seutuhnya)
    atau hanya terduplikasi sebagian (sebagian
    atribut memiliki nilai yang sama).
    Hal ini dapat terjadi jika beberapa sumber
    data yang heterogen digabung.
    Contoh: seseorang dapat memiliki beberapa
    alamat email.
    Untuk itu diperlukan proses data cleaning
    yang berhubungan dengan pembersihan data
    yang terduplikasi tersebut.

    Data Preprocessing

    Untuk mengatasi masalah-masalah
    tersebut di atas dapat dilakukan beberapa
    teknik data preprocessing, seperti:

    ◦ Aggregation
    ◦ Sampling
    ◦ Dimensionality Reduction
    ◦ Feature subset selection
    ◦ Feature creation
    ◦ Discretization and Binarization
    ◦ Attribute Transformation

    Aggregation

    Menggabungkan dua atau lebih atribut
    sebagai sebuah atribut.
    Tujuannya:

    ◦ Data reduction

    mengurangi jumlah atribut.

    ◦ Mengubah skala

    kota dapat di-agregasi sebagai kabupaten, propinsi,
    negara, ...

    ◦ Untuk mendapatkan data yang lebih “stabil”

    data yang di-agregasi cenderung untuk memiliki
    tingkat variabilitas yang tidak terlalu tinggi.

    Aggregation (2)

    Variasi curah hujan di Australia

    Standard Deviation of Average
    Monthly Precipitation

    Standard Deviation of Average
    Yearly Precipitation

    Sampling

    Sampling merupakan teknik utama yang digunakan
    untuk memilih data (data selection).

    ◦ Seringkali teknik ini digunakan baik untuk investigasi awal data
    maupun analisis data akhir.

    Para ahli statistik cenderung memilih menggunakan
    teknik statistik dikarenakan untuk memperoleh seluruh
    data set of interest biasanya membutuhkan biaya yang
    besar dan memakan waktu.
    Teknik sampling juga sering digunakan dalam data
    mining karena untuk memproses seluruh data of interest
    akan memakan waktu dan biaya yang besar.

    Sampling (2)

    Prinsip utama dalam menjalankan teknik
    sampling yang efektif adalah:

    ◦ Gunakan sample data yang bekerja sama
    baiknya seperti menggunakan seluruh data set,
    untuk itu dibutuhkan sample yang representatif.
    ◦ Sample dinyatakan representatif jika memiliki
    seluruh properti/atribut seperti data set yang
    asli.

    Jenis Sampling

    Simple Random Sampling

    ◦ Terdapat probabilitas yang sama untuk item-item apapun
    yang terpilih.

    Sampling with replacement

    ◦ Setiap item yang terpilih akan disisihkan dari populasinya
    untuk dianalisis.

    Sampling without replacement

    ◦ Item-item yang terpilih tidak akan dipisahkan dari
    populasinya, meskipun mereka dianggap sebagai sample
    namun dalam perhitungan tetap akan melibatkan populasi.
    ◦ Dalam teknik sampling seperti ini, item/objek yang sama
    dapat dipilih lebih dari satu kali.

    Stratified sampling

    ◦ Memisahkan data dalam sejumlah partisi, kemudian
    mengambil data secara random dari setiap partisi tersebut.

    Ukuran Sample

    8000 points

    2000 Points

    500 Points

    Deskripsi Dasar dan
    Eksplorasi Data

    Tujuan : untuk mendapatkan pemahaman
    yang lebih baik tentang pusat data
    (central tendency), variasi, dan
    penyebaran (spread) data.
    Karakteristik Distribusi Data : median,
    max, min, quantiles, outliers, variance, ...

    Ukuran Pemusatan Data
    (Central Tendency)

    Mean : nilai rata-rata, biasanya mengacu pada
    mean aritmetika.

    ◦ Mean suatu sampel :
    ◦ Mean suatu populasi :

    Median : nilai tengah / posisi tengah dari nilai
    data terjajar (data array).
    Modus : nilai/data yang paling sering muncul
    atau data yang memiliki frekuensi terbesar.

    =

    =

    n

    i i

    x

    n

    x

    1

    1

    Nx

    =

    µ

    Symmetric vs Skewed Data

    Mean, median, dan
    modus dari :

    ◦ Data yang simetris
    ◦ Data yang condong/miring
    (skewed)

    symmetric

    positively skewed

    negatively skewed

    Mengukur Penyebaran Data
    (Dispersion)

    Ukuran penyebaran (dispersion)
    menunjukkan seberapa jauh data
    menyebar dari nilai rata-ratanya
    (variabialitas data).
    Terdapat 2 alasan penting mengukur
    dispersion dari suatu data set :

    ◦ Untuk membuat suatu penilaian mengenai
    seberapa baik suatu nilai rata-rata (ukuran
    pemusatan) menggambarkan data.
    ◦ Untuk mengetahui seberapa jauh penyebaran
    (scattering) data, sehingga variasi data dapat
    dikendalikan.

  • You're Reading a Free Preview

    Download
    scribd
    /*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->