You are on page 1of 8

Data ware house Pangkalan data adalah sekumpulan data mengenai sesuatu topic atau tujuan tertentu yang

yang memeyai hubungan logical diantara satu sama lain. Ia disimpan sebagai satu system simpanan data yang tersusun dalam bentuk elektronik bai memudahkan proses capaian oleh satu atau lebih cara penggunaan Contoh : system record pelajar menyimpan sekumpulan data pribadi seterti nama, id, dll. Data warehouse merupakan summaray tapi ada juga yangmenginginkan DWH sebagai backup data organisasi

Sistem berasaskan file tradisional (SFT) Merupakan distem yang dilaksanakan secara manual atau tradisi. Data dan maklumat disimpan di dalam dile-file kertas yang kemudian disimpan dalam cabinet-kabinet File yang disimpan adalah mengikuti urutan abjad dan nomor rujukan supaya pencarian file dapat diklakukan dengan sempurna Kaedah penyimpanan dinana data disimpan dalam file yang disimpan dalam disket dan segala aplikasi perlu ditulis. Pengelompokan data dapat dikelola secara elektronik, namun belum bias diakses oleh banyak user (tidak relational

Kelemahan SFT Data tidak bersifat relational Format file yang berbeda-beda tidak boleh digabung atau dibandingkan dengan mudah. Contoh : file word dan excel Data duplikat file yang mempunyai data yang sama disimpan diperbagai tempat menyebabkan kesukaran mencari dan penggunaan storan yang banyak. Contoh : data di prodi tidak langsung bias diupdate ke pusat.

Kelebihan pangkalan data Mengurangi berulangnya data yang tersimpan di tuang setoran, tenaga dan cost serta mengurangi data yang sama Relasi data membenarkan berbagai pengguna mencapai kumpulan data yang dikehendaki dalam satu waktu yang sama. Mengamankan penggunaan pangkalan data kepada pengguna yang hanya diberikan otoritas (membatasi user tidak serta merta setiap pengguna dapat hak akses yang sama) Sistem pengisian yang memperbolehkan pengguna mencari, menyaring, mengelola, mencipta dan menyelenggara pangkalan data.

SPPD turut mengamankan pengambilan terhadap data dalam pangkalan data ada previllege.

Aplikasi Pangkalan data Satu program yang berinteraksi dengan pangkalan data pada waktu eksekusi.

Kelebihan menggunakan DBMS Kumpulan data yang dikehendaki boleh dicapai dengan lebih pantas dan tepat Meminimumkan lempahan data, meningkatkan konsistensi data, pengintegrasian dan pengkongsian dan mengurangkan penyelenggaraan program

Keburukan menggunakan DBMS 1. Semakin kompleks proses pembangunan akan member kesan kepada prestasi system 2. Ukuran DBMS sangat besar dan memerlukan storan (media penyimpan) yang besar 3. Biaya peralahan dan operasional sama ada dari system manual atau system file biasa kepada system pangkalan data agak tinggi. Langkah-langkat dalam merancang pangkalan data 1. 2. 3. 4. 5. 6. 7. 8. Pengumpulan dan analisis keperluan data dalam rangka Reka bentuk pangkalan data Pemilihan system pengurusan pangkalan data Reka bentuk aplikasi Implementasi Penukaran dan pemuatan data/ konversi data Pengujian Pengelolaan

Data Warehouse Adalah relasional database yang didesain utnuk proses query dan analisa Meliputi : Extraction, transportation, transformation, loading solution, online analytical processing (OLAP), client analysis tools (bagaimana client menggunakan perangkat analisis utnuk data yang ada) dan aplikasi lain yang mengatur proses pegumpulan data dan mengirimkan ke business user. Didesain utnuk proses analisa data. Contoh :

Data warehouse vs OLTP (online transaction processing)

Item

Workload Data Modification Schema Design

OLTP Comples data strcture 3NF databases Hanya mendukung operasi tertentu User melakukan proses update secara rutin dan langsung Ternormalisasi penuh untuk meningkatkan proses udate/insert/delete dan meningkatkan konsistensi data

DWH Multidimensional data structure Didesain untuk menampung query dalam jumlah yang besar Diupdate secara reguler Ternormalisasi secara sebagian bahkan dalam keadaan tidak ternormalisasi Contoh : data disimpan dalam satu tabel yang flat terdiri dari banyak filed dari banyak departemen untuk mempermudah pembuatan laporan. Kalau innerjoin terlalu dalam bahkan sampai tiga tingkat atau lebih, akan menyebabkan proses query. Menjalankan query yang memproses banyak baris, (ratusah bahkan milyaran) cobtoh : total penjualan semua customer pada akhir bulan Menyimpan data sebagai history

Typical operation

Hanya mengakses record tertentu contoh: mencari data order utnuk customer tertentu Menyimpan data hanya beberapa minggu atau bulan

Historical data

Salah satu perbedaan utama adalah data warehouse tidak selalu dalam bentuk normal ketiga (3NF), sedangkan OLTP biasanya dalam bentuk normal ketiga (3NF).

Arsitektur data warehouse

Misal : pada suatu universitas terdapat aplikasi Human Resource Manageent Information System (HRMIS), aplikasi sistem akademik, aplikasi Asset Management, Aplikasi Research Management dan lainlain maka DWH akan menyinpan data-data transaksi yang dibutuhkan dari aplikasi-aplikasi tersebut biasanya ke dalam satu database. Pengelompokan data dari aplikasi-aplikasi tersebut dalam DWH disebut DATA MART Perhatikan lokasi backup data sehingga pada saat ada bencana data tetap aman Dipikirkan bentuk pencarian kembali

Pemanfaatan DWH
Pengolahan lebih lanjut DWH bisa untuk bussiness inteligence, mengontrol Quality Data atau mencari Suspect Data dari transaksi yang dicurigai. Contoh pada saat penerimaan mahasiswa, banyak cama yang berasal dari SMA yang tidak begitu bonafit, sehingga perlu dicurigai kebenaran data masuknya

Pengembangan DWH
ETL Tool merupakan sebuah tool yang umum digunakan dalam pembuatan DWH.

Extracting data
Proses ini membaca struktur data dan isinya dari sumber data, yang selanjutnya akan didefinisikan ke dalam sebuah skema ETL tool. Tugas : Mencari ETL Tool kemudian

Transform
Menyesuaikan apa-apa saja yang akan di-load ke dalam target. Pada proses transfirm bisa berupa simple copy, hanya migrasi data ke dalam target yang mempyenyai skema sama dengan sumber data, melakukan join dari sumber data lain, melakukan agregasi, sorting, filter dan lain.

Load
Merupakan proses terakhir yang melakukan penyimpanan data ke dalam target DWH. Pengembangan aplikasi DWh : PHP, Java, Dotnet, DLL.

Permasalahan yang ditemui


Sumber data yang akan diproses memiliki data ribuan bahkan jutaan record Smber data tidak hanya dari database, namun ada beberapa sumber data dari flat file seperti Excel, XML dan file delimiter Sumber data tidak hanya dari satu vendor database server, misalkan ada yang dari SQL server, Mysql, Postgresql, sybase, dll. data staging harus disesuaikan. Contoh : data yang ditentuka

sebagai integer, bisa saja di format data base lain sebagai byte. Sehingga keakuratannya berbeda. DWH berusaha menjembatani hal ini sehingga bisa mengambil data dari vendor database apapun. Proses integrasi data tidak hanya melakukan simple copy, tapi harus melaui agregasi, filter, sorting dan join. Target tidak hanya menyimpan ke dalam suatu data base, namun akan juga membuat file XML juga untuk backup.

Dukungan yang dimiliki oleh ETL Tools Mempunyai banyak dukungan terhadap sumber data, hampir semu ETL Tool mendukung vendor2 database pupuler. Selain database dapat juga mendukng pembacaan sumber data dari flat file seperti Excel, Namun ada kendala perbedaan standar antara linux dan microsoft sehingga pada saat extraksi terjadi kesalahan Dukungan GUI untuk membuat skema ETL Beberaoa ETL disertakan dengan JOB Scheduler untuk proses otomatis. Selama ini masih dilakukan oleh seseorang. Diharapkan bisa dilakukan secara otomatis. Mendukung pengolahan data seperti simple copy, agregasi, filterm sorter, join, bahkan Dukungan target penyimpanan hampir sama pada dukungan terhadap sumber data.

Aplikasi ETL
Clover ETL (http://www.cloveretl.com) Apatar www.apatar.com recommended by dosen Talend Open Studio for data Integration www.talend.com Pentahi data integration kettle.pentaho.com

Tugas :
Membangun data ware house min. 3 tabel dengan jumlah record minimial 500 record dari data base organisasi dan flat file (ct : excel) . semakin kompleks data akan semakin baik. Lakukan uji coba salah satu aplikasi ETL tool tersebut dan terapkan ke salah satu kasus tertentu yang saudara inginkan Data base bisa dicreate data fiktif (kita bisa buat sendiri). Minggu depan dipresentasikan. Untuk melihat kendala-kendala yang cukup bisa diperhatikan dalam mengelola data antar aplikasi Yang diperhatikanv : bagaimana proses ekstraksi dilakukan. Kita ingin tahu sejauh mana aplikasi dapat dimanfaatkan untuk proses ETL. Diinginkan sumber dan tujuan ada persis sama (kalau bisa) namun tentunya tidak semua bisa seperti yang diinginkan, jika ada data yang bermasalah akan diflag/ditandai dan akan dilakukan updating data. Kalau bisa mewakili aplikasi yang cukup real sehingga permasalahanpermasalahan yang ditimbulkan juga agak real.

Ciri-ciri DWH Sebuah gudang data adalah sebuah koleksi data yang berorientasi subjek, terintegrasi Sifat berorientasi subjek Diorganisir sesuai dengan permasalahan utama, seperti pelanggan, produk, penjualan Berfokus pada pemodelan dan analisis data untuk pembuat keputusan, bukan pada oerasional sehari-hari atau transaksi pemrosesan Menyediakan view sederhana dan ringkas dari permasalahan utama/tertentu dengan mengesualikan data yang tidak berguna dalam poses pendukung keputusan Bagaimana aplikasi menyajikan aplikasi cukup bermakna/bermanfaat. Di satu sisi mungkin ada beberapa hal yang tidak perlu diperhatikan atau dimunculkan. Jadi sangat tergantung pada orientasi pimpinan (subjek) atas kebutuhan data.

Teritegrasi / terpadu Dibangun dengan mengintegrasikan beberapa sumber data heterogen, relational databases, flat files, on-line transaction records Menerapkan pembersihan data dan teknik integrasi data Memastikan konsistensi dalam konvensi penamaan, penyandian struktur, ukuran atribut, dsb. Antara sember data yang berbeda. Contoh : hotel price, mata uang, pajak, sarapan tertutup, dll. Ketika data tersebut akan dipindahkan ke gudang, akan diubah. Karena yang diinginkan adalah keseragaman. Time Variant Seluruh data pada warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat keakuratan pada DWh, dapat digunakan beberapa cara yaitu : 1. Cara yng paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 s/d 10 tahun ke depan. 2. Cara kedua, dengan menggunakan variasi/ perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit. Secara explicit dengan unsur waktu dalam hari, minggu, bulan, dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau pertiga bulan. Unsur waktu akan tetap ada secara implisit di dalam data tersebut. 3. Cara ketiga, variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data terentu sesuai keinginan pemaai dari keseluruhan data yang ada bersifat read-only. Dengan perkembangan data yang terus menerus, suatu data bisa dikatakan tidak begitu stabil. Contoh di unud ada kasus bahwa ada dosen yang naik pangkat, namun tidak melaporkannnya sehingga tidak masuk ke sistem dan data statistik sistem juga tidak akan akurat.

NON Volatile Karakteristik ke-empat dari data warehouse adalah non-volatile, maksudnya data pada data warehouse tidak di-update secara real time tetapi di-refresh dari sistem operasional secara reguler. Data yang baru selalu ditambahkan sebagai suplemen dari data base itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya (akumulasi). Dia bisa berubah secara terus menerus. Jadi ada pervalue yang diubah.

ETL dalam data warehouse ETL (extraction, transformation, Loading) meupakan aplikasi yang terpisah dari data

Extraction Data mentah yang berasal dari sistem informasi operasional/sistem Sumber biasanya ditulis/di-copy langsung ke dalam media penyimpanan /staging area dengan restrukturisasi seminimal mungkin. Adakalanya sistem sumber yang berbasis struktur seperti pada mesin-mesin dbms ditulis dalam bentuk flat file atau dalam tabel relational pada staging area-nya Hal ini memungkinkan extraction mejadi sesederhana dan secepat mungkin utntuk diolah Disamping juga untuk flexibilitas yang bagus utnuk melakukan restart jika terjadi gangguan pada saat ekstraksi berlangsung. Di perbankan, hampir setiap transaksi itu dipantau. Begitu kita masukkan kartu ke atm dam memasukkan pin, semua ada log-nya. Atau ketika kita cek saldo, dan kita ambil data, tiba-tiba jaringan putus. Karena tidak ada balasan dari ATM bahwa uang sudah keluar, maka data bisa dikembalikan. Ada kalanya waktu setor tunai dan gagal, pihak bank sudah tahu bahwa ada kegagalan transaksi di titik n (ada layar pantaunya), sehingga sistemnya cukup stabil.

Transformation Perubahan sekecil apapun yang dilakukan pada data mentah hasil ekstraksi adalah transformasi. Misalnya melakukan proses seleksi dari data yang mengandung nilai null. Jika data ditemukan nilai null, maka data akan dihapus. Kemudian proses menterjemakan kode seperti pada data mentah ditulis jenis kelamin 1 akan diubah menjadi laki2 dan 2 diubah menjadi perempuan. Beberapa hal penting yang sering dilakukan dalam transformasi ini dan menjamin data yang akan dioleh sudah bersih dari data yang dianggap sampah atau tidak perlu adalah cleaning dan conforming. Kedua proses ini merupakan proses penting yang wajib dilakukan jika data dianggap belum bersih (Kimball, 2004)

Cleaning Dalam kebanyakan kasus, tingkat kualitas data pada sistem-sistem sumber berbeda-beda Kualitas data sistem sumber ini juga berbeda dengan kualitas data yang dibutuhkan pada dwh itu sendiri. Bertolaj dari hal tersebut maka pengolahan data dapat melibatkan banyak proses2 terpisah antara lain memeriksa nilai2 yang valid, memastikan konsistensi dari nilai2 tersebut, membuang duplikasi atau redundansi dari data. Contoh pada saat transaksi online pemesanan tiket pesawat, dan koneksi tiba-tiba putus, perusahaan tidak menganggap data itu adalah data penting, toh order belum tentu konfirm dan user akan mengulang order lagi. Order sebelumnya akan menjadi sampah. Contoh lg pada saat membeli sesuatu secara online, maka kita diminta untuk memasukkan data order ke keranjang belanja. Keranjang belanja merupakan tabel dummy yang dibuat yang hanya akan mengakses tabel master (besar) pada saat transaksi benar-benar berhasil dilakukan (sehingga tidak langsung mengakses tabel sismtem akan berrat diakses jutaan orang scr onlie) dan akan mempermudah proses cleaning)

Conforming Data yang telah bersih akan dicek lagi sebelum dilakukan proses berikutnya

Proses loading Dikenal juga sebagai proses dilivering dimana data asil transformasi siap utnuk dimasukkan ke dalam data warehouse itu sendiri. Pembentukan struktur tabel dari data yang akan di-loading merupakan tugas dari designer dari dwh itu sendiri. Loading merupakan langkah akhir dan penting dalam menjamin ketersediaan data dalam dwh Data hasil proses loading ini siap di-query. Diharapkan skema yang diunakan bisa secara signifikan mengurangi waktu query dan dapat menyederhanakan dalam pembangunan aplikasi.

You might also like