P. 1
Distribusi Dari Data

Distribusi Dari Data

|Views: 1,363|Likes:
Published by Ranu Stath
Cara menentukan distribusi berdasarkan karakteristik datanya...
Cara menentukan distribusi berdasarkan karakteristik datanya...

More info:

Categories:Types, School Work
Published by: Ranu Stath on Dec 29, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOCX, PDF, TXT or read online from Scribd
See more
See less

08/25/2014

pdf

text

original

Tugas II Riset Pemasaran dan Manajemen Resiko

BAB 7 MENDAPATKAN DISTRIBUSI DARI DATA

OLEH :

KELOMPOK V RISWANDI FADLI LANTERA HADIJAH SITI ZUHURIA KHALILAH NURFADILAH A. RANUWIRAWAN R. H12107001 H12107003 H12107005 H12107007 H12107014 H12107026

JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS HASANUDDIN MAKASSAR 2010

BAB 7 MENDAPATKAN DISTRIBUSI DARI DATA Bab ini dimulai dengan mendorong analis untuk meninjau data yang telah tersedia dan karakteristik dari variabel yang akan dimodelkan. Beberapa teknik tersebut kemudian dibahas yang memungkinkan analisis untuk menggunakan data yang tersedia untuk menentukan distribusi dipasang secara empiris. Kelebihan utama dari pendekatan intuitif ini adalah kesederhanaan penggunaan dan penghilangan distribusi teoritis yang tidak tepat atau membingungkan. Teknik ini kemudian dijelaskan untuk distribusi teoritis dipasang pada data yang diamati, termasuk penggunaan penduga maksimum likelihood, tingkat kebaikan statistika dan plot. Akhirnya, beberapa teknik yang dibahas untuk membantu model probabilitas.

7.1 Menganalisis Sifat Data Yang Diamati Sebelum mencoba untuk menyesuaikan distribusi probabilitas untuk satu set data yang diamati, ada baiknya pertama mempertimbangkan sifat dari variabel yang bersangkutan. Sifat-sifat distribusi atau distribusi yang dipilih untuk dipasang dengan data harus sesuai dengan variabel yang dimodelkan. Perangkat lunak seperti best fit telah membuat distribusi yang tepat untuk data yang sangat mudah dan dihapus perlu untuk setiap pengetahuan statistik yang mendalam. Produk-produk ini umumnya sangat berguna tetapi, melalui otomatisasi dan kemudahan penggunaan, sengaja mendorong pengguna untuk mencoba cocok untuk distribusi sepenuhnya tidak pantas. Sementara saya sangat mendukung penggunaan perangkat lunak pas distribusi tersebut, perlu mempertimbangkan hal-hal berikut sebelum mencoba cocok dengan: Sebuah variabel diskrit hanya dapat mengambil satu nilai yang spesifik, misalnya jumlah jembatan di sepanjang jalan raya, tapi pengukuran seperti volume aspal, misalnya, terus menerus. Sebuah variabel yang diskrit di alam biasanya, namun tidak selalu, paling sesuai untuk suatu distribusi diskrit. Sebuah pengecualian yang sangat umum adalah di mana selisih antara nilai-nilai yang diijinkan bersebelahan tidak signifikan dibandingkan dengan rentang bahwa variabel dapat berlangsung. Dalam keadaan tertentu, distribusi diskrit bisa sangat erat didekati dengan distribusi kontinu untuk nilai x yang besar.Jika sebuah variabel diskrit telah dimodelkan

dengan distribusi kontinu untuk kenyamanan, sifat diskrit dengan mudah bisa dimasukkan kembali ke dalam model analisis risiko. Distribusi harus dilengkapi, dalam alasan, mencakup rentang di mana variabel yang dimodelkan secara teoritis dapat diperpanjang. Jika distribusi dipasang mungkin melampaui jangkauan variabel, sebuah model analisis risiko akan menghasilkan skenario mustahil. Jika distribusi gagal untuk memperpanjang selama rentang mungkin seluruh variabel, analisa resiko tidak akan mencerminkan ketidakpastian yang benar dari masalah. Variabel mungkin berkorelasi dengan, atau fungsi, variabel lain dalam model dan juga mungkin terkait dengan variabel lain di luar model yang, pada gilirannya, mempengaruhi variabel ketiga dalam model analisis resiko. Gambar 7.1 mengilustrasikan beberapa contoh.

Gambar 7.1 Contoh dari keterikatan antara variabel-variabel model: a. Langsung b. Tidak langsung

Dalam contoh (a), sebuah bank, pendapatannya dimodelkan sebagai fungsi dari bunga dan nilai hipotek, antara lain. Tingkat KPR berkorelasi dengan tingkat bunga karena tingkat suku bunga sebagian besar mendefinisikan bagaimana suku bunga KPR seharusnya. Hubungan ini harus disertakan dalam model simulasi untuk memastikan bahwa hanya akan menghasilkan skenario yang berarti. Ada dua pendekatan untuk ini: 1. Tentukan distribusi untuk tingkat hipotek dan bunga berdasarkan data historis dan kemudian mengkorelasikan sampling dari distribusi selama simulasi. 2. Tentukan distribusi suku bunga dari data historis dan hubungan (stokastik) fungsional dengan tingkat hipotek.

Pada contoh (b) gambar 7.1, adalah menghitung harga tawaran untuk memasok tenaga kerja untuk pekerjaan atap. Pemilihan bahan atap belum diputuskan dan ketidakpastian ini memiliki implikasi untuk jam orang-yang akan dibutuhkan untuk membangun atap dan kayu untuk meletakkan atap. Ada karena itu merupakan hubungan tidak langsung antara kedua variabel yang dengan mudah bisa saja terlewatkan, dia tidak melihat di luar komponen langsung dari perhitungan biaya nya. Hilang korelasi ini akan menghasilkan meremehkan penyebaran biaya subkontraktor dan berpotensi menyebabkan dia untuk penawaran harga yang terkena dia untuk kerugian yang signifikan. Hal ini dapat dilihat bahwa korelasi merupakan bagian penting dari analisis risiko banyak. Bab 10 menjelaskan beberapa teknik untuk model korelasi antar variabel. Jika distribusi diketahui cocok dekat dengan jenis variabel yang dimodelkan, biasanya sebagai hasil karya akademis diterbitkan, semua yang tersisa adalah untuk menemukan parameter fitting terbaik, seperti yang dijelaskan dalam bagian 7.3.

7.2 PENERAPAN DISTRIBUSI EMPIRIS PADA DATA YANG DIAMATI 7.2.1 Pemodelan Variabel kontinu Jika data yang diamati kontinu dan cukup luas, biasanya cukup untuk menggunakan plot frekuensi kumulatif titik data untuk menentukan distribusi probabilitasnya

Gambar 7.2 Menyesuaikan distribusi empiris kontinu pada data menggunakan distribusi kumulatif Gambar 7.2 menggambarkan sebuah contoh dengan 18 titik data. diamati F(x) dari distribusi, yaitu 
y

dihitung sebagai nilai-nilai yang diharapkan F (x) yang akan sesuai dengan sampling acak 
 


dimana i adalah peringkat titik data yang teramati dan

adalah jumlah titik data. minimum dan maksimum untuk distribusi empiris subyektif ditentukan berdasarkan pengetahuan analis dari variabel. Untuk variabel kontinu, nilai-nilai ini umumnya di luar jangkauan dari data yang diamati. Nilai minimum dan maksimum yang dipilih adalah nol dan 45.
y y y

Data titik adalah peringkat dalam urutan antara nilai minimum dan maksimum. Probabilitas kumulatif Ini formula untuk untuk setiap nilai dihitung sebagai berikut: terhadap persentil

digunakan karena tempat semua

kumulatif diharapkan yang akan diamati jika titik data dipilih secara acak dari distribusi. Karena itu memaksimalkan kesempatan mereplikasi distribusi yang benar.
y 

Kedua array,

dan

, bersama dengan nilai minimum dan maksimum,

maka dapat digunakan sebagai masukan langsung ke dalam distribusi kumulatif. Jika ada jumlah data yang sangat besar, menjadi tidak praktis untuk menggunakan semua titik data untuk menentukan distribusi Kumulatif. Dalam kasus seperti itu, lebih mudah untuk mengkonversi data ke dalam distribusi Histogram pertama. Jumlah pita harus ditetapkan dengan maksimum praktis yang menyeimbangkan kehalusan detail (jumlah besar bar) dengan sering memiliki mendefinisikan besar array distribusi (angka yang lebih rendah dari bar). Gambar 7.3 menggambarkan sebuah contoh di mana 221 titik data diplot dalam bentuk histogram selama rentang dari data yang diamati. Analis menganggap bahwa variabel dibayangkan bisa berkisar dari nol sampai 300. Karena tidak ada data yang diamati dengan nilai di bawah 20 dan di atas 280, berkisar histogram bar perlu diubah untuk mengakomodasi minimal subjektif dan maksimal. Cara termudah untuk mencapai tujuan ini adalah untuk memperluas jangkauan dari bar pertama dan terakhir dengan non-probabilitas nol untuk mencakup rentang diperlukan, tetapi tanpa mengubah probabilitasnya. Dalam contoh ini, bar histogram dengan kisaran 20-40 diperluas ke berbagai 0-40 dan bar dengan kisaran 260-280 diperluas untuk kisaran 260-300. Kami mungkin akan memiliki sedikit membesar-besarkan

taiis distribusi. Namun, jika jumlah bar pada awalnya dipilih cukup besar, akan ada sedikit pengaruh yang nyata pada model. {40, 60, ..., 420260}, maka array input ke dalam distribusi Kumulatif kemudian array {0.018,0.131, ..., 0.986,0.995} dan minimum dan

maksimum, tentu saja 0 dan 300 masing-masing. Mengubah distribusi Histogram menjadi distribusi kumulatif mungkin tampak sedikit berguna ketika Histogram dapat digunakan dalam suatu model analisis risiko. Namun, teknik ini memungkinkan analisis untuk memilih berbagai lebar bar sesuai kebutuhannya, seperti dalam contoh di atas, dan oleh karena itu untuk memaksimalkan rincian dalam distribusi tempat yang membutuhkan. 7.2.2 Pemodelan Variabel Diskrit Data dari variabel diskrit dapat digunakan untuk menentukan distribusi empiris dalam dua cara:

Gambar 7.3 Menyesuaikan distribusi empirik dengan data histogram menggunakan distribusi kumulatif

Jika jumlah nilai x ini tidak berbeda besar, frekuensi data pada setiap nilai x dapat digunakan langsung untuk menentukan Disribution Diskrit. Jika jumlah nilai x yang sangat besar, biasanya lebih mudah untuk mengatur data ke dalam bentuk histogram dan kemudian menentukan distribusi kumulatif, seperti di atas. Sifat diskrit variabel dapat diperkenalkan kembali oleh embedding distribusi kumulatif di dalam fungsi (...) standar spreadsheet ROUND. Opsi yang diuraikan di atas memiliki keunggulan bahwa distribusi berasal dari data yang diamati akan sangat terpengaruh oleh subjektivitas apapun dan bahwa penggunaan maksimal data yang telah dibuat dalam mendefinisikan distribusi. Kerugian yang jelas adalah bahwa proses ini cukup sulit. Namun, data Distribusi fasilitas di Lotus 1-2-3, fasilitas Histogram di Excel dan laporan statistik BestFit semua bisa membuat menyortir data dan menghitung frekuensi kumulatif sangat mudah.

7.3 PEMASANGAN SEBUAH DISTRIBUSI TEORITIS ATAS DATA DITINJAU Bagian ini menjelaskan metode untuk menemukan distribusi teoritis yang paling sesuai dengan data yang diamati. Sebuah jenis distribusi teoritis dapat dipilih sebagai yang paling tepat agar sesuai dengan data untuk tiga alasan:
y

matematika Distribusi adalah sebuah model yang akurat ketidakpastian dalam variabel yang dipertimbangkan (lihat bagian 7.1)

y

Distribusi akan cocok dengan data apabila variabel dari type kecocokan ini diketahui dengan jelas. (lihat bagian 7.1 lagi)

y

Analisis sederhana harus menemukan teori distribusi dari kecocokan terbaik dari data, apapun yang mungkin. Parameter distribusi yang membuat jenis distribusi yang terbaik sesuai dengan data

yang tersedia dapat ditentukan dengan beberapa cara. Teknik yang paling umum adalah dengan menggunakan estimator maksimum likelihood (MLEs). Parameter (MLEs) dari distribusi ditemukan bahwa memaksimalkan kepadatan probabilitas gabungan untuk data yang diamati. MLEs sangat berguna karena, untuk distribusi banyak, mereka menyediakan cara cepat untuk parameter terbaik. Sebagai contoh, distribusi Normal didefinisikan oleh mean dan deviasi standar dan MLEs perusahaan mean dan deviasi standar dari data yang diamati.

7.3.1 Estimator Maksimum Likelihood(MLEs) Estimator maksimum likelihood dari suatu distribusi adalah nilai-nilai parameter yang menghasilkan kepadatan maksimum probabilitas gabungan untuk data yang diamati. Dalam kasus distribusi diskrit, MLEs memaksimalkan probabilitas aktual dari distribusi yang dapat menghasilkan data yang diamati. Pertimbangkan jenis distribusi probabilitas yang didefinisikan oleh sebuah parameter tunggal, . Fungsi likelihood L( ) adalah sebanding dengan probabilitas bahwa satu set poin n data ( ) dapat dihasilkan dari distribusi dengan kepadatan probabilitas f(x) atau, dalam kasus distribusi diskrit, massa probabilitas diberikan oleh L( ) = Selanjutnya mencari nilai ( , ) sehingga L( ) = f( ) * f( , )*«.*f( , )*f( , )

yang memaksimalkan L( ). Hal ini ditentukan dengan melakukan 
= 0

diferensial parsial L( ) terhadap dan menuju ke nol:

Untuk beberapa jenis distribusi, ini merupakan masalah aljabar relatif yang sederhana, untuk orang lain persamaan diferensial sangat rumit dan diselesaikan secara numerik sebagai gantinya. Software seperti BestFit telah membuat proses ini sangat mudah untuk melakukan secara otomatis, tetapi ada contoh sederhana secara rinci dalam Bagian 7.3.2 untuk tujuan ilustrasi. 7.3.2 Contoh Derivasi MLEs Contoh 7.1: Menentukan MLE untuk distribusi eksponensial Distribusi eksponensial memiliki satu parameter, diberikan oleh f(x) = exp( fungsi likelihoo L( ) adalah, L( ) = exp( )= exp( ) ) . Probabilitas fungsi kepadatan f(x)

Untuk mempermudah perhitungan, kita mendefinisikan I( ) = ln L( ):

I( ) = -n In ( )Nilai maksimum I( ), dan juga L( ), terjadi ketika derivatif parsial terhadap nol, yaitu = Diberikan = yaitu MLE dari distribusi eksponensial adalah mean dari data yang diamati. Contoh 7.2: Menentukan MLEs untuk distribusi Normal, distribusi Normal meiliki dua parameter, kepadatan f(x) diberikan oleh f(x) = Fungsi likelihood L( , ) = ( 


sama dengan

+

=0

mean dan deviasi standar . Probabilitas fungsi

exp(  

)exp (-

µ 

µ

)

)

Untuk mempermudah perhitungan, kita kembali definisikan I( ) = ln L( ): I(µ, ) = - ln( Nilai maksimum I( , sehubungan dengan ) ± n ln  

µ

), dan karena itu L( , 

), terjadi derivatif parsial ketika engkau
š + 2 µn = 0

dan sama dengan nol, yaitu
µ µ

= -2

Diberikan µ= Dimana
µ 

š=

adalah mean dari data, dan + 


=

µ

=0

Diberikan 


=

µ

=s dan MLEs dari distribusi normal adalah mean

Dimana s standar deviasi dari data yaitu dan deviasi standar dari data yang diamati.

7.3.3 Menemukan Parameter Fitting terbaik menggunakan pemecahan Linear

Gambar 7.4 mengilustrasikan spreadsheet Microsoft Excel dibentuk untuk menemukan parameter dari suatu distribusi Rayleigh terbaik yang akan cocok dengan 18 poin data yang diamati.

Fungsi distribusi kumulatif untuk distribusi Rayleigh F(x) adalah F(x) = 1- exp(/2 )

Dimana b adalah parameter distribusi itu. Microsoft Solver di Excel diatur untuk menemukan nilai minimum untuk sel F21 (jumlah perbedaan absolut antara di F diamati dan Rayleigh (x) s) dengan mengubah nilai b di sel C23. Solusi solver untuk b adalah 4.51195, sesuai dengan cocok ditampilkan dalam bagan Gambar 7.4.

7.3.4 Formalisme Entropi Maksimum Formalisme entropi maksimum adalah teknik untuk menentukan distribusi dari variabel yang mewakili ketidakpastian maksimum data yang diamati untuk variabel yang mungkin. Untuk distribusi kontinu, H(x) ditulis sebagai: H(x) =
’ ’

Ž‘‰

Dimana f(x) adalah probabilitas dari distribusi.Teknik ini dapat diterapkan di mana kita hanya memiliki pengetahuan yang sangat terbatas dari variabel.

7.4 STATISTIK GOODNESS-OF-FIT Goodness-of-fit statistic telah banyak dikembangkan tapi hanya 2 yang biasa digunakan. Yang paling umum adalah chi kuadra ( umumnya digunakan untuk diskrit dan kontinu. 
dan statistik kolmogorov-Smirnoff (K-S)

Data yang akan dianalisis bisa masuk dalam salah satu bentuk goodness-of-fit statistic. Goodness-of-fit statistic tidak mudah untuk dipahami atau ditafsirkan.Tidak memberikan ukuran propability untuk data sebenarnya berasal dari distribution. Malah, statistik goodnessof-fit memberikan peluang bahwa data acak yang dihasilkan dari distribusi akan menghasilkan nilai goodness-of-fit statistic serendah yang dihitung untuk data yang diamati. Setara dengan probabilitas bahwa data itu, pada kenyataannya, berasal dari pasangan distribusi, karena mungkin ada distribusi yang memiliki bentuk yang sama dan lebih baik menghasilkan data ini dan diamati sangat teliti untuk data distribusi normal, karena banyak distribusi cenderung ke bentuk normal dalam kondisi tertentu. Nilai-nilai kritis ditentukan oleh tingkat kepercayaan yang diperlukan yang merupakan nilai-nilai dari goodness-of-fit statistic dengan keyakinan tertentu nilai-nilai level kritis untuk dari tes ditemukan langsung

yang memiliki probabilitas melebihi yang sama

distribusi, bentuk dan berbagai distribusi didefinisikan oleh derajat fredom

Dimana N = jumlah atau kelas histogram batang = sejumlah parameter yang diestimasi untuk menentukan distribusi yang paling sesuai

7.4.1 Nilai Kritis dan Interval Keyakinan untuk Statistika Goodnesss-of-fit Bentuk dan jangkauan distribusi didefinisikan oleh derajat kebebasan v: v =N-a -1. Dimana jumlah N= Jumlah bar histogram atau kelas a = parameter yang diperkirakan untuk menentukan distribusi yang paling pas Gambar 7.5 menunjukkan plot kumulatif turun untuk 11 derajat kebebasan. Ini plot sebuah kesempatan (11), yakni para distribusi dengan

80% (= interval keyakinan) bahwa nilai

akan terjadi yang lebih tinggi dari 6,988 (nilai kritis pada tingkat kepercayaan 80%) untuk data yang sebenarnya diambil dari distribusi dipasang, yaitu hanya ada 20% kemungkinan bahwa nilai bisa jadi ini kecil. Jika analis konservatif dan menerima kesempatan ini 80% keyakinannya interval = 80% dan nilai kritis yang terkait

dari palsu menolak sesuai dengan, 6,988.

Nilai-nilai kritis untuk statistik KS dan AD telah ditemukan oleh simulasi Monte Carlo (Stephens. 1974, 1977; Chandra et al, 1981). Tabel nilai kritis untuk statistik KS juga sangat sering ditemukan dalam buku- buku teks statistik. Sayangnya, KS standar dan nilai-nilai AD penggunaan terbatas untuk membandingkan nilai kritis jika lebih sedikit dari sekitar 30 titik data. Masalah muncul karena statistik ini dirancang untuk menguji cuaca distribusi dengan parameter yang dikenal bisa menghasilkan data yang diamati. Jika parameter dari distribusi dipasang telah diperkirakan dari data tersebut, KS dan statistik AD akan menghasilkan hasil tes konservatif, yaitu ada kemungkinan lebih kecil dari suatu distribusi baik pas diterima. Ukuran efek ini bervariasi antara jenis distribusi yang dipasang. Modifikasi statistik KS dan AD telah ditentukan untuk mengoreksi masalah ini sebagai berikut (lihat manual BestFit diterbitkan pada tahun 1993) di mana n adalah jumlah titik data dan dan statistik AD masing-masing: 
 dimodifikasi KS

Kolmogorov-Smirnoff Statistics

Distribution Normal Esponential Weibull and extreme Value Lainnya

Modified test statistic ). + 0.26 + )

( (

- 0.01 + ± )(

+0.12+ Anderson-Darling Statistics

).

Distribution Normal Esponential Weibull and extreme Value Lainnya 7.4.2 Statistik Goodness of fit Chi Square

Modified test statistic 

(1 + ( + 

).

).

)

Statistik Chi Square ( ) mengukur sebaik mana memperkirakan frekuensi distribusi yang sesuai dibandingkan dengan frekuensi dari histogram data yang diamati. Tes Chi Square membuat asumsi berikut : 1. Data yang diamati berisi sampel acak dari n titik data independent. 2. Ukuran skala bias nominal (yakni numeric) atau menurut angka (numerical) 3. n titik data dapat diurut ke dalam bentuk histogram dengan N kelas non-overlapping atau bar yang menutup keseluruhan range yang mungkin dari variabel. Statistik Chi square dihitung sebagai berikut :

dimana O(i) adalah frekuensi yang diamati pada histogram kelas ke-i atau bar dan E(i) adalah frekuensi yang diharapkan dari distribusi yang sesuai pada nilai x yang jatuh dengan range-x pada bar histogram ke-i. E(i) dihitung dengan :

Dimana

= Fungsi distribusi dari fitted distribution = nilai x batas atas pada histogram bar ke-i = nilai x batas bawah pada histogram bar ke-i

Karena statistic menjumlahkan kuadrat dari semua error , maka statistic dapat secara tidak sebanding, sensitive ke nilai error apapun yang besar misalnya, jika error dari 1 bar adalah 3 kali dari bar yang lain, sehingga akan menambah 9 kali lebih pada statistic (asumsikan E(i) sama untuk keduanya). adalah yang paling umum digunakan pada statistic goodness of fit yang digambarkan di sini dan sangat bergantung pada jumlah bar N yang digunakan. Dengan mengganti nilai dari N, salah satunya dapat dengan mudah mengganti tingkatan antara 2 tipe distribusi. Sayangnya, tidak ada cara cepat untuk memilih nilai dari N. Sebagai panduan, bagaimanapun, aproksimasi Scott Normal, digunakan dengan memakai software BestFit yang biasanya tampak untuk bekerja sangat baik: Di mana n adalah jumlah titik data. Panduan lain yang berguna adalah memastikan bahwa tidak ada bar yang memiliki frekuensi harapan yang lebih kecil dari sekitar 1, yakni untuk semua i. Catatan bahwa statistic tidak membutuhkan semua atau bar histogram apapun yang memiliki lebar sama. Statistic paling berguna untuk fitting distribution untuk data diskrit dan hanya satusatunya statistic yang digambarkan di sini yang dapat digunakan untuk data nominal (yakni non-numeric). Contoh 7.4: Penggunaan untuk data kontinu

Susunan data dari 156 titik memiliki distribusi Normal(70,20). Pertama-tama, datanya ditempatkan dalam bentuk histogram dengan 14 bar sebagai usulan menggunakan aproksimasi normal Scott¶s (Tabel 7.1(a)). 4 bar ekstrim memiliki frekuensi harapan di bawah 1 untuk distribusi normal (70,20) dengan 156 pengamatan. Bar ini kemudian dikombinasikan untuk menghasilkan revisi set dari jarak bar. Bar ekstrim sekarang memiliki frekuensi harapan 1.02 Hipotesis Data datang dari distribusi Normal (70,20) Data tidak datang dari distribusi Normal (70,20) Kesimpulan Test statistic memiliki nilai 21.0 dari tabel 7.1(b). Terdapat derajat bebas ketika tidak ada parameter distribusi yang ditentukan dari data). Perhatikan pada distribusi (11), peluang yang akan kita miliki nilai yang tinggi ketika

benar adalah di bawah 2%. Kemudian kita menyimpulkan bahwa data tidak datang dari distribusi Normal (70,20). Contoh 7.5: Penggunaan untuk data diskrit

Kumpulan dari 136 titik data dipercayai berasal dari distribusi Poisson. MLE untuk parameter untuk Poisson diestimasikan dengan mengambil mean dari titik data: Data ditabulasikan pada bentuk frekuensi pada tabel 7.2 dan kemudian pada data tersebut frekuensi harapan dari distribusi Poisson(4.4559) yakni , di mana

Tabel 7.1 Perhitungan statistik untuk data kontinu: (a) menentukan jarak bar yang digunakan; (b) Perhitungan dengan merevisi jarak bar
Histogram Bar Dari A Ke B Frekuensi Harapan dari Normal (70,20) Revisi Bar Dari A ke B E(i) dari Normal (70,20) O(i) Perhitungan

10 20 30 40 50 60 70 80 90 100 110 120 130

10 20 30 40 50 60 70 80 90 100 110 120 130

0.22 0.80 2.73 7.27 15.15 24.73 31.59 31.59 24.73 15.15 7.27 2.73 0.80 0.22

20 30 40 50 60 70 80 90 100 110 120

20 30 40 50 60 70 80 90 100 110 120

1.02 2.73 7.27 15.15 24.73 31.59 31.59 24.73 15.15 7.27 2.73 1.02

3 5 6 10 21 25 37 21 17 11 6 3

3.843529 1.887509 0.221857 1.75066 0.562592 1.374742 0.926499 0.562592 0.225908 1.913741 3.916813 3.843529

Chi squared

20.96755

Tabel 7.2 Perhitungan statistik
Nilai x Frekuensi Pengamatan O(i)

untuk data diskrit : (a) Tabulasi data; (b) Perhitungan
Nilai x Frekuensi Pengamatan O(i)3 Frekuensi E(i) dari Poisson(4.456)4 Perhitungan 2 {O(i)-E(i)} -E(i)

Frekuensi E(i) dari Poisson(4.456)

0 1 2 3 4 5 6 7 8 9 10 11+ Total

0 8 18 20 29 21 18 10 8 2 1 1 136

1.579 7.036 15.675 23.282 25.936 23.113 17.165 10.926 6.086 3.013 1.343 0.846

0 1 2 3 4 5 6 7 8 9 10+

0 8 18 20 29 21 18 10 8 2 2

1.579 7.036 15.675 23.282 25.936 23.113 17.165 10.926 6.086 3.013 2.189 Chi squared:

1.579 0.1321 0.3449 0.4627 0.3620 0.1932 0.0406 0.0785 0.6019 0.3406 0.0163 4.152

Frekuensi harapan dari nilai 11+, dihitung sebagai 136- (jumlah dari semua frekuensi harapan lainnya), adalah kurang dari 1. Jumlah bar kemudian berkurang ditunjukkan pada tabel 7.2(b), untuk memastikan bahwa semua frekuensi harapan lebih besar dari 1. Hipotesis Data berasal dari distribusi Poisson Data tidak berasal dari ditribusi Poisson Kesimpulan Uji statistic memiliki nilai 4.152 pada tabel 7.2(b). Terdapat nilai derajat kebebasan ( ketika 1 parameter distribusi, mean, ditentukan dari data). Perhatikan distribusi , peluang bahwa kita akan mendapatkan nilai yang tinggi ketika benar di atas 90%. Ketika ini adalah peluang yang besar, kita tidak layak menolak dan kemudian menyimpulkan bahwa data sesuai untuk ditribusi Poisson (4.4559). Contoh 7.6: Penggunaan dengan data nonnumeric

Permainan baru telah ditemukan dan, sehubungan dengan itu, perlengkapan yang secara acak memilih bola dari drum berputar. Terdapat jumlah yang sama dari bola hitam, biru, merah, hijau dan putih pada drum. Bola apapun yang dipilih, digantikan sebelum seleksi berikutnya. Bola berwarna yang berbeda berasal dari pabrik yang berbeda sehingga perancang permainan ingin memastikan bahwa pemilihan benar-benar acak. Mesin diuji 200 kali, ditunjukkan pada tabel 7.3. Apakah peluang bahwa bola menjadi dipilih secara acak? Tabel 7.3 Perhitungan statistik Warna Bola Frekuensi Pengamatan O(i) 51 44 35 40 30 200 untuk data nonnumerik Frekuensi Harapan E(i) 40 40 40 40 40 Perhitungan Chi Square {O(i)-E(i)}2/E(i)
3.0250 0.4000 0.6250 0.0000 2.5000 6.5500

Hitam Biru Merah Hijau Putih

Ini adalah pertanyaan yang ekuivalen: apakah peluang bahwa frekuensi bola berdistribusi seragam? Uji dapat dihitung pada frekuensi pengamatan dan memakai frekuensi harapan dari , ditunjukkan pada tabel. Hipotesis Bola berdistribusi secara acak

Bola tidak berdistribusi secara acak Keputusan Uji statistic memiliki nilai 6.44 pada tabel 7.3. Terdapat derajat bebas (  ketika tidak ada parameter distribusi yang dibutuhkan untuk ditentukan dari data). Perhatikan pada distribusi , peluang bahwa kita akan memiliki nilai yang tinggi untuk ketika benar kurang dari 20%, sehingga kita dapat layak menolak dan kemudian simpulkan bahwa bola tidak dipilih secara acak.

7.4.3 Statistik Kolmogorov-Smirnov(K-S) K-S statistic didefinisikan sebagai berikut ƒš Dimana diketahui sebagai jarak K-S N = jumlah total titik data F(x) = Fungsi distribusi dari fitted distribution = Percentil kumulatif dari tiap titik data i = Tingkat kumulatif dari titik data Jadi, Statistik K-S hanya terkait dengan jarak vertical antara fungsi distribusi kumulatif pada fitted distribution dan distribusi kumulatif dari data. Gambar 7.6 mengilustrasikan konsep dari fitted data untuk distribusi seragam(0,1).

Gambar 7.6 Perhitungan Jarak

Kolmogorov-Smirnov untuk data fit pada distribusi Seragam (0,1)

y y

Data diatur dalam urutan menaik Persentil kumulatif bagian atas berikut:

dan bagian bawah

dihitung sebagai

Di mana i = tingkatan dari titik data dan n = jumlah total titik data

y y

dihitung untuk distribusi seragam (dalam hal ini Jarak maksimum antara dan dihitung untuk tiap : Di mana mendapatkan nilai absolut Nilai maksimum dari jarak selanjutnya adalah jarak

y

K-S :

Statistik K-S biasanya lebih beguna dibandingkan statistic di mana data ditaksir pada semua titik data dan menghindari masalah untuk menentukan ikatan-ikatan untuk membagi data. Bagaimanapun nilainya hanya ditentukan oleh salah satu nilai yang memiliki ketidakcocokan yang terbesar dan tidak mengambil laporan dari lack(kekurangan) dari fit melewati ditribusi sisa. Dengan demikian, pada gambar 7.7, akan memberikan fit terburuk pada distribusi pada (a) yang memiliki satu ketidakcocokan terbesar disbanding distribusi pada (b) yang memiliki general fit yang buruk di atas jarak-x keseluruhan. Jarak vertical antara distribusi yang diamati dan teoritis ditribusi fitted pada semua titik, katakanlah , itu sendiri memiliki distribusi dengan rataan dari nol dan standar deviasi yang diberikan dengan

Gambar 7.7 Bagaimana jarak K-S dapat memberikan ukuran fit yang salah karena kepercayaannya pada jarak tunggal paling besar antara 2 distribusi kumulatif dibanding melihat jarak di luar range yang mungkin: (a) distribusi umumnya good fit kecuali di salah satu area tertentu; (b) distribusi umumnya poor fit tetapi dengan tidak satupun ketidakcocokan yang besar

Ukuran dari standar deviasi di luar jarak x ditunjukkan pada gambar 7.8 untuk sejumlah tipe distribusi dengan . Posisi sepanjang sumbu-x lebih mungkin terjadi di mana paling besar yang, gambar 7.8 tunjukkan, akan biasanya keluar dari dasar pangkal probabilitas. Ketidaksensitifan dari statistic K-S ini pada lack(kekurangan) fit pada ekstrim dan distribusi adalah benar untuk statistic Darling-Anderson. Contoh 7.7: Penggunaan Statistik K-S Tabel 7.4 mengilustrasikan perhitungan jarak dari statistic K-S untuk 12 ukuran dari persentase oksigen yang dihancurkan pada eksperimen biokimia. Data diuji pada distribusi Beta(16,45) yang mana analisis sebelumnya menyatakan bahwa, seharusnya good fit. Proses perhitungannya sebagai berikut.

Gambar 7.8 Variasi standar deviasi dari Statistik K -S di luar range dari berbagai distribusi. Standar deviasi lebih besar, kesempatan lebih bahwa akan jatuh pada bagian range, yang menunjukkan bahwa statistic K-S akan cenderung focus pada derajat fit pada nilai x keluar dari ujung distribusi

Tabel 7.4 Perhitungan Jarak K-S

untuk contoh 7.7

i

Data Pengamatan

Batas Bawah F(i)

Batas Atas F(i)

F(x) untuk Beta (16,45)

1 2 3 4 5 6 7 8 9 10 11 12

16.60% 19.75% 23.26% 25.17% 25.85% 27.38% 27.95% 29.49% 29.83% 31.20% 34.57% 39.87%

0.000 0.083 0.167 0.250 0.333 0.417 0.500 0.583 0.667 0.750 0.833 0.917

0.083 0.167 0.250 0.333 0.417 0.500 0.583 0.667 0.750 0.833 0.917 1.000

0.033 0.120 0.311 0.443 0.491 0.598 0.636 0.728 0.747 0.814 0.925 0.988

0.051 0.046 0.145 0.193 0.158 0.181 0.136 0.145 0.081 0.064 0.092 0.072 

y y

Data diurutkan menaik (ascending) Persentil kumulatif batas atas dan batas bawah

dihitung sebagai berikut:

y y

Di mana ABS(«) adalah nilai absolute. dihitung untuk distribusi Beta menggunakan fungsi Excel BETADIST(). Nilai maksimum dari jarak adalah jarak selanjutnya dari K-S Pada contoh ini, grafik pada gambar 7.9. pada titik data ke-4, ditandai dengan persegi hitam pada

Gambar 7.9 Menghitung jarak K-S

untuk contoh 7.7

7.4.4 Statistik Anderson-Darling (A-D) Statistik A-D didefinisikan sebagai :

Di mana n = jumlah banyaknya titik data F(x) = fungsi ditribusi dari fitted distribution f(x) = fungsi kepadatan dari fitted distribution

i = tingkatan kumulatif dari titik data Statistik Darling-Anderson adalah versi canggih dari statstik K-S dan lebih kuat dengan alas an berikut :
y y y y
š mengganti kerugian untuk peningkatan variansi dari jarak vertical antara distribusi , yang digambarkan pada bagian 7.4.3 dan gambar 7.8 Jarak vertical antara distribusi adalah kuadratik, mengganti kerugian dari perubahan pada variansi (variansi menjadi kuadrat dari standar deviasi). menimbang jarank pengamatan menggunakan peluang nilainya akan menghasilkan nilai-x Jarak vertical diintegrasikan di atas semua nilai dari x untuk membuat penggunaan maksimum pada data pengamatan (statistic K-S terlihat hanya pada jarak vertical maksimum).

Oleh karena itu statistik A-D biasanya lebih berguna mengukur fit dari pada statistik K-S khususnya ketika sangat penting untuk menempatkan penekanan yang sama dalam menyesuaikan distribusi. Selain itu, statistic A-D sangat praktikal untuk menghitung manual. Bagaimanapun, paket software seperto BestFit akan menampilkan perhitungan secara automatic.

7.4.5 Menggunakan statistik Godness -fit untuk mengoptimalkan Distribution Fitting Godness-of-fit statistic dapat digunakan dengan solusi linear untuk menemukan parameter yang menghasilkan fit terdekat dari sebuah distribusi dengan data pengamatan. Gambar 7.10 mengilustrasikan hasil dari contoh sederhana pada Microsoft Excel.

Gam ar 7.10 Menemukan parameter fit ter aik untuk di tribusi dengan mengoptimalkan statistik goodness-offit (dalam hal ini X 2)

Prosesnya sebagai beri t : y Para M dari distribusi dilengkapi (atau kira wajar untuk parameter paling cocok) p untuk distribusi geometrik diberikan oleh  Dimana y  —–—†ƒ–ƒ‹‹

ditetapkan. M

adalah rata-rata dari titik data.

spreadsheet adalah tertulis yang menghitung statistik kebaikan -of-fit yang relevan (dalam hal ini kasus X2)Dengan M (menggunakan gambar memberikan atas) perhitungan nilai merujuk

diplayed di sel terpisah (dalam C 2 kasus) bahwa  pada statistik

yang juga ditampilkan di sel terpisah (E11 pada contoh ini).

7.5 PL T GOODNE

OF-FIT

Plot Goodness-of-fit memberikan analisis perbandingan visual antara data dan distribusi fit yang dilengkapi gambaran keseluruhan kesalahan dengan cara bahwa statistik goodness-of-fit tidak dapat dan memungkinkan analis u ntuk memilih distribusi yang paling cocok yang lebih kualitatif dan intuitif. 7.5.1 Perbandingan kepadatan probabilitas Overlay plot histogram dari data dengan fungsi kepadatan dari distribusi dipasang biasanya perbandingan paling informatif (lihat Gambar 7.11 (a)) Sangat mudah untuk melihat di mana perbedaan utama dan apakah bentuk umum dari datayang digunakan. membandingkan distribusi skala yang sama baiknya.The dan jumlah bar histogram harus

¡

 

 

digunakan untuk semua plot jika perbandingan langsung dari beberapa distribusi cocok akan dilakukan untuk data yang sama.

Gambar 7.11(a) Contoh plot goodness-of-fit: Perbandingan kepadatan peluang untuk Input dan Distribusi Normal;

7.5.2 Perbandingan Distribusi Probabillity Sebuah overlay plot frekuensi kumulatif data dan distribusi dipasang kadang-kadang digunakan (lihat gambar 7.11 (b). Namun plot ini memiliki skala yang sangat sensitif dan frekuensi kumulatif jenis distribusi yang paling mengikuti jenis yang sangat mirip kurvaS.This dari plot karena itu hanya akan muncul perbedaan yang sangat besar antara data theb dan distribotions dipasang dan umumnya tidak direkomendasikan sebagai ukuran visual kebaikan fit.

Gambar 7.11(b) Perbandingan Peluang kumulatif untuk input dan distribusi Normal;

7.5.3 Perbedaan antara Densitas probabilitas Plot ini berasal dari perbandingan kepadatan probabilitas, di atas, menggambarkan perbedaan antara kerapatan probabilitas (lihat Gambar 7.11(c)). Ini memiliki skala jauh lebih sensitif dibandingkan dengan plot lain dijelaskan ukuran here.The dari penyimpangan juga merupakan fungsi dari jumlah kelas (bar) gunakan untuk plot urutan histogram.In untuk membuat perbandingan langsung antara fungsi distribusi yang lain cocok menggunakan jenis plot, analis harus memastikan bahwa jumlah yang sama dari kelas Histogram digunakan untuk plots.

Gambar 7.11(c) Perbandingan kepadatan peluang untuk Input dan Distribusi Normal;

7.5.4 Probabilitas-probabilitas (P-P) Ini adalah plot dari distribusi kumulatif F kurva dipasang (x) terhadap frekuensi kumulatif untuk semua nilai (lihat gambar 7.11 (d)). Pencocokan terbaik, semakin

dekat dengan plot ini yang menyerupai garis lurus lurus dan dapat berguna jika salah satu tertarik pada pencocokan erat persentil kumulatif dan ia akan menampilkan perbedaan yang signifikan antara Pertengahan dari distribusi. Bagaimanapun, plot yang jauh lebih peka terhadap perbedaan dalam fit daripada perbandingan probabilitas kepadatan plot dan karena itu tidak sering digunakan dan juga bisa agak membingungkan bila digunakan untuk memeriksa data diskrit yang cocok dan cukup baik dapat dengan mudah ditutupi,

terutama jika hanya ada beberapa diijinkan nilai-x.

Gambar 7.11(d) Plot P-P membandingkan Input dan distribusi Normal;

7.5.5 Kuantil-Kuantil (Q - Q) Plot Ini adalah plot dari data yang diamati terhadap nilai-nilai x dimana

(lihat gambar 7.11 (e)). Seperti plot P-P, pencocokan yang lebih baik, yang lebih dekat dengan plot ini menyerupai garis lurus. Plot ini dapat bermanfaat jika ada yang cukup tertarik pada pencocokan persentil kumulatif dan ia akan menampilkan perbedaan yang signifikan antara ujung dari distribusi. Bagaimanapun, plot ini memberikan masalah insensitivitas sama dengan petak P-P plot.

.

Gambar 7.11(e) Plot Q-Q membandingkan Input dan Distribusi Normal;

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->