P. 1
REGRESI LOGISTIK BINER

REGRESI LOGISTIK BINER

|Views: 2,116|Likes:
Published by Edi Kurniawan

More info:

Published by: Edi Kurniawan on Apr 29, 2012
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PPTX, PDF, TXT or read online from Scribd
See more
See less

06/11/2014

pdf

text

original

REGRESI LOGISTIK BINER

Dian fitriana arthati
Dwi afrizal
Dwina wardhani nasution
Edi kurniawan
Fajri iramaya purwanti
Felasofa rahmatanti
Fitra aulia
• Analisis regresi logistik biner merupakan suatu teknik untuk
menganalisis data yang peubah responnya memiliki dua
kategori dengan satu atau lebih peubah bebas yang berskala
kategorik atau kontinu.
• Regresi logistik biner telah banyak digunakan secara luas
sebagai salah satu alat analisis pemodelan ketika variabel
responnya (Y) bersifat biner. Istilah biner merujuk pada
penggunaan dua buah bilangan 0 dan 1 untuk menggantikan
dua kategori pada variabel respon. Contoh variabel respon
yang dimaksud adalah kesuksesan (sukses – gagal), kesetujuan
(setuju – tidak setuju), keinginan membeli (ya – tidak), terpilih
atau tidak terpilih, lulus atau tidak lulus, mendapat promosi
atau tidak, dan masih banyak lagi.

Pendahuluan
Asumsi Asumsi dalam regresi logistik:
1. Tidak mengasumsikan hubungan linier antar variabel
dependen dan independent.
2. Variabel dependen harus bersifat dikotomi (2 variabel).
3. Variabel independent tidak harus memiliki keragaman yang
sama antar kelompok variabel.
4. Kategori dalam variabel independent harus terpisah satu
sama lain atau bersifat eksklusif.
5. Sampel yang diperlukan dalam jumlah relatif besar, minimum
dibutuhkan hingga 50 sampel data untuk sebuah variabel
prediktor (bebas).

Pendugaan koefisien model regresi logistik tidak dapat
dilakukan dengan metode kuadrat terkecil (ordinary least
squares) seperti halnya regresi linear karena pelanggaran
asumsi kehomogenan ragam. Metode kemungkinan
maksimum (maximum likelihood) menjadi salah satu alternatif
yang dapat digunakan.
Regresi logistik membentuk persamaan atau fungsi
dengan pendekatan maximum likelihood, yang
memaksimalkan peluang pengklasifikasian objek yang diamati
menjadi kategori yang sesuai kemudian mengubahnya menjadi
koefisien regresi yang sederhana. Dua nilai yang biasa
digunakan sebagai variabel dependen yang diprediksi adalah 0
dan 1 (ex. 1=berhasil, 0=gagal).
Hosmer dan Lemeshow (2000) menjelaskan bahwa model
regresi logistik dibentuk dengan menyatakan nilai P(Y=1|x)
sebagai π(x), yang dinotasikan sebagai berikut:





Odds Rasio

exp( )
( )
1 exp( )
x
x
x
o |
t
o |
+
=
+ +
Karena x , maka ( )mendekati 0 ketika <0, dan (x) mendekati 1
ketika >1
x t | t
|
÷·
• Log odds rasio



Log odds sering pula disebut sebagai logit. Sehingga, Jika π(x)
menyatakan peluang suatu individu ke-i memiliki nilai Y = 1,
maka model regresi logistik dengan k buah variabel bebas
dapat dituliskan sebagai



dengan
Pengujian terhadap parameter-parameter model dilakukan baik
secara simultan maupun secara parsial. Menurut Hosmer dan
Lemeshow (2000), pengujian parameter model secara simultan
menggunakan uji nisbah kemungkinan (Likelihood Ratio Test)
dengan hipotesis:
H
0
: β
1
= … = β
k
= 0
H
1
: minimal ada satu β
i
≠ 0; i=1, 2, …, k
Statistik uji G dirumuskan:


dimana:
: fungsi kemungkinan tanpa peubah penjelas.
: fungsi kemungkinan dengan peubah penjelas.






Dengan mengasumsikan H
0
benar, statistic uji G akan
mengikuti sebaran Chi-Square dengan derajat bebas k.
Keputusan tolak H
0
jika G >
• Pengujian parameter secara parsial menggunakan uji Wald.
Hipotesis yang akan diuji adalah:
H
0
: β
i
= 0
H
1
: β
i
≠ 0; i=1, 2, …, k
Statistik uji yang dipakai adalah statistik W, yaitu:


dengan sebagai penduga β
i
dan sebagai penduga galat
baku β
i
. Statistik W akan mengikuti persebaran normal baku
jika H
0
benar. Keputusan tolak H
0
diambil ketika |W| > Z
α/2.



.
• Interpretasi koefisien untuk model regresi logistik biner dapat
dilakukan dengan menggunakan nilai rasio oddsnya. Odd
sendiri dapat diartikan sebagai rasio peluang kejadian sukses
dengan kejadian tidak sukses dari peubah respon. Rasio odds
mengindikasikan seberapa lebih mungkin munculnya kejadian
sukses pada suatu kelompok dibandingkan dengan kelompok
lainnya.

Interpreting Parameters in Logistic Regression
• Untuk variabel respon (Y) biner dan sebuah variabel penjelas (X),
misal:
(x) = P(Y=1 | X=x) = 1-P(Y=0 | X=x).
Model regresi logistik adalah:
(x) = (5.1)

atau dengan log odds (logit), yang mempunyai hubungan
linier:
logit [ (x)] = log = α+βx (5.2)


t
t
t
Interpreting β: Odds, Probability, Linear Approach
• Tanda pada β menunjukkan apakah (x) naik atau turun
saat x naik.
• Saat β mendekati 0, kurvanya mendatar ke garis horizontal.
Saat β=0, Y independen dari X.
• Untuk x yang kuantitatif dengan β>0, kurva (x)
membentuk distribusi logistic cdf.
• Mengeksponensiasi kedua sisi dari (5.2) menunjukkan
bahwa odds adalah fungsi eksponensial dari x.
• Odds meningkat dengan ganda oleh e
β
untuk setiap 1-unit
yang bertambah di x. Dengan kata lain, e
β
adalah odds ratio,
odds pada saat X=x+1 dibagi dengan odds pada saat X=x


t
t
• Garis tangent di kurva pada x untuk setiap (x) = 1/2,
mempunyai slope β(1/2)(1/2) = β/4; ketika
(x)= 0.9 atau 0.1, slopenya 0.09β.
• Slope mendekati 0 saat (x) mendekati 1.0 atau 0.
• Slope yang curam terjadi pada x untuk setiap
(x) = ½
• Nilai x adalah –α/β. Nilai x ini kadang kadang disebut
level efektif median dan dinotasikan sebagai EL
50
.

t
t
t
t
Looking at The Data
• Sebelum mencocokkan model dan membuat interpretasi, lihat
data untuk mengecek apakah model reglognya layak. Disaat Y
mempunyai nilai 0 dan 1, sulit untuk mengeceknya dengan
membuat plot antara Y dan x.
• Dengan membuat plot sampel proporsi atau logit terhadap x.
Misal n
i
adalah jumlah observasi, y
i
dinotasikan sebagai nilai
pada saat outcomenya 1 dengan p
i
=y
i
/n
i
. Sampel logit i adalah
log [p
i
/(1-p
i
)]= log[y
i
/(n
i
-y
i
)]
infinite saat y
i
=0 atau n
i
=0.

Logistic Regression with retrospective studies
Pada regresi ini berkaitan dengan situasi dimana variabel X
adalah penjelas dari variabel respon Y yang bersifat acak. Hal
interjadi pada design sampling retrospective seperti
pembelajaran case-control biomedical. Misalnya subjek dari
sampel memiliki nilai Y=1 (cases) dan Y=0 (control), X
merupakan nilai dari observasi. Efek model ini merujuk pada
odd rasio.

Misalny z adalah... µ
1
= P(Z = 1 | y = 1) menunjukan peluang
dari case dan µ
0
= P(Z = 1 | y = 0) menunjukan peluang dari
control. Asumsikan bahwa P(Y = 1 |x) mengikuti model
logistik.

Teori Bayes




Andaikan bahwa P(Z=1 | y,x) = P(Z=1 | y) untuk y=0 dan 1.
Untuk setiap y, nilai peluang sampelnya tidak tergantung dari
nilai x. Misalnya, x mengacu pada pemaparan beberapa tipe
seperti apakah seseorang telah merokok. Lalu, untuk case dan
untuk control nya, peluang terpilihnya sampel adalah sama
antara perokok dan bukan perokok.

1
0
( 1| 1, ) ( 1| )
( 1| 1, )
( 1| , ) ( | )
j
P Z y x P Y x
P Y z x
P Z y j x P Y j x
=
= = =
= = =
= = =
¿
Substitusi µ
1
dan µ
0
kemudian bagi pembilang dan
penyebut dengan P(Y=0 | x) sehingga





Lalu bagi pembilang dan penyebut dengan µ
0
dan
gunakan bentuk µ
1

0
= exp [log (µ
1

0
)]



dengan α
*
= α + log (µ
1

0
)
1
0 1
exp( )
( 1| 1, )
exp( )
x
P Y z x
x
µ o |
µ µ o |
+
= = =
+ +
*
log [ ( 1| 1, )] it P Y z x x o | = = = +
*
log [ ( 1| 1, )] it P Y z x x o | = = = +
• Model regresi tersebut memiliki efek yang sama dengan parameter β
sebagai model pada P(Y=1 | x). Pada model case-control, salah satu
saja tidak dapat mengestimasi nilai β pada model binary-response
yang lain. Tidak seperti odd rasio, efek conditional distribution dari
X given Y tidak sama dengan Y given X.

• Regresi logistik terkadang bisa atau tidak bisa untuk
mendeskripsikan suatu hubungan variabel dengan baik. Pada suatu
kasus spesial, misalkan nilai Y = i dan X berdistribusi N(µ
i
, o
2
)
dimana i = 0,1. Lalu bayes teori, P(Y=1 | X=x) sama dengan (5.1), β
= (µ
1

0
)/o
2
. Ketika suatu populasi adalah sebuah campuran dari 2
tipe subjek, tipe pertama nilai Y=1 kira-kira berdistribusi normal
pada X dan tipe lainnya Y=0 dengan kira-kira berdistribusi normal
juga pada X dengan nilai varians yang sama maka fungsi regresi
logistiknya seperti pada (5.1) dengan bentuk kurva t(x) yang baik.
Jika keduanya berdistribusi normal dengan variansnya berbeda maka
kurva yang terbentuk adalah kuadrat. Pada kasus tersebut, hubungan
variabelnya nonmonotone dengan t(x) menaik dan menurun atau
sebaliknya.


Tipe Inferensi

• Untuk model dengan sebuah predictor:

• Uji signifikansi fokus pada H
0
: β = 0 (hipotesis independensi).
Uji Wald menggunakan log Likelihood pada , dengan statistik
uji atau kuadratnya. Di bawah H
0
, z
2
adalah asimtotik
• Uji Likelihood-rasio menggunakan dua kali deferens di antara
maximized log likelihood pada dan pada β = 0 dan juga
mempunyai asimtotik .
• Uji score menggunakan log likelihood pada β = 0 melalui
derivatif log likelihood pada titik tersebut. Statistik uji
membandingkan sufisien statistik untuk β dengan nilai
harapannya, standardized yang sesuai [N(0,1) atau ].




Tipe Inferensi
• Untuk sampel besar, ketiga tes tersebut biasanya memberikan
hasil yang sama. Uji Likelihood-rasio lebih disukai daripada Uji
Wald. Likelihood-rasio menggunakan informasi yang lebih
karena hal itu menggabungkan log likelihood pada H
0
sebaik
pada . Ketika | β| relatif besar, maka uji Wald tidak sekuat
uji Likelihood-rasio dan bahkan dapat menunjukkan perilaku
menyimpang.
• Selang kepercayaan lebih informatif daripada uji-uji. Selang
untuk β dihasilkan dari pembalikan uji dari H
0
: β = β
0
. Interval
adalah kumpulan dari β
0
dimana statistik uji Chi-Squarenya
tidak lebih besar daripada . Untuk pendekatan Wald,
hal ini berarti ; intervalnya adalah .

Tipe Inferensi
• Untuk meringkas hubungan, karakteristik lain mungkin
memiliki kepentingan yang lebih besar daripada β, seperti π(x)
pada berbagai nilai x. Untuk fixed , ,
memiliki SE sampel besar yang diberikan oleh estimasi square
root dari:

• Selang kepercayaan 95% untuk adalah .
Substitusi setiap endpoint ke transformasi inverse

memberikan interval yang sesuai untuk .
• Tiap metode inferensi juga dapat menghasilkan selang
kepercayaan dan uji untuk sampel kecil.



Checking Goodness of Fit; Ungrouped and Grouped Data

• Dalam prakteknya, tidak ada jaminan bahwa model regresi logistik
tertentu sesuai dengan data. Untuk beberapa tipe data biner, salah
satu cara untuk mendeteksi lack of fit adalah menggunakan uji
Likelihood-rasio untuk membandingkan model dengan model yang
lebih kompleks. Model yang lebih kompleks mungkin berisi sebuah
efek nonlinier, seperti bentuk kuadratik. Model-model dengan
multiple prediction akan mempertimbangkan interaksi. Jika model
yang lebih kompleks tidak memberikan kesesuaian yang lebih baik,
maka ini akan menyediakan beberapa jaminan bahwa model yang
dipilih adalah masuk akal.
• Pendekatan lain untuk mendeteksi lack of fit search untuk banyak
cara model gagal. Hali ini simpel ketika variabel penjelas hanya
kategori. Pada masing-masing pengaturan x, salah satu akan
mengalikan perkiraan probability dari dua hasil banyaknya subjek
yang diatur untuk memenuhi frekuensi ekspektasi estimasi untuk y =
0 dan y = 1. Itu semua adalah fitted value.


Checking Goodness of Fit; Ungrouped and Grouped Data
• Uji dari model membandingkan jumlah observasi dan fitted
value menggunakan statistik Pearson X
2
atau Likelihood-rasio
G
2
. Untuk jumlah pengaturan yang tetap, sebagai peningkatan
jumlah, X
2
dan G
2
mendekati distribusi Chi-Square. Derajat
bebas disebut residual df untuk model, mengurangi banyaknya
parameter di dalam model dari banyaknya parameter di dalam
saturated model.

• Alasan pembatasan untuk prediktor kategori untuk uji secara
umum berhubungan dengan perbedaan di Section 4.5.3 bahwa
kita menyebutkan diantara grouped and ungrouped data untuk
model binomial. Saturated model berbeda pada dua kasus.
Sebuah asimtotik distribusi Chi-Square hasil deviance sebagai
dengan banyaknya parameter yang tetap di dalam model dan
karenanya sebuah jumlah yang tetap dari pengaturan nilai
prediktor.



Pengecekan kebaikan suai (goodness of fit) data tidak
berkelompok dengan cara pengelompokan
Sebagai catatan,:
• dengan data tidak berkelompok atau penduga yang kontinu
atau hampir kontinu, dan tidak mempunyai batas pada
distribusi chi square, akan tetapi masih berguna dalam
membandingkan model untuk memeriksa bentuk kuadrat
• dapat diterapkan dalam berbagai perkiraan untuk pengamatan
berkelompok dan nilai yang cocok untuk sebuah partisi dari
nilai x. seumpama jumlah variabel penjelas meningkat,
meskipun kelompok nilai secara keseluruhan untuk setiap
variabel dapat menghasilkan sebuah tabel kontingensi dengan
jumlah sel yang besar, sebagian besar memiliki perhitungan
yang sangat kecil


• Pembentukan ini merupakan dasar dari uji Hosmer dan
Lemeshow (19980) yang mengemukakan statistik pearson
yang membandingkan pengamatan dengan perhitungan yang
pas untuk partisi ini.
Menunjukan hasil biner untuk pengamatan j dalam group
i pada partisi, i=1,……,g, j=1,…..,... .
Menunjukan coresponding fitted probability untuk model
yang tepat dari data yang tidak berkelompok.




ij
y
i
n
ij
t
2
1
( )
( )[1 ( ) / ]
g
ij ij
j j
i
ij ij
j j
y
n
t
t t
=
÷
÷
¿ ¿
¿
¿ ¿
• Ketika banyak pengamatan yang memiliki peluang estimasi
yang sama, ada beberapa kesewenang2an dalam pembentukan
kelompok, dan berbeda software dapat menghasilkan nilai
yang berebda. Statistik ini tidak memiliki batas distribusi chi
square, karena pengamatan dalam kelompok merupakan
percobaan yang tidak identik. Dan karena pengamatan dalam
kelompok tidak memiliki sebaran peluang yang umum.
• Bagaimanapun, Hosmer dan Lemeshow mencatat bahwa
ketika jumlah perbedaan pola nilai kovariat sama dengan
ukuran sampel, distribusi nol mendekati distribusi chisquare
dengan derajat bebas. Df = g-2.
5.3 MODEL LOGIT DENGAN
PREDIKTOR KATEGORIK
5.3.1 ANOVA-Type Representasi Faktor
• Pertimbangkan faktor X tunggal, dengan
kategori I. Dalam baris i dari tabel I x 2, y
i

adalah jumlah hasil kolom pertama
(sukses) dari uji coba n
i
. Nyatakan Yi sebagai
binomial dengan parameter π
i
. Model logit
dengan faktor adalah

• Sisi kanan persamaan (5.4) menyerupai rumus
model untuk cara sel dalam ANOVA satu arah.
Dengan kategori I, X memiliki I-1 parameter
nonredundan. Salah satu parameter dapat
diatur ke 0, katakanlah β
i
= 0. Jika nilainya
tidak memenuhi, kita dapat merecode sehingga
menjadi benar. Misalnya, bentuk β

= β
i
– β
1

dan α = α

+ β
1
yang memenuhi β

1
=0. Maka

• Ketika β
1
=0, α sama dengan logit dalam baris I,
dan β
i
adalah perbedaan antara logits dalam baris
i dan I. Jadi, β
i
sama dengan rasio log odds untuk
pasangan baris-baris itu.
• Untuk setiap {π
i
> 0}, { β
i
} berlaku seperti model
(5.4). Model ini mempunyai banyak parameter
I sebagai pengamatan binomial. Ketika sebuah
faktor tidak berpengaruh, β
1
= β
2
= ... = β
I
. Karena
ini setara dengan π
1
= ... = π
I
, model ini hanya
dengan sebuah intersep menentukan independensi
dari X dan Y secara statistik.
5.3.2 Dummy Variabel dalam Model Logit
• Sebuah persamaan setara model (5.4)
menggunakan variabel dummy. Misalkan x
i
=1
untuk pengamatan di baris i dan x
i
=0 untuk
lainnya, i = 1, ..., I - 1. Modelnya adalah


• Cara lain untuk memaksakan kendala bentuk

. Misalkan X yang memiliki I=2 kategori,
jadi β
1
= - β
2
. Hasil ini dari efek coding untuk
dummy variabel, x=1 dalam kategori 1 dan x=-1
dalam kategori 2.


• Hasil substantif yang sama terjadi untuk setiap skema
coding. Untuk model (5.4), terlepas dari kendala untuk {β
1
},
{ +β

} oleh karena itu { } adalah sama. Perbedaan
β

−β

untuk pasangan (a,b) kategori X adalah identik dan
mewakili estimasi rasio log odds. Dengan demikian,
exp(β

−β

) adalah estimasi peluang sukses dalam kategori a
dari X dibagi dengan estimasi peluang sukses dalam kategori b
dari X. Reparameterisasi model dapat merubah parameter
estimasi tapi tidak mengubah model fit.
• Nilai β
i
atau β

tidak relevan untuk kategori tunggal. Berbagai
sistem kendala menghasilkan nilai yang berbeda. Untuk
prediktor biner, misalnya, menggunakan variabel dummy
dengan nilai referensi β
2
= 0, rasio log odds sama dengan β
1
-
β
2
= β
1
; Sebaliknya, untuk efek coding dengan ± 11 variabel
dummy maka β
1
- β
2
= 0 , rasio log odds yang sama β
1
- β
2
=
β
1
– (-β
1
) = 2β
1
. Sebuah parameter atau estimasinya masuk
akal hanya dengan dibandingkan dengan satu untuk kategori
lain.



.
Joint probability nya untuk N fungsi binomial adalah

1 −

= log

1 −

=1
1 −

−1

=1

= exp log

1−

1 −

−1

ketika ada lebih dari 1 observasi/ percobaan pada nilai xi maka jumlah observasi dinyatakan ni dan
jumlah sukses adalah xi . Yi menunjukan sukses yang dihitung dari sekian percobaan dimana Yi…YN
adalah independent binomial dengan mean E(Yi)= , dimana , 2, … , = .
Joint probability nya untuk N fungsi binomial adalah
Likelihood equation
pada model, logit ke – i adalah

, jadi persamaan eksponensialnya menjadi
exp

= exp

. dan karena 1 − = 1 +exp

−1
, maka
log likelihoodnya sama dengan :
=

− log 1 +exp



turunanan dari fungsi log nya
()

= 0 , karena
()

=


exp

1 +exp

dimana =
exp

1+exp

, sehingga Likelihood Rationya adalah

= 0, = 1, … , ,

• Distribution of Probability Estimator
• Menggunakan , kita dapat melakukan inferensia terhadap
β dan dihubungkan pada efek, seperti pada odds rasio. Kita
dapat juga membuat convidence interval untuk peluang
respon pada pengaturan x tertentu.
• Estimasi varians dari logit adalah . Untuk
jumlah sampel yang besar, logit adalah
convidence interval untuk logit yang benar. Titik akhir
kebalikan pada interval yang sesuai untuk menggunakan
transformasi π=exp(logit)/[1+exp(logit)].


,
• Newton-Raphson Method Applied to logistik regresion
• Kita kembali ke Section 4.6.1 untuk metode “ITERATIVE”
Newton-Raphson. Misalkan





• Disini, , perkiraan t untuk , diperoleh dari melalui


Kita menggunakan
()
dan
()
dengan formula (4.39) untuk memperoleh nilai
(+1)

berikutnya, yang mana dalam konteks ini adalah:

(+1)
=
()
+{

1 −

}
−1


, (5.22)
Dimana

()
=

()
. Ini digunakan untuk memperoleh
(+1)
, dan juga seterusnya.
Dengan perkiraan pertama
(0)
, persamaan (5.21) menghasilkan
(0)
, dan untuk t > 0
diproses berulang-ulang sebagaimana yang diperlihatkan menggunakan (5.22) dan (5.21).
Dalam
perbatasan,
()
dan
()
, menuju ke estimasi ML dan

(Walker dan Duncan 1967). Matrik

()
menuju ke

= −

1 −

. Dengan (5.20), Estimasi asimtot matrik
covariance dari

adalah produk dari metode Newton-Raphson, dinamakan −

−1
.
Dari argument di Section 4.6.3,
(+1)
memiliki iterative reweighted least squares dari
(

−1
)
−1

−1

()
, dimana
()
mempunyai elemen

()
=

()
1−

()
+

()

(1−

)
, (5.23)
Dan dimana

adalah matrik diagonal dengan elemen {1

(1 −

) }. Ekspresi di dini,

()
adalah bentuk linear dari fungsi link logit untuk data sampel, dievaluasi pada
()
[lihat
(4.42)]. Dari Section 3.1.6 elemen

asimtot variansnya diestimasi dari logit sampel. Estimasi
ML adalah batas dari rangkaian dari estimasi least squares tertimbang, dimana matrik penimbang
berubah tiap ulangan.

Pendahuluan
• Analisis regresi logistik biner merupakan suatu teknik untuk menganalisis data yang peubah responnya memiliki dua kategori dengan satu atau lebih peubah bebas yang berskala kategorik atau kontinu. • Regresi logistik biner telah banyak digunakan secara luas sebagai salah satu alat analisis pemodelan ketika variabel responnya (Y) bersifat biner. Istilah biner merujuk pada penggunaan dua buah bilangan 0 dan 1 untuk menggantikan dua kategori pada variabel respon. Contoh variabel respon yang dimaksud adalah kesuksesan (sukses – gagal), kesetujuan (setuju – tidak setuju), keinginan membeli (ya – tidak), terpilih atau tidak terpilih, lulus atau tidak lulus, mendapat promosi atau tidak, dan masih banyak lagi.

Asumsi Asumsi dalam regresi logistik: 1. Tidak mengasumsikan hubungan linier antar variabel dependen dan independent. 2. Variabel dependen harus bersifat dikotomi (2 variabel). 3. Variabel independent tidak harus memiliki keragaman yang sama antar kelompok variabel. 4. Kategori dalam variabel independent harus terpisah satu sama lain atau bersifat eksklusif. 5. Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel data untuk sebuah variabel prediktor (bebas).

1=berhasil. yang memaksimalkan peluang pengklasifikasian objek yang diamati menjadi kategori yang sesuai kemudian mengubahnya menjadi koefisien regresi yang sederhana.Pendugaan koefisien model regresi logistik tidak dapat dilakukan dengan metode kuadrat terkecil (ordinary least squares) seperti halnya regresi linear karena pelanggaran asumsi kehomogenan ragam. Metode kemungkinan maksimum (maximum likelihood) menjadi salah satu alternatif yang dapat digunakan. 0=gagal). . Dua nilai yang biasa digunakan sebagai variabel dependen yang diprediksi adalah 0 dan 1 (ex. Regresi logistik membentuk persamaan atau fungsi dengan pendekatan maximum likelihood.

maka  ( x)mendekati 0 ketika  <0. yang dinotasikan sebagai berikut:  ( x)  exp(   x) 1  exp(   x) Karena x  . dan  (x) mendekati 1 ketika  >1 Odds Rasio .Hosmer dan Lemeshow (2000) menjelaskan bahwa model regresi logistik dibentuk dengan menyatakan nilai P(Y=1|x) sebagai π(x).

maka model regresi logistik dengan k buah variabel bebas dapat dituliskan sebagai dengan . Sehingga. Jika π(x) menyatakan peluang suatu individu ke-i memiliki nilai Y = 1.• Log odds rasio Log odds sering pula disebut sebagai logit.

pengujian parameter model secara simultan menggunakan uji nisbah kemungkinan (Likelihood Ratio Test) dengan hipotesis: H0: β1 = … = βk = 0 H1: minimal ada satu βi ≠ 0. Menurut Hosmer dan Lemeshow (2000). …. . 2. i=1. k Statistik uji G dirumuskan: dimana: : fungsi kemungkinan tanpa peubah penjelas. : fungsi kemungkinan dengan peubah penjelas.Pengujian terhadap parameter-parameter model dilakukan baik secara simultan maupun secara parsial.

Hipotesis yang akan diuji adalah: H0 : βi = 0 H1 : βi ≠ 0. 2. k Statistik uji yang dipakai adalah statistik W. . statistic uji G akan mengikuti sebaran Chi-Square dengan derajat bebas k. Keputusan tolak H0 diambil ketika |W| > Zα/2. Keputusan tolak H0 jika G > • Pengujian parameter secara parsial menggunakan uji Wald. …. Statistik W akan mengikuti persebaran normal baku jika H0 benar. Dengan mengasumsikan H0 benar. yaitu: dengan sebagai penduga βi dan sebagai penduga galat baku βi. i=1..

Odd sendiri dapat diartikan sebagai rasio peluang kejadian sukses dengan kejadian tidak sukses dari peubah respon.• Interpretasi koefisien untuk model regresi logistik biner dapat dilakukan dengan menggunakan nilai rasio oddsnya. Rasio odds mengindikasikan seberapa lebih mungkin munculnya kejadian sukses pada suatu kelompok dibandingkan dengan kelompok lainnya. .

Model regresi logistik adalah:  (x) = (5.2) . yang mempunyai hubungan linier: logit [ (x)] = log = α+βx (5.1) atau dengan log odds (logit).Interpreting Parameters in Logistic Regression • Untuk variabel respon (Y) biner dan sebuah variabel penjelas (X). misal:  (x) = P(Y=1 | X=x) = 1-P(Y=0 | X=x).

.

kurvanya mendatar ke garis horizontal. Probability. odds pada saat X=x+1 dibagi dengan odds pada saat X=x . • Saat β mendekati 0. Linear Approach • Tanda pada β menunjukkan apakah  (x) naik atau turun saat x naik. e β adalah odds ratio. • Odds meningkat dengan ganda oleh e β untuk setiap 1-unit yang bertambah di x.2) menunjukkan bahwa odds adalah fungsi eksponensial dari x. • Untuk x yang kuantitatif dengan β>0. Dengan kata lain. kurva  (x) membentuk distribusi logistic cdf. Saat β=0. Y independen dari X.Interpreting β: Odds. • Mengeksponensiasi kedua sisi dari (5.

Slope mendekati 0 saat  (x) mendekati 1. mempunyai slope β(1/2)(1/2) = β/4. Nilai x ini kadang kadang disebut level efektif median dan dinotasikan sebagai EL50 .09β.9 atau 0. ketika •  (x)= 0. . slopenya 0.• Garis tangent di kurva pada x untuk setiap  (x) = 1/2.1.  (x) = ½ • Slope yang curam terjadi pada x untuk setiap • Nilai x adalah –α/β.0 atau 0.

Looking at The Data • Sebelum mencocokkan model dan membuat interpretasi. Disaat Y mempunyai nilai 0 dan 1. Misal ni adalah jumlah observasi. Sampel logit i adalah log [pi/(1-pi)]= log[yi/(ni-yi)] infinite saat yi=0 atau ni=0. lihat data untuk mengecek apakah model reglognya layak. • Dengan membuat plot sampel proporsi atau logit terhadap x. yi dinotasikan sebagai nilai pada saat outcomenya 1 dengan pi=yi/ni. . sulit untuk mengeceknya dengan membuat plot antara Y dan x.

. Misalnya subjek dari sampel memiliki nilai Y=1 (cases) dan Y=0 (control).. X merupakan nilai dari observasi. Asumsikan bahwa P(Y = 1 |x) mengikuti model logistik.Logistic Regression with retrospective studies Pada regresi ini berkaitan dengan situasi dimana variabel X adalah penjelas dari variabel respon Y yang bersifat acak. Efek model ini merujuk pada odd rasio. . Hal interjadi pada design sampling retrospective seperti pembelajaran case-control biomedical. 1 = P(Z = 1 | y = 1) menunjukan peluang dari case dan 0 = P(Z = 1 | y = 0) menunjukan peluang dari control. Misalny z adalah.

Misalnya. untuk case dan untuk control nya. x) P(Y  1| x)  P(Z  1| y  j. peluang terpilihnya sampel adalah sama antara perokok dan bukan perokok. nilai peluang sampelnya tidak tergantung dari nilai x.x) = P(Z=1 | y) untuk y=0 dan 1. x)  P( Z  1| y  1. Untuk setiap y. x) P(Y  j | x) j 0 1 Andaikan bahwa P(Z=1 | y. . x mengacu pada pemaparan beberapa tipe seperti apakah seseorang telah merokok. Lalu.Teori Bayes P(Y  1| z  1.

x)]     x dengan 0 dan log it[ P(Y penyebut gunakan bentuk 1/0 = exp [log (1/0)] * log it[ P(Y  1| z  1. x)  0  1 exp(   x) Lalu bagi pembilang dan 1| z  1. x)]   *   x dengan α* = α + log (1/0) .Substitusi 1 dan 0 kemudian bagi pembilang dan penyebut dengan P(Y=0 | x) sehingga 1 exp(   x) P(Y  1| z  1.

Pada model case-control. β = (µ1-µ0)/2.1. 2) dimana i = 0. hubungan variabelnya nonmonotone dengan (x) menaik dan menurun atau sebaliknya. • Regresi logistik terkadang bisa atau tidak bisa untuk mendeskripsikan suatu hubungan variabel dengan baik. . tipe pertama nilai Y=1 kira-kira berdistribusi normal pada X dan tipe lainnya Y=0 dengan kira-kira berdistribusi normal juga pada X dengan nilai varians yang sama maka fungsi regresi logistiknya seperti pada (5. efek conditional distribution dari X given Y tidak sama dengan Y given X. Lalu bayes teori. Pada kasus tersebut.1) dengan bentuk kurva (x) yang baik. misalkan nilai Y = i dan X berdistribusi N(µi . Pada suatu kasus spesial. Tidak seperti odd rasio. P(Y=1 | X=x) sama dengan (5.• Model regresi tersebut memiliki efek yang sama dengan parameter β sebagai model pada P(Y=1 | x). Jika keduanya berdistribusi normal dengan variansnya berbeda maka kurva yang terbentuk adalah kuadrat. salah satu saja tidak dapat mengestimasi nilai β pada model binary-response yang lain.1). Ketika suatu populasi adalah sebuah campuran dari 2 tipe subjek.

dengan statistik uji atau kuadratnya. z2 adalah asimtotik • Uji Likelihood-rasio menggunakan dua kali deferens di antara maximized log likelihood pada dan pada β = 0 dan juga mempunyai asimtotik . . Statistik uji membandingkan sufisien statistik untuk β dengan nilai harapannya. Di bawah H0.Tipe Inferensi • Untuk model dengan sebuah predictor: • Uji signifikansi fokus pada H0 : β = 0 (hipotesis independensi).1) atau ]. standardized yang sesuai [N(0. Uji Wald menggunakan log Likelihood pada . • Uji score menggunakan log likelihood pada β = 0 melalui derivatif log likelihood pada titik tersebut.

maka uji Wald tidak sekuat uji Likelihood-rasio dan bahkan dapat menunjukkan perilaku menyimpang. Selang untuk β dihasilkan dari pembalikan uji dari H0 : β = β0. Untuk pendekatan Wald. Interval adalah kumpulan dari β0 dimana statistik uji Chi-Squarenya tidak lebih besar daripada . ketiga tes tersebut biasanya memberikan hasil yang sama.Tipe Inferensi • Untuk sampel besar. Uji Likelihood-rasio lebih disukai daripada Uji Wald. intervalnya adalah . hal ini berarti . Likelihood-rasio menggunakan informasi yang lebih karena hal itu menggabungkan log likelihood pada H0 sebaik pada . . Ketika | β| relatif besar. • Selang kepercayaan lebih informatif daripada uji-uji.

• Tiap metode inferensi juga dapat menghasilkan selang kepercayaan dan uji untuk sampel kecil. memiliki SE sampel besar yang diberikan oleh estimasi square root dari: • Selang kepercayaan 95% untuk adalah Substitusi setiap endpoint ke transformasi inverse . seperti π(x) pada berbagai nilai x. karakteristik lain mungkin memiliki kepentingan yang lebih besar daripada β.Tipe Inferensi • Untuk meringkas hubungan. . Untuk fixed . memberikan interval yang sesuai untuk . .

Pada masing-masing pengaturan x. Itu semua adalah fitted value. Jika model yang lebih kompleks tidak memberikan kesesuaian yang lebih baik. • Pendekatan lain untuk mendeteksi lack of fit search untuk banyak cara model gagal.Checking Goodness of Fit. Model yang lebih kompleks mungkin berisi sebuah efek nonlinier. Hali ini simpel ketika variabel penjelas hanya kategori. maka ini akan menyediakan beberapa jaminan bahwa model yang dipilih adalah masuk akal. Ungrouped and Grouped Data • Dalam prakteknya. Untuk beberapa tipe data biner. tidak ada jaminan bahwa model regresi logistik tertentu sesuai dengan data. Model-model dengan multiple prediction akan mempertimbangkan interaksi. salah satu akan mengalikan perkiraan probability dari dua hasil banyaknya subjek yang diatur untuk memenuhi frekuensi ekspektasi estimasi untuk y = 0 dan y = 1. . seperti bentuk kuadratik. salah satu cara untuk mendeteksi lack of fit adalah menggunakan uji Likelihood-rasio untuk membandingkan model dengan model yang lebih kompleks.

3 bahwa kita menyebutkan diantara grouped and ungrouped data untuk model binomial. X2 dan G2 mendekati distribusi Chi-Square. Ungrouped and Grouped Data • Uji dari model membandingkan jumlah observasi dan fitted value menggunakan statistik Pearson X2 atau Likelihood-rasio G2.5. mengurangi banyaknya parameter di dalam model dari banyaknya parameter di dalam saturated model. sebagai peningkatan jumlah.Checking Goodness of Fit. Saturated model berbeda pada dua kasus. Sebuah asimtotik distribusi Chi-Square hasil deviance sebagai dengan banyaknya parameter yang tetap di dalam model dan karenanya sebuah jumlah yang tetap dari pengaturan nilai prediktor. Untuk jumlah pengaturan yang tetap. Derajat bebas disebut residual df untuk model. • Alasan pembatasan untuk prediktor kategori untuk uji secara umum berhubungan dengan perbedaan di Section 4. .

dan tidak mempunyai batas pada distribusi chi square. akan tetapi masih berguna dalam membandingkan model untuk memeriksa bentuk kuadrat • dapat diterapkan dalam berbagai perkiraan untuk pengamatan berkelompok dan nilai yang cocok untuk sebuah partisi dari nilai x.Pengecekan kebaikan suai (goodness of fit) data tidak berkelompok dengan cara pengelompokan Sebagai catatan. seumpama jumlah variabel penjelas meningkat. sebagian besar memiliki perhitungan yang sangat kecil . meskipun kelompok nilai secara keseluruhan untuk setiap variabel dapat menghasilkan sebuah tabel kontingensi dengan jumlah sel yang besar.: • dengan data tidak berkelompok atau penduga yang kontinu atau hampir kontinu.

g. ( i 1 g  ( j yij   j  ij ) 2 j  ij )[1  ( j  ij ) / n] ..  ij Menunjukan coresponding fitted probability untuk model yang tepat dari data yang tidak berkelompok. y ij Menunjukan hasil biner untuk pengamatan j dalam group i pada partisi..…….…..• Pembentukan ini merupakan dasar dari uji Hosmer dan Lemeshow (19980) yang mengemukakan statistik pearson yang membandingkan pengamatan dengan perhitungan yang pas untuk partisi ini.. j=1. i=1.ni ..

• Bagaimanapun. .• Ketika banyak pengamatan yang memiliki peluang estimasi yang sama. dan berbeda software dapat menghasilkan nilai yang berebda. Hosmer dan Lemeshow mencatat bahwa ketika jumlah perbedaan pola nilai kovariat sama dengan ukuran sampel. karena pengamatan dalam kelompok merupakan percobaan yang tidak identik. Df = g-2. distribusi nol mendekati distribusi chisquare dengan derajat bebas. ada beberapa kesewenang2an dalam pembentukan kelompok. Statistik ini tidak memiliki batas distribusi chi square. Dan karena pengamatan dalam kelompok tidak memiliki sebaran peluang yang umum.

dengan kategori I. Model logit dengan faktor adalah . Nyatakan Yi sebagai binomial dengan parameter πi.3.3 MODEL LOGIT DENGAN PREDIKTOR KATEGORIK 5.1 ANOVA-Type Representasi Faktor • Pertimbangkan faktor X tunggal.5. Dalam baris i dari tabel I x 2. yi adalah jumlah hasil kolom pertama (sukses) dari uji coba ni.

Salah satu parameter dapat diatur ke 0. Misalnya.• Sisi kanan persamaan (5. X memiliki I-1 parameter nonredundan.4) menyerupai rumus model untuk cara sel dalam ANOVA satu arah. kita dapat merecode sehingga menjadi benar. bentuk β𝑖 = βi – β1 dan α = α + β1 yang memenuhi β1=0. Maka . Dengan kategori I. katakanlah βi = 0. Jika nilainya tidak memenuhi.

Karena ini setara dengan π1 = . = πI. { βi } berlaku seperti model (5.4).. β1= β2 = .. model ini hanya dengan sebuah intersep menentukan independensi dari X dan Y secara statistik.• Ketika β1=0. • Untuk setiap {πi > 0}. α sama dengan logit dalam baris I.. = βI .. Model ini mempunyai banyak parameter I sebagai pengamatan binomial. Jadi. dan βi adalah perbedaan antara logits dalam baris i dan I. βi sama dengan rasio log odds untuk pasangan baris-baris itu. . Ketika sebuah faktor tidak berpengaruh.

2 Dummy Variabel dalam Model Logit • Sebuah persamaan setara model (5. x=1 dalam kategori 1 dan x=-1 dalam kategori 2. Hasil ini dari efek coding untuk dummy variabel. Misalkan X yang memiliki I=2 kategori. .1. Modelnya adalah • Cara lain untuk memaksakan kendala bentuk 𝑖 𝛽𝑖 ..4) menggunakan variabel dummy.5. i = 1. I . Misalkan xi=1 untuk pengamatan di baris i dan xi=0 untuk lainnya.3.β2. ... jadi β1 = .

• Hasil substantif yang sama terjadi untuk setiap skema coding. Sebaliknya. Berbagai sistem kendala menghasilkan nilai yang berbeda. menggunakan variabel dummy dengan nilai referensi β2 = 0. Reparameterisasi model dapat merubah parameter estimasi tapi tidak mengubah model fit. untuk efek coding dengan ± 11 variabel dummy maka β1 . rasio log odds sama dengan β1 β2 = β1 . Perbedaan β𝑎 − β𝑏 untuk pasangan (a.β2 = β1 – (-β1) = 2β1. Untuk model (5. {𝛼 + β𝑖 } oleh karena itu {𝜋𝑖 } adalah sama. terlepas dari kendala untuk {β1}. Dengan demikian.β2 = 0 .b) kategori X adalah identik dan mewakili estimasi rasio log odds. rasio log odds yang sama β1 . • Nilai βi atau β𝑖 tidak relevan untuk kategori tunggal. Sebuah parameter atau estimasinya masuk akal hanya dengan dibandingkan dengan satu untuk kategori lain. misalnya. .4). exp(β𝑎 − β𝑏) adalah estimasi peluang sukses dalam kategori a dari X dibagi dengan estimasi peluang sukses dalam kategori b dari X. Untuk prediktor biner.

Joint probability nya untuk N fungsi binomial adalah 𝑁 𝑁 𝜋 𝑥𝑖 𝑖=1 𝑦𝑖 1 − 𝜋 𝑥𝑖 𝑛𝑖 −𝑦𝑖 = 𝑖=1 𝜋 𝑥𝑖 𝑒𝑥𝑝 log 1 − 𝜋 𝑥𝑖 𝑦𝑖 𝑁 1 − 𝜋 𝑥𝑖 𝑖−1 𝑛𝑖 = exp 𝜋 𝑥𝑖 𝑖 log 1−𝜋 𝑥𝑖 𝑁 𝑖−1 1 − 𝜋 𝑥𝑖 𝑛𝑖 . dimana 𝑛𝑖.Likelihood equation ketika ada lebih dari 1 observasi/ percobaan pada nilai xi maka jumlah observasi dinyatakan ni dan jumlah sukses adalah xi . 𝑛𝑁 = 𝑛 . 𝑛2. … . Yi menunjukan sukses yang dihitung dari sekian percobaan dimana Yi…YN adalah independent binomial dengan mean E(Yi)= 𝑛𝑖 𝜋𝑖 𝑥𝑖 . Joint probability nya untuk N fungsi binomial adalah .

… .pada model. logit ke – i adalah exp 𝑖 𝑦𝑖 𝑗 𝑗 𝛽𝑗𝑥𝑖𝑗. jadi persamaan eksponensialnya menjadi 𝛽𝑗 . 𝑗 = 1. karena exp 𝑘 𝛽𝑘𝑥𝑖𝑘 1 + exp 𝑘 𝛽𝑘𝑥𝑖𝑘 𝜕𝐿(𝛽) = 𝜕 𝛽𝑗 exp 𝛽𝑘𝑥𝑖𝑘 𝑘 𝛽𝑘𝑥𝑖𝑘 𝑦𝑖𝑥𝑖𝑗 − 𝑖 𝑖 𝑛𝑖𝑥𝑖𝑗 dimana 𝜋𝑖 = 1+exp 𝑘 . sehingga Likelihood Rationya adalah 𝑦𝑖𝑥𝑖𝑗 − 𝑖 𝑖 𝑛𝑖𝜋𝑖𝑥𝑖𝑗 = 0. 𝑝. . dan karena 1 − 𝜋 𝑥𝑖 = 1 + exp 𝑗 𝛽𝑗𝑥𝑖𝑗 = exp 𝑗 𝑖 𝑦𝑖 𝑥𝑖𝑗 𝛽𝑗𝑥𝑖𝑗 −1 . maka log likelihoodnya sama dengan : 𝐿 𝛽 = 𝑗 𝑖 𝑦𝑖𝑥𝑖𝑗 𝛽𝑗 − 𝑖 𝑛𝑖 log 1 + exp 𝑗 𝛽𝑗𝑥𝑖𝑗 turunanan dari fungsi log nya 𝜕𝐿(𝛽) = 𝜕 𝛽𝑗 0 .

seperti pada odds rasio. logit adalah convidence interval untuk logit yang benar. Untuk jumlah sampel yang besar.. . Kita dapat juga membuat convidence interval untuk peluang respon pada pengaturan x tertentu. Titik akhir kebalikan pada interval yang sesuai untuk menggunakan transformasi π=exp(logit)/[1+exp(logit)]. kita dapat melakukan inferensia terhadap β dan dihubungkan pada efek. • Estimasi varians dari logit adalah . • Distribution of Probability Estimator • Menggunakan .

• Newton-Raphson Method Applied to logistik regresion • Kita kembali ke Section 4. Misalkan • Disini. perkiraan t untuk .1 untuk metode “ITERATIVE” Newton-Raphson.6. . diperoleh dari melalui .

21). Ini digunakan untuk memperoleh 𝜋 (𝑡+1). yang mana dalam konteks ini adalah: 𝛽(𝑡+1) = 𝛽(𝑡) + {𝑋 ′ 𝑑𝑖𝑎𝑔 𝑛𝑖 𝜋𝑖 𝑡 1 − 𝜋𝑖 𝑡 (𝑡) (𝑡) 𝑋}−1 𝑋 ′ 𝑦 − 𝜇 𝑡 .22) Dimana 𝜇𝑖 = 𝑛𝑖 𝜋𝑖 .21) menghasilkan 𝜋 (0) . persamaan (5. Dengan perkiraan pertama 𝛽(0) .Kita menggunakan 𝑢(𝑡) dan 𝐻(𝑡) dengan formula (4. Dalam . dan untuk t > 0 diproses berulang-ulang sebagaimana yang diperlihatkan menggunakan (5. dan juga seterusnya.39) untuk memperoleh nilai 𝛽(𝑡+1) berikutnya.22) dan (5. (5.

42)]. 𝛽(𝑡+1) memiliki iterative reweighted least squares dari (𝑋 ′𝑉𝑡 𝑋)−1 𝑋′𝑉𝑡−1 𝑧 (𝑡) . 𝑧 (𝑡) adalah bentuk linear dari fungsi link logit untuk data sampel.3. Dari argument di Section 4. Matrik 𝐻(𝑡) menuju ke 𝐻 = −𝑋 ′ 𝑑𝑖𝑎𝑔 𝜋𝑖 𝑡 1 − 𝜋𝑖 𝑡 𝑋. Estimasi asimtot matrik covariance dari 𝛽 adalah produk dari metode Newton-Raphson. menuju ke estimasi ML 𝜋 dan 𝛽 (Walker dan Duncan 1967).1. dimana 𝑧 (𝑡) mempunyai elemen (𝑡) 𝑧𝑖 −1 = 𝑙𝑜𝑔 𝜋 𝑖 (𝑡) (𝑡) 1−𝜋 𝑖 + 𝑦 𝑖 −𝑛 𝑖 𝜋 𝑖 𝑡 (𝑡) 𝑡 𝑛 𝑖 𝜋 𝑖 (1−𝜋 𝑖 ) . Dari Section 3.perbatasan. dimana matrik penimbang berubah tiap ulangan. dievaluasi pada 𝜋 (𝑡) [lihat (4.20).6 elemen 𝑉𝑡 asimtot variansnya diestimasi dari logit sampel. dinamakan −𝐻−1 . Ekspresi di dini. 𝜋 (𝑡) dan 𝛽(𝑡) . Dengan (5.23) Dan dimana 𝑉𝑡 adalah matrik diagonal dengan elemen {1 𝑛𝑖 𝜋𝑖 𝑡 (1 − 𝜋𝑖 𝑡 )}. .6. Estimasi ML adalah batas dari rangkaian dari estimasi least squares tertimbang. (5.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->