REGRESI LOGISTIK MULTINOMIAL
Konsep, Labelling,
Reference Category, Odds Ratio
(Disertai Contoh Kasus Terapan)
Hallo
sobat semua, apa kabarnya sooob? Hehehe… Wah udah lama nih saya gak kasi
postingan lagi hehehe.. Oke deeh, kalau sebelumnya saya sudah pernah memposting
tulisan dan contoh kasus yang diselesaikan dengan analisis regresi logistik
biner (binary logistic regression),
maka kali ini saya akan menulis kembali tentang regresi logistik (reglog) multinomial.
Reglog multinomial ini disebut juga dengan polychotomous
logistic atau polytomous logistic,
tetapi dalam postingan ini saya akan pakai istilah multinomial ya sooob hehehe...
Tanpa
bermaksud memaksa, saya sekedar saran, naaah bagi sobat yang masih awam dengan
reglog, ada baiknya neh sobat terlebih dulu membaca postingan saya sebelumnya
yang berjudul, “Konsep Regresi Logistik dan Contoh Kasus Regresi Logistik Biner”
disini. Tujuannya agar sobat lebih mempermudah
sobat memahami dan belajar tentang reglog multinomial.
Saya
termotivasi menulis postingan ini mengingat cukup banyak yang mengeluhkan berbagai
hal terkait dengan analisis reglog khususnya reglog multinomial dari sisi
konsep pemahaman, pendefinisian dummy variable,
pemanfaatan reference category dan interpretasi
nilai Odds Ratio (OR). Naaah, saya
yakin kalau sobat sudah tahu kita menggunakan regresi logistik (reglog) kasus multinomial,
jika ingin melihat pengaruh satu atau beberapa variabel independen
(kuantitatif/kovariat dan kualitatif/faktor) terhadap sebuah variabel dependen
(kualitatif) yang memiliki lebih dari dua kategori. Perlu juga sobat pahami
bahwa reglog tidak membutuhkan asumsi kenormalan.
Berikut
kutipan dari sumber buku yang saya ambil dari sebuah textbook:
"In the linear regression model we assume that an observation of
the outcome variable may be expressed as y
= E(Y|x) + ε. The quantity ε is called the error and expresses an observation’s
deviation from the conditional mean. The most common assumption is that ε follows a normal distribution with
mean zero and some variance that is constant across levels of the independent
variable. It follows that the conditional distribution of the outcome variable
given x is normal with mean E(Y|x), and avariance that is constant. This is not the case with a dichotomous outcome variable" (lihat Hosmer,
W.David, “Applied Logistic Regression, 3rd edition, hal 7).
Nah, sobat sudah tahu dong, misalnya
dalam analisis regresi sederhana dan berganda, kita menguji apakah asumsi kenormalan
terpenuhi, dilihat dari distribusi residual variabel dependennya. Hal ini saya
sampaikan karena tidak sedikit yang masih bertanya-tanya tentang apa itu uji
asumsi kenormalan. Residual sendiri pun kita tahu merupakan selisih antara data
asli (nilai variabel dependen) dengan data estimasi (nilai variabel dependen
dari pemodelan). Selanjutnya, selisih inilah yang mau kita uji apakah benar
terdistribusi secara normal (mean=0,
variance=1) atau tidak.
Bagaimana dengan reglog sendiri? Perhatikan
bahwa jenis data variabel dependen (Y) pada reglog adalah kualitatif/kategorik
(bisa nominal atau ordinal), bukan seperti regresi sederhana dan berganda yang jenis
data variabel dependennya adalah kuantitatif (interval atau rasio). Kita pun tidak
bisa menghitung nilai rata-rata dan varians dari kumpulan data yang berskala
kualitatif. Jadi, dalam reglog, residual variabel dependennya tidak lagi
terdistribusi secara normal, namun akan terdistribusi
secara binomial atau multinomial.
Penulisan label dan penentuan reference category pada analisis reglog
juga perlu diperhatikan. Nah, misal dalam sebuah riset dengan analisis reglog,
kita menggunakan variabel dependen dengan tiga kategori. Misalnya, kategori A,
B dan C. Masing-masing diberi label 0,1 dan 2. Oleh karena kita menggunakan 3
kategori, maka nanti akan ada dua fungsi logitnya sooob. Lalu, kita harus
menentukan katgori yang berlabel 0 atau Y=0 sebagai reference/baseline yang
nantinya menjadi dasar pembentuk fungsi logit untuk membandingkan kategori
lainnya (Y=1 dan Y=2) terhadap Y=0).
Kedua fungsi logit yang akan terbentuk
sebagai berikut:
Selanjutnya, rumusan umum mencari nilai Odds Ratio
untuk mengetahui besarnya kecenderungan sebagai berikut:
(Lihat Hosmer, W.David, “Applied Logistic Regression, 3rd edition,
hal 269-273)
Interpretasi nilai Odds Ratio (OR) antara variabel independen kuantitatif tidak sama
dengan variabel kualitatif. Misal, dalam sebuah riset, dketahui bahwa variabel X1 adalah jam
belajar (kuantitatif) dalam satuan jam dan X2 adalah jenis kelamin (0=pria, 1=wanita) sedangkan variabel dependennya adalah
IPK (0 = rendah, 1= sedang, 2= tinggi).
Jika untuk
ORj (jam belajar : nilai IPK yang
tinggi (Y= 2) dengan reference category IPK
rendah (Y= 0) sebesar 1,133 maka nilai OR ini diinterpretasikan bahwa
seseorang dengan jam belajar satu jam lebih
lama akan memiliki kecenderungan untuk memperoleh IPK tinggi sebesar 1,133 kali
dari seseorang yang jam belajarnya lebih sedikit (satu jam). Jika untuk ORk (jenis kelamin : IPK yang tinggi (Y=2) dengan reference category IPK rendah (Y=0)
sebesar 1,376 maka nilai OR diinterpretasikan bahwa kecenderungan wanita untuk mendapatkan nilai IPK yang tinggi adalah
1,376 kali dari pria.
Nah, selanjutnya, kita akan masuk ke contoh kasus
penerapannya neh soob yang akan segera dirilis setelah postingan ini. Sementara
saya cukupkan sampai disini dulu yaaa. Oke deeh, semoga postingan ini
bermanfaat buat kita semua soooob. Tetap semangat belajarnya sooob dan harus ada
semangat untuk bisa hehehe :)
hal mendasar apa yang bisa dijadikan patokan kapan harus menggunakan regresi logistik multinominal dan regresi ordinal?
BalasHapus@ririn: skala data variabel y nya mb
Hapusdalam analisis logistik, ada gak sih syarat khusus sebelum pengujian, misalnya kayak reg linier berganda kan kita harus uji normalitas dulu sebelum nguji reg berganda. bagaimana dengan reg logistik?
BalasHapus@agnes: untuk reglog tidak perlu uji asumsi kenormalan krn skala data Y nya kualitatif. Kita tidak bs menghitung varians atau rata2 dari data kualitatif. Kita uji asumsi non multikolinieritas saja jika var bebas yang digunakan lbh dari satu.
BalasHapusmas ada nda skripsinya kita tentang model regresi logistik multinominal tentang pemilihan sekolah..
BalasHapusterimakasih mas pengetahuannya. saya ingin bertanya, apabila variabel y nya ada 4 kategori bagaimana rumus rasio oddsnya?
BalasHapusKomentar ini telah dihapus oleh pengarang.
BalasHapusmau nanya mas. berapa minimal observasi yg digunakan utk multinominal logistic regression?
BalasHapussyarat2 datanya harus seperti ap?
uji apa saja yg harus terpenuhi?
Terima kasih
mau tanya, sebagai pembanding yg Y nya itu kita menentukan sndri atau memang ada urutannya sehingga salah satu variabel Y nya harus menjadi pembanding?
BalasHapusapakah ada patokan dalam memilih kategori referensi ? mohon bantuanya...
BalasHapusKenapa mas memilih reference kategory nya yg Y=0 ? Tolong dibalas ya mas.. Butuh pencerahan untuk tugas akhir. Terima kasih.
BalasHapusbagaimana skala variabel bebas yang digunakan untuk reglog multinomial ini?
BalasHapusapa yang menjadi dasar pemilihan pada refrence cathegory nya ya mas?
BalasHapuskita bisa mengubah reference cathegory untuk variabel bebas?
BalasHapusSelamat malam mas, terimakasih atas penjelasannya yang sangat membantu sekali dalam pengerjaan tugas akhir saya... Saya mau bertanya mas, untuk penentuan reference categorynya itu apakah bisa ditentukan oleh saya sendiri? kebetulan kategori pada variabel dependen saya itu ada sepeda motor dan mobil... apakah saya bebas memilih dari salah satu itu? ataukah ada persyaratannya ya? Terimakasih mas^^
BalasHapus