Welcome to Wajibstat Analysis Jibvela17...

NEW WAJIBSTAT ANALYSIS IS COMING***

Selasa, 11 Februari 2014

REGRESI LOGISTIK MULTINOMIAL Konsep Pemahaman, Labelling, Reference Category, Odds Ratio (Disertai Contoh Kasus Terapan)



REGRESI LOGISTIK MULTINOMIAL
Konsep, Labelling, Reference Category, Odds Ratio
(Disertai Contoh Kasus Terapan)


Hallo sobat semua, apa kabarnya sooob? Hehehe… Wah udah lama nih saya gak kasi postingan lagi hehehe.. Oke deeh, kalau sebelumnya saya sudah pernah memposting tulisan dan contoh kasus yang diselesaikan dengan analisis regresi logistik biner (binary logistic regression), maka kali ini saya akan menulis kembali tentang regresi logistik (reglog) multinomial. Reglog multinomial ini disebut juga dengan polychotomous logistic atau polytomous logistic, tetapi dalam postingan ini saya akan pakai istilah multinomial ya sooob hehehe...

Tanpa bermaksud memaksa, saya sekedar saran, naaah bagi sobat yang masih awam dengan reglog, ada baiknya neh sobat terlebih dulu membaca postingan saya sebelumnya yang berjudul, “Konsep Regresi Logistik dan Contoh Kasus Regresi Logistik Biner” disini. Tujuannya agar sobat lebih mempermudah sobat memahami dan belajar tentang reglog multinomial.

Saya termotivasi menulis postingan ini mengingat cukup banyak yang mengeluhkan berbagai hal terkait dengan analisis reglog khususnya reglog multinomial dari sisi konsep pemahaman, pendefinisian dummy variable, pemanfaatan reference category dan interpretasi nilai Odds Ratio (OR). Naaah, saya yakin kalau sobat sudah tahu kita menggunakan regresi logistik (reglog) kasus multinomial, jika ingin melihat pengaruh satu atau beberapa variabel independen (kuantitatif/kovariat dan kualitatif/faktor) terhadap sebuah variabel dependen (kualitatif) yang memiliki lebih dari dua kategori. Perlu juga sobat pahami bahwa reglog tidak membutuhkan asumsi kenormalan.

Berikut kutipan dari sumber buku yang saya ambil dari sebuah textbook:
"In the linear regression model we assume that an observation of the outcome variable may be expressed as y = E(Y|x) + ε. The quantity ε is called the error and expresses an observation’s deviation from the conditional mean. The most common assumption is that ε follows a normal distribution with mean zero and some variance that is constant across levels of the independent variable. It follows that the conditional distribution of the outcome variable given x is normal with mean E(Y|x), and avariance that is constant. This is not the case with a dichotomous outcome variable" (lihat Hosmer, W.David, “Applied Logistic Regression, 3rd edition, hal 7).

Nah, sobat sudah tahu dong, misalnya dalam analisis regresi sederhana dan berganda, kita menguji apakah asumsi kenormalan terpenuhi, dilihat dari distribusi residual variabel dependennya. Hal ini saya sampaikan karena tidak sedikit yang masih bertanya-tanya tentang apa itu uji asumsi kenormalan. Residual sendiri pun kita tahu merupakan selisih antara data asli (nilai variabel dependen) dengan data estimasi (nilai variabel dependen dari pemodelan). Selanjutnya, selisih inilah yang mau kita uji apakah benar terdistribusi secara normal (mean=0, variance=1) atau tidak.

 Bagaimana dengan reglog sendiri? Perhatikan bahwa jenis data variabel dependen (Y) pada reglog adalah kualitatif/kategorik (bisa nominal atau ordinal), bukan seperti regresi sederhana dan berganda yang jenis data variabel dependennya adalah kuantitatif (interval atau rasio). Kita pun tidak bisa menghitung nilai rata-rata dan varians dari kumpulan data yang berskala kualitatif. Jadi, dalam reglog, residual variabel dependennya tidak lagi terdistribusi secara normal, namun akan terdistribusi secara binomial atau multinomial.

Penulisan label dan penentuan reference category pada analisis reglog juga perlu diperhatikan. Nah, misal dalam sebuah riset dengan analisis reglog, kita menggunakan variabel dependen dengan tiga kategori. Misalnya, kategori A, B dan C. Masing-masing diberi label 0,1 dan 2. Oleh karena kita menggunakan 3 kategori, maka nanti akan ada dua fungsi logitnya sooob. Lalu, kita harus menentukan katgori yang berlabel 0 atau Y=0 sebagai reference/baseline yang nantinya menjadi dasar pembentuk fungsi logit untuk membandingkan kategori lainnya (Y=1 dan Y=2) terhadap Y=0).

Kedua fungsi logit yang akan terbentuk sebagai berikut:



Selanjutnya, rumusan umum mencari nilai Odds Ratio untuk mengetahui besarnya kecenderungan sebagai berikut:
 

(Lihat Hosmer, W.David, “Applied Logistic Regression, 3rd edition, hal 269-273)

Interpretasi nilai Odds Ratio (OR) antara variabel independen kuantitatif tidak sama dengan variabel kualitatif. Misal, dalam sebuah riset, dketahui bahwa variabel  X1 adalah jam belajar (kuantitatif) dalam satuan jam dan X2 adalah jenis kelamin (0=pria, 1=wanita) sedangkan variabel dependennya adalah IPK (0 = rendah, 1= sedang, 2= tinggi).

 Jika untuk ORj (jam belajar : nilai IPK yang tinggi (Y= 2) dengan reference category IPK rendah (Y= 0) sebesar 1,133 maka nilai OR ini diinterpretasikan bahwa seseorang dengan jam belajar satu jam lebih lama akan memiliki kecenderungan untuk memperoleh IPK tinggi sebesar 1,133 kali dari seseorang yang jam belajarnya lebih sedikit (satu jam). Jika untuk ORk  (jenis kelamin : IPK yang tinggi (Y=2) dengan reference category IPK rendah (Y=0) sebesar 1,376 maka nilai OR diinterpretasikan bahwa kecenderungan wanita untuk mendapatkan nilai IPK yang tinggi adalah 1,376 kali dari pria.
 
Nah, selanjutnya, kita akan masuk ke contoh kasus penerapannya neh soob yang akan segera dirilis setelah postingan ini. Sementara saya cukupkan sampai disini dulu yaaa. Oke deeh, semoga postingan ini bermanfaat buat kita semua soooob. Tetap semangat belajarnya sooob dan harus ada semangat untuk bisa hehehe :)

6 komentar:

  1. hal mendasar apa yang bisa dijadikan patokan kapan harus menggunakan regresi logistik multinominal dan regresi ordinal?

    BalasHapus
    Balasan
    1. @ririn: skala data variabel y nya mb

      Hapus
  2. dalam analisis logistik, ada gak sih syarat khusus sebelum pengujian, misalnya kayak reg linier berganda kan kita harus uji normalitas dulu sebelum nguji reg berganda. bagaimana dengan reg logistik?

    BalasHapus
  3. @agnes: untuk reglog tidak perlu uji asumsi kenormalan krn skala data Y nya kualitatif. Kita tidak bs menghitung varians atau rata2 dari data kualitatif. Kita uji asumsi non multikolinieritas saja jika var bebas yang digunakan lbh dari satu.

    BalasHapus
  4. mas ada nda skripsinya kita tentang model regresi logistik multinominal tentang pemilihan sekolah..

    BalasHapus
  5. terimakasih mas pengetahuannya. saya ingin bertanya, apabila variabel y nya ada 4 kategori bagaimana rumus rasio oddsnya?

    BalasHapus