Note [127] Berkson’s Paradox di Data Science: perokok berkorelasi negatif dengan penderita Covid-19

Studi kasus mengungkapkan di antara para penderita Covid-19 yang dirawat di rumah sakit didapati jumlah proporsi perokok yang sangat rendah dibandingkan jumlah proporsi pasien Covid-19 yang tidak merokok.

Ini akan mengarahkan seseorang untuk berkesimpulan bahwa merokok atau menkonsumsi nikotin mungkin memiliki efek pencegahan terhadap Covid-19.

Korelasi negatif antara jumlah perokok dengan penderita Covid-19 yang dirawat di rumah sakit ini dilaporkan tahun 2020 oleh European Comission lewat tulisan berjudul Smoking and COVID-19 – A review of studies suggesting a protective effect of smoking against COVID-19.

Kalau tergesa-gesa disimpulkan, fenomena korelasi negatif ini akan menghasilkan kesimpulan bahwa kadar nikotin di tubuh perokok akan mengurangi kemungkinan seseorang terkena infeksi virus Covid-19.

Namun di lain pihak, merokok merupakan faktor risiko yang terkenal bagi kehadiran penyakit pernapasan, seperti halnya yang banyak dijumpai pada para penderita Covid-19. Seharusnya korelasi antar perokok dan penderita Covid-19 akan bernilai positif.

Jadi bagaimanakah kita akan menjelaskan kontradiksi ini?

Fenomena ini bisa menjadi contoh kasus Collider Bias yang bisa disebut pula dengan nama Berkson’s Paradox. Ini fenomena paradoks statistik.

Penjelasan terhadap paradoks ini akan bisa dipahami bila dihadirkan faktor ketiga, selain faktor perokok dan faktor penderita Covid-19. Faktor ketiga yang dimaksud disini berupa perawatan di rumah sakit.

Faktor ketiga ini akan berbenturan (collide) dengan dua faktor lainnya. Ini berarti baik perokok sendiri maupun penderita COVID-19 yang parah akan meningkat kemungkinannya akan dirawat di rumah sakit.

Paradoks Berkson justru akan muncul ketika kita mengabaikan kehadiran collider yang berperan sebagai faktor ketiga. Yaitu ketika kita hanya mengamati data dari orang-orang yang dirawat di rumah sakit saja, tidak mempertimbangkan populasi secara keseluruhan (termasuk yang tidak dirawat di rumah sakit).

Bila dilibatkan data dari seluruh populasi yang terkena Covid-19, baik yang dirawat di rumah sakit maupun yang melakukan perawatan mandiri, ternyata akan diperoleh korelasi yang positif antara perokok dan penderita Covid-19.

Hasil ini sesuai dengan yang diharapkan. Ini menepiskan hasil yang dilaporkan sebelumnya tentang korelasi negatif antara jumlah perokok dan jumlah penderita Covid-19.

Perokok yang dirawat di rumah sakit bisa jadi bukanlah penderita Covid-19, melainkan karena penyakit lain yang ditimbulkan oleh aktivitas merokoknya, misalnya serangan jantung, kanker, diabetes dsb.

Pasien yang di rawat di rumah sakit kemungkinan besar tidak mencerminkan status kesehatan populasi secara keseluruhan.

Dengan tidak adanya studi yang dirancang khusus, hipotesis tentang efek perlindungan nikotin yang berpotensi pada gejala Covid-19 tidak dapat diverifikasi. Hipotesis apa pun tentang efek nikotin pada gejala Covid-19 tetap bersifat spekulatif.

Contoh ini sangat mirip dengan karya asli Berkson pada tahun 1946. Saat itu ia melihat korelasi negatif antara kolesistitis (peradangan kandung empedu) dan diabetes pada pasien yang dirawat di rumah sakit. Meskipun diabetes menjadi faktor penyumbang risiko kolesistitis.

Bias pengamatan dan perbedaan subkelompok sampel dapat dengan mudah menghasilkan berbagai paradoks statistik dalam aplikasi data science.

Oleh karena itu, bila kehadiran paradoks-paradoks ini diabaikan maka itu bisa merusak kesimpulan analisisnya.

Referensi:
https://www.kdnuggets.com/2021/04/top-3-statistical-paradoxes-data-science.html

https://op.europa.eu/en/publication-detail/-/publication/0d4b3889-046a-11eb-a511-01aa75ed71a1/language-en

Categories: Tags:

Leave a comment