A SHAP-DRIVEN FEATURE SELECTION APPROACH FOR PREDICTIVE MODELING OF ACUTE ARTERIAL DISEASE
Abstrak
ABSTRAK
Ketersediaan data telah lama menjadi tantangan dalam pengembangan model prediktif, khususnya pada domain medis. Tantangan ini terutama dipengaruhi oleh keterbatasan teknologi serta regulasi yang ketat, yang membatasi proses pengumpulan data dalam skala besar, padahal hal tersebut sangat penting untuk melatih model kecerdasan buatan yang andal. Akibatnya, model prediktif rentan mengalami overfitting dan sering kali gagal mencapai kinerja generalisasi yang optimal. Beberapa penelitian telah berupaya mengatasi permasalahan ini dengan menerapkan teknik reduksi dimensi seperti Principal Component Analysis (PCA); namun, pendekatan tersebut menjadi kurang efektif ketika ruang fitur relatif kecil dan interpretabilitas fitur tetap menjadi kebutuhan utama. Untuk mengatasi permasalahan tersebut, penelitian ini mengusulkan penggunaan Shapley Additive Explanations (SHAP) sebagai metode seleksi fitur pada tugas klasifikasi, dengan menggunakan dataset medis terkait penyakit arteri akut sebagai konteks penelitian. Seleksi fitur berbasis SHAP dinilai sangat sesuai pada kondisi data yang terbatas, karena mampu mengevaluasi kontribusi setiap fitur terhadap prediksi model secara independen, sehingga tetap menjaga interpretabilitas dan relevansi prediktif. Pada penelitian ini, proses seleksi fitur dilakukan dengan mempertahankan 11 fitur yang memiliki nilai SHAP di atas nilai baseline, kemudian dilanjutkan dengan proses klasifikasi menggunakan algoritma random forest. Hasil eksperimen menunjukkan bahwa model SHAP–Random Forest (SHAP-RF) mencapai kinerja yang lebih unggul pada dataset penyakit arteri koroner, dengan nilai ROC–AUC sebesar 0,96 dan AU–PRC sebesar 0,90. Kinerja tersebut melampaui metode seleksi fitur konvensional, termasuk PCA, seleksi fitur berbasis korelasi, serta seleksi fitur berbasis pengetahuan pakar. Secara keseluruhan, temuan penelitian ini menunjukkan bahwa seleksi fitur berbasis SHAP secara signifikan meningkatkan akurasi dan efisiensi model klasifikasi random forest, sehingga menjadi pendekatan yang kuat dan efektif untuk seleksi fitur dalam pemodelan prediktif medis, khususnya pada kasus penyakit arteri koroner.

