Evaluasi Kinerja Datamining Pada Dataset Pendaftaran Mahasiswa Baru Dengan Class Yang Tidak Seimbang
Abstract
Topik penelitian ini di bidang EDM (Educational Datamining) yang bertujuan
memanfaatkan datamining dalam memperoleh informasi yang lebih bernilai dari
database akademik Perguruan Tinggi. Penggunaan data pendaftaran mahasiswa
baru karena karakteristik datanya yang umumnya tidak seimbang (imbalanced
class) sehingga dapat digunakan untuk menguji dan membandingkan kinerja model
pembelajaran machine learning. Perkakas yang digunakan adalah Jupyter sebagai
editor, Python sebagai bahasa pemrogramannya dan Library sklearn sebagai modul
terpopular di bidang machine learning. Metodologi penelitian mengacu kepada
CRISP-DM sebagai metodologi yang bersifat terbuka. Percobaan dilakukan
menggunakan 7491 data, 5 kolom sebagai fitur dan 1 kolom sebagai target. Kelas
bernilai 1 sebanyak 6197 (82,5%) dan yang bernilai 0 sebanyak 1312 (17,5%).
Kemudian dibangun model klasifikasi dengan pembelajaran berbeda yaitu : SVM
(Support Vector Machine), Logistic Regression, Decision Tree, Naive Bayes, dan
K-Nearest Neighbors (K-NN). Dari hasil percobaan diperoleh rata-rata akurasi
semua model sebesar 0,81 dan nilai rata-rata F Score 0,46. Nilai Akurasi tertinggi
0,82, dan akurasi terendah 0,81. Nilai F Score tertinggi 0,51 dan nilai F Score
terendah adalah 0,44. Hasil ini kembali mengungkap bahwa pada kasus dengan
komposi data target yang tidak seimbang (Imbalanced Classes) memungkinkan
untuk menghasilkan akurasi yang baik tetapi tidak menjamin nilai F Score baik.