Analisis Sentimen Teks Code-Mixed Bahasa Indonesia-Jawa Menggunakan Metode Fine-Tuning Model Nusabert

  • Sopian Syauri Universitas Singaperbangsa Karawang
  • Sofi Defiyanti Universitas Singaperbangsa Karawang
  • Dadang Yusup Universitas Singaperbangsa Karawang

Abstrak

Pesatnya pertumbuhan pengguna platform X di Indonesia memicu lahirnya fenomena code-mixing
antara Bahasa Indonesia dan Bahasa Jawa dalam komunikasi digital. Teks campuran ini
mengandung nuansa linguistik lokal yang sulit diproses oleh model NLP berbasis bahasa umum.
Penelitian ini mengimplementasikan model NusaBERT dengan teknik fine-tuning untuk
melakukan analisis sentimen pada teks code-mixed Indonesia-Jawa yang dikumpulkan dari
platform X. Data sebanyak 1.685 teks diperoleh melalui teknik crawling menggunakan kata kunci
berbahasa Jawa, kemudian dilabeli secara otomatis menggunakan AI (Gemini dan Claude) dengan
validasi manual oleh penutur asli. Eksperimen dilakukan dalam sembilan skenario yang
mengombinasikan tiga variasi pembagian data (70:30, 80:20, 90:10) dan tiga nilai learning rate
(2×10⁻⁵, 3×10⁻⁵, 5×10⁻⁵). Hasil terbaik diperoleh pada Skenario 3 dengan pembagian data 70:30
dan learning rate 5×10⁻⁵, menghasilkan nilai Accuracy 0,8538, Precision 0,8539, Recall 0,8538,
dan F1-Score 0,8504. Penelitian ini membuktikan bahwa NusaBERT yang telah dilatih pada
korpus bahasa daerah Indonesia mampu menangani kompleksitas linguistik teks code-mixed
Indonesia-Jawa secara efektif.

Diterbitkan
2026-07-01