Analisis Pengaruh Penanganan Imbalanced Dataset Terhadap Kinerja Model Klasifikasi Kualitas Peta Konsep Menggunakan Algoritma Support Vector Machine

Kotot Tri Hartanto; Purnawansyah Purnawansyah; Sitti Rahmah Jabir

doi:10.33096/linier.v3i1.3489

Analisis Pengaruh Penanganan Imbalanced Dataset Terhadap Kinerja Model Klasifikasi Kualitas Peta Konsep Menggunakan Algoritma Support Vector Machine

Kotot Tri Hartanto^(1*); Purnawansyah Purnawansyah⁽²⁾; Sitti Rahmah Jabir⁽³⁾;

(1) Universitas Muslim Indonesia
(2) Universitas Muslim Indonesia
(3) Universitas Muslim Indonesia
(*) Corresponding Author

Abstract

Penilaian kualitas peta konsep sering digunakan untuk melihat pemahaman mahasiswa secara lebih terstruktur, namun proses penilaiannya masih banyak dilakukan secara manual sehingga memerlukan waktu dan berpotensi tidak konsisten. Tantangan lain yang muncul adalah ketidakseimbangan jumlah data antar kelas kualitas, yang dapat membuat model klasifikasi cenderung bias pada kelas mayoritas. Penelitian ini bertujuan menguji pengaruh SMOTE ENN terhadap kinerja Support Vector Machine dalam mengklasifikasikan kualitas proposisi peta konsep. Data yang digunakan berjumlah 691 proposisi dengan empat kelas kualitas, di mana kelas 3 mendominasi sebesar 64,3 persen. Teks diproses melalui tahap pra pemrosesan, kemudian direpresentasikan menggunakan TF IDF dengan ukuran kosakata 321 fitur. Data dibagi menjadi pelatihan dan pengujian dengan rasio 80 banding 20. Eksperimen dilakukan pada dua skenario, yaitu SVM tanpa penyeimbangan sebagai baseline, serta SVM dengan SMOTE ENN yang diterapkan pada data pelatihan sehingga ukuran data pelatihan meningkat dari 552 menjadi 1309 sampel dan distribusi kelas menjadi lebih seimbang. Hasil pengujian menunjukkan bahwa SMOTE ENN meningkatkan recall rata rata antar kelas dari 0,6479 menjadi 0,7149 dan F1 Score rata rata antar kelas dari 0,6806 menjadi 0,7297, serta menurunkan MAE dari 0,2230 menjadi 0,1871. Akurasi mengalami penurunan kecil dari 0,8633 menjadi 0,8561. Namun, penurunan ini disertai peningkatan recall dan F1 rata-rata antar kelas, yang berarti model lebih adil dan lebih baik dalam mendeteksi kelas-kelas yang sebelumnya jarang. Temuan ini mengindikasikan bahwa SMOTE ENN efektif untuk meningkatkan pemerataan performa klasifikasi pada dataset peta konsep yang tidak seimbang

Keywords

peta konsep; klasifikasi kualitas; SMOTE ENN; TF-IDF

Full Text:

PDF

Article Metrics

Abstract view: 134 times
PDF view: 80 times

Digital Object Identifier

https://doi.org/10.33096/linier.v3i1.3489

Cite

How to cite item

References

D. D. Prasetya, A. Pinandito, Y. Hayashi, and T. Hirashima, “Analysis of quality of knowledge structure and students’ perceptions in extension concept mapping,” Res. Pract. Technol. Enhanc. Learn., vol. 17, no. 1, p. 14, Dec. 2022, doi: 10.1186/s41039-022-00189-9.

C. Cischke and S. T. Mueller, “Concept Mapping Assessments as a Tool for Judgment of Learning,” Jul. 29, 2022. doi: 10.31234/osf.io/69bjx.

F. Kamalov, S. E. Choutri, and A. F. Atiya, “Analytical formulation of synthetic minority oversampling technique (SMOTE) for imbalanced learning,” Gulf Journal of Mathematics, vol. 19, no. 1, pp. 400–415, Jan. 2025, doi: 10.56947/gjom.v19i1.2639.

J. Wang and N. Awang, “A Novel Synthetic Minority Oversampling Technique for Multiclass Imbalance Problems,” IEEE Access, vol. 13, pp. 6054–6066, 2025, doi: 10.1109/ACCESS.2025.3526673.

Y.-C. Wang and C.-H. Cheng, “A multiple combined method for rebalancing medical data with class imbalances,” Comput. Biol. Med., vol. 134, p. 104527, Jul. 2021, doi: 10.1016/j.compbiomed.2021.104527.

A. Gupta and S. Gupta, “Enhanced Classification of Imbalanced Medical Datasets using Hybrid Data-Level, Cost-Sensitive and Ensemble Methods,” International Research Journal of Multidisciplinary Technovation, pp. 58–76, Apr. 2024, doi: 10.54392/irjmt2435.

I. D. Mienye and Y. Sun, “Performance analysis of cost-sensitive learning methods with application to imbalanced medical data,” Inform. Med. Unlocked, vol. 25, p. 100690, 2021, doi: 10.1016/j.imu.2021.100690.

L. Sun, Z. Shang, Q. Cao, K. Chen, and J. Li, “Electrocardiogram diagnosis based on SMOTE+ ENN and random forest,” in International Conference on Intelligent Computing, 2019, pp. 747–757.

D. Yilmaz Eroglu and M. S. Pir, “Hybrid Oversampling and Undersampling Method (HOUM) via Safe-Level SMOTE and Support Vector Machine,” Applied Sciences, vol. 14, no. 22, p. 10438, Nov. 2024, doi: 10.3390/app142210438.

S. M. M. Hossain, K. M. A. Kamal, A. Sen, and I. H. Sarker, “TF-IDF feature-based spam filtering of mobile SMS using a machine learning approach,” in Applied Intelligence for Industry 4.0, Chapman and Hall/CRC, 2023, pp. 162–175.

A. Ranjan, D. Fernandez-Baca, S. Tripathi, and A. Deepak, “An Ensemble Tf-Idf Based Approach to Protein Function Prediction via Sequence Segmentation,” IEEE/ACM Trans. Comput. Biol. Bioinform., vol. 19, no. 5, pp. 2685–2696, Sep. 2022, doi: 10.1109/TCBB.2021.3093060.

X. Ye, Z. Zhang, and Y. Jiang, “Prediction of Breast Cancer of Women Based on Support Vector Machines,” in Proceedings of the 2020 4th International Conference on Electronic Information Technology and Computer Engineering, New York, NY, USA: ACM, Nov. 2020, pp. 780–784. doi: 10.1145/3443467.3443853.

D. D. Prasetya, T. Widiyaningtyas, and T. Hirashima, “Interrelatedness patterns of knowledge representation in extension concept mapping,” Res. Pract. Technol. Enhanc. Learn., vol. 20, p. 009, May 2024, doi: 10.58459/rptel.2025.20009.

A. Novanto, D. Indra, and W. Astuti, “Analisis Pre-processing Sentimen Terhadap Komentar Layanan Indihome Pada Twitter,” LINIER: Literatur Informatika dan Komputer, vol. 1, no. 2, pp. 145–152, Jun. 2024, doi: 10.33096/linier.v1i2.2491.

K. Yusupov, M. R. Islam, I. Muminov, M. Sahlabadi, and K. Yim, “Comparative Analysis of Machine Learning and Deep Learning Models for Email Spam Classification Using TF-IDF and Word Embedding Techniques,” 2025, pp. 114–122. doi: 10.1007/978-3-031-76452-3_11.

C. A. Nurhaliza Agustina, R. Novita, Mustakim, and N. E. Rozanda, “The Implementation of TF-IDF and Word2Vec on Booster Vaccine Sentiment Analysis Using Support Vector Machine Algorithm,” Procedia Comput. Sci., vol. 234, pp. 156–163, 2024, doi: 10.1016/j.procs.2024.02.162.

G. Popoola, K.-K. Abdullah, G. S. Fuhnwi, and J. Agbaje, “Sentiment Analysis of Financial News Data using TF-IDF and Machine Learning Algorithms,” in 2024 IEEE 3rd International Conference on AI in Cybersecurity (ICAIC), IEEE, Feb. 2024, pp. 1–6. doi: 10.1109/ICAIC60265.2024.10433843.

A. A. G. W. S. Erlangga, I. G. A. Gunadi, and I. M. G. Sunarya, “Kombinasi Oversampling dan Undersampling dalam Menangani Class Imbalanced dan Overlapping pada Klasifikasi Data Bank Marketing,” Jurnal RESISTOR (Rekayasa Sistem Komputer), vol. 7, no. 1, pp. 32–42, Apr. 2024, doi: 10.31598/jurnalresistor.v7i1.1515.

T. Wongvorachan, S. He, and O. Bulut, “A Comparison of Undersampling, Oversampling, and SMOTE Methods for Dealing with Imbalanced Classification in Educational Data Mining,” Information, vol. 14, no. 1, p. 54, Jan. 2023, doi: 10.3390/info14010054.

G. Husain et al., “SMOTE vs. SMOTEENN: A Study on the Performance of Resampling Algorithms for Addressing Class Imbalance in Regression Models,” Algorithms, vol. 18, no. 1, p. 37, Jan. 2025, doi: 10.3390/a18010037.

Refbacks

There are currently no refbacks.

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Linier: Literatur Informatika dan Komputer indexed by

ISSN 3063-2218
Published by Prodi Teknik Informatika FIK Universitas Muslim Indonesia
Website : https://jurnal.fikom.umi.ac.id/index.php/LINIER/
Email : linier@umi.ac.id

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0

TOOLS



TUTORIAL MENDELEY

VISITOR
View Visitor

Username
Password
Remember me