Analisis Kemiripan Source Code Project Menggunakan Metode CodeBERT dan Winnowing Algorithm
DOI:
https://doi.org/10.57250/ajst.v4i1.2623Kata Kunci:
Deteksi Plagiarisme, Kode Sumber, CodeBERT, Winnowing Algorithm, Capstone ProjectAbstrak
Pemeriksaan keaslian kode pada tugas Capstone Project umumnya masih dilakukan secara manual, sehingga tidak efisien dan berisiko melewatkan kasus plagiarisme yang disamarkan melalui refactoring atau penggantian nama variabel. Penelitian ini bertujuan menerapkan kombinasi metode CodeBERT dan Winnowing Algorithm untuk mendeteksi kemiripan kode sumber secara semantik dan tekstual, serta mengintegrasikan fitur tersebut ke dalam sistem pengumpulan tugas Capstone Project mahasiswa Program Studi Informatika Fakultas Teknik Universitas Muhammadiyah Makassar. CodeBERT digunakan untuk menganalisis kemiripan semantik, sedangkan Winnowing Algorithm digunakan untuk mendeteksi kemiripan tekstual berbasis fingerprint k-gram. Hasil dari kedua metode digabungkan untuk menghasilkan penilaian kemiripan yang lebih komprehensif. Pengujian dilakukan terhadap 17 proyek valid yang menghasilkan 136 pasangan unik. Hasil analisis menunjukkan 16 pasangan termasuk kategori Plagiarisme Kuat, 30 pasangan Mirip Semantik, 30 pasangan Mirip Tekstual, dan 60 pasangan Normal. Selain itu, seluruh 11 skenario black box testing berhasil dijalankan dengan tingkat keberhasilan 100%. Hasil ini menunjukkan bahwa kombinasi CodeBERT dan Winnowing Algorithm efektif diterapkan untuk mendukung analisis kemiripan kode pada lingkungan akademik
Referensi
Akbar, M. I., & Ningrum, N. K. (2025). Identification of source code plagiarism using a natural language processing (NLP) approach based on code writing style analysis. Journal of Applied Informatics and Computing (JAIC), 9(6), 1–10. https://jurnal.polibatam.ac.id/index.php/JAIC
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2019) (Vol. 1, pp. 4171–4186). Association for Computational Linguistics. https://doi.org/10.18653/v1/N19-1423
Ebrahim, F., & Joy, M. (2023). Source code plagiarism detection with pre-trained model embeddings and automated machine learning. In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2023) (pp. 301–309). INCOMA Ltd. https://doi.org/10.26615/978-954-452-092-2_034
Feng, Z., Guo, D., Tang, D., Duan, N., Feng, X., Gong, M., Shou, L., Qin, B., Liu, T., Jiang, D., & Zhou, M. (2020). CodeBERT: A pre-trained model for programming and natural languages. In Findings of the Association for Computational Linguistics: EMNLP 2020 (pp. 1536–1547). Association for Computational Linguistics. https://doi.org/10.48550/arXiv.2002.08155
Hidayat, W., Utami, E., & Hartanto, A. D. (2020). Pemilihan parameter terbaik pada algoritma winnowing dalam mendeteksi tingkat kesamaan dokumen bahasa Indonesia. Citec Journal, 7(2), 256–265. https://citec.amikom.ac.id/main/index.php/citec/article/view/256
Kurniawan, A., Erlangga, E., & Tanjung, T. (2022). Analisis kinerja algoritma winnowing pada pendeteksian plagiarisme. Explore: Jurnal Sistem Informasi dan Telematika, 13(2), 125–132. https://www.researchgate.net/publication/366662136
Mangundap, G. H. O., Sujaini, H., & Pratiwi, H. S. (2022). Implementasi algoritma winnowing pada aplikasi pendeteksi kemiripan dokumen. JEPIN (Jurnal Edukasi dan Penelitian Informatika), 8(1), 47–54. https://doi.org/10.26418/jp.v8i1.47822
NU Editorial Contributors. (2023, Juni 16). What is a capstone project? National University. https://www.nu.edu/blog/what-is-a-capstone-project/
Putra, Y. D. E. (2022). Deteksi plagiarisme tugas akhir mahasiswa dengan menggunakan metode cosine similiarity Tugas akhir sarjana, Universitas Islam Sultan Agung Semarang. Repository UNISSULA. https://repository.unissula.ac.id/29641/
Ramli, M. S., Cokrowibowo, S., & Rustan, M. F. (2021). Uji plagiarism pada tugas mahasiswa menggunakan algoritma winnowing. Journal of Applied Computer Science and Technology (JACOST), 2(2), 108–112. https://doi.org/10.52158/jacost.v2i2.177
Schleimer, S., Wilkerson, D. S., & Aiken, A. (2003). Winnowing: Local algorithms for document fingerprinting. In Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data (SIGMOD ’03) (pp. 76–85). Association for Computing Machinery. https://doi.org/10.1145/872757.872770
Setiawan, R., Kurniawan, A., & Sari, D. P. (2020). Analisis dan perancangan software pengukuran kemiripan kode program. ILKOMNIKA: Journal of Computer Science and Applied Informatics, 2(3), 285–296. https://doi.org/10.28926/ilkomnika.v2i2.64
Sugiono, S., Herwin, H., Hamdani, H., & Erlin, E. (2018). Aplikasi pendeteksi tingkat kesamaan dokumen teks: Algoritma Rabin-Karp vs. winnowing. Digital Zone: Jurnal Teknologi Informasi dan Komunikasi, 9(1), 82–93. https://doi.org/10.31849/digitalzone.v9i1.1242
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. In I. Guyon, U. Von Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, & R. Garnett (Eds.), Advances in Neural Information Processing Systems 30 (NeurIPS 2017) (pp. 5998–6008). Curran Associates. https://doi.org/10.48550/arXiv.1706.03762
Virginia, C., & Alamsyah, D. (2026). Plagiarism detection in English academic documents using a lexical semantic hybrid and support vector machine. INOVTEK Polbeng – Seri Informatika, 11 (1), 96–107. https://doi.org/10.35314/2zz12581
Zakeri-Nasrabadi, M., Parsa, S., Ramezani, M., Roy, C., & Ekhtiarzadeh, M. (2023). A systematic literature review on source code similarity measurement and clone detection: Techniques, applications, and challenges. Journal of Systems and Software, 204, 111796. https://doi.org/10.1016/j.jss.2023.111796
Zidan, M., & Setiawan, R. (2025). Implementasi algoritma Rabin-Karp dalam pendeteksian plagiarisme pada dokumen makalah mahasiswa. Jurnal Indonesia: Manajemen Informatika dan Komunikasi (JIMIK), 6(1), 45–54. https://journal.stmiki.ac.id/index.php/jimik/article/view/1191





