Analisis Kemiripan Source Code Project Menggunakan Metode CodeBERT dan Winnowing Algorithm

Penulis

  • Fauzan Azhari Rahman Universitas Muhammadiyah Makassar
  • Rizki Yusliana Bakti Universitas Muhammadiyah Makassar
  • Muhyiddin A M Hayat Universitas Muhammadiyah Makassar

DOI:

https://doi.org/10.57250/ajst.v4i1.2623

Kata Kunci:

Deteksi Plagiarisme, Kode Sumber, CodeBERT, Winnowing Algorithm, Capstone Project

Abstrak

Pemeriksaan keaslian kode pada tugas Capstone Project umumnya masih dilakukan secara manual, sehingga tidak efisien dan berisiko melewatkan kasus plagiarisme yang disamarkan melalui refactoring atau penggantian nama variabel. Penelitian ini bertujuan menerapkan kombinasi metode CodeBERT dan Winnowing Algorithm untuk mendeteksi kemiripan kode sumber secara semantik dan tekstual, serta mengintegrasikan fitur tersebut ke dalam sistem pengumpulan tugas Capstone Project mahasiswa Program Studi Informatika Fakultas Teknik Universitas Muhammadiyah Makassar. CodeBERT digunakan untuk menganalisis kemiripan semantik, sedangkan Winnowing Algorithm digunakan untuk mendeteksi kemiripan tekstual berbasis fingerprint k-gram. Hasil dari kedua metode digabungkan untuk menghasilkan penilaian kemiripan yang lebih komprehensif. Pengujian dilakukan terhadap 17 proyek valid yang menghasilkan 136 pasangan unik. Hasil analisis menunjukkan 16 pasangan termasuk kategori Plagiarisme Kuat, 30 pasangan Mirip Semantik, 30 pasangan Mirip Tekstual, dan 60 pasangan Normal. Selain itu, seluruh 11 skenario black box testing berhasil dijalankan dengan tingkat keberhasilan 100%. Hasil ini menunjukkan bahwa kombinasi CodeBERT dan Winnowing Algorithm efektif diterapkan untuk mendukung analisis kemiripan kode pada lingkungan akademik

Referensi

Akbar, M. I., & Ningrum, N. K. (2025). Identification of source code plagiarism using a natural language processing (NLP) approach based on code writing style analysis. Journal of Applied Informatics and Computing (JAIC), 9(6), 1–10. https://jurnal.polibatam.ac.id/index.php/JAIC

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2019) (Vol. 1, pp. 4171–4186). Association for Computational Linguistics. https://doi.org/10.18653/v1/N19-1423

Ebrahim, F., & Joy, M. (2023). Source code plagiarism detection with pre-trained model embeddings and automated machine learning. In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2023) (pp. 301–309). INCOMA Ltd. https://doi.org/10.26615/978-954-452-092-2_034

Feng, Z., Guo, D., Tang, D., Duan, N., Feng, X., Gong, M., Shou, L., Qin, B., Liu, T., Jiang, D., & Zhou, M. (2020). CodeBERT: A pre-trained model for programming and natural languages. In Findings of the Association for Computational Linguistics: EMNLP 2020 (pp. 1536–1547). Association for Computational Linguistics. https://doi.org/10.48550/arXiv.2002.08155

Hidayat, W., Utami, E., & Hartanto, A. D. (2020). Pemilihan parameter terbaik pada algoritma winnowing dalam mendeteksi tingkat kesamaan dokumen bahasa Indonesia. Citec Journal, 7(2), 256–265. https://citec.amikom.ac.id/main/index.php/citec/article/view/256

Kurniawan, A., Erlangga, E., & Tanjung, T. (2022). Analisis kinerja algoritma winnowing pada pendeteksian plagiarisme. Explore: Jurnal Sistem Informasi dan Telematika, 13(2), 125–132. https://www.researchgate.net/publication/366662136

Mangundap, G. H. O., Sujaini, H., & Pratiwi, H. S. (2022). Implementasi algoritma winnowing pada aplikasi pendeteksi kemiripan dokumen. JEPIN (Jurnal Edukasi dan Penelitian Informatika), 8(1), 47–54. https://doi.org/10.26418/jp.v8i1.47822

NU Editorial Contributors. (2023, Juni 16). What is a capstone project? National University. https://www.nu.edu/blog/what-is-a-capstone-project/

Putra, Y. D. E. (2022). Deteksi plagiarisme tugas akhir mahasiswa dengan menggunakan metode cosine similiarity Tugas akhir sarjana, Universitas Islam Sultan Agung Semarang. Repository UNISSULA. https://repository.unissula.ac.id/29641/

Ramli, M. S., Cokrowibowo, S., & Rustan, M. F. (2021). Uji plagiarism pada tugas mahasiswa menggunakan algoritma winnowing. Journal of Applied Computer Science and Technology (JACOST), 2(2), 108–112. https://doi.org/10.52158/jacost.v2i2.177

Schleimer, S., Wilkerson, D. S., & Aiken, A. (2003). Winnowing: Local algorithms for document fingerprinting. In Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data (SIGMOD ’03) (pp. 76–85). Association for Computing Machinery. https://doi.org/10.1145/872757.872770

Setiawan, R., Kurniawan, A., & Sari, D. P. (2020). Analisis dan perancangan software pengukuran kemiripan kode program. ILKOMNIKA: Journal of Computer Science and Applied Informatics, 2(3), 285–296. https://doi.org/10.28926/ilkomnika.v2i2.64

Sugiono, S., Herwin, H., Hamdani, H., & Erlin, E. (2018). Aplikasi pendeteksi tingkat kesamaan dokumen teks: Algoritma Rabin-Karp vs. winnowing. Digital Zone: Jurnal Teknologi Informasi dan Komunikasi, 9(1), 82–93. https://doi.org/10.31849/digitalzone.v9i1.1242

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. In I. Guyon, U. Von Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, & R. Garnett (Eds.), Advances in Neural Information Processing Systems 30 (NeurIPS 2017) (pp. 5998–6008). Curran Associates. https://doi.org/10.48550/arXiv.1706.03762

Virginia, C., & Alamsyah, D. (2026). Plagiarism detection in English academic documents using a lexical semantic hybrid and support vector machine. INOVTEK Polbeng – Seri Informatika, 11 (1), 96–107. https://doi.org/10.35314/2zz12581

Zakeri-Nasrabadi, M., Parsa, S., Ramezani, M., Roy, C., & Ekhtiarzadeh, M. (2023). A systematic literature review on source code similarity measurement and clone detection: Techniques, applications, and challenges. Journal of Systems and Software, 204, 111796. https://doi.org/10.1016/j.jss.2023.111796

Zidan, M., & Setiawan, R. (2025). Implementasi algoritma Rabin-Karp dalam pendeteksian plagiarisme pada dokumen makalah mahasiswa. Jurnal Indonesia: Manajemen Informatika dan Komunikasi (JIMIK), 6(1), 45–54. https://journal.stmiki.ac.id/index.php/jimik/article/view/1191

Diterbitkan

2026-04-30

Cara Mengutip

Rahman, F. A. ., Bakti, R. Y. ., & Hayat, M. A. M. . (2026). Analisis Kemiripan Source Code Project Menggunakan Metode CodeBERT dan Winnowing Algorithm. Arus Jurnal Sains Dan Teknologi, 4(1), 111–117. https://doi.org/10.57250/ajst.v4i1.2623

Terbitan

Bagian

Artikel

Artikel paling banyak dibaca berdasarkan penulis yang sama

1 2 > >>