Dalam membuat suatu karya tulis atau karya ilmiah tidak dapat dipungkiri bahwa penulis membutuhkan informasi dan referensi dari hasil karya orang lain. Referensi tersebut bisa didapatkan melalui sebuah artikel, buku, paper, atau hasil karya lainnya yang memiliki keterkaitan dengan referensi yang dibutuhkan. Seiring berjalannya waktu, era digital semakin berkembang dan mengakibatkan suatu dokumen mulai direpresentasikan dalam bentuk digital dan dapat di sebarluaskan dengan mudah dengan adanya internet. Hal tersebut mengakibatkan tindakan plagiarisme cenderung lebih mudah dilakukan. Dalam paper ini akan dilakukan pendeteksian plagiarisme menggunakan pendekatan text alignment dengan menggunakan proses (1) Preprocessing (2) Seeding (3) Extension (4) Filtering. Tujuan dari text alignment merupakan mencari pasangan fragmen yang digunakan kembali atau menjadi sumber dari dokumen terduga. Dataset yang digunakan terkategori menjadi beberapa tipe yaitu no plagiarism, no obfuscation, random obfuscation, translation obfuscation, dan summary obfuscation [1] dimana setiap tipe memiliki karakteristiknya masing masing. Adapun dalam penyelesaianya akan digunakan metode sentence similarity menggunakan tf-idf, cosine similarity dan dice coefficient kemudian hasil akhir dari fragmen yang dihasilkan akan dievaluasi dengan 2 evaluasi yaitu evaluasi level kasus dan evaluasi level karakter. Untuk evaluasi pada level kasus didapatkan nilai f-measure sebesar 0.9768 sedangkan untuk evaluasi level karakter didapatkan nilai f-measure sebesar 0.7090.
Kata kunci :
plagiarisme, text alignment, sentence similarity, cosine similarity, dice similarity, tf-idf, parameter adaptif.