ABSTRAKSI: Mudahnya menyusun suatu karya dari sebuah dokumen teks, memicu tindak plagiat yang seharusnya dihindari menjadi semakin mudah dilakukan. Plagiarisme dalam dokumen teks sangat luas cakupannya. Salah satu yang bisa diindikasi adalah jika terdapat kesamaan isi, lebih jauh lagi kesamaan unsur pembangunya, yaitu sebuah kata yang merupakan unsur terkecil pembangun dokumen teks. Dalam bidang bioinformatika, terdapat algoritma Smith-Waterman yang digunakan untuk mengetahui kemiripan yang signifikan (local alignment) dari suatu sekuens gen makhluk hidup dengan cara sequence alignment (penyejajaran sekuens) yaitu menyusun pasangan rantai basa hidrogen pembentuk sekuens tersebut dengan sekuens lain berdasarkan kesamaan strukturnya [14].
Dengan menerapkan konsep algoritma Smith-Waterman, suatu kalimat dalam dokumen teks akan diibaratkan sebagai sebuah sekuens gen yang dibentuk oleh rangkaian kata dan akan dibandingkan dengan kalimat di dokumen teks lain. Sebelumnya, dokumen teks akan melalui tahapan penghilangan noise. Setelah itu diproses menggunakan algoritma Smith-Waterman sehingga diperoleh suatu prosentase kesamaan dokumen yang menandakan seberapa besar kemiripan dokumen tersebut dengan dokumen lain.
Kata Kunci : plagiarisme, dokumen teks, penyejajaran sekuens, algoritma Smith-Waterman.ABSTRACT: Making written work from a text document is so easy, that make plagiarism, which is should be avoided, is easier to conduct. Plagiarism in text document covers a very large scope. One of the indications is content similarity, to be more specific,the similarity of the words constructing text documents. In bioinformatics field, Smith-Waterman algorithm is used to identify significant similarity (local alignment) among gene sequences of living creature, by using sequence alignment method which is a way of arranging hydrogen base pair chain that construct the sequence with another sequence based on structure-similarity [14].
By applying the concept of Smith-Waterman algorithm, a sentence in text documents will be likened to a gene sequence that was formed by a series of words and sentences, and compared to the sentences in the other text documents. Previously, the text document will go through the stages of noise elimination. And then processed using Smith-Waterman algorithm resulting similarity percentage, indicating how similar the document to the other documents.
Keyword: plagiarism, text document, sequence alignment, Smith-Waterman algorithm.