ABSTRAKSI: Kata-kata dalam suatu dokumen yang sering muncul tapi kurang berarti dalam proses kategorisasi disebut sebagai stopword. Untuk kata-kata yang dikategorisasikan ke dalam stopwords dianggap tidak memiliki kontribusi dalam proses kategorisasi, seharusnya dihapus sewaktu pengindeksan sebelum proses kategorisasi dilakukan. Bagaimanapun, penggunaan satu daftar stopword untuk koleksi dokumen yang berbeda-beda bisa mengurangi performansi dari peng-kategorisasian
Pada tugas akhir ini digunakan pendekatan Term-Based Random Sampling menghasilkan daftar stopword secara otomatis untuk dokumen yang diberikan. Pendekatan ini, menentukan seberapa besar informasi yang dimiliki suatu kata (term). Dengan ini akan bisa ditentukan suatu daftar stopword secara otomatis. Dalam tugas akhir ini digunakan koleksi dokumen Reuter. Untuk daftar stopword yang dihasilkan akan dievaluasi dengan melakukan kategorisasi pada dokumen yang menggunakan daftar stopword yang dihasilkan.
Pendekatan ini juga nanti akan dievaluasi dengan membandingkan hasil performansi kategorisasi yang dihasilkan dengan pre-proses pembuangan daftar stopword menggunakan daftar stopword yang dihasilkan dengan menggunakan pendekatan ini, hasil performansi kategorisasi menggunakan daftar stopword Salton and Buckley I dan Salton and Buckley II, Google stopword, defalutl English Stopword dan hasil performansi kategorisasi tanpa menggunakan pre-proses pembuangan stopword.
Dari hasil evaluasi yang dilakukan, daftar stopword yang lebih efektif bisa diperoleh dengan menggunakan pendekatan Term-Based Random Sampling. Dengan akurasi pengkategorisasi sebesar 88.24%.
Kata Kunci : Kategorisasi, term, stopwordABSTRACT: Words in a document that frequently occuring but meaningless in categorization are called as stopwords. Words that categorize as stopwords do not contribute for categorization, they should be remove during indexing before categorization process. However, using a single fixed stopword list across diffrent document collection could be decrimental the performansi of categorization.
On this final project, Term-Based Random sampling is used as approach to provide stopword list automatically for document collection that is processed. This approach, define how informative a term is. So, it’s enable us to define a stopword list automatically. The stopword list that is produced will evaluate by categorization step for document that use this stopword list.
This approach will evaluate by comparing the result of categorization that produce by use preprocessing using stopword list that produce by this approach with the performans using stopword Salton and Buckley I, Salton and Buckley II, Google’s stopword, default English Stopword, and also camparing with categorization’s performansi without using stopword.
From the evaluation, better stopword list is coming from stopword list that produce by using Term-Based Random Sampling Approach. The accuration is 88,24%.
Keyword: Categorization, term, stopword