ABSTRAKSI: Berkembangnya teknologi di dunia maya membuat jumlah informasi berupa artikel semakin banyak. Untuk itu, diperlukan suatu metode terhadap artikel yang memudahkan pembaca mencari informasi dengan menerapkan salah satu fungsionalitas dari data mining, yaitu kategorisasi. Untuk mendapatkan hasil kategorisasi yang baik diperlukan tahap preprocessing data yang baik pula. Salah satu tahap preprocessing data yang umum digunakan adalah stemming.
Stemming adalah proses untuk menemukan akar kata atau kata dasar dengan memisahkan semua affix atau imbuhan yang melekat pada kata tersebut. Dengan proses stemming ini akan mampu mengurangi dimensi dari data dalam melakukan proses kategorisasi sehingga dapat meningkatkan hasil kategorisasi karena beberapa kata yang memiliki kata dasar yang sama dapat dikelompokkan menjadi satu stem. Ada beberapa metode stemming menurut prosesnya, salah satunya adalah affix removal. Pada Tugas Akhir ini akan dibahas beberapa metode affix removal yaitu Porter Stemmer dan Krovetz Stemmer, serta pengaruhnya terhadap proses kategorisasi. Performansi stemmer dihitung berdasarkan nilai akurasi (accuracy) dan ICF (Index Compression Factor).
Berdasar hasil pengujian, Modifikasi Porter Stemmer memiliki nilai performansi yang lebih baik dibanding Porter Stemmer dan Krovetz Stemmer. Namun dari hasil performansi stemmer terbaik yang didapat oleh Modifikasi Porter Stemmer belum tentu bisa meningkatkan nilai precision dan recall dalam kategorisasi.
Kata Kunci : stemming, affix removal, Porter Stemmer, Krovetz Stemmer, Index Compression Factor, accuracy.ABSTRACT: The developing technology in cyber world has made the number of article as a part of information increased. Therefore, a method of articles is needed to ease the reader in seeking information by applying a functionality of data mining, which is categorization. To obtain a good categorization result, a good data preprocessing stage is also needed. The generally used data preprocessing stage is stemming.
Stemming is a process to obtain root word by separating all affixes that are attached on that word. This stemming process will be able to reduce dimension of the data in categorization process so that it can be included in one stem. There are several methods of stemming according to the process, one of them is affix removal. This final assignment will mention two methods of affix removal, which are Porter Stemmer and Krovetz Stemmer, as well as their effect on categorization process. Stemmer performance is calculated by accuracy and ICF (Index Compression Factor).
Based on testing result, Improved Porter Stemmer has better accuracy and ICF score than Porter Stemmer dan Krovetz Stemmer. However, from the best stemmer performance acquired by Improved Porter Stemmer does not absolutely increase the score of precision and recall in categorization.
Keyword: stemming, affix removal, Porter Stemmer, Krovetz Stemmer, Index Compression Factor, accuracy.