ABSTRAKSI: Saat ini jumlah informasi seperti artikel berita yang ada didalam web terus berkembang dengan cepat. Banyaknya jumlah informasi tersebut bisa menyebabkan pengguna mengalami kesulitan dalam mencari informasi yang penting. Salah satu task Data Mining yaitu Text Categorization yang merupakan suatu cara untuk mengelompokan dokumen kedalam kelas atau kategori tertentu bisa dijadikan sebagai solusi untuk mengorganisasikan dokumen berita.
Salah satu metode Text Categorization adalah Metode Centroid Based Classifier. Metode Centroid Based merepresentasikan dokumen kedalam bentuk vektor. Metode ini membentuk vector centroid pada sekumpulan dokumen yang termasuk pada suatu kelas tertentu. Vector centroid tersebut yang akan digunakan sebagai model untuk mengelompokan suatu dokumen dengan menggunakan kesamaan kosinus.
Pada tugas akhir ini dilakukan perbandingan performansi antara metode Centroid Based Classifier dengan k-NN dan Naïve Bayes. Parameter performansi yang digunakan adalah akurasi dan f- measure. Selain itu, tugas akhir ini juga menganalisis deteksi outlier untuk meningkatkan akurasi dari metode Centroid Based. Hasil percobaan menunjukan bahwa metode Centroid Based memberikan performansi yang lebih baik dari pada k-NN dan Naïve Bayes sedangkan percobaan deteksi outlier menunjukan bahwa deteksi outlier bisa meningkatkan akurasi metode Centroid Based.
Kata Kunci : text categorization, centroid based classifier, centroid vector,ABSTRACT: Today, amount of information, such as news articles, available on the web are growing fastly. Large number of information can causes the user get into trouble in finding important information. One of Data Mining task, Text Categorization, which is the task of assigning documents to pre-specified classes (categories) of documents can be used as the solution to organizing news documents.
One of Text Categorization method is Centroid Based Classifier. Centroid Based method represent documents as the vector. This method create the centroid vector for each set of documents belonging to the same class. That centroid vector will be used as model to classify documents using cosinus similarity.
In this final project, performance of Centroid Based Classifier method is compared with performance of k-NN and Naïve Bayes. Accuracy and f- measure are used to compare the performance of those methods. Beside of that, the final project also analyze outlier detection for increasing the accuracy of Centroid Based. The experiments show that Centroid Based Classifier give better performance than k-NN and Naïve Bayes, and outlier detection experiments show that outlier detection can improve the accuracy of Centroid Based.
Keyword: text categorization, centroid based classifier, centroid vector,