ABSTRAKSI: Salah satu task Data Mining yaitu klasifikasi teks yang merupakan suatu cara untuk mengelompokkan dokumen kedalam topik atau kategori tertentu. Saat ini klasifikasi teks dapat digunakan untuk mengklasifikasikan sebuah teks yang mengandung kata berhomograf. Dengan adanya klasifikasi teks ini mempermudah pengguna dalam menentukan lafal sebuah kata yang homograf.
Metode Naive Bayes dan K-Nearest Neighbor merupakan dua dari beberapa metode klasifikasi. Dua metode ini belum bisa dipastikan akurasinya sebelum dilakukan perbandingan secara langsung dan dengan data yang sama. Metode Naive Bayes merepresentasikan dokumen kedalam bentuk probability model. Probability model tersebut yang digunakan sebagai model untuk mengelompokkan suatu dokumen. Sedangkan metode K-Nearest Neighbor memyimpan sekelompok data training set sebagai acuan untuk mengelompokkan suatu dokumen.
Pada Tugas Akhir ini menggunakan metode Naive Bayes dan k-nearest neighbor dalam kasus klasifikasi teks yang mengandung kata homograf. Selain itu dilakukan juga analisis terhadap performansi hasil dari klasifikasi dua metode ini. Parameter performansi yang digunakan adalah precission, recall, dan fmeasure. Pada akhir pengujian metode naïve bayes menghasilkan nilai rata-rata f-measure yan lebih tinggi dibanding k-nearest neighbor.
Kata Kunci : probability model, training set, precission, recall, f-measure.ABSTRACT: One of Data Mining Task is a classification of text as a way to classify documents into particular topic or category. Currently, text classification can be used to classify a text containing homograph words. This text classification makes the user easier to determine pronunciation of a homograph word.
Naive Bayes and K-Nearest Neighbour Methods are two of several classification methods. The accuracy of these two methods has not been measured yet both in direct comparison and with the same data. Naive Bayes method represents the document into the form of probability model. That probability model used as a model to classify a document. While the method of K-Nearest Neighbour keep a group of training data as reference to classify a document.
This final task discusses Naive Bayes and K-Nearest Neighbor Method in the case of text classification of homograph words. Besides, there is also analysis of the performance results of two classification methods. Performance parameters used are precession, recall, and f-measure. In final Naive Bayes method resulted f-measure value higher than k-nearest noeghbor method.
Keyword: probability model, training set, precission, recall, f-measure.