ABSTRAKSI: Dalam pangkategorisasian teks, biasanya terdapat outlier dalam data training, seperti mislabeled pada data, data yang tekategori pada perbatasan antara dua kategori berita, data yang memang tidak terkategorikan, dan lain- lain. Oleh karena itu, perlu dilakukan outlier detection untuk meningkatkan performansi sebuah dokumen teks.
Salah satu metode dalam outlier detection adalah Distance Based Outlier Detection, yaitu mencari outlier berdasarkan jarak antar data dalam data set. Metode Distance Based Outlier yang sering digunakan adalah metode dengan menggunakan k-Nearest Neighbor, yang memiliki tiga pengertian atau cara, yaitu: outlier adalah contoh yang lebih kecil atau lebih besar dari p contoh lainnya dalam jarak d, outlier adalah n objek yang memiliki jarak yang terjauh pada ke-k-nearest neighbor, dan outlier adalah n objek yang memiliki jarak rata-rata yang terjauh pada k-nearest neighbor.
Hasil dari sistem ini adalah perbandingan performansi sistem dalam mendeteksi outlier dari ketiga pengertian di atas. Selain itu, sistem ini juga menghasilkan performansi pengkategorian dokumen sebelum dan sesudah outlier dihilangkan.
Kata Kunci : data mining, outlier detection, k- nearest neigbhorABSTRACT: In text categorization task, there usually exist a lot of outliers in the training data, for example, documents mislabeled or lying on the border between different categories, and documents that are out of the defined categories, etc. Therefore, outlier detection must be done to increase the performance of a text document.
One of the methods in outlier detection is Distance Based Outlier Detection, which is searching outlier(s) based on the distance between data in dataset. Distance Based Outlier Detection often use the k-Nearest Neighbor method, that have three meanings of outlier(s), that are: outliers are the examples for which there are fewer or more then p other examples within distance d, outlier are the top n examples whose distance to the kth Nearest Neighbor is greatest, and outlier are the top n examples whose average distance to the k Nearest Neighbor is greatest.
Outputs of this system are comparison of accuration or performance of the sistem in detecting outlier(s) with three definitions of outliers. Besides, this sistem also show the performance of categorization in a document, before and after outlier(s) are eliminated.
Keyword: data mining, outlier detection, k- nearest neigbhor