ABSTRAKSI: Banyaknya jumlah informasi yang berkembang baik secara online maupun ofline menyebabkan pengguna mengalami kesulitan menemukan informasi yang penting. Pada umumnya informasi tersebut tidak terstruktur. Hal ini mendorong kebutuhan untuk memperoleh informasi yang bermanfaat. Salah satu cara pengelolaan informasi ini yaitu kategorisasi teks yang dapat membantu pengguna memperoleh informasi yang akurat dan tepat.
Dalam kategorisasi teks biasanya menggunakan referensi yang sama dalam pengelompokan katanya yaitu seberapa sering kata tersebut muncul di dalam dokumen, untuk itu digunakanlah pendekatan baru yaitu Distributional Features yang mengambil beberapa pertimbangan dalam pengelompokan dokumen seperti compactness of the appearances dan position of the first appearance dari sebuah kata. Distributional features dapat membantu meningkatkan performansi dengan tambahan biaya komputasi yang sedikit.
Dalam tugas akhir ini menggunakan beberapa pembobotan seperti TFIDF dan LOGTF yang dikombinasikan dengan Distributional Features. Untuk membuktikan efek dari Distributional features ini digunakan metode klasifikasi k-nearest neighbor (kNN).Kata Kunci : distributional features, TFIDF, LOGTF, kNNABSTRACT: Lot of information which is designed both off-line and on-line (on the internet) makes users experience difficulties in discovering the main details. Generally, those information has no framework. This causes users to find useful details based on their needs. One of the best ways to arrange those details is textual content classification which helps users in gathering the accurate and appropriate one.
Usually, classification textual content uses the same reference in organizing the words how often the terms appear in one document. Based on that condition, users can use the distributional features according to categorize the document such as compactness of the appearances and position of the first appearance of the word. The distributional features will help the users to discover its performance with a little additional calculations cost.
This study concern on some aspects such as TFIDF and LOGTF which can be combined along with the distributional features. To prove the effects the distributional features, the classic method namely k-nearest neighbor (kNN) was used.Keyword: distributional features, TFIDF, LOGTF, kNN