ABSTRAKSI: Term frequency telah lama digunakan sebagai metode pembobotan term dalam dokumen teks. Metode ini mengasumsikan bahwa setiap term memiliki nilai kepentingan yang sebanding dengan jumlah kemunculannya pada dokumen. Hal ini menjadi kelemahan utama dari term frequency sehingga mengakibatkan term menjadi independen dan mengabaikan keterhubungan yang mungkin ada antar term dalam dokumen. Kelemahan term frequency ini dapat diatasi dengan mengimplementasikan metode random-walk. Metode ini direpresentasikan dengan algoritma perankingan berbasis graf yang diterapkan dalam graf tekstual yang dapat mengintegrasikan dependensi antar term dan konteks sekitarnya.
Pada Tugas Akhir ini dibahas pembobotan term dengan menggunakan metode term frequency dan random-walk pada dataset artikel berita berbahasa Indonesia. Ada dua skema pembobotan yang akan digunakan yaitu skema tf – rw dan skema tf.idf – rw.idf. Lalu, dataset ini akan diklasifikasikan dengan menggunakan klasifier pada tools Weka. Analisa performansi hasil klasifikasi dilakukan dengan menggunakan nilai akurasi dan macro-average f-measure.
Hasil percobaan menunjukan bahwa metode random-walk memberikan performansi yang lebih baik dari metode term frequency khususnya pada skema tf.idf - rw.idf.
Kata Kunci : klasifikasi, term weighting, term frequency, random-walk, akurasi,ABSTRACT: Term frequency has been long used as a method of term weighting in text document. The method assumes that every term has importance value which is proportional to its frequency on document. It is the main weakness of term frequency which causes term becomes independent and disregards any dependencies that may exist between terms in the text. The problem of term frequency can be solved by applying the method of random-walk term weighting. The method is represented by graph-based ranking algorithm which is applied in textual graph that is able to integrates the dependencies of a term and its surrounding context.
The final project researches term weighting using the methods of term frequency and random-walk toward Indonesian news articles. There are two weighting schemes which will be used, tf – rw scheme and tf.idf – rw.idf scheme. Then, the datasets will be classified using Weka. The performance analysis of classification result is done by using the accuracy value and macro-average Fmeasure.
The experiments show that random-walk give better performance than term frequency especially on tf.idf - rw.idf scheme.
Keyword: classification, term weighting, term frequency, random-walk,