ABSTRAKSI: Dengan banyaknya jumlah kategori yang dapat dimiliki oleh sebuah data teks, maka penggolongan secara manual tentu saja akan menjadi suatu masalah baru untuk user. Dengan data teks yang telah terklasifikasi, maka akan memudahkan pencari informasi dalam menemukan data teks yang dibutuhkan karena data teks telah dikelompokkan berdasarkan kategori yang mencerminkan isi data teks tersebut. Dewasa ini, kebanyakan data teks sudah bersifat banyak kategori atau multi-label.
Decision tree merupakan salah satu metoda klasifikasi yang paling populer karena mudah untuk diinterpretasi oleh manusia. Tree yang dihasilkan dari pemodelan suatu data kemudian membentuk suatu rules atau aturan ”jika - maka”.
Salah satu algoritma tree yang paling terkenal adalah algoritma C4.5. Algoritma C4.5 sudah banyak dikenal dan digunakan untuk klasifikasi data yang memiliki atribut-atribut numerik dan kategorial. Data yang multi-label merupakan sebuah problem pada proses klasifikasi dengan algoritma C4.5, oleh sebab itu akan dilakukan modifikasi classifier pada algoritma C4.5 yang sejatinya digunakan untuk menangani proses klasifikasi single label sehingga dapat melakukan proses klasifikasi data teks multi-label. Modifikasi yang dilakukan adalah melakukan modifikasi rumus untuk menghitung nilai entropy.
Hasil yang didapat menunjukkan implementasi modifikasi entropy pada algoritma C4.5 untuk data teks multi-label dapat dilakukan. Selain itu, performansi yang dihasilkan baik dilihat dari evaluasi hasil akurasi dan waktu.Kata Kunci : modifikasi classifier, entropy, data teks, multi-label, performansiABSTRACT: With the large number of categories that can be owned by a data text, manual categorization will be a new problem for the user. With data text that have been classified , it will allow searcher to find information easily in data text cause data text have been grouped according to categories that reflect the contents of the data text. Nowadays, most of the data text have to be a lot of categories in one data or multi-label.
Decision tree is one of the most popular classification method because it is easy to interpreted by humans. Tree generated from a data modeling will form a rules or the rules "if - then".
One of the most popular tree algorithm is C4.5 algorithm. C4.5 algorithm is widely known and used for data classification with numerical attributes and categorical. Multi-label data is a problem in the classification process with the C4.5 algorithm, therefore it will be classifier modification in C4.5 algorithm where is used to treat single-label classification process so that it can perform a multi-label data text classification process. Modifications made is to modify the formula to calculate the value of entropy.
The result show that entropy modification in C4.5 algorithm for multi-label data text can be used. Beside that, it has good performance by looked from accuracy and time evaluation.Keyword: classifier modification, entropy, data text, multi-label, performance