ABSTRAKSI: Permasalahan data dengan distribusi kelas tidak seimbang atau yang dikenal dengan class imbalance problem banyak ditemukan dalam permasalahan dunia nyata. Dalam beberapa kasus, data minoritas dalam dataset bernilai lebih potensial dibandingkan data mayoritas. Pengklasifikasian dengan cara umum tidak dapat mengatasi permasalahan ini karena menganggap distribusi setiap kelas adalah sama pentingnya. Oleh karena itu diperlukan suatu metoda untuk melakukan proses klasifikasi yang dapat mengklasifikasikan data minoritas dengan baik.
Algoritma PNrule adalah sebuah algoritma berdasarkan rule yang didesain untuk dapat menangani permasalahan data imbalance multi-class. Permasalahan multi-class ditangani dengan membangun binary classifier untuk masing-masing kelas pada dataset dengan kelas target adalah kelas yang sedang dipelajari. Algoritma ini terdiri dari tahapan P, tahapan N, dan mekanisme scoring. Setiap tahapan memiliki peranan masing-masing terhadap pembentukan rule akhir dari tiap kelas.
Dataset yang digunakan pada tugas akhir ini berjumlah lima buah dan diambil dari UCI Machine Learning Repository. Setiap dataset merupakan multi-class dengan distribusi tiap kelas berbeda-beda. Pengukuran performansi dari algoritma PNrule menggunakan recall, precision, dan Fmeasure. Dari hasil pengujian dan analisis diperoleh kesimpulan bahwa algoritma PNrule dapat dengan baik mengklasifikasikan data imbalance multi-class apabila menggunakan nilai parameter yang tepat.Kata Kunci : class imbalance, multi-class, algoritma PNruleABSTRACT: Dataset with imbalance class distribution or known as class imbalance problem can be found in real-world problems. In so many cases, minority class in dataset is more potential compared to majority class. Common classification technique cannot handle this problem because it considered that each class shares the same importancy. Because of that, a method is needed to classify the minority class well.
PNrule algorithm is a rule based algorithm designed to handle multi-class imbalance problem. Multi-class problem handled by constructing binary classifier for each class in dataset with the class target is the class which is being learned. This algorithm consists of P-stage, N-stage, and scoring mechanism. Each stage has their own role in making the final rule for each class.
There are five datasets used in this final project and retrieved from UCI Machine Learning Repository. Each dataset is multiclass with different class distribution. The performance of this algorithm is measured by recall, precision, and Fmeasure. The result of testing and analysis show that PNrule algorithm is able to classify the multi-class imbalance problem very well with adjusting threshold for each parameter.Keyword: class imbalance, multi-class, PNrule algorithm