ABSTRAKSI: Cost Sensitive Learning merupakan pendekatan pada proses pembelajaran
klasifikasi dimana dalam proses klasifikasi diperhitungkan juga misclassification
cost. Misclassification cost merupakan kerugian (cost) yang timbul apabila suatu
data salah diklasifikasikan. Misclassification cost merupakan hal yang sangat
penting karena data yang salah diklasifikasikan dapat menimbulkan cost yang
berbeda-beda. Untuk penerapan cost sensitive learning dalam klasifikasi data
imbalance digunakan metode pembelajaran AdaCost, yaitu metode pembelajaran
yang melibatkan perhitungan misclassification cost. Sedangkan untuk klasifikasi
data digunakan metode klasifikasi Naive Bayes, yaitu metode klasifikasi yang
menggunakan perhitungan probabilitas dalam memecahkan persoalan klasifikasi.
Pada Tugas Akhir ini telah dianalisis dan diimplementasikan klasifikasi data
imbalance menggunakan AdaCost dan Naive Bayes. Pengujian dilakukan dengan
beberapa skenario, antara lain pengujian dengan perbedaan jumlah ronde
boosting, pengujian dengan membandingkan performansi AdaCost dengan
metode klasifikasi dan metode boosting lain, dan pengujian menggunakan data
yang terdapat missing value. Metode klasifikasi yang digunakan sebagai
pembanding dalam pengujian adalah Decision Tree, OneR, Neural Network, dan
Naive Bayes. Sedangkan metode boosting yang digunakan sebagai pembanding
adalah AdaBoost, AdaBoost M1, MultiBoost AB, dan LogitBoost.
Dari hasil pengujian didapatkan kesimpulan bahwa algoritma AdaCost lebih
memprioritaskan pencarian pola kelas imbalance sehingga dapat meningkatkan
performansi base classifiernya dalam mengklasifikasikan kelas imbalance dan
meminimalkan misclassifcation cost. AdaCost juga lebih baik dalam
mengklasifikasikan kelas imbalance bila dibandingkan dengan metode AdaBoost,
AdaBoost M1, Multiboost AB dan LogitBoost. Namun, performansi dari AdaCost
tergantung dari jumlah ronde boostingnya.Kata Kunci : cost sensitive learning, misclassification cost, data imbalance, adacost, naïve bayesABSTRACT: Cost Sensitive Learning is an approach that used in classifier studying
process which in classified process, we must also consider misclassification cost.
Misclassification cost is a cost that occurs everytime there is a data mislabel.
Misclassification cost is very important because when a data is mislabeled it may
give different cost. We used AdaCost studying method as cost sensitive learning
implementation in classifying imbalance data that using misclassification cost
estimation. And as classifier method we used Naïve Bayes, which this method
using probabilistic estimation to solve classification problem.
In this Final Project, it has been analysed and implemented imbalance
data classification using AdaCost and Naive Bayes. The test was done in different
scenarios, such as the test using different number of boosting rounds, the test to
compare AdaCost performance with another classification and boosting methods,
and the test using data that contains missing value. Classification methods which
is used for the comparison are Decision Tree, OneR, Neural Network, and Naive
Bayes. While for the boosting methods, we used AdaBoost, AdaBoost M1,
MultiBoost AB, andLogitBoost.
From the test result it has been concluded that AdaCost algorithm
prioritize searching imbalance class pattern, boosting the performance of the base
classifier to classify imbalance class, more than AdaBoost, AdaBoost M1,
Multiboost AB or LogitBoost. But, AdaCost’s performance depends on its
boosting roundsKeyword: cost sensitive learning, misclassification cost, data imbalance, adacost, naïve bayes