ABSTRAKSI: Churn prediction merupakan salah satu aplikasi data mining yang bertujuan untuk memprediksi para pelanggan yang berpotensial untuk churn. Churn prediction merupakan salah satu permasalahan kelas imbalance dan golongan churn merupakan kelas minor yang mengakibatkan kerugian bila tidak terdeteksi. Metode klasifikasi pada data mining secara umum tidak memperhitungkan kerugian akibat kesalahan prediksi suatu kelas ke dalam kelas lain, hal ini kurang sesuai dengan permasalahan churn yang mempertimbangkan faktor benefit sebagai pertimbangan utama dalam penanganan pelanggan.
Pada tugas akhir ini diteliti dua algoritma cost-sensitive learning berbasis sampling yaitu Costing dan CSRoulette serta 2 modifikasi algoritma tersebut yaitu UnderCosting dan UnderCSRoulette. Evaluasi dilakukan melalui penghitungan akurasi model churn prediction yang dinyatakan dalam bentuk total benefit, top decile lift, top decile benefit, lift curve, dan gini coefficient. Algoritma non-cost-sensitive learning yang digunakan sebagai pembanding adalah Boosting dengan memakai data training yang dipreproses dengan teknik balancing.
Hasil yang didapat dari penelitian menunjukkan bahwa metode cost-sensitive learning berbasis sampling tidak selalu lebih bagus dari algoritma non-cost-sensitive learning pada semua parameter evaluasi. Algoritma yang berdasarkan undersampling seperti UnderCosting, UnderCSRoulette, dan Boosting-UnderSampling cenderung bagus pada nilai cost yang rendah dan buruk pada nilai cost yang tinggi karena menghasilkan precision yang rendah.
Kata Kunci : cost-sensitive learning, sampling, boosting, benefit, cost.ABSTRACT: Churn prediction is one of the data mining application to predict the churn customer. Prediction churn is a problem of imbalance class and churn is a minor class that resulted in loss when it is not detected. General data mining classification methods does not take loss of benefit due to an error classified a class to another class, this is less appropriate to the problem of churn which is considering benefit as the primary factor in the handling of churn customers.
At this final project, two cost-sensitive learning algorithm, Costing and CSRoulette are investigated beside two modifications of cost-sensitive learning algorithm based on the sampling, UnderCosting and UnderCSRoulette. Model evaluation is done through churn prediction model accuracy which are expressed in total benefit, lift top decile, top decile benefit, lift curve, and gini coefficient. Non-costsensitive learning algorithm which is used as a benchmark is Boosting with training data which is preprocessed with balancing technique.
Results obtained from the research show that the cost-sensitive learning based sampling method is not always better than non-cost-sensitive learning algorithm in all evaluation parameters. Algorithm based on undersampling: UnderCosting, UnderCSRoulette, and Boosting-UnderSampling are resulted in good performance when cost is low and in high cost resulted in poor performance because low of precision.
Keyword: cost-sensitive learning, sampling, boosting, benefit, cost.