ABSTRAKSI: Churn prediction adalah suatu cara untuk memprediksi pelanggan yang berpotensial untuk churn. Data mining khususnya klasifikasi tampaknya dapat menjadi salah satu alternatif solusi dalam membuat model churn prediction yang akurat. Namun hasil klasifikasi menjadi tidak akurat disebabkan karena data churn bersifat imbalance. Kelas data menjadi tidak stabil karena data akan lebih condong ke bagian data yang memiliki komposisi data yang lebih besar.
Salah satu cara untuk menangani permasalahan ini adalah dengan memodifikasi dataset yang digunakan atau yang lebih dikenal dengan metode sampling. Metode sampling ini meliputi oversampling, undersampling, dan combine.
Analisis yang dilakukan pada tugas akhir ini adalah mengetahui bagaimana pengaruh metode sampling yang digunakan terhadap akurasi prediksi data churn dengan melakukan penghitungan akurasi model churn prediction yang dinyatakan dalam bentuk lift curve, top decile dan gini coefficient serta f-measure untuk penghitungan akurasi prediksi data sebagai data yang imbalance.
Hasil yang didapat dari penelitian menunjukkan bahwa metode sampling dapat meningkatkan nilai akurasi dalam evaluasi data churn. Dengan penerapan metode sampling, data churn yang memiliki tingkat imbalance yang besar dapat diklasifikasi tanpa mengorbankan data minor yang menjadi fokus penelitian. Metode sampling yang digunakan juga memiliki hasil evaluasi yang berbeda terhadap dataset sebagai data churn dan sebagai data imbalance.
Kata Kunci : churn prediction, imbalance, sampling, akurasi, evaluasi.ABSTRACT: Churn prediction is a method to predict behaviour of customers who potentially for being churn. This prediction is needed by telecommunication company to prevent its customer being churn so that the company be able to maintain its revenue. Data mining especially classification is expected to be one of alternative solution to build accurate churn prediction model. However, output from classification become not accurate because data of churn have the imbalance characteristic. Class data become not stable because data will be inclined to part data which has greater composition side.
One method to handle this problem is modify dataset or known as sampling method. Sampling method including oversampling, undersampling, and combine.
The analysis in this final exam is knowing how the effect of applying sampling method to accuration of churn prediction by counting lift curve, top decile, and gini coefficient as accuration of churn prediction model, and also fmeasure as accuration of imbalance case .
The result from this research show that sampling method can increase accuration in churn evaluation. The application of sampling method causing churn data can be classified without sacrificing minor class which is focused in this research. Using sampling method make a different accuration to dataset as churn data or imbalance data.Keyword: churn prediction, imbalance, sampling, accuration, evaluation.