Handling Imbalanced Data in Churn Prediction using Combined Sampling and Weighted Random Forest

veronikha effendy

Informasi Dasar

213120008
006.312
Karya Ilmiah - Thesis (S2) - Reference

ABSTRAKSI: Pelanggan merupakan ase t utama dalam sebuah perusahaa n, tidak terkecuali industri telekomunikasi. Pelanggan churn merupakan masalah utama yang ditemukan dalam industri telekomunikasi , karena sangat berpengaruh terhadap pendapatan perusahaan. Pada saat proses churn mulai terjadi, biasanya persentase data yang menggambarkan pelanggan churn tidak banyak. Kondisi ini menyebabkan diperlukannya model prediksi untuk dapat menentukan pelanggan yang berpotensi melakukan churn. Pendekatan Data mining dapat menghasilkan model prediksi dengan mempelajari data historis transaksi pelanggan. Minimnya data pelanggan c hurn di antara sejumlah data pelanggan yang dimiliki oleh perusahaan akan menimbulkan masalah data yang tidak seimbang. Data yang tidak seimbang akan menyebabkan kesulitan dalam pembuatan model prediksi sehingga hasil prediksi pelanggan churn menjadi tida k akurat. Sampel data yang digunakan dalam penelitian ini memiliki persentase churn 0,7 %. Penelitian ini menerapkan teknik kombinasi sampling dan Weighted Random Forest (WRF) untuk menghasilkan model prediksi pelanggan churn. WRF telah dikembangkan dari m etode Random Forest (RF) untuk mengatasi masalah data yang tidak seimbang yang biasa terjadi pada prediksi churn. Metode ini diklaim dapat menghasilkan kinerja yang cukup baik pada data yang tidak seimbang. Namun, pada penelitian ini ditemukan kendala bahw a performansi yang dihasilkan masih rendah. Dengan menggunakan teknik sampling , permasalahan performansi yang masih rendah dapat diatasi. Adapun teknik sampling yang digunakan adalah simple under sampling dan Synthetic Minority Over - sampling Technique (SMO TE). Hasil penelitian ini menunjukkan bahwa kombinasi SMOTE dan simple under sampling terbukti dapat meningkatkan kinerja model prediksi yang dihasilkan oleh WRF.Kata Kunci : Kata kunci: Churn , Pred iksi , Metode Random Forest , Metode Weighted Random Forest, kombinasi sampling, SMOTEABSTRACT: Informatics Engineering 2014 iii | P a g e ABSTRACT Customers are the key asset in an industry , the telecommunications industry is no exception . Customer churn is a major problem that is found in the telecommunications industry , because it affect s the company's revenue. At the time of the customer churn is taking place, the percentage of data that describes the customer churn is usually not much , unfortunately the churn data is the data which have to predict earlier. This condition causes the need for predictive models in order to determine the potential customers do churn. D ata mining approach can produce prediction models by studying the historical data of customer transactions. The lack of data on customer churn among a number of customer data held by the company will lead to the problem of imbalanced data . Data that is not balanced will cause difficulty in making a prediction model so that the results of c ustomer churn prediction become inaccurate. The sample data used in this study has a percentage of 0.7 % churn. This research applies a combination of sampling techniques and Weighted Random Forest (WRF) to produce the customer churn prediction model . WRF has been developed from the method Random Forest (RF) to overcome the problem of unbalanced data which is common in churn prediction. This method is claimed to produce a reasonably good performance on the imbalanced data. However, this study found that the performance of the result s is still low. By using sampling technique , the low performance problems can be overcome. The sampling tech nique used is simple under sampling and Synthetic Minor ity Over - sampling Technique (SMOTE) . The results of this study indicate that the combination of SMOTE and under - sampling simple proven to increase performance of predictive models generated by WRF .Keyword: Keywords: Churn , Prediction, Random Forest , Weighted Random Forest, Combined - sampling, SMOTE

Subjek

DATA MINING
 

Katalog

Handling Imbalanced Data in Churn Prediction using Combined Sampling and Weighted Random Forest
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

veronikha effendy
Perorangan
Adiwijaya, ZK. Abdurahman Baizal
 

Penerbit

Universitas Telkom
Bandung
2014

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini