Pelanggan adalah salah satu aset penting di bidang bisnis. Berdasarkan data survei yang ditujukan kepada 1.100 responden yang dilakukan oleh Statista di tahun 2020, tercatat jumlah churn rate di industri telekomunikasi United States sebesar 21%. Penelitian ini menggunakan data sekunder yaitu dataset IBM Telco Customer Churn yang diperoleh dari web Kaggle. Kumpulan data sekunder tidak selalu mengandung informasi yang komprehensif, beberapa terdapat ketidakseimbangan jumlah antara kelas positif dan negatif sehingga dianggap tidak seimbang. Pada dataset IBM Telco Customer Churn terdapat jumlah data tidak seimbang pada kelas target. Ketidakseimbangan data merupakan permasalahan yang berisiko dalam bidang machine learning
dan data mining. Klasifikasi data yang tidak seimbang akan menghasilkan pengaruh negatif pada kelas minoritas yang mana sering kali terjadi kesalahan ketika melakukan klasifikasi, karena cenderung baik pada kelas mayoritas. Tujuan penelitian menangani imbalance data adalah agar penilaian performa model tidak cenderung baik terhadap pengujian kelas mayoritas dengan menerapkan teknik SMOTE. Metode yang digunakan adalah Naïve Bayes dan Random Forest sebagai algoritma klasifikasi. Proporsi pembagian untuk persentase data train dan data test adalah 80% : 20%. Penelitian ini terbukti mampu mengatasi imbalance data dengan menerapkan teknik SMOTE. Hasil performa pemodelan membuktikan bahwa pemodelan Random Forest dengan implementasi SMOTE lebih unggul dengan perolehan accuracy sebesar 84%, precision sebesar 82%, recall sebesar 89%, dan f1-score sebesar 85% serta perolehan lama waktu menjalankan program selama 3 detik. Kategori akurasi dari pemodelan Random Forest menggunakan SMOTE termasuk kategori “Baik” dengan perolehan persentase 84%. Kata kunci: churn, imbalance data, Naive Bayes, Random Forest, dan SMOTE