ABSTRAKSI: Proses klasifikasi dengan berbagai algoritma machine learning bertujuan untuk mendapatkan target kelas yang akurat. Namun pada kenyataannya muncul permasalahan dalam proses klasifikasi tersebut ketika salah satu kelas memiliki jumlah data yang jauh lebih kecil pada training dataset nya. Permasalahan tersebut disebut juga dengan imbalance dataset problem.
Untuk menyelesaikan permasalahan tersebut salah satu pendekatan yang sangat populer adalah dengan metode sampling. Metode sampling bekerja dengan cara menyeimbangkan data imbalance. Dalam penerapannya akan digunakan tiga metode sampling, yaitu oversampling, undersampling dan Combine. Pengukuran data dilakukan dengan menentukan nilai precision, recall, Fmeasure, dan HammLoss yang merupakan hasil dari proses klasifikasi dengan menggunakan SVM, kNN dan NaiveBayes.
Yang akan dianalisis pada tugas akhir ini adalah membandingkan pengukuran data hasil klasifikasi sebelum dan setelah dilakukan metode sampling. Selain itu analisis akan melihat pula metode sampling mana yang menghasilkan metode terbaik untuk resample data.Kata Kunci : imbalance dataset problem, sampling, klasifikasi, precision, recall,ABSTRACT: Process Classification with algorithm machines learning aims to get the best accurate class target. However, in the real world several problem classifications appear when one class has a much lower probability in the training dataset. That problem called imbalanced dataset problem.
One popular approach to solving the imbalanced dataset problem is rebalancing dataset with technique sampling. Generally, technique samplings work to balancing the imbalance data. In this final exam, analysis will use threetechnique sampling: oversampling, undersampling and Combine. After rebalance, for measuring the data it will be use the value of precision, recall, Fmeasure and HammLoss as of a result in classification data using SVM , kNN, and NaiveBayes.
In this final exam, analysis will learn to compare the result data value on classification process before and after change data with method sampling. Beside that, process analysis will be trying to find the best technique sampling for rebalance data.
Keyword: imbalance dataset problem, sampling, classification, precision, recall,