ABSTRAKSI: Data mining adalah proses mengekstraksi atau menggali informasi dari sekumpulan data. Dalam data mining ada tiga task utama yaitu klasifikasi, asosiasi dan klasterisasi. Klasifikasi dalam data mining merupakan proses mencari pola dari sekumpulan data. Tujuan dari pencarian pola tersebut adalah untuk menjawab nilai dari suatu data yang belum diketahui nilainya. Namun kerap kali dibutuhkan resource yang cukup besar untuk melakukan klasifikasi. Hal ini dapat disebabkan karena data yang akan dilakukan klasifikasi memiliki dimensionalitas yang tinggi, banyak variabel yang irrelevant, ataupun variabel yang redundant.
Untuk itu diperlukan tahap pre-prosessing sebelum dilakukan proses klasifikasi. Ada banyak jenis tahap preprosesing, salah satunya adalah Variabel Selection. Variabel Selection adalah suatu proses pengidentifikasian dan penghapusan variabel yang bersifat irrelevant atau mengalami redundant.
Tugas akhir ini secara khusus membahas tentang seleksi variabel dengan menggunakan metode Correlation-based. Dalam melakukan seleksi variabel, correlation-based melakukan penghitungan dan pembandingan tingkat korelasi antara masing-masing variabel dengan variabel Classnya dan antara variabel dengan variabel lainnya. Kemudian dilakukan pengujian dengan membandingan nilai akurasi, precision dan recall antara dataset asli dengan dataset hasil seleksi variabel dengan metode correlation-based. Dari hasil pengujian diketahui bahwa seleksi variabel dengan metode correlation-based mampu mengurangi dimensionalitas data dengan nilai akurasi, precison dan recall yang mampu menyamai dataset aslinya.Kata Kunci : Klasifikasi , Pre-prosessing , Variabel Selection, Correlation-basedABSTRACT: Data mining is a process of extracting or mining knowledge from large amount of data. There are three tasks in data mining, they are classification, association, and clusterization. A classification in data mining is a task to find the pattern of a data group. The aim of finding the pattern is to get the data value which still not known. But in many times it needs a huge resource to do classification. It is because the dataset which to be classified has high dimensionality ,many irrelevant or redundant variables.
Therefore a pre-proccessing task is needed before the classification proses. There are many pre-proccessing steps, one of them is Variable Selection. Variable selection is a proccess of identifying and deleting variables which are irrelevant or redundant.
This final assignment spesifically studying about variable selection using Correlation-based method. In selecting variable, Correlation-based method do counting and comparing correlation level between variable and its class variable or variables with other variables . Then the test is done by comparing the accuration, precision and recall value between original dataset and the Correlation-based dataset. From the test result is known that variable selection using correlation-based method can reduce data dimensionality with accuration, precision and recall value close to original dataset.
Keyword: Classification, pre-proccessing, Variable Selection, Correlation