ABSTRAKSI: Clustering merupakan salah satu metode dalam data mining yang sering digunakan dalam penelitian, yang mempunyai tujuan untuk mengelompokkan data tanpa adanya label kelas atau yang sering disebut unsupervised. Dalam tugas akhir ini akan membahas tentang algoritma clustering yang berusaha mengelompokkan data mahasiswa ke dalam sejumlah cluster.
Algoritma yang digunakan adalah gabungan 2 (dua) algoritma clustering yaitu ISMC (Improved Split and Merge Classification) dan FCM (Fuzzy C-Means). Kedua algoritma tersebut memiliki peran yang berbeda. Untuk ISMC digunakan untuk menentukan jumlah cluster, sedangkan FCM digunakan untuk menentukan anggota tiap cluster.
Analisa performansi algoritma menggunakan 2 (dua) parameter yaitu between cluster scatter matrix Sb dan within cluster scatter matrix Sw Dari hasil pengujian performansi dengan menggunakan 2 (dua) set data yaitu data bunga iris dan data mahasiswa diperoleh bahwa Sw algoritma gabungan mengalami perbaikan. Untuk data set bunga iris dapat mencapai 81%, sedangkan data set mahasiswa mencapai 99% lebih baik dibanding dengan algoritma ISMC. Hal tersebut dapat disimpulkan bahwa algoritma gabungan mampu menghasilkan cluster yang lebih homogen dibanding dengan ISMC.Kata Kunci : Data mining, Algoritma clustering, between cluster scatter matrix, within cluster scatter matrix, data bunga iris, data mahasiswaABSTRACT: Clustering is one of data mining method which is used often on a research that has a purpose to cluster or grouping data without class label which is called unsupervised. In this final task will research about clustering algorithm which is try to group university student’s data into some cluster.
The algorithm which is used is merging two clustering algorithm, they are ISMC (Improved Split and Merge Classification) and FCM (Fuzzy C-Means). Those two algorithm have a different character. ISMC is used for determining the amount of cluster, and FCM is used for determining the member of each cluster.
The algorithm performance analysis using two parameters, they are “between cluster scatter matrix Sb” and “within cluster scatter matrix Sw”. From the performance testing result with two data set, bunga iris data and university student’s data got the merge Sw algorithm is getting better. For bunga iris data set can reach 81%, and university student’s data set reaches 99%, better than ISMC algorithm. Those conclude that merge algorithm produce more homogen cluster than ISMC.Keyword: Data mining, clustering algorithm, between cluster scatter matrix, within cluster scatter matrix, bunga iris data, university student’s data