ABSTRAKSI: Klasterisasi adalah proses mengelompokkan data ke dalam suatu kelas atau klaster, sehingga objek pada suatu klaster memiliki kemiripan yang sangat besar dengan objek lain pada klaster yang sama, tetapi sangat tidak mirip dengan objek pada klaster lain.
Salah satu algoritma yang sering digunakan untuk melakukan proses clustering data adalah algoritma k-means. K-means sangat populer dalam proses klasterisasi data karena efisiensinya dalam mengklaster data. Namun, algoritma ini hanya terbatas untuk pengelompokan pada data numerik, sedangkan pada kenyataannya di dunia nyata banyak juga data yang atributnya bernilai kategorik.
Untuk menangani masalah data kategorik, dalam Tugas Akhir ini akan dibahas sebuah algoritma bernama k-modes yang merupakan varian dari algoritma k-means. Sama halnya seperti algoritma k-means, algoritma k-modes ini menghasilkan solusi local optimum. Hal tersebut berkaitan dengan proses inisialisasi pada penentuan centroid awal klaster. Dalam tugas akhir ini dibahas mengenai metode penentuan inisialisasi awal pada algoritma k-modes yaitu, secara random, dan menggunakan metode frequency based.
Ditunjukkan dalam tugas akhir ini bahwa metode pemilihan k inisialisasi awal menggunakan metode frequency based memiliki tingkat akurasi yang lebih baik dalam mengelompokkan data dibandingkan dengan inisialisasi secara random.Kata Kunci : Clustering, k-means, k-modes, frequency basedABSTRACT: Clustering is a process of grouping data into a class or cluster, so that the objects in a cluster has a very large similarity with other objects in the same cluster, but not similar to objects in other clusters.
One commonly used algorithm for data clustering process is the k-means algorithm. K-means is very popular in clustering data process because its efficiency for clustering data. However, this algorithm is limited to numerical data grouping, whereas in fact, in the real world there are many valuable attributes of categorical data.
To handle the problem of categorical data, in this Final Project will be discussed an algorithm called the k-modes which is a variant of k-means algorithm. Just as k-means algorithm, k-modes algorithm produces local optimum solution. This is related to the initialization process in determining the initial cluster centroid. This Final Project explains about the methods for determining first initialization of k-modes algorithm by randomly, and using frequency-based method.
It is shown in this Final Project that the selection method of first k initialization using frequency-based method which has better accuracy in grouping data compared with random initialization.Keyword: Clustering, k-means, k-modes, frequency-based