ABSTRAKSI: Data mining merupakan sebuah proses penemuan pola-pola yang menarik dari sekumpulan data berukuran besar. Dalam data mining, banyak fungsi yang dapat dilakukan, seperti : klasifikasi, klastering dan asosiasi. Pada Tugas Akhir ini akan dibahas mengenai clustering data kategori dengan menggunakan metode LIMBO (scaLable InforMation Bottleneck).
Clustering adalah proses mengelompokkan objek ke dalam suatu kelompok (cluster) sehingga objek memiliki kemiripan sangat besar dengan objek lain yang berada pada cluster yang sama, tetapi memiliki ketidakmiripan yang besar dengan objek yang berada pada cluster berbeda. Clustering telah secara luas diimplementasikan diberbagai bidang seperti market research, pattern recognition, segmentasi pelanggan dan sebagainya. Clustering data bertipe categorical mendapat perhatian khusus karena tipe data ini tidak bisa dihitung jarak kedekatan antar objeknya. Selain itu banyak algoritma clustering membutuhkan waktu proses yang lama sehingga tidak cocok digunakan untuk data berukuran besar.
Metode clustering LIMBO menggunakan struktur pohon untuk mengklaster dataset. Clustering LIMBO menggunakan konsep Distributional Cluster Feature (DCF) yang menyimpan informasi dari persebaran nilai atribut dan meringkas informasi mengenai subcluster-subcluster dalam DCF Tree kemudian membentuk sejumlah perwakilan cluster (centroid) yang selanjutnya digunakan dalam proses pemberian label data. Dari hasil analisa didapatkan bahwa nilai tetha(ϕ) sebagai salah satu parameter yang diinputkan user dapat mempengaruhi akurasi sistem. Semakin kecil nilai tetha(ϕ), jumlah subcluster yang dihasilkan semakin banyak dan akurasi F-measure cenderung semakin naik. Disamping itu, peningkatan jumlah data ikut mempengaruhi waktu untuk pembangunan DCF tree dan proses clustering, semakin banyak jumlah data maka semakin lama waktu yang dibutuhkan, karena semakin banyaknya subcluster yang terbentuk.Kata Kunci : data mining, clustering, LIMBOABSTRACT: Data mining is a process to find an interesting pattern from very large data warehouse. In data mining, many tasks can be done. Begin from classification, clustering and association. This paper discuss about clustering categorical data using LIMBO (scaLable InforMation Bottleneck) method.
Clustering is the process of grouping objects into a group (cluster) so that the object has a very great similiarity with other objects that are on the same cluster, but has a great dissimiliarity with objects that are in different clusters. Clustering has been extensively implemented in many fields such as market research, pattern recognition, customer segmentation etc. The problem of clustering becomes more challenging when the data is categorical, that is when there is no inherent distance measure between data values. Moreover many clustering algorithm take a long time so it is not suitable for large amount of data.
LIMBO clustering method uses tree-structure for the purpose of clustering sets of data. LIMBO clustering using the concept of distributional Cluster Feature (DCF) which stores information from the distribution of attribute values, and summarize information about the subcluster-subcluster in DCF Tree then form a cluster representative (centroid) which will then be used in the process of labeling data. From the analysis, we can see that tetha as a parameter that inputed by user influences software’s accuracy. The smaller tetha value, the number of subcluster created is larger and F-measure accuracy tends to increasingly rise. Beside that, the increase the number of data influence construction of DCF Tree and clustering time, more data, so more time needed to execute the program because there are more subclusters created.Keyword: data mining, clustering, LIMBO