Analisis dan Implementasi CLustering Data Categorical menggunakan Algoritma NabSqueezer

Nur Aisya Maheranti

Analisis dan Implementasi CLustering Data Categorical menggunakan Algoritma NabSqueezer

Nur Aisya Maheranti

Informasi Dasar

Analisis dan Implementasi CLustering Data Categorical menggunakan Algoritma NabSqueezer

Dilihat

436 kali

No. Katalog

113070111

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Clustering merupakan proses pengelompokan objek ke dalam suatu cluster, sehingga objek dalam sebuah cluster memiliki kemiripan yang sangat besar dengan objek lain pada cluster yang sama tetapi sangat tidak mirip dengan objek pada cluster yang lain. Clustering telah secara luas diimplementasikan diberbagai bidang seperti market research, pattern recognition, data analysis, image processing dan sebagainya. Clustering data bertipe categorical mendapat perhatian khusus karena tipe data ini tidak bisa dihitung jarak kedekatan antar objeknya. Selain itu banyak algoritma clustering membutuhkan waktu proses yang lama sehingga tidak cocok digunakan untuk data berukuran besar. Algoritma NabSqueezer merupakan suatu metode clustering data categorical yang terlebih dahulu melakukan pembobotan pada setiap attribute value dimana untuk attribute value yang jarang muncul diberi bobot yang lebih besar. Kemudian pada proses clusteringnya NabSqueezer hanya perlu membaca dataset satu kali, dan menentukan suatu data akan bergabung dengan cluster yang sudah ada berdasarkan nilai threshold similarity. Dari hasil analisa didapatkan bahwa nilai threshold yang diinputkan user dapat mempengaruhi akurasi sistem berdasarkan purity measure, cohesion, dan separation. Selain itu didapatkan algoritma NabSqueezer memiliki skalabilitas yang baik terhadap penambahan jumlah data.Kata Kunci : clustering, data categorical , nabsqueezerABSTRACT: Clustering is a process for grouping object into a cluster such that object within a single cluster have similar characteristics, while object in different cluster are dissimilar. Clustering has been extensively implemented in many fields such as market research, pattern recognition, data analysis, image processing etc. The problem of clustering becomes more challenging when the data is categorical, that is when there is no inherent distance measure between data values. Moreover many clustering algorithm take a long time so it is not suitable for large amount of data. NabSqueezer algorithm is a clustering method for categorical data, in the first step it gives weight to each attribute value where for the uncommon attribute value are given a greater weight. NabSqueezer only need one scan of the data and decide an object will merge with the existing cluster depend on the threshold similarity value. The result shows that threshold which inputed by user influences system’s accuracy based on purity measure, cohesion, and separation. Beside that it also show that NabSqueezer algorithm has good scalability with the increasing of dataset size.Keyword: clustering, data categorical , nabsqueezer