SUBSPACE CLUSTERING PADA DATA MULTIDIMENSI MENGGUNAKAN ALGORITMA FINDIT SUBSPACE CLUSTERING MULTIDIMENSIONAL DATA USING FINDIT ALGORITHM

Hutama A B

Informasi Umum

Kode

113010092

Klasifikasi

000 - Generalistics

Jenis

Karya Ilmiah - Skripsi (S1) - Reference

Subjek

Other

Dilihat

318 kali

Informasi Lainnya

Abstraksi

ABSTRAKSI: Dengan semakin luasnya penggunaan komputer di dalam bisnis, pemerintahan dan ilmu pengetahuan, penemuan pola-pola yang menarik dari basisdata berukuran besar menjadi sangat penting. Data mining muncul sebagai solusi bagi masalah analisis data yang dihadapi oleh banyak organisasi. Salah satu fungsionalitas dalam data mining adalah clustering yang bertujuan untuk mengelompokkan data ke dalam suatu cluster berdasarkan kemiripan karakteristiknya.<br> Subspace clustering merupakan pengembangan dari metode clustering, yaitu membentuk kumpulan cluster pada dataset dengan menentukan dimensi yang paling relevan untuk setiap cluster. FINDIT melakukan pendekatan perhitungan dimension-oriented distance dan dimension voting untuk membentuk suatu cluster. Pada tugas akhir ini telah diimplementasikan algoritma FINDIT dan juga dianalisis performansi algoritma berdasarkan jumlah data, dimensi dataset terhadap waktu, serta akurasi cluster yang dihasilkan berdasarkan parameter Dmindist.<br> Dmindist sebagai salah satu user parameter dapat mempengaruhi kinerja perangkat lunak. Jika semakin kecil maupun terlalu besar nilai Dmindist, akurasi cluster yang dihasilkan menjadi kurang baik, ditunjukkan dengan hilangnya satu atau lebih subspace pada original cluster. Peningkatan jumlah data mempengaruhi waktu untuk menemukan cluster, semakin banyak jumlah data maka semakin lama waktu yang dibutuhkan. Begitu pula untuk peningkatan jumlah dimensi data, akan menambah waktu untuk menemukan cluster.Kata Kunci : data mining, subspce clustering, algoritma FINDIT, dimension oriented distance, dimension voting, Dmindist.ABSTRACT: With the widespread computerization in business, government, and science, the efficient and effective discovery of interesting patterns from large databases becomes essential. Data mining emerges as a solution to the data analysis probems faced by many organization. One of data mining functionality is clustering that is grouping data into clusters depends on their similarities.<br> Subspace clustering is development in the clustering method, which finds clusters in a dataset by selecting the most relevant dimensions for each cluster separately. FINDIT finds clusters with subspace clustering based on two key ideas: dimension-oriented distance measure which fully utilizes dimensional difference information, and dimension voting policy. This final project has been implemented FINDIT algorithm and analysed the performance consider amount of data, dimension size of level to time and also consider Dmindist parameter of resultant clusters accuracy.<br> User parameter Dmindist influence performance of software. Small or to over the value of Dmindist, resultant cluster accuracy become low, with missing one or more subspace in original cluster at the process. Increasing amount of data and dimension size will cause more time to get the result.Keyword: data mining, subspce clustering, FINDIT algorithm, dimension oriented distance, dimension voting, Dmindist