IMPLEMENTASI KLASTERISASI DALAM DATA MINING DENGAN ALGORITMA PCLUSTER CLUSTERING IMPLEMENTATION IN DATA MINING USING PCLUSTER ALGORITHM

I Komang Gde Subagia

IMPLEMENTASI KLASTERISASI DALAM DATA MINING DENGAN ALGORITMA PCLUSTER CLUSTERING IMPLEMENTATION IN DATA MINING USING PCLUSTER ALGORITHM

I Komang Gde Subagia

Informasi Dasar

IMPLEMENTASI KLASTERISASI DALAM DATA MINING DENGAN ALGORITMA PCLUSTER CLUSTERING IMPLEMENTATION IN DATA MINING USING PCLUSTER ALGORITHM

Dilihat

309 kali

No. Katalog

113010016

Klasifikasi

000

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Data mining adalah proses mengekstrak dan menganalisa data dalam jumlah besar untuk mendapatkan pengetahuan dari data yang ada. Perbedaan antara data mining dan ekstraksi informasi lainnya adalah menganalisa jumlah data yang besar, mengekstrak pengetahuan yang potensial serta tugas yang dilakukan serta tugas yang dilakukan cukup kompleks sehingga sulit dilakukan secara manual. Klasterisasi sebagai salah satu fungsionalitas dari data mining adalah proses mengelompokkan sekumpulan objek ke dalam klaster-klaster berdasarkan keterhubungan antar atribut data.
Tugas akhir ini menerapkan algoritma pCluster sebagai salah satu algoritma klasterisasi untuk mencari klaster pada data multidimensi. Algoritma pCluster merupakan algoritma untuk klasterisasi dengan penekanan pada kesamaan pola yang dibentuk pada analisis data microarray. Dalam analisis DNA microarray, level-level ekspresi dari dua gen mungkin muncul dan hilang dalam respon pada sekumpulan kondisi. Dalam pCluster, dua objek akan serupa jika diperlihatkan pada pola yang bertalian dalam sekumpulan dimensi. Walaupun besarnya level ekspresinya mungkin tidak bisa hilang, pola-pola diperlihatkan sedapat mungkin sama.
Pemodelan pCluster walaupun dibangun dalam studi kasus untuk analisis klasterisasi data microarray, tetapi dapat juga diaplikasikan untuk aplikasi-aplikasi lain yang membutuhkan penemuan pola-pola yang serupa atau sejenis di dalam sekumpulan data multidimensional numeric.
Algoritma pCluster mempunyai kemampuan yang baik dalam menemukan klaster beserta kumpulan dimensi yang berkorelasi pada data berdimensi tinggi. Skalabilitas pCluster terhadap penambahan jumlah objek dan atribut data bersifat linier terhadap waktu respon. Untuk jumlah klaster yang ditemukan dan waktu respon yang diperlukan berbanding terbalik terhadap penambahan jumlah minimal baris atau jumlah minimal kolom, dan berbanding lurus terhadap penambahan batas ambang.Kata Kunci : data mining, data multidimensi, klasterisasi, frequent pattern, subspace clustering, algoritma pCluster.ABSTRACT: Data mining refers to extracting and analyzing large amounts of data to get meaningful knowledge. The different between data mining and other information extraction are analyze large amounts of data, extract potensial knowledge, and do the complex task that is difficult to perform with manual way. Clustering as a functionality of data mining is a process to grouping data objects into clusters based on relation between data atribut.
This final project apply pCluster as an algorithm to find cluster in multidimensional data. The pCluster algorithm is the algorithm which perfoms clustering by pattern similarity in microarray data analysis. In DNA microarray analysis, the expression levels of two genes may rise and fall in response to a set of environmental conditions. Under the pCluster model, two object are similar if they exhibit a coherent pattern on a subset of dimensions. Although the magnitude of their expression levels may not be close, the patterns they exhibit can be very much alike.
The pCluster model, thought developed in the study of microarray data cluster analysis, can be applied to many other applications that require finding similar or coherent pattern involving a subset of numerical dimensions in large, high-dimensional data sets.
pCLuster algorithm have good capability for finding cluster with a set of dimension in high dimensional data. pCluster scalability for grow of data object and atributte is linear for respon time. For total of cluster that found and respon time that needed are return equal with grow of minimal rows or minimal coloms. and straight equal with grow of threshold.Keyword: data mining, multidimensional data, clustering, subspace clustering, frequent pattern, pCluster algorithm.