Analisis Penerapan Algoritma Committee Clustering Pada Pengelompokan Dokumen

Siti Rahmawati

Analisis Penerapan Algoritma Committee Clustering Pada Pengelompokan Dokumen

Siti Rahmawati

Informasi Dasar

Analisis Penerapan Algoritma Committee Clustering Pada Pengelompokan Dokumen

Dilihat

340 kali

No. Katalog

113060145

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Saat ini jumlah dokumen teks berbentuk digital semakin banyak dan beragam. Untuk memudahkan pengambilan informasi yang dibutuhkan dari dokumen teks tersebut, maka perlu dilakukan pengelompokkan dokumen sesuai dengan topiknya. Pengelompokkan ini dapat dilakukan dengan menggunakan teknik yang terdapat dalam data mining yaitu clustering. Clustering merupakan teknik yang bersifat unsupervised learning, yaitu data tidak diberi label sehingga algoritma clustering yang akan mengelompokkan dokumen berdasarkan nilai kesamaan. Untuk melakukan pengelompokkan dokumen tersebut, digunakan algoritma committee clustering yang bekerja dengan cara membangun pusat cluster dengan merata-ratakan nilai feature vector dari himpunan bagian dari anggota cluster yang disebut committee, yang akan bertugas untuk menentukan suatu dokumen untuk masuk ke dalam suatu cluster. Dengan memilih anggota committee secara hati-hati, feature dari pusat cluster akan cenderung mengarah kepada class target[8].

Dalam tugas akhir ini, jumlah cluster yang dibentuk oleh algoritma committee clustering disesuaikan dengan jumlah kategori dari data yang digunakan dan didapatkan nilai rata-rata silhouette coefficient sebesar 0.2296. Dengan demikian, kualitas cluster yang dihasilkan bersifat no structure.Kata Kunci : algoritma, committee clustering, clustering, dokumen, feature,ABSTRACT: In this era, the number of digital text documents grows rapidly and in large number of variation. To facilitate the easiest way to retrieve information from those digital text documents, then classifying those documents are surely needed according to the topic. The classifying can be conducted by using data mining technique that called clustering. Clustering is an unsupervised learning technique which have meaning that the data is not being labeled, but then the clustering algorithm will classify documents based on their similarity. To make the document clustering, ‘committee clustering’ algorithm is used, which is working by building a cluster center with uniformly averaged value of feature vector of a subset of cluster members that called the committee. This committee will be responsible for determining whether a document is a part of a cluster or not. By selecting the committee members carefully, the feature of the center cluster will tend to lead to the target class [8].

In this final project, the number of cluster which formed by the committee clustering algorithm is adjusted with number of categories of data that used. That number of clusters produced the average value of silhouette coefficient 0.2296. Thus the quality of the resulting clusters are no structure.Keyword: algorithm, committee clustering, clustering, document, feature,