ABSTRAKSI: Pesatnya pertambahan dan keanekaragaman informasi di dunia maya contohnya dokumen, user semakin sulit mencari informasi yang diinginkan. Dalam pencarian menggunakan search engine sering diperoleh informasi yang sangat banyak namun sebagian besar informasi tersebut terkadang tidak sesuai dengan keinginan user. Untuk itu diperlukan pengelompokkan dokumen dengan menerapkan salah satu teknik yang terkait dengan Text Mining dan Information Retrieval yaitu Cluster-based retrieval (CBR). Penerapan CBR dalam search engine diharapkan dapat mempermudah pengguna search engine dalam menemukan dokumen yang mereka cari.
Metode CBR yang digunakan adalah Cover Coefficient Clustering Method (C3M), metode pengelompokkan objek yang menerapkan prinsip partitional clustering yaitu memetakan dokumen tepat dalam satu cluster (non-overlapping) dengan menggunakan perhitungan cover coefficient dalam menentukan jumlah cluster dan seedpower. C3M menggunakan model probabilistik dan kesamaan term (term similarities) serta menggunakan seed dokumen sebagai inisialisasi/pola awal cluster. Probabilitas disini menggambarkan derajat asosiasi (keterhubungan) antar dokumen-dokumen atau term-term.
Pengujian dilakukan untuk menganalisis hasil pengelompokkan C3M berdasarkan parameter kualitas cluster yang dihasilkan dengan menggunakan nilai silhouette coefficient serta menganalisis hal-hal yang mempengaruhi kualitas cluster. Kualitas cluster yang dihasilkan dipengaruhi oleh relevansi dokumen hitlist yang ter-retrieve, jumlah cluster yang terbentuk, jumlah term query serta jumlah dokumen hitlist. Penerapan CBR menggunakan C3M Algorithm menghasilkan kualitas cluster yang cukup baik, ditunjukkan dengan nilai silhouette coefficient yang bernilai positif.
Kata Kunci : cluster based retrieval, cover coefficient clustering algorithm ,partitional clustering, silhouette coeffient.ABSTRACT: The growth of number and variety information for example documents, user more difficult looking for wanted information. When browsing documents using search engine, there are a lot of documents as results but sometimes the documents are not related to user’s needs. User still must searching the documents one by one in the sense of meeting their needs. Hence text grouping the documents is needed by applying one of technique which related to Text Mining and Information Retrieval that is “Cluster Based Retrieval (CBR)”. The implementation of CBR in search engine can make user searching the documents easier.
The CBR that is used is Cover Coefficient Clustering Method (C3M), a method applying partitional clustering having the character of assign documents exactly in one cluster (non-overlapping) by calculating cover coefficient to determine the number of clusters and seedpower. C3M also use probabilistic models and terms similiarity to show the relationship of documents and term queries.
Examination performed to analyze the results of grouping C3M Algorithm based on parameter cluster quality using silhouette coefficient and analyze the causes of clusters quality. Cluster quality of C3M Algorithm depends on the relevance documents that retrieve, the number of cluster, the number of term query and the number of hitlist documents. The implementation of CBR using C3M Algorithm can show a good cluster quality by the result of silhouette coefficient that always in positive value.
Keyword: cluster based retrieval, cover coefficient clustering algorithm partitional clustering, silhouette coeffient