ABSTRAKSI: Clustering dokumen merupakan cara yang tepat untuk mempermudah search engine dalam melakukan query terhadap kumpulan dokumen yang besar. Dokumen-dokumen yang memiliki kesamaan akan dikelompokkan sehingga membentuk topik-topik atau subtopik yang berbeda. Algoritma-algoritma clustering dokumen yang sering dipelajari adalah algoritma-algoritma batch clustering, di mana keseluruhan dokumen diperlukan sejak awal dan clustering dilakukan dengan banyak iterasi terhadap dokumen tersebut. Namun, dengan adanya publikasi online di web yang semakin berkembang seperti sekarang ini, terjadi ledakan jumlah informasi yang bertambah setiap harinya. Metode batch clustering dianggap tidak efisien untuk kasus semacam ini. Agar proses clustering dapat dilakukan segera setelah dokumen masuk, maka clustering perlu dilakukan secara incremental.
Terdapat beberapa algoritma incremental clustering yang populer. Salah satunya adalah algoritma Cobweb yang diimplementasikan pada Tugas Akhir ini. Tugas Akhir ini menggunakan Cobweb untuk mengelompokkan retrieved documents hasil pencarian search engine. Cobweb melakukan clustering data dengan membangun classification tree di mana tiap node dari tree tersebut menggambarkan cluster yang berisi objek-objek data. Dalam membangun tree, Cobweb menggunakan category utility (CU) untuk mengevaluasi tree dan mendapatkan pengelompokan data yang paling tepat. Dari pengujian yang dilakukan pada Tugas Akhir ini, hasil akhir menunjukkan bahwa clustering menggunakan algoritma Cobweb yang diterapkan pada retrieved documents memberikan solusi dengan kualitas yang baik, karena meskipun pada pohon klaster pasti terjadi overlapping, tetap terbukti memiliki sifat kohesif. Kohesif adalah keadaan di mana persamaan antardokumen dalam klaster yang sama lebih besar daripada persamaan antardokumen pada klaster yang berbeda.
Kata Kunci : dokumen, incremental clustering, Cobweb, search engine, retrieved documents , classification tree, category utility, persamaan, kohesifABSTRACT: Document clustering is an appropriate way to simplify the search engine performing the query against a large collection of documents. Similar documents will be grouped to form different topics or subtopics. Document clustering algorithms that are often studied are the batch clustering ones, where the entire document is required from the beginning and the clustering is performed by many iterations of each document. However, with the current groeing online publishing on the web, explosion of information is increasing every day. Batch clustering methods are considered inefficient for such cases. In order for the clustering process can be performed immediately after the document signed in, it needs to be done incrementally.
There are several popular incremental clustering algorithms. One of them is the Cobweb algorithm implemented in this final project. Cobweb is used to classify retrieved documents from search results by search engine. Cobweb perform data clustering by building a classification tree where every node of the tree depicts the cluster that contains the data objects. In the tree building, Cobweb uses category utility (CU) to evaluate the tree and get the most appropriate grouping of data. From the testing performed on this final project, final result shows that the Cobweb clustering algorithm implemented on retrieved documents provides solutions with good quality, because despite the inevitable overlapping clusters of trees, still proved to have the cohesiveness characteristic. Cohesive is a state where the similarity between documents in the same cluster is greater than the similarity between documents in different clusters.
Keyword: document, incremental clustering, Cobweb, search engine, retrieved documents ,classification tree, category utility, similarity, cohesive