ABSTRAKSI: Menumpuknya data khususnya dokumen berita berbahasa Indonesia merupakan salah satu hal yang menyebabkan makin terkenalnya teknik klastering. Dengan teknik ini, dokumen berita berbahasa Indonesia tersebut bisa dengan mudah dikelompokkan walaupun class label belum diketahui. Ada banyak metode klasterisasi yang bisa digunakan, akan tetapi umumnya metode-metode tersebut belum bisa menangani data berdimensi tinggi, deskripsi klaster yang sulit dimengerti serta masih diizinkannya kondisi overlap (kondisi dimana satu dokumen bisa masuk ke dalam beberapa klaster). Permasalahan lain dari proses klasterisasi adalah penentuan kata kunci yang mewakili dokumen. Salah satu cara yang dilakukan dalam proses klasterisasi adalah dengan mencari kata yang menjadi inti dari dokumen. Sebagian besar algoritma klasterisasi menggunakan cara selected globally significant patterns, yaitu menemukan kombinasi kata yang mewakili sebagian besar dokumen yang diklasterisasi. Terkadang dalam proses ini muncul suatu permasalahan dimana ada n buah dokumen yang tidak mengandung kata-kata tersebut. Hasil klasterisasi bisa menjadi terlalu banyak karena n buah dokumen tersebut membuat klaster sendiri atau bahkan bisa menjadi terlalu sedikit karena pattern yang dianggap mewakili seluruh dokumen, tidak terdapat dalam n buah dokumen secara lokal, sehingga dokumen tersebut bisa masuk ke dalam klaster yang tidak tepat. Akibatnya, hasil klasterisasi menjadi tidak bagus.
Permasalahan-permasalahan di atas bisa ditangani dengan menggunakan Instance Driven Hierarchical Clustering (IDHC). Data berdimensi tinggi dan deskripsi klaster yang sulit dimengerti dapat diatasi dengan mereduksi term-term yang tidak frequent. Sedangkan kondisi overlap dapat diatasi melalui duplicate pruning dan refinement cluster. Serta dengan adanya cara selected locally significant cluster , algoritma ini menjadi lebih bagus dalam memilih term yang bisa mewakili seluruh dokumen dalam suatu dataset. Sehingga, dalam kondisi yang buruk, performansi algoritma IDHC bisa lebih unggul dibanding algoritma FIHC dan HFTC. Dan berdasarkan pengujian, nilai F-Measure yang didapatkan jauh lebih stabil.
Kata Kunci : klasterisasi, overlap, IDHC, F-MeasureABSTRACT: Accumulated data, especially documents in Indonesian language article is one thing that causes even more famous clustering techniques. With this technique, the document in article of Indonesian language can be easily categorized, although the class label is unknown. There are many clustering methods that can be used, but generally these methods can not handle high-dimensional data, descriptions of clusters are difficult to understand and still allowed overlap condition (condition in which document can be categorized into several clusters). Another problem is the determination keywords representing the document. One way is done in clustering process is to find words that became the core of the document. Most of the clustering algorithms selected use patterns globally significant, that its purpose is to find combinations of words that represent the majority of dataset documents. Sometimes in this process happened a problem where there are n pieces of documents that do not contain those words. Clustering results can be too much for n pieces the document to make their own cluster or could even be too small because the pattern that is considered to represent the whole document, not included in n pieces of documents locally, so the document can be entered into the cluster that is not appropriate. Consequently, the results of clustering are not good. The problems above can be handled by using Instance Driven Hierarchical Clustering (IDHC).
High-dimensional data and cluster descriptions are difficult to understand, can be overcome by reducing terms that are not frequent. While overlap condition happen, it can be overcome through pruning and refinement duplicate cluster. And the existence of selection ways of clusters that significant locally, this algorithm becomes better in selecting terms that can represent all the documents in a dataset. Thus, in poor condition, the algorithm performance make IDHC more better than FIHC and HFTC algorithm. And based on the test, the F-Measure values obtained much more stable.
Keyword: clustering, overlap, IDHC, F-Measure