ABSTRAKSI: Pencarian dokumen yang ada pada saat sekarang ini adalah dengan menampilkan hasil pencarian terurut berdasarkan peringkat kecocokan (document ranking). Hasil yang ditampilkan terkadang tidak sesuai (relevan) dengan yang diinginkan oleh pengguna.
Salah satu cara untuk mengelompokkan dokumen adalah dengan clustering. Pada Tugas Akhir ini akan dilakukan pengelompokkan dokumen berbahasa Indonesia yang jumlahnya statis dengan algoritma Descriptive K-Means. Perbedaannya dengan K-Means biasa adalah Descriptive K-Means menggunakan tahapan khusus untuk pencarian label dan pengalokasian dokumen.
Setelah implementasi, algoritma ini bisa membentuk cluster yang dokumen-dokumen di dalamnya sesuai dengan labelnya, hal ini dikarenakan query yang digunakan untuk pengalokasian dokumen relasi AND, artinya setiap kata yang terdapat pada label harus ada pada setiap dokumen.
Namun algoritma ini kurang efektif ketika kata yang dicari sedikit terdapat dalam dokumen koleksi, sehingga cluster yang terbentuk sering terkena pruned karena cluster tersebut jumlah dokumen yang terdapat di dalamnya tidak memenuhi jumlah minimal untuk terbentuknya suatu cluster.
Dalam pengujian ditemukan pencarian paling efektif ketika nilai K=2 berdasarkan nilai precision dan recallnya. Tingkat kefektifan tersebut semakin berkurang seiring bertambahnya nilai K. Ukuran cluster yang dihasilkan tidak bisa diukur dari nilai convergence yang didapat karena sangat bergantung pada inputan kata dari pengguna dan jumlah dokumen dalam cluster.Kata Kunci : cluster, clustering, Descriptive K-Means, preprocessing, precision, recall.ABSTRACT: Nowadays, when searching documents, the search result will sort retrived documents based on their rank. The results sometimes irrelevant and different from user’s expectation. One alternatives to improve the search results is to clusterize it.
Documents in this final project will be in Indonesian language with static amounts and using Descriptive K-Means algorithm. The difference between original K-Means and Descriptive K-Means(DKM) is that DKM have a certain phases to get labels and to allocate documents.
After implementation, this algorithm produce clusters that contains relevant documents to cluster label due to its query that uses AND relation to allocates documents, it means that every term label must be in every documents in the cluster.
This algorithm become uneffective if user queries are too few in the document collections. If condition like this happen then some of clusters will contains less then minimal required amount of documents.
Based on precision and recall value, the most effective search result comes when K is set =2. This values decrease when K value gets bigger. Convergence value cannot be used to conclude a cluster is good or not because its really depends on user’s queries and amount of documents within the cluster.
Keyword: Convergence, Descriptive K-Means, precision, recall.