ABSTRAKSI: Pencarian dokumen yang ada pada saat sekarang ini adalah dengan menampilkan hasil pencarian terurut berdasarkan peringkat kecocokan (document ranking). Hasil yang ditampilkan terkadang tidak sesuai (relevan) dengan yang diinginkan oleh pengguna.
Salah satu cara untuk mengelompokkan dokumen adalah dengan clustering. Pada Tugas Akhir ini dilakukan pengelompokkan dokumen berbahasa Indonesia dari dokumen koleksi dengan algoritma LINGO. LINGO merupakan algoritma clustering yang lebih mengedepankan kualitas penamaan label pada klaster.
Setelah implementasi, algoritma ini bisa membentuk klaster dengan dokumen-dokumen di dalamnya sesuai dengan labelnya, hal ini dikarenakan setiap dokumen dialokasikan ke masing-masing klaster berdasarkan tingkat kemiripannya dengan label yang terbentuk. Dalam menentukan label untuk penamaan klaster, algoritma ini memeriksa kemunculan term atau complete phrase dalam dokumen. Maka dari itu, algoritma ini sangat efektif jika dokumen-dokumen yang diproses banyak mengulang topik inti, sebaliknya akan kurang efektif jika topik inti dari dokumen diinterpretasikan dengan berbagai istilah yang beragam.
Dalam pengujian label klaster dengan metode precision dan recall pada metode pembobotan Term Frequency (TF) dan Term Frequency – Inverse Document Frequency (TF-IDF) didapatkan hasil yang bagus untuk keduanyaKata Kunci : klaster, clustering, LINGO, complete phrase, precision, recallABSTRACT: Nowadays, when searching documents, the search result will sort retrived documents based on their rank. The results sometimes irrelevant and different from user’s expectation. One alternative to improve the search results is to clusterize it.
Documents in this final project will be document collection in Indonesian language and be clustered using LINGO algorithm. LINGO is clustering algorithm which ensure that both contents and description (labels) of the resulting groups are meaningful to the users. After implementation, this algorithm produce clusters that contains relevant documents to cluster label due to for each document is allocated to the cluster based on it’s similarity to the label cluster.
To determine the labels to describing cluster, this algorithm will check the occurrence of the term and complete phrase in the documents. So the algorithm will become effective if processed documents contains recurrent topic terms, otherways it will become uneffective if topic terms or phrases in the documents are interpreted in many different terms.
Due cluster label testing process using precision and recall on Term Frequency (TF) weighting and Term Frequency – Inverse Document Frequency (TF-IDF) generate good result for the both weighting methodsKeyword: cluster, clustering, LINGO, complete phrase, precision, recall