Pengkategorian Hasil Pencarian Dokumen dengan Clustering

Vidya Ayuningtias

Pengkategorian Hasil Pencarian Dokumen dengan Clustering

Vidya Ayuningtias

Informasi Dasar

Pengkategorian Hasil Pencarian Dokumen dengan Clustering

Dilihat

341 kali

No. Katalog

113030200

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Seiring dengan pesatnya pertambahan jumlah dan keanekaragaman dokumen yang dapat berdampak besar pada saat pencarian suatu dokumen. Pencarian dokumen yang ada pada saat sekarang ini adalah dengan menampilkan hasil pencarian terurut berdasarkan peringkat kecocokan (document ranking). Hasil yang ditampilkan terkadang tidak sesuai (relevan) dengan yang diinginkan oleh pengguna.
Salah satu cara untuk mempermudah pengguna dalam mencari dokumen adalah dengan menggunakan pengkategorian dokumen. Dengan adanya nama kategori dari setiap pengelompokkan dapat memudahkan pengguna karena nama kategori dapat mencerminkan isi dari suatu kumpulan dokumen. Salahsatu cara untuk mengelompokkan dokumen adalah dengan clustering. Pada Tugas Akhir ini akan dilakukan pengelompokkan dokumen berbahasa Indonesi dengan algoritma K Means. Sebelum melakukan pengelompokkan diperlukan proses pre processing yaitu case folding, parsing, pembuangan stopword dan stemming. Proses ini diperlukan untuk mengurangi jumlah kata yang diproses. Nama kategori diberikan pada masing-masing kluster. Penamaan kategori dihitung dari frekuensi kemunculan kata terbanyak dari setiap kluster.
Analisis yang dilakukan pada tugas akhir ini adalah membandingkan dua metode pembobotan dan korelasi jarak antar objek. Selain itu, analisis juga dilakukan untuk mengetahui kesesuaian nama kategori dengan dokumen dalam satu kluster dan menganalisis hasil kluster yang dihasilkan dengan melihat nilai convergence, precision dan recall.
Kata Kunci : nama kategori, k means, clustering, dokumen, pre processing.ABSTRACT: The growth of variety and number of document that give impact in file searching process. File searching which available now just appear the sequence searching result based on level of compatibility (document ranking). The result were appeared occasionally inappropriate (inrelevan) with that was wanted by the user.
One of the methods of facilitating the user in looking for the document was by using categorizing of the document. With the existence of the name of the category from each cluster could facilitate the user because the name of the category could reflect the contents from a document collection. One of the methods of grouping the document was with clustering. In this final project will be carried out cluster the Indonesian document with the K Means algorithm. Before clustered was needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce the number of words that was processed. The name of the category was given to each cluster. The naming of the category was counted from the frequency the of the words from each cluster.
The analysis that have done in this final project is compare two methods weight and the distance correlation between the object. Moreover, the analysis done to know the compatibility of the name of the category with document in each cluster and analysed results cluster that was produced by seeing the value convergence, precision and recalled.
Keyword: name of category, k means, clustering, document, pre processing