Implementasi dan Analisis Web Search Results Clustering dengan Algoritma Semantic Hierarchical Online Clustering (SHOC)

Isa Albanna Susianto

Informasi Dasar

113061012
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Clustering (pengelompokan dokumen) merupakan salah satu teknik yang dapat digunakan untuk memudahkan user dalam menemukan dokumen web yang diinginkan dari sejumlah retrieved documents yang dihasilkan search engine. Teknik ini mengelompokkan dokumen berdasarkan kategori tertentu, sehingga penelusuran user terhadap retrieved documents akan lebih mengerucut.

Algoritma Semantic Hierarchical Online Clustering (SHOC) merupakan salah satu algoritma clustering yang mengelompokkan dokumen web hasil pencarian ke dalam cluster tertentu berdasarkan frase-frase kunci yang terdapat dalam dokumen tersebut. Tugas Akhir ini mengimplementasi dan menganalisis clustering hasil pencarian search engine dengan menggunakan algoritma SHOC.

Hasil pengujian menunjukkan bahwa algoritma SHOC mampu memisahkan retrieved documents yang relevan dan tidak dengan performansi yang dipengaruhi oleh kualitas hasil pencarian dan karakteristik dokumen. Algoritma SHOC akan optimal untuk mengelompokkan dokumen-dokumen yang saling berbagi frase kunci. Dan untuk pengaruh kualitas search engine, precision yang terlalu kecil akan menyebabkan banyaknya cluster “sampah” terbentuk, sedangkan recall yang terlalu kecil akan mengurangi ketepatan pembentukan cluster. Untuk menangani kualitas search engine yang kurang baik, nilai threshold cluster quality pada algoritma SHOC perlu diset sesuai dengan kualitas search engine, sehingga dokumen yang relevan bisa tetap dikelompokkan.Kata Kunci : search engine, retrieved documents, clustering, frase kunci, algoritma SHOCABSTRACT: Document clustering is a technique that can be implemented to ease user in finding the expected documents from many documents retrieved by the search engine. This technique groups documents based on certain category, so that the user's searching on retrieved documents can be simplified.

Semantic Hierarchical Online Clustering (SHOC) algorithm is one of clustering algorithms which groups web documents into certain cluster based on key phrases contained in the documents. This research implements and analyzes web search result clustering using SHOC algorithm.

The testing result shows that SHOC algorithm is able to separate the relevant and unrelevant retrieved documents where the performance depends on the quality of the search engine and the documents' characteristic. SHOC algorithm is suitable for grouping documents that share key phrases each other. And for the influence of the quality of search engine, poor search engine's precision will generate many "waste clusters", and poor search engine's recall will decrease the accuracy of the generated clusters. To handle the poorness of the search engine, the value of cluster quality threshold in SHOC algorithm needs to be set according to the quality of search engine, so the relevant documents can still be grouped.Keyword: search engine, retrieved documents, clustering, key phrases, SHOC algorithm

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Implementasi dan Analisis Web Search Results Clustering dengan Algoritma Semantic Hierarchical Online Clustering (SHOC)
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Isa Albanna Susianto
Perorangan
Yanuar Firdaus A.W., Kusuma Ayu Laksitowening
 

Penerbit

Universitas Telkom
Bandung
2010

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini