Kombinasi Metode Pagerank dan Okapi (BM25F) Pada Information Retrieval System

Sirad Handito

Informasi Dasar

113061078
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Sebuah mesin pencari dituntut dapat memberikan hasil pencarian yang tepat dan benar – benar Relevant terhadap keinginan user. Konsep dari mesin pencari ini menggunakan information retrieval. Dalam informatian retrieval, terdapat dua jenis dokumen, yaitu free text (unstructured document) dan fielded text (stuctured document). Dokumen HTML merupakan salah satu jenis fielded text. Dalam pencarian dokumen dalam bentuk HTML, harus diperhatikan adanya faktor tingkat kepentingan dari setiap bagian dari dokumen. Tingkat kepentingan dokumen berdasar meta tag title, keyword, body, dan dan H1 dengan menggunakan metode Pagerank metode Okapi (BM25F) untuk menghasilkan tingkat performansi parameter-parameter yang dibutuhkan.

Metode BM25F diimplementasikan pada ruang lingkup pembobotan dokumen (weighting), sedangkan metode Pagerank diimplementasikan pada pembobotan node dokumen (ranking). Untuk mengkombinasikan kedua metode tersebut, masing-masing metode menghasilkan nilainya yang kemudian akan dikalikan untuk mengetahui nilai similarity score setiap dokumen yang dihitung. Dengan menerapkan kedua metode tersebut yang kemudian dikombinasikan, memungkinkan akan menghasilkan tingkat performansi dari parameter (Precision, Recall dan Interpolated Average Precision) yang lebih baik dari metode yang hanya berdiri sendiri misalnya hanya menggunakan metode BM25F.

Dari hasil pengujian pada skenario pengujian perubahan Top-N, dapat disimpulkan bahwa hasil performansi sistem yang dicapai stabil di beberapa query, hal ini terjadi karena query tersebut memiliki dokumen yang tingkat similarity score yang tinggi dan memiliki nilai Pagerank yang besar atau bisa dikatakan tingkat kepopularan dokumennya tinggi. Pengkombinasian metode ini sangat berpengaruh terhadap nilai Pagerank suatu dokumen, karena jika semakin besar nilai Pagerank maka similarity score yang dihasilkan juga akan lebih tinggi dari dokumen yang lain. Akan tetapi, pengkombinasian Metode BM25F dan metode Pagerank ini memiliki kelemahan pada parameter Recall (kelengkapan) yang dihasilkan akan menurun hingga < 50% ketimbang menggunakan metode BM25F saja. Lain halnya dengan parameter Precision dan IAP (INTERPOLATED AVERAGE PRECISION) yang lebih baik dari metode BM25F saja yang dapat mencapai presentase 100%.

Kata Kunci : Information Retrieval, Metode BM25F, Metode PagerankABSTRACT: A search engine is required to give a precise search results and more Relevant to the user desires. The concept of search engines is to use information retrieval. In informatian retrieval, there are two types of documents, namely the free text (unstructured document) and fielded text (stuctured document). HTML document is one of the fielded text. In the search for documents in HTML form, must be considered a factor of importance of each part of the document. The importance of documents based on meta tag title, keywords, body, and H1 and Pagerank using Okapi method (BM25F) to generate the level of performance required parameters.

BM25F method implemented in the scope of the document weigh (weighting), while the Pagerank method is implemented on the document node weight (ranking). To combine both methods, each method produces values which will then be multiplied to determine the similarity score of each document is calculated. By applying both methods are then combined, will produce a level of performance possible from the parameter (Precision, Recall and Interpolated Average Precision) is better than just a stand-alone methods such as only using BM25F method.

The test results on the test scenario Top-N changes, it can be concluded that the results achieved stable system performance in some queries, this occurs because the query is a document that has a high level of similarity scores and Pagerank value that can be said to be large or high-level document kepopularan. Combining these methods greatly affect the Pagerank value of a document, because if the Pagerank value of the resulting similarity score will also be higher than other documents. However, combining methods and BM25F Pagerank method has drawbacks in parameter Recall (completeness) produced will be decreased to <50% instead of using a method BM25F only. As with the parameters and IAP (INTERPOLATED AVERAGE PRECISION) Precision better than BM25F method that can achieve a percentage of 100%.

Keyword: Information Retrieval, BM25F method, Method Pagerank

Subjek

Informatika Teori dan Pemrograman
 

Katalog

Kombinasi Metode Pagerank dan Okapi (BM25F) Pada Information Retrieval System
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Sirad Handito
Perorangan
Ema Rachmawati, Bayu Munajat
 

Penerbit

Universitas Telkom
Bandung
2012

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini