Implementasi Focused Crawler dengan Menggunakan Content Similarity dan Link Structure Analysis

Rendy Herdiansyah Rosman

Informasi Dasar

113051060
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Focused crawler adalah crawler yang khusus mendownload halaman web yang sesuai dengan topik yang ditentukan oleh pengguna. Tugas utama dari focused crawler adalah mengumpulkan sebanyak-banyaknya halaman web yang relevan sesuai dengan topik yang telah ditentukan. Tidak semua halaman web didownload dalam sebuah web site, tetapi hanya halaman web yang berkaitan dengan topik saja yang akan disimpan, sehingga dapat menghemat penggunaan resource dari server.

Tugas Akhir ini mengimplementasikan sebuah focused crawler dengan menggunakan metode cosine similarity, link score, dan traverse irrelevant page. Metode cosine similarity digunakan untuk menentukan apakah sebuah halaman web dinyatakan sesuai dengan topik yang dicari. Metode link score digunakan untuk memandu crawler ke arah mana kira-kira akan mendapatkan halaman web yang relevan dengan topik. Metode traverse irrelevant page merupakan teknik penelusuran halaman web yang tidak relevan untuk mendapatkan halaman web yang relevan di dalam-nya.

Hasil pengujian menunjukkan bahwa focused crawler akan mendapatkan nilai precision rate yang optimal dengan menggunakan metode traverse irrelevant page dengan kedalaman level 0. Focused crawler ini juga dapat diimplementasikan dengan menggunakan seed url yang keterkaitan nya dekat dengan topik maupun seed url yang hanya sedikit keterkaitan nya dengan topik. Performansi dari focused crawler dilihat dari parameter precision rate dan waktu komputasi juga akan optimal jika menggunakan seed url yang sedikit keterkaitan nya dengan topik.Kata Kunci : focused crawler, cosine similarity, link score, traverse irrelevant page, weight table.ABSTRACT: Focused crawler is a crawler to download specific web pages that match the topic specified by the user. The main task of focused crawler is to collect as more as possible relevant web pages according to the given topic. Not all web pages download in a web site, but only the web pages related to topics that will be stored, thus saving resource usage of the server.

This final project, will implement a focused crawler using the cosine similarity, link score, and traverse irrelevant page method. Cosine similarity method used to determine whether a web page is relevant to the topic or not. Link score method is used to guide crawlers which direction will approximately get a web page relevant to the topic. Traverse irrelevant page method is a technique to traversing web pages that are not relevant, to obtain relevant web pages in it.

Testing results show that the focused crawler will get the optimal value of the precision rate by using the traverse irrelevant pages method with depth level 0. Focused crawlers can also be implemented using seed urls his close association with the topic, as well as seed urls his little relevance to the topic. Performance of the focused crawler seen from the precision rate aspect and computational time aspect will also be optimal if using seed urls that his little relevance to the topic.Keyword: focused crawler, cosine similarity, link score, traverse irrelevant page, weight table.

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Implementasi Focused Crawler dengan Menggunakan Content Similarity dan Link Structure Analysis
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Rendy Herdiansyah Rosman
Perorangan
Kemas Rahmat Saleh Wiharja, Angelina Prima Kurniati
 

Penerbit

Universitas Telkom
Bandung
2012

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini