Algoritma Anti-TrustRank untuk Perangkingan Web Spam

Muh Fuad Wicaksono

Informasi Dasar

113070023
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Halaman web spam menggunakan berbagai macam teknik untuk mencapai peringkat tinggi pada mesin pencari. Manusia dapat melakukan pekerjaan dengan baik untuk mengidentifikasi web spam tersebut, tetapi untuk mengetahui web spam secara praktis tidak layak menggunakan usaha manusia untuk mengetahui sejumlah besar halaman. Mirip dengan algoritma TrustRank[2], Algoritma Anti-TrustRank merupakan sebuah metode perangkingan web yang berusaha untuk mengatasi link based spam dengan mengusung ide bahwa web spam biasanya akan membentuk link farm yang berisi spam-spam lain, dalam artian web spam biasanya akan merefernsikan ke web spam lain. Cara yang diusulkan metode ini adalah dengan membentuk seed set yang berisi beberapa web yang telah diketahui secara pasti statusnya sebagai web spam dan dipastikan mempunyai nilai PageRank yang tinggi. Kemudian dari seed set nilai antitrust didistribusikan ke seluruh web di luar seed set. Jumlah seed set mempengaruhi hasil dari Algoritma Anti TrustRank. Jumlah seed set yang lebih banyak akan mendapatkan presisi yang lebih baik dalam mendapatkan web spam yang berada diluar seed set. Selain seed set, jumlah iterasi juga sangat berperan dalam menentukan hasil dari algoritma Anti TrustRank, karena jumlah iterasi merupakan parameter yang digunakan dalam menentukan jarak antar web dalam graf. Pada percobaan dalam dataset WebGraph [12] tersebut menunjukkan bahwa pendekatan Anti-TrustRank efektif dalam mendeteksi halaman spam walaupun dengan jumlah seed set yang kecil jika dibandingkan dengan algoritma TrustRank.Kata Kunci : Anti-TrustRank, TrustRank, seed set, web spam.ABSTRACT: Spam pages use various techniques to achieve higher-than-deserved rankings in a search engine’s results. Human experts can identify spam, it is too expensive to manually evaluate a large number of pages. Similar to the Trust Rank algorithm [2], Anti-TrustRank algorithm a web ranking method that seeks to overcome the linkbased spam and brought the idea that spam website normally form a link farm spam that contains other spam, that is mean spam website has reference the other web spam. How the proposed method is to form the seed set that contains several web that has been known for certain status as spam website and certainly has a high PageRank value. Then from the seed set antitrust values distributed across the web that out of seed set. The number of seed set affacts the outcome of the Anti TrustRank Algorithm. More of seed set will get better precission in getting a webspam that are beyond the seed set. In addition, the nymber of iterations also plays an important role in determining the outcome of the Anti TrustRank algorithm, because the number of iterations is a parameter used in determing the distance between the web in a graph. Experiments on the WebGraph dataset [12] show that our approach is very effective at detecting spam pages from a small seed set when compared with TrustRank algorithm.Keyword: Anti-TrustRank, TrustRank, seed set, web spam.

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Algoritma Anti-TrustRank untuk Perangkingan Web Spam
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Muh Fuad Wicaksono
Perorangan
Yanuar Firdaus A.W., Arfi Fitranda
 

Penerbit

Universitas Telkom
Bandung
2011

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini