Analisa Performansi Badrank Stokastik dan Badrank Stokastik-Trust untuk Deteksi Web Spam <br> Analysis of Comparison Badrank Stochastic and Badrank Stochastic-Trust for Detection Web Spam

Ridho Pahwana Erwandhani

Informasi Dasar

113060029
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Identifikasi web spam merupakan suatu tantangan yang besar bagi search engine. Web spam dengan sengaja melakukan manipulasi posisinya dengan menarik perhatian surfer dalam proses perangkingan pada search engine. Salah satu teknik yang digunakan oleh spammer yakni link farm yang merupakan kumpulan link web yang saling terhubung untuk mendapatkan PageRank yang tinggi. Oleh karena itu apabila diketahui salah satu web spam maka link farm dapat diidentifikasi, dan dapat menganggap web yang terhubung dalam link farm tersebut adalah web spam.

BadRank adalah suatu metode yang digunakan untuk mendeteksi web spam berdasarkan anggapan bahwa suatu web akan dianggap spam apabila memiliki keterhubungan link dengan web spam. Metode BadRank perlu dilakukan modifikasi untuk memastikan nilai BadRank yang diperoleh konvergen dengan memastikan matriks yang terbentuk stokastik. Selain itu metode ini juga dapat dioptimasi dengan c ara menambahkan variabel yang berisi web yang diyakini bukan spam (trust) .Dalam tugas akhir ini digunakan dataset WEBSPAM -UK 2006 untuk pengujian BadRank dengan modifikasi stokastik dan trust.

Dari hasil pengujian diperoleh bahwa untuk dataset web spam uk 2006 , metode badrank dengan modifikasi leafbadlinks with trust mampu mendeteksi spam yang lebih baik 1%-3% dibandingkan dengan modifikasi lainnya. Selain itu juga penambahan variabel trust mampu untuk lebih mengoptimalkan 3%-5% deteksi web spam pada metode badrank.Kata Kunci : Web Spam,Badrank,Link FarmABSTRACT: The identification of web spam has been identified as a major challenge for web search engines. Spam web sites deliberately manipulate their placement by paying customers in search engine rankings. One of the techniques used by spammers is so -called link spam, where farms of interlinked web sites are used to give high PageRank to certain web. These link farms tend not to have any legitimate content and so do not have incom ing links from sites outside the farm. Therefore, if one page within a link farm can be identified, we can reasonably suspect that any pages that point to it are also web spam.

BadRank is a method for detecting spam web sites, based on the premise that a p age is spam if it points to another spam page; i.e., the BadRank score of a page is the weighted sum of the BadRank scores of the pages that it links to. BadRank method need to modified to make BadRank score is converge by ensure the matrix is stochastic . Additionally, we can consider methods for incorporating knowledge about trusted (known non -spam) sites into the BadRank calculation. In this final project used WEBSPAM-UK 2006 dataset to test BadRank with stochastic modified and trust

From the result testing we can analyze that for the datasset web spam uk 2006, badrank that modified with leafbadlinks with trust can detects spam better than another modification. And also badrank that added by trust variable more effective to detect web spam than without it.Keyword: Web Spam,Badrank,Link Farm

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Analisa Performansi Badrank Stokastik dan Badrank Stokastik-Trust untuk Deteksi Web Spam
Analysis of Comparison Badrank Stochastic and Badrank Stochastic-Trust for Detection Web Spam
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Ridho Pahwana Erwandhani
Perorangan
Sri Widowati, Kemas Rahmat Saleh Wiharja
 

Penerbit

Universitas Telkom
Bandung
2011

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini