Deteksi dan Penandaan Noise Pada Halaman Web Berita Berbahasa Indonesia Menggunakan Teknik Feature Weighting

Rahmat Firdaus

Informasi Dasar

113040077
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Sebuah website di Internet memiliki banyak konten informasi dalam tiaptiap blok halaman yang ditampilkan. Kemudian tidak seperti kebanyakan data atau teks konvensional lainnya, suatu halaman web selain mengandung konten utama juga mengandung banyak blok informasi yang tidak berhubungan dengan konten utama misalnya, panel navigasi, copyright, user guide, links, sinopsis suatu berita, berbagai macam iklan dan lain-lain. Dalam hal ini blok-blok informasi yang tidak relevan dengan konten utama pada suatu halaman web disebut sebagai web pages noise.
Dalam tugas akhir ini akan digunakan teknik feature weighting untuk meningkatkan performansi hasil klasifikasi dengan mendeteksi noise yang ada pada halaman website. Dengan teknik feature weighting ini suatu halaman web pertama kali akan dimodelkan dengan pohon struktur Dokumen Object Model (DOM) tree dan Compressed structure tree(CST) untuk memperoleh struktur umum dan membandingkan blok-blok informasi dalam suatu website. Informasi yang didapatkan digunakan untuk melakukan pengukuran dan mengevaluasi tingkat kepentingan dari masing-masing node yang terbentuk dari compress struktur tree(CST).
Berdasarkan tree yang terbentuk dan tingkat kepentingan dari nilai node yang didapatkan, metoda ini memberikan bobot pada masing-masing individual word (feature) pada masing-masing blok kontent. Hasil pembobotan (weight) akan digunakan dalam proses web mining.Kata Kunci : CST, DOM, deteksi noise, eliminasi noise, web mining.ABSTRACT: A Website on the Internet has shown a lot of information content in each block. Unlike conventional data or text, web pages not only have a main content but also typically contain a large amount of information that is not part of the main content of the pages, e.g., navigation bars, copyright, user guide, links, synopsis and also advertisement. The blocks information that is not the main content or irrelevant information in web pages is called web pages noise.
On this final project, feature weighting technique will be used to improve performance of classification with detection the noisy information in web pages. First, web pages will be modelled with structure tree Documents Object Model (DOM) tree and Compressed Structure Tree (CST) to capture the common structure and compare information block in a website. The Information that is captured will be used to measure and evaluate the importance of each node which is built from Compressed Structure Tree.
Based on the CST and the importance of weighting value, this method will put on a weight to each feature in each content block. The weighting result will be used to web mining process.Keyword: CST, DOM, Noise Detection, Elimination, web mining

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Deteksi dan Penandaan Noise Pada Halaman Web Berita Berbahasa Indonesia Menggunakan Teknik Feature Weighting
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Rahmat Firdaus
Perorangan
Yanuar Firdaus A.W., ZK. Abdurahman Baizal
 

Penerbit

Universitas Telkom
Bandung
2008

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini