ABSTRAKSI: Suatu halaman berita website biasanya banyak mengandung konten informasi dalam tiap-tiap blok halaman yang ditampilkan. Kadangkala konten berita yang ditampilkan pada halaman berita di suatu website tidak sepenuhnya memberikan informasi yang relevan atau tidak berhubungan dengan konten utama misalnya, panel navigasi, copyright, user guide, links, sinopsis suatu berita, berbagai macam iklan dan lain-lain. Blok-blok informasi yang tidak relevan dengan konten utama tersebut dikenal sebagai web pages noise
Dalam tugas akhir ini akan digunakan teknik Style Tree untuk mendapatkan presentation style (layout) secara umum dan konten aktual dari halaman web dengan menggunakan sampling beberapa halaman website.Pertama kali seluruh halaman web akan dimodelkan dengan DOM tree , lalu penggabungan DOM menjadi Style Tree untuk memperoleh struktur umum dan pemecahan blok-blok informasi dalam website.Informasi yang didapatkan digunakan untuk melakukan pengukuran dan mengevaluasi tingkat kepentingan dari masing-masing node hingga pemberian bobot pada masing-masing individual word (feature) pada masing-masing blok konten. Hasil pembobotan (weighting) akan digunakan untuk mengukur performansi hasil preprocessing dengan cara klasifikasi untuk mendapatkan nilai F-measure.Kata Kunci : Style Tree, DOM, weighting, eliminasi noise, web mining.ABSTRACT: A page of website usually contain a lot of information content in each of information block that shown.Sometimes , news content shown in the page of website not purely giving relevent information with the core of news e.g., navigation bars, copyright, user guide, links, synopsis and also advertisement. The information blocks that is not the main content or irrelevant information in web pages is called web pages noise.
On this final project, Style Tree technique will be used to get general presentation style (layout) and actual content from web pages using pages sampling. First, web pages will be modelled with DOM tree , then building Style Tree with join DOM structure to capture the common structure and spliting information block in a website. The Information that is captured will be used to measure and evaluate the importance of each node until giving a weight to each feature in each content block. The weighting result will be used to measure the performance of preprocessing by classification to get F-measure score.Keyword: Style Tree, DOM, weighting, eliminasi noise, web mining.