ABSTRAKSI: Web di internet telah menjadi repository data yang luar biasa besarnya. Telah banyak upaya yang dilakukan untuk menyediakan akses yang efisien terhadap informasi yang relevan didalam repository data yang sangat besar ini. Salah satu cara untuk menyediakan akses yang efisien ini adalah dengan cara web news content extraction yang memiliki fokus utama mengambil informasi dalam web berita.
Pada Tugas Akhir ini diimplementasikan metode untuk mengekstrak informasi utama pada halaman Web berita dengan menggunakan metode yang disebut Hybrid. Teknik ini berusaha mengambil keuntungan dari teknik sequence matching dan tree matching. Struktur data yang digunakan adalah TSReC, yang merupakan salah satu representasi tag sequence yang sesuai untuk kedua teknik sequence matching dan tree matching.
Tahap analisis dan pengujian memberikan hasil bahwa metode Hybrid yang dibangun terbukti bisa mendapatkan news content pada halaman Web berita meskipun pada beberapa dataset masih terdapat noise.
Kata Kunci : web news content extraction, sequence matching, tree matching, TSReCABSTRACT: Web on the Internet has become an enormous repository of data. There have been many efforts to provide efficient access to relevant information in the very large data repository. One way to provide efficient access is by way of web news content extraction with primary focus to take the information in the web news.
In this Final Project implemented a method to extract key information on news web pages by using the method called Hybrid. This technique is trying to take advantage of the sequence matching techniques and tree matching. Data structure used is TSReC, a variant of tag sequences representation suitable for both sequences matching techniques and tree matching.
From analysis and test results stage shown that that Hybrid method is built proved to can get news content on news Web pages, although in some datasets, there are still noise.
Keyword: web news content extraction, sequence matching, tree matching, TSReC