Ekstraksi Content Structure pada Halaman Web Menggunakan Metode Vision Based Page Segmentation

Andri Setiawan

ABSTRAKSI: Sebuah halaman web biasanya mengandung berbagai jenis content seperti navigasi, dekorasi, dan bagian-bagian lain yang tidak berhubungan dengan inti informasi dari halaman web tersebut. Di sisi lain, kadang pengguna sebenarnya hanya membutuhkan informasi inti dari halaman tersebut. Dari sinilah muncul kebutuhan akan sistem yang dapat mengekstrak informasi dari suatu halaman web.
User melihat sebuah halaman web melalui web browser dan mendapatkan representasi 2D yang mempunyai banyak visual cues (penanda visual) untuk membantu membedakan bagian bagian yang berbeda dari halaman tersebut. Seorang web designer biasanya mengorganisasi content dari sebuah halaman web agar mudah untuk dibaca/dipahami oleh user. Oleh karena itu, content-content yang berhubungan secara semantik biasanya diletakkan dalam satu kelompok dan halaman web tersebut dibagi menjadi region-region untuk content yang berbeda dengan menggunakan pembeda visual seperti garis, ukuran font, warna, dll. Content-content yang sejenis biasanya akan ditampilkan dengan bentuk visual yang sama atau sejenis pula. Visual cues inilah yang akan dimanfaatkan untuk proses identifikasi dan ekstraksi data. Metode Visual-Based Page Segmentation akan memanfaatkan penanda visual (visual cues) dari halaman web untuk mengekstrak data dari halaman web tersebut.
Tahap analisis dan pengujian memberikan hasil bahwa pattern visual cues yang tepat terbukti dapat dimanfaatkan untuk membuat sistem ekstraksi informasi dari halaman web meskipun masih terdapat noise.
Kata Kunci : halaman web, ekstraksi, visual cues, pattern, noiseABSTRACT: A web page usually contains various types of content such as navigation, decorations, and other parts that are not associated with the core information from these web pages. On the other hand, sometimes the user actually requires only core information from these pages. From this came the need for a system that can extract information from a web page.
Users see a web page through a web browser and get a 2D representation that have a lot of visual cues to help distinguish different parts of the page. Web designers usually organize content from a web page so that it is easy to understood by the user. Therefore, the content-related content semantically usually placed in one group and web pages are divided into regions for different content using a visual differentiator such as line, font size, color, etc. Same type content would normally be displayed with a similar visual form as well. These visual cues will be used for identification and data extraction processes.Visual Based Page Segmentation Method will use visual cues from the web page to extract data from these web pages.
Phase analysis and test results provide proves that appropriate pattern of visual cues can be used to create a system of information extraction from web pages although there is still some noises.Keyword: web page, extraction, visual cues, pattern, noise


Rekayasa Perangkat Lunak


Ekstraksi Content Structure pada Halaman Web Menggunakan Metode Vision Based Page Segmentation


Andri Setiawan
Yanuar Firdaus A.W., Arie Ardiyanti Suryani


Universitas Telkom




