Ekstraksi Data Pada Halaman Web Menggunakan Partial Tree alignment(DEPTA)

Aditya Dyan Permadi

Ekstraksi Data Pada Halaman Web Menggunakan Partial Tree alignment(DEPTA)

Aditya Dyan Permadi

Informasi Dasar

Ekstraksi Data Pada Halaman Web Menggunakan Partial Tree alignment(DEPTA)

Dilihat

433 kali

No. Katalog

113040197

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Website memiliki banyak konten yang ditampilkan berdasarkan blok-blok yang ada dalam halaman web. Dalam halaman web yang ditampilkan tidak semuanya merupakan inti informasi dari halaman web tersebut misalnya iklan, panel navigasi, user guide, links dan sebagainya. Data-data penyusun informasi yang ditampilkan dalam sebuah web akan dibentuk dalam sebuah struktur obyek yang teratur dan memiliki kerangka baku yang akan kita kenal sebagai data record. Data record ini yang akan dijadikan sebagai pendekatan untuk mengekstrak informasi dalam halaman website, dalam bahasa lain dapat kita katakan sebagai proses mining data record. Hal ini dilakukan dengan tujuan untuk menyediakan nilai tambah suatu layanan website.
Pada Tugas Akhir ini diimplementasikan metode untuk mining data record pada halaman Web secara otomatis dengan menggunakan algoritma yang disebut DEPTA (Data Extraction with Partial Tree Alignment)[1]. Teknik ini dibuat berdasarkan pengembangan dari algoritma MDR (Mining Data Records in Web)[2] yaitu dengan menambah tiga tahap, diantaranya adalah tree edit distance yang diimplementasikan bersama algoritma simple tree matching dan yang terakhir adalah partial tree alignment dalam tiga tahap tersebut selalu menggunakan prinsip pencocokan dua atau lebih subtree.
Tahap analisis dan pengujian memberikan hasil bahwa algoritma DEPTA yang dibangun terbukti bisa mendapatkan data record pada halaman Web dan mampu mengurangi tingkat noise pada hasil akhir yang lebih baik dari pada algoritma MDR.
Kata Kunci : Web Mining, partial tree alignment, data region, data record, simple tree matching, mining data record.ABSTRACT: A website has contents that shown based on blocks in the web. In the shown web page not only included main contents from that web page, but also any parts which not relevant with information contents has shown. For example advertisement, navigation panel, user guide, links etc. The data of composer information has shown in the web pages will be construct into regular object structure and has fixed template (data record).Data record will be used as approach for information extraction on the web page(mining data record). It is useful to mine such data record in order to extract information from web pages to provide value-added services.
In this Final project is implemented method for mining data records in web pages automatic with use algorithm is called DEPTA (Data Extraction with Partial Tree Alignment )[1]. This technique is made to develop MDR (Mining Data Records in Web)[2] algorithm i.e add to three step i.e tree edit distance that implemented simple tree matching together and partial tree alignment,on the three step before always use tree (subtree) matching principle. From implementation and analyze stage shown that DEPTA algorithm is built proved to can find out data records in Web pages and capable to reduce noise in web pages better than MDR.

Keyword: Web Mining, partial tree alignment, data region, data record, simple tree matching, mining data record.