ABSTRAKSI: Seiring dengan semakin berkembangannya dunia internet, semakin banyak pula web berita online yang tersedia di dunia maya. Pada dasarnya web berita online banyak menyediakan informasi penting. Berbagai teknik dalam text mining dapat diterapkan dengan tujuan untuk memperoleh manfaat yang lebih banyak dari informasi yang disediakan, diantaranya yaitu dengan menggunakan page-based clustering maupun keyword-based search. Namun, page-page pada newspaper biasanya terdiri dari beragam item berita dengan topik yang saling tidak berhubungan satu sama lain, sehingga page-based clustering kurang memberikan hasil yang optimal.
Pada Tugas Akhir ini dilakukan pendekatan dengan melakukan ekstraksi terhadap item-item berita pada web pages secara individual dan melakukan mining secara terpisah dengan menggunakan pattern based strategy. Pendekatan ini menggunakan pattern URL text dan anchor text dalam mengekstrak link berita serta menggunakan crawler untuk penelusuran link berita dalam rangka mencari full story dari masing-masing item berita.
Tahap analisis dan pengujian memberikan hasil bahwa pendekatan pattern based strategy yang dibangun terbukti dapat mengekstrak full story pada halaman Web berita meskipun tidak semua full story dari setiap item berita dapat diekstrak. Hasil ekstraksi item berita akan mencapai nilai optimal jika link-link pada web input bersifat homogen.Kata Kunci : pattern based strategy , URL text , anchor text, web berita, full storyABSTRACT: As the increasing of the development of the internet, the number of online news web available in the net is also increasing. Basically, the online news web provides important information. Various techniques in text mining can be applied to gain more advantages from the available information, such as using page-based clustering or even keyword based search. But, pages on newspaper, usually consist of many kinds of news item with unrelated topic each other, so the page-based clustering gives an optimal result deficiently
In this final assignment, an approximation is applied by extracting the news items on web pages individually and by mining it separately using pattern based strategy. This approximation is using the pattern URL text and anchor text in order to extract news link and also using crawler for news link search to seek the full story from each news item.
The analysis and testing phase results that the pattern based strategy approach build, proved can extract the full story of the news web page although not all full stories from each news item is extractable. The extracted news item will reach the optimal value if the links on the input web is homogenyKeyword: pattern based strategy , URL text , anchor text, newspaper web, full story