ABSTRAKSI: Selama beberapa tahun terakhir, World Wide Web telah menjadi salah satu sumber penting untuk pencarian informasi. Oleh karena itulah, seiring dengan jumlah web yang terus meningkat, kemampuan untuk mendapatkan informasi yang spesifik dan relevan adalah sama pentingnya dengan kehandalan web itu sendiri untuk menampilkan informasi sesuai dengan masing-masing kelasnya. Pada dasarnya, halaman web merupakan sebuah hypertext. Selain teks dan komponen multimedia lainnya, web juga terdiri dari konten lainnya yang berupa hyperlink, tag HTML dan meta data. Klasifikasi halaman web menjadi tidak mudah mengingat atribut dalam dokumen HTML berupa teks yang jumlahnya lebih banyak ditemui dibandingkan dengan komponen media lainnya seperti audio, video, atau image.
Permasalahan klasifikasi tersebut diselesaikan dengan menerapkan algoritma multinomial naïve bayes classifier dan dengan memanfaatkan komponen halaman web yang mengandung meta tag description dan meta tag keywords. Kemudian dari penerapannya, dianalisis ketepatan kelas hasil klasifikasi dan tingkat akurasi prediksi serta dianalisis faktor-faktor yang mempengaruhi tingkat akurasi hasil klasifikasi tersebut.
Multinomial naïve bayes classifier bekerja berdasarkan sekumpulan bukti (evidence) dan kelas (class). Dengan melakukan pelatihan (training) terhadap sebagian data sampel, dapat ditentukan probabilitas kepastian (likelihood probability) dari sebuah bukti jika diberikan kelas tertentu. Multinomial naïve bayes classifier juga menggunakan probabilitas sebelumnya (prior probability) dari sebuah kelas, yang perhitungannya dapat didasarkan dari sampel data tersebut. Dari analisis sampel data tersebut, jika diberikan sebuah dokumen baru yang terdiri dari sekumpulan bukti, probabilitas setiap kelas terhadap dokumen tersebut (posterior probability) dapat ditentukan.
Kata Kunci : halaman web, meta tag, klasifikasi, multinomial naïve bayesABSTRACT: During these recent years, World Wide Web has become an important source for information search. Therefore, in line with the growing number of web, the ability to obtain specific and relevant information is as important as the reliability of the web itself to display the information in accordance with their respective class. Basically, the web page is a hypertext. In addition to text and other multimedia components, web also comprises other content in the form of hyperlinks, HTML tags, and meta data. Web page classification becomes not so easy in term of the attributes in HTML document in the form of text that are more prevalent compared with other media components such as audio, video, or image.
Classification problems were solved by applying the multinomial naïve bayes classifier and by utilizing components of web pages that contain the meta tag description and meta tag keywords. Then, from its application, the result of classification accuracy and prediction, also the factors affecting the accuracy of the classification results will be analyzed.
Classification problems were solved by applying the multinomial naïve bayes classifier and by utilizing components of web pages that contain the meta tag description and meta tag keywords. Then, from its application, the result of classification accuracy and prediction, also the factors affecting the accuracy of the classification results will be analyzed.
Multinomial bayes classifier works based on the collection of evidence (evidence) and class (class). By doing the training (training) on some sample data, we can determine the probability of certainty (likelihood probability) of a proof that if given a certain class. Multinomial bayes classifier is also using the previous probability (prior probability) of a class, which calculations can be based from sample data. From analysis of these data samples, if given a new web page consisting of a collection of evidence, the probability of each class to the web page (posterior probability) can be determined.
Keyword: web page, meta tag, classification, multinomial naïve bayes