ALGORITMA STEMMER PAICE/HUSK DALAM BAHASA INDONESIA UNTUK PREPROCESSING TEXT MINING

HENDRO

ALGORITMA STEMMER PAICE/HUSK DALAM BAHASA INDONESIA UNTUK PREPROCESSING TEXT MINING

HENDRO

Informasi Dasar

ALGORITMA STEMMER PAICE/HUSK DALAM BAHASA INDONESIA UNTUK PREPROCESSING TEXT MINING

Dilihat

530 kali

No. Katalog

113040209

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Stemming adalah proses untuk menemukan kata dasar dari sebuah kata. Dengan menghilangkan semua imbuhan baik yang terdiri dari awalan (affixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Teknik stemming berbeda untuk masing-masing bahasa. Hal ini dikarenakan struktur kata pada setiap bahasa memiliki aturan pembentukan yang berbeda. Seperti stemming untuk teks berbahasa Inggris akan berbeda dengan teks berbahasa Indonesia.

Dari hasil implementasi dan pengujian didapatkan bahwa algoritma stemming paice/husk dapat diimplementasikan dalam Bahasa Indonesia dengan akurasi dan kekuatan yang cukup baik.

Pada analisa pengaruh stemming dengan menggunakan algoritma paice/husk dalam proses text mining, dilakukan proses kategorisasi dengan menggunakan multinominal naïve bayes sebagai Classifiernya, didapatkan bahwa proses stemming memperbaiki proses kategorisasi baik dalam hal akurasi, waktu proses, maupun F-measure jika dibandingkan dengan dokumen yang tidak terstemming. Hal ini dikarenakan proses stemming mengurangi jumlah term unik pada dokumen uji.

Kata Kunci : Stemming, Preprocessing Text Mining, morfologi Bahasa Indonesia, kategorisasi teks.ABSTRACT: Stemming is the process to find the base of a word. By removing all the good feed supplement consisting of the prefix (affixes), suffixes (suffixes) and confixes (a combination of prefix and suffix) on the word derivative. Stemming technique is different for each language. This is because the structure of words in each language has different rules of formation. Like stemming for English-language texts will be different from the Indonesian-language text.

From the implementation and testing results showed that the stemming algorithm Paice / Husk can be implemented in Indonesian language with accuracy and good power.

In analyzing the effect of stemming algorithms Paice / Husk in the process of text mining, categorization process is carried out using multinominal Naïve Bayes as a classifier, it was found that the process of stemming improve categorization process both in terms of accuracy, processing time, and F-measure when compared with the unstemmed documents. This is because the stemming process reduces the number of unique terms in the test document.

Keyword: stemming, Text Mining Preprocessing, morphology of Indonesian Language, text categorization.