ALGORITMA STEMMER PAICE/HUSK DALAM BAHASA INDONESIA UNTUK PREPROCESSING TEXT MINING

HENDRO

Informasi Dasar

113040209
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Stemming adalah proses untuk menemukan kata dasar dari sebuah kata. Dengan menghilangkan semua imbuhan baik yang terdiri dari awalan (affixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Teknik stemming berbeda untuk masing-masing bahasa. Hal ini dikarenakan struktur kata pada setiap bahasa memiliki aturan pembentukan yang berbeda. Seperti stemming untuk teks berbahasa Inggris akan berbeda dengan teks berbahasa Indonesia.

Dari hasil implementasi dan pengujian didapatkan bahwa algoritma stemming paice/husk dapat diimplementasikan dalam Bahasa Indonesia dengan akurasi dan kekuatan yang cukup baik.

Pada analisa pengaruh stemming dengan menggunakan algoritma paice/husk dalam proses text mining, dilakukan proses kategorisasi dengan menggunakan multinominal naïve bayes sebagai Classifiernya, didapatkan bahwa proses stemming memperbaiki proses kategorisasi baik dalam hal akurasi, waktu proses, maupun F-measure jika dibandingkan dengan dokumen yang tidak terstemming. Hal ini dikarenakan proses stemming mengurangi jumlah term unik pada dokumen uji.

Kata Kunci : Stemming, Preprocessing Text Mining, morfologi Bahasa Indonesia, kategorisasi teks.ABSTRACT: Stemming is the process to find the base of a word. By removing all the good feed supplement consisting of the prefix (affixes), suffixes (suffixes) and confixes (a combination of prefix and suffix) on the word derivative. Stemming technique is different for each language. This is because the structure of words in each language has different rules of formation. Like stemming for English-language texts will be different from the Indonesian-language text.

From the implementation and testing results showed that the stemming algorithm Paice / Husk can be implemented in Indonesian language with accuracy and good power.

In analyzing the effect of stemming algorithms Paice / Husk in the process of text mining, categorization process is carried out using multinominal Naïve Bayes as a classifier, it was found that the process of stemming improve categorization process both in terms of accuracy, processing time, and F-measure when compared with the unstemmed documents. This is because the stemming process reduces the number of unique terms in the test document.

Keyword: stemming, Text Mining Preprocessing, morphology of Indonesian Language, text categorization.

Subjek

Rekayasa Perangkat Lunak
 

Katalog

ALGORITMA STEMMER PAICE/HUSK DALAM BAHASA INDONESIA UNTUK PREPROCESSING TEXT MINING
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

HENDRO
Perorangan
Yanuar Firdaus A.W., Shaufiah
 

Penerbit

Universitas Telkom
Bandung
2010

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini