STEMMING UNTUK TESK BERBAHASA INDONESIA DAN PENGARUHNYA DALAM KATEGORISASI

Yosi Amelia Putri

STEMMING UNTUK TESK BERBAHASA INDONESIA DAN PENGARUHNYA DALAM KATEGORISASI

Yosi Amelia Putri

Informasi Dasar

STEMMING UNTUK TESK BERBAHASA INDONESIA DAN PENGARUHNYA DALAM KATEGORISASI

Dilihat

658 kali

No. Katalog

113050049

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Stemming adalah sebuah proses untuk menghilangkan imbuhan-imbuhan yang terdapat pada sebuah kata biasanya diaplikasikan pada kasus pencarian teks, penerjemahan bahasa, ringkasan dokumen dan pada klasifikasi teks. Teknik stemming berbeda untuk masing-masing bahasa. Seperti stemming untuk teks berbahasa Inggris berbeda dengan teks berbahasa Indonesia. Pada bahasa Indonesia, stemming sangat penting sekali; Imbuhan pada kata-kata bahasa Indonesia terdiri dari awalan, akhiran, sisipan dan gabungan dari awalan,akhiran yang menyebabkan mencocokkan kata-kata tersebut sulit.
Pada tugas akhir saya ini diimplementasikan ketiga algoritma untuk stemming bahasa Indonesia yaitu algoritma Nazief&Adriani, algoritma Arifin&Setiono, algoritma Vega serta akan dibandingkan performa dari ketiga algoritma stemming tersebut . Parameter performa stemming yang digunakan adalah banyaknya jumlah term yang di-stemming dengan benar dibagi dengan jumlah seluruh term. Hasil dari pengujian menunjukkan bahwa stemming yang menggunakan algoritma Nazief&Adriani yang dikembangkan memiliki nilai performa sebesar 96.5447%. Oleh karena itu dapat disimpulkan bahwa stemming untuk teks berbahasa Indonesia sebaiknya dilakukan menggunakan pendekatan algoritma Nazief and Adriani yang telah dikembangkan.
Pada tugas akhir ini juga akan dianalisis pengaruh proses stemming terhadap kategorisasi. Stemming dilakukan dengan algoritma Nazief&Adriani, algoritma Arifin&Setiono, algoritma Vega dan stemming murni yang dilakukan secara manual. Parameter performa kategorisasi yang digunakan adalah akurasi dan f-measure. Kemudian masing-masing akurasi dari keempat kasus diatas akan dibandingkan dengan akurasi pada dataset yang tidak di-stemming. Kategorisasi dilakukan dengan metode Multinominal Naïve Bayes. Hasil percobaan menunjukkan bahwa dataset yang di-stemming murni secara manualk memiliki nilai akurasi kategorisasi yang paling baik yaitu sebesar 97.5% dibandingkan 4 kasus lainnya(stemming dengan Algoritma Nazief&Adriani, stemming dengan algoritma Arifin&Setiono, stemming denga algoritma Vega dan dataset yang tidak di-stemming ). Tetapi untuk ketiga algoritma stemming yang diimplemnetasikan, algoritma Nazief&Adriani memiliki akurasi kategorisasi yang paling baik yaitu 95%. Berdasarkan percobaan yang telah dilakukan maka dapat disimpulkan bahwa proses stemming sangat berpengaruh pada proses kategorisasi karena proses stemming dapat meningkatkan akurasi kategorisasi.
Kata Kunci : Stemming, Kategorisasi Teks, Akurasi, f-measureABSTRACT: Stemming words to remove suffixes has applications in text search, machine translation, document summarization, and also text classification. In the the Indonesian language, stemming is of crucial importance: words have prefixes, suffixes, infixes, and confixes that make matching related work difficult.
In this final paper, the three algorithms of stemming Indonesian such as Nazief&Adriani‟s algorithm, Arifin&Setiono‟s algorithm and Vega‟s algorithm are implemented and the performance of these algorithms is compared each other. Parameter of the stemming‟s performance is Terms that have been stemmed correctly are divided with the whole terms. The results show that, the algorithm of Nazief&Adriani with the improvements correctly stems around 96.5447%. We conclude that stemming for Indonesian should be performed using Nazief&Adriani with the improvements approach.
In this final paper, the influence of stemming to text categorization will be analyzed. In this case, stemming is performed with the three algorithms of stemming Indonesian (Nazief&Adriani‟s algorithm, Arifin&Setiono‟s algorithm and Vega‟s algorithm ), purely manual stemming. Parameter of the categorization performance are accuracy and f-measure. The accuracy of each case above is compared with the accuracy of non-stemming dataset. The categorization is performed with Multinominal Naïve Bayes. The results shows that dataset which is stemmed by the purely manual stemming has 97.5% accuracy of categorization and be the best accuracy of categorization of it all. Compared with 3 algorithms for stemming Indonesian that are implemented, stemming using Nazief&Adriani‟s Algorithm has 95% accuracy of categorization and that‟s the best accuracy compared with Arifin&Setinoo‟s algorithm and Vega‟s algorithm. From this experiment we conclude that stemming is influenced text categorization because stemming can increase the accuracy of categorization.
Keyword: stemming, text categorization, accuracy, F-Measure