ANALISIS DAN IMPLEMENTASI UNSUPERVISED HIDDEN MARKOV MODEL UNTUK PENENTUAN JENIS KATA BAHASA INDONESIA

Ketut Gde Manik Karvana

Informasi Umum

Kode

113081049

Klasifikasi

005.1 - Computer programming

Jenis

Karya Ilmiah - Skripsi (S1) - Reference

Subjek

Rekayasa Perangkat Lunak

Dilihat

117 kali

Informasi Lainnya

Abstraksi

ABSTRAKSI: Dalam pemakaian Part-of-Speech Tagging bahasa Indonesia diperlukan biaya yang sangat besar. Untuk itu diperlukan sebuah metode dimana dalam pengimplementasiannya tidak diperlukannya data training atau teks yang sudah ternotasi. Unsupervised Hidden Markov Model memungkinkan sistem untuk melakukan penotasian teks tanpa adanya teks training. Unsupervised Hidden Markov Model dibagi menjadi 2 proses utama yaitu evaluation/training dan decoding. Proses evaluation/training menggunakan algoritma Baum-Welch dan forward untuk mencari probabilitas π, probabilitas transisi dan probabilitas emisi yang akan digunakan untuk pencarian notasi kata. Algoritma Baum-Welch memungkinkan sistem untuk mengestimasi probabilitas awal dan algoritma forward berguna untuk mendapatkan probabilitas yang paling optimal. Dalam proses decoding, digunakan algoritma viterbi yang berfungsi untuk memilih jalur state yang paling baik. Pengujian dilakukan untuk mengetahui pengaruh jumlah tag dan jumlah kata terhadap akurasi yang dihasilkan sistem. Dari hasil pengujian dapat diambil kesimpulan bahwa metode Unsupervised Hidden Markov Model dapat digunakan untuk kasus Part-of-Speech Tagging bahasa Indonesia namun masih menghasilkan akurasi dan konsistensi yang buruk. Jumlah tag yang menghasilkan akurasi terbaik adalah 7 tag, dan tag yang menghasilkan akurasi yang paling konsisten adalah 36 tag. Panjang kalimat tidak terlalu berpengaruh namun memiliki kecenderungan pada jumlah variasi katanya. Rata-rata akurasi terbaik yang didapat hanya sebesar 14,52 %.Kata Kunci : Part-of-Speech Tagging bahasa Indonesia, Unsupervised Hidden Markov Model, Baum-Welch, ViterbiABSTRACT: Part-of-Speech Tagging for Indonesian required a very large cost. It required a method in which the implementation does not need training data or text that has been tagged. Unsupervised Hidden Markov Models allow the system to perform text tagging without any training text. Unsupervised Hidden Markov Model is divided into two main process evaluation / training and decoding. The process of evaluation / training using Baum-Welch algorithm and forward algorithm to get the p probabilities, transition probabilities and emission probabilities that will be used to search for the word notation. Baum-Welch algorithm allows the system to estimate the probability of initial and forward algorithm is useful to obtain the most optimal probability. In the process of decoding, viterbi algorithm is used which to select the best of state sequence. Testing conducted to determine the effect of the number of tags and the number of words as to the accuracy of the system result. From the test results can be concluded that the method Unsupervised Hidden Markov Models can be used for the case of Part-of-Speech Tagging Indonesian but still produced poor accuracy and consistency. The number of tags that produces the best accuracy is 7 tag, and tags that generate the most consistent accuracy is 36 tags. The length of the sentence is not very influential, but has a tendency on the number of word variations. The best average accuracy are obtained only at 14.52%.Keyword: Part-of-Speech Tagging for Indonesian, Unsupervised Hidden Markov Model, Baum-Welch, Viterbi