Pengenalan Bahasa Suku Bangsa Indonesia Berbasis Teks Menggunakan Metode N-gram

Ahmad Hanafi

Informasi Dasar

113030248
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Tugas akhir ini menganalisis metode n-gram dalam mengenali bahasa suku bangsa Indonesia berbasis teks. Untuk menganalisis akurasi dari metode n-gram dilakukan pengujian dengan menggunakan panjang n yang berbeda dari n-gram, panjang rangking berbeda dari model n-gram bahasa, dan pengujian untuk menganalisis pengaruh banyaknya kata di dalam dokumen yang ingin dikenali bahasa daerahnya. Proses pelatihan dilakukan guna membentuk model n-gram bahasa dari masing-masing bahasa daerah. Sistem yang dibuat menggunakan metode n-gram untuk pemodelan bahasa daerah dan teknik rank-order-statistic untuk pengklasifikasian bahasa daerahnya. Dari seluruh pengujian yang dilakukan didapatkan bahwa untuk akurasi pengenalan bahasa daerah Sunda dan Jawa dapat digunakan panjang minimum rank=100 dan panjang n dari n-gram yaitu n=3, n=4, n=5, dengan akurasi pengenalan pada penggunaan panjang rank=100 sebesar 100% untuk n=3, 98,75% untuk n=4, 97,50% untuk n=5. Sedangkan rasio antara panjang rank dengan banyaknya kata di dalam dokumen yang ingin dikenali bahasanya yaitu pjgrank : jmlkata = 100 : 40, dengan penggunaan panjang minimum rank=100 dan banyak kata minimum di dalam dokumen yang ingin dikenali = 40 kata.
Kata Kunci : n-gram, performansi, akurasi, rank-order-statistic.ABSTRACT: This final project explains about analysis of n-gram method to recognize text based tribe languages from Indonesia. To see the accurateness from n-gram method, we can test with using different length of n from n-gram and different length of rank from n-gram language model to recognize tribe languages. The test also has been done to see how many words in document which we want to recognize that influence the accuracy of recognition. The system was built with ngram method for modeling the tribe languages, and rank-order-statistic for classification. From the testing was had done, for accurateness tribe languages recognition we can use the minimum length of rank=100 and the length n from ngram which can be n=3, n=4, n=5 with using rank=100 the accuration is about 100% for n=3, 98,75% for n=4, 97,50% for n=5, and for ratio between the length of rank from n-gram language model and how many words in document which we want to recognize is length of rank : number of words = 100 : 40, with using minimum length of rank=100 and minimum number of words=40.
Keyword: n-gram, performance, accuracy, rank-order-statistic.

Subjek

Informatika Teori dan Pemrograman
 

Katalog

Pengenalan Bahasa Suku Bangsa Indonesia Berbasis Teks Menggunakan Metode N-gram
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Ahmad Hanafi
Perorangan
Rimba Whidiana, Retno Novi Dayawati
 

Penerbit

Universitas Telkom
Bandung
2009

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini