ABSTRAKSI: Tugas akhir ini menganalisis metode n-gram dalam mengenali bahasa suku bangsa Indonesia berbasis teks. Untuk menganalisis akurasi dari metode n-gram dilakukan pengujian dengan menggunakan panjang n yang berbeda dari n-gram, panjang rangking berbeda dari model n-gram bahasa, dan pengujian untuk menganalisis pengaruh banyaknya kata di dalam dokumen yang ingin dikenali bahasa daerahnya. Proses pelatihan dilakukan guna membentuk model n-gram bahasa dari masing-masing bahasa daerah. Sistem yang dibuat menggunakan metode n-gram untuk pemodelan bahasa daerah dan teknik rank-order-statistic untuk pengklasifikasian bahasa daerahnya. Dari seluruh pengujian yang dilakukan didapatkan bahwa untuk akurasi pengenalan bahasa daerah Sunda dan Jawa dapat digunakan panjang minimum rank=100 dan panjang n dari n-gram yaitu n=3, n=4, n=5, dengan akurasi pengenalan pada penggunaan panjang rank=100 sebesar 100% untuk n=3, 98,75% untuk n=4, 97,50% untuk n=5. Sedangkan rasio antara panjang rank dengan banyaknya kata di dalam dokumen yang ingin dikenali bahasanya yaitu pjgrank : jmlkata = 100 : 40, dengan penggunaan panjang minimum rank=100 dan banyak kata minimum di dalam dokumen yang ingin dikenali = 40 kata.
Kata Kunci : n-gram, performansi, akurasi, rank-order-statistic.ABSTRACT: This final project explains about analysis of n-gram method to recognize text based tribe languages from Indonesia. To see the accurateness from n-gram method, we can test with using different length of n from n-gram and different length of rank from n-gram language model to recognize tribe languages. The test also has been done to see how many words in document which we want to recognize that influence the accuracy of recognition. The system was built with ngram method for modeling the tribe languages, and rank-order-statistic for classification. From the testing was had done, for accurateness tribe languages recognition we can use the minimum length of rank=100 and the length n from ngram which can be n=3, n=4, n=5 with using rank=100 the accuration is about 100% for n=3, 98,75% for n=4, 97,50% for n=5, and for ratio between the length of rank from n-gram language model and how many words in document which we want to recognize is length of rank : number of words = 100 : 40, with using minimum length of rank=100 and minimum number of words=40.
Keyword: n-gram, performance, accuracy, rank-order-statistic.