ABSTRAKSI:
Pengenalan ucapan merupakan salah satu bidang penelitian yang mempunyai sifat yang unik untuk setiap bahasa yang digunakan, dalam arti penelitian yang dilakukan untuk satu bahasa tertentu belum tentu dapat digunakan pada bahasa lainnya. Ini dikarenakan karakteristik dari suatu bahasa berbeda antara satu dan lainnya. Peneletian dalam bidang ini sudah banyak dilakukan diberbagai negara maju maupun negara berkembang. Di negara berkembang seperti Indonesia, bidang ini sudah mulai diperhatikan oleh beberapa peneliti. Salah satu alternatif baru yang sedang dikembangkan adalah sistem speech recognition (SR) atau pencocokan suara manusia.
Pada tugas akhir ini penulis menggunakan monophone sebagai pengenalan suara. Keuntungan dari penggunaan fonem sebagi pengenalan suara adalah database kata yang disediakan tidak sebesar database kata jika menggunakan diphone maupun triphone. Pemodelan yang digunakan adalah pemodelan Hidden Markov Model (HMM) yang di kerjakan diatas platform Hidden Markov Toolkit (HTK). Ekstraksi ciri yang digunakan adalah Mel Frequency Cepstral Coefficient (MFCC).
Pengujian dilakukan dengan 4 metode berbeda. Yang pertama tiap 1 sample suara di ucapkan 8 kata, 1 pria sebagai data training dengan aturan kamus berbeda (1L8K1m d1), yang kedua Tiap 1 sample suara di ucapkan 8 kata, 1 pria sebagai data training (1L8K1m d2), yang ketiga Tiap 1 sample suara di ucapkan 8 kata, 2 pria dan 1 wanita sebagai data training (1L8K1w2m d2) dan yang terakhir Tiap 1 sample suara di ucapkan 8 kata, 2 pria dan 1 wanita sebagai data training dengan aturan kamus yang berbeda (1L8K1w2m d1). Akurasi terbaik untuk setiap kata dan kalimat adalah metode yang menggunakan 1L8K1w2md2 yaitu 97, 92 % dan 83,37 %.Kata Kunci : Speech to text, Hidden Markov Toolkit, Transformasi FourierABSTRACT: Introduction of speech is one of many research field that has unique characteristic for each language used, that means , the research that conducted for a particular language may not be used on other languages. This is because the characteristics of a language different from each other. the research of this field was mostly done in various developed and developing countries. In developing countries like Indonesia, this area already noted by several researchers. One of the new alternative being developed is a system of speech recognition (SR) or human recognizing voice.
In this final project as the writer uses voice recognition monophone. The advantage of using phonemes as voice recognition is databases that provided is not bigger than the database if diphone or triphone used. Modeling that used is hidden Markov model (HMM) that worked above the Hidden Markov Toolkit (HTK) platform. Feature extraction that used is Mel Frequency Cepstral Coefficient (MFCC).
Testing is done with 4 different methods. The first one, each in 1 voice sample 8 words said, 1 man as training data with different dictionary's rules(1L8K1m d1), the second, each in 1 voice sample 8 words said, 1 man as training data (1L8K1m d2), a third each in 1 sample voice say 8 words, 2 men and 1 woman as training data (1L8K1w2m d2) and the last 1 sample every sound in the spoken word 8, 2 men and 1 woman as training data with different dictionary's rules(1L8K1w2m d1). The best accuracy for each word and sentence is a method that uses 1L8K1w2md2 are 97, 92% and 83.37%.Keyword: Speech to text, Hidden Markov Toolkit, Fourier Transform