ABSTRAKSI: Sistem pengenalan suara otomatis adalah sistem yang memungkinkan komputer untuk dapat mengenali suara yang diucapkan manusia dan menghasilkan respon. Sistem ini membutuhkan model akustik dan model bahasa untuk mendapatkan sistem pengenalan suara yang baik.
Salah satu metode dalam membangun model akustik adalah Hidden Markov Model (HMM). HMM dalam model akustik menggambarkan transisi antara state dari sinyal suara yang telah diolah.
Hidden Markov Model Toolkit (HTK) merupakan salah satu toolkit yang mampu membangun dan memanipulasi HMM dari model akustik. Selain itu HTK juga mampu menangani dalam pemodelan bahasa dari sistem pengenalan suara. HTK terdiri dari library untuk membangun setiap tool yang ada. User pengguna HTK hanya menggunakan HTK dari sisi tool saja, tidak mengubah library yang ada.
Pada proses pengujian yang dilakukan, didapatkan hasil terbaik dengan menggabungkan model bahasa dan model akustik. Hasil performansi sistem pengenalan suara terbaik yaitu kebenaran kata sebesar 78.89%, akurasi kata 75.72%, dan kebenaran kalimat 45.73%.
Kata Kunci : sistem pengenalan suara otomatis, model akustik, model bahasa, HMM, HTKABSTRACT: Automatic speech recognition system is a system that allows computer to be able to recognize the spoken human speech and generates a response. This system requires acoustic model and language model to get a good speech recognition system.
One method of building acoustic models are Hidden Markov Model (HMM). HMM in the acoustic model describes the transition between the state of the speech signal that has been processed. Hidden Markov Model Toolkit (HTK) is a toolkit can build and manipulate the HMM of acoustic models. In addition, HTK also able to handle the modeling language of the speech recognition system. HTK consists of the libraries to build tools. User use HTK in hand tools only, without any change in library.
In the process of testing, get the best results by combining the language model and acoustic models. The result of the best speech recognition system performance are 78.89% word correct , 75.72% word accuracy and 45.73% sentence correct.
Keyword: automatic speech recognition, acoutic model, language model, HMM, HTK