ABSTRAKSI: Pencarian dokumen di Internet memiliki karakteristik khusus yang harus dipertimbangkan yaitu bandwidth atau kecepatan akses yang terbatas serta waktu pencarian relatif lebih lambat daripada pencarian di desktop. Karena itu perlu dilakukan indexing pada proses Information Retrieval agar dapat mempercepat dan mempermudah pencarian. Makin banyak term yang terindeks akan makin membutuhkan waktu ekstra untuk mencari sebuah term. Sehingga diperlukan metode khusus untuk memangkas jumlah term dalam indeks. Salah satunya dengan melakukan ekstraksi dokumen menggunakan algoritma Hidden Markov Model. Metode yang dipakai dalam sistem ekstraksi ini adalah dengan melakukan pendekatan statistik dan HMM Hedge sebagai model HMM.
Metode yang digunakan tersebut mengeluarkan hasil: penggunaan tagging dapat memangkas waktu ekstraksi dan jumlah term terindeks secara signifikan, parameter alpha pada proses decoding mencapai nilai optimum pada 0,2 dan 0,3, ekstraksi dapat mengurangi waktu proses indexing dan jumlah term yang terindeks, serta jenis corpus mempengaruhi nilai akurasi dari sistem ekstraksi.Kata Kunci : Hidden Markov Model, indexing, Information Retrieval, ekstraksiABSTRACT: Document searching in the Internet has special characteristic must be considered. Those are bandwith or limited access speed and searching time spending much longer rather than desktop searching. Therefore, it needs to use indexing at Information Retrieval process that can increase speed and simply searching activities. More indexing terms mean more extra time to searching any term. It needs special methods to cut the indexing terms. One of them is document extraction with Hidden Markov Model. The method using in this extraction system is statistical approach and HMM Hedge for the HMM Model.
That method outputs results: tagging can reduce extraction and nnumer of indexed terms signicantly, alpha parameter in decoding reach optimum value in 0,2 and 0,3, extraction can reduce indexing time and number of indexed terms, and corpus kinds influence extraction system accuracy.Keyword: extraction, Hidden Markov Model, indexing, Information Retrieval