ABSTRAKSI: Information Retrieval System(IRS) merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan relevant documents dari collection documents melalui pencarian query yang diinputkan user[14].
Salah satu cara untuk meningkatkan performansi IRS adalah penggunaan pengindeksan kata(word indexing) dan pengindeksan frase(phrase indexing). Pada word indexing, pembobotan term dilakukan pada setiap kata yang ada pada dokumen, sedangkan phrase indexing, term yang dibobot adalah kumpulan kata atau frase. Adapun pemodelan yang dipakai adalah model probabilistik, IRS menghitung kemungkinan munculnya elemen indeks dalam suatu dokumen.
Dalam penerapan word indexing dan phrase indexing pada model probabilistik menghasilkan dokumen-dokumen hasil pencarian dengan nilai performansi yang berbeda. Phrase indexing tidak selamanya memberikan nilai performansi lebih yang baik dari word indexing karena penggunaan frase yang tidak tepat pada suatu dokumen mempengaruhi nilai relevansi dokumen tersebut terhadap query. Selain itu, jumlah term dari masing-masing metode pengindeksan juga mempengaruhi nilai kerelevanan suatu dokumen. Pada tugas akhir ini, word indexing memberikan nilai performansi yang lebih baik daripada phrase indexing.Kata Kunci : information retrieval, word indexing, phrase indexing, modelABSTRACT: Information Retrieval System (IRS) is part of the computer science which connected with an information collection from documents that is based on its content. The proces it self could be describe as a process to gathered a relevant document from its collection through a search query that has inputed by the users.
One of the approaches would be using word indexing and phrase indexing. By word indexing the terms stressed on each words that availble within the document it self, while for phrase indexing the terms stressed on the phrase on each sentences. Another approaches would be swapping or exchanging the models that is used in the IR. Whereas in probabilistic model, IRS would count/examine the chances if element indexing within document.
In an implementation of word indexing and phrase indexing on the probabilistic model would create a different output value performance. Phrase indexing is not always assign better performance than word indexing because imprecise use of phrase at one particular document influence the relevant value of document to query. Others, sum of term from each indexing method also influence the relevant value of document. At this final duty, word indexing to assign better performance than phrase indexing.Keyword: information retrieval, word indexing, phrase indexing, probabilistic