ABSTRAKSI: Mendapatkan hubungan semantik antara kata-kata dalam sebuah representasi dokumen merupakan masalah yang sulit. Latent Semantic Indexing (LSI) adalah salah satu algoritma reduksi dimensi yang paling dikenal. Pada LSI, dokumen diindeks dengan menggunakan konsep latent semantic. LSI menunjukkan peningkatan kerja yang besar di atas representasi tf-idf pada koleksi dokumen kecil tetapi sering tidak berkinerja baik pada koleksi dokumen heterogen yang besar. LSI memetakan semua kata ke dalam dimensi matrik. Semakin besar jumlah dokumen semakin besar dimensi matrik yang terbentuk. Selain itu, informasi numerik dan singkatan dokumen yang mungkin indikator yang sangat baik dari topic tidak lagi didapatkan setelah menggunakan LSI. Hal ini disebabkan pada LSI, semua term yang meliputi kosakata noun maupun selain noun diproses dengan cara yang sama.
Pada tugas akhir ini akan dianalisa kinerja sebuah sistem information retrieval dengan menggunakan Hybrid Document Indexing. Pendekatan ini digunakan dalam pengindeksan dokumen untuk mengatasi masalah pada LSI. Hybrid Document Indexing tetap menggunakan konsep latent semantic dan juga mencoba untuk menjaga spesifik dari koleksi dokumen. Hybrid Document Indexing menggunakan kombinasi LSI untuk pembobotan kata yang mengandung noun dan selain noun pada dokumen akan dilakukan pembobotan tf-idf.
Hasil pengujian dari tugas akhir ini menunjukkan bahwa Hybrid Document Indexing dengan menggunakan preprocessing stemming terbukti bisa menemukan dokumen yang relevan walau tidak mengandung term dari query yang diinputkan akan tetap terambil. Selain itu, akurasi dari hasil pencarian dengan menggunakan metode ini menghasilkan nilai precision, recall dan F-Measure yang di atas 0,50. Pada percobaan beberapa jumlah dataset, Semakin banyak jumlah dataset maka waktu proses indexing dan searching akan semakin lama. Peningkatan lama proses ini dikarenakan dengan semakin banyaknya jumlah dokumen maka akan semakin besar dimensi pada LSI ditambah pemrosesan tf-idf sehingga waktu proses menjadi lebih lama.Kata Kunci : Information Retrieval, Latent Semantic Indexing, Hybrid Document IndexingABSTRACT: Capturing the semantic relationships between words in a document representation is a difficult problem. Latent Semantic Indexing (LSI) algorithm is one of the best-known dimension reduction. In LSI, documents are indexed by using latent semantic concept. LSI showed a large performance improvements over the TF-IDF representation on small document collections but often do not perform well in large heterogeneous document collections. LSI maps all words to the dimension of the matrix. The greater the greater the number of documents that formed the matrix dimension. In addition, numerical information and documents that may be abbreviations excellent indicator of the topic is no longer available after using LSI. This is due to the LSI, which includes the vocabulary of all terms other than noun or noun is processed in the same way.
In this final project will analyze the performance of an information retrieval system usingHybrid Document Indexing. This approach was used in the indexing of documents to solve the problems of LSI. Hybrid Document Indexing continue using latent semanticconcept and also try to keep specific documents from the collection. Hybrid DocumentIndexing using a combination of LSI for weighting words that contain a noun and the other noun in the document will be TF-IDF weighting.
Test results from this thesis show that the Hybrid Document Indexing using stemming preprocessing proved to be able to find relevant documents even if it does not contain terms of the input query will still be drawn. In addition, the accuracy of search results using this method produces values precision, recall and F-Measure are above 0.50. In the experiment a few number of datasets, dataset, the greater the amount of time the process of indexing and searching will stay longer. The increase is due to the long process of increasing number of documents it will be even greater dimension in processing LSI plus tf-IDF so that processing time becomes longer.Keyword: Information Retrieval, Latent Semantic Indexing, Hybrid Document Indexing