Kategorisasi Dokumen Dengan Menggunakan Probabilistic Latent Semantic Indexing

Januar Cipta Lesmana

Kategorisasi Dokumen Dengan Menggunakan Probabilistic Latent Semantic Indexing

Januar Cipta Lesmana

Informasi Dasar

Kategorisasi Dokumen Dengan Menggunakan Probabilistic Latent Semantic Indexing

Dilihat

411 kali

No. Katalog

113058043

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Pada saat ini kategorisasi dokumen dilakukan dengan menggunakan pendekatan machine learning dimana pendekatan ini akan melakukan proses learning dari dokumen yang dijadikan sebagai contoh dan kemudian hasil dari learning tersebut akan digunakan sebagai acuan untuk mengkategorisasi dokumen yang lainnya. Terdapat suatu gejala dimana setiap orang dapat menggunakan kata yang berbeda untuk mengekspresikan maksud atau konsep yang sama. Oleh karena itu diperlukan suatu pendekatan yang membandingkan dokumen tidak hanya dari persamaan kata, tetapi juga mempertimbangkan persamaan konseptual dari kata tersebut.
Pada tugas akhir ini dibuat suatu perangkat lunak prototipe yang menerapkan metode probabilistic latent semantic indexing (PLSI) untuk proses kategorisasi dokumen. PLSI merupakan salah satu pengembangan dari metode latent semantic lndexing (LSI). Dari perangkat lunak yang dihasilkan, diukur performansi dari metode PLSI berupa efektifitas dan efesiensi.
Pada PLSI ditemukan bahwa dimensi yang digunakan pada dekomposisi memberikan pengaruh pada performansi yang dihasilkan, semakin besar dimensi yang digunakan maka recall, precision, dan waktu dekomposisi dari sistem akan meningkat dan error akan menurun. Jumlah data yang digunakan turut mempengaruhi performansi yang dihasilkan, namun term yang digunakan pada data pun turut mempengaruhi performansi pada jumlah data. Dari hasil penelitian pun ditemukan bahwa pembobotan TFDIF pada PLSI akan memperburuk performansi yang dihasilkan daripada pembobotan TF.Kata Kunci : kategorisasi dokumen, probabilistic latent semantic indexingABSTRACT: Today, document categorization technique was done using machine learning approach which taken example documents as an example for learning process, then the result from learning process will be used as references for categorizing other documents. There exist a symptom that different people uses different words to express the same concept or idea. Because of that, an approach which comparing documents no just from the similarity of the words, but also from the conceptual similarity of the words is needed.
Prototype software using probabilistic latent semantic indexing (PLSI) for categorizing documents was built on this final assignment. PLSI is a novel approach from latent semantic indexing (LSI). PLSI performance such as effectiveness and efficiency was measured from the software produced.
It was found that resulted performance was influenced by dimension used, the bigger dimension used, then recall, precision, and decomposition time will also increased and error will decreased. Number of data used also influenced resulted performance, but terms which used on the data also influenced resulted performance on number of data. From the analysis, it was found that TFDIF weighting will make the resulted performance worse than TF weighting.Keyword: document categorization, probabilistic latent semantic indexing