ABSTRAKSI: klasifikasi merupakan salah satu teknik data mining dan juga text mining yang digunakan dalam proses mencari set model atau fungsi-fungsi yang menjelaskan atau membedakan kelas-kelas data dan konsep yang bertujuan memungkinkan untuk menggunakan model tersebut dalam melakukan testing terhadap data testing.
Dalam klasifikasi, dilakukan pembelajaran terhadap data training dimana data training tersebut memiliki atribut-atribut yang salah satu diantaranya ditetapkan sebagai kelas untuk baris-baris data pada data training itu. Hasil pembelajaran tersebut berupa suatu model atau yang sering disebut dengan classifier. Model ini nantinya akan digunakan untuk memprediksi dan menguji atribut yang menjadi kelas dari data testing.
Proses pengklasifikasian yang sering dilakukan saat ini adalah pengklasifikasian terhadap dokumen teks bahasa inggris. Oleh karena itu, pada penelitian tugas akhir ini, penulis akan mengklasifikasikan dokumen teks berbahasa indonesia. Klasifikasi teks merupakan suatu proses pengklasifikasian dokumen-dokumen ke dalam satu atau lebih kategori yang telah didefenisikan sebelumnya atau ke dalam kelas-kelas dari dokumen yang sama. Dokumendokumen yang telah terklasifikasi ke dalam kelas yang telah didefenisikan sebelumnya merupakan tujuan utama dari klasifikasi teks. Masing-masing dokumen dapat dikategorikan ke dalam banyak kategori, tepat satu kategori, atau bahkan tidak termasuk ke dalam kategori manapun.
Pada pengklasifikasian dokumen teks berbahasa indonesia ini, penulis menggunakan dua metode atau pendekatan yang terdapat dalam information retrieval dan machine learning. Kedua metode tersebut adalah Latent Semantic Indexing dan Support Vector Machine. Dengan menggunakan kedua metode ini diharapkan dapat mempermudah dalam proses pengklasifikasian khususnya untuk dokumen teks bahasa indonesia.
Kata Kunci : klasifikasi, text mining, data mining, machine learning, information retrieval, latent semantic indexing, support vector machine.ABSTRACT: Classification is one of the data mining techniques and also text mining used in the process of searching the set of the model or functions explaining or distinguishing data classes and the concept enables to apply this model in carrying out the testing towards the testing data.
Classification is comprised of the data training which attributes is determined as the class for data lines. The result of study is a model called classifier. This model will eventually be used to predict and test the attribute of data testing class.
Today, the process of classification which is often carried out is English text document classification. Therefore, the writer will classify the Indonesian text document. Classification of the text is a process of classification of documents in one or more category defined or in the same document’s class. Documents classified in the class defined before is the main aim of classification of the text. Respectively the document could be categorized in many categories, exactly in one category, or even not including in any category.
The classification of Indonesian text document, the writer used two methods or the approach received in information retrieval and machine learning. The two methods are Latent Semantic Indexing and Support Vector Machine. Using the two methods is hoped could facilitate the process of classification especially for the Indonesian text document.
Keyword: classification, text mining, data mining, machine learning,information retrieval, latent semantic indexing, support vector machine