Analisis dan Implementasi Term Weighting TF-ICF dalam Klasifikasi Teks Mining

Harold Laski

Informasi Dasar

113040367
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Dalam text mining, term weighting merupakan salah satu tahapan yang sangat penting. Tahapan ini dilakukan dengan tujuan untuk memberikan suatu nilai/bobot pada term yang terdapat pada suatu dokumen. Bobot yang diberikan terhadap sebuah term bergantung kepada metode yang digunakan untuk membobotinya. Sebagian besar metode pembobotan yang ada bekerja berdasarkan asumsi bahwa seluruh kumpulan data tersedia dan statis, hal ini secara signifikan membatasi penggunaan metode tersebut pada aplikasi dimana aliran data kontinu harus dianalisa secara real-time.
Salah satu cara untuk menangani permasalahan ini adalah dengan menggunakan metode pembobotan TF-ICF, metode pembobotan ini tidak memerlukan informasi term dari dokumen-dokumen lain sehingga dapat memproses aliran dokumen dalam waktu linier.
Pada Tugas Akhir ini, beberapa metode pembobotan tem yaitu TF-ICF, TF-IDF, dan ATC diperbandingkan output-nya terhadap performansi klasifikasi teks dengan aliran dokumen dinamis. Adapun beberapa parameter yang dijadikan tolok ukur untuk membandingkan performansi dari klasifikasi teks tersebut adalah F-measure, ROC dan waktu pembobotan. Untuk menguji output dari hasil pembobotan, digunakan C4.5 sebagai classifier-nya.
Berdasarkan hasil pengujian, didapat bahwa metode TF-ICF dapat menghasilkan klasifikasi yang kualitasnya sebanding dengan TD-IDF dan ATC, dan secara signifikan lebih cepat dari pada metode-metode tersebut.
Kata Kunci : term, term weighting, aliran dokumen dinamis, TF-ICF, TF-IDF, ATC.ABSTRACT: Term weighting is one of the very important step in text mining. This step is applied in order to give a value/weight to terms contained in a document. The weight given to a term depends on the method that is used for the weighting. Most of the existing weighting methods work under the assumption that the whole data set is available and static, this fact significantly limits the use of these schemes in applications where continuous data streams must be analyzed in real-time.
One way to handle this problem is by using TF-ICF term weighting method, it does not require term frequency information from other documents within the set and thus, it can process document streams in linear time.
In this final exam, some term weighting methods like TF-ICF, TF-IDF, and ATC are compared each other by seeing the output of the text classification performance with dynamic document stream. Some parameters that will be used as a measurement for comparing the text classification performance are F-measure, ROC and weighting time. In order to test the output of the weighting result, C4.5 used as its classifier.
Based on the test result, can be concluded that TF-ICF can produce classification results that are comparable quality as TF-IDF and ATC, and it significantly faster than those method.Keyword: term, term weighting, dynamic document stream, TF-ICF, TF-IDF, ATC.

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Analisis dan Implementasi Term Weighting TF-ICF dalam Klasifikasi Teks Mining
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Harold Laski
Perorangan
Shaufiah, Hetti Hidayati
 

Penerbit

Universitas Telkom
Bandung
2010

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini