Analisis Pengaruh Feature Selection Menggunakan Information Gain dan Chi-Square untuk Kategorisasi Teks Berbahasa Indonesia

Ika Sofiana

Informasi Dasar

113080023
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Salah satu permasalahan yang signifikan dalam kategorisasi teks adalah dimensionalitas data yang sangat tinggi yang menyebabkan waktu pemrosesan menjadi lebih lama. Salah satu cara untuk mengatasi hal tersebut adalah dengan melakukan feature selection. Feature selection dilakukan untuk memilih fitur-fitur penting dan relevan terhadap data dan membuang fitur-fitur yang tidak berpengaruh. Dengan demikian, dimensionalitas data dapat dikurangi.

Dalam tugas akhir ini, permasalahan yang diangkat berkaitan dengan feature selection menggunakan Information Gain dan Chi-Square, pada kategorisasi teks dengan classifier N-gram. Kategorisasi dilakukan dengan menghitung jarak profil kategori ke profil dokumen, di mana profil dibentuk dari fitur-fitur yang ada. Sehingga jumlah fitur sangat mempengaruhi waktu yang dibutuhkan dalam proses kategorisasi. Hasil F-measure yang didapatkan pada kategorisasi teks dengan N-gram tanpa feature selection adalah 0.89, di mana gram yang digunakan adalah 2-gram. Dan ketika mengalami feature selection dengan menggunakan Information Gain sebanyak 80 %, F-Measure meningkat menjadi 0.935, serta ketika mengalami feature selection sebanyak 20 % dengan Chi-Square, F-Measure meningkat menjadi 0.94.

Proses pemilihan fitur dengan menggunakan Information Gain lebih cepat dibandingkan dengan Chi-Square. Akan tetapi, secara keseluruhan performansi yang dihasilkan oleh fitur-fitur hasil pemilihan Chi-Square memberikan hasil yang lebih baik.Kata Kunci : feature selection, 2-gram, Information Gain, Chi-Square, F-Measure.ABSTRACT: One of the significant problem in the text categorization is high dimentionality of data that cause a long processing time. One of the severals ways to overcome this problem is doing feature selection phase to the data before categorization process. The goal of feature selection is to produce important and relevant features. Therefore, the data dimensionality can be reduced.

In this final task, the research is about feature selection using Information Gain and Chi-Square in N-Gram text categorization. Categorization is done by counted the distance of category profile and the document profile, where the profiles is made from the features existed. Therefore, the number of the feature is have a high influence in the time needed for categorization process. In the text categorization using N-gram without feature selection, the result shows that F-measure give a value of 0.89, where 2-gram is used here. When feature selection is done by Information Gain to the number of 80 %, F-measure value increase up to 0.935. And When feature selection is done by Chi-Square to the number of 20 %, F-measure value increase up to 0.94.

Selecting feature using Information Gain feature selection is faster than selecting feature using Chi-Square feature selection. However, the performace of text categorization using features from the feature selection proses by Chi-square is better.Keyword: feature selection, 2-gram, Information Gain, Chi-Square, F-Measure.

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Analisis Pengaruh Feature Selection Menggunakan Information Gain dan Chi-Square untuk Kategorisasi Teks Berbahasa Indonesia
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Ika Sofiana
Perorangan
Imelda Atastina, Arie Ardiyanti Suryani
 

Penerbit

Universitas Telkom
Bandung
2012

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini