Metode Feature Selection Dalam Menangani Data Imbalance pada Klasifikasi Dokumen Multi-Label

Luthfia Rahmani

Metode Feature Selection Dalam Menangani Data Imbalance pada Klasifikasi Dokumen Multi-Label

Luthfia Rahmani

Informasi Dasar

Metode Feature Selection Dalam Menangani Data Imbalance pada Klasifikasi Dokumen Multi-Label

Dilihat

429 kali

No. Katalog

113030234

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Pengkategorian dokumen merupakan salah satu permasalahan dalam text mining. Salah satu cara agar suatu dokumen dapat dikategorikan adalah dengan menggunakan teknik klasifikasi. Sekumpulan dokumen selain memiliki feature space yang berdimensi tinggi dapat juga memiliki sifat data yang imbalance. Sifat imbalance tersebut akan mengakibatkan klasifikasi data yang akan dibentuk kurang akurat. Untuk meningkatkan efisiensi dan keakuratan dalam klasifikasi dokumen, salah satunya dengan menggunakan teknik feature selection.
Pada tugas akhir ini dilakukan analisis perbandingan metode feature selection antara lain Odds Ratio (OR), GSS Coefficient, Information Gain (IG), improved OR (iOR), dan improved SIG (iSIG). Metode-metode feature selection tersebut diterapkan secara filter feature selection sedangkan pada wrapper feature selection menerapkan Odds Ratio (OR). Penerapan dilakukan menggunakan teknik klasifikasi multinomial naive bayes, metode tersebut menggunakan algoritma naive bayes dengan memperhitungkan jumlah kemunculan kata dalam dokumen. Selain menggunakan multinomial naive bayes, pada penerapan filter feature selection dilakukan juga proses pengklasifikasian dokumen menggunakan software Weka 3.5. Dengan melakukan analisis perbandingan metode feature selection diketahui metode mana yang paling handal dalam menangani data imbalance dengan menguji tingkat akurasi data setelah dilakukan klasifikasi dengan test set yang diberikan. Data yang digunakan berasal dari Reuters 21578 dengan dokumen bersifat multi-label.Kata Kunci : Pada tugas akhir ini dilakukan analisis perbandingan metode featureABSTRACT: Document categorization is one of problem in text mining. Classification technique is one of ways to categorize the document. Documents not only have high dimension of feature space, but also can have imbalance data characteristic. This imbalance will reduce the accuracy of data classification which is going to be built. One of solutions to increase the efficiency and the accuracy in classification document is by using feature selection technique.
This final project do the comparison analysis feature selection methods, such as Odds Ratio (OR), GSS Coefficient, Information Gain (IG), improved OR (iOR), and improved SIG (iSIG). These feature selection methods are implemented in filter feature selection, whereas for wrapper feature selection implement Odds Ratio (OR). Implementation use multinomial naive bayes classification technique. The method use naive bayes alghorithm which for calculate upon amount of words that appear in document. Beside using multinomial naive bayes, Implementation in filter feature selection also use the process of document classification which available in software Weka 3.5. By using the comparison analysis feature selection methods, it find what method that the most reliable to handle the imbalance data by testing the accuracy level data after being classified by test set. Data that is used comes from Reuters 21578 that imbalace characteristic.Keyword: text mining, classification, imbalance, feature selection, multinomial