Pengembangan Ekstraksi Fitur Berbasis Aturan dalam Klasifikasi Teks Multilabel untuk Hadits Bukhari
dalam Terjemahan Bahasa Indonesia

GUGUN MEDIAMER

Informasi Umum

Kode

19.04.1527

Klasifikasi

C -

Jenis

Karya Ilmiah - Skripsi (S1) - Reference

Subjek

Text Mining

Dilihat

238 kali

Informasi Lainnya

Abstraksi

Terdapat banyak jenis data dalam kasus klasifikasi teks. Oleh karena itu, perlu penanganan khusus agar sesuai dengan karakteristik data yang digunakan. Ekstraksi fitur, pembobotan fitur, dan preprocessing menjadi tiga fokus pada penelitian kali ini untuk data multilabel Hadits Bukhari dalam terjemahan Bahasa Indonesia. Penelitian ini mengguanakan ekstraksi fitur berbasis aturan yang dikombinasikan dengan beberapa jenis preprocessing beserta tiga jenis metode pembobotan fitur, yaitu TF-IDF, Word2vec, dan penggabungan Word2vec dengan TF-IDF. Dari 13 kali eksperimen yang telah kami lakukan, menunjukkan bahwa performansi terbaik untuk klasifikasi multilabel pada data Hadits yang kami gunakan dihasilkan dari kombinasi ekstraksi fitur berbasis aturan yang diusulkan, pembobotan fitur Word2vec, dan tanpa menggunakan Stemming dan Stopword Removal pada tahap preprocessing. Dari hasil terbaik yang diperoleh, membuktikan bahwa metode ekstraksi fitur berbasis aturan lebih baik jika dibandingkan dengan metode baseline.

Kata kunci : klasifikasi multilabel, Hadits Bukhari, ekstraksi fitur, TF-IDF, Word2vec, preprocessing.