Klasterisasi Pada Dokumen Berita Berbahasa Indonesia Menggunakan Frequent Itemset-Based Hierarchical Clustering (FIHC)

Barkah Nur Anita

Klasterisasi Pada Dokumen Berita Berbahasa Indonesia Menggunakan Frequent Itemset-Based Hierarchical Clustering (FIHC)

Barkah Nur Anita

Informasi Dasar

Klasterisasi Pada Dokumen Berita Berbahasa Indonesia Menggunakan Frequent Itemset-Based Hierarchical Clustering (FIHC)

Dilihat

314 kali

No. Katalog

113050228

Klasifikasi

004

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Menumpuknya data khususnya dokumen berita berbahasa Indonesia merupakan salah satu hal yang menyebabkan makin terkenalnya teknik klastering. Dengan teknik ini, dokumen berita berbahasa Indonesia ini akan dengan mudah dikelompokkan walaupun class label belum diketahui. Ada banyak metode klastering yang bisa digunakan, akan tetapi umumnya metode-metode tersebut belum bisa menangani data berdimensi tinggi, deskripsi klaster yang sulit dimengerti serta masih diizinkannya kondisi overlap (kondisi dimana satu dokumen bisa masuk ke dalam beberapa klaster). Permasalahan-permasalahan di atas bisa ditangani dengan menggunakan Frequent Itemset-Based Hierarchical Clustering (FIHC). Data berdimensi tinggi dan deskripsi klaster yang sulit dimengerti dapat diatasi dengan mereduksi term-term yang tidak frequent. Sedangkan kondisi overlap dapat diatasi melalui disjoint cluster. Hasil klasterisasi dengan algoritma ini divisualisasikan secara hirarki dalam bentuk tree. Berdasarkan pengujian, klaster yang dihasilkan oleh algoritma FIHC ini memiliki kualitas yang bagus, terutama bila dibandingkan dengan algoritma lain yakni Hierarchical Frequent Term-Based Clustering (HFTC). Deskripsi klaster yang dihasilkan sudah cukup meaningful dan kondisi overlap juga dipastikan sudah tidak ada. Semakin besar dataset yang digunakan dalam pengujian, maka minimun support yang dibutuhkan menjadi semakin kecil. Dan untuk nilai minimum support yang sama, semakin kecil nilai cluster support akan mengakibatkan nilai F-Measure semakin menurun.
Kata Kunci : klastering, frequent term-based text clustering, FIHC, F-MeasureABSTRACT: Large amount of data especially Indonesian news documents is a certain reason why clustering technique become more popular. With this technique, Indonesian news documents will be easier to be grouped although the class label is unknown. There are many clustering methods that can be used, but usually these methods are do not handle yet the high dimension of data, non-meaningful cluster description, and still allow overlap (the condition where one document may in to some groups). These problems can be handled using Frequent Itemset-Based Hierarchical Clustering (FIHC). High dimension of data and non-meaningful cluster description can be handled by eliminating non-frequent words, and overlap condition can be handle by disjoint cluster. The FIHC’s output is visualized by hierarchy tree. Based on experiment, cluster from FIHC has a good quality, especially if it is compared with another algorithm, Hierarchical Frequent Term-Based Clustering (HFTC). The meaningful cluster description is produced, and overlap is definitely none. Larger amount of dataset on experiment, the minimum support value will be decrease. And for the same value of minimum support, if cluster support decrease, F-Measure also decrease.
Keyword: clustering, frequent term-based text clustering, FIHC, F-Measure.