Analisis dan Implementasi Fuzzy Hierarchical Agglomerative Clustering untuk Pelabelan Berita Berbahasa Indonesia Berhirarki

Nora Novita Sianturi

Informasi Umum

Kode

113081107

Klasifikasi

005.1 - Computer programming

Jenis

Karya Ilmiah - Skripsi (S1) - Reference

Subjek

Rekayasa Perangkat Lunak

Dilihat

12 kali

Informasi Lainnya

Abstraksi

ABSTRAKSI: Clustering dokumen berita diperlukan untuk dapat mengelola informasi menjadi sebuah pengetahuan yang berguna. Salah satu metode yang dapat digunakan untuk klasterisasi dokumen berita ini adalah metode Fuzzy Hierarchical Agglomerative Clustering (FHAC). Metode FHAC mempunyai kemampuan untuk menemukan, menganalisa, dan menggabungkan daerah data dengan cepat. Dengan menggunakan fungsi evaluasi fuzzy, metode FHAC dapat menemukan skema clustering yang paling optimal. Kualitas cluster yang dihasilkan bergantung dengan nilai beberapa parameter inputan, yaitu A (threshold merging cluster) dan K (jumlah tetangga). Untuk data yang ketidakmiripannya kecil/ jarak antar titik kecil/ jumlah label dokumen sedikit lebih tepat menggunakan nilai K yang besar dibandingkan dengan penggunaan nilai K yang kecil, begitu pula sebaliknya pada data dengan kemiripan yang besar/ jarak antar titik besar/ jumlah label dokumen banyak menggunakan nilai K yang kecil. Setiap cluster yang telah terbentuk diberi label yang paling merepresentasikan cluster, yaitu dengan melihat label dominan dalam cluster. Kualitas cluster dan akurasi pelabelan cluster diukur dengan silhouette coefficient dan precision.Kata Kunci : Klasterisasi, FHAC, Pelabelan, Silhouette Coefficient, PrecisionABSTRACT: Clustering news document is necessary to carry out information become an important knowledge. One of method that can be used for news document clustering is Fuzzy Hierarchical Agglomerative Clustering (FHAC). FHAC have ability to find, analyze, and merge data area fast. Accompanying fuzzy evaluation function, FHAC can find the most optimum scheme. Quality of cluster depend on the value of some parameter input, A (threshold for merging clusters) and K (number of neighbour). Data with a small dissimiliarity/small distance/few label will be more appropriate using big K compared with the small ones, and vice versa data with a big dissimiliarity/big distance/many label using small K. Every cluster that has been created will be labeled by the most representatif label that can be identified the most dominant label on the clusters. The qualiaty of cluster and accuracy of labelling cluster measured by silhouette coefficient and precision.Keyword: Clustering, FHAC, Labelling, Silhouette Coefficient, Precision