Klasterisasi pada Dokumen Berita Berbahasa Indonesia Berdasarkan Frequent Term-Based Text Clustering (HFTC dan FTC)

Mega Rulliana

Informasi Dasar

113040301
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Berkembangnya teknologi di dunia maya membuat jumlah informasi berupa artikel berita semakin banyak. Untuk itu, diperlukan suatu pengelompokan terhadap artikel yang memudahkan pembaca mencari informasi dengan menerapkan salah satu fungsionalitas dari data mining, yaitu klasterisasi. Teknik klasterisasi yang ada saat ini masih belum secara tepat menangani data berdimensi tinggi dan database yang berukuran besar sehingga deskripsi dari klaster tersebut masih sulit untuk pahami. Oleh karena itu dibutuhkan metode pengklasteran dimana hasil pengklasteran tersebut memiliki bentuk deskripsi klaster yang mudah dipahami.
Metode yang dapat diterapkan ini mampu mengurangi dimensionalitas data yang tinggi dan besarnya ukuran database. Ada beberapa metode yang dapat digunakan yaitu berdasarkan frequent term-based text clustering yang terdiri dari hierarchical frequent term-based clustering (HFTC) dan frequent term-based clustering (FTC).
Hasil dari klasterisasi berdasarkan frequent term based text clustering adalah berupa klaster yang memiliki deskripsi klaster yang mudah dipahami. Berdasarkan hasil percobaan dapat disimpulkan bahwa pada HFTC, F-measure nilainya semakin besar dengan minimum support yang semakin kecil. Hal ini menunjukkan kualitas klaster yang terbentuk pun semakin bagus. Nilai Entropy yang dihasilkan pada FTC bervariasi dan tidak memiliki pola pada tiap minimum support yang diinputkan. Serta Waktu yang dibutuhkan dalam pembentukan klaster akan semakin sedikit seiring dengan makin besarnya nilai minimum support.
Kata Kunci : klasterisasi, frequent term-based text clustering, HFTC, FTC, Fmeasure, EntropyABSTRACT: The development of large numbers of information like news articles are available on the internet. Hence text clustering is needed by applying clasterisation as one of data mining task. Nowdays, the method of text clustering still do not really address the special problem of text clustering such as the high dimensionality of the data and very large size of the database, therefore understandability of the cluster description still difficult to understand.
This application method can reduce the high dimensionality of the data and very large size of the database. There is some methods that can be used based on frequent term-based text clustering, such as hierarchical frequent term-based clustering (HFTC) and frequent term-based clustering (FTC).
The clusterisation’s output that based on frequent term-based text clustering has the understandability of the cluster description. Based on experimental evaluation, it can be concluded on HFTC, f-measure value increasing while minsup decreasing thus the quality of cluster is better, on each minimum support, FTC has variation Entropy value, and the time to make cluster is decreasing while minimum support is increasing.
Keyword: clusterisation, frequent term-based text clustering, HFTC, FTC, f-measure, Entropy

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Klasterisasi pada Dokumen Berita Berbahasa Indonesia Berdasarkan Frequent Term-Based Text Clustering (HFTC dan FTC)
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Mega Rulliana
Perorangan
M. Arif Bijaksana, Angelina Prima Kurniati
 

Penerbit

Universitas Telkom
Bandung
2008

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini