Clustering Dokumen Bahasa Indonesia dengan Menggunakan Fuzzy C-Means

Sandhi Yudha Charezita

Informasi Dasar

113081035
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Suatu kumpulan dokumen yang banyak akan sulit untuk diketahui karakteristik informasinya. Diperlukannya suatu sistem yang dapat membagi dokumen-dokumen tersebut menjadi kumpulan-kumpulan yang lebih kecil berdasarkan karakteristiknya. Clustering merupakan pengelompokan suatu objek berdasarkan informasi yang berada pada objek tersebut. Caranya yaitu dengan mengelompokan karakteristik informasi yang sama ke suatu kelas yang sama dan suatu objek dengan karakteristik informasi yang berbeda ke kelas yang lain. Oleh karena itu pada penelitian kali ini akan dilakukan klasterisasi dengan menggunakan Fuzzy C-Means (FCM). FCM merupakan suatu teknik peng-cluster-an yang mana keberadaan tiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Dalam pengelompokan dokumen dengan menggunakan metode ini dibutuhkan proses lowercasing, penghilangan tanda baca dan angka, tokenisasi, stopwords, stemming dan pembobotan term. Pada stemming, algoritma yang digunakan adalah algoritma stemming Arifin-Setiono. Untuk pembobotan term metode yang digunakan adalah pembobotan tf-idf. FCM menggunakan model pengelompokan fuzzy sehingga data dapat menjadi anggota dari semua kelas atau cluster terbentuk dengan derajat atau tingkat keanggotaan yang berbeda antara 0 hingga 1.Kata Kunci : Clustering, dokumen, algoritma stemming Arifin-Setiono, pembobotan tf-idf, Fuzzy C-Means.ABSTRACT: A collection of many documents would be difficult to know the characteristics of the information. Need for a system that can divide that many document into a little collections based on the characteristic. Clustering is the grouping of an object based on the information residing on those object. The way is by classify the same information characteristic into the same class and an object with the different information characteristic into the other class. Therefore in this research will be made clasterisation using Fuzzy C-Means (FCM). FCM is a clustering technique in which the existence of each data point in a cluster is determined by the degree of membership. In the grouping of documents by using this method is need process lowercasing, removing punctuation and numbers, tokenization, stopwords removal, stemming and term weighting. On the stemming, the algorithm used is Arifin-Setiono stemming algorithm. For term weighting the method used is tf-idf term weighting. FCM using fuzzy clustering models that can make data into member from all class with the different degree of membership between 0 and 1.Keyword: Clustering, documents, Arifin-Setiono stemming algorithm, tf-idf term weighting, Fuzzy C-Means.

Subjek

Informatika Teori dan Pemrograman
 

Katalog

Clustering Dokumen Bahasa Indonesia dengan Menggunakan Fuzzy C-Means
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Sandhi Yudha Charezita
Perorangan
Suyanto,
 

Penerbit

Universitas Telkom
Bandung
2012

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini