ABSTRAKSI: Menemukan informasi dari dokumen yang sangat banyak dan bertambah setiap harinya adalah tugas yang sulit dan memakan waktu. Untuk mendapatkan dokumen yang diinginkan diantara sekian banyak dokumen yang ada dilakukan dengan cara membaca setiap dokumen satu per satu. Hal ini dapat diatasi dengan pemetaan dokumen dalam cluster yang berbeda (clustering) bedasarkan informasi yang berada didalamnya.
Clustering dilakukan untuk mengelompokkan data ke dalam satu klaster dimana objek pada klaster yang sama memiliki kemiripan yang sangat besar. Namun terdapat permasalah dalam proses klasterisasi yaitu adanya data berdimensi tinggi. Untuk itu diperlukan algoritma yang mampu menangani hal ini. Self Organizing Maps (SOM) adalah algoritma yang tepat untuk klasterisasi data dengan jumlah dimensi yang tinggi. SOM merupakan algoritma jaringan saraf tiruan (JST) yang bekerja dengan cara memperbaharui nilai bobot beratnya sehingga cocok dengan nilai vektor input. Dengan cara kerja ini, jaringan yang berisi neuron-neuron akan menyusun dirinya sendiri berdasarkan input nilai tertentu dalam suatu cluster.
Fokus dari tugas akhir ini adalah implementasi algoritma SOM pada klasterisasi dokumen berita berbahasa Indonesia. Pengujian dilakukan dengan menganalisis pengaruh jumlah dimensi dan parameter input seperti jumlah epoh dan learning rate terhadap performansi dan akurasi sistem. Di akhir pengujian dapat di dibuktikna bahwa SOM mampu menangani data berdimensi tinggi dengan baik. Perhitungan performansi hasil klasterisasi dilakukan berdasarkan precision dan entropy.
Kata Kunci : Clustering, Unsupervised learning, Self Organizing Maps.ABSTRACT: Finding information from so many documents that will be more and more every day is a difficult task and waste time. To find a needed document from other unnecessary document is done by reading those documents one by one. This can be overcome by doing document mapping in different cluster based on the information inside.
same cluster have high similarity. But there is a problem in clustering process when the data have a high dimension. Therefore, it is needed an algorithm that can overcome this problem. Self Organizing Maps (SOM) is a right algorithm to make a data group with high dimension. SOM is neural network algorithm that work by update the value, so it suits by vector input value. By this way, network that fill with neurons will arrange itself based on some input value in a cluster.
algorithm on clustering of news with Indonesian Language. The testing is done by analizing the effect of dimension and input parameters like epoch and learning rate toward the performances and accuration system. At the and of testing, can be proved that SOM can overcome high dimension data well. The counting of clustering result performance is done based on precision and entropy.Keyword: Clustering, Unsupervised learning, Self Organizing Maps.