ABSTRAKSI: Pesatnya penggunaan Internet sebagai sarana penyebarluasan informasi mengakibatkan tersedianya informasi dalam jumlah yang banyak, beraneka ragam dan pada umumnya tidak terstruktur. Hal ini mendorong kebutuhan untuk mengelola informasi guna mendapatkan pengetahuan yang bermanfaat. Salah satu komponen penting dalam pengelolaan informasi adalah pengelompokan teks, dengan kategorisasi dan klastering, yang dapat membantu pengguna dalam mendapatkan informasi berdasarkan kategori tertentu secara cepat dan akurat.
Pada tugas akhir ini digunakan metode concept based ( statistical concept based mining model dan modified statistical concept based mining model) dan metode pembobotan tradisional seperti TF IDF, untuk menghitung bobot suatu term. Output dari penghitungan ini akan menjadi input untuk kategorisasi dan klastering dokumen berita berbahasa Indonesia. Dari hasil pengelompokan dokumen, diukur performansi kategorisasi dan klastering dari ketiga metode tersebut.
Metode concept based memiliki performansi yang tinggi dan bervariasi pada berbagai kategori. Dari hasil penelitian pada tugas akhir ini juga diketahui bahwa metode concept based mining model memiliki akurasi yang lebih baik dari pada metode TF IDF. Hal ini menunjukkan concept based mining model dapat menjadi sebuah metode pembobotan term dalam suatu dokumen supaya performansi klastering dan kategorisasi bagus.Kata Kunci : statistical concept based mining model, modified statistical concept based mining model, TF IDF, kategorisasi, klastering.ABSTRACT: The rapid usage of internet as an information spreading medium causes information availability in the large amount, various, and commonly unstructured. This lead to the need of information management to get useful knowledge. One of important components in information management is grouping text by categorization and clustering so this can help people to get information according to certain category fastly and accurately.
In this final project, used concept based method (statistical concept based mining model and modified statistical concept based mining model) and traditional method like TF IDF for weighting terms. The output from this process will be input for categorization and clustering Indonesian news articles. After that, will be measured the categorization and clustering performance.
Concept based method have high performance and varied in some categories. From this research result also can be known that concept based mining model has better accuration than TF IDF method. It shows us that concept based mining model can be a weighting term method in order to get good categorization and clustering performance.Keyword: statistical concept based mining model, modified statistical concept based mining model, TF IDF, categorization, clustering