Implementasi dan Analisis Penggunaan Semi-supervised Regression Model untuk Clustering Data Numerik dan Categorical

Dyar Prily Izzati Ramadhana

Informasi Umum

Kode

113070279

Klasifikasi

005.1 - Computer programming

Jenis

Karya Ilmiah - Skripsi (S1) - Reference

Subjek

Rekayasa Perangkat Lunak

Dilihat

260 kali

Informasi Lainnya

Abstraksi

ABSTRAKSI: Permasalahan yang muncul dalam suatu data ketika data tersebut terdiri dari atribut numerik dan kategori. Untuk mengatasi masalah tersebut diperlukan teknik khusus untuk melakukan clustering pada data yang terdiri oleh atribut numerik dan kategori. Salah algoritma clustering yang digunakan untuk melakukan clustering pada campuran data numerik dan kategori adalah Semi-supervised Regression Model. Proses clustering dilakukan dengan menggabungkan multiple linear regression untuk data numerik dan k-mode clustering untuk data kategori. Data dikelompokkan berdasarkan nilai paling kecil dari least square error untuk atribut numerik dan dissimilarity measures untuk atribut kategori terhadap pusat suatu cluster. Hasil yang diperoleh adalah algoritma semi-supervised regression model cocok untuk diaplikasikan pada data yang memiliki atribut numerik dan kategori dimana pada data tersebut rentang nilai pada atribut numerik tidak terlalu jauh serta nilai standar deviasi yang kecil dan pada data kategori tidak memiliki persebaran suatu nilai yang sama untuk cluster berbeda.Kata Kunci : clustering, semi-supervised, k-mode, multiple regression, least square error, dissimilarity measureABSTRACT: The problems that arise in the data when the data consists of numeric attributes and categories. To handle such problems required special techniques to perform clustering on the data made by numerical and categories attributes. One clustering algorithm used to perform clustering on a mixture of numerical data and the category is Semi-supervised Regression Model. Clustering process is done by combining multiple linear regression for numerical data and k-modes clustering for categorical data. Data are grouped according to the smallest value of the least square error for numeric attributes and dissimilarity measures for the attribute category of the center of a cluster. The result is a semi-supervised regression algorithm model suitable for application at the data that has numeric attributes and categories where the data is the range of values on numeric attributes is not too far away and a small standard deviation value and the data categories do not have an equal value distribution for different clusters.Keyword: clustering, semi-supervised, k-mode, multiple regression, least square error, dissimilarity measure