Analisis Implementasi Deteksi Outlier Berbasis Klaster pada Data Kategorikal dengan Menggunakan Algoritma CBLOF Implementation Analysis Cluster-Based Outlier Detection in Categorical Data using CBLOF Algorithm

Arif Pradita Herman

Analisis Implementasi Deteksi Outlier Berbasis Klaster pada Data Kategorikal dengan Menggunakan Algoritma CBLOF Implementation Analysis Cluster-Based Outlier Detection in Categorical Data using CBLOF Algorithm

Arif Pradita Herman

Informasi Dasar

Analisis Implementasi Deteksi Outlier Berbasis Klaster pada Data Kategorikal dengan Menggunakan Algoritma CBLOF Implementation Analysis Cluster-Based Outlier Detection in Categorical Data using CBLOF Algorithm

Dilihat

468 kali

No. Katalog

113070079

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI:
Deteksi outlier merupakan salah satu fungsionalitas dalam data mining yang bertujuan untuk mencari data yang berbeda dengan mayoritas data lainnya. Walaupun memiliki perilaku yang berbeda dengan mayoritas data lainnya, outlier sering mengandung informasi yang sangat berguna. Ada banyak metode untuk mendeteksi outlier, namun kebanyakan didesain untuk data numerik dan tidak cocok diterapkan dalam data kategorikal. Selain itu, banyak algoritma yang membutuhkan waktu proses yang lama seiring bertambahnya jumlah data. CBLOF (Cluster Based Local Outlier Factor) merupakan suatu metode untuk mendeteksi outlier pada data kategorikal berbasiskan klaster. Nilai CBLOF untuk tiap data akan dihitung, berdasarkan kondisi data tersebut termasuk dalam large cluster atau small cluster, untuk menentukan data tersebut outlier atau tidak. Pengujian dilakukan dengan beberapa skenario untuk mengetahui akurasi berdasarkan detection rate, false positive rate serta false negative rate, pengaruh persentase rare class terhadap akurasi dan pengaruh jumlah data terhadap waktu proses. CBLOF dapat mendeteksi outlier dengan tingkat akurasi relatif baik dilihat berdasarkan detection rate, false positive rate dan false negative rate. Selain itu, prosesnya juga cepat karena CBLOF hanya perlu membaca dataset satu kali hingga didapatkan data yang dianggap sebagai outlier atau tidak.
Kata Kunci : outlier, klaster, kategorikal, CBLOFABSTRACT:
Outlier detection is one of data mining functionalities that aims to find data that are different from other majority data. Although it has a different behavior with the other majority data, outliers often contain very useful information. There are many methods to detect outliers, but most are designed for numeric data and not appropriate for categorical data. Moreover, many algorithms take time to process increasing amounts of data. CBLOF (Cluster Based Local Outlier Factor) is a method for detecting outlier for categorical data based on clusters. A CBLOF value calculated for each data, is based on the condition that data are included in large clusters or small clusters, whether outlier data or not. Tests carried out with several scenarios to find out the accuracy based on the detection rate, false positive rate and false negative rate, influence the percentage of rare class on accuracy and influence the amount of data on processing time. CBLOF can detect outliers with relatively good accuracy, based on detection rate, false positive rate and false negative rate. In addition, the process is also faster because CBLOF will only read once the dataset for a data that is considered as an outlier or otherwise.
Keyword: outlier, cluster, categorical, CBLOF

Subjek

Subjek utama

Rekayasa Perangkat Lunak

Subjek tambahan

Katalog

Judul

Analisis Implementasi Deteksi Outlier Berbasis Klaster pada Data Kategorikal dengan Menggunakan Algoritma CBLOF Implementation Analysis Cluster-Based Outlier Detection in Categorical Data using CBLOF Algorithm

ISBN

Kolasi

Bahasa

Indonesia