ABSTRAKSI: Data Mining adalah proses pencarian pola-pola dan kecenderungan yang menarik dari dalam basis data berukuran besar. Sebuah outlier didefinisikan sebagai sebuah titik data pada suatu data set dimana sangat berbeda dibandingkan dengan titik data pada data set pada umumnya dengan suatu ukuran tertentu. Outlier ini walaupun mempunyai kelakuan yang abnormal, seringkali mengandung informasi yang sangat berguna. Permasalahan deteksi outlier ini mempunyai peran yang sangat penting pada aplikasi deteksi kecurangan, analisis kekuatan jaringan dan deteksi intrusi.
Pencarian outlier biasanya dengan konsep keterdekatan berdasarkan hubungannya dengan sisa data yang ada. Pada data berdimensi tinggi, kepadatan data akan semakin berkurang, akibatnya dugaan akan keterdekatan antar data menjadi gagal.
Pada tugas akhir ini akan dilakukan perbandingan metode dalam pencarian suatu outlier dalam data berdimensi tinggi. Metode yang akan dibandingkan yaitu: Clustering-based, Density-based, dan Distance-based. Dimana masing-masing metode telah mendukung data berdimensi tinggi.Kata Kunci : data mining, outlier, deteksi outlier, metode deteksi outlier.ABSTRACT: Data mining is interesting patterns and trend finding process in large database. Outlier defined as a data point in database where is different than data point from common database with fixed size. Even outlier have an abnormal behaviour, often contain important information. Outlier detection have important role in fraud detection, intrusion detection, and network monitoring application.
Finding an outlier usually using proximity based on existing remain data. In high dimensional data, data become spare, finally proximity notion data become failed.
In this final assignment, will doing methods comparison finding outlier in high dimensional data. Existing methods which will be use is Clustering-based, Density-based, and Distance-based. Where each methods support on high dimensional data.Keyword: data mining,outlier, outlier detection, outlier detection method.