ABSTRAKSI: Pada dataset yang sangat besar memungkinkan ada data yang tidak lengkap, disebut dengan missing values. Untuk beberapa kasus, missing values terkadang muncul tidak secara eksplisit, namun muncul sebagai data yang berpotensi dianggap valid. Kejadian seperti inilah yang disebut dengan disguised missing data yang akan mempengaruhi hasil akhir dari analisis data yang dilakukan.
Pada saat ini, kasus disguised missing data sering ditangani dengan menggunakan outlier detection atau anomaly detection. Namun untuk kasus disguised missing data yang muncul sebagai inliers, ourlier detection tidak dapat bekerja dengan baik. Maka dari itu diperlukan pendekatan yang lebih handal. Embedded unbiased sample (EUS) heuristic merupakan pendekatan yang efektif untuk memecahkan permasalahan ini, karena pendekatan ini dapat menemukan disguised values yang frekuen. Dengan menggunakan Correlation-Based Sample Quality Score (CBSQS) dan Chi-Square 2 Sample Test (CS2ST), EUS heuristic akan lebih efisien.
Kata Kunci : Data Mining, Disguised Missing Data, EUS Heuristic, CBSQS, CS2STABSTRACT: In large datasets there will possibly appears incomplete data, it is known as missing values. For some cases, missing values sometimes appears not explicitly, but appears as potentially valid data. Such occurrence known as disguised missing data, it will impair our result in data analysis.
Nowadays, disguised missing data usually handle with outlier detection or anomaly detection. But for disguised missing data that appears as inliers, outlier detection can not work well. For that reason, we need a better approach. Embedded unbiased sample (EUS) heuristic is an ffective approach to tackle this problem, because this approach can finds frequent disguised values. With Correlation-Based Sample Quality Score (CBSQS) and Chi-Square 2 Sample Test (CS2ST), EUS heuristic will be more efficient.
Keyword: Data Mining, Disguised Missing Data, EUS Heuristic, CBSQS, CS2ST