Analisis dan Implementasi Data-Cleaning dengan Menggunakan Metode Multi-Pass Neighborhood (MPN)

Anandary Riezka

Informasi Dasar

191 kali
113060162
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Beberapa masalah yang sering ditemukan pada data adalah ketidakkonsistenan data, duplikasi data, human errors, atau mungkin data telah rusak pada penyimpanan data. Hal ini menyebabkan overlapping atau data yang tumpang tindih. Untuk itu diperlukan cara untuk meminimalisir masalah pada data, salah satu caranya adalah data cleaning. Data cleaning adalah sebuah langkah untuk mendeteksi dan mengkoreksi (atau menghapus) sejumlah record, tabel, dan database yang kurang atau tidak akurat, setelah itu masalah – masalah yang ditemukan akan diganti, dimodifikasi atau dihapus dari database

Pada tugas akhir ini dikembangkan suatu sistem untuk melakukan data cleaning dalam meng identifikasi duplikasi pada data. Dengan menggunakan metoda Multi-Pass Neighborhood, akan mengidentifikasi record yang duplikat pada database lalu record tersebut akan dibandingkan record lain untuk mendapatkan record yang konsisten. Pengujian dilakukan untuk melihat kualitas hasil identifikasi berdasarkan nilai recall dan nilai false-positive.

Berdasarkan pengujian yang sudah dilakukan, metoda Multi-Pass Neighborhood dapat menghasilkan nilai recall dan false-positive yang cukup baik dengan parameter ukuran lebar window, kombinasi rule dan jumlah passes yang digunakan.
Kata Kunci : Kata kunci : Data Cleaning, Multi-Pass Neighborhood, identifikasi data duplikatABSTRACT: Problems that are often found in the data is data inconsistency, duplication of data, human errors, or data that is broken when storing the data. This results in overlapping data. Therefore a way is needed to minimize problems with data, one way is to perform data cleaning. Data Cleaning is the act of detecting and correcting (or removing) a number of records, tables, and databases that are less or not accurate. then those problems that was found is going to be replaced, modified or deleted from the database.

In this final task, a system is developed to do data cleaning to identify duplication in data. By using the Multi-Pass Neighborhood, the records which are duplicate will be identified, then those pairs of duplicate record would be compared with another records, to get the consistent data, which are called clean data. The testing phase was done to see the quality of the identification based on the value of recall and false-positive value.

Based on the testing that was done, the methods of the Multi-Pass Neighborhood can generate a good recall and false-positive value based on the window width parameter, the combination rule and the number of passes used in this final task
Keyword: Keyword : Data Cleaning, Multi-Pass Neighborhood, Identification duplicate data

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Analisis dan Implementasi Data-Cleaning dengan Menggunakan Metode Multi-Pass Neighborhood (MPN)
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Anandary Riezka
Perorangan
Imelda Atastina , Kiki Maulana
 

Penerbit

Universitas Telkom
Bandung
2011

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini