ABSTRAKSI: Orang menghabiskan banyak waktu untuk membaca email dan memutuskan apakah email itu spam atau non-spam. Beberapa orang lainnya menghabiskan beberapa tambahan waktu untuk memberi label pada email mereka yang akan digunakan untuk men-training local spam filters yang ada di masing-masing komputer mereka. Namun di sisi lain email service provider mencoba untuk meringankan mereka dengan menggunakan spam filters pada server mereka. Dimana pada spam filters yang bersifat server-based ini tidak dapat menggunakan labeled email dari individual user, melainkan sumber yang ada secara umum, seperti email newsgroup atau email-email yang ditandai melalui spam traps. Sedangkan dari tiap individu pengguna email tersebut memiliki karakteristik yang berbeda dalam menyeleksi email yang dianggap spam atapun non-spam. Di dalam tugas akhir ini, data mining digunakan untuk memutuskan apakah suatu email yang diterima oleh user/pengguna email adalah suatu email spam atau non-spam dan menggunakan ECML PKDD 2006 Discovery Challenge Data Mining Competition sebagai studi kasus dengan data email yang telah dikodekan menjadi bag-of-word vector space sehingga tidak diketahui secara pasti bentuk sebenarnya dari email tersebut. Dan metoda Evolving Fuzzy Classifier digunakan untuk klasifikasi menentukan jenis dari email dengan algoritma genetika sebagai metoda pengembangan atau evolusi bagi Fuzzy Classifier yang ada
Kata Kunci : data mining, klasifikasi ,evolving fuzzy classifier , spam, genetic algorithm, non-spam, email, bag-of-word vector space, fuzzy classifier.ABSTRACT: People spend an increasing amount of time for reading email and deciding whether they are spam or non-spam. Some users spend additional time to label their received spam email for training local spam filters running on their computers. But in the other side email service providers want to relieve users from this burden by installing server-based spam filters in its server. Which this spam filters that has server-based characteristic can’t use labeled email from individual user, but from on publicly available sources, such as newsgroup messages or emails received through spam traps. While from that individual email user has each different characteristic when they decide an email is a spam or non-spam. In this final exam, data mining used to decide what if an email which is received by a user is a spam or non-spam and use as a case study for ECML PKDD2006 Discovery Challenge Data Mining Competition with email data that encode into bag-of-word vector space then we doesn’t know about the truth about that email. And with Evolving Fuzzy Classifier method used for classification to decide the type of those email with Genetic Algorithm as an evolution for existing Fuzzy Classifier.
Keyword: data mining, classification, evolving fuzzy classifier, spam, genetic algorithm, non-spam, email, bag-of-word vector space, fuzzy classifier.