ABSTRAKSI: Banyaknya penggunaan internet sebagai media komunikasi, penyebaran berita serta makin banyaknya layanan penyedia email di internet menyebabkan email spam semakin banyak. Hal ini tentu merugikan bagi pengguna email karena harus menghabiskan banyak waktu untuk menghapus email-email spam tersebut dan dapat menyebabkan media penyimpanan pada email server menjadi penuh. Email spam biasanya berisi pesan komersial tentang suatu produk, usaha, atau bahkan pesan tentang pornografi yang tidak diinginkan oleh user. Saat ini sudah banyak teknik spam filtering yang dibuat untuk mengatasi email spam ini, seperti rule based filtering, naïve bayesian filtering dan support vector machine. Kebanyakan dari aplikasi yang menggunakan teknik spam filtering saat ini, seperti Yahoo Mail tidak dapat mengenali pola dari dokumen email, dan menggunakan pencocokan ekspresi reguler, dimana jika terdapat suatu kata yang mengandung spam dalam suatu email, email tersebut difilter. Meskipun pendekatan ini dapat memfilter email spam, namun hal ini dapat menyebabkan email-email penting juga difilter karena mengandung term tersebut.
Pada tugas akhir ini telah dirancang dan diimplementasikan suatu perangkat lunak spam email filtering menggunakan salah satu pendekatan teknik information retreival, yang disebut Vector Space Model. Vektor Space Model memperlakukan query sebagai vektor dalam ruang multidimensional. Sekumpulan data indexing berupa email spam dan email legitimate diberikan kepada perangkat lunak spam email filtering ini, sehingga dapat mengkategorisasikan email dengan mengidentifikasi content dari email untuk menentukan email mana yang merupakan spam email.. Sehingga, ketika spam tersebut cocok, maka perangkat lunak ini akan memfilternya.Kata Kunci : spam, email filtering, information retreival, vektor space model.ABSTRACT: Too much using of internet as communication media, news spreading, and there are a lot of email service provider in internet cause the number of spam email being excessively. It surely can harm the email user because the user have to spend much time to delete spam emails and can cause the storage media on email server being full. Spam email is flooding the internet with many copies of the same message, in a attempt to force the message on people who would not choose to receive it. Spam email usualy consist of commercial message to some product, bussiness message, or even porn message on user who would not want it. At present, there are many spam filtering technique that are developed to force this spam email, for example rule base filtering, naive bayesian filtering and support vector machine. Most of email applications that using spam filtering technique, such as Yahoo Mail, can not understand the semantics of email document, and use a regular expression match, where if a term appears in a particular email, it is filtered. Although this approach is able to filter spam emails, it could occasionally filter some important emails, which might just cotain such term.
This Final Project has designed and implemented a spam email filtering tool using one of Information Retrieval Technique, called Vector Space Model. Vector Space Model act the query as a vector in mutidimensional room. Given an indexing data of spam and legitimate message, so that the spam email filtering tool is able to categorize email, by indentifying content of email to determine which one is spam email .Thus, whenever spam is match, it is filtered.Keyword: spam, email filtering, information retreival, vektor space model.