Analisis dan Implementasi Deteksi Email Spam Menggunakan Karakter N-Grams<br> (Analysis and Implementation of Email Spam Detection Using Character N-Grams)

DEDY MAYOR SP

Informasi Dasar

113088066
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Email telah menjadi salah satu alat komunikasi yang murah dan cepat. Masalah utama yang dihadapi adalah meningkatnya jumlah email komersial yang tidak diharapkan atau biasa disebut spam. Spam berdampak negatif seperti penyalahgunaan bandwith koneksi internet, mengurangi ukuran penyimpanan data, meningkatkan waktu komputasi dan sangat mengganggu pengguna.

Pendekatan yang banyak dilakukan untuk mendeteksi spam menggunakan metode representasi sekumpulan kata. Namun isi spam seringkali terdapat kata-kata yang salah secara tatabahasa dan menggunakan variasi tanda baca yang aneh seperti ‘f.r.e.e.’,’f-r-ee’,’ f r e e’. Hal ini mengakibatkan pendekatan ini tidak tangguh pada kondisi tersebut. Selain itu, metode ini juga perlu dilakukan proses pembuangan tanda baca, stemming dan lemmatisasi yang sangat bergantung pada bahasa yang tertentu.

Pada tugas akhir ini, pendekatan yang dilakukan untuk mendeteksi spam menggunakan representasi sekumpulan karakter n-grams. Pendekatan ini berusaha mengatasi permasalah yang dihadapi menggunakan metode representasi sekumpulan kata. Namun jumlah feature yang dihasilkan masih sangat besar, sehingga digunakan algoritma klasifikasi Support Vector Machine(SVM) yang mampu mengatasi ruang data dimensi data yang tinggi.

Hasil penelitian menunjukkan bahwa sistem pendeteksian spam menggunakan karakter n-grams dapat diterapkan dengan baik. Metode karakter n-grams memiliki kelebihan yaitu dapat menghindari penggunaan stop list, stemming dan lemmatisasi yang sangat bergantung pada bahasa tertentu. Hasil penelitian menunjukkan panjang karakter n terbaik adalah n=4 untuk tipe pembobotan binary dan n=5 untuk tipe pembobotan term frequency(TF).Kata Kunci : spam detection, character n-grams, support vector machine(SVM).ABSTRACT: Email is one of cheapest and fastest availaible tools of communication. Major problem is the increasing number of unsolicited commercial email or called spam. Spam have the impact waste bandwidth of internet connections, reduce data storage, increase computations time and very bother users.

Major approaches to spam detection use the bag of words representation method. But spam content often contain words wrong in grammar and have variation weird punctation like ‘f.r.e.e.’,’f-r-e-e’,’f r e e’. This conditions affected bag words representation approach not strong. Moreover, this approach need list of stop words, stemming and lemmatizer certain language dependent.

In this final project, approach to spam detection used bag of character n-grams. This approach try to solve problem faced by bag of words representation method. But number of feature produced is still large so used Support Vector Machine(SVM) as classification algorithm able to deal with high dimensional data space.

The result showed that spam detection using character n-grams applicable well. Character n-grams method can avoid using stop-list, stemming and lemmatization language dependent. The result showed that optimal length of character n is n=4 for binary weighting and n=5 for term frequency(TF) weighting.Keyword: spam detection, character n-grams, support vector machine(SVM).

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Analisis dan Implementasi Deteksi Email Spam Menggunakan Karakter N-Grams
(Analysis and Implementation of Email Spam Detection Using Character N-Grams)
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

DEDY MAYOR SP
Perorangan
Tri Brotoharsono, Kusuma Ayu Laksitowening
 

Penerbit

Universitas Telkom
Bandung
2011

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini