Dalam kehidupan umat Islam, pemahaman terhadap isi Al-Qur’an sebagai pedoman
hidup, adalah hal yang sangat penting. Al-Qur’an sebagai referensi utama umat Islam pada
umumnya tertulis dalam bahsa Arab. Untuk melakukan proses teks, salah satu preproses
awal adalah tokenisasi. Sehingga semua proses teks mensyaratkan dilakukan tokenisasi
terlebih dahulu. Pada bahasa Indoensia dan bahasa Inggris tokenisasi dapat dilakukan
dengan sederhana, dimana token dibatasi dengan spasi. Namun pada bahasa Arab,
sebagaimana juga pada beberapa bahasa lain seperti bahasa Jepang dan Cina, spasi tidak
bisa digunakan sebagai batas token. Pada Tugas Akhir ini, akan dilakukan tokensisasi
untuk bahasa Arab dengan kasus untuk Al Qur’an. Sebagai baseline adalah Maximum
Matching ( atau disebut juga greedy ). Pada maximum matching ini dilakukan proses
matching terhadap kamus.
Kata Kunci : tokenisasi, bahasa arab, Al-Qur’an.