Pembentukan Sentence-Aligned Korpus Paralel untuk Bahasa Sunda-Bahasa Indonesia Berbasis Wikipedia dengan Bootstrapping dan EM

IGNASIUS INDRA KUSUMA WIJAYA

Informasi Dasar

17.04.515
006.312
Karya Ilmiah - Skripsi (S1) - Reference

Ketersediaan korpus paralel pada pasangan bahasa Sunda-Indonesia masih sangat sedikit. Korpus paralel tersebut penting dan bisa dimanfaatkan sebagai sumber data latih dalam sistem machine translation atau sistem natural language processing. Penelitian ini mencoba untuk mengumpulkan kalimat paralel yang didapatkan dari pasangan artikel Wikipedia berbahasa Sunda dan berbahasa Indonesia menggunakan fasilitas interlanguage links. Sebuah bilingual lexicon dan beberapa filter yang berdasarkan pada kemunculan kata, panjang kalimat dan word overlap antar kalimat digunakan untuk mendapatkan kalimat paralel. Metode bootstrapping kemudian digunakan untuk meningkatkan kualitas kalimat paralel dengan cara memperbarui bilingual lexicon memanfaatkan IBM Model 4 expectation maximization (EM) learner di dalam tool GIZA++. GIZA++ dijalankan pada kandidat kalimat paralel yang dihasilkan di setiap iterasi sistem sampai kondisi konvergensi tercapai. Hasil evaluasi manual menggunakan penilaian manusia menunjukkan bahwa 79,5% dari korpus paralel hasil bentukan sistem terbukti paralel.

Subjek

Text mining
 

Katalog

Pembentukan Sentence-Aligned Korpus Paralel untuk Bahasa Sunda-Bahasa Indonesia Berbasis Wikipedia dengan Bootstrapping dan EM
 
 
 

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

IGNASIUS INDRA KUSUMA WIJAYA
Perorangan
Arie Ardiyanti Suryani, Kurniawan Nur Ramadhani
 

Penerbit

Universitas Telkom
Bandung
2017

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini