Informasi Umum

Kode

17.04.515

Klasifikasi

006.312 - Data mining

Jenis

Karya Ilmiah - Skripsi (S1) - Reference

Subjek

Text Mining

Dilihat

239 kali

Informasi Lainnya

Abstraksi

Ketersediaan korpus paralel pada pasangan bahasa Sunda-Indonesia masih sangat sedikit. Korpus paralel tersebut penting dan bisa dimanfaatkan sebagai sumber data latih dalam sistem machine translation atau sistem natural language processing. Penelitian ini mencoba untuk mengumpulkan kalimat paralel yang didapatkan dari pasangan artikel Wikipedia berbahasa Sunda dan berbahasa Indonesia menggunakan fasilitas interlanguage links. Sebuah bilingual lexicon dan beberapa filter yang berdasarkan pada kemunculan kata, panjang kalimat dan word overlap antar kalimat digunakan untuk mendapatkan kalimat paralel. Metode bootstrapping kemudian digunakan untuk meningkatkan kualitas kalimat paralel dengan cara memperbarui bilingual lexicon memanfaatkan IBM Model 4 expectation maximization (EM) learner di dalam tool GIZA++. GIZA++ dijalankan pada kandidat kalimat paralel yang dihasilkan di setiap iterasi sistem sampai kondisi konvergensi tercapai. Hasil evaluasi manual menggunakan penilaian manusia menunjukkan bahwa 79,5% dari korpus paralel hasil bentukan sistem terbukti paralel.

Koleksi & Sirkulasi

Tersedia 1 dari total 1 Koleksi

Anda harus log in untuk mengakses flippingbook

Pengarang

Nama IGNASIUS INDRA KUSUMA WIJAYA
Jenis Perorangan
Penyunting Arie Ardiyanti Suryani, Kurniawan Nur Ramadhani
Penerjemah

Penerbit

Nama Universitas Telkom
Kota Bandung
Tahun 2017

Sirkulasi

Harga sewa IDR 0,00
Denda harian IDR 0,00
Jenis Non-Sirkulasi