ABSTRAKSI: Evaluasi secara otomatis untuk mengukur kualitas dari terjemahan mesin translasi dilakukan dengan menggunakan automatic metric. Metric didefinisikan sebagai measurement (ukuran). Metric untuk evaluasi keluaran terjemahan mesin merupakan ukuran kualitas keluaran terjemahan mesin tersebut. Oleh karena kualitas terjemahan bersifat subjektif maka tugas dari berbagai metric adalah untuk menetapkan score terhadap kualitas dalam berbagai cara sehingga score memiliki hubungan dengan human judgement. Ukuran untuk evaluasi metric adalah nilai korelasi antara score metric dan human judgement.
Pengevaluasian sistem mesin translasi menggunakan automatic metric menjadi lebih cepat, mudah dan murah dibandingkan human evaluation. Pada tugas akhir ini, pengimplementasian dilakukan dengan membuat modul stemming untuk teks berbahasa Indonesia yang diintegrasikan pada tool METEOR metric yang akan digunakan untuk mengevaluasi hasil terjemahan mesin translasi. Kemudian melakukan analisis terhadap pengaruh jumlah referensi yang digunakan serta pengaruh stemming yang diimplementasikan terhadap score dan nilai korelasi yang dihasilkan dari pengujian. Selain itu dilakukan analisis terhadap performa METEOR metric dengan stemming Indonesia dalam mengevaluasi beberapa mesin translasi serta membandingkan nilai korelasi antara METEOR dan BLEU metric.
Hasil pengujian menunjukan jumlah referensi yang digunakan dalam pengevaluasian dapat meningkatkan score metric dan nilai korelasi yang dihasilkan. Modul stemming Indonesia yang diimplementasikan dapat memberikan kontribusi untuk meningkatkan score metric tetapi pengaruhnya terhadap nilai korelasi tidak signifikan. Hasil komparasi dengan BLEU metric menunjukan bahwa METEOR metric mampu menghasilkan nilai korelasi yang lebih tinggi daripada BLEU metric. Sedangkan untuk evaluasi mesin translasi, Google Translator menghasilkan nilai korelasi paling tinggi sebesar 0.736, sedangkan Transtool menghasilkan nilai korelasi dengan urutan tertinggi kedua yaitu sebesar 0.478 lebih tinggi daripada Rekso Translator yang menghasilkan nilai korelasi sebesar 0.469.Kata Kunci : Kata kunci: METEOR metric, stemming, score, correlation value.ABSTRACT: Automatic evaluation for measuring the quality of machine translation output is used automatic metric. A metric will be understood as a measurement. Because of the quality of translation is subjective, therefore, the task for any metric is to assign score in such a way that they correlate with human judgement. The measure of evaluation for metric score is correlation with human judgement.
Machine Translation system evaluation using automatic metric can be faster, easier and cheaper compared with human evaluation. In this final project, implementation can be conducted by making a stemming module for Indonesian text integrated in METEOR metric tool that will be used for evaluating translation result from the machine. The next part of this final project is analyzing the influence of reference number used; the influence of implemented stemming towards score and correlation value resulted from the test. In addition, analysis on METEOR metric performance is also conducted with Indonesian stemming in evaluating several translation machines and comparing the correlation value with BLEU metric.
Testing result shows that reference total number used in evaluation can increase the score metric and the resulted correlation value. Stemming module gives the contribution to increase score metric but the influence towards correlation value is not significant. Compared with BLEU metric, METEOR metric is also able to show a higher correlation value rather than BLEU metric. While for the translation machine evaluation, Google Translator has the highest correlation value with 0.736, while Transtool has the second highest correlation value with 0.478 higher than Rekso Translator with 0.469 for its correlation value.Keyword: Keywords: METEOR metric, stemming, score, correlation value.