ABSTRAKSI: Peringkas teks otomatis adalah proses meringkas sumber yang berupa teks menjadi versi yang lebih pendek/ringkas dalam menampilkan informasinya. Adapun tujuan dari adanya peringkas teks otomatis diharapkan user dapat memahami isi dokumen tanpa harus membaca keseluruhan isi dokumen.
Pada Tugas Akhir ini diimplementasikan algoritma Hyperlinked Induced Topic Search (HITS) yang merupakan algoritma peringkasan berbasis graf. Pada dasarnya HITS melakukan perangkingan kalimat dengan memperhitungkan keterhubungan antar kalimat. Perangkingan dilakukan dengan cara memberi bobot kalimat dan diurutkan berdasarkan tingkat kepentingannya. Kalimat dengan bobot besar akan diekstrak untuk dijadikan ringkasan. Metode HITS direpresentasikan dengan graf tidak berarah (undirect graph), graf berarah maju (direct forward), dan graf berarah mundur (direct backwrd) serta dilakukan iterasi hanya sekali dan iterasi mencapai konvergen.
Pengujian dilakukan dengan dua cara pada dua data uji yang berbeda. Untuk data uji berbahasa Indonesia, pengujian dilakukan dengan ROUGE evaluation toolkit. Sedangkan untuk data uji berbahasa Inggris dilakukan dengan mengitung nilai recall dan precision secara manual. Hasil pengujian menunjukkan bahwa dengan sekali iterasi akurasi lebih baik daripada yang iterasi konvergen dengan kondisi jumlah ekstraksinya kecil. Representasi graf tidak berarah menunjukkan nilai akurasi yang lebih baik daripada graf berarah, sedangkan representasi graf berarah maju dan mundur mempunyai nilai yang sama.
Kata Kunci : peringkasan teks, algoritma HITS, graf berarah maju, graf berarah mundur, graf tidak berarah,ABSTRACT: Automatic text summarization is distilling the most important information of a source (or sources) for making a brief version of text(s). The purpose of automatic text summarization is user can understand the text(s) without reading all whole text(s).
This final assignment implements Hyperlinked Induced Topic Search (HITS) algorithm that is belonging to graph-based. HITS ranks all sentences by counting the relation between the sentences. The ranking process is done by giving a score of every sentences based on their importance. High sentences’ score will be extracted to be a summary. HITS algorithm is represented by undirected graph, direct forward graph, and direct backward graph. Also running the algorithm until convergent and just one iteration.
Evaluation of summaries uses ROUGE evaluation toolkit for Indonesian texts and counting the recall and precision scores for English texts. The result of experiment shows accuracy of one iteration running algorithm is better than the convergent one, if the extraction is short. Representation with undirected graph’s accuracy is better than the convergent one. Besides that, direct forward and backward representation show that has the same score.
Keyword: automatic text summarization, HITS algorithm, direct forward, direct backward, undirected,