ABSTRAKSI: Berita elektronik merupakan media informasi yang paling populer dan interaktif saat ini. Begitu interaktifnya, hingga perkembangannya cukup pesat. Terbukti bertambah banyaknya situs perusahaan maupun situs personal, yang berarti semakin meningkatkan jumlah informasi dan data. Peningkatan yang pesat ini juga dipacu oleh penggunaan internet yang semakin berkembang dibandingkan era sebelumnya. Sebagai akibatnya, jumlah informasi meningkat secara eksponensial.
Banyaknya data yang ada, semestinya dapat memberikan manfaat yang banyak pula. Summarization merupakan salah satu proses menyaring informasi paling penting dari sebuah sumber atau beberapa sumber dokumen untuk membuat sebuah versi ringkas dari teks. Saat ini, kebanyakan metode Summarization seperti TextRank, PageRank dan lain sebagainya hanya mengandalkan perhitungan kesamaan berdasarkan kata dan tidak memperhatikan aspek lain, misalnya kesamaan frasa. Pada tugas akhir ini berusaha meringkas suatu dokumen dengan metode Document Index Graph yang dikombinasikan dengan PageRank yang merupakan metode untuk menentukan seberapa penting sebuah vertex dalam graf, berdasarkan informasi yang diambil dari struktur graf keseluruhan.
Metode ini diuji coba dengan menggunakan sampel berita berbahasa Indonesia dari media massa berbasis web. Pemilihan threshold yang tepat akan meningkatkan kualitas ringkasan. Pengujian berdasarkan fmeasure membuktikan bahwa ringkasan yang dihasilkan cukup bagus.Kata Kunci : summarization, treshold, PageRank, vertex, grafABSTRACT: Electronic news media information is the most popular and interactive today. So interactive, so its development is quite rapid. Shown to increase the number of corporate sites and personal sites, which means the increasing amount of information and data. This rapid increase was also driven by the growing use of the Internet compared to the previous era. As a result, the amount of information increases exponentially.
Number of existing data, should provide many benefits as well. Summarization is one of the most important filter information from a source or multiple source documents to create a compact version of the text. Currently, most methods like TextRank Summarization, PageRank, etc. rely on similarity calculation based on words and not consider other aspects, such as similarity phrase. In this final attempt to summarize a document with Document Index Graph method combined with the PageRank is a method to determine how important a vertex in the graph, based on information taken from the overall graph structure.
This method was tested using a sample of Indonesian language news from the web-based mass media. Selection of the appropriate threshold would improve the quality of summaries. Tests based on fmeasure prove that the resulting summary is pretty good.Keyword: summarization, treshold, PageRank, vertex, graf