ABSTRAKSI: Text Summarization adalah sebuah proses untuk menghasilkan ringkasan (summary) dari suatu artikel tapi tetap memiliki gambaran yang akurat dari isi suatu artikel. Tujuannya adalah mengambil sumber informasi dengan mengutip sebagian besar isi yang penting dan menampilkan kepada pembaca dalam bentuk yang ringkas dan sesuai dengan kebutuhan pembaca.
Sistem ini mengimplementasikan metode semantik Lexical Chain [1] yaitu salah satu metode pada text summarization yang membentuk rantai leksikal berdasarkan hubungan semantik antar kata dalam teks. Sebagai pembanding digunakan metode peringkasan teks dengan TF-IDF (Term FrequencyInverse Document Frequency) dengan menambahkan konsep ekstraksi frase utama (Keyphrase Extraction) [10] dari suatu teks. Hasil ringkasan yang dihasilkan tetap memiliki/ mengandung bagian-bagian yang penting dari artikel asli sehingga diharapkan dapat membantu pembaca untuk menyerap informasi yang ada dalam artikel melalui ringkasan (summary).
Hasil pengujian dari 40 single document menunjukkan bahwa pengunaan metode Lexical Chain memberikan performansi yang baik pada kisaran summary length 50%-20% dengan panjang dokumen < 29 kalimat (rata-rata panjang kalimat dari 40 dokumen uji). Metode ini memberikan nilai precision ≥ 0.502 dan F-Measure ≥ 0.312, sehingga lebih baik daripada TF-IDF dengan Keyphrase Extraction.
Pengujian multidocuments dari 6 folder dokumen uji menunjukkan bahwa pengunaan metode TF-IDF dengan Keyphrase Extraction memberikan performansi yang baik pada kisaran summary length 20%-10%. Metode ini memberikan nilai precision ≥ 0.524 dan F-Measure ≥ 0.191, sehingga lebih baik bila dibandingkan dengan hasil metode Lexical Chain dan hasil evaluasi TIPSTER SUMMAC.
Kata Kunci : Text Summarization, Lexical Chain, TF-IDF, Frase UtamaABSTRACT: Text Summarization is a process to produce a summary from articles but it has accurate main points from the content of the articles. Objective of this process is to take the source of information by citing most of the important content and show it to the readers in a simple form that appropriate with reader's need.
This system implements semantic method Lexical Chain [1] which is one of the text summarization method that determine semantic relation between words (terms) and sentences. As a comparison of Lexical Chain method used another text summarization method is TF-IDF (Term FrequencyInverse Document Frequency) modified using keyphrase extraction [10] concept. Thus, hopefully this system can help readers to get informations from articles through a summary. Text Summarization will produce a text that still has the main points from the original articles.
Test result of 40 single documents showed that Lexical Chain Method had better performance on 50%-20% summary length especially for documents which have length less than 29 sentences (average length sentence of 40 documents). This method gave precision score ≥ 0.502 and F-Measure score ≥ 0.312, so it’s much better than TF-IDF with Keyphrase Extraction method.
Multidocuments test of 6 folder documents, showed that TF-IDF with Keyphrase Extraction method had better performance on summary length 20%-10%. This method gave precision score ≥ 0.524 and F-Measure score ≥ 0.191, so it’s much better than Lexical Chain Method and TIPSTER SUMMAC Evaluation.
Keyword: Text Summarization, Lexical Chains, TF-IDF, Keyphrase Extraction