Peringkasan Multi Dokumen dengan Menggunakan Metode Centroid-Based

Astried Nababan

Informasi Dasar

113050262
005.1
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Peringkasan teks (text summarization) adalah proses penyaringan informasi yang paling penting dari sebuah atau beberapa dokumen sehingga dihasilkan versi yang lebih singkat yang digunakan oleh user (users) untuk task tertentu (tasks) dengan memanfaatkan aplikasi yang dijalankan pada komputer.
Pada Tugas Akhir ini diimplementasikan centroid-based summarization. Centroid dari klaster merupakan kumpulan dari term melalui proses perhitungan yang dianggap penting terhadap sebuah klaster dari dokumen-dokumen. Pada Tugas Akhir ini, penulis mencoba melakukan modifikasi terhadap centroid yang digunakan yaitu berupa concept. Concept adalah term yang mempunyai peranan semantik di sebuah kalimat dalam sebuah dokumen. Nilai concept akan dihitung dengan menggunakan statistical concept based mining model. Aplikasi ini dilakukan terhadap dokumen-dokumen berbahasa Indonesia dan Inggris dengan isi berita yang mirip. Feature-feature ekstraksi kalimat yang digunakan adalah centroid value yaitu penjumlahan nilai-nilai centroid dari kata-kata yang terdapat dari kalimat tersebut, letak/posisi kalimat dalam paragraf, similarity with title yaitu nilai kemiripan suatu kalimat yang dibandingkan dengan judul dari dokumen dengan menghitung kata-kata yang overlap, dan redundancy penalty. Parameterparameter di atas akan dihitung untuk menentukan ranking dari kalimat. Hasil dari aplikasi ini adalah ringkasan ekstraktif yang terdiri dari kalimat-kalimat dengan ranking tertinggi.
Pengujian dilakukan dengan menggunakan ROUGE evaluation toolkit dengan membandingkan hasil aplikasi ini dengan summarizer lainnya yaitu MEAD. Hasil pengujian menunjukkan bahwa metode centroid-based dengan feature ekstraksi yang diaplikasikan pada tugas akhir ini cenderung lebih rendah dibandingkan dengan score yang dihasilkan oleh MEAD.Kata Kunci : peringkasan teks, centroid-based, concept, feature ekstraksiABSTRACT: Text summarization is one of text mining tasks. Text summarization is a computerized process of distilling the most important information of a source (or sources) for making a brief version of text (texts) to fulfill user's need or any tasks required.
Centroid-based summarization uses the centroid of a cluster to identify the salient sentences. A centroid is a set of words that are statically important to a cluster of documents. In this paper, the centroid is modified by using concepts as the centroid. A concept is a term that has a semantic role in the sentence. The concept is counted using statistical concept based mining model. As the input for this application are Indonesia and English documents. Centroid value, position value, title overlap value and redundancy penalty are the features extraction to determine the highest score among the sentences. Centroid value counts the centroid value of all words in the sentence. Similarity with tittle measured how similar the sentences with its document’s tittle. The process produces the output in the form of extractive summary that consists of high ranked sentences.
Evaluation of the summaries uses ROUGE evaluation toolkit comparing the result from another summarizer, MEAD. The result of this experiment shows centroid based with concept as the centroid tends to have lower score than MEAD.Keyword: Text summarization, centroid-based, concept, feature extraction

Subjek

Rekayasa Perangkat Lunak
 

Katalog

Peringkasan Multi Dokumen dengan Menggunakan Metode Centroid-Based
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

Astried Nababan
Perorangan
Moch. Arif Bijaksana, Hetti Hidayati
 

Penerbit

Universitas Telkom
Bandung
2010

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini