Implementasi dan Analisis Konversi Suara Menggunakan Algoritma Pitch Shifting dengan Time Domain Pitch Synchronous Overlap Add (TD-PSOLA)

Mutiara Nur Farida Hernawan

Informasi Dasar

174 kali
621.382 2
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Konversi suara merupakan suatu teknologi yang memungkinkan user untuk mengubah pola bicara seseorang menjadi pola bicara lain dengan karakteristik yang berbeda dan memberikan identitas baru, dengan tetap menjaga konten aslinya. Hal ini berarti mengubah cara sesuatu dikatakan tanpa mengubah apa yang dikatakan. Diperlukan metode tertentu untuk dapat mengimplementasikan teknologi konversi suara ini. Sudah banyak metode yang dilakukan oleh penelitian-penelitian lain untuk mengembangkan teknologi ini, metode yang dibahas pada tugas akhir adalah algoritma pitch shifting dengan PSOLA. Algoritma pitch shifting merupakan metode dalam teknologi konversi suara yang tergantung pada pendeteksian pitch sinyal sumber (frekuensi dasar) dengan menggunakan pitch marker dan mengubahnya sesuai dengan pitch target yang diinginkan menggunakan metode TD-PSOLA.

Pada tugas akhir dilakukan pengujian dan analisis mengenai efek dari pengimplementasian TD-PSOLA pada sistem konversi suara. Masukan berupa data suara perempuan dan laki-laki yang mengucapkan kalimat “konversi suara”, data suara disimpan sebagai database dengan format digital *.wav. Kemudian database tersebut diproses sehingga menghasilkan suara keluaran yang berbeda.

Pengujian untuk menilai performansi sitem menggunakan metode penilaian MOS (Conversation Opinion Test dan Listening Test) dan metode perhitungan cross correlation. Untuk hasil penilaian MOS Conversation Opinion Test diperoleh hasil terbaik sebesar 4.2 untuk konversi suara perempuan ke low pitch ketika β = 0.1 dan α = 1 serta 4.1667 untuk konversi suara laki-laki ke high pitch ketika β = 1 dan α = 3. Untuk hasil penilaian MOS Listening Test diperoleh hasil terbaik sebesar 4.133 untuk konversi suara perempuan ke low pitch ketika α = 1 dan β = 1. Untuk hasil perhitungan cross correlation diperoleh hasil terbaik sebesar 0 untuk konversi suara perempuan ke low pitch ketika β = 0.25 dan α = 1 serta 0.019 untuk konversi suara perempuan ke high pitch ketika β = 1 dan α = 1.25.
Kata Kunci : Konversi Suara, TD-PSOLA, MOS, cross correlationABSTRACT: Speech conversion is a technology that allows user to alter a person's speech pattern into another pattern with different characteristics and provide a new identity, while maintaining the original content. This means changing the way something said without changing what is being said. Specific methods are needed to be able to implement this voice conversion technology. There have been many methods undertaken by other studies to develop this technology, the methods discussed in the final task is to pitch shifting with PSOLA algorithm. Pitch shifting algorithm is a method in voice conversion technology which depends on the detection of the source signal pitch (fundamental frequency) using the pitch marker and pitch change in accordance with the desired target using TD-PSOLA method.

This final project performs testing and analysis of the effects of implementing TD-PSOLA on speech conversion system. Input voice is from female and male speech who say “konversi suara”, then the database is processed to be converted into another speech data in accordance with the desired target, thereby producing a different sound output.

Testing to analyses system performance using Mean Opinion Score and cross correlation. For the Conversation Opinion Test MOS ratings obtained the best results of 4.2 for the conversion of female speech into low pitch when β = 0.1 and α = 1, and the best result of 4.1667 for the conversion of male speech into high pitch when α = 3 and β = 1. For the Listening Test MOS ratings obtained the best results of 4.133 for the conversion of female speech into low pitch when α = 1 and β = 1. For the results calculation of cross correlation obtained the best results at 0 for the conversion of female speech into low pitch when β = 0.25 and α = 1, and calculation of cross correlation obtained the best results at 0.09 for the conversion of female speech into high pitch when β = 1 and α = 1,25.Keyword: Speech Conversion, TD-PSOLA, MOS, cross correlation


Pengolahan Sinyal Informasi


Implementasi dan Analisis Konversi Suara Menggunakan Algoritma Pitch Shifting dengan Time Domain Pitch Synchronous Overlap Add (TD-PSOLA)


Rp. 0
Rp. 0


Mutiara Nur Farida Hernawan
Iwan Iwut Tritoasmoro, Inung Wijayanto


Universitas Telkom




Download / Flippingbook



Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini