Konsep Mbrola (Konversi dari teks ke ucapan (text to speech) )
Konversi dari teks ke ucapan terdiri dari dua hal, yaitu :
1. mengubah dari teks ke fonem (text to fonem)
2. mengubah dari fonem ke ucapan (fonem to speech)
Teks ke fonem
Proses yang terjadi pada teks ke fonem adalah mengubah kalimat(teks) yang dimasukan dalam suatu bahasa tertentu yang berbentuk teks menjadi kode-kode bunyi yang biasanya diartikan menjadi kode fonem. Sedangkan kode fonem sendiri terdiri dari kode sampa, nilai duras dan nilai pitch (frekuensi dasar). Pada prinsipnya proses ini melakukan konversi dari symbol-simbol tekstual menjadi symbol-simbol fonentik yang mempresentasikan unit bunyi terkecil dalam bahasa, sedangkan setiap bahsa memiliki atuaran cara pembacaannya. Hal ini yang menyebabkan implementasi unit converter teks ke fonem menjadi sangat spesifik terhadap suatu bahasa. Karena setiap bahasa memiliki jumlah fonem yang berbeda sehingga mempunyai kode sampa yang berbeda pula. Maka, dibutuhkan diphone database yang berbeda untuk tiap bahasa.
cotoh : kata ‘yo’ dikodekan dengan kode fonem dengan kode sebagai berikut :
‘y’ dikodekan ‘j 25 100 50 100’
‘o’ dikodekan ‘Q 25 100 50 100’
Pada contoh diatas memiliki arti bahwa pada huruf ‘y’ dan ‘o’ pada durasi 25 ms, pitchnya senilai 100 hz.Jika kode tersebut kita masukan ke dalam engine MBROLA maka suara yang akan dihasilkan masih berupa suara yang datar tanpa intonasi karena memiliki durasi dan pitch yang sama.
Fonem ke ucapan
MBROLA adalah Speech syntheizer yang menggunakan teknik penggabungan segmen bunyi berdasarkan pangkalan diphone (diphone concatenation), merupakan salah satu converter yang dibuat oleh TCTS Lab (TTS Research Team, Belgia), yang dapat beroprasi pada system operasi windows maupun yang lain, dan dapat menggunakan bahasa pemograman delphi, java, visual basic dan bahasa pemograman yang lain. Software ini digunakan untuk mengubah kode kode fonem menjadi suara/ ucapan.
Engine MBROLA hanya dapat membaca kode-kode fonem dalam file berextension ‘.pho’. Diphone database harus kita masukan untuk mendefinisikan jenis suara berprosodi seperti apa yang akan dikeluarkan. Diphone adalah gabungan dari dua buah fonem, dan menggunakan teknik diphone concatenation yang bekerja dengan menggabungkan segmen-segmen bunyi yang telah direkam sebelumnya.dan setipa segmen merupakan gabungan dari dua buah fonem (diphone). Teknik ini digunakan agar dapat menghasilkan tingkat kenaturalan yang tinggi. Prosodi dataset, seperti yang kita ketahui bahwa posodi adalah intonasi, dalam hal ini adalah intonasi suara yang dikeluarkan synthesizer MBROLA sesuai dengan pitch dan durasi yang tercantum pada kode fonemnya. Sedangakan model prosodi dataset adalah suatu model perbaikan ucapan yang dilakukan pada sistem texs to speech dengan penambahan kosakata serta memasukkan parameter dari durasi dan pitch yang diubah-ubah berdasarkan langkah-langkah percobaan, sehingga menghasilkan sistem text to spech yang memiliki intonasi pada kata yang diucapkan.
Pada bagian teks ke fonem, teks dijabarkan dalam bentuk kode fonem yang kemudian kode-kode fonem itu akan dikonversikan menjadi kode sampa yang akan dimengerti oleh synthesizar MBROLA. Dalam synthesizer MBROLA yang akan terjadi adalah, kode-kode sampa yang telah berisikan pitch dan durasi akan disuarakan, pastinya sesuai dengan bahasa yang dimengerti synthesizer MBROLA. Oleh sebab itu dalam pembutan sistem text to speech ini, sistem harus mengkonversi teks menjadi bahasa yang dikenali oleh MBROLA, sehingga dapat dibaca.lihat contoh berikut:
Pengucapan ‘ratri sedang kerja’
Download aplikasi mengenai Mbrola klik disini
Diposkan oleh
EKO SUHARTONO
On
Thursday, April 7, 2011
Label:
Mbrola
Subscribe to:
Post Comments (Atom)
Labels
- Mbrola (2)
- Metode Pengolahan Suara (5)
- Open Source (1)
- Out Of Topic (5)
- Progress Report (1)
- Regular Expression (3)
- Software (2)
- Tips Java (2)
Popular Posts
-
Linear predictive coding ( LPC ) adalah alat yang digunakan terutama dalam pemrosesan sinyal audio dan pengolahan pidato untuk mewa...
-
Pembuatan Aplikasi Pengingat Waktu Sholat Dengan Menggunakan Diphone Concatination Alvian Nashuki (08650118), Eko Suhartono (08650012) Mahas...
-
BASIC HANDLING OF STRINGS The Java language includes a primitive data type char, which holds a 16-bit unicode character. You can hold multi...
-
Konversi dari teks ke ucapan terdiri dari dua hal, yaitu : 1. mengubah dari teks ke fonem (text to fonem) 2. mengubah dari fonem ke ucapan (...
-
Dalam mempelajari Java, kadang hal-hal kecil bisa sangat merepotkan kita. Apalagi bagi kita yang baru memulai untuk mempelajarinya, bahkan e...
-
Warped prediksi linear coding ( LPC melengkung atau WLPC ) adalah varian dari linear predictive coding di mana representasi spektra...
-
Penggunaan TTS di java bisa menggunakan FreeTTS yang disediakan open source yang dapat diperoleh di http://freetts.sourceforge.net/. Library...
-
Terkadang dalam pembuatan film dibutuhkan pengolahan suara terlebih dahulu sebelum suara tersebut digabungkan dengan gambar dalam proses pen...
-
Saat ini handphone sudah bukan barang mewah lagi, tapi sudah menjadi kebutuhan pokok. Semua (tepatnya sebagian besar) orang mempunyai handph...
-
Introduction This is a tool to parse and analyze the structure of a regular expression. Currently it implements the Java, JavaScript and mos...
Recent Posts
Product Category
- Mbrola (2)
- Metode Pengolahan Suara (5)
- Open Source (1)
- Out Of Topic (5)
- Progress Report (1)
- Regular Expression (3)
- Software (2)
- Tips Java (2)

1 komentar:
mantab.. keep writing bro :)
Post a Comment
Please give your comments