Pitch detection algorithm - Signal Processing

Pitch detection algorithm




Sebuah algoritma deteksi pitch (PDA) adalah suatu algoritma yang dirancang untuk memperkirakan pitch atau frekuensi dasar suatu quasiperiodic atau secara virtual berkala sinyal, biasanya sebuahrekaman digital dari pidato atau catatan musik atau nada. Hal ini dapat dilakukan pada domain waktu atau domain frekuensi .
PDA yang digunakan dalam berbagai konteks (misalnya fonetik , temu kembali informasi musik , pidato pengkodean , sistem pertunjukan musik ) dan jadi mungkin ada tuntutan yang berbeda ditempatkan pada algoritma. Ada belum ada yang ideal tunggal PDA, sehingga berbagai algoritma ada, umumnya jatuh luas ke dalam kelas diberikan di bawah ini [ 1 ] .


Dalam domain waktu, biasanya PDA perkiraan periode sinyal quasiperiodic, kemudian membalikkan nilai untuk memberikan frekuensi.
Salah satu pendekatan sederhana adalah dengan mengukur jarak antara zero crossing titik sinyal (yaitu Zero Crossing Rate ). Namun, ini tidak bekerja dengan baik dengan kompleks bentuk gelombang yang terdiri dari beberapa gelombang sinus dengan periode yang berbeda. Namun demikian, ada kasus di mana zero-crossing bisa menjadi ukuran yang berguna, misalnya dalam beberapa aplikasi pidato di mana satu sumber diasumsikan. kesederhanaan algoritma membuatnya "murah" untuk melaksanakan.
Pendekatan yang lebih canggih membandingkan segmen dari sinyal dengan segmen lain diimbangi dengan masa percobaan untuk menemukan kecocokan. AMDF ( fungsi rata-rata perbedaan besar ), ASMDF (Rata-rata Mean Squared Selisih Fungsi), dan lain yang sejenis autokorelasi algoritma bekerja dengan cara ini. Algoritma ini dapat memberikan hasil yang cukup akurat untuk sinyal periodik yang sangat. Namun, mereka memiliki masalah deteksi palsu (sering " error oktaf "), kadang-kadang dapat mengatasi buruk dengan sinyal bising (tergantung pada implementasi) dan - dalam implementasi dasar mereka - tidak berhubungan dengan baik dengan polifonik suara (yang melibatkan beberapa catatan musik yang berbeda pitches).
-Domain pitch detektor waktu algoritma kini cenderung untuk membangun metode dasar tersebut di atas, dengan tambahan untuk membawa perbaikan kinerja lebih sesuai dengan penilaian manusia pitch. Sebagai contoh, algoritma Lembaga ini tercatat [ 2 ] dan algoritma MPM [ 3 ] keduanya didasarkan pada autokorelasi.

Dalam domain frekuensi, deteksi polifonik adalah mungkin, biasanya memanfaatkan Fast Fourier Transform (FFT) untuk mengubah sinyal ke spektrum frekuensi . Hal ini memerlukan daya proses yang lebih dengan meningkatnya akurasi yang diinginkan, meskipun dikenal efisiensi baik dari FFT algoritma efisien membuatnya sesuai untuk berbagai tujuan.
algoritma frekuensi domain Populer meliputi: produk spektrum harmonik [ 4 [ 5 ] ; cepstral analisis [ 6 ] dan maksimum likelihood yang mencoba untuk mencocokkan karakteristik frekuensi domain ke didefinisikan frekuensi peta-pra (berguna untuk mendeteksi pitch tuning instrumen tetap); dan deteksi puncak karena seri harmonik [ 7 ] .
Untuk memperbaiki estimasi lapangan berasal dari spektrum Fourier diskrit, teknik seperti pergantian spektral (fase based) atau interpolasi Grandke (besar based) dapat digunakan untuk melampaui presisi yang disediakan oleh analisis FFT.

Frekuensi dasar pidato dapat bervariasi dari 40 Hz selama bernada suara laki-rendah untuk 600 Hz untuk anak-anak atau wanita bernada tinggi suara [ 8 ] .
metode Otokorelasi membutuhkan setidaknya dua periode pitch untuk mendeteksi pitch. Untuk mendeteksi frekuensi dasar 40 Hz ini berarti bahwa paling tidak 50 milidetik (ms) dari sinyal suara harus dianalisa. Namun, selama 50 ms, pidato dengan frekuensi dasar yang lebih tinggi belum tentu memiliki frekuensi dasar yang sama di seluruh jendela [ 8 ] .

  1. ^ D. Gerhard. Pitch Ekstraksi dan Frekuensi Fundamental: Sejarah dan Lancar Teknik , laporan teknis, Departemen Ilmu Komputer, Universitas Regina, 2003.
  2. ^ A. de Cheveigné dan H. Kawahara. Lembaga ini tercatat, seorang estimator frekuensi dasar untuk pidato dan musik. The Journal of Acoustical Society of America 111:1917,, 2002. DOI :10.1121/1.1458024
  3. ^ P. McLeod dan G. Wyvill. Sebuah cara cerdas untuk menemukan lapangan. Dalam Prosiding International Computer Music Conference (ICMC'05), 2005.
  4. Pitch Detection Algorithms , sumber online dari Connexions
  5. ^ A. Michael Noll, "Pitch Penentuan Pidato Manusia oleh Spectrum Produk Harmonic, Spektrum Sum Harmonic dan Perkiraan Kemungkinan Maksimum," Proceedings of the Simposium Pengolahan Komputer di Komunikasi, Vol. XIX, Tekan Polytechnic: Brooklyn, New York, (1970), hal 779-797.
  6. ^ A. Michael Noll, "cepstrum Pitch Penentuan," Journal of Acoustical Society of America, Vol. 41, No 2, (Februari 1967), hal 293-309.
  7. ^ Mitre, Adriano; Queiroz, Marcelo; Faria, Régis. akurat dan Efisien Penentuan Frekuensi Fundamental dari Parsial Estimasi tepat. Prosiding Konferensi Brasil AES 4. 113-118, 2006.
  8. b Huang, Xuedong; Acero Alex, Hsiao-Wuen Hon (dalam bahasa Inggris). Pengolahan Bahasa Spoken . Prentice Hall PTR. p. 325. ISBN  0-13-022616-5 .
  9. 7. MA Ben Messaoud, A. Bouzid, et N. Ellouze, Sebuah metode baru untuk estimasi pitch dan menyuarakan keputusan berdasarkan skala produk analisis multi spektral. Publié dans Signal Processing: An International Journal, Vol. 3 (5), Septembre 2009. [1]
  10. 8. MA Ben Messaoud, A. Bouzid, et N. Ellouze, spektral skala Multi Produk Analisis Pitch Estimasi dari Noisy Pidato Sinyal. Revisi yang dipilih kertas NOLISP'09, LNAI 5933, J. Sole-Casals et V. Zaiats (Eds.), Springer-Verlag Berlin Heidelberg, hal 95-102, Février 2010. [2]

0 komentar:

Post a Comment

Please give your comments