Rabu, 02 Februari 2011

SPEECH RECOGNITION DENGAN ALGORITMA FFT DAN DIVIDE AND CONQUER

PENCOCOKAN POLA SUARA (SPEECH RECOGNITION)
DENGAN ALGORITMA FFT DAN DIVIDE AND CONQUER

Voice recognition dibagi menjadi dua jenis, yaitu speech recognition dan speaker recognition. Speech recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan. Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang berbicara dinamakan speaker recognition. Pada makalah ini hanya akan dibahas mengenai speech recognition karena kompleksitas algoritma yang diimplementasikan lebih sederhana daripada speaker recognition. Algoritma yang akan diimplementasikan pada bahasan mengenai proses speech recognition ini adalah algoritma FFT (Fast fourier transform), yaitu algoritma yang cukup efisien dalam pemrosesan sinyal digital (dalam hal ini suara) dalam bentuk diskrit. Algoritma ini mengimplementasikan algoritma Divide and Conquer untuk pemrosesannya. Konsep utama algoritma ini adalah mengubah sinyal suara yang berbasis waktu menjadi berbasis frekuensi dengan membagi masalah menjadi beberapa upa masalah yang lebih kecil. Kemudian, setiap upa masalah diselesaikan dengan cara melakukan pencocokan pola digital suara.


Skema Utama Speech Recognition

Terdapat 4 langkah utama dalam sistem pengenalan suara:
[I] Penerimaan data input
[2] Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
[3] Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template
[4] Validasi identitas pengguna.



Proses Pencocokan Pola Suara

Gambar2. Spektrum Suara

Secara umum, speech recognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasit proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan template suara pada database sistem. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan secara paralel.
Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
f I] Transformasi gelombang diskrit menjadi array data [2] Untuk masing-masing elemen pada aiTay data, hitung "ketinggian" gelombang (frekuensi).
Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.
Ketika mengkonversi gelombang suara ke dalam bentuk diskrit, gelombang diperlebar dengan cara memperinci berdasarkan waktu. Hal ini dilakukan agar proses algontma seianjutnya (pencocokan) lebih mudah diiakukan. Namun, efek buruknya ialah array of array data yang terbentuk akan lebih banyak.

Contoh Hasit Konversi Sinyal Diskrit


Dari tiap elemen array data tersebut, dikonversi ke dalam bentuk bilangan biner. Data biner tersebut yang nantinya akan dibandingkan dengan template data suara.
Proses divide and conquer:
[1] Pilih sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan ini berfungsi untuk menghitung jumlah elemen transformasi FFT.

[2] Bagi dua data diskrit secara (dengan menerapkan algoritma divide and conquer) menjadi data diskrit yang lebih kecii berukuran N = N,.N2.

[3] Upa masalah (objek data) dimasukkan ke dalam table (sebagai elemen tabel).

[4] Untuk setiap eiemen data, dicocokkan dengan data pada template (pada data template juga dilakukan pemrosesan digitaiisasi menjadi data diskrit, dengan cara yang sama dengan proses digitaiisasi data masukan bam yang ingin dicocokkan).

[5] Setiap upa masalah disatukan kembali dan dianalisis secara keseluruhan, kecocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai dengan kata yang tersedia pada template data.

[6] Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini.


APLIKASI

Terdapat beberapa pilihan yang dapat dilakukan selanjutnya, sesuai dengan aplikasi yang diimplcmentasikan, di antaranya ialah voice command. (Computer akan melakukan perintah sesuai dengan masukan pengguna. Contohnya pada aplikasi Microsoft Voice, ketika pengguna mengatakan "Start Notepad" dengan intonasi dan tata bahasa yang sesuai, komputer akan segera melakukan proses seperti yang telah dijelaskan pada bab sebelumnya. Jika sesuai dengan daftar perintah yang lersedia, aplikasi akan memastikan kata dengan menampilkan tulisan "Do you asked me to "Start Notepad1?". Untuk memverifikasinya, pengguna cukup mengatakan "Do it". Dan lagi-lagi proses penerimaap suara dilakukan seperti yang telah dibahas pada bab sebelumnya.
Aplikasi lainnya adalah Microsoft Dictation yang merupakan aplikasi speech-to-text, yaitu menuiiskan apa yang diucapkan oleh pengguna, Jika dikembangkan lebih lanjut, software ini akan sangat berguna bagt orang-orang yang mempunyai keterbatasan fisik atau gerak.


Microsoft Dictation


Microsoft Voice

KESIMPULAN


Speech recognition merupakan sa\ah satu jenis biometric recognition, yaitu proses komputer mengenali apa yang diucapkan seseorang berdasarkan intonasi suara yang dikonversi ke dalam bentuk digital print. Pengenalan pola suara adalah salah satu aplikasi yang berkembang saat ini. Sistem ini mengijinkan kita untuk berkomunikasi antara manusia dengan memasukkan data ke komputer. Salah satu fungsinya iaiah untuk meningkatakan efisiensi industri manufaktur, mengontrol mesin dengan berbicara pada mesin itu. Algoritma yang diimplementasikan untuk masalah pengenalan suara ini adalah aigoritma divide and conquer. Proses awalnya ialah mengkonversi data spektrum suara ke dalam bentuk digital dan mengubah dalam bentuk diskrit. Dari bentuk diskrit itulah yang kemudian tnengaplikasikan aigoritma divide and conquer untuk mengoptimalkan waktu pencocokan
Contoh aplikasi yang menerapkan speech recognition antaralain Microsoft voice dan microsoft Dictation.



Daftar Pustaka :

www.microsoft.com
www.docstoc.com
www.informatika.org

NAMA : VIKI MEI LESTARI
NIM : 1000631039
KELAS : M.I B

Tidak ada komentar:

Posting Komentar

Catatan: Hanya anggota dari blog ini yang dapat mengirim komentar.