Sunday, October 14, 2012

TEKNOLOGI SPEECH RECOGNITION

Dalam ilmu komputer , speech recognition (SR) adalah terjemahan dari kata-kata yang diucapkan menjadi teks. Hal ini juga dikenal sebagai "pengenalan suara otomatis", "ASR", "komputer pengenalan suara", "pidato ke teks", atau hanya "STT". Beberapa sistem SR menggunakan "pelatihan" di mana seorang pembicara individu membaca bagian teks ke dalam sistem SR. Sistem ini menganalisis suara tertentu orang tersebut dan menggunakannya untuk fine tune pengakuan pidato orang tersebut, sehingga transkripsi lebih akurat. Sistem yang tidak menggunakan pelatihan yang disebut "Speaker Independen" sistem. Sistem yang menggunakan pelatihan yang disebut "Speaker Dependent" sistem.

Pidato pengakuan aplikasi termasuk antarmuka pengguna suara seperti panggilan suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin membuat collect call"), domotic kontrol alat, pencarian (misalnya, menemukan podcast di mana tertentu kata yang terucap), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pidato-untuk-pengolahan teks (misalnya, pengolah kata atau email ), dan pesawat (biasanya disebut Masukan Suara Langsung ).

Pengakuan jangka suara mengacu menemukan identitas "yang" berbicara, bukan apa yang mereka katakan. Menyadari pembicara dapat menyederhanakan tugas menerjemahkan pidato dalam sistem yang telah dilatih khusus suara seseorang atau dapat digunakan untuk otentikasi atau memverifikasi identitas pembicara sebagai bagian dari proses keamanan.

Program saat ini terbagi dalam dua kategori:

  • Small-vocabulary/many-users

Sistem ini sangat ideal untuk menjawab telepon otomatis. Para pengguna dapat berbicara dengan banyak variasi dalam pola aksen dan pidato, dan sistem masih akan memahami mereka sebagian besar waktu. Namun, penggunaan terbatas pada sejumlah kecil perintah yang telah ditentukan dan masukan, seperti pilihan menu dasar atau angka.

  • Large-vocabulary/limited-users

Sistem ini bekerja terbaik dalam lingkungan bisnis di mana sejumlah kecil pengguna akan bekerja dengan program ini. Sementara sistem ini bekerja dengan tingkat akurasi yang baik (85 persen atau lebih tinggi dengan pengguna ahli) dan memiliki kosakata dalam puluhan ribu, Anda harus melatih mereka untuk bekerja terbaik dengan sejumlah kecil pengguna utama. Tingkat akurasi akan jatuh drastis dengan pengguna lain.

Pidato sistem pengenalan dibuat lebih dari 10 tahun yang lalu juga menghadapi pilihan antara pidato diskrit dan kontinu. Hal ini jauh lebih mudah untuk program untuk memahami kata-kata ketika kita berbicara secara terpisah, dengan jeda yang jelas antara masing-masing. Namun, sebagian besar pengguna lebih memilih untuk berbicara dengan kecepatan normal percakapan. Hampir semua sistem modern mampu memahami pembicaraan terus menerus.

No comments:

Post a Comment