Konuşma işleme, konuşma sinyallerinin ve sinyallerin işlenme yöntemlerinin incelenmesidir. Sinyaller genellikle dijital bir temsilde işlenir, bu nedenle konuşma işleme, konuşma sinyallerine uygulanan dijital sinyal işlemenin özel bir durumu olarak kabul edilebilir. Konuşma işlemenin yönleri, konuşma sinyallerinin alınmasını, işlenmesini, depolanmasını, transferini ve çıkışını içerir. Giriş konuşma tanıma olarak adlandırılır ve çıkış konuşma sentezi olarak adlandırılır.
Tarihi
Konuşma işleme ve tanıma konusundaki ilk girişimler, öncelikle ünlüler gibi bir avuç basit fonetik öğeyi anlamaya odaklanmıştı. 1952’de Bell Laboratuarlarında üç araştırmacı, Stephen. Balashek, R. Biddulph ve K. H. Davis, tek bir konuşmacı tarafından konuşulan rakamları tanıyabilen bir sistem geliştirdiler.[1] Spektrum analizi kullanılarak konuşma tanıma alanında öncü çalışmalar 1940’larda rapor edilmiştir.[2]
Bir konuşma işleme algoritması olan doğrusal tahmini kodlama (LPC), ilk olarak 1966’da Nagoya Üniversitesi’nden Fumitada Itakura ve Nippon Telgraf ve Telefon’dan (NTT) Shuzo Saito tarafından önerildi.[3] LPC teknolojisindeki diğer gelişmeler, 1970’lerde Bell Laboratuarlarında Bishnu S. Atal ve Manfred R. Schroeder tarafından yapılmıştır.[3] LPC, IP üzerinden ses (VoIP) teknolojisinin[3] yanı sıra 1978’deki Speak & Spell oyuncaklarında kullanılan Texas Instruments LPC Konuşma Yongaları gibi konuşma sentezleyici yongalarının temelini oluşturuyordu.[4]
Piyasada bulunan ilk konuşma tanıma ürünlerinden biri, 1990’da piyasaya sürülen Dragon Dictate idi. 1992’de Lawrence Rabiner ve Bell Labs’taki diğerleri tarafından geliştirilen teknoloji, AT&T tarafından Ses Tanıma Çağrı İşleme hizmetinde insan operatör olmadan aramaları yönlendirmek için kullanıldı. Bu noktada, bu sistemlerin kelime dağarcığı ortalama insan kelime dağarcığından daha genişti.[5]
2000’lerin başında baskın konuşma işleme stratejisi, Gizli Markov Modellerinden daha modern sinir ağlarına ve derin öğrenmeye doğru kaymaya başladı.
Teknikler
Dinamik zaman atlama
Dinamik zaman atlama (DTW), hızı değişebilen iki zamansal dizi arasındaki benzerliği ölçmek için kullanılan bir algoritmadır. Genel olarak DTW, belirli kısıtlamalar ve kurallarla verilen iki dizi (örneğin zaman serisi) arasındaki optimal eşleşmeyi hesaplayan bir yöntemdir. Optimal eşleşme, tüm kısıtlamaları ve kuralları karşılayan ve minimum maliyeti olan eşleşme ile gösterilir; burada maliyet, eşleşen her bir endeks çifti için değerleri arasındaki mutlak farkların toplamı olarak hesaplanır.
Gizli Markov Modelleri
Gizli bir Markov modeli, en basit dinamik Bayes ağı olarak temsil edilebilir. Algoritmanın amacı, bir gözlem listesi y(t) verildiğinde gizli bir x(t) değişkenini tahmin etmektir. Markov özelliğini uygulayarak, gizli değişken x(t)’nin t zamanındaki koşullu olasılık dağılımı, her zaman x gizli değişkeninin değerleri verildiğinde, yalnızca x(t − 1) gizli değişkeninin değerine bağlıdır. Benzer şekilde, gözlemlenen değişken y(t)’nin değeri yalnızca gizli değişken x(t)’nin değerine bağlıdır (her ikisi de t zamanında).
Yapay Sinir Ağları
Bir yapay sinir ağı (YSA), biyolojik bir beyindeki nöronları gevşek bir şekilde modelleyen yapay nöronlar adı verilen bağlı birimler veya düğümler koleksiyonuna dayanır. Biyolojik beyindeki sinapslar gibi her bağlantı, bir yapay nörondan diğerine bir sinyal iletebilir. Bir sinyali alan yapay bir nöron, onu işleyebilir ve ardından ona bağlı ek yapay nöronlara sinyal gönderebilir. Yaygın YSA uygulamalarında, yapay nöronlar arasındaki bağlantıdaki sinyal gerçek bir sayıdır ve her yapay nöronun çıktısı, girdilerinin toplamının doğrusal olmayan bir fonksiyonu tarafından hesaplanır.
Faza Duyarlı İşleme
Fazın genellikle rasgele tekdüze değişken olduğu ve bu nedenle işe yaramaz olduğu varsayılır. (Orijinal metinden hepsi tercüme edilmedi)
Elde edilen faz tahminleri, gürültü azaltma için kullanılabilir: anlık fazın [9] ve türevlerinin zamana (anlık frekans) ve frekansa (grup gecikmesi) göre geçici olarak yumuşatılması,[10] frekans boyunca fazın yumuşatılması.[10] Birleştirilmiş genlik ve faz tahmincileri, von Mises’in faz dağılımı varsayımına dayanarak konuşmayı daha doğru bir şekilde kurtarabilir.[8]
Uygulamalar
İnteraktif Ses Sistemleri
Sanal Asistanlar
Ses Tanıma
Duygu Tanıma
Çağrı Merkezi Otomasyonu
Robotik
Kaynak: https://en.wikipedia.org/wiki/Speech_processing
Wiki References
1)Juang, B.-H.; Rabiner, L.R. (2006), “Speech Recognition, Automatic: History”, Encyclopedia of Language & Linguistics, Elsevier, pp. 806–819, doi:10.1016/b0-08-044854-2/00906-8, ISBN 9780080448541
2)Myasnikov, L. L.; Myasnikova, Ye. N. (1970). Automatic recognition of sound pattern (in Russian). Leningrad: Energiya.
3)Gray, Robert M. (2010). “A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol” (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
4)”VC&G – VC&G Interview: 30 Years Later, Richard Wiggins Talks Speak & Spell Development”.
5)Huang, Xuedong; Baker, James; Reddy, Raj (2014-01-01). “A historical perspective of speech recognition”. Communications of the ACM. 57 (1): 94–103. doi:10.1145/2500887. ISSN 0001-0782.
6)Mowlaee, Pejman; Kulmer, Josef (August 2015). “Phase Estimation in Single-Channel Speech Enhancement: Limits-Potential”. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 23 (8): 1283–1294. doi:10.1109/TASLP.2015.2430820. ISSN 2329-9290. Retrieved 2017-12-03.
7)Mowlaee, Pejman; Kulmer, Josef; Stahl, Johannes; Mayer, Florian (2017). Single channel phase-aware signal processing in speech communication: theory and practice. Chichester: Wiley. ISBN 978-1-119-23882-9.
8)Kulmer, Josef; Mowlaee, Pejman (April 2015). “Harmonic phase estimation in single-channel speech enhancement using von Mises distribution and prior SNR”. Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE. pp. 5063–5067.
9)Kulmer, Josef; Mowlaee, Pejman (May 2015). “Phase Estimation in Single Channel Speech Enhancement Using Phase Decomposition”. IEEE Signal Processing Letters. 22 (5): 598–602. doi:10.1109/LSP.2014.2365040. ISSN 1070-9908. Retrieved 2017-12-03.
10)Mowlaee, Pejman; Saeidi, Rahim; Stylianou, Yannis (July 2016). “Advances in phase-aware signal processing in speech communication”. Speech Communication. 81: 1–29. doi:10.1016/j.specom.2016.04.002. ISSN 0167-6393. Retrieved 2017-12-03.
