Otomatik konuşma tanımanın modern yöntemleri. Açık kaynaklı konuşma tanıma sistemlerinin karşılaştırmalı analizi

15 Temmuz 2009, 22:16

Konuşma tanıma. Bölüm 1. Konuşma tanıma sistemlerinin sınıflandırılması

Yapay zeka

Epigraf

Rusya'da konuşma tanıma sistemleri alanı gerçekten de oldukça az gelişmiştir. Google uzun zamandır telefon konuşmalarını kaydetmek ve tanımak için bir sistem duyurdu... Ne yazık ki, Rusça'da benzer ölçek ve tanıma kalitesine sahip sistemleri henüz duymadım.

Ama yurtdışındaki herkesin her şeyi çok önceden keşfettiğini ve bizim onlara asla yetişemeyeceğimizi düşünmeyin. Bu dizi için materyal ararken, yabancı literatür ve tezlerden oluşan bir bulutun içinden geçmek zorunda kaldım. Üstelik bu makaleler ve tezler harika Amerikalı bilim adamlarına aitti. Huang Xuedong; Hisayoshi Kojima; Dong Suk Yuk vb. Amerikan biliminin bu dalını kimin desteklediği açıktır? ;0)

Rusya'da yerli konuşma tanıma sistemlerini ticari seviyeye getirmeyi başaran tek bir akıllı şirket tanıyorum: Konuşma Teknolojileri Merkezi. Ancak belki de bu makale dizisinden sonra birisinin aklına bu tür sistemleri geliştirmeye başlamanın mümkün ve gerekli olduğu gelecektir. Üstelik algoritmalar ve mat açısından. Pratik olarak aparatın gerisinde kalmadık.

Konuşma tanıma sistemlerinin sınıflandırılması

Günümüzde “konuşma tanıma” kavramı, tüm bilimsel ve mühendislik faaliyet alanını gizlemektedir. Genel olarak, her konuşma tanıma görevi, giriş ses akışından insan konuşmasını ayıklamak, sınıflandırmak ve buna uygun şekilde yanıt vermekten ibarettir. İnfaz da olabilir belirli eylem bir kişinin komutuyla ve çok çeşitli telefon görüşmelerinden belirli bir işaretleyici kelimenin seçilmesi ve sesli metin girişi için sistemler.

Konuşma tanıma sistemlerinin sınıflandırılmasına ilişkin işaretler

Bu tür sistemlerin her birinin çözmek için tasarlandığı belirli görevleri ve sorunları çözmek için kullanılan bir dizi yaklaşımı vardır. Tanıma sistemlerinin sınıflandırılabileceği ana özellikleri ele alalım insan konuşması ve bu belirtinin sistemin çalışmasını nasıl etkileyebileceği.

Sözlük boyutu. Açıkçası, tanıma sistemine yerleşik sözlüğün boyutu ne kadar büyük olursa, sistem tarafından sözcükleri tanırken hata oranı da o kadar büyük olur. Örneğin 10 haneli bir sözlük neredeyse hatasız olarak tanınabilirken, 100.000 kelimelik bir sözlüğü tanırken hata oranı %45'e ulaşabilmektedir. Öte yandan, tanınma bile büyük sözlük Bu sözlükteki kelimelerin birbirine çok benzer olması durumunda çok sayıda tanıma hatası üretilebilir.
Sistemin konuşmacıya bağımlılığı veya konuşmacıdan bağımsızlığı. Tanım gereği, hoparlöre bağımlı bir sistem tek bir kullanıcı tarafından kullanılmak üzere tasarlanırken, hoparlörden bağımsız bir sistem herhangi bir hoparlörle çalışacak şekilde tasarlanmıştır. Konuşmacı bağımsızlığı, ulaşılması zor bir hedeftir, çünkü sistem eğitilirken, örneğine göre eğitilen konuşmacının parametrelerine göre ayarlanır. Bu tür sistemlerin tanıma hata oranı genellikle konuşmacıya bağımlı sistemlerin hata oranından 3-5 kat daha fazladır.
Ayrı veya sürekli konuşma. Bir konuşmada her kelime birbirinden bir sessizlik bölümüyle ayrılmışsa bu konuşmanın ayrı olduğu söylenir. Sürekli konuşma doğal olarak söylenen cümlelerdir. Tek tek kelimelerin sınırlarının açıkça tanımlanmaması ve konuşulan seslerin bulanıklaşması nedeniyle telaffuzlarının büyük ölçüde bozulması nedeniyle sürekli konuşmanın tanınması çok daha zordur.
Amaç. Sistemin amacı, konuşulan konuşma tanımanın gerçekleşeceği gerekli soyutlama düzeyini belirler. Bir komut sisteminde (örneğin, sesle arama) cep telefonu) büyük olasılıkla bir kelimenin veya ifadenin tanınması, tek bir konuşma öğesinin tanınması olarak gerçekleşecektir. Bir metin dikte sistemi daha fazla tanıma doğruluğu gerektirecektir ve büyük olasılıkla, konuşulan ifadeyi yorumlarken yalnızca konuşulanlara bağlı kalmayacaktır. şimdiki an, ama aynı zamanda bunun daha önce söylenenlerle nasıl bağlantılı olduğuyla da ilgili. Ayrıca sistemin yerleşik bir sete sahip olması gerekir dilbilgisi kuralları belirgin ve tanınabilir metnin karşılaması gerekenler. Bu kurallar ne kadar katı olursa, bir tanıma sisteminin uygulanması o kadar kolay olur ve tanıyabileceği cümle kümesi de o kadar sınırlı olur.

Konuşma tanıma yöntemleri arasındaki farklar

Bir konuşma tanıma sistemi oluştururken, görev için hangi düzeyde soyutlamanın yeterli olduğunu, tanıma için ses dalgasının hangi parametrelerinin kullanılacağını ve bu parametreleri tanıma yöntemlerini seçmeniz gerekir. Çeşitli konuşma tanıma sistemlerinin yapısı ve çalışma sürecindeki temel farklılıkları ele alalım.

Yapısal birimin türüne göre. Konuşmayı analiz ederken, temel birim Fonemler, di- veya trifonlar ve alofonlar gibi tek tek kelimeler veya konuşulan kelimelerin parçaları seçilebilir. Hangi yapısal parçanın seçildiğine bağlı olarak tanınan öğeler sözlüğünün yapısı, çok yönlülüğü ve karmaşıklığı değişir.
Özellikleri tanımlayarak. Ses dalgası basıncı okumalarının sırası, ses tanıma sistemleri için aşırı derecede gereksizdir ve tanıma için gerekli olmayan, hatta zararlı birçok gereksiz bilgi içerir. Bu nedenle, bir konuşma sinyalini temsil etmek için, bu sinyali tanıma amacıyla yeterince temsil eden bazı parametrelerin seçilmesi gerekir.
İşleyiş mekanizmasına göre. Modern sistemlerde yaygın olarak kullanılırlar farklı yaklaşımlar Tanıma sistemlerinin işleyiş mekanizması. Olasılıksal ağ yaklaşımı, konuşma sinyalinin belirli parçalara (çerçeveler veya fonetik özelliklere göre) bölünmesi ve ardından tanınan sözlüğün hangi unsuruyla ilgili olduğuna dair olasılıksal bir değerlendirme yapılmasından oluşur. bu kısım ve/veya giriş sinyalinin tamamı. Çözüm Odaklı Yaklaşım ters problem ses sentezi, ses yolu artikülatörlerinin hareketinin doğasının giriş sinyalinden belirlenmesi ve özel bir sözlük kullanılarak telaffuz edilen fonemlerin belirlenmesinden oluşur.

Güncelleme:“Yapay Zeka”ya taşındı. İlgi olursa orada yayınlamaya devam edeceğim.

Ticari programlar Konuşma tanıma doksanlı yılların başında ortaya çıktı. Genellikle el yaralanması nedeniyle büyük miktarda metin yazamayan kişiler tarafından kullanılırlar. Bu programlar (örneğin Dragon NaturallySpeaking, VoiceNavigator) kullanıcının sesini metne çevirerek ellerini rahatlatır. Bu tür programların çeviri güvenilirliği çok yüksek değildir ancak yıllar geçtikçe giderek iyileşmektedir.

Artan bilgi işlem gücü mobil cihazlar konuşma tanıma işlevleriyle onlar için programlar oluşturmayı mümkün kıldı. Bu tür programlar arasında birçok uygulamayla sesinizi kullanarak çalışmanıza olanak tanıyan Microsoft Voice Command uygulamasını belirtmekte fayda var. Örneğin oynatıcınızda müzik çalabilir veya yeni bir belge oluşturabilirsiniz.

İnsan konuşmasını otomatik olarak sentezleyen ve tanıyan akıllı konuşma çözümleri, etkileşimli ses sistemlerinin (IVR) geliştirilmesinde bir sonraki adımdır. İnteraktif telefon uygulamasının kullanımı şu anda bir moda trendi değil, hayati bir zorunluluktur. Çağrı merkezi operatörlerinin ve sekreterlerin iş yükünün azaltılması, işçilik maliyetlerinin azaltılması ve hizmet sistemlerinin verimliliğinin artırılması, bu tür çözümlerin uygulanabilirliğini kanıtlayan faydalardan sadece birkaçıdır.

Ancak ilerleme durmuyor ve son zamanlarda otomatik konuşma tanıma ve sentezleme sistemleri interaktif telefon uygulamalarında giderek daha fazla kullanılmaya başlandı. Bu durumda, sesli portalla iletişim daha doğal hale gelir, çünkü içindeki seçim yalnızca tonlu arama kullanılarak değil, aynı zamanda sesli komutlar kullanılarak da yapılabilir. Aynı zamanda tanıma sistemleri konuşmacılardan bağımsızdır, yani herhangi bir kişinin sesini tanır.

Konuşma tanıma teknolojilerindeki bir sonraki adım, Sessiz Konuşma Arayüzlerinin (SSI) geliştirilmesi olarak düşünülebilir. Bu konuşma işleme sistemleri, konuşma sinyallerinin eklemlenmenin erken bir aşamasında alınmasına ve işlenmesine dayanmaktadır. Bu aşama Konuşma tanımanın gelişimi, modern tanıma sistemlerinin iki önemli eksikliğinden kaynaklanmaktadır: gürültüye karşı aşırı hassasiyet ve tanıma sistemine erişirken net ve farklı konuşma ihtiyacı. SSI yaklaşımı, işlenen akustik sinyallerin tamamlayıcısı olarak gürültüden etkilenmeyen yeni sensörlerin kullanılmasıdır.

Günümüzde konuşma tanıma sistemlerinin beş ana kullanım alanı bulunmaktadır:

Ses kontrolü, sesli komutları kullanarak bir cihazın çalışmasını etkileşime sokmanın ve kontrol etmenin bir yoludur. Sesli kontrol sistemleri metin girmek için etkisizdir ancak aşağıdaki gibi komutları girmek için uygundur:

Sistem türleri

Günümüzde “istemci tabanlı” ve “istemci-sunucu” prensibiyle çalışan olmak üzere iki tür konuşma tanıma sistemi bulunmaktadır. İstemci-sunucu teknolojisini kullanırken, kullanıcının cihazına bir konuşma komutu girilir ve İnternet üzerinden uzak bir sunucuya iletilir, burada işlenir ve bir komut biçiminde cihaza geri gönderilir (Google Voice, Vlingo, vb.) ; görünümünde büyük miktar Sunucu kullanıcıları, tanıma sisteminin eğitimi için geniş bir temel alır. İlk seçenek diğerlerinde çalışır matematiksel algoritmalar ve nadirdir (Speereo Yazılımı) - bu durumda komut kullanıcının cihazına girilir ve orada işlenir. "İstemci üzerinde" işlemenin avantajı hareketlilik, iletişimin kullanılabilirliğinden bağımsızlık ve uzak ekipmanın çalıştırılmasıdır. Bu nedenle, "istemci üzerinde" çalışan bir sistem daha güvenilir görünmektedir, ancak bazen kullanıcı tarafındaki cihazın gücü ile sınırlıdır.

İyi çalışmanızı bilgi tabanına göndermek kolaydır. Aşağıdaki formu kullanın

Bilgi tabanını çalışmalarında ve çalışmalarında kullanan öğrenciler, lisansüstü öğrenciler, genç bilim insanları size çok minnettar olacaklardır.

http://www.allbest.ru/ adresinde yayınlandı

GİRİİŞ

İnsan konuşması uzun zamandır incelenmektedir. Yirminci yüzyılın ortalarında bilgisayarların otomatik konuşma tanıma sorunu ortaya çıktı. Yarım asırdan fazla bir süredir bilim adamları, araştırma konusu hakkında büyük miktarda bilgi biriktirmeyi başardılar. Konuşma tanımanın çok zor bir iş olduğu ortaya çıktı.

Birçok konuşma tanıma sisteminin temel tekniği, istatistiksel yöntem Gizli Markov Modellemesi (HMM) olarak adlandırılır. Bu tür sistemler birçok merkezde geliştirilmekte ve konuşma kelimelerini iyi tanıma yeteneğine sahiptir. Kelime tanıma olasılığı% 80 - 90'a ulaşır.

Otomatik konuşma tanıma sistemlerinin uygulama alanları oldukça çeşitlidir. Örneğin doksanlı yılların başından bu yana, ABD Savunma Bakanlığı tarafından görevlendirilen birçok Amerikan ve Kanada şirketi, telefon konuşmalarını dinlemek için tasarlanmış tanıma sistemleri geliştiriyor. Son zamanlarda bilgisayar eğitim derslerinde tanıma sistemleri kullanılmaya başlanmıştır. yabancı dil metin belgeleri hazırlamak için sistemler. Gelecek vaat eden alanlar, engelli insanlara yönelik yardım sistemlerinin geliştirilmesi ve insan-makine arayüzünün iyileştirilmesidir.

Otomatik konuşma tanıma sistemlerinin yaygın olarak uygulanmasını engelleyen faktörler şunlardır:

Yüksek hesaplama maliyetleri ve bunların önemli eşitsizlikleri nedeniyle küçük boyutlu mobil ekipmanlarda uygulamanın karmaşıklığı ve ayrıca büyük bir sözlüğü (tanınabilir konuşma birimlerinin bir dizi modeli) bellekte saklama ihtiyacı;

Parazit koşulları altında kalite parametrelerinde önemli bozulma.

Bu makale, konuşma tanıma sistemlerinin oluşturulması, kaynak sinyalinin ön işlenmesi, akustik ve dil modellerinin oluşturulması ile ilgili temel ilkeleri sunmakta ve tanıma sistemlerinin gürültü bağışıklığına yönelik modern bir yaklaşımı ele almaktadır. Tanıma sistemlerinin kalitesini değerlendirme yöntemleri dikkate alınır.

Ayrıca geliştirme sorunlarına, gelişim beklentilerine ve tanıma sistemlerinin sürekli iyileştirilmesine de önem verilmektedir.

1. KONUŞMA TANIMA SİSTEMLERİ

Konuşma tanıma, elektriksel olarak dönüştürülmüş bir akustik sinyali bir kelime dizisine dönüştürme işlemidir. Tanınan kelimeler şunlar olabilir: nihai sonuç Sistemin amacı kontrol, veri girişi veya belge hazırlamak ise. Ayrıca konuşmayı anlamaya yönelik daha sonraki dilsel işlemlere de temel oluşturabilirler.

1.1 Konuşma tanıma sistemlerinin sınıflandırılması ve yapısı

sınıflandırma

Konuşma tanıma sistemleri, başlıcaları Tablo 1.1'de verilen birçok parametreyle karakterize edilir.

Tablo 1.1. Konuşma tanıma sistemlerinin genel parametreleri

Parametre	Değişim aralığı
Bağlantı	Tek kelimeler veya sürekli konuşma
	Yazılı bir metne dayalı veya spontane konuşma
Ayarlama	Konuşmacıya bağımlılık veya bağımsızlık
	Küçükten (<20 слов) до большого(>20000)
Dil modeli	Durum bilgisi veya bağlama bağlı
Şaşkınlık	Küçükten (< 10) до большой (> 100)
	Büyükten (>30dB) küçüğe (<10dB)

Sistem tek tek kelimeleri tanıyacak şekilde tasarlandıysa, konuşmacının bunlar arasında duraklaması gerekir; eğer sürekli konuşma yapılıyorsa hayır. Kendiliğinden konuşma genellikle yazılı metni okuyan bir kişinin konuşmasından çok daha fazla tutarsızlık içerir ve bu nedenle tanınması daha zordur. Bazı sistemler, kullanıcının sistemi kullanmadan önce sistemi ayarlamak için bazı kelimeleri veya cümleleri söylemesi gereken hoparlör eşleştirmeyi gerektirirken, diğer sistemler buna gerek duymaz. Kelime dağarcığı büyük olduğunda ve benzer sese sahip birçok kelime içerdiğinde genel olarak tanınmak daha zordur.

Bir dilin en basit modeli belirli sayıda duruma sahip bir ağ ile tanımlanabilir. İçinde her kelimenin ardından gelen makbul kelimeler takımı bellidir. Doğal dile yaklaşan modeller, bağlama duyarlı gramerler kullanılarak tanımlanır.

Bir tanıma sistemi tarafından çözülen bir problemin karmaşıklığının yaygın olarak kullanılan bir göstergesi şaşkınlıktır (zorluk, karmaşıklık, karmaşıklık). Şaşkınlık, belirli bir dil modelinde belirli bir kelimeyi takip eden olası kelimelerin sayısı olarak tanımlanır.

Tanıma sistemi ayrıca izin verilen maksimum sinyal-gürültü oranı (SNR) gibi bir parametreyle de karakterize edilir.

Konuşma tanıma, esas olarak konuşma sinyalinin parametrelerini etkileyen çok sayıda kaynak nedeniyle karmaşık bir iştir:

En küçük konuşma birimleri olan fonemlerin akustik sesi, büyük ölçüde onları çevreleyen fonetik bağlama bağlıdır (iki, doğru, tereyağı sözcüklerinde /t/), ifadelerde bağlamsal bağımlılık daha da güçlenir (“usta üretim”, “iyi öğren) töre");

Oda akustiği, mikrofon özellikleri ve yerleşimindeki farklılıklar nedeniyle akustik sinyal değişiklikleri;

Konuşmacının fiziksel ve duygusal durumu;

Yaşı, cinsiyeti, sosyal statüsü, lehçesi.

Konuşma tanıma sisteminin genel yapısı Şekil 1.1'de sunulmaktadır.

Şekil 1.1 - Konuşma tanıma sisteminin yapısı.

Konuşma sinyali bölümlere ayrılır ve her bölüm için bir dizi parametre hesaplanır. Bu parametreler mevcut akustik, sözcüksel ve dil modelleri içerisinde en iyi aday sözcüğü bulmak için kullanılır. Modern sistemlerdeki sözcüksel modeller, mevcut metin tabanına dayalı bir sözlük oluşturma ve içinde arama yapma ilkeleri ve yöntemleri olarak dil modeline dahil edilmiştir. En basit sistemlerde dil modeli sözcüksel bir modele dönüşür.

1.2 Mevcut gelişme düzeyi

Tanıma sisteminin kalitesi genellikle hata oranı gibi bir gösterge kullanılarak değerlendirilir:

(1.1)

N, test setindeki toplam kelime sayısını, S, I, D ise sırasıyla kelimelerin yer değiştirme, ekleme ve çıkarma sayısını göstermektedir.

1990'lı yıllardan bu yana konuşma tanıma teknolojisinde önemli ilerlemeler kaydedildi. Hata oranı her 2 yılda yaklaşık 2 kat azaldı. Tanıma sisteminin konuşmacıya bağımlı olması, sürekli konuşma tanıma ve geniş sözlük kullanımı gibi engeller büyük ölçüde aşılmıştır. Buna çeşitli faktörler katkıda bulundu:

- Gizli Markov Modellerinin (HMM) kullanımı;

Eğitim ve test için konuşma veritabanlarının derlenmesine yönelik standart kuralların geliştirilmesi (TIMIT, RM, ATIS, WSJ, vb.), geliştiricilerin istatistiksel tekniklere dayalı olarak fonetik özellikleri vurgulamak için önemli olan akustik ipuçlarının sayısını belirlemesine olanak tanır. Eğitim ve test kurallarının standardizasyonu aynı zamanda farklı sistemlerin performansının karşılaştırılmasını da mümkün kılar;

- bilgi işlem sistemlerinin performansında önemli bir artış.

Düşük düzeyde şaşkınlık içeren (PP = 11) tipik bir görev, standart bir telefon kanalındaki sayıları tanımaktır. Burada bilinen bir rakam dizisi uzunluğu ile %0,3'lük bir hata oranına ulaşılmıştır.

Ortalama şaşkınlık seviyesindeki görevler, kaynak yönetimi görevleridir; örneğin, yaklaşık 2000 kelimelik bir sözlüğe sahip ve PP = 15'lik bir hata oranına ulaşan hava trafik bilgi sistemi (Hava Seyahat Bilgi Servisi, ATIS) için kendiliğinden bir konuşma tanıma sistemi %3'ü geçemez.

Metin diktesi için tasarlanan sistemler yüksek düzeyde karmaşıklığa (PP? 200) ve geniş bir sözlüğe (yaklaşık 20.000 kelime) sahiptir. Elde ettikleri hata oranı %7 civarındadır.

Tanıma sistemlerinin ana uygulama alanları, telefon numarasının sesle aranması (örneğin, numara çevirmek yerine “evi aramak”), belge hazırlama, bilgi ve referans sistemleri ve yabancı dil öğretim sistemleridir.

1.3 Beklentiler

Gürültü bağışıklığı

Çeşitli parazitler nedeniyle eğitim konuşma verilerinin kaydedilme koşulları ile gerçek çalışma koşulları arasındaki fark arttıkça, tanıma sistemlerinin çalışma kalitesi felaketle azalır. Bu nedenle akustik ortamın etkisine ve iletim kanalının elektriksel özelliklerine özel önem verilecektir.

Taşınabilirlik

Yeni bir sorunu çözmek için modern sistemlere devredildiğinde, işlerinin kalitesi büyük ölçüde düşer. Bunu iyileştirmek için sistemin yeniden eğitilmesi gerekir. Taşınabilirlik, minimum ayarlamayla farklı sorunları çözmek için sistemi kullanma yeteneğini ifade eder.

Adaptasyon, ayarlama

Sistemin aynı sorunu çözmek için çalışması sırasında bile dış koşullar (hoparlör, mikrofon vb.) değişebilir. İşletim sırasında iş kalitesinin iyileştirilmesi ve yeni koşullara uyum sağlanması için sistemi nasıl zorlayacağınıza karar vermek gerekir.

Dil modelleri

Modern sistemler, arama alanını azaltmak ve akustik model belirsizliğini çözmek için istatistiksel dil modellerini kullanır. Kelime dağarcığının boyutu büyüdükçe ve diğer kısıtlamalar gevşedikçe, tanınan dilin sözdiziminin dayattığı kuralları ve kısıtlamaları tanımlamak, uygulanabilir sistemler oluşturmak için giderek daha önemli hale gelir. Aynı zamanda, tamamen istatistiksel dil modelleri giderek daha fazla sözdizimsel ve anlamsal kural ve kısıtlama içerecektir.

Hipotezlere duyulan güvenin bir ölçüsü

Hipotezleri sıralamaya yönelik çoğu tanıma sistemi, her hipotezi belirli bir ağırlıkla, yani bir sayıyla ilişkilendirir. Şu anda, bu ağırlık, kural olarak, belirli bir hipoteze olan güvenin bir göstergesi değildir (yani, bu hipotezin neden diğerlerinden daha iyi olduğu). Yönetim sorunları için hipotezlerin güvenilirliğini değerlendirme yöntemlerinin geliştirilmesi gerekmektedir.

Sözlükte yer almayan kelimeler

Sistemler belirli bir kelime dağarcığıyla kullanılmak üzere tasarlanmıştır. Ancak gerçek hayatta her zaman belirli bir oranda sözlükte yer almayan kelimeler olacaktır. Bu tür kelimelerin varlığının tespit edilip işlenmesine yönelik yöntemlerin olması gerekir.

Kendiliğinden konuşma

Gerçek koşullarda çalışan sistemler her zaman spontan konuşmanın doğasında olan çeşitli olgularla karşılaşır: yanlış başlangıçlar, kekemelik, dilbilgisine aykırı yapılar vb. ATIS'in geliştirilmesi bu alandaki pek çok sorunu çözdü, ancak hepsini çözmedi.

Prozodi (tonlama ve ritim)

Tonlama ve konuşmanın ritmik yapısı, konuşulan kelimelerin anlamları hakkında bilgi taşır. Ancak prozodik bilginin bir tanıma sistemine nasıl entegre edileceği sorusu henüz çözülmemiştir.

Dinamik Simülasyonu

Modern sistemler, akustik sinyalin bir dizi bölümünü alır ve bunları statik ve birbirlerinden bağımsız olarak işler. Ancak ses ve kelime olarak algılanan sinyal bölümlerinin, sinyalden çıkarılan parametrelerin birleşimini ve bunların dinamik olarak sunumunu gerektirdiği bilinmektedir. Bu dinamik eklemlenmeyi yansıtacaktır. Bir tanıma sistemi için konuşma sinyalinin dinamiklerinin nasıl modelleneceği çözülmemiş bir sorundur.

2. ORİJİNAL SİNYALİN GÖSTERİMİ

2.1 Sinyal ön işlemenin ilkeleri

İstatistiksel yöntemlere dayalı konuşma tanımada, orijinal sinyal 6,6 ila 20 kHz frekansta örneklenir ve onu, konuşmacının ses yolunun durumunu modelleyen özellik uzayındaki bir dizi vektör olarak temsil edecek şekilde işlenir. Bu durumda, orijinal sinyalin 10 - 25 ms süreli, yani 150 - 300 örnekten oluşan ve genellikle birbiriyle yüksek korelasyona sahip bir bölümü ortogonal bir seriye ayrıştırılır ve belirli bir hata değeri için şu şekilde sunulur: parametre adı verilen 10 - 20 genleşme katsayısı şeklindedir.

Bu parametre vektörleri, üyelik hipotezini test ederken bir foneme veya tam bir kelimeye ait bir vektörün veya vektörler dizisinin olasılığını tahmin etmek için sonraki adımlarda kullanılır.

Çoğu sistemde, bir sinyalin vektör temsili ve olasılık tahmini süreçleri yakından ilişkilidir. Dolayısıyla bir konuşma sinyaline bir işlem veya prosedür uygulanıyorsa bunun sunum aşamasına ait olduğu varsayılmaktadır. Bir hipotezi test etmek için kullanılıyorsa uygunluk hesaplama aşamasının bir parçasıdır.

Sinyal temsili aşamasının amacı, söz konusu konuşma sinyali bölümünün fonetik tanımlanması için gerekli olan tüm yararlı bilgileri korumaktır. Aynı zamanda sunum, konuşmacılar arasındaki farklılıklar, iletişim kanallarının özellikleri ve duygusal durum gibi faktörlerden mümkün olduğunca etkilenmemelidir. Sunum da mümkün olduğunca kompakt olmalıdır.

Modern sistemlerde kullanılan temsiller, uyarma sinyalinden (gırtlak ve ses tellerinin oluşturduğu temel ton) ziyade ses yolunun şekli nedeniyle konuşma sinyalinin özelliklerini yansıtır. Temsiller yalnızca ses tellerinin titreyip titreşmediğini belirler. sesin vokalize edilip edilmediği.

Kullanılan gösterimler neredeyse her zaman sınırlı bir enerji spektrumundan, sinyalin güç spektral yoğunluğundan türetilir.

burada x1,…, xl, …, xn, segmentteki örneklerin başlangıç dizisidir; S(ejш) - spektral katsayılar. Enerji spektrumunun kullanılması tavsiye edilir çünkü kulak akustik sinyalin fazına karşı duyarsızdır.

Ek olarak, enerji spektrumu neredeyse her zaman logaritmik bir gösterim kullanır. Bu, sinyal genliğinde önemli dalgalanmalar olan parametrelerdeki aşırı büyük değişiklikleri azaltmanın yanı sıra, çarpımsal akustik etkileri ve kullanılan ekipmandan kaynaklanan paraziti ilave parazite dönüştürmeyi mümkün kılar. Logaritmik gösterimin dezavantajı sıfırın logaritmasının belirsizliğidir. Bu, sinyalin minimum genlik ölçeğinin sıfırdan farklı bir değerle sınırlandırılmasını ve esas olarak gürültü olan düşük enerjili spektral bileşenlere aşırı hassasiyetin önlenmesi için sinyalin kendisinin aşağıdan sınırlandırılmasını gerektirir. .

Şekil 2.1 - Tanıma için konuşma sinyalinin gösterimi

Spektrumu hesaplamadan önce sinyal genellikle ön filtrelemeye tabi tutulur; bu, elektrik yolunun neden olduğu zayıflamayı telafi etmek için sinyal kazancının artan frekansla birlikte 6 dB/oktavlık bir eğimle artmasını sağlar. Daha sonra orijinal sinyal, bölümün kenarlarındaki sinyal genliğini azaltmak için bir çan fonksiyonu tarafından işlenen, tipik olarak 25 ms uzunluğunda birbirini takip eden, üst üste binen bölümlere bölünür. Daha sonra güç spektral yoğunluğu hesaplanır.

Ortaya çıkan enerji spektrumu, temel frekansta istenmeyen bir harmonik bileşene sahiptir. Bu bileşen, gücün logaritması hesaplanmadan önce yaklaşık 20 bantlık bir grup oluşturacak şekilde bitişik spektral bileşen kümelerinin gruplandırılmasıyla azaltılabilir. Bu bantlar genellikle 1 kHz'lik artışlarla giderek genişletilir. Bir dizi dijital filtre kullanmak da mümkündür. Sonuçlar benzer.

Sinyalin sepstral temsili, orijinal sinyaldeki bitişik örneklerin korelasyonunu daha da azaltır. Burada konuşmanın, yavaş yavaş değişen parametrelere sahip doğrusal bir sistemin (bir dizi temel ton darbesi veya gürültüyle uyarılan ses yolu) çıkış sinyali olduğu varsayılmaktadır. Bu durumda konuşma sinyalinin analizi, konuşma sinyalinin ölçülen parametrelerinden ses yolu parametrelerinin hesaplanmasından ve bunların zaman içinde değerlendirilmesinden oluşur. Uyarma sinyali x(n) ve filtre darbe yanıtı h(n) evrişim işlemi boyunca etkileşime girdiğinden, analiz problemi evrişim işleminde yer alan bileşenleri ayırma problemi olarak kabul edilir. Bu soruna ters evrişim veya sarmalanma sorunu denir. Bunu çözmek için aşağıdaki homomorfizmi bulmak gerekir: C(x(n)*h(n)) = C(x(n)) + C(h(n)). Bu homomorfizm aşağıdaki dönüşüm kullanılarak uygulanabilir:

c(n) = F-1(ln[ |F(x(n))| ]),(2.2)

ayrık bir sinyalin x(n) cepstrumu olarak adlandırılan F ve F-1 sırasıyla doğrudan ve ters ayrık Fourier dönüşümüdür.

Sinyalin otoregresif temsili (doğrusal tahmin, LPC), aynı konuşma sinyali oluşumu modeliyle ilişkilidir. Otoregresyon katsayıları, x(ti) konuşma sinyalinin yakın örnekleri arasındaki korelasyonun doğrudan en aza indirilmesi koşulundan hesaplanır:

Sinyal parametrelerini hesaplamanın ilk aşamasında, farklı geliştiriciler farklı modeller kullanır, enerji spektrumu veya otoregresyon, örneğin telefonda otomatik regresyon genellikle kullanılır, çünkü tüm modern telefon ses kodlayıcılarında bu parametreler hesaplanır. Bilgi işlem sistemlerinde spektrum genellikle hesaplanır çünkü onu hesaplamak için kullanılan bileşenler diğer uygulamalar tarafından kullanılabilir. Gelecekte, tanıma görevi için en uygun olan cepstral katsayılar Ci hesaplanacaktır. Cepstrumun otoregresyon yoluyla hesaplanması hesaplama açısından daha ekonomiktir ve bu da sınırlı telefon kaynakları için iyidir. Bilgisayarlar için böyle katı bir sınırlama yoktur, ancak çok yönlülük ve kodu yeniden kullanma yeteneği önemlidir, bu nedenle spektrum daha iyidir. Bazı sistemler ayrıca bir sinyal bölümü içindeki ve bitişik bölümler arasındaki dCi sinyal parametrelerindeki değişikliklerin dinamiklerini de hesaplar.

Belirli bir telefon bağlantısının özellikleri gibi çeşitli değişmez dış faktörler, spektrumun veya cepstrumun sabit bir bileşeni (bias) olarak görünür. Fark, dCi dinamik parametreleri bu tür etkilere tabi değildir. Birinci dereceden dinamik parametreler entegratörden geçirilirse orijinaline yakın değerler, statik parametreler Ci geri yüklenecektir. Logaritma alınmadan önce güç spektrumu katsayı dizilerine uygulanan benzer bir teknik, sabit veya yavaş yavaş değişen ilave gürültüden kaynaklanan girişimi azaltmak için faydalıdır.

Cepstral katsayılar neredeyse korelasyonsuz olduğundan, sonraki eşleştirme sürecinde oldukça iyi olasılıksal tahminler elde etmek için hesaplama açısından verimli bir yöntem, karşılık gelen model vektörlerine Öklid mesafelerini hesaplamaktır. Mesafelerin hesaplanması, katsayıların (parametrelerin) uygun şekilde ağırlıklandırılmasından sonra yapılır. Ampirik ve istatistiksel olmak üzere iki ana sınıfa ayrılan birçok ağırlıklandırma yöntemi vardır.

Yukarıdaki yöntemleri birleştiren ve parametrelerin korelasyonunu neredeyse tamamen ortadan kaldırmayı mümkün kılan teknikler vardır, ancak artan hesaplama maliyetleri nedeniyle bunlar şu anda gösteri amacıyla kullanılmaktadır.

2.2 Beklentiler

Şu anda, orijinal sinyalin sunulması aşamasında dalgacık dönüşümlerinin ve sinir ağı yöntemlerinin kullanılması olasılığı üzerinde çalışılmakta olup, orijinal sinyalle veya diğer dönüşümlerin sonuçlarıyla doğrusal olmayan işlemlere izin verilmektedir. Bir odanın akustiğini daha doğru şekilde yansıtan ve aynı zamanda bir konuşma sinyalinin artikülasyonunu yeniden sağlayan temsillerin geliştirilmesi devam etmektedir.

Bir sinyali temsil etmeye yönelik modern yöntemler, temel frekansı hesaba katmadan yalnızca spektrumun şeklini kullanır. Ancak tek kelime tanımada bile perde sıklığının sözcüksel kelime tanıma konusunda ipucu olabileceği bilinmektedir. Bu sadece Çince gibi tonal diller için değil aynı zamanda Avrupa dilleri için de geçerlidir, çünkü bu sıklık sözcüksel vurguyla ilgilidir. Bağlantılı konuşmada temel ton, cümlenin sözdizimsel yapısı ve konuşmacının ruh hali hakkında bilgi taşır. Bu alandaki araştırmalar devam edecek.

3. GÜRÜLTÜYE DAYANIKLI KONUŞMA TANIMA

3.1 Gürültü bağışıklığının belirlenmesi

Konuşma tanımada gürültü bağışıklığı (sağlamlık), istikrarsızlaştırıcı faktörler altında yeterli doğruluğu sağlama ihtiyacıyla ilişkilidir:

Giriş konuşma sinyalinin kalitesi düşük olduğunda,

Eğitim ve test (çalışma) koşulları arasında konuşmanın akustik, artikülatif ve fonetik özelliklerinde önemli farklılıklar olduğunda.

Bu faktörlerin kaynakları şunlardır:

İlave gürültü şeklinde akustik girişim,

Doğrusal filtreleme olayları

Orijinal sinyalin dönüştürülmesi ve iletilmesi sırasında doğrusal olmayan bozulmalar,

Darbe girişimi

Gürültü kaynaklarının varlığından kaynaklanan hoparlör artikülasyonundaki değişiklikler.

Uygun akustik koşullarda çalışmak üzere tasarlanan modern sistemler, gürültü ve bilinmeyen doğrusal filtrelemeden kaynaklanan bazı sinyal bozulmalarını telafi ederek büyük ölçüde hoparlör bağımsızlığını elde etmiştir. Ancak gerçek dünya uygulamaları için geliştirilmiş sağlamlığa olan ihtiyaç açıktır. En iyi modern sistemler bile, algılanan sinyalin bir telefon kanalından geçmesi veya konuşmacının aksanıyla konuşması durumunda performansı önemli ölçüde düşürür. Daha sonra, çevredeki dış parazit kaynaklarının neden olduğu sinyal bozulmasına karşı direnci göz önünde bulunduruyoruz. Sağlamlığa yönelik ana yaklaşımlar, parametrelerin dinamik olarak ayarlanması, mikrofon dizilerinin kullanılması ve psikolojik algı modellerini dikkate alan sinyal işlemedir.

3.2 Parametrelerin dinamik ayarlanması

Tipik olarak, sistemleri değişen çevresel koşullara uyarlamaya yönelik modeller, konuşma kalitesindeki bozulma kaynaklarının, bilinmeyen bir güç spektral yoğunluk dağılımına sahip ilave gürültü veya ilave gürültü ve doğrusal filtrelemenin bir kombinasyonu olduğunu varsayar. Bu parazitleri telafi etmek için sistem, hem tanınan giriş sinyalinden hem de sistem tarafından saklanan ifadelerin akustik modellerinden hesaplanan akustik parametreleri dinamik olarak ayarlayabilir. Parametreleri dinamik olarak ayarlamak için üç ana yaklaşım vardır:

Test koşullarında yeni parametre değerleri elde etmek için optimum tahminin kullanılması,

Eğitim ve test koşullarında konuşma sinyalinin ampirik karşılaştırmasına dayalı telafinin uygulanması,

Parametre değerlerinin yüksek geçişli filtrelenmesi.

Optimum parametre tahmini

Optimum tahmin için iki ana yaklaşım kullanılır.

Bunlardan ilki resmiyete dayalı istatistiksel model, sistemi eğitirken kullanılan konuşma ile sistemi test ederken kullanılan konuşma arasındaki farkı karakterize eder. Model parametrelerinin değerleri, farklı ortamlarda kaydedilen test konuşma örnekleri kullanılarak tahmin edilir, ardından giriş sinyalinin hesaplanan parametreleri veya sistemde depolanan konuşma birimlerinin akustik modelleri değiştirilir. Deneyler, bu yaklaşımın, ilave gürültülü bir konuşma sinyalini tanırken hata sayısını önemli ölçüde azalttığını göstermektedir. Ancak bu yaklaşım, gerçek koşullarda konuşma kalitesindeki bozulmayı ciddi şekilde önleyememektedir.

İkinci popüler yaklaşım ise gürültü bilgisini kullanarak fonetik modellerin konuşmayı gürültüyle karakterize etmesini sağlamaktır. Bilgi, mevcut girişim modellerinden türetilir ve girişimsiz konuşmadan hesaplanan fonetik modellerin parametrelerini (ortalamalar ve varyanslardaki değişiklikler) ayarlamak için kullanılır. Bu yaklaşım paralel model birleşimi adı verilen bir teknikle uygulanmaktadır. Toplama, çarpımsal girişim ve gerçek konuşma sinyalleri için iyi sonuçlar verir. Ancak şu anda çok yüksek hesaplama maliyetleri, tanıma sistemlerinde kullanılmasını engellemektedir.

Parametrelerin ampirik karşılaştırılması

Parazitsiz konuşmadan çıkarılan parametreler, aynı konuşmanın parazitli olarak kaydedilen parametreleriyle karşılaştırılır. Bu yaklaşımda, çeşitli müdahalelerin birleşik etkisi, sinyal parametrelerinin ilave ihlalleri olarak kabul edilir. Parametreleri karşılaştırırken düzeltme vektörleri hesaplanır ve bunlar daha sonra ya giriş tarafından tanınan sinyalin parametre vektörlerini ya da tanıma sisteminde saklanan akustik modellerin parametre vektörlerini düzeltmek için kullanılır.

Düzeltme vektörlerinin şunlara bağlı olduğu varsayılırsa tanıma doğruluğu artar: sinyal-gürültü oranı, belirli bir sinyal-gürültü oranı dahilinde parametre uzayındaki konum veya ses birimlerinin beklenen yazışması.

Bu genel yaklaşım, birçok farklı test ortamı koşulu için bir düzeltme vektörleri topluluğu oluşturarak, test ortamının önceden bilinmediği durumlara genişletilebilir. Düzeltme vektörleri daha sonra, muhtemelen en olası vektörden başlayarak, giriş sinyalinden elde edilen vektörle en iyi eşleşme bulunana kadar konuşma modellerine sırayla uygulanır.

Düzeltme vektörlerini hesaplama koşulları sistemin gerçek çalışma koşullarına yakınsa, çalışma kalitesi oldukça yüksektir. Dezavantajı ise akustik modellerden oluşan bir veri tabanı oluşturmak için stereo kayıt kullanma ihtiyacıdır.

Yüksek Geçişli Filtrelerin Uygulanması

Cepstral katsayıları hesaplarken yüksek frekanslı veya bant geçiren filtrelemenin kullanılması, sistemin gürültü bağışıklığını minimum maliyetle önemli ölçüde artırabilir. Bu yöntem RASTA ve CMN algoritmalarında uygulanmaktadır. Bu algoritmalar artık gürültü bağışıklığının gerekli olduğu hemen hemen tüm sistemlerde kullanılmaktadır.

3.3 Mikrofon dizilerini kullanma

Düşük sinyal-gürültü oranlarında tanıma doğruluğunda ilave iyileştirme, bir mikrofon dizisi kullanılarak elde edilebilir. Böyle bir matris, prensip olarak, radyo iletişimindeki faz dizili antene benzer şekilde, hoparlör yönünde maksimum ve parazit kaynakları yönünde minimumlara sahip bir karakteristiğe sahip yön hassasiyetini gerçekleştirebilir. Toplayıcılar ve gecikme çizgileri kullanarak bireysel elemanların fazlamasını değiştirerek, çalışma koşulları değiştikçe yönlülük özelliklerine ince ayar yapabilirsiniz. Aynı zamanda matrisin kendisi tarafından oluşturulan spektral renklendirmeyi telafi etmek için algoritmalar kullanılır. Bir ofis ortamında bir mikrofon dizisi ile yapılan deneyler, ilave gürültü kaynağı biçimindeki parazit için hata oranının %61'e düştüğünü gösterdi.

Matris, toplamsal, bağımsız gürültü biçimindeki girişime karşı etkili olmasına rağmen, girişimin yararlı sinyalin biraz gecikmeli ve zayıflatılmış bir parçası olduğu durumlarda, birçok yansıtıcı yüzeyin varlığında performansı önemli ölçüde düşürür.

Daha gelişmiş sistemler, sinyal gecikme girişimini telafi etmek için çapraz korelasyona dayalı algoritmalar kullanır. Bu algoritmalar akustik alanı belirli yönlerde yükseltme yeteneğine sahiptir. Ancak, basit gecikme ve toplam algoritmalarıyla karşılaştırıldığında sistem performansını yalnızca marjinal olarak artırırlar.

3.4 Psikolojik temelli sinyal işleme

Orijinal konuşma sinyalinin psikolojik algı modellerini dikkate alarak işlenmesi, insan konuşma algısının çeşitli yönlerini simüle eder. Bu tür işleme sistemleri tipik olarak insan işitmesinin frekans duyarlılığını simüle eden bir dizi bant geçiren filtreyi ve ardından kanallar içinde ve arasında doğrusal olmayan sinyal işleme cihazlarını içerir.

Tanıma sistemlerine ilişkin son değerlendirmeler, algısal simülasyon modellerinin, hem gürültülü koşullar altında hem de eğitim ve test koşullarındaki farklılıklar karşısında geleneksel cepstrumdan daha iyi tanıma doğruluğu sağladığını göstermektedir. Ancak bu modeller kalite açısından parametrelerin dinamik ayarlanmasına yönelik algoritmalardan daha düşüktür; ayrıca dinamik ayarlama daha ucuzdur.

Simülasyon modellerinin başarısızlığının, sınıflandırma için Gizli Markov modellerinin kullanılmasıyla ilişkili olması mümkündür; bu modellerin, sonuçta ortaya çıkan parametrelerle çalışmaya yetersiz şekilde uyarlandığı ortaya çıkar. Bazı araştırmacılar, bu modeller kullanılarak hesaplanan ve konuşma sinyalini mümkün olduğu kadar doğru şekilde karakterize eden optimal parametre setinin henüz bulunamadığına inanmaktadır. Bu nedenle bu alan araştırmacıların yakın ilgisini çekmeye devam etmektedir.

3.5 Görünüm

Açık önemine rağmen, konuşma tanımadaki sağlamlık, araştırmacıların dikkatini ancak son zamanlarda çekmiştir. Yalnızca, ilave gürültü veya doğrusal filtreleme gibi oldukça "dost" girişim koşulları için önemli bir başarı elde edilmiştir. Sistemlerin konuşmacıdan bağımsızlığı artık yalnızca ana dili konuşanları kapsamaktadır. Aksanla konuşan kişiler için tanıma doğruluğu, konuşmacıya göre ayarlandığında bile önemli ölçüde daha düşüktür.

Telefonda konuşma

Telefon konuşmasının tanınması zordur çünkü her telefon kanalının kendi sinyal-gürültü oranı ve frekans tepkisi vardır. Ayrıca, kısa süreli girişim veya doğrusal olmama nedeniyle konuşma bozuklukları meydana gelebilir. Telefon hattı uygulamalarının az kanal verisi ile farklı kanallara uyum sağlayabilmesi gerekmektedir.

Yüksek gürültülü ortam

Çeşitli gürültü dengeleme teknikleri kullanıldığında bile, 15 dB'nin altındaki sinyal-gürültü oranında tanıma doğruluğu önemli ölçüde düşerken, kişi çok daha düşük bir oranda konuşmayı mükemmel bir şekilde duyabilmektedir.

Çapraz konuşma

Örneğin aynı odadaki diğer konuşmaların etkisi veya bitişikteki telefon kanalındaki parazit, geniş bant gürültü girişiminden çok daha zor bir sorundur. Şu ana kadar tanınan konuşmayı müdahale eden konuşmadan ayıran bilgilerin kullanılmasına yönelik çabalar önemli sonuçlara yol açmadı.

Konuşmadaki vurguya hızlı uyum

Günümüzün hızlı tempolu toplumunda, ciddi dil uygulamalarının aksanlı konuşmacıların yanı sıra aksansız konuşmacıları da anlayabilmesi gerekiyor.

Konuşma veritabanları oluşturmaya yönelik ilkelerin geliştirilmesi

Gürültüye dayanıklı tanıma konusundaki ilerleme aynı zamanda konuşma veritabanları oluşturmaya yönelik ilkelerin geliştirilmesine ve doğrudan bu tür veritabanlarının oluşturulmasına da bağlı olacaktır. Bunu yapmak için, pratik problemlerin birçok bozulma ve girişim karakteristiği örneğini toplamak, işlemek ve yapılandırmak gerekir.

4. AKUSTİK MODELLER

4.1 Akustik modelin sistemdeki yeri

Modern konuşma tanıma sistemleri, esas olarak, giriş sinyaline dayalı olarak konuşulan sözcük dizileri hakkında hipotezler üreten yazılım ürünleri olarak uygulanmaktadır. Bu tür sistemlerde kullanılan algoritmalar istatistiksel yöntemlere dayanmaktadır.

Akustik parametrelerin yt vektörü her 10-30 ms'de bir giriş sinyalinden hesaplanır. Bu vektörlerin dizileri, fonetik modeller tarafından oluşturulan gözlemlenebilir diziler olarak kabul edilir. Buna dayanarak, bir W dizisi (kelime) telaffuz edilirken ylT vektörlerinin bir dizisini gözlemleme olasılığı p(ylT/W), başka bir deyişle, bir W modeliyle bir ylT dizisi oluşturma olasılığı hesaplanır. Bir ylT dizisi verildiğinde kuralını kullanarak arama yapabilirsiniz:

ylT'yi oluşturan en olası kelime dizisini bulun. Bu arama prosedürü, maksimum sonsal olasılığa sahip kelime dizisini bulur. Olasılık p(ylT/W) akustik modelle, p(W) ise dil modeliyle hesaplanır.

Büyük bir sözlüğe sahip sistemler için arama iki aşamadan oluşur. İlkinde, basitleştirilmiş modeller kullanılarak gerçek zamanlı olarak yaklaşık olasılıklar hesaplanarak, n en iyi kelime dizisinden oluşan bir kafes oluşturulur. İkinci aşamada sınırlı sayıda hipotezle daha doğru olasılıklar hesaplanır. Bazı sistemler tek adımda olası bir sözcük dizisi oluşturur.

4.2 Markov zincirlerine dayalı akustik modeller

Akustik modeller, temel dil birimlerinin (yani ses birimlerinin) temel olasılıksal modelleridir ve bir sonraki seviye birimlerini (kelimeler) temsil etmek için kullanılır.

Konuşulan bir ifadeden elde edilen akustik parametrelerin dizisi, Gizli Markov Modelleri (HMM'ler) kullanılarak açıklanan bir dizi işlemin uygulanması olarak kabul edilir. HMM iki rastgele süreçten oluşan bir dizidir:

Zaman içindeki değişikliklerden sorumlu gizli Markov zinciri,

Spektral değişikliklerden sorumlu gözlemlenebilir sabit süreç kümeleri.

SMM, onbinlerce kelimeden oluşan bir sözlüğe sahip sistemlerin oluşturulmasına izin verirken, fonem telaffuzundaki farklılıklar gibi bir konuşma sinyalindeki belirsizliğin ana kaynaklarıyla başa çıkabildiğini pratikte kanıtlamıştır.

SMM yapısı

Model bir çift rastgele süreç (X, Y) olarak tanımlanır. Süreç X, uygulamaları doğrudan gözlemlenemeyen birinci dereceden bir Markov zinciridir. Y sürecinin gerçekleşmesi, değerlerini akustik parametreler uzayından alır, doğrudan gözlemlenir ve dağılımları X sürecinin gerçekleşmesine bağlıdır.

HMM iki resmi varsayımla karakterize edilir. Birincisi Markov zinciriyle ilgilidir ve zincirin bir sonraki durumunun yalnızca mevcut durum tarafından belirlendiğini ve önceki yörüngeye bağlı olmadığını belirtir. İkincisi, akustik parametrenin gözlemlenen değerinin alındığı Y sürecinin mevcut dağılımının, X ve Y süreçlerinin önceki yörüngelerine değil, yalnızca Markov zincirinin (X süreci) mevcut durumuna bağlı olduğunu belirtir.

Ek 1'de modelin matematiksel tanımı, gözlemlenen dizinin oluşturulmasına ilişkin bir örnek ve hesaplama formülleri verilmektedir.

Eğitimi sırasında model parametrelerini yeniden tahmin etmek için Bayes formülü kullanılarak olasılık yeniden tahminine dayanan Baum-Welsh algoritması kullanılır.

HMM'ler, doğaları gereği dağıtım fonksiyonları olan B matrisinin elemanlarına göre sınıflandırılabilir.

Dağıtım fonksiyonları sonlu bir uzayda tanımlanmışsa model ayrık olacaktır. Bu durumda, gözlemlenen gerçekleşme, M elementlerinin sonlu bir alfabesinden gelen değerlerin bir vektörüdür. V kümesinden seçilen Q vektörünün her bir elemanı için, dağılımı oluşturan sıfırdan farklı bir ayrık yoğunluk (w(k)/k=1,…,M) tanımlanır. Bu tanım V kümesinin elemanlarının bağımsızlığını varsayar.

Dağılımlar sürekli bir uzaydaki olasılık yoğunlukları olarak tanımlanırsa model sürekli olacaktır. Bu durumda, tahmin edilen parametrelerin sayısını kabul edilebilir sınırlara sınırlamak için dağıtım fonksiyonlarına gereksinimler getirilir. En popüler yaklaşım, G standart dağılım ailesinden g yoğunluklarının basit bir parametrik formla doğrusal bir kombinasyonunu kullanmaktır. Tipik olarak g, bir matematiksel beklenti vektörü ve bir kovaryans matrisi ile karakterize edilen çok değişkenli bir normal dağılım olarak kullanılır. Ortaya çıkan dağılımı oluşturmak için doğrusal kombinasyona dahil edilen standart dağılımların sayısı genellikle hesaplama yetenekleri ve mevcut eğitim verilerinin miktarı ile sınırlıdır.

Sürekli bir modelin eğitimi sırasında dağıtım parametrelerinin ayarlanması, çok sayıda eğitim örneği gerektirir. Yeterli olmadıkları takdirde, doğrusal bir kombinasyon oluşturmak için standart bir temel yoğunluklar kümesinin kullanıldığı sözde sürekli bir model kullanmaya başvururlar. Doğrusal kombinasyonlar birbirlerinden yalnızca ağırlık katsayıları açısından farklılık gösterir. Genel yaklaşım, her bir girdi vektörü koordinatını kendi farklı taban yoğunlukları kümesiyle ilişkilendirmektir.

4.3 Kelime modelleme

Fonetik ayrıştırma

Bir kelime genellikle bir fonem ağıyla temsil edilir. Ağdaki her yol, bir kelimenin farklı bir telaffuzunu temsil eder.

Farklı bağlamlarda telaffuz edilen aynı ses birimi farklı akustik parametrelere sahip olabilir ve bu nedenle farklı dağılımlarla modellenebilir. Alofonlar, bir fonemi farklı bağlamlarda temsil eden kalıplardır. Belirli bir fonemi kaç alofonun temsil edeceğine karar vermek birçok faktöre bağlıdır; bunlardan en önemlisi, akustik modelin parametrelerini ayarlamak için kullanılan eğitim verilerinin miktarıdır.

Allofon modelinin birkaç çeşidi vardır. Bunlardan biri polifonlardır. Prensipte, bir ses biriminin telaffuzu, geçtiği tüm sözcüklerde farklıdır, bu nedenle farklı sesbirimleri gerektirir. Geniş bir kelime dağarcığı ile böyle bir modeli eğitmek, eğitim verilerinin eksikliğinden dolayı neredeyse imkansızdır. Bu nedenle, alofonların temsili çeşitli ayrıntı düzeylerinde kullanılır: kelime, hece, trifon, difon, bağlamdan bağımsız fonem. Alofonların farklı detay seviyelerindeki olasılık dağılımları, daha detaylı temsil seviyelerindeki dağılımların birleştirilmesiyle elde edilebilir. Özellik kaybı, eğitim verilerinin hacminin tahmin edilen model parametreleri sayısına oranındaki artış nedeniyle, eğitim sırasında modelin istatistiksel parametrelerinin tahmininde bir iyileşme ile telafi edilir.

Başka bir varyasyon, alofonları belirli sayıda olası bağlam sınıfına ayırmaktır. Sınıf araması, bir sınıflandırma ve regresyon ağacı (CART) kullanılarak otomatik olarak gerçekleştirilir. Bu bir ikili ağaçtır, kökünde bir ses birimi vardır ve her düğüm bağlamla ilgili bir soruyla ilişkilendirilir: "Önceki ses bir burun ünsüz mü?" Olası her yanıt için (evet, hayır) başka bir düğüme giden bir dal vardır. Ağacın yaprakları alofonlardır. Manuel olarak oluşturulan bir havuzdaki soruları düğümlerle otomatik olarak ilişkilendiren CART büyüme ve budama algoritmaları vardır.

Tanıma sistemlerindeki her alofon HMM'ler kullanılarak modellenmiştir. Genel olarak tüm modeller, tek bir paylaşılan havuzdan veya senon adı verilen birkaç bine kadar kümeden alınan dağıtımlar kullanılarak oluşturulabilir.

Kelimeler gibi daha yüksek seviyeli sesbirimlerinin modelleri, geçişleri ve dağıtımları birbirine bağlayan temel modelleri birleştirerek de oluşturulabilir. Bu tür yapı taşlarına fenonlar ve multonlar denir.

Kelimeleri modellemeye yönelik başka bir yaklaşım, bir kod kitabı (bu kitabın kelimeleri olan bir dizi referans özelliği) kullanmaktır. Sinyal parametrelerinin giriş vektörünü kullanarak, kod kitabından kendi numarasına sahip en yakın referans işareti bulunur. Kod kitabı için standart bir temel yoğunluk seti kullanılır; kelimeler, özellik numaraları dizileriyle temsil edilir. Daha sonra her sayı dizisi bir HMM kullanılarak modellenir.

Kelime sınırlarını ve olasılıklarını belirleme

Genel olarak, konuşma sinyali ve temsilleri kelimeler arasındaki sınırlara ilişkin net göstergeler sağlamaz, dolayısıyla kelime sınırı tespiti, bir arama olarak gerçekleştirilen hipotez sürecinin bir parçasıdır. Bu işlem sırasında kelime kalıpları bir dizi akustik parametreyle karşılaştırılır. Olasılıksal bir çerçevede, akustik dizilerin modellerle karşılaştırılması, belirli bir model tarafından oluşturulan belirli bir dizinin olasılığının hesaplanmasını içerir; p(ylT/W)'nin hesaplanması. Bu, tanınma sürecinin önemli bir bileşenidir.

Belirli bir zaman dizisi için: 1, 2, …, t, t+1, …, T-1, T:

Olasılık dt(i) t zamanına kadar o1,o2…ot dizisinin gözlemlendiği ve modelin Si durumunda olduğu (ileri algoritma):

tüm 1?i?N, 1?j?N, t = 1,2,…,T-1 için:

t = 1'de: d1(i) = pi bi(o1);(4.2)

t > 1 için: dt(j) = .(4.3)

Modelin t anında Si durumunda olması koşuluyla, t+1 anından T noktasına kadar ot+1,ot+2,…oT dizisini gözlemleme olasılığı ft(i) (geriye doğru algoritma):

tüm 1?i?N, 1?j?N, t = T-1,T-2,…,1 için:

t = T'de: fT(i) = 1;(4.4)

t'de< T: ft(i) = .(4.5)

Bir modelin T saat çevriminde belirli bir yörüngeyi geçmesinin toplam olasılığı (dizi ve modelin eşleşme olasılığı) üç şekilde hesaplanabilir:

P(O/l) = ;(4.6)

P(O/l) = ;(4.7)

P(Q/l) = dt(i) ft(i) = .(4,8)

Olasılık hesaplamasının bir örneği Ek 2'de verilmiştir.

Hesaplamalar için modeller, başlangıcı ve sonu olan doğrusal bir durum dizisi biçiminde kullanılır. Geçişler yalnızca yerinde ve baştan sona, durumların üzerinden atlanmadan mümkündür. Uygunluğu hesaplamadan önce, parametre vektörlerinin orijinal dizisi, verilen modele eşit uzunlukta parçalara bölünür.

4.4 Görünüm

Akustik modellemede son yıllarda elde edilen önemli ilerlemeler, kabul edilebilir miktarda kaynak tüketirken gerçek zamanlı olarak büyük bir sözlük kullanıldığında iyi bir tanıma kalitesinin elde edilmesini mümkün kılmıştır. Ancak geliştirilmesi gereken pek çok yönü var. Her şeyden önce bu, parazit varlığı da dahil olmak üzere farklı hoparlörlere ve farklı akustik ortamlara uyum sağlamayla ilgilidir. Ayrıca kekemelikleri, yanlış başlangıçları, sözlükte eksik olan kelimeleri ve spontan konuşmaya özgü diğer özellikleri işlemede zorluklar vardır.

Ana yol tarifleri modern araştırma Akustik gürültü bağışıklığı, akustik parametre ve model sistemlerinin iyileştirilmesi, geniş bir sözlükle çalışma, çoklu bağlamları ve çoklu dilleri destekleme, sistemlerin otomatik eğitimi için yöntemler geliştirme.

5. DİL MODELLERİ

5.1 Dil modelinin sistemdeki yeri

Konuşma tanıma sistemleri akustik sinyali konuşulan ifadenin ortografik temsiline dönüştürür. Tanıyıcı, sonlu sözlüğü kullanarak hipotezler oluşturur. Basitlik açısından, bir kelimenin telaffuzuyla benzersiz bir şekilde tanımlandığı varsayılmaktadır.

İstatistiksel modelin kullanılmaya başlanmasıyla tanıma probleminin çözümünde önemli ilerleme sağlandı ortak dağıtım Bir dizi konuşulan sözcük W'nin p(W,O)'su ve buna karşılık gelen akustik dizi O. Bu yaklaşım ilk olarak IBM tarafından "kaynak-kanal modeli" adı altında kullanıldı. Seçilen sözcük dizisinin gözlemlenen akustik olgu O'ya uygunluğunun değerlendirmesini p(W/O) sonsal dağılımını kullanarak belirler.

Hatayı en aza indirmek için sistem, bu sonsal dağılımı maksimuma çıkaran bir sözlük dizisi seçer:

burada p(W), W sözcük dizisinin olasılığıdır, p(O/W), W sözcük dizisini söylerken O akustik dizisini gözlemleme olasılığıdır, p(O) diziyi gözlemlemenin toplam olasılığıdır O mevcut tüm akustik modellere göre. p(O/W) = p(ylT/W) = P(O/ l) olup HMM kullanılarak akustik modelleme aşamasında hesaplanır ve kanal olarak adlandırılır. p(O)'nun 1'e eşit olduğu varsayılır. Önceki olasılık p(W), bir dil modeli (LM) kullanılarak hesaplanır.

Basılı ve el yazısı metinleri tanımak için benzer bir tanıma modeli kullanılır.

5.2 Trigram tabanlı dil modeli

Belirli bir W=(w1,…,wn) kelime dizisi için olasılığı şu şekilde temsil edilebilir:

w0'ın başlangıç koşullarını sağlamaya uygun olduğu belirlenir. Sonraki her kelimenin olasılığı, önceden söylenmiş olan hi dizisine bağlıdır. Bu tanımlamaya göre, modelin karmaşıklığı kelimelerin konuşulan sırası arttıkça katlanarak artmaktadır. Modeli basitleştirmek ve pratiğe uygun hale getirmek için, hikayenin yalnızca bazı yönlerinin bir sonraki kelimenin olasılığını etkilediği varsayılmaktadır. Bunu başarmanın bir yolu, tarihsel uzayı K eşdeğer sınıfa bölen μ() işlemini kullanmaktır. Daha sonra modeli uygulayabilirsiniz:

Son 20 yılın en büyük başarısı, basit modeller n-gram. Çoğu zaman, yalnızca önceki iki kelimenin bir sonraki kelimenin olasılığını belirlediği trigramlar kullanılır. Bu durumda bir kelime dizisinin olasılığı şuna benzer:

NM'nin önceki olasılıklarını p(W) tahmin etmek için büyük miktarda eğitimsel metin materyaline ihtiyaç vardır. Değerlendirme sırasında frekanslar hesaplanır:

burada c123, kelime dizisinin (w1, w2, w3) geçme sayısıdır, c12 ise (w1, w2,) dizisinin geçme sayısıdır. V. ciltteki bir sözlük için V3 olası trigramları vardır; 20 bin kelimelik bir sözlük için 8 trilyon vardır. Açıkçası, bu trigramların çoğu eğitim dizilerinde bulunmayacak, dolayısıyla onlar için f3(w3/w1, w2) = 0. Karşılık gelen olasılıkların sıfıra eşit olmadığından emin olmak için trigramların, bigramların ve bigramların frekanslarının doğrusal enterpolasyonu kelimeler ve onların düzgün dağılım sözlükte:

f1() ve f2() karşılık gelen bigramlar ve trigramlar sayılarak değerlendirilir. Doğrusal enterpolasyonun katsayıları l, n-gram frekanslarının hesaplanmasına katılmayan yeni veriler için maksimum olasılık aranarak tahmin edilir. Maksimize ederken ileri-geri algoritması kullanılır (formüller (4.2) - (4.5)).

Genel olarak birden fazla l vektörü kullanılabilir. Daha fazla sayıda eğitim dizisi üzerinden tahmin edilen trigram frekanslarına daha fazla güven duyulması da tavsiye edilir. Bunun için l ağırlık katsayıları, söz konusu kelimenin geçmişini oluşturan bigram ve kelime b(c12, c2) gruplarına bağımlı hale getirilir. Bu yönteme silinmiş enterpolasyon denir. Diğer yumuşatma şemaları da kullanılır. Trigram kullanarak bir dili modellerken, sözlük verilerinin hacmi genellikle 1 milyon ila 500 milyon kelime arasında değişir ve buna karşılık gelen sözlük hacmi 1 bin ila 267 bin kelime arasındadır.

5.3 Karmaşıklık (karmaşıklık)

Tanıma sistemlerini karşılaştırmak için hata oranını kullanabilirsiniz. Bu ölçüm, dil modellerini en iyi şekilde değerlendirir. Ancak NM'yi değerlendirmenin daha ucuz bir yolu var. Bilgi miktarını - entropiyi - karakterize eden bir miktar kullanır. Buradaki fikir, modeli oluştururken kullanılmayan yeni metin için entropiyi hesaplamaktır. Doğrudan metinden hesaplanan kelime dağarcığı entropisi, ML'den hesaplanan entropi ile karşılaştırılır. Entropisi metne en yakın olan NM en iyisi olacaktır.

K kelimeden oluşan x metin parçasındaki kelimelerin doğru olasılık dağılımını p(x) olarak gösterelim. Metnin entropisini sözlük bazında şöyle tanımlayalım:

Metindeki kelimeler eşit olasılıklıysa ve metin boyutu V ise, diğer dağılımlar H?log2V için H=log2V olur. Bir metin segmentindeki olasılığı belirlemek için NM'yi kullanabilirsiniz. NM için olasılık logaritmasının değeri:

burada pО(wi/hi) belirli bir ML tarafından belirlenen olasılıklardır. Sınır, yani. NM kullanılarak hesaplanan, metnin entropisinden daha düşük değildir. Açıkçası, farklı NM'leri karşılaştırmanın amacı, NM'den hesaplanan olasılık logaritmasının metinden hesaplanan entropiye en yakın olacağı olanı bulmaktır.

Şaşkınlık, NM olasılığının logaritmasının seviyesini karakterize eder ve 2lp olarak tanımlanır. Kabaca konuşursak, bu, sözlüğün ortalama boyutudur. başka bir kelime tanınması üzerine. Şaşkınlık kullanılan konuşma alanına bağlıdır. Bazı konuşma alanlarına ilişkin şaşkınlık değerleri Tablo 5.1'de verilmiştir.

konuşma tanıma akustik dili

Tablo 5.1. Konuşma alanlarının karışıklığı

5.4 Sözlük boyutu

Hata oranı, sözlükte yer almayan konuşulan kelimelerin yüzdesinden daha düşük olamaz. Bu nedenle, bir makine öğrenimi oluşturmanın ana kısmı, sistemin tanıması muhtemel metinleri maksimum düzeyde kapsayan bir sözlük geliştirmektir. Bu, insani bir zorluk olmaya devam ediyor.

Sözlük oluştururken öncelikle sistemin çalışacağı görevi karakterize eden metinler seçilir. Daha sonra otomasyon araçları kullanılarak metinler kelimelere bölünür. Daha sonra her kelime, gelecekteki muhtemel seçenekler de dahil olmak üzere, bir dizi telaffuz seçeneğiyle ilişkilendirilir. Elde edilen tüm telaffuz seçenekleri trigramları oluşturmak için kullanılır.

Tablo 5.2, sabit boyutlu bir sözlük kullanıldığında tanıma sistemi tarafından İngilizce yeni metinlerin kapsanma yüzdesini göstermektedir. Kelime biçimlerinin çok olduğu ve sözcük oluşumunda bağımlılıkların olduğu dillerde (Almanca, Fransızca), aynı kapsam derecesi için çok daha büyük bir sözlüğe ihtiyaç vardır.

Daha rasyonel bir yaklaşım, sabit sözlüğe ek olarak, tanıma sisteminin her kullanıcısı için kişiselleştirilmiş bir sözlük derlenmesini içerir. Tablo 5.2, başlangıçta 20 bin kelimelik sabit bir sözlük hacmine sahip, dinamik olarak özelleştirilebilir böyle bir sistemin yeni kelimelerin kapsamındaki büyümeyi göstermektedir. Veriler, temsil edilen uzunluktaki metni tanırken aynı boyutta statik bir sözlük kullanan bir sistemle karşılaştırılır.

Tablo 5.2. Yeni metinlerin tanınma kalitesi

5.5 Geliştirilmiş dil modelleri

YaM'de trigramlara dayalı birçok iyileştirme var. Başlıcaları aşağıda belirtilmiştir.

Sınıf Modelleri

Dil modelindeki kelimeler yerine bir dizi kelime sınıfı kullanabilirsiniz. Bir kelime ait olabileceği için sınıflar çakışabilir farklı sınıflar. Sınıflar konuşmanın bölümlerine, bir kelimenin morfolojik analizine dayalı olabilir ve istatistiksel ilişkilere göre otomatik olarak belirlenebilir. Genel sınıf modeli şuna benzer:

ci sınıfların olduğu yer. Sınıflar kesişmiyorsa:

Böyle bir modelin karmaşıklığı, trigramlara dayalı olandan daha yüksektir, ancak bu iki türün modelleri birleştirildiğinde azalır.

Dinamik modeller

Burada geçmiş dikkate alınır ve belgenin tamamı kalıcı olur. Bu, sık geçen kelimeleri tespit etmek için yapılır (örneğin, bu metinde "model" kelimesi sık kullanılan bir kelimedir). Bu tür kelimeler için bir CACHE kullanmak, ML'yi daha dinamik hale getirerek arama süresini kısaltmanıza olanak tanır.

Kombinasyon modelleri

Diğer bir yaklaşım ise konuşma veritabanının tamamını birkaç kümeye bölmektir. Yeni bir metni modellemek için farklı kümelerdeki trigram modellerinin doğrusal bir kombinasyonu kullanılır:

burada pj() j'inci metin kümesine göre değerlendirilir.

Yapısal modeller

Bu modellerde, bir kelimenin olasılığını yakın geçmişe göre etkilemek yerine ayrıştırma kullanılır. Bu tür bir ayrıştırma yardımıyla, yakın zamanda uzak bigramlar oluşturulurken dikkate alınması önerilen silinmiş kelimeler arasında bir bağlantı kurulur.

5.6 Görünüm

Şu anda çabaların yoğunlaştığı ana alanlar şunlardır:

Sözlük seçimi

Yeni bir konuşma alanının sözlüğünün nasıl tanımlanacağı, sözlüğün kullanıcı için pratik olarak kişiselleştirilmesi ve metin kapsamının maksimuma çıkarılması. Bu sorun, çok sayıda kelime biçimine sahip diller ve kelime kavramının açıkça tanımlanmadığı doğu dilleri için en belirgindir.

Konuşma alanı uyarlaması

Bu, makinenin kullanabileceği büyük miktarda sözlük verisine sahip olmayan alanlar için etkili bir ML kurmanın yanı sıra konuşma konusunu belirleme görevidir. Bu, konuşma tanıma için spesifik, tematik bir modelin uygulanmasını mümkün kılacaktır.

Dil yapısını kullanma

Sistem işleyişinin kalitesini değerlendirmenin mevcut seviyesi, dilin yapısını kullanarak sistem işleyişinin iyileştirilmesine izin vermemektedir. Dilin yapısına dayalı bir dil modeli geliştirmek, dil modellemede ilerlemenin anahtarı olabilir. Olasılıksal modellere dayalı mevcut ilerlemeler, dil modellemenin gelişimindeki çocukluk aşamasını yansıtmaktadır. Buradaki ilerleme, artan veri yapılanmasıyla ilişkilidir.

ÇÖZÜM

Bu makale, mevcut gelişim aşamasında konuşma tanıma sistemlerinin oluşturulmasının temel ilkelerini, sınıflandırılmasını ve çözdükleri sorunları tartışmaktadır. Sistemlerin gürültü bağışıklığına modern bir yaklaşım düşünülmektedir.

Sistemin yapısı, bileşenleri tarafından çözülen ana görevler, kaynak sinyalinin ön işleme ilkeleri, akustik ve dil modellerinin oluşturulması sunulmaktadır.

Benzer belgeler

Sayısal sinyal işleme ve konuşma tanıma sistemlerinde kullanımı, ayrık sinyaller ve bunların dönüştürülme yöntemleri, sayısal filtrelemenin temelleri. Konuşma tanıma sistemlerinin uygulanması, homomorfik konuşma işleme, kayıt ve oynatma arayüzü.

tez, 06/10/2010 eklendi

Radyo kanallarının avantajları güvenlik sistemleri. Konuşma kodlamanın ana yönleri: dalga biçimi kodlaması ve kaynak kodlaması. GSM standardında konuşma işleme sürecinin blok diyagramı. Konuşma kodlaması kalite değerlendirmesi.

özet, 20.10.2011 eklendi

Konuşma ve veri aktarımındaki görevler. Dijital konuşma iletimi. Dijital konuşma kodlama yöntemlerinin kategorileri. Dalga biçimi kodlayıcılar. Kompresörün genlik karakteristiği türü. Ayrık konuşma üretimi modeli. Kısa vadeli analiz yönteminin özellikleri.

test, 12/18/2010 eklendi

Sinyal alımını optimize etme problemini çözmede ana aşamaların dikkate alınması. Çözümleri filtreleme ve optimize etme yöntemlerinin incelenmesi. Sinyal alımının değerlendirilmesine olasılıksal yaklaşım; Tanıma hatalarının olasılığının belirlenmesi. Statik tanıma kriterleri.

sunum, 28.01.2015 eklendi

Konuşma kodlaması RPE – LTP – 16 kbit/s kodlayıcı. GSM standardında bir konuşma kod çözücünün yapısı. 8. derece RF için Berg yöntemini kullanan kısa vadeli tahminin yansıma katsayıları. Son filtrenin spektral özellikleri. Formant bölgelerinin oluşumu.

Özet, 11/15/2010 eklendi

Homomorfik işlemenin blok diyagramları ve konuşma sinyallerinin analizi. Konuşmanın karmaşık cepstrumu. Konuşma sinyalinin bileşeni. Pitch periyodu ve formant frekansı. Ses yolu aktarım fonksiyon modülü. Cepstrum tabanlı perde tahmini.

özet, 11/19/2008 eklendi

Genel sınıflandırma Radyo erişim sistemleri ve ağları. Radyo erişim sistemlerinin radyo arayüzünün parametrelerine ve özelliklerine göre sınıflandırılması. Analog ve dijital iletimli sistemler. Hizmetler dijital iletim konuşma. Uygulanan çözülecek problemlere göre sınıflandırma.

özet, 10/06/2010 eklendi

Otomatik konuşma tanıma sorununun durumu. Ses sinyali okuma cihazlarının gözden geçirilmesi. Çevresel cihaz kontrol sisteminin mimarisi. Elektrikli cihaz kontrol devresi. Elektrikli cihazların bağlanmasının şematik diyagramı.

tez, 18.10.2011 eklendi

İletim sisteminin bilgi özellikleri ve blok şeması; analogdan dijitale dönüştürücü parametrelerinin ve çıkış sinyalinin hesaplanması. Düzeltme koduyla kodlama. Modemin özelliklerinin belirlenmesi; iletişim sistemlerinin gürültü bağışıklığının karşılaştırılması.

kurs çalışması, eklendi 28.05.2012

Radyo sinyal işleme cihazlarının yapısı, iç yapısı ve çalışma prensibi, sinyal işleme algoritmaları. Doğrusal bir cihazın çıkışında sinyal üretmenin temeli. Doğrusal cihaz modelleri. Devrenin operatör iletim katsayısının hesaplanması.

Belenko M.V. 1, Balakshin P.V. 2

1 öğrenci, ITMO Üniversitesi, 2 aday teknik bilimler, asistan, ITMO Üniversitesi

AÇIK KAYNAK KONUŞMA TANIMA SİSTEMLERİNİN KARŞILAŞTIRMALI ANALİZİ

Dipnot

Makale, en yaygın açık kaynaklı otomatik konuşma tanıma sistemlerinin karşılaştırmalı bir analizini sunmaktadır. Karşılaştırma sırasında sistem yapıları, uygulama için kullanılan programlama dilleri, ayrıntılı dokümantasyonun bulunabilirliği, desteklenen tanıma dilleri ve lisansın getirdiği kısıtlamalar gibi birçok kriter kullanıldı. Tanıma hızını ve doğruluğunu belirlemek için çeşitli konuşma derlemleri üzerinde de deneyler yapıldı. Sonuç olarak, dikkate alınan sistemlerin her biri için, faaliyet kapsamının ek bir göstergesiyle birlikte kullanım önerileri geliştirilmiştir.

Anahtar kelimeler: konuşma tanıma, metrik, Kelime Tanıma Oranı (WRR), Kelime Hata Oranı (WER), Hız Faktörü (SF), açık kaynak

Belenko M.V. 1, Balakshin P.V. 2

1 öğrenci, ITMO Üniversitesi, 2 Mühendislik Doktorası, asistan, ITMO Üniversitesi

AÇIK KODLU KONUŞMA TANIMA SİSTEMLERİNİN KARŞILAŞTIRMALI ANALİZİ

Soyut

Makale, en yaygın otomatik konuşma tanıma sistemlerinin açık kaynak koduyla karşılaştırılmasını sağlar. Karşılaştırmada sistem yapıları, uygulama programlama dilleri, ayrıntılı belgeler, desteklenen tanıma dilleri ve lisansın getirdiği kısıtlamalar dahil olmak üzere birçok kriter kullanıldı. Ayrıca tanıma hızı ve doğruluğunun belirlenmesi için çeşitli konuşma temelleri üzerinde deneyler yapılmıştır. Sonuç olarak, incelenen sistemlerin her biri için faaliyet kapsamının ek belirtilmesiyle birlikte uygulama önerileri verilmiştir.

Anahtar Kelimeler: konuşma tanıma, metrik, Kelime Tanıma Oranı (WRR), Kelime Hata Oranı (WER), Hız Faktörü (SF), açık kaynak kodu

Konuşma tanıma sistemleri (Otomatik Konuşma Tanıma Sistemleri) esas olarak bir kişi ile bir makine arasındaki iletişimi simüle etmek için, örneğin programların ses kontrolü için kullanılır. Şu anda konuşma sinyali tanıma, akıllı telefonlardaki uygulamalardan Akıllı Ev sistemlerine kadar çok çeşitli sistemlerde kullanılmaktadır. Bu alanın öneminin bir başka kanıtı da dünya çapındaki birçok araştırma ve geliştirme merkezidir. Ancak işletim sistemlerinin büyük çoğunluğu tescilli ürünlerdir; kullanıcının veya potansiyel geliştiricinin kaynak kodlarına erişimi yoktur. Bu, konuşma tanıma sistemlerinin açık kaynaklı projelere entegre edilme yeteneğini olumsuz yönde etkiler. Açık kaynaklı konuşma tanıma sistemlerinin olumlu ve olumsuz yönlerini açıklayan merkezi bir veri kaynağı da yoktur. Sonuç olarak seçim sorunu ortaya çıkıyor optimal sistem Sorunu çözmek için konuşma tanıma.

Çalışmanın bir parçası olarak altı açık kaynaklı sistem dikkate alındı: CMU Sphinx, HTK, iAtros, Julius, Kaldi ve RWTH ASR. Seçim, çağdaş araştırma dergilerinde bahsedilme sıklığına, son yıllardaki mevcut gelişmelere ve bireysel yazılım geliştiricileri arasındaki popülerliğe dayanmaktadır. Seçilen sistemler tanıma doğruluğu ve hızı, kullanım kolaylığı ve iç yapı gibi göstergeler açısından karşılaştırıldı.

Doğruluk açısından sistemler en yaygın metrikler kullanılarak karşılaştırıldı: Aşağıdaki formüller kullanılarak hesaplanan Kelime Tanıma Oranı (WRR), Kelime Hata Oranı (WER):

burada S, sözcükleri değiştirmek için yapılan işlem sayısıdır, I, sözcük eklemek için yapılan işlem sayısıdır, D, orijinal ifadeyi elde etmek için tanınan bir ifadeden sözcükleri çıkarmak için yapılan işlem sayısıdır ve T, orijinaldeki sözcük sayısıdır ifade ve yüzde olarak ölçülür. Tanıma hızı açısından karşılaştırma, Hız Faktörü (SF) olarak da bilinen, tanıma süresinin tanınan sinyalin süresine oranının bir göstergesi olan Gerçek Zaman Faktörü kullanılarak yapıldı. Bu gösterge aşağıdaki formül kullanılarak hesaplanabilir:

burada T ref sinyal tanıma süresidir, T süresidir ve gerçek zamanın kesirleri olarak ölçülür.

Tüm sistemler, Wall Street Journal gazetesinden alıntılar olan, yaklaşık 160 saatlik eğitim verisi ve 10 saatlik test verisini içeren WSJ1 (Wall Street Journal 1) konuşma külliyatı kullanılarak eğitildi. Bu konuşma külliyatı, her iki cinsiyetten konuşmacıların İngilizce kayıtlarını içerir.

Deneyi gerçekleştirip sonuçları işledikten sonra aşağıdaki tablo elde edildi (Tablo 1).

Tablo 1 – Doğruluk ve hız için karşılaştırma sonuçları

Sistem	WER, %	WRR, %	SF
HTK	19,8	80,2	1.4
CMU Sfenks (cep sfenks/sfenks4)	21.4/22.7	78.6/77.3	0.5/1
Kaldi	6.5	93.5	0.6
Julius	23.1	76.9	1.3
iAtros	16.1	83.9	2 .1
RWTH ASR	15.5	84.5	3.8

Çalışmanın doğruluğu ve doğruluğu, elde edilen sonuçların, bu sistemleri Verbmobil 1, Quaero, EPPS, , gibi diğer konuşma korporalarında test ederken elde edilen sonuçlara benzer olmasıyla doğrulanmaktadır.

Yapıları karşılaştırma kriterleri, sistem uygulamasının dili, tanımada kullanılan algoritmalar, giriş ve çıkış verilerinin formatları ve sistemin kendisinin yazılım uygulamasının iç yapısıydı.

Konuşma tanıma süreci genel olarak aşağıdaki aşamalarda temsil edilebilir:

Giriş sinyalinden akustik özelliklerin çıkarılması.
Akustik modelleme.
Dil modelleme.
Kod çözme.

Söz konusu konuşma tanıma sistemlerinin listelenen aşamaların her birinde kullandığı yaklaşımlar, algoritmalar ve veri yapıları tablolarda sunulmaktadır (Tablo 2, 3).

Tablo 2 – Algoritmaların karşılaştırma sonuçları

Sistem	Özellik Çıkarma	Akustik modelleme	Dil modelleme	Tanıma
HTK	MFCC	HMM	N-gram	Viterbi algoritması
CMU Sfenks	MFCC, PLP	HMM	N gram, FST	Viterbi algoritması, Bushderby algoritması
Kaldi	MFCC, PLP	HMM, GMM, SGMM, DNN	FST, N-gramm->FST dönüştürücüsü var	İki geçişli ileri-geri algoritması
Julius	MFCC, PLP	HMM	N-gramm, Kural tabanlı	Viterbi algoritması
iAtros	MFCC	HMM, GMM	N gram, FST	Viterbi algoritması
RWTH ASR	MFCC, PLP, seslilik	HMM, GMM	N gram, WFST	Viterbi algoritması

Tablo 3 – Sistem uygulama dilleri ve yapıları

Sistem	Dil	Yapı
HTK	İLE	Yardımcı programlar şeklinde modüler
CMU Sfenks (cep sfenks/sfenks4)	C/Java	Modüler
Kaldi	C++	Modüler
Julius	C	Modüler
iAtros	C	Modüler
RWTH ASR	C++	Modüler

Kullanım kolaylığı açısından dokümantasyon detayı, çeşitli yazılım ve donanım yürütme ortamlarına yönelik destek, lisans kısıtlamaları, çoklu doğal tanıma dillerine destek ve arayüz özellikleri gibi göstergeler dikkate alınmıştır. Sonuçlar aşağıdaki tablolarda sunulmaktadır (Tablo 4, 5, 6, 7, 8).

Tablo 4 – Dokümantasyonun mevcudiyeti

Tablo 5 - Çeşitli işletim sistemleri desteği

Sistem	Desteklenen işletim sistemi
HTK	Linux, Solaris, HPUX, IRIX, Mac OS, FreeBSD, Windows
CMU Sfenks (cep sfenks/sfenks4)	Linux, MacOS, Windows, Android
Kaldi	Linux, Windows, FreeBSD
Julius	Linux, Windows, FreeBSD, Mac OS
iAtros	Linux
RWTH ASR	Linux, Mac OS

Tablo 6 - Sistem arayüzleri

Tablo 7 – Desteklenen tanıma dilleri

Tablo 8 - Lisanslar

Sistem	Lisans
HTK	HTK
CMU Sfenks (cep sfenks/sfenks4)	BSD
Kaldi	Apaçi
Julius	BSD benzeri
iAtros	GPLv3
RWTH ASR	RWTH ASR

Yukarıda elde edilen sonuçları analiz ettikten sonra, söz konusu sistemlerin her birini karakterize etmek ve bunların kullanımına yönelik öneriler geliştirmek mümkündür.

Kaldi. Bu sistem dikkate alınan tüm sistemler arasında en iyi tanıma doğruluğunu (WER=%6,5) ve ikinci tanıma hızını (SF=0,6) gösterir. Konuşma tanıma için kullanılan algoritmalar ve veri yapıları açısından bu sistem aynı zamanda bir liderdir. en büyük sayı akustik modelleme aşamasında sinir ağları ve Gauss karışım modellerinin kullanılması, dil modelleme aşamasında ise sonlu durum makinelerinin kullanılması gibi konuşma tanıma alanında kullanılan modern yaklaşımlar. Ayrıca akustik sinyal özelliklerinin boyutunu azaltmak ve buna bağlı olarak sistem performansını artırmak için birçok algoritma kullanmanıza da olanak tanır. Kaldi, sistemin hızına olumlu etkisi olan C++ programlama dilinde yazılmış olup, sistemin yeniden düzenlenmesini, yeni işlevsellik eklenmesini ve mevcut hataların düzeltilmesini kolaylaştıran modüler bir yapıya sahiptir. Kaldi kullanışlılık açısından da ilk sistemlerden biridir. Ayrıntılı belgeler sağlar ancak konuşma tanıma konusunda deneyimli okuyuculara yöneliktir. Bu durum, bu alana yeni başlayanlar tarafından bu sistemin kullanımı üzerinde olumsuz bir etkiye sahip olabilir. Çapraz platformdur, yani çoğu modern işletim sisteminde çalışır. Kaldi yalnızca bir konsol arayüzü sağlıyor ve bu da üçüncü taraf uygulamalara entegrasyonu zorlaştırıyor. Varsayılan olarak bu sistem yalnızca ingilizce dili, tamamen ücretsiz bir Apache lisansı altında dağıtılmaktadır, yani kodu ifşa edilmeden ticari bir ürüne entegre edilebilir. Bu sistem, iyi bir tanıma doğruluğu, kabul edilebilir bir tanıma hızı sağladığı ve birçok uygulamayı uyguladığı için araştırma faaliyetlerinde başarıyla kullanılabilir. modern yöntemler konuşma tanıma, kullanımı kolaylaştıran ve kapsamlı belgelere sahip birçok hazır tarife sahiptir.

CMU Sfenks. Bu konuşma tanıma sistemi, vasat bir tanıma doğruluğu (WER~%22) ve incelenenler arasında en iyi tanıma hızını (SF=0,5) gösterir. En yüksek tanıma hızının C ile yazılmış Pocketsphinx kod çözücü kullanıldığında elde edildiğine dikkat edilmelidir; sphinx4 kod çözücü oldukça ortalama bir çalışma hızı gösterir (SF=1). Yapısal olarak bu sistem, değiştirilmiş Viterbi algoritması da dahil olmak üzere konuşma tanımaya yönelik birçok modern yaklaşımı kullanır, ancak Kaldi'den daha az kullanılan yaklaşım vardır. Özellikle akustik modelleme aşamasında bu sistem sadece gizli Markov modelleriyle çalışmaktadır. CMU Sphinx iki kod çözücü içerir: C'de uygulanan Pocketsphinx ve Java'da uygulanan Sphinx4. Bu, sistemin Android işletim sistemi de dahil olmak üzere birden fazla platformda kullanılmasına olanak tanır ve ayrıca Java ile yazılmış projelere entegrasyonu kolaylaştırır. Bu sistemin modüler bir yapıya sahip olması, hızlı değişiklik yapma ve hataları düzeltme becerisine olumlu etki yapmaktadır. Kullanım kolaylığı açısından CMU Sphinx, Kaldi'nin önündedir, çünkü konsol arayüzüne ek olarak sistemi üçüncü taraf bir uygulamaya entegre etme sürecini önemli ölçüde basitleştiren bir API sağlar. Ayrıca, Kaldi'den farklı olarak acemi geliştiriciyi hedef alan ve sistemi tanıma sürecini büyük ölçüde kolaylaştıran ayrıntılı belgelere de sahiptir. Ayrıca güçlü nokta Bu sistem varsayılan olarak birçok dili destekleyecek şekilde tasarlanmıştır, yani bu dillerin dil ve akustik modellerinin ücretsiz erişimde bulunması. Desteklenen diller arasında standart İngilizceye ek olarak Rusça, Kazakça ve daha birçok dil bulunmaktadır. CMU Sphinx, ticari projelere entegrasyonuna olanak tanıyan BSD lisansı altında dağıtılmaktadır. Bu sistem, biraz daha kötü tanıma doğruluğu sağlamasına rağmen Kaldi'nin avantajlarının çoğuna sahip olduğu ve ayrıca bu sistemi temel alan üçüncü taraf uygulamalar oluşturmak için kullanılabilecek bir API sağladığı için ticari projelerde kullanılabilir.

HTK. Doğruluk ve hız açısından bu sistem, incelenen sistemler arasında ortalama sonuçlar göstermektedir (WER=%19,8, SF=1,4). HTK, konuşma tanıma alanında yalnızca klasik algoritmalar ve veri yapıları sağlar. Bunun nedeni sistemin önceki sürümünün 2009 yılında piyasaya sürülmesidir. HTK'nın yeni bir sürümü Aralık 2015'in sonunda yayımlandı ancak bu çalışmada dikkate alınmadı. Bu sistem, C'nin düşük seviyeli bir programlama dili olması nedeniyle işlem hızına iyi bir şekilde yansıyan C dilinde uygulanmaktadır. Bu sistemin yapısı, komut satırından çağrılan bir dizi yardımcı programdan oluşur ve ayrıca ATK olarak bilinen bir API sağlar. Kullanım kolaylığı açısından HTK, Julius ile birlikte incelenenler arasında önde gelen sistemlerdir. Dokümantasyon olarak, yalnızca HTK'nin işleyişinin çeşitli yönlerini değil, aynı zamanda konuşma tanıma sistemlerinin genel ilkelerini de açıklayan bir kitap olan HTK Kitabı'nı sağlar. Varsayılan olarak bu sistem yalnızca İngilizce'yi destekler. Sistemin kaynak kodunun dağıtımına izin veren HTK lisansı altında dağıtılır. Bu sistemin konuşma tanıma alanındaki eğitim faaliyetlerinde kullanılması önerilebilir. Konuşma tanıma sorununu çözmeye yönelik klasik yaklaşımların çoğunu uygular, genel olarak konuşma tanımanın temel ilkelerini de açıklayan çok ayrıntılı belgelere sahiptir ve birçok öğretici ve tarif içerir.

Julius. Bu sistem en kötü doğruluk oranını (WER=23.1) ve ortalama tanıma oranını (SF=1.3) göstermektedir. Akustik ve dil modelleme aşamaları HTK'da bulunan yardımcı programlar kullanılarak gerçekleştirilir, ancak kod çözme, kendi kod çözücüsü kullanılarak gerçekleşir. Tartışılan sistemlerin çoğu gibi Viterbi algoritmasını kullanıyor. Bu sistem C dilinde uygulanmaktadır, uygulama yapısı modülerdir. Sistem, üçüncü taraf uygulamalara entegrasyon için bir konsol arayüzü ve API sağlar. Dokümantasyon, HTK'da olduğu gibi Julius kitabı biçiminde uygulanır. Julius varsayılan olarak İngilizce ve Japonca'yı destekler. BSD benzeri bir lisans altında dağıtılmaktadır. Julius sistemi, HTK'nın tüm avantajlarına sahip olması ve aynı zamanda bu tür tanıma yeteneği sağlaması nedeniyle eğitim faaliyetleri için de önerilebilir. egzotik dil Japonca gibi.

Iatros. Bu sistem, tanıma doğruluğu açısından iyi bir sonuç (WER=%16,1) ve hız açısından vasat bir sonuç (SF=2,1) göstermektedir. Konuşma tanımada kullanılan algoritmalar ve veri yapılarına ilişkin yetenekleri oldukça sınırlıdır ancak akustik modelleme aşamasında Gauss karışım modellerini gizli bir Markov modelinin durumları olarak kullanma fırsatı sağlar. Bu sistem C dilinde uygulanmaktadır. Modüler bir yapıya sahiptir. Konuşma tanıma işlevselliğinin yanı sıra bir metin tanıma modülü de içerir. sahip değil büyük önem taşıyan Ancak bu çalışma için bu sistemin göz ardı edilemeyecek ayırt edici bir özelliğidir. Kullanım kolaylığı açısından iAtros, çalışma sırasında incelenen tüm sistemlerden daha düşüktür. Bu sistemin dokümantasyonu yoktur, üçüncü taraf uygulamalara yerleştirme için bir API sağlamaz; desteklenen varsayılan diller İngilizce ve İspanyolca'dır. Yalnızca Linux ailesinin işletim sistemlerinde çalıştığı için hiçbir şekilde platformlar arası değildir. Bu sistemin kaynak kodları açıklanmadan ticari projelere entegre edilmesine izin vermeyen GPLv3 lisansı altında dağıtılmaktadır, bu da onu uygunsuz kılmaktadır. ticari faaliyetler. iAtros sistemi, konuşma tanımanın yanı sıra görüntü tanımanın da kullanılmasının gerekli olduğu durumlarda başarıyla kullanılabilir, çünkü bu sistem böyle bir fırsat sağlar.

RWTH ASR. Tanıma doğruluğu açısından RWTH ASR iyi bir sonuç gösterirken (WER=%15,5), ancak tanıma hızı açısından ele alınanlar arasında en kötü sistemdir (SF=3,8). Bu sistem, iAtros gibi akustik modelleme aşamasında Gauss karışım modellerini kullanabilmektedir. Ayırt edici özellik giriş sinyalinin akustik özelliklerini çıkarırken seslendirme özelliklerini kullanma olasılığıdır. Ayrıca bu sistem, dil modelleme aşamasında dil modeli olarak ağırlıklı durum makinesini kullanabilir. Bu sistem C++ dilinde uygulanmış olup modüler bir mimariye sahiptir. Kullanım kolaylığı açısından sondan ikinci; yalnızca kurulum sürecini açıklayan belgelere sahiptir ve bu, sistemle çalışmaya başlamak için açıkça yeterli değildir. Yalnızca bir konsol arayüzü sağlar, varsayılan olarak yalnızca İngilizce'yi destekler. Sistem, günümüzde çok yaygın olan Windows işletim sistemi altında çalışamadığı için yeterince çapraz platform özelliği taşımıyor. Sistem kodunun yalnızca ticari olmayan kullanım için sağlandığı RWTH ASR lisansı altında dağıtılır, bu da bu sistemi ticari projelere entegrasyon için uygunsuz hale getirir. Bu sistem, tanıma doğruluğunun önemli olduğu ancak zamanın önemli olmadığı sorunları çözmek için kullanılabilir. Lisansın getirdiği kısıtlamalar nedeniyle herhangi bir ticari faaliyete tamamen uygun olmadığını da belirtmekte fayda var.

Literatür / Referans Listesi

CMU Sfenks Wiki [ Elektronik kaynak] – URL: http://cmusphinx.sourceforge.net/wiki/ (erişim tarihi: 01/09/2017)
Gaida C. Açık kaynaklı konuşma tanıma araç setlerinin karşılaştırılması [Elektronik kaynak]. / C. Gaida ve diğerleri. // OASIS Projesinin Teknik Raporu. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (erişim tarihi: 02/12/2017)
El Moubtahij H. Çevrimdışı Arapça el yazısı metin tanıma için yerel yoğunlukların, istatistiklerin ve HMM araç setinin (HTK) özelliklerini kullanma / H. El Moubtahij, A. Halli, K. Satori // Elektrik Sistemleri ve Bilgi Teknolojileri Dergisi – 2016. – V 3. Hayır.3. – S.99-110.
Jha M. MLLR hoparlör uyarlaması ve güven ölçümü kullanılarak geliştirilmiş denetimsiz konuşma tanıma sistemi / M. Jha ve ark. // V Jornadas en Tecnologias del Habla (VJTH’2008) – 2008. – S. 255-258.
Kaldi [Elektronik kaynak]. – URL: http://kaldi-asr.org/doc (erişim tarihi: 12/19/2016)
Luján-Mares M. iATROS: BİR KONUŞMA VE EL YAZISI TANIMA SİSTEMİ / M. Luján-Mares, V. Tamarit, V. Alabau ve ark. // V Journadas en Technologia del Habla - 2008. - S. 75-58.
El Amrania M.Y. Basitleştirilmiş Arapça fonemler kullanılarak Kur'an-ı Kerim için CMU Sfenks dil modelinin oluşturulması / M.Y. El Amrania, M.M. Hafızur Rahmanb, M.R. Wahiddinb, A. Shahb // Mısır Bilişim Dergisi – 2016. – V. 17. Sayı. 3. – S.305–314.
Ogata K. VCV dizileri için bir süperpozisyon modeline dayalı eklemsel zamanlamanın analizi / K. Ogata, K. Nakashima // IEEE Uluslararası Sistemler, İnsan ve Sibernetik Konferansı Bildirileri - 2014. - Ocak baskısı. – S.3720-3725.
Sundermeyer Rwth 2010 quaero asr değerlendirme sistemi İngilizce için, Fransızca ve Almanca / M. Sundermeyer ve ark. // Uluslararası Akustik, Konuşma ve Sinyal İşleme Konferansı Bildirileri (ICASSP) – 2011. – S. 2212-2215.
Alimuradov A.K. SESLİ KONTROLÜN ETKİNLİĞİNİ ARTIRMANIN UYARLANABİLİR YÖNTEMİ / A.K. Alimuradov, P.P. Churakov // Uluslararası Bilimsel ve Teknik Konferansı “İleri Bilgi Teknolojileri” Bildirileri – 2016. – S. 196-200.
Bakalenko V.S. Program kodu girişi/çıkışının entelektüelleştirilmesi konuşma teknolojileri: dis. ... Mühendislik ve Teknoloji Yüksek Lisansı. – DonNTU, Donetsk, 2016.
Balakshin P.V. Telefonla müşteri destek hizmetleri için gizli Markov modellerine dayalı algoritmik ve yazılımsal konuşma tanıma araçları: dis. ...cand. teknoloji. Bilimler: 13/05/11: korumalı 12/10/2015: onaylandı. 06/08/2016 / Balakshin Pavel Valerievich. – St. Petersburg: ITMO Üniversitesi, 2014. – 127 s.
Balakshin P.V. SMM DURUM SÜRESİNİN YOĞUNLUK FONKSİYONU. AVANTAJLARI VE DEZAVANTAJLARI / P.V. Balakshin // Bilim ve eğitimin modern sorunları. – 2011. – No. 1. – S. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (erişim tarihi: 11/13/2016).
Belenko M.V. AÇIK KOD KONUŞMA TANIMA SİSTEMLERİNİN KARŞILAŞTIRMALI ANALİZİ / M.V. Belenko // V Tüm Rusya Genç Bilim Adamları Kongresi'nin eserlerinin toplanması. T. 2. – St. Petersburg: ITMO Üniversitesi, 2016. – S. 45-49.
Gusev M.N. Konuşma tanıma sistemi: temel modeller ve algoritmalar / M.N. Gusev, V.M. Degtyarev. – St. Petersburg: Znak, 2013. – 128 s.
Karpov A.A. Akıllı yaşam alanı için multimodal yardımcı sistemler / A.A. Karpov, L. Akarun, A.L. Ronzhin // SPIIRAN'ın Tutanakları. – 2011. – T.19. – No. 0. – S.48-64.
Karpov A.A. Otomatik konuşma tanıma sistemlerinin performansını değerlendirme metodolojisi / A.A. Karpov, I.S. Kipyatkova // Yükseklerin Haberleri eğitim kurumları. Enstrümantasyon. – 2012. – T.55. – No. 11. – s. 38-43.
Tampel I.B. Otomatik konuşma tanıma – 50 yılı aşkın ana aşamalar / I.B. Tampel // Bilimsel ve Teknik Bülten Bilişim teknolojisi, mekanik ve optik. – 2015. – T. 15. – Sayı. 6. – S. 957–968.

İngilizce referansların listesi /Referanslar içinde İngilizce

CMU Sfenks Wiki. – URL: http://cmusphinx.sourceforge.net/wiki/ (erişim tarihi: 01/09/2017).
Gaida C. Açık kaynaklı konuşma tanıma araç setlerinin karşılaştırılması. / C. Gaida ve diğerleri. // OASIS Projesinin Teknik Raporu. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (erişim tarihi: 02.12.2017)
El Moubtahij, H. Çevrimdışı Arapça el yazısı metin tanıma için yerel yoğunlukların, istatistiklerin ve HMM araç setinin (HTK) özelliklerini kullanma / H. El Moubtahij, A. Halli, K. Satori // Elektrik Sistemleri ve Bilgi Teknolojileri Dergisi – 2016. – V.3. No.3. – S.99-110.
Jha, M. MLLR hoparlör uyarlaması ve güven ölçümü kullanılarak geliştirilmiş denetimsiz konuşma tanıma sistemi / M. Jha ve ark. // V Jornadas en Tecnologias del Habla (VJTH’2008) – 2008. – S. 255-258.
Kaldi. – URL: http://kaldi-asr.org/doc (erişim: 19.12.2016)
Luján-Mares, M. iATROS: KONUŞMA VE EL YAZISI TANIMA SİSTEMİ / M. Luján-Mares, V. Tamarit, V. Alabau ve ark. // V Journadas en Technologia del Habla - 2008. - S. 75-58.
El Amrania, M.Y. Basitleştirilmiş Arapça fonemler kullanılarak Kur'an-ı Kerim için CMU Sfenks dil modelinin oluşturulması / M.Y. El Amrania, M.M. Hafızur Rahmanb, M.R. Wahiddinb, A. Shahb // Mısır Bilişim Dergisi – 2016. – V. 17. Sayı. 3. – S.305–314.
Ogata, K. VCV dizileri için bir süperpozisyon modeline dayalı eklemsel zamanlamanın analizi / K. Ogata, K. Nakashima // IEEE Uluslararası Sistemler, İnsan ve Sibernetik Konferansı Bildirileri - 2014. - Ocak baskısı. – S.3720-3725.
Sundermeyer, M. İngilizce, Fransızca ve Almanca için rwth 2010 quaero asr değerlendirme sistemi / M. Sundermeyer ve ark. // Uluslararası Akustik, Konuşma ve Sinyal İşleme Konferansı Bildirileri (ICASSP) – 2011. – S. 2212-2215.
Alimuradov A.K. ADAPTIVNYJ YÖNTEM POVYSHENIJa JeFFEKTIVNOSTI GOLOSOVOGO UPRAVLENIJa / A.K. Alimuradov, P.P. Churakov // Trudy Mezhdunarodnoj nauchno-tehnicheskoj konferencii “Perspektivnye informacionnye tehnologii”. – 2016. – S. 196-200.
Bakalenko V.S. Intellektualizatsiya vvoda-vyivoda koda programı s pomoschyu rechevyih teknoloji: dis. ... Mühendislik ve Teknoloji Yüksek Lisans Derecesi. – DonNTU, Donetsk, 2016.
Balakshin P.V. Algoritmalar ve programların kullanımı, yeni akıllı telefon modellerine ve müşteri hizmetlerine yönelik olarak gerçekleştirilir: dis. … Mühendislik Doktorası: 13/05/11: tez savunması 12/10/2015: onaylandı 06/08/2016 / Balakshin Pavel Valer'evich. – SPb.: ITMO Üniversitesi, 2014. – 127 s.
Balakshin P.V. FUNKCIJa PLOTNOSTI DLITEL'NOSTI SOSTOJANIJ SMM. PREIMUShhESTVA I NEDOSTATKI / P.V. Balakshin // Sorunlu nauki ve obrazovanija'yı yönetin. – 2011. – No. 1. – S. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (erişim: 11/13/2016).
Belenko M.V. SRAVNITELNYY ANALIZ SISTEMI RASPOZNAVANIYA RECHI S OTKRYTYM KODOM / M.V. Belenko // Sbornik trudov V Vserossiyskogo kongressa molodyih uchenyih. V. 2. – SPb.: ITMO Üniversitesi, 2016. S. 45-49.
Gusev M.N. Sistem Raspoznavaniya Rechi: İşletim Sistemi ve Algoritma / M.N. Gusev V.M. Degtyarev. – SPb.: Znak, 2013. – 141 s.
Karpov A.A. Çok Yönlü Destek Sistemi Entellektualnogo Zhilogo Prostranstva / A.A. Karpov, L.Akarun, A.L. Ronzhin // Trudyi SPIIRAN. – 2011. – V. 19. – No. 0. – S.48-64.
Karpov A.A. Metodologiya otsenivaniya rabotyi sistem avtomaticheskogo raspoznavaniya rechi / A.A. Karpov, I.S. Kipyatkova // Izvestiya vyisshih uchebnyih zavedeniy. Priborostroenie.
– 2012. – V. 55. – No. 11. – S.38-43.

Tampel I.B. Avtomaticheskoe raspoznavanie rechi – osnovnyie etapyi za 50 let / I.B. Tampel // Nauchno-Tehnicheskii Vestnik Informatsionnykh Tekhnologii, Mekhaniki ve Optiki. – 2015. – V. 15. – Sayı. 6. – S. 957–968.

Birinin konuşmasını dinlediğimizde iç kulağımız sesin frekans spektrumunu analiz eder ve beynimiz sözcüğü algılar. Bazı bilgisayarlar bu süreci bir spektrum analizörü kullanarak simüle edebilir.

Ses sinyalleri analizöre bir mikrofon aracılığıyla girer ve bunların spektral özellikleri analiz edilir. Bilgisayar daha sonra alınan sinyalleri programlanmış bir ses birimi listesiyle veya akustik yapı bloklarıyla karşılaştırır. Kısa vadeli sinyaller standart kelime kalıplarıyla karşılaştırılarak dil ve sözdizimi kurallarıyla ilişkilendirilir. Bu işlem bilgisayarın konuşulan kelimeleri tanımlamasına yardımcı olur. Program yeterince karmaşıksa, bağlamdan "meyve" veya "sal" kelimesinin söylenip söylenmediğini bile belirleyebilir. Ancak bir bilgisayarın konuşmayı gerçekten insanlar gibi anlayıp anlayamadığı, bugüne kadar hararetle tartışılan bir konu olmaya devam ediyor. Bilgisayarınızı yanıt verecek şekilde programlayabilirsiniz. kelimeler, ama bu gerçek anlayışın yerini alacak mı? Alanında uzman bazı kişiler yapay zeka Birkaç on yıl içinde bir bilgisayarın bir kişiyle alakalı, gündelik bir konuşma yapabileceğine inanıyorlar. Bununla birlikte, pek çok uzman, bilgisayarın her zaman önceden derlenmiş yanıtlarla program tarafından sınırlandırılacağına inanıyor.

Ses tanıma

Birkaç saniyeden uzun süre konuşulan sesler daha kısa zaman dilimlerine bölünür. Bilgisayar daha sonra her bölümün frekans bileşenlerini analiz eder.

Akustik analiz

Ses spektrografı, sesin görünür biçimdeki spektrumunu temsil eder. Bir analiz yöntemiyle normal bir ses zinciri insan sesi Bileşenlerinin gücünü ve sıklığını belirtmek için renk kodlu bölümlere ayrılmıştır. Yukarıdaki gibi üç boyutlu grafikler, bu tür bilgileri görselleştirmenin başka bir yolunu gösterir.

Karar vermek

Analiz sonuçlarına göre bilgisayar, verilen kelime. Bilgisayar, kaydedilen analizi olası adayların listesiyle karşılaştırır, ardından belirli bir sesin belirli bir kelimeyle eşleşip eşleşmediğini belirlemek için sözcük ve sözdizimi kurallarını uygular.

Standart konuşma kalıpları

Konuşmanın en küçük birimleri frekans spektrumuna göre tanımlanır. Standart konuşma kalıpları belirli bir kelimede hangi birimin mevcut olduğunu gösterir.

Ses spektrografı (yukarıda) konuşulan sözcüklerdeki seslerin akustik analizini gerçekleştirir. Burada ünlü sesi (sol üstte) sesli harf spektrumuyla (altta) karşılaştırılıyor.

Ses dalgaları kulak zarının titreşmesine neden olur. Bu titreşim birkaç küçük kemiğe iletilir ve beyne giden elektrik sinyallerine dönüştürülür.