Nowoczesne metody automatycznego rozpoznawania mowy. Analiza porównawcza systemów rozpoznawania mowy typu open source

15 lipca 2009 o 22:16

Rozpoznawanie mowy. Część 1. Klasyfikacja systemów rozpoznawania mowy

Sztuczna inteligencja

Epigraf

W Rosji obszar systemów rozpoznawania mowy jest rzeczywiście dość słabo rozwinięty. Google już dawno zapowiadało system nagrywania i rozpoznawania rozmów telefonicznych... Niestety, nie słyszałem jeszcze o systemach o podobnej skali i jakości rozpoznawania w języku rosyjskim.

Ale nie myśl, że wszyscy za granicą już wszystko odkryli dawno temu i nigdy ich nie dogonimy. Szukając materiału do tego cyklu, musiałem przekopać się przez chmurę zagranicznej literatury i rozpraw doktorskich. Co więcej, te artykuły i rozprawy zostały napisane przez wspaniałych amerykańskich naukowców Huang Xuedong; Hisayoshi Kojima; DongSuk Fuj itd. Wiadomo już, kto wspiera tę gałąź amerykańskiej nauki? ;0)

W Rosji znam tylko jedną inteligentną firmę, której udało się wprowadzić domowe systemy rozpoznawania mowy na poziom komercyjny: Centrum Technologii Mowy. Ale być może po tej serii artykułów komuś przyjdzie do głowy, że jest możliwe i konieczne rozpoczęcie tworzenia takich systemów. Ponadto pod względem algorytmów i mat. Praktycznie nie zostaliśmy w tyle za aparatem.

Klasyfikacja systemów rozpoznawania mowy

Dziś pod pojęciem „rozpoznawania mowy” kryje się cały obszar działalności naukowo-inżynierskiej. Ogólnie rzecz biorąc, każde zadanie rozpoznawania mowy sprowadza się do wyodrębnienia, sklasyfikowania i odpowiedniego zareagowania na ludzką mowę z wejściowego strumienia audio. Może to być także egzekucja pewne działanie na polecenie danej osoby oraz wybór konkretnego słowa znacznika z szerokiej gamy rozmów telefonicznych, a także systemy głosowego wprowadzania tekstu.

Znaki klasyfikacji systemów rozpoznawania mowy

Każdy taki system ma określone zadania, które ma rozwiązać, oraz zestaw podejść stosowanych do rozwiązywania problemów. Rozważmy główne cechy, według których można klasyfikować systemy rozpoznawania ludzka mowa i jak ten objaw może wpłynąć na działanie systemu.

Rozmiar słownika. Oczywiście im większy rozmiar słownika wbudowanego w system rozpoznawania, tym większy poziom błędów przy rozpoznawaniu słów przez system. Na przykład słownik składający się z 10 cyfr można rozpoznać niemal bezbłędnie, natomiast wskaźnik błędów przy rozpoznawaniu słownika zawierającego 100 000 słów może sięgać 45%. Z drugiej strony, nawet uznanie nie jest duży słownik może powodować dużą liczbę błędów rozpoznawania, jeśli słowa w tym słowniku są do siebie bardzo podobne.
Zależność głośnika lub niezależność głośnika od systemu. Z definicji system zależny od głośnika jest przeznaczony do użytku przez jednego użytkownika, podczas gdy system niezależny od głośnika jest przeznaczony do współpracy z dowolnym głośnikiem. Niezależność mówcy jest celem trudnym do osiągnięcia, gdyż podczas szkolenia system jest dostosowywany do parametrów mówcy, na którego przykładzie jest szkolony. Poziom błędów rozpoznawania takich systemów jest zwykle 3-5 razy wyższy niż poziom błędów systemów zależnych od głośników.
Mowa oddzielna lub ciągła. Jeśli w mowie każde słowo jest oddzielone od siebie sekcją ciszy, wówczas mówią, że ta mowa jest osobna. Mowa ciągła to zdania wypowiadane w sposób naturalny. Rozpoznanie mowy ciągłej jest znacznie trudniejsze ze względu na to, że granice poszczególnych wyrazów nie są wyraźnie określone, a ich wymowa jest w znacznym stopniu zniekształcona poprzez rozmycie wypowiadanych dźwięków.
Zamiar. Przeznaczenie systemu określa wymagany poziom abstrakcji, na którym nastąpi rozpoznawanie mowy mówionej. W systemie poleceń (na przykład wybieranie głosowe komórka) najprawdopodobniej rozpoznanie słowa lub frazy nastąpi jako rozpoznanie pojedynczego elementu mowy. System dyktowania tekstu będzie wymagał większej dokładności rozpoznawania i najprawdopodobniej przy interpretacji wypowiadanej frazy będzie opierał się nie tylko na tym, co zostało powiedziane w języku ten moment, ale także jego związek z tym, co powiedziano wcześniej. Ponadto system musi mieć wbudowany zestaw zasady gramatyki, które musi spełniać wyraźny i rozpoznawalny tekst. Im bardziej rygorystyczne są te zasady, tym łatwiej jest wdrożyć system uznawania i tym bardziej ograniczony będzie zestaw wyroków, które będzie on mógł uznawać.

Różnice pomiędzy metodami rozpoznawania mowy

Tworząc system rozpoznawania mowy należy wybrać, jaki poziom abstrakcji będzie odpowiedni dla danego zadania, jakie parametry fali dźwiękowej zostaną wykorzystane do rozpoznania oraz metody rozpoznawania tych parametrów. Rozważmy główne różnice w strukturze i procesie działania różnych systemów rozpoznawania mowy.

Według rodzaju jednostki strukturalnej. Analizując mowę, jak podstawowa jednostka można wybierać pojedyncze słowa lub części słów mówionych, takie jak fonemy, di- lub trifony i alofony. W zależności od wybranej części konstrukcyjnej zmienia się struktura, wszechstronność i złożoność słownika rozpoznawanych elementów.
Poprzez identyfikację cech. Sama sekwencja odczytów ciśnienia fali dźwiękowej jest nadmiernie zbędna dla systemów rozpoznawania dźwięku i zawiera wiele niepotrzebnych informacji, które nie są potrzebne do rozpoznania, a nawet szkodliwe. Zatem, aby reprezentować sygnał mowy, należy wybrać z niego pewne parametry, które odpowiednio reprezentują ten sygnał do rozpoznania.
Zgodnie z mechanizmem funkcjonowania. W nowoczesnych systemach są one szeroko stosowane różne podejścia do mechanizmu funkcjonowania systemów uznawania. Podejście sieci probabilistycznej polega na tym, że sygnał mowy dzielony jest na określone części (ramki lub według cech fonetycznych), po czym następuje probabilistyczna ocena, do jakiego elementu rozpoznawanego słownika się odnosi. ta część i/lub cały sygnał wejściowy. Podejście oparte na rozwiązaniach problem odwrotny synteza dźwięku polega na tym, że na podstawie sygnału wejściowego określa się charakter ruchu artykulatorów traktu głosowego i za pomocą specjalnego słownika określa się wymawiane fonemy.

UPD: Przeniesiono do „Sztucznej inteligencji”. Jeśli będzie zainteresowanie, będę tam nadal publikować.

Programy komercyjne rozpoznawanie mowy pojawiło się na początku lat dziewięćdziesiątych. Korzystają z nich najczęściej osoby, które z powodu kontuzji ręki nie są w stanie napisać dużej ilości tekstu. Programy te (np. Dragon NaturallySpeaking, VoiceNavigator) tłumaczą głos użytkownika na tekst, odciążając w ten sposób jego ręce. Wiarygodność tłumaczenia takich programów nie jest zbyt wysoka, ale z biegiem lat stopniowo się poprawia.

Zwiększona moc obliczeniowa urządzenia mobilne umożliwiło tworzenie dla nich programów z funkcjami rozpoznawania mowy. Wśród takich programów warto zwrócić uwagę na aplikację Microsoft Voice Command, która umożliwia pracę z wieloma aplikacjami za pomocą głosu. Możesz na przykład odtwarzać muzykę w odtwarzaczu lub utworzyć nowy dokument.

Inteligentne rozwiązania mowy, które automatycznie syntetyzują i rozpoznają mowę ludzką, to kolejny krok w rozwoju interaktywnych systemów głosowych (IVR). Korzystanie z interaktywnej aplikacji na telefon to obecnie nie trend w modzie, a wręcz niezbędna konieczność. Odciążenie operatorów contact center i sekretarek, obniżenie kosztów pracy i zwiększenie produktywności systemów obsługi to tylko niektóre z korzyści potwierdzających wykonalność tego typu rozwiązań.

Postęp jednak nie stoi w miejscu i w ostatnim czasie w interaktywnych aplikacjach telefonicznych coraz częściej zaczęto stosować systemy automatycznego rozpoznawania i syntezy mowy. W takim przypadku komunikacja z portalem głosowym staje się bardziej naturalna, ponieważ wyboru w nim można dokonać nie tylko za pomocą wybierania tonowego, ale także za pomocą poleceń głosowych. Jednocześnie systemy rozpoznawania są niezależne od głośników, to znaczy rozpoznają głos dowolnej osoby.

Kolejnym krokiem w technologiach rozpoznawania mowy można uznać rozwój tzw. Silent Speech Interfaces (SSI). Te systemy przetwarzania mowy opierają się na odbiorze i przetwarzaniu sygnałów mowy na wczesnym etapie artykulacji. Ten etap Rozwój rozpoznawania mowy jest spowodowany dwiema istotnymi wadami współczesnych systemów rozpoznawania: nadmierną wrażliwością na hałas, a także koniecznością wyraźnej i wyraźnej mowy podczas dostępu do systemu rozpoznawania. Podejście SSI polega na zastosowaniu nowych czujników, na które nie wpływa hałas, jako uzupełnienie przetwarzanych sygnałów akustycznych.

Obecnie istnieje pięć głównych obszarów zastosowania systemów rozpoznawania mowy:

Sterowanie głosowe to sposób interakcji i sterowania działaniem urządzenia za pomocą poleceń głosowych. Systemy sterowania głosowego są nieskuteczne przy wprowadzaniu tekstu, za to wygodne przy wprowadzaniu poleceń, takich jak:

Rodzaje systemów

Obecnie istnieją dwa rodzaje systemów rozpoznawania mowy – działające „na kliencie” i działające na zasadzie „klient-serwer”. W przypadku korzystania z technologii klient-serwer polecenie głosowe jest wprowadzane na urządzenie użytkownika i przesyłane przez Internet na zdalny serwer, gdzie jest przetwarzane i zwracane do urządzenia w postaci polecenia (Google Voice, Vlingo itp.) ; ze względu na duża ilość użytkowników serwera, system rozpoznawania otrzymuje dużą bazę do szkoleń. Pierwsza opcja działa na pozostałych algorytmy matematyczne i jest rzadkie (Speereo Software) – w tym przypadku polecenie jest wprowadzane na urządzeniu użytkownika i tam przetwarzane. Zaletą przetwarzania „na kliencie” jest mobilność, niezależność od dostępności komunikacji i obsługi zdalnego sprzętu. Zatem system działający „na kliencie” wydaje się bardziej niezawodny, ale czasami jest ograniczony mocą urządzenia po stronie użytkownika.

Wyślij swoją dobrą pracę do bazy wiedzy jest prosta. Skorzystaj z poniższego formularza

Studenci, doktoranci, młodzi naukowcy, którzy wykorzystują bazę wiedzy w swoich studiach i pracy, będą Państwu bardzo wdzięczni.

Opublikowano na http://www.allbest.ru/

WSTĘP

Mowa ludzka jest badana od dawna. W połowie XX wieku pojawił się problem automatycznego rozpoznawania mowy przez komputery. W ciągu półwiecza naukowcom udało się zgromadzić ogromną wiedzę na temat przedmiotu badań. Stało się jasne, że rozpoznawanie mowy jest bardzo trudnym zadaniem.

Podstawową techniką wielu systemów rozpoznawania mowy jest metoda statystyczna, zwane ukrytym modelowaniem Markowa (HMM). Takie systemy są rozwijane w wielu ośrodkach i są w stanie dobrze rozpoznawać słowa mowy. Prawdopodobieństwo rozpoznania słowa sięga 80 - 90%.

Obszary zastosowań systemów automatycznego rozpoznawania mowy są bardzo zróżnicowane. Na przykład od początku lat dziewięćdziesiątych kilka amerykańskich i kanadyjskich firm na zlecenie Departamentu Obrony USA opracowuje systemy rozpoznawania przeznaczone do przechwytywania rozmów telefonicznych. Ostatnio systemy rozpoznawania zaczęto wykorzystywać w szkoleniach komputerowych. język obcy, systemy przygotowywania dokumentów tekstowych. Obiecujące obszary to rozwój systemów pomocy dla osób niepełnosprawnych i poprawa interfejsu człowiek-maszyna.

Czynnikami utrudniającymi powszechne wdrażanie systemów automatycznego rozpoznawania mowy są:

Złożoność realizacji w małych urządzeniach mobilnych ze względu na wysokie koszty obliczeniowe i ich znaczną nierównomierność, a także konieczność przechowywania w pamięci dużego słownika (zestawu modeli rozpoznawalnych jednostek mowy);

Znaczące pogorszenie parametrów jakościowych w warunkach zakłócających.

W artykule przedstawiono podstawowe zasady konstruowania systemów rozpoznawania mowy, wstępnego przetwarzania sygnału źródłowego, konstruowania modeli akustycznych i językowych oraz rozważano nowoczesne podejście do odporności systemów rozpoznawania na zakłócenia. Rozważane są metody oceny jakości systemów uznawania kwalifikacji.

Zwrócono także uwagę na problemy rozwojowe, perspektywy rozwoju i ciągłego doskonalenia systemów uznawania kwalifikacji.

1. SYSTEMY ROZPOZNAWANIA MOWY

Rozpoznawanie mowy to proces przekształcania elektrycznie przetworzonego sygnału akustycznego na sekwencję słów. Rozpoznawane słowa mogą być wynik końcowy jeżeli celem systemu jest kontrola, wprowadzanie danych lub przygotowanie dokumentów. Mogą być także podstawą późniejszego przetwarzania językowego w celu osiągnięcia zrozumienia mowy.

1.1 Klasyfikacja i struktura systemów rozpoznawania mowy

Klasyfikacja

Systemy rozpoznawania mowy charakteryzują się wieloma parametrami, z których najważniejsze przedstawiono w tabeli 1.1.

Tabela 1.1. Ogólne parametry systemów rozpoznawania mowy

Parametr	Zakres zmian
Łączność	Pojedyncze słowa lub ciągła mowa
	Mowa oparta na tekście pisanym lub spontaniczna
Modyfikacja	Zależność lub niezależność od mówiącego
	Z małego(<20 слов) до большого(>20000)
Model języka	Zależne od stanu lub kontekstu
Zakłopotanie	Z małego (< 10) до большой (> 100)
	Duży (>30dB) do małego (<10dB)

Jeśli system jest zaprojektowany tak, aby rozpoznawał pojedyncze słowa, mówca musi zrobić przerwę między nimi, jeśli chodzi o mowę ciągłą, to nie. Mowa spontaniczna zawiera zwykle znacznie więcej niespójności niż mowa osoby czytającej tekst pisany i dlatego jest trudniejsza do rozpoznania. Niektóre systemy wymagają dopasowania głośników, w przypadku których użytkownik musi wypowiedzieć kilka słów lub fraz, aby dostosować system przed użyciem systemu, podczas gdy inne systemy tego nie wymagają. Rozpoznawanie jest ogólnie trudniejsze, gdy słownictwo jest duże i zawiera wiele podobnie brzmiących słów.

Najprostszy model języka można opisać siecią o określonej liczbie stanów. W nim zbiór ważnych słów następujących po każdym słowie jest określony. Modele przybliżające język naturalny są definiowane przy użyciu gramatyk kontekstowych.

Powszechnie stosowanym wskaźnikiem złożoności problemu rozwiązywanego przez system rozpoznawania jest zakłopotanie (trudność, złożoność, złożoność). Zakłopotanie definiuje się jako liczbę możliwych słów następujących po danym słowie w danym modelu językowym.

System rozpoznawania charakteryzuje się także takim parametrem jak maksymalny dopuszczalny stosunek sygnału do szumu (SNR).

Rozpoznawanie mowy jest zadaniem złożonym, głównie ze względu na dużą liczbę źródeł wpływających na parametry sygnału mowy:

Dźwięk akustyczny fonemów, najmniejszych jednostek mowy, silnie zależy od otaczającego je kontekstu fonetycznego (/t/ w słowach dwa, prawda, masło), we frazach zależność kontekstowa staje się jeszcze silniejsza („mistrzowska produkcja”, „ucz się dobrze maniery");

Różnice w sygnale akustycznym spowodowane różnicami w akustyce pomieszczenia, charakterystyce mikrofonu i rozmieszczeniu;

Stan fizyczny i emocjonalny mówiącego;

Jego wiek, płeć, status społeczny, dialekt.

Ogólną strukturę systemu rozpoznawania mowy przedstawiono na rysunku 1.1.

Rysunek 1.1 - Struktura systemu rozpoznawania mowy.

Sygnał mowy jest dzielony na sekcje i dla każdej sekcji obliczany jest zestaw parametrów. Parametry te służą do znalezienia najlepszego słowa kandydującego w ramach dostępnych modeli akustycznych, leksykalnych i językowych. Modele leksykalne we współczesnych systemach zawarte są w modelu języka jako zasady i metody tworzenia słownika na podstawie istniejącej bazy tekstowej i wyszukiwania w niej. W najprostszych systemach model języka degeneruje się do modelu leksykalnego.

1.2 Obecny poziom rozwoju

Jakość systemu uznawania ocenia się zwykle za pomocą takiego wskaźnika, jak poziom błędu:

(1.1)

N to całkowita liczba słów w zestawie testowym, S, I, D to odpowiednio liczba podstawień, wstawień i usunięć słów.

Od lat 90. XX wieku nastąpił znaczny postęp w technologii rozpoznawania mowy. Poziom błędu zmniejszał się około 2 razy co 2 lata. Bariery związane z zależnością systemu rozpoznawania od mówiącego, ciągłym rozpoznawaniem mowy i użyciem dużego słownika zostały w dużej mierze pokonane. Złożyło się na to kilka czynników:

- wykorzystanie ukrytych modeli Markowa (HMM);

Opracowanie standardowych zasad zestawiania baz danych mowy do celów szkoleniowych i testowych (TIMIT, RM, ATIS, WSJ itp.) umożliwia programistom określenie liczby sygnałów akustycznych ważnych dla uwypuklenia cech fonetycznych w oparciu o techniki statystyczne. Standaryzacja zasad szkolenia i testowania umożliwia także porównanie wydajności różnych systemów;

- znaczny wzrost wydajności systemów obliczeniowych.

Typowym zadaniem o niskim stopniu trudności (PP = 11) jest rozpoznawanie numerów w standardowym kanale telefonicznym. Tutaj osiągnięto poziom błędu 0,3% przy znanej długości ciągu cyfr.

Zadania o średnim poziomie zakłopotania to zadania związane z zarządzaniem zasobami, np. system rozpoznawania mowy spontanicznej dla systemu informacji o ruchu lotniczym (Air Travel Information Service, ATIS) ze słownikiem ok. 2000 słów i PP=15 osiąga stopę błędu nie więcej niż 3%.

Systemy przeznaczone do dyktowania tekstu charakteryzują się wysokim poziomem zakłopotania (PP? 200) i dużym słownikiem (około 20 000 słów). Osiągnięty przez nich poziom błędów wynosi około 7%.

Główne obszary zastosowań systemów rozpoznawania to głosowe wybieranie numeru telefonu (np. „dzwonienie do domu” zamiast wybierania numeru), przygotowywanie dokumentów, systemy informacyjno-referencyjne oraz systemy nauczania języków obcych.

1.3 Perspektywy

Odporność na hałas

Jakość działania systemów rozpoznawania katastrofalnie spada w miarę wzrostu różnicy pomiędzy warunkami rejestracji danych mowy szkoleniowej a warunkami rzeczywistej pracy na skutek różnorodnych zakłóceń. Dlatego też szczególna uwaga zostanie poświęcona wpływowi środowiska akustycznego i charakterystykom elektrycznym kanału transmisyjnego.

Ruchliwość

Kiedy nowoczesne systemy są przenoszone w celu rozwiązania nowego problemu, jakość ich pracy znacznie spada. Aby to ulepszyć, wymagane jest przeszkolenie systemu. Przenośność oznacza możliwość wykorzystania systemu do rozwiązywania różnych problemów przy minimalnej regulacji.

Adaptacja, dopasowanie

Nawet podczas działania systemu w celu rozwiązania tego samego problemu warunki zewnętrzne mogą się zmienić (głośniki, mikrofony itp.). Należy podjąć decyzję, w jaki sposób wymusić na systemie poprawę jakości pracy w trakcie eksploatacji i przystosowanie się do nowych warunków.

Modele językowe

Nowoczesne systemy wykorzystują statystyczne modele językowe, aby zmniejszyć przestrzeń poszukiwań i rozwiązać niepewność modelu akustycznego. W miarę zwiększania się rozmiaru słownictwa i zmniejszania się innych ograniczeń, zdefiniowanie zasad i ograniczeń narzuconych przez składnię rozpoznawanego języka staje się coraz ważniejsze dla tworzenia realnych systemów. Jednocześnie czysto statystyczne modele języka będą zawierać coraz więcej reguł i ograniczeń syntaktycznych i semantycznych.

Miara zaufania do hipotez

Większość systemów rozpoznawania służących do porządkowania hipotez wiąże każdą hipotezę z określoną wagą, liczbą. Obecnie waga ta z reguły nie jest wskaźnikiem wiarygodności danej hipotezy (czyli tego, dlaczego dana hipoteza jest lepsza od innych). W przypadku problemów zarządzania konieczne jest udoskonalenie metod oceny wiarygodności hipotez.

Słowa, których nie ma w słowniku

Systemy są zaprojektowane do użytku z określonym słownictwem. Jednak w prawdziwym życiu zawsze będzie pewien procent słów, których nie ma w słowniku. Muszą istnieć metody wykrywania obecności takich słów i ich przetwarzania.

Spontaniczna mowa

Systemy działające w rzeczywistych warunkach zawsze spotykają się z różnymi zjawiskami właściwymi dla mowy spontanicznej: falstartami, jąkaniem, konstrukcjami niegramatycznymi itp. Rozwój ATIS rozwiązał wiele problemów w tym obszarze, ale nie wszystkie.

Prozodia (intonacja i rytm)

Intonacja i struktura rytmiczna mowy niosą ze sobą informację o znaczeniu wypowiadanych słów. Jednak kwestia zintegrowania informacji prozodycznych z systemem uznawania nie została jeszcze rozwiązana.

Symulacja dynamiki

Nowoczesne systemy odbierają sekwencję odcinków sygnału akustycznego i przetwarzają je jako statyczne i niezależne od siebie. Wiadomo jednak, że odcinki sygnału postrzegane jako fonemy i słowa wymagają połączenia parametrów wydobytych z sygnału i ich przedstawienia w dynamice. Odzwierciedlałoby to dynamiczną artykulację. Modelowanie dynamiki sygnału mowy dla systemu rozpoznawania pozostaje nierozwiązanym problemem.

2. REPREZENTACJA SYGNAŁU ORYGINALNEGO

2.1 Zasady wstępnego przetwarzania sygnałów

W przypadku rozpoznawania mowy opartego na metodach statystycznych oryginalny sygnał jest próbkowany z częstotliwością od 6,6 do 20 kHz i przetwarzany w celu przedstawienia go w postaci sekwencji wektorów w przestrzeni cech, które modelują stan przewodu głosowego osoby mówiącej. W tym przypadku odcinek sygnału pierwotnego o czasie trwania 10 – 25 ms, czyli 150 – 300 próbek, zwykle silnie ze sobą skorelowanych, rozkłada się na szereg ortogonalny i dla danej wartości błędu przedstawia się w postaci w postaci 10–20 współczynników rozszerzalności, zwanych parametrami.

Te wektory parametrów są wykorzystywane w kolejnych etapach do oszacowania prawdopodobieństwa wektora lub sekwencji wektorów należących do fonemu lub całego słowa podczas testowania hipotezy przynależności.

W większości systemów procesy reprezentacji wektorowej sygnału i szacowania prawdopodobieństwa są ze sobą ściśle powiązane. Zakłada się zatem, że jeżeli na sygnale mowy zostanie zastosowana operacja lub procedura, należy to do etapu prezentacji. Jeśli służy do testowania hipotezy, stanowi część etapu obliczania zgodności.

Celem etapu reprezentacji sygnału jest zachowanie wszystkich przydatnych informacji niezbędnych do identyfikacji fonetycznej danej części sygnału mowy. Jednocześnie prezentacja powinna być jak najbardziej odporna na takie czynniki, jak różnice między mówcami, cechy kanałów komunikacji i stan emocjonalny. Prezentacja powinna być również możliwie zwięzła.

Reprezentacje stosowane we współczesnych systemach w większym stopniu odzwierciedlają właściwości sygnału mowy ze względu na kształt traktu głosowego niż sygnał pobudzenia (ton podstawowy generowany przez krtań i struny głosowe). Reprezentacje określają jedynie, czy struny głosowe wibrują, czy nie, tj. czy dźwięk jest wokalizowany.

Stosowane reprezentacje prawie zawsze pochodzą z ograniczonego widma energii, czyli gęstości widmowej mocy sygnału

gdzie x1, …, xl, …, xn to początkowa sekwencja próbek w segmencie; S(ejш) - współczynniki widmowe. Wskazane jest wykorzystanie widma energetycznego, ponieważ ucho jest niewrażliwe na fazę sygnału akustycznego.

Ponadto widmo energii prawie zawsze wykorzystuje reprezentację logarytmiczną. Dzięki temu możliwa jest redukcja zbyt dużych zmian parametrów przy znacznych wahaniach amplitudy sygnału, a także przekształcenie multiplikatywnych efektów akustycznych i zakłóceń pochodzących od wykorzystywanego sprzętu w zakłócenia addytywne. Wadą reprezentacji logarytmicznej jest niepewność logarytmu zera. Wymaga to ograniczenia minimalnej skali amplitudy sygnału do jakiejś wartości niezerowej i ograniczenia samego sygnału od dołu, aby uniknąć nadmiernej wrażliwości na składowe widmowe o niskiej energii, którymi są głównie szum. .

Rysunek 2.1 – Reprezentacja sygnału mowy do rozpoznania

Przed obliczeniem widma sygnał zwykle poddawany jest wstępnej filtracji, która zapewnia, że wzmocnienie sygnału rośnie wraz ze wzrostem częstotliwości o nachylenie 6 dB/oktawę, aby skompensować tłumienie wprowadzane przez tor elektryczny. Oryginalny sygnał jest następnie dzielony na kolejne, nakładające się sekcje, zwykle o długości 25 ms, które są przetwarzane przez funkcję dzwonka w celu zmniejszenia amplitudy sygnału na krawędziach sekcji. Następnie obliczana jest gęstość widmowa mocy.

Powstałe widmo energii zawiera niepożądaną składową harmoniczną przy częstotliwości podstawowej. Składową tę można zmniejszyć, grupując sąsiednie zestawy składowych widmowych w celu utworzenia grupy około 20 pasm przed obliczeniem logarytmu mocy. Pasma te są często stopniowo poszerzane w odstępach co 1 kHz. Możliwe jest także zastosowanie zestawu filtrów cyfrowych. Wyniki są podobne.

Reprezentacja cepstralna sygnału dodatkowo zmniejsza korelację sąsiadujących próbek w sygnale oryginalnym. Zakłada się tutaj, że mowa jest sygnałem wyjściowym układu liniowego o wolno zmieniających się parametrach - traktu głosowego, wzbudzanego albo sekwencją podstawowych impulsów tonów, albo szumem. Analiza sygnału mowy polega w tym przypadku na obliczeniu parametrów traktu głosowego na podstawie zmierzonych parametrów sygnału mowy i ocenie ich w czasie. Ponieważ sygnał wzbudzenia x(n) i odpowiedź impulsowa filtra h(n) oddziałują na siebie poprzez operację splotu, problem analizy jest uważany za problem oddzielenia składowych biorących udział w operacji splotu. Problem ten nazywany jest problemem odwrotnego splotu lub problemem rozpakowywania. Aby go rozwiązać, należy znaleźć następujący homomorfizm: C(x(n)*h(n)) = C(x(n)) + C(h(n)). Homomorfizm ten można zrealizować za pomocą następującej transformacji:

c(n) = F-1(ln[ |F(x(n))| ]),(2.2)

co nazywa się cepstrum sygnału dyskretnego x(n), F i F-1 są odpowiednio bezpośrednią i odwrotną dyskretną transformatą Fouriera.

Autoregresyjna reprezentacja sygnału (predykcja liniowa, LPC) jest powiązana z tym samym modelem powstawania sygnału mowy. Współczynniki autoregresji oblicza się z warunku bezpośredniej minimalizacji korelacji pomiędzy bliskimi próbkami sygnału mowy x(ti):

Na początkowym etapie obliczania parametrów sygnału różni programiści stosują różne modele, widmo energii lub autoregresję, na przykład w telefonii zwykle stosuje się autoregresję, ponieważ we wszystkich nowoczesnych wokoderach telefonicznych obliczane są te parametry. W systemach komputerowych widmo jest zwykle obliczane, ponieważ komponenty użyte do jego obliczenia mogą być wykorzystywane przez inne aplikacje. W przyszłości zostaną obliczone współczynniki cepstralne Ci, gdyż są one najbardziej odpowiednie do zadania rozpoznawania. Obliczanie cepstrum metodą autoregresji jest bardziej ekonomiczne obliczeniowo, co jest dobre w przypadku ograniczonych zasobów telefonii. Nie ma tak ścisłych ograniczeń dla komputerów, ale wszechstronność i możliwość ponownego wykorzystania kodu są ważne, więc widmo jest lepsze. Niektóre systemy obliczają także dynamikę zmian parametrów sygnału dCi w obrębie odcinka sygnału oraz pomiędzy sąsiednimi sekcjami.

Różne stałe czynniki zewnętrzne, takie jak charakterystyka konkretnego połączenia telefonicznego, pojawiają się jako stała składowa (odchylenie) widma lub cepstrum. Różnica, parametry dynamiczne dCi nie podlegają takim efektom. Jeżeli przez integrator przejdą parametry dynamiczne pierwszego rzędu, przywrócone zostaną wartości zbliżone do pierwotnych, statycznych parametrów Ci. Podobna technika zastosowana do sekwencji współczynników widma mocy, przed przyjęciem logarytmu, jest użyteczna do ograniczenia zakłóceń pochodzących od stacjonarnego lub wolno zmieniającego się szumu addytywnego.

Ponieważ współczynniki cepstralne są prawie nieskorelowane, wydajną obliczeniowo metodą uzyskania dość dobrych szacunków probabilistycznych w późniejszym procesie dopasowywania jest obliczenie odległości euklidesowych do odpowiednich wektorów modelowych. Obliczenia odległości dokonuje się po odpowiednim zważeniu współczynników (parametrów). Istnieje wiele metod ważenia, które można podzielić na dwie główne klasy: empiryczną i statystyczną.

Istnieją techniki, które łączą wymienione metody i pozwalają na niemal całkowite usunięcie korelacji parametrów, jednak ze względu na rosnące koszty obliczeniowe są one obecnie wykorzystywane w celach demonstracyjnych.

2.2 Perspektywy

Obecnie badana jest możliwość wykorzystania transformacji falkowych oraz metod sieci neuronowych na etapie prezentacji sygnału pierwotnego, pozwalających na nieliniowe operacje na sygnale pierwotnym lub na wynikach innych transformacji. Trwa rozwój reprezentacji, które dokładniej oddają akustykę pomieszczenia, a także przywracają artykulację z sygnału mowy.

Nowoczesne metody reprezentacji sygnału wykorzystują jedynie kształt widma, bez uwzględnienia częstotliwości podstawowej. Wiadomo jednak, że nawet w przypadku rozpoznawania pojedynczego słowa częstotliwość tonu może być wskazówką do identyfikacji słowa leksykalnego. Dotyczy to nie tylko języków tonalnych, takich jak chiński, ale także europejskich, ponieważ częstotliwość ta jest związana ze stresem leksykalnym. W mowie połączonej ton podstawowy niesie ze sobą informację o strukturze syntaktycznej zdania i nastroju mówiącego. Badania w tej dziedzinie będą kontynuowane.

3. ROZPOZNAWANIE MOWY ODPORNOŚCI NA HAŁASY

3.1 Określenie odporności na zakłócenia

Odporność na zakłócenia (odporność) w rozpoznawaniu mowy wiąże się z koniecznością zapewnienia wystarczającej dokładności w przypadku czynników destabilizujących:

Gdy jakość wejściowego sygnału mowy jest niska,

Gdy występują znaczne różnice we właściwościach akustycznych, artykulacyjnych i fonetycznych mowy pomiędzy warunkami szkolenia i testowania (pracy).

Źródłem tych czynników są:

Zakłócenia akustyczne w postaci szumu addytywnego,

Zjawiska filtracji liniowej

Zniekształcenia nieliniowe podczas konwersji i transmisji sygnału pierwotnego,

Zakłócenia impulsów

Zmiany w artykulacji głośników spowodowane obecnością źródeł hałasu.

Nowoczesne systemy zaprojektowane do pracy w sprzyjających warunkach akustycznych w dużej mierze osiągnęły niezależność głośników, kompensując pewne pogorszenie sygnału spowodowane szumem i nieznanym filtrowaniem liniowym. Jednak w przypadku zastosowań w świecie rzeczywistym potrzeba poprawy wytrzymałości jest wyraźna. Nawet najlepsze nowoczesne systemy znacznie pogarszają wydajność, jeśli rozpoznawany sygnał przechodzi przez kanał telefoniczny lub jeśli mówca mówi z akcentem. Następnie rozważamy odporność na zniekształcenia sygnału spowodowane otaczającymi, zewnętrznymi źródłami zakłóceń. Główne podejścia do wytrzymałości to dynamiczna regulacja parametrów, wykorzystanie układów mikrofonów i przetwarzanie sygnału z uwzględnieniem psychologicznych modeli percepcji.

3.2 Dynamiczna regulacja parametrów

Zazwyczaj modele adaptacji systemów do zmieniających się warunków środowiskowych zakładają, że źródłami degradacji jakości mowy są szum addytywny o nieznanym rozkładzie gęstości widmowej mocy lub kombinacja szumu addytywnego i filtrowania liniowego. Aby skompensować te zakłócenia, system może dynamicznie dostosowywać parametry akustyczne, zarówno wyliczane na podstawie rozpoznanego sygnału wejściowego, jak i przechowywanych przez system modeli akustycznych wypowiedzi. Istnieją trzy główne podejścia do dynamicznego dostosowywania parametrów:

Wykorzystanie optymalnej estymacji w celu uzyskania nowych wartości parametrów w warunkach testowych,

Zastosowanie kompensacji w oparciu o empiryczne porównanie sygnału mowy w warunkach treningowych i testowych,

Filtrowanie górnoprzepustowe wartości parametrów.

Optymalna estymacja parametrów

Stosowane są dwa główne podejścia do optymalnej estymacji.

Pierwsza opiera się na formalnościach model statystyczny, który charakteryzuje różnicę między mową używaną do uczenia systemu a mową używaną do testowania systemu. Wartości parametrów modelu szacuje się na podstawie testowych próbek mowy zarejestrowanych w różnych środowiskach, po czym modyfikuje się albo obliczone parametry sygnału wejściowego, albo modele akustyczne jednostek mowy przechowywane w systemie. Eksperymenty pokazują, że takie podejście znacznie zmniejsza liczbę błędów podczas rozpoznawania sygnału mowy z dodatkiem szumu. Jednak takie podejście nie jest w stanie poważnie przeciwdziałać pogorszeniu jakości mowy w rzeczywistych warunkach.

Drugim popularnym podejściem jest wykorzystanie wiedzy o hałasie do wymuszenia na modelach fonetycznych charakteryzowania mowy za pomocą szumu. Wiedzę czerpie się z istniejących wzorców interferencji i wykorzystuje do dostosowania parametrów modeli fonetycznych (zmiany średnich i wariancji) obliczonych na podstawie mowy bez zakłóceń. Podejście to jest realizowane w technice zwanej kombinacją modeli równoległych. Daje dobre wyniki w przypadku interferencji addytywnej, multiplikatywnej i rzeczywistych sygnałów mowy. Jednak obecnie zbyt wysokie koszty obliczeniowe uniemożliwiają jego zastosowanie w systemach rozpoznawania.

Empiryczne porównanie parametrów

Parametry wyodrębnione z mowy bez zakłóceń porównuje się z parametrami tej samej mowy nagranej z zakłóceniami. W tym podejściu łączny efekt różnych zakłóceń jest uważany za addytywne naruszenie parametrów sygnału. Podczas porównywania parametrów obliczane są wektory korekcyjne, które następnie służą do korekcji wektorów parametrów rozpoznanego sygnału wejściowego lub wektorów parametrów modeli akustycznych przechowywanych w systemie rozpoznawania.

Dokładność rozpoznawania poprawia się, jeśli przyjmie się, że wektory korekcyjne zależą od: stosunku sygnału do szumu, położenia w przestrzeni parametrów w obrębie danego stosunku sygnału do szumu lub oczekiwanej zgodności fonemów.

To ogólne podejście można rozszerzyć na przypadki, w których środowisko testowe jest a priori nieznane, poprzez utworzenie zestawu wektorów korekcyjnych dla wielu różnych warunków środowiska testowego. Wektory korekcyjne są następnie kolejno stosowane do modeli mowy, zaczynając od prawdopodobnie najbardziej prawdopodobnego wektora, aż do znalezienia najlepszego dopasowania do wektora uzyskanego z sygnału wejściowego.

Jeśli warunki obliczania wektorów korekcyjnych są zbliżone do rzeczywistych warunków pracy systemu, jakość jego działania jest dość wysoka. Wadą jest konieczność wykorzystania nagrania stereofonicznego do stworzenia bazy modeli akustycznych.

Stosowanie filtrów górnoprzepustowych

Zastosowanie filtracji wysokoczęstotliwościowej lub pasmowo-przepustowej przy obliczaniu współczynników cepstralnych pozwala przy minimalnych kosztach znacznie zwiększyć odporność systemu na zakłócenia. Metoda ta jest zaimplementowana w algorytmach RASTA i CMN. Algorytmy te są obecnie stosowane w prawie wszystkich systemach, w których wymagana jest odporność na zakłócenia.

3.3 Korzystanie z układów mikrofonowych

Dodatkową poprawę dokładności rozpoznawania przy niskim stosunku sygnału do szumu można osiągnąć za pomocą układu mikrofonów. Taka matryca w zasadzie może realizować czułość kierunkową o charakterystyce, która ma maksimum w kierunku głośnika i minimum w kierunku źródeł zakłóceń, podobnie jak antena z układem fazowanym w komunikacji radiowej. Zmieniając fazę poszczególnych elementów za pomocą sumatorów i linii opóźniających, można precyzyjnie dostroić charakterystykę kierunkowości w miarę zmiany warunków pracy. Jednocześnie wykorzystywane są algorytmy kompensujące zabarwienie widmowe wprowadzone przez samą matrycę. Eksperymenty z układem mikrofonów w środowisku biurowym wykazały zmniejszenie poziomu błędów do 61% w przypadku zakłóceń w postaci dodatkowego źródła szumu.

Chociaż matryca jest skuteczna w walce z zakłóceniami w postaci addytywnego, niezależnego szumu, znacznie pogarsza wydajność w obecności wielu powierzchni odbijających, gdy zakłóceniami są lekko opóźniona i osłabiona część sygnału użytecznego.

Bardziej zaawansowane systemy wykorzystują algorytmy oparte na korelacji krzyżowej w celu kompensacji zakłóceń związanych z opóźnieniem sygnału. Algorytmy te są w stanie wzmocnić pole akustyczne w określonych kierunkach. Jednak tylko nieznacznie poprawiają wydajność systemu w porównaniu z prostymi algorytmami opóźnienia i sumy.

3.4 Przetwarzanie sygnałów oparte na psychologii

Przetwarzanie pierwotnego sygnału mowy z uwzględnieniem psychologicznych modeli percepcji symuluje różne aspekty percepcji mowy człowieka. Takie systemy przetwarzania zazwyczaj obejmują zestaw filtrów pasmowoprzepustowych, które symulują czułość częstotliwościową ludzkiego słuchu, a następnie urządzenia do nieliniowego przetwarzania sygnału w kanałach i pomiędzy nimi.

Niedawne oceny systemów rozpoznawania pokazują, że percepcyjne modele symulacyjne zapewniają lepszą dokładność rozpoznawania niż tradycyjne cepstrum, zarówno w hałaśliwych warunkach, jak i przy różnicach w warunkach szkolenia i testowania. Modele te są jednak gorsze pod względem jakości od algorytmów dynamicznego dostosowywania parametrów, a ponadto dynamiczne dostosowywanie jest tańsze.

Możliwe, że niepowodzenie modeli symulacyjnych jest związane z wykorzystaniem do klasyfikacji ukrytych modeli Markowa, które okazują się słabo przystosowane do pracy z uzyskanymi parametrami. Wielu badaczy uważa również, że nie znaleziono jeszcze optymalnego zestawu parametrów obliczonych za pomocą tych modeli i możliwie najdokładniej charakteryzujących sygnał mowy. Dlatego obszar ten w dalszym ciągu przyciąga szczególną uwagę badaczy.

3.5 Perspektywy

Pomimo oczywistego znaczenia, niezawodność rozpoznawania mowy dopiero niedawno przyciągnęła uwagę badaczy. Znaczący sukces osiągnięto jedynie w warunkach w miarę „przyjaznych” zakłóceń, takich jak szum addytywny czy filtrowanie liniowe. Niezależność systemów od mówiącego rozciąga się teraz tylko na rodzimych użytkowników języka. W przypadku osób mówiących z akcentem dokładność rozpoznawania jest znacznie niższa, nawet po dostosowaniu do mówiącego.

Rozmowa przez telefon

Rozpoznawanie mowy telefonicznej jest trudne, ponieważ każdy kanał telefoniczny ma swój własny stosunek sygnału do szumu i charakterystykę częstotliwościową. Ponadto zniekształcenia mowy mogą być spowodowane krótkotrwałymi zakłóceniami lub nieliniowościami. Aplikacje linii telefonicznej muszą być w stanie dostosować się do różnych kanałów przy niewielkiej ilości danych o kanałach.

Środowisko o wysokim poziomie hałasu

Nawet przy stosowaniu różnych technik kompensacji hałasu dokładność rozpoznawania znacznie spada przy stosunku sygnału do szumu poniżej 15 dB, podczas gdy osoba jest w stanie doskonale słyszeć mowę przy znacznie niższym stosunku.

Przesłuch

Wpływ innych rozmów, na przykład prowadzonych w tym samym pomieszczeniu lub zakłócenia na sąsiednim kanale telefonicznym, jest problemem znacznie trudniejszym niż zakłócenia szumów szerokopasmowych. Jak dotąd próby wykorzystania informacji odróżniających mowę rozpoznaną od mowy zakłócającej nie przyniosły znaczących rezultatów.

Szybka adaptacja do akcentu w mowie

W dzisiejszym dynamicznym społeczeństwie poważne aplikacje językowe muszą być w stanie zrozumieć osoby mówiące bez akcentu, a także osoby z akcentem.

Opracowanie zasad tworzenia baz danych mowy

Postęp w rozpoznawaniu dźwiękoszczelnym będzie zależał także od opracowania zasad tworzenia baz mowy i bezpośrednio od tworzenia takich baz danych. W tym celu konieczne jest zebranie, przetworzenie i uporządkowanie wielu próbek zniekształceń i interferencji charakterystycznych dla problemów praktycznych.

4. MODELE AKUSTYCZNE

4.1 Miejsce modelu akustycznego w systemie

Nowoczesne systemy rozpoznawania mowy wdrażane są głównie w postaci oprogramowania, które na podstawie sygnału wejściowego generuje hipotezy dotyczące wypowiadanych sekwencji słów. Algorytmy stosowane w takich systemach opierają się na metodach statystycznych.

Wektor yt parametrów akustycznych jest obliczany z sygnału wejściowego co 10-30 ms. Sekwencje tych wektorów uważa się za sekwencje obserwowalne generowane przez modele fonetyczne. Na tej podstawie oblicza się prawdopodobieństwo p(ylT/W) zaobserwowania ciągu wektorów ylT podczas wymawiania ciągu (słowa) W, czyli inaczej prawdopodobieństwo wygenerowania ciągu ylT przez model W. Mając dany ciąg ylT , możesz wyszukiwać według reguły:

znajdź najbardziej prawdopodobną sekwencję słów, która wygenerowała ylT. Ta procedura wyszukiwania znajduje sekwencję słów, która ma największe prawdopodobieństwo późniejsze. Prawdopodobieństwo p(ylT/W) oblicza się za pomocą modelu akustycznego, a p(W) za pomocą modelu językowego.

W przypadku systemów z dużym słownikiem wyszukiwanie składa się z dwóch etapów. W pierwszym, obliczając przybliżone prawdopodobieństwa w czasie rzeczywistym za pomocą uproszczonych modeli, generowana jest siatka n najlepszych ciągów słów. Na drugim etapie obliczane są dokładniejsze prawdopodobieństwa przy ograniczonej liczbie hipotez. Niektóre systemy generują prawdopodobną sekwencję słów w jednym kroku.

4.2 Modele akustyczne oparte na łańcuchach Markowa

Modele akustyczne są elementarnymi modelami probabilistycznymi podstawowych jednostek językowych (tj. fonemów) i służą do reprezentowania jednostek następnego poziomu – słów.

Sekwencję parametrów akustycznych uzyskanych z wypowiadanej frazy uważa się za realizację zestawu procesów opisanych za pomocą ukrytych modeli Markowa (HMM). HMM to zestaw dwóch losowych procesów:

Ukryty łańcuch Markowa odpowiedzialny za zmiany w czasie,

Zbiory obserwowalnych procesów stacjonarnych odpowiedzialnych za zmiany widmowe.

SMM udowodnił w praktyce, że radzi sobie z głównymi źródłami niejednoznaczności w sygnale mowy, takimi jak różnice w wymowie fonemów, umożliwiając jednocześnie tworzenie systemów ze słownikiem liczącym dziesiątki tysięcy słów.

Struktura SMM

Model definiuje się jako parę procesów losowych (X, Y). Proces X jest łańcuchem Markowa pierwszego rzędu, którego implementacji nie można bezpośrednio zaobserwować. Realizacje procesu Y przyjmują swoje wartości z przestrzeni parametrów akustycznych, są obserwowane bezpośrednio, a ich rozkłady zależą od realizacji procesu X.

HMM charakteryzuje się dwoma założeniami formalnymi. Pierwsza dotyczy łańcucha Markowa i stwierdza, że o kolejnym stanie łańcucha decyduje wyłącznie stan bieżący i nie jest on zależny od poprzedniej trajektorii. Drugie stwierdza, że bieżący rozkład procesu Y, z którego pobierana jest obserwowana wartość parametru akustycznego, zależy wyłącznie od aktualnego stanu łańcucha Markowa (proces X), a nie od poprzednich trajektorii procesów X i Y.

W Załączniku 1 zamieszczono matematyczną definicję modelu, przykład generowania obserwowanej sekwencji oraz wzory obliczeniowe.

Do reestymacji parametrów modelu w trakcie jego uczenia wykorzystuje się algorytm Bauma-Welsha, bazujący na reestymacji prawdopodobieństwa za pomocą wzoru Bayesa.

HMM można klasyfikować według elementów macierzy B, które ze swej natury są funkcjami dystrybucji.

Jeśli funkcje rozkładu zostaną zdefiniowane na skończonej przestrzeni, wówczas model będzie dyskretny. W tym przypadku obserwowaną realizacją jest wektor wartości ze skończonego alfabetu M elementów. Dla każdego elementu wektora Q wybranego ze zbioru V zdefiniowana jest niezerowa gęstość dyskretna (w(k)/k=1,…,M), tworząca rozkład. Definicja ta zakłada niezależność elementów zbioru V.

Jeśli rozkłady zdefiniujemy jako gęstości prawdopodobieństwa w przestrzeni ciągłej, wówczas model będzie ciągły. W tym przypadku na funkcje rozkładu nakłada się wymagania, aby ograniczyć liczbę estymowanych parametrów do akceptowalnych granic. Najpopularniejszym podejściem jest wykorzystanie liniowej kombinacji gęstości g z rodziny rozkładów standardowych G z prostą postacią parametryczną. Zazwyczaj g jest używane jako wielowymiarowy rozkład normalny, charakteryzujący się wektorem oczekiwań matematycznych i macierzą kowariancji. Liczba standardowych rozkładów biorących udział w kombinacji liniowej tworzącej wynikowy rozkład jest zwykle ograniczona możliwościami obliczeniowymi i ilością dostępnych danych uczących.

Dostrajanie parametrów rozkładu podczas uczenia modelu ciągłego wymaga dużej liczby próbek szkoleniowych. Jeżeli są one niewystarczające, uciekają się do modelu pseudociągłego, w którym do utworzenia kombinacji liniowej wykorzystuje się standardowy zbiór gęstości podstawowych. Kombinacje liniowe różnią się od siebie jedynie współczynnikami wagowymi. Ogólne podejście polega na powiązaniu każdej współrzędnej wektora wejściowego z własnym, odrębnym zestawem gęstości podstawowych.

4.3 Modelowanie słów

Rozkład fonetyczny

Słowo jest zwykle reprezentowane przez sieć fonemów. Każda ścieżka w sieci reprezentuje wariant wymowy słowa.

Ten sam fonem, wymawiany w różnych kontekstach, może mieć różne parametry akustyczne i dlatego może być modelowany różnymi rozkładami. Alofony to wzory reprezentujące fonem w różnych kontekstach. Decyzja o tym, ile alofonów będzie reprezentować dany fonem, zależy od wielu czynników, z których najważniejszym jest ilość danych uczących potrzebnych do dostrojenia parametrów modelu akustycznego.

Istnieje kilka odmian modelu alofonu. Jednym z nich są polifony. Zasadniczo wymowa fonemu jest inna we wszystkich słowach, w których występuje, dlatego wymagane są różne alofony. Przy dużym słownictwie wytrenowanie takiego modelu jest prawie niemożliwe ze względu na brak danych uczących. Dlatego reprezentacja alofonów jest używana na kilku poziomach szczegółowości: słowo, sylaba, trifon, difon, fonem niezależny od kontekstu. Rozkłady prawdopodobieństwa alofonów na różnych poziomach szczegółowości można uzyskać, łącząc rozkłady bardziej szczegółowych poziomów reprezentacji. Utratę cech kompensuje poprawa estymacji parametrów statystycznych modelu w trakcie jego uczenia poprzez zwiększenie stosunku objętości danych uczących do liczby estymowanych parametrów modelu.

Inną odmianą jest grupowanie alofonów w pewną liczbę możliwych klas kontekstów. Wyszukiwanie klas odbywa się automatycznie przy wykorzystaniu drzewa klasyfikacyjnego i regresyjnego (CART). Jest to drzewo binarne, w korzeniu znajduje się fonem, z każdym węzłem powiązane jest pytanie o kontekst, np.: „Czy poprzedni fonem jest spółgłoską nosową?” Dla każdej możliwej odpowiedzi (tak, nie) istnieje odgałęzienie do innego węzła. Liście drzewa są alofonami. Istnieją algorytmy wzrostu i czyszczenia CART, które automatycznie łączą pytania z ręcznie utworzonej puli z węzłami.

Każdy alofon w systemach rozpoznawania jest modelowany przy użyciu HMM. Ogólnie rzecz biorąc, wszystkie modele można zbudować przy użyciu rozkładów pochodzących z jednej, współdzielonej puli lub nawet kilku tysięcy klastrów zwanych senonami.

Modele alofonów wyższego poziomu, takich jak słowa, można również konstruować, łącząc modele podstawowe za pomocą łączących przejść i rozkładów. Takie elementy budulcowe nazywane są fenonami i multonami.

Innym podejściem do modelowania słów jest użycie słownika – zestawu cech referencyjnych, którymi są jego słowa. Korzystając z wektora wejściowego parametrów sygnału, znajduje się najbliższy znak odniesienia z książki kodowej, który ma swój własny numer. W przypadku książki kodowej używany jest standardowy zestaw podstawowych gęstości, słowa są reprezentowane przez sekwencje numerów cech. Każda sekwencja liczb jest następnie modelowana przy użyciu HMM.

Wyznaczanie granic i prawdopodobieństw słów

Ogólnie rzecz biorąc, sygnał mowy i jego reprezentacje nie zapewniają wyraźnych wskazań granic między słowami, dlatego wykrywanie granic słów jest częścią procesu hipotezy przeprowadzanego w formie wyszukiwania. Podczas tego procesu wzorce słów są porównywane z sekwencją parametrów akustycznych. W ujęciu probabilistycznym porównywanie ciągów akustycznych z modelami polega na obliczeniu prawdopodobieństwa wygenerowania danej sekwencji przez dany model, tj. obliczenie p(ylT/W). Jest to kluczowy element procesu uznawania.

Dla zadanego ciągu czasowego: 1, 2, …, t, t+1, …, T-1, T:

Prawdopodobieństwo dt(i), że do czasu t został zaobserwowany ciąg o1,o2…ot i model znajduje się w stanie Si (algorytm forwardowy):

dla wszystkich 1?i?N, 1?j?N, t = 1,2,…,T-1:

w t = 1: d1(i) = pi bi(o1);(4.2)

dla t > 1: dt(j) = .(4.3)

Prawdopodobieństwo ft(i) zaobserwowania ciągu ot+1,ot+2,…oT począwszy od chwili t+1 do T, pod warunkiem, że w chwili t model znajduje się w stanie Si (algorytm wsteczny):

dla wszystkich 1?i?N, 1?j?N, t = T-1,T-2,…,1:

w t = T: fT(i) = 1;(4,4)

o godz< T: ft(i) = .(4.5)

Całkowite prawdopodobieństwo, że model przejdzie określoną trajektorię w T cyklach zegara (prawdopodobieństwo dopasowania sekwencji i modelu) można obliczyć na trzy sposoby:

P(O/l) = ;(4,6)

P(O/l) = ;(4,7)

P(Q/l) = dt(i) ft(i) = .(4,8)

Przykład obliczenia prawdopodobieństwa podano w dodatku 2.

Do obliczeń wykorzystuje się modele w postaci liniowego ciągu stanów mającego początek i koniec. Przejścia możliwe są jedynie lokalnie i od początku do końca, bez przeskakiwania stanów. Przed obliczeniem zgodności pierwotny ciąg wektorów parametrów dzieli się na odcinki o długości równej danemu modelowi.

4.4 Perspektywy

Znaczące postępy w modelowaniu akustycznym, jakie osiągnięto w ostatnich latach, umożliwiły uzyskanie dobrej jakości rozpoznawania przy korzystaniu z dużego słownika w czasie rzeczywistym, przy akceptowalnym zużyciu zasobów. Istnieje jednak wiele aspektów, które wymagają poprawy. Przede wszystkim dotyczy to adaptacji do różnych głośników i różnych środowisk akustycznych, w tym w obecności zakłóceń. Występują także trudności w przetwarzaniu jąkań, falstartów, brakujących słów w słowniku i innych cech charakterystycznych dla mowy spontanicznej.

Główne kierunki nowoczesne badania to odporność na hałas akustyczny, doskonalenie systemów parametrów i modeli akustycznych, praca z dużym leksykonem, obsługa wielu kontekstów i wielu języków, opracowywanie metod automatycznego uczenia systemów.

5. MODELE JĘZYKOWE

5.1 Miejsce modelu języka w systemie

Systemy rozpoznawania mowy przekształcają sygnał akustyczny w ortograficzną reprezentację wypowiedzi mówionej. Osoba rozpoznająca buduje hipotezy, korzystając ze skończonego słownika. Dla uproszczenia zakłada się, że słowo jest jednoznacznie identyfikowane poprzez jego wymowę.

Znaczący postęp w rozwiązywaniu problemu rozpoznawania osiągnięto wraz z rozpoczęciem stosowania modelu statystycznego wspólna dystrybucja p(W,O) sekwencji wypowiadanych słów W i odpowiadającej im sekwencji akustycznej O. Podejście to zostało po raz pierwszy zastosowane przez IBM pod nazwą „model kanału źródłowego”. Określa ocenę zgodności wybranej sekwencji słownikowej z obserwowanym faktem akustycznym O za pomocą rozkładu późniejszego p(W/O).

Aby zminimalizować błąd, system wybiera sekwencję słownikową, która maksymalizuje tę dystrybucję a posteriori:

gdzie p(W) to prawdopodobieństwo wystąpienia ciągu słów W, p(O/W) to prawdopodobieństwo zaobserwowania ciągu akustycznego O podczas wymawiania ciągu słów W, p(O) to całkowite prawdopodobieństwo zaobserwowania ciągu O według wszystkich dostępnych modeli akustycznych. p(O/W) = p(ylT/W) = P(O/l) i oblicza się na etapie modelowania akustycznego za pomocą HMM i nazywa się kanałem. Zakłada się, że p(O) jest równe 1. Prawdopodobieństwo wcześniejsze p(W) oblicza się przy użyciu modelu językowego (LM).

Podobny model rozpoznawania stosowany jest do rozpoznawania tekstów drukowanych i pisanych odręcznie.

5.2 Model języka oparty na trygramie

Dla danego ciągu słów W=(w1,…,wn) jego prawdopodobieństwo można przedstawić jako:

w0 jest uznane za odpowiednie do zapewnienia warunków początkowych. Prawdopodobieństwo każdego kolejnego słowa wi zależy od już wypowiedzianej sekwencji hi. Dzięki tej definicji złożoność modelu rośnie wykładniczo wraz ze wzrostem wypowiadanej sekwencji słów. Aby uprościć model i uczynić go praktycznym w praktyce, zakłada się, że tylko niektóre aspekty historii wpływają na prawdopodobieństwo wystąpienia następnego słowa. Jednym ze sposobów osiągnięcia tego jest użycie operacji μ(), która dzieli przestrzeń historyczną na K równoważnych klas. Następnie możesz zastosować model:

Największy sukces w ciągu ostatnich 20 lat został osiągnięty przy pomocy proste modele n-gram. Najczęściej stosuje się trygramy, gdzie tylko dwa poprzednie słowa określają prawdopodobieństwo wystąpienia następnego słowa. W tym przypadku prawdopodobieństwo ciągu słów wygląda następująco:

Aby oszacować prawdopodobieństwa a priori p(W) NM, potrzebna jest duża ilość edukacyjnego materiału tekstowego. Podczas oceny obliczane są częstotliwości:

gdzie c123 to liczba wystąpień ciągu słów (w1, w2, w3), c12 to liczba wystąpień ciągu (w1, w2,). W przypadku słownika tomu V możliwe są trygramy V3, w przypadku słownika zawierającego 20 tysięcy słów jest ich 8 bilionów. Oczywiście wielu z tych trygramów nie znajdzie się w ciągach uczących, więc dla nich f3(w3/w1, w2) = 0. Aby mieć pewność, że odpowiadające im prawdopodobieństwa nie są równe zeru, interpolacja liniowa częstości trygramów, bigramów i słowa, a także ich równomierny rozkład w słowniku:

f1() i f2() są oceniane poprzez zliczenie odpowiednich bigramów i trygramów. Współczynniki l interpolacji liniowej są szacowane poprzez poszukiwanie maksymalnego prawdopodobieństwa dla nowych danych, które nie brały udziału w obliczeniach częstości n-gramowych. Podczas maksymalizacji stosuje się algorytm przód-tył (wzory (4.2) - (4.5)).

Ogólnie rzecz biorąc, można zastosować więcej niż jeden wektor l. Wskazane jest także uwzględnienie większej pewności częstotliwości trygramów oszacowanych na większej liczbie sekwencji treningowych. W tym celu współczynniki wagowe l uzależnia się od grup bigramów i słów b(c12, c2), które tworzą historię danego słowa. Ta metoda nazywa się interpolacją usuniętą. Stosowane są również inne schematy wygładzania. Podczas modelowania języka za pomocą trygramów objętość danych słownikowych zwykle waha się od 1 miliona do 500 milionów słów, a odpowiadająca im objętość słownika wynosi od 1 tysiąca do 267 tysięcy słów.

5.3 Złożoność (zakłopotanie)

Aby porównać systemy rozpoznawania, możesz użyć współczynnika błędów. Ta metryka najlepiej ocenia modele językowe. Istnieje jednak tańszy sposób oceny materiałów jądrowych. Wykorzystuje wielkość charakteryzującą ilość informacji – entropię. Pomysł polega na obliczeniu entropii dla nowego tekstu, który nie został użyty podczas tworzenia modelu. Entropię słownictwa obliczoną bezpośrednio z tekstu porównuje się z entropią obliczoną z ML. Najlepszy będzie NM, którego entropia jest najbliższa entropii tekstowej.

Oznaczmy jako p(x) prawidłowy rozkład prawdopodobieństwa słów w segmencie tekstu x składającym się z k słów. Zdefiniujmy entropię tekstu na podstawie słownika jako:

Jeżeli słowa w tekście są jednakowo prawdopodobne, a rozmiar tekstu wynosi V, to H=log2V, dla pozostałych rozkładów H?log2V. Możesz użyć NM, aby określić prawdopodobieństwo w segmencie tekstu. Wartość logarytmu prawdopodobieństwa dla NM wynosi:

gdzie pО(wi/hi) to prawdopodobieństwa określone przez dany ML. Ogranicz, tj. obliczona za pomocą NM, nie jest mniejsza niż entropia tekstu. Oczywiście celem porównania różnych NM jest znalezienie takiego, dla którego logarytm prawdopodobieństwa obliczony z NM będzie najbliższy entropii obliczonej z tekstu.

Zakłopotanie charakteryzuje poziom logarytmu prawdopodobieństwa NM i jest definiowany jako 2lp. Z grubsza rzecz biorąc, jest to średni rozmiar słownika, z którego inne słowo po rozpoznaniu. Zakłopotanie zależy od używanej domeny mowy. Wartości zakłopotania dla niektórych domen mowy podano w tabeli 5.1.

rozpoznawanie mowy język akustyczny

Tabela 5.1. Zakłopotanie domen mowy

5.4 Rozmiar słownika

Poziom błędu nie może być niższy niż procent wypowiadanych słów, które nie znajdują się w słowniku. Dlatego główną częścią budowania ML jest opracowanie słownika, który maksymalnie obejmuje teksty, które system prawdopodobnie rozpozna. To pozostaje wyzwaniem dla ludzkości.

Podczas tworzenia słownika w pierwszej kolejności wybierane są teksty charakteryzujące zadanie, z którym system będzie współpracował. Następnie teksty dzielone są na słowa za pomocą narzędzi automatyzujących. Następnie każde słowo jest powiązane z zestawem opcji wymowy, w tym możliwymi opcjami na przyszłość. Wszystkie uzyskane opcje wymowy służą do tworzenia trygramów.

Tabela 5.2 przedstawia odsetek pokrycia nowych tekstów w języku angielskim przez system rozpoznawania przy korzystaniu ze słownika o stałej wielkości. W językach o dużej liczbie form wyrazowych i zależnościach w tworzeniu słów (niemiecki, francuski) dla tego samego stopnia pokrycia wymagany jest znacznie większy słownik.

Bardziej racjonalne podejście polega na stworzeniu, oprócz słownika stałego, spersonalizowanego słownika dla każdego użytkownika systemu rozpoznawania. Tabela 5.2 pokazuje wzrost zasięgu nowych słów przez tak dynamicznie konfigurowalny system z początkową, stałą objętością słownika wynoszącą 20 tys. słów. Dane porównuje się z systemem wykorzystującym słownik statyczny o tej samej wielkości, rozpoznając tekst o reprezentowanej długości.

Tabela 5.2. Jakość rozpoznawania nowych tekstów

5.5 Ulepszone modele językowe

Istnieje wiele ulepszeń YaM opartych na trygramach. Najważniejsze z nich zostały wymienione poniżej.

Modele klas

Zamiast słów w modelu językowym można użyć zestawu klas słów. Klasy mogą się nakładać, ponieważ słowo może do nich należeć różne klasy. Klasy mogą opierać się na częściach mowy, analizie morfologicznej wyrazu, a także mogą być wyznaczane automatycznie na podstawie zależności statystycznych. Ogólny model klasy wygląda następująco:

gdzie ci są klasami. Jeśli klasy się nie przecinają, to:

Zakłopotanie takiego modelu jest większe niż opartego na trygramach, ale maleje przy łączeniu modeli tych dwóch typów.

Modele dynamiczne

Tutaj bierze się pod uwagę przeszłość, trwającą cały dokument. Ma to na celu wykrycie często występujących słów (na przykład w tym tekście słowo „model” jest częstym słowem). Użycie CACHE dla takich słów umożliwia zwiększenie dynamiki ML, skracając czas wyszukiwania.

Modele kombinowane

Innym podejściem jest podzielenie całej bazy danych mowy na kilka klastrów. Do modelowania nowego tekstu używana jest liniowa kombinacja modeli trygramów z różnych skupień:

gdzie pj() jest oceniane względem j-tego klastra tekstowego.

Modele strukturalne

W tych modelach zamiast wpływać na prawdopodobieństwo wystąpienia słowa na podstawie bezpośredniej historii, stosuje się analizę składniową. Za pomocą takiej analizy ustanawiane jest połączenie między usuniętymi słowami, co ostatnio zaproponowano, aby wziąć je pod uwagę przy tworzeniu zdalnych bigramów.

5.6 Perspektywy

Główne obszary, na których obecnie skupiają się wysiłki, to:

Wybór słownika

Jak zdefiniować słownik nowej domeny mowy, praktycznie spersonalizować słownik dla użytkownika, maksymalizując pokrycie tekstu. Problem ten jest najbardziej znaczący w przypadku języków o dużej liczbie form wyrazowych oraz języków wschodnich, gdzie pojęcie słowa nie jest jasno określone.

Adaptacja domeny mowy

Jest to zadanie polegające na skonfigurowaniu efektywnego ML dla domen, które nie posiadają dużej ilości danych słownikowych dostępnych na komputerze, a także ustaleniu tematu rozmowy. Umożliwiłoby to zastosowanie specyficznego, tematycznego modelu rozpoznawania mowy.

Korzystanie ze struktury języka

Obecny poziom oceny jakości działania systemu nie pozwala na poprawę działania systemu przy wykorzystaniu struktury języka. Opracowanie modelu języka w oparciu o strukturę języka może być kluczem do postępu w modelowaniu języka. Obecne postępy oparte na modelach probabilistycznych odzwierciedlają etap dziecięcy w rozwoju modelowania języka. Postęp w tym przypadku wiąże się ze zwiększoną strukturą danych.

WNIOSEK

W artykule omówiono podstawowe zasady budowy systemów rozpoznawania mowy na obecnym etapie rozwoju, ich klasyfikację oraz problemy, jakie rozwiązują. Rozważane jest nowoczesne podejście do odporności systemów na zakłócenia.

Przedstawiono budowę systemu, główne zadania realizowane przez jego elementy, zasady wstępnego przetwarzania sygnału źródłowego, budowę modeli akustycznych i językowych.

Podobne dokumenty

Cyfrowe przetwarzanie sygnałów i jego zastosowanie w systemach rozpoznawania mowy, sygnały dyskretne i metody ich przetwarzania, podstawy filtracji cyfrowej. Implementacja systemów rozpoznawania mowy, homomorficznego przetwarzania mowy, interfejsu nagrywania i odtwarzania.

praca magisterska, dodana 06.10.2010

Zalety kanałów radiowych systemy bezpieczeństwa. Główne kierunki kodowania mowy: kodowanie przebiegowe i kodowanie źródłowe. Schemat blokowy procesu przetwarzania mowy w standardzie GSM. Ocena jakości kodowania mowy.

streszczenie, dodano 20.10.2011

Zadania z zakresu mowy i transmisji danych. Cyfrowa transmisja mowy. Kategorie metod cyfrowego kodowania mowy. Kodery przebiegów. Rodzaj charakterystyki amplitudowej sprężarki. Dyskretny model produkcji mowy. Cechy metody analizy krótkoterminowej.

test, dodano 18.12.2010

Rozważenie głównych etapów rozwiązywania problemu optymalizacji odbioru sygnału. Badanie metod filtrowania i optymalizacji rozwiązań. Probabilistyczne podejście do oceny odbioru sygnału; określenie prawdopodobieństwa błędów rozpoznawania. Statyczne kryteria rozpoznawania.

prezentacja, dodano 28.01.2015

Kodowanie mowy RPE – LTP – koder 16 kbit/s. Struktura dekodera mowy w standardzie GSM. Współczynniki odbicia predykcji krótkoterminowej metodą Berga dla RF ósmego rzędu. Charakterystyka widmowa filtra końcowego. Tworzenie się regionów formantów.

streszczenie, dodano 15.11.2010

Schematy blokowe homomorficznego przetwarzania i analizy sygnałów mowy. Złożony cepstrum mowy. Składnik sygnału mowy. Okres tonu i częstotliwość formantu. Moduł funkcji przenoszenia traktu głosowego. Szacowanie wysokości dźwięku na podstawie cepstrum.

streszczenie, dodano 19.11.2008

Generalna klasyfikacja systemy i sieci dostępu radiowego. Klasyfikacja systemów dostępu radiowego ze względu na parametry i charakterystykę interfejsu radiowego. Systemy z transmisją analogową i cyfrową. Usługi transmisja cyfrowa przemówienie. Klasyfikacja ze względu na stosowane problemy do rozwiązania.

streszczenie, dodano 10.06.2010

Stan problemu automatycznego rozpoznawania mowy. Przegląd urządzeń odczytujących sygnał audio. Architektura systemu sterowania urządzeniami peryferyjnymi. Obwód sterowania urządzeniem elektrycznym. Schemat ideowy podłączenia urządzeń elektrycznych.

teza, dodano 18.10.2011

Charakterystyki informacyjne i schemat blokowy systemu przesyłowego; obliczanie parametrów przetwornika analogowo-cyfrowego i sygnału wyjściowego. Kodowanie z kodem korekcyjnym. Określenie charakterystyki modemu; porównanie odporności na zakłócenia systemów komunikacyjnych.

praca na kursie, dodano 28.05.2012

Budowa urządzeń do przetwarzania sygnału radiowego, budowa wewnętrzna i zasada działania, algorytmy przetwarzania sygnałów. Podstawa generowania sygnału na wyjściu urządzenia liniowego. Modele urządzeń liniowych. Obliczanie współczynnika transmisji operatora obwodu.

Belenko M.V. 1, Balakshin P.V. 2

1 student, Uniwersytet ITMO, 2 kandydatów nauki techniczne, asystent, Uniwersytet ITMO

ANALIZA PORÓWNAWCZA OPEN SOURCE SYSTEMÓW ROZPOZNAWANIA MOWY

adnotacja

W artykule dokonano analizy porównawczej najpopularniejszych systemów automatycznego rozpoznawania mowy typu open source. Podczas porównania brano pod uwagę wiele kryteriów, m.in. struktury systemu, języki programowania użyte do wdrożenia, dostępność szczegółowej dokumentacji, obsługiwane języki rozpoznawania oraz ograniczenia narzucane przez licencję. Przeprowadzono także eksperymenty na kilku korpusach mowy, aby określić szybkość i dokładność rozpoznawania. W rezultacie dla każdego z rozpatrywanych systemów opracowano zalecenia stosowania z dodatkowym wskazaniem zakresu działania.

Słowa kluczowe: rozpoznawanie mowy, metryczne, współczynnik rozpoznawania słów (WRR), współczynnik błędów słów (WER), współczynnik szybkości (SF), open source

Belenko M.V. 1, Balakshin P.V. 2

1 student, ITMO University, 2 doktorat inżynierii, asystent, ITMO University

ANALIZA PORÓWNAWCZA SYSTEMÓW ROZPOZNAWANIA MOWY Z KODEM OTWARTYM

Abstrakcyjny

W artykule dokonano porównania najpopularniejszych systemów automatycznego rozpoznawania mowy z otwartym kodem źródłowym. Do porównania wykorzystano wiele kryteriów, m.in. struktury systemów, języki programowania wdrożenia, szczegółową dokumentację, obsługiwane języki rozpoznawania oraz ograniczenia narzucane przez licencję. Przeprowadzono także eksperymenty na kilku podstawach mowy w celu określenia szybkości i dokładności rozpoznawania. W efekcie wydano rekomendacje do stosowania z dodatkowym wskazaniem zakresu działania dla każdego z badanych systemów.

Słowa kluczowe: rozpoznawanie mowy, metryczne, współczynnik rozpoznawania słów (WRR), współczynnik błędów słów (WER), współczynnik szybkości (SF), kod open source

Systemy rozpoznawania mowy (Automatic Speech Recognition Systems) służą głównie do symulacji komunikacji pomiędzy człowiekiem a maszyną, na przykład do głosowego sterowania programami. Obecnie rozpoznawanie sygnału mowy znajduje zastosowanie w szerokiej gamie systemów – od aplikacji na smartfonach po systemy Smart Home. Kolejnym dowodem na znaczenie tej dziedziny są liczne ośrodki badawczo-rozwojowe na całym świecie. Jednak zdecydowana większość systemów operacyjnych to produkty autorskie, tj. użytkownik lub potencjalny programista nie ma dostępu do swojego kodu źródłowego. Wpływa to negatywnie na możliwość integracji systemów rozpoznawania mowy z projektami open source. Brakuje także scentralizowanego źródła danych opisujących pozytywne i negatywne aspekty systemów rozpoznawania mowy typu open source. W rezultacie pojawia się problem wyboru optymalnego systemu rozpoznawanie mowy, aby rozwiązać problem.

W ramach pracy wzięto pod uwagę sześć systemów open source: CMU Sphinx, HTK, iAtros, Julius, Kaldi oraz RWTH ASR. Wybór opiera się na częstotliwości wzmianek we współczesnych czasopismach naukowych, istniejących osiągnięciach w ostatnich latach i popularności wśród poszczególnych twórców oprogramowania. Wybrane systemy porównano pod kątem takich wskaźników, jak dokładność i szybkość rozpoznawania, łatwość obsługi oraz struktura wewnętrzna.

Pod względem dokładności systemy porównywano przy użyciu najpopularniejszych wskaźników: współczynnika rozpoznawania słów (WRR), współczynnika błędów słów (WER), które oblicza się za pomocą następujących wzorów:

gdzie S to liczba operacji polegających na zastąpieniu słów, I to liczba operacji polegających na wstawieniu słów, D to liczba operacji polegających na usunięciu słów z rozpoznanej frazy w celu uzyskania oryginalnej frazy, a T to liczba słów w oryginale frazę i jest mierzona w procentach. Pod względem szybkości rozpoznawania porównania dokonano za pomocą Real Time Factor – wskaźnika stosunku czasu rozpoznania do czasu trwania rozpoznawanego sygnału, zwanego także Speed Factor (SF). Wskaźnik ten można obliczyć korzystając ze wzoru:

gdzie T ref to czas rozpoznania sygnału, T to czas jego trwania i jest mierzony w ułamkach czasu rzeczywistego.

Wszystkie systemy zostały przeszkolone przy użyciu korpusu mowy WSJ1 (Wall Street Journal 1), który zawiera około 160 godzin danych szkoleniowych i 10 godzin danych testowych, które są fragmentami gazety Wall Street Journal. Ten zbiór przemówień zawiera nagrania osób mówiących obu płci w języku angielskim.

Po przeprowadzeniu eksperymentu i przetworzeniu wyników otrzymano poniższą tabelę (tab. 1).

Tabela 1 – Wyniki porównania dokładności i szybkości

System	WER,%	WRR,%	SF
HTK	19,8	80,2	1.4
CMU Sfinks (kieszonkowy sfinks/sfinks4)	21.4/22.7	78.6/77.3	0.5/1
Kaldi	6.5	93.5	0.6
Juliusz	23.1	76.9	1.3
iAtros	16.1	83.9	2 .1
RWTH ASR	15.5	84.5	3.8

Trafność i poprawność badania potwierdza fakt, że uzyskane wyniki są zbieżne z wynikami uzyskanymi podczas testowania tych systemów na innych korpusach mowy, takich jak Verbmobil 1, Quaero, EPPS, , .

Kryteriami porównania struktur był język implementacji systemu, algorytmy stosowane przy rozpoznawaniu, formaty danych wejściowych i wyjściowych oraz wewnętrzna struktura implementacji oprogramowania samego systemu.

Ogólnie proces rozpoznawania mowy można przedstawić w następujących etapach:

Wydobywanie cech akustycznych z sygnału wejściowego.
Modelowanie akustyczne.
Modelowanie języka.
Rozszyfrowanie.

Podejścia, algorytmy i struktury danych wykorzystywane przez rozpatrywane systemy rozpoznawania mowy na każdym z wymienionych etapów przedstawiono w tabelach (tabele 2, 3).

Tabela 2 – Wyniki porównania algorytmów

System	Ekstrakcja cech	Modelowanie akustyczne	Modelowanie języka	Uznanie
HTK	MFCC	HMM	N-gram	Algorytm Viterbiego
CMU Sfinks	MFCC, PLP	HMM	N-gram, FST	Algorytm Viterbiego, algorytm Bushderby'ego
Kaldi	MFCC, PLP	HMM, GMM, SGMM, DNN	FST, istnieje konwerter N-gram->FST	Algorytm dwuprzebiegowy do przodu i do tyłu
Juliusz	MFCC, PLP	HMM	N-gram, oparty na regułach	Algorytm Viterbiego
iAtros	MFCC	HMM, GMM	N-gram, FST	Algorytm Viterbiego
RWTH ASR	MFCC, PLP, dźwięczność	HMM, GMM	N-gram, WFST	Algorytm Viterbiego

Tabela 3 – Języki wdrażania systemu i ich struktura

System	Język	Struktura
HTK	Z	Modułowe, w formie mediów
CMU Sfinks (kieszonkowy sfinks/sfinks4)	C/Java	Modułowy
Kaldi	C++	Modułowy
Juliusz	C	Modułowy
iAtros	C	Modułowy
RWTH ASR	C++	Modułowy

Z punktu widzenia łatwości użytkowania wzięto pod uwagę takie wskaźniki, jak szczegółowość dokumentacji, obsługa różnych środowisk wykonawczych oprogramowania i sprzętu, ograniczenia licencyjne, obsługa wielu języków naturalnego rozpoznawania oraz charakterystyka interfejsu. Wyniki przedstawiono w poniższych tabelach (tabele 4, 5, 6, 7, 8).

Tabela 4 – Dostępność dokumentacji

Tabela 5 - Obsługa różnych systemów operacyjnych

System	Obsługiwany system operacyjny
HTK	Linux, Solaris, HPUX, IRIX, Mac OS, FreeBSD, Windows
CMU Sfinks (kieszonkowy sfinks/sfinks4)	Linux, Mac OS, Windows, Android
Kaldi	Linux, Windows, FreeBSD
Juliusz	Linux, Windows, FreeBSD, Mac OS
iAtros	Linuksa
RWTH ASR	Linux, Mac OS

Tabela 6 – Interfejsy systemu

Tabela 7 – Obsługiwane języki rozpoznawania

Tabela 8 – Licencje

System	Licencja
HTK	HTK
CMU Sfinks (kieszonkowy sfinks/sfinks4)	BSD
Kaldi	Apacz
Juliusz	Podobnie jak BSD
iAtros	GPLv3
RWTH ASR	RWTH ASR

Analizując uzyskane powyżej wyniki, można scharakteryzować każdy z rozpatrywanych systemów i opracować zalecenia dotyczące ich stosowania.

Kaldi. Ten system wykazuje najlepszą dokładność rozpoznawania ze wszystkich rozważanych systemów (WER=6,5%) i drugą prędkość rozpoznawania (SF=0,6). Z punktu widzenia dostarczanych algorytmów i struktur danych wykorzystywanych do rozpoznawania mowy system ten jest również liderem, gdyż zapewnia największa liczba nowoczesne podejścia stosowane w dziedzinie rozpoznawania mowy, takie jak wykorzystanie sieci neuronowych i modeli mieszanin Gaussa na etapie modelowania akustycznego oraz wykorzystanie maszyn skończonych na etapie modelowania języka. Pozwala także na zastosowanie wielu algorytmów w celu zmniejszenia rozmiaru cech sygnału akustycznego, a co za tym idzie, zwiększenia wydajności systemu. Kaldi napisany jest w języku programowania C++, co pozytywnie wpływa na szybkość działania systemu, a także posiada budowę modułową, co ułatwia refaktoryzację systemu, dodawanie nowych funkcjonalności i poprawianie istniejących błędów. Pod względem użyteczności Kaldi jest także jednym z pierwszych systemów. Zawiera szczegółową dokumentację, ale jest skierowana do czytelników doświadczonych w rozpoznawaniu mowy. Może to mieć negatywny wpływ na korzystanie z tego systemu przez osoby nowe w tej dziedzinie. Jest wieloplatformowy, to znaczy działa na większości nowoczesnych systemów operacyjnych. Kaldi udostępnia jedynie interfejs konsolowy, co utrudnia integrację z aplikacjami innych firm. Domyślnie ten system obsługuje tylko język angielski, jest rozpowszechniany na całkowicie bezpłatnej licencji Apache, co oznacza, że można go zintegrować z produktem komercyjnym bez ujawniania jego kodu. System ten może być z powodzeniem stosowany w działalności badawczej, gdyż zapewnia dobrą dokładność rozpoznawania, akceptowalną szybkość rozpoznawania i wiele implementuje nowoczesne metody rozpoznawanie mowy, posiada wiele gotowych receptur, co sprawia, że jest łatwy w użyciu i posiada obszerną dokumentację.

CMU Sfinks. Ten system rozpoznawania mowy charakteryzuje się przeciętną dokładnością rozpoznawania (WER~22%) i najlepszą szybkością rozpoznawania spośród wszystkich ocenianych (SF=0,5). Należy zaznaczyć, że największą szybkość rozpoznawania osiąga się przy wykorzystaniu dekodera pocketphinx napisanego w C, dekoder sphinx4 wykazuje bardzo średnią prędkość działania (SF=1). Strukturalnie system ten również wykorzystuje wiele nowoczesnych podejść do rozpoznawania mowy, w tym zmodyfikowany algorytm Viterbiego, ale stosowanych jest mniej podejść niż Kaldi. W szczególności na etapie modelowania akustycznego system ten działa tylko z ukrytymi modelami Markowa. CMU Sphinx zawiera dwa dekodery - pocketphinx zaimplementowany w C i sphinx4 zaimplementowany w Javie. Pozwala to na korzystanie z systemu na wielu platformach, w tym na systemie operacyjnym Android, a także ułatwia integrację z projektami pisanymi w języku Java. System ten posiada budowę modułową, co pozytywnie wpływa na możliwość szybkiego wprowadzania zmian i korygowania błędów. Pod względem łatwości obsługi CMU Sphinx wyprzedza Kaldi, ponieważ oprócz interfejsu konsolowego udostępnia API, co znacznie upraszcza proces integracji systemu z aplikacją innej firmy. Posiada również szczegółową dokumentację, która w odróżnieniu od Kaldiego skierowana jest do początkującego programisty, co znacznie ułatwia proces poznawania systemu. Również silny punkt System ten domyślnie wspierany jest przez wiele języków, co oznacza dostępność modeli językowych i akustycznych tych języków w wolnym dostępie. Wśród obsługiwanych języków, oprócz standardowego angielskiego, znajduje się także rosyjski, kazachski i szereg innych. CMU Sphinx dystrybuowany jest na licencji BSD, co pozwala na jego integrację z projektami komercyjnymi. System ten można wykorzystać w projektach komercyjnych, gdyż posiada większość zalet Kaldi, choć zapewnia nieco gorszą dokładność rozpoznawania, a także udostępnia API, które można wykorzystać do budowy aplikacji innych firm w oparciu o ten system.

HTK. Pod względem dokładności i szybkości system ten wykazuje średnie wyniki wśród recenzowanych systemów (WER=19,8%, SF=1,4). HTK udostępnia wyłącznie klasyczne algorytmy i struktury danych z zakresu rozpoznawania mowy. Wynika to z faktu, że poprzednia wersja systemu została wydana w 2009 roku. Nowa wersja HTK została wypuszczona pod koniec grudnia 2015 roku, ale nie została uwzględniona w tym badaniu. System ten jest zaimplementowany w języku C, co dobrze przekłada się na szybkość działania, gdyż C jest językiem programowania niskiego poziomu. Struktura tego systemu to zestaw narzędzi wywoływanych z wiersza poleceń, a także udostępnia API znane jako ATK. Pod względem łatwości obsługi HTK, wraz z Juliusem, jest wiodącym systemem wśród testowanych. Jako dokumentację stanowi HTK Book, książka opisująca nie tylko aspekty działania HTK, ale także ogólne zasady systemów rozpoznawania mowy. Domyślnie ten system obsługuje tylko język angielski. Dystrybuowany na licencji HTK, która umożliwia dystrybucję kodu źródłowego systemu. System ten można polecić do stosowania w działaniach edukacyjnych z zakresu rozpoznawania mowy. Implementuje większość klasycznych podejść do rozwiązywania problemu rozpoznawania mowy, posiada bardzo szczegółową dokumentację, która opisuje również ogólnie podstawowe zasady rozpoznawania mowy oraz zawiera wiele samouczków i przepisów.

Juliusz. System ten wykazuje najgorszy współczynnik dokładności (WER=23,1) i średni współczynnik rozpoznawalności (SF=1,3). Etapy modelowania akustycznego i językowego są przeprowadzane przy użyciu narzędzi zawartych w HTK, ale dekodowanie odbywa się przy użyciu własnego dekodera. Podobnie jak większość omawianych systemów wykorzystuje algorytm Viterbiego. System ten jest zaimplementowany w języku C, struktura wdrożenia jest modułowa. System zapewnia interfejs konsoli i API umożliwiające integrację z aplikacjami innych firm. Dokumentacja, podobnie jak w HTK, jest zaimplementowana w formie książki Juliusa. Domyślnie Julius obsługuje język angielski i japoński. Dystrybuowany na licencji podobnej do BSD. System Julius można polecić także do działań edukacyjnych, gdyż posiada wszystkie zalety HTK, a także zapewnia możliwość rozpoznawania takich język egzotyczny jak japoński.

Jatros. System ten wykazuje dobry wynik w dokładności rozpoznawania (WER=16,1%) i przeciętny wynik w szybkości (SF=2,1). Ma bardzo ograniczone możliwości w zakresie algorytmów i struktur danych stosowanych w rozpoznawaniu mowy, ale zapewnia możliwość wykorzystania modeli mieszaniny Gaussa jako stanów ukrytego modelu Markowa na etapie modelowania akustycznego. System ten jest zaimplementowany w języku C. Posiada budowę modułową. Oprócz funkcji rozpoznawania mowy zawiera także moduł rozpoznawania tekstu. Nie ma wielkie znaczenie w tym badaniu jest to jednak cecha charakterystyczna tego systemu, której nie można zignorować. Pod względem łatwości obsługi iAtros ustępuje wszystkim badanym w badaniu systemom. Ten system nie posiada dokumentacji, nie zapewnia API do osadzania w aplikacjach innych firm; obsługiwane języki domyślne to angielski i hiszpański. Nie jest wcale wieloplatformowy, ponieważ działa tylko pod systemami operacyjnymi z rodziny Linux. Dystrybuowany na licencji GPLv3, która nie pozwala na integrację tego systemu z projektami komercyjnymi bez ujawnienia ich kodu źródłowego, co czyni go nieodpowiednim do wykorzystania w działalności komercyjne. System iAtros z powodzeniem można zastosować tam, gdzie oprócz rozpoznawania mowy konieczne jest także wykorzystanie rozpoznawania obrazu, gdyż system ten daje taką możliwość.

RWTH ASR. Pod względem dokładności rozpoznawania RWTH ASR wykazuje dobry wynik (WER=15,5%), jednak pod względem szybkości rozpoznawania jest najgorszym systemem spośród rozważanych (SF=3,8). System ten, podobnie jak iAtros, może na etapie modelowania akustycznego wykorzystywać modele mieszaniny Gaussa. Osobliwość to możliwość wykorzystania charakterystyki dźwięczności przy ekstrakcji charakterystyki akustycznej sygnału wejściowego. Ponadto system ten może wykorzystywać ważoną maszynę stanów jako model języka na etapie modelowania języka. System ten jest zaimplementowany w języku C++ i ma architekturę modułową. Pod względem łatwości obsługi jest na drugim miejscu, posiada dokumentację opisującą jedynie proces instalacji, co zdecydowanie nie wystarczy, aby rozpocząć pracę z systemem. Zapewnia tylko interfejs konsoli, domyślnie obsługuje tylko język angielski. System nie jest wystarczająco wieloplatformowy, ponieważ nie można go uruchomić w systemie operacyjnym Windows, który jest obecnie bardzo powszechny. Dystrybuowany na licencji RWTH ASR, w ramach której kod systemu udostępniany jest wyłącznie do użytku niekomercyjnego, co powoduje, że system ten nie nadaje się do integracji z projektami komercyjnymi. System ten można wykorzystać do rozwiązywania problemów, w których ważna jest dokładność rozpoznawania, ale czas nie jest ważny. Warto również zaznaczyć, że całkowicie nie nadaje się do jakiejkolwiek działalności komercyjnej ze względu na ograniczenia nałożone przez licencję.

Spis literatury / Źródła

Wiki CMU Sphinx [ Zasób elektroniczny] – URL: http://cmusphinx.sourceforge.net/wiki/ (data dostępu: 01.09.2017)
Gaida C. Porównanie zestawów narzędzi do rozpoznawania mowy typu open source [Zasoby elektroniczne]. / C. Gaida i in. // Raport techniczny projektu OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (data dostępu: 02.12.2017)
El Moubtahij H. Wykorzystanie funkcji lokalnych gęstości, statystyk i zestawu narzędzi HMM (HTK) do rozpoznawania tekstu odręcznego w języku arabskim w trybie offline / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V 3. Nr 3. – s. 99-110.
Jha M. Ulepszony system rozpoznawania mowy bez nadzoru wykorzystujący adaptację głośnika MLLR i pomiar pewności siebie / M. Jha i in. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – s. 255-258.
Kaldi [Zasoby elektroniczne]. – URL: http://kaldi-asr.org/doc (data dostępu: 19.12.2016)
Luján-Mares M. iATROS: SYSTEM ROZPOZNAWANIA MOWY I PISMA RĘCZNEGO / M. Luján-Mares, V. Tamarit, V. Alabau i in. // V Journadas en Technologia del Habla - 2008. - s. 75-58.
El Amrania M.Y. Budowa modelu języka CMU Sphinx dla Świętego Koranu przy użyciu uproszczonych fonemów arabskich / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal – 2016. – V. 17. nr 3. – s. 305–314.
Ogata K. Analiza synchronizacji artykulacyjnej w oparciu o model superpozycji sekwencji VCV / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics - 2014. - wyd. styczeń. – s. 3720-3725.
Sundermeyer System oceny rwth 2010 quaero asr dla angielskiego, francuskim i niemieckim / M. Sundermeyer i in. // Materiały z Międzynarodowej Konferencji na temat Akustyki, Mowy i Przetwarzania Sygnałów (ICASSP) – 2011. – P. 2212-2215.
Alimuradov A.K. ADAPTACYJNA METODA ZWIĘKSZANIA SKUTECZNOŚCI STEROWANIA GŁOSEM / A.K. Alimuradow, P.P. Churakov // Materiały Międzynarodowej Konferencji Naukowo-Technicznej „Zaawansowane technologie informacyjne” – 2016. – s. 196-200.
Bakalenko V.S. Intelektualizacja wejścia/wyjścia kodu programu za pomocą technologie mowy: dis. ...Magister inżynierii i technologii. – DonNTU, Donieck, 2016.
Balakshin P.V. Algorytmiczne i programowe narzędzia do rozpoznawania mowy oparte na ukrytych modelach Markowa dla telefonicznych usług obsługi klienta: dis. ...cad. technologia Nauki: 13.05.11: chroniony 12.10.2015: zatwierdzony. 08.06.2016 / Bałakszyn Paweł Waleriewicz. – St.Petersburg: Uniwersytet ITMO, 2014. – 127 s.
Balakshin P.V. FUNKCJA GĘSTOŚCI TRWANIA STANU SMM. ZALETY I WADY / P.V. Bałakszyn // Współczesne problemy nauki i edukacji. – 2011. – nr 1. – s. 36-39. Adres URL: http://www.science-education.ru/ru/article/view?id=4574 (data dostępu: 13.11.2016).
Belenko M.V. ANALIZA PORÓWNAWCZA SYSTEMÓW ROZPOZNAWANIA MOWY KODU OTWARTEGO / M.V. Belenko // Zbiór prac V Ogólnorosyjskiego Kongresu Młodych Naukowców. T. 2. – St. Petersburg: Uniwersytet ITMO, 2016. – s. 45-49.
Gusiew M.N. System rozpoznawania mowy: podstawowe modele i algorytmy / M.N. Gusiew, V.M. Degtyariew. – Petersburg: Znak, 2013. – 128 s.
Karpow A.A. Multimodalne systemy wspomagające inteligentną przestrzeń życiową / A.A. Karpow, L. Akarun, A.L. Ronzhin // Postępowanie SPIIRAN. – 2011. – T. 19. – Nr. 0. – s. 48-64.
Karpow A.A. Metodologia oceny działania systemów automatycznego rozpoznawania mowy / A.A. Karpow, I.S. Kipyatkova // Wiadomości o wyższym instytucje edukacyjne. Oprzyrządowanie. – 2012. – T. 55. – Nr. 11. – s. 38-43.
Tampel I.B. Automatyczne rozpoznawanie mowy – główne etapy na przestrzeni 50 lat / I.B. Tampel // Biuletyn Naukowo-Techniczny Technologie informacyjne, mechaniki i optyki. – 2015. – T. 15. – Nr 6. – s. 957–968.

Lista referencji w języku angielskim /Bibliografia W język angielski

Wiki CMU Sphinx. – URL: http://cmusphinx.sourceforge.net/wiki/ (dostęp: 01.09.2017).
Gaida C. Porównanie zestawów narzędzi do rozpoznawania mowy typu open source. / C. Gaida i in. // Raport techniczny projektu OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (dostęp: 02.12.2017)
El Moubtahij, H. Korzystanie z funkcji lokalnych gęstości, statystyk i zestawu narzędzi HMM (HTK) do rozpoznawania tekstu odręcznego w języku arabskim w trybie offline / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V. 3. Nr 3. – s. 99-110.
Jha, M. Ulepszony system rozpoznawania mowy bez nadzoru wykorzystujący adaptację głośnika MLLR i pomiar pewności siebie / M. Jha i in. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – s. 255-258.
Kaldi. – URL: http://kaldi-asr.org/doc (dostęp: 19.12.2016)
Luján-Mares, M. iATROS: SYSTEM ROZPOZNAWANIA MOWY I PISMA RĘCZNEGO / M. Luján-Mares, V. Tamarit, V. Alabau i in. // V Journadas en Technologia del Habla - 2008. - s. 75-58.
El Amrania, MY Budowa modelu języka CMU Sphinx dla Świętego Koranu przy użyciu uproszczonych fonemów arabskich / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal – 2016. – V. 17. nr 3. – s. 305–314.
Ogata, K. Analiza synchronizacji artykulacyjnej w oparciu o model superpozycji sekwencji VCV / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics - 2014. - wyd. styczeń. – s. 3720-3725.
Sundermeyer, M. The rwth 2010 quaero asr system oceny dla języka angielskiego, francuskiego i niemieckiego / M. Sundermeyer i in. // Materiały z Międzynarodowej Konferencji na temat Akustyki, Mowy i Przetwarzania Sygnałów (ICASSP) – 2011. – P. 2212-2215.
Alimuradov A.K. ADAPTIVNYJ METOD POVYSHENIJa JeFFEKTIVNOSTI GOLOSOVOGO UPRAVLENIJa / A.K. Alimuradow, P.P. Churakov // Trudy Mezhdunarodnoj nauchno-tehnicheskoj konferencii „Perspektivnye informacionnye tehnologii”. – 2016. – s. 196-200.
Bakalenko V.S. Intellektualizatsiya vvoda-vyivoda koda programmyi s pomoschyu rechevyih tehnologiy: dis. ...magister inżynierii i technologii. – DonNTU, Donieck, 2016.
Balakshin P.V. Algoritmicheskie i programmnyie sredstva raspoznavaniya rechi na osnove skryityih markovskih modely dlya telefonnyih sluzhb podderzhki klientov: dis. ... Doktor nauk technicznych: 13.05.11: obrona pracy 12.10.2015: zatwierdzona 08.06.2016 / Balakshin Pavel Valer’evich. – SPb.: Uniwersytet ITMO, 2014. – 127 s.
Balakshin P.V. FUNKCIJa PLOTNOSTI DLITEL’NOSTI SOSTOJaNIJ SMM. PREIMUShhESTVA I NEDOSTATKI / P.V. Balakshin // Sovremennyeproblemy nauki i obrazovanija. – 2011. – nr 1. – s. 36-39. Adres URL: http://www.science-education.ru/ru/article/view?id=4574 (dostęp: 13.11.2016).
Belenko M.V. SRAVNITELNYY ANALIZ SISTEM RASPOZNAVANIYA RECHI S OTKRYTYM KODOM / M.V. Belenko // Sbornik trudov V Vserossiyskogo kongressa molodyih uchenyih. V. 2. – SPb.: Uniwersytet ITMO, 2016. s. 45-49.
Gusiew M.N. Sistema raspoznavaniya rechi: osnovnyie modele i algoritmyi / M.N. Gusiew V.M. Degtyariew. – SPb.: Znak, 2013. – 141 s.
Karpow A.A. Mnogomodalnyie Assistivnyie sistemyi dlya intelektualnogo zhilogo prostranstva / A.A. Karpow, L. Akarun, A.L. Ronzhin // Trudyi SPIIRAN. – 2011. – V. 19. – Nr. 0. – s. 48-64.
Karpow A.A. Metodologiya otsenivaniya rabotyi sistem avtomaticheskogo raspoznavaniya rechi / A.A. Karpow, I.S. Kipyatkova // Izwiestiya vyisshih uchebnyih zavedeniy. Priborostroenie. – 2012. – V. 55. – Nr. 11. – s. 38-43.
Tampel I.B. Avtomaticheskoe raspoznavanie rechi – osnovnyie etapyi za 50 let / I.B. Tampel // Nauchno-Tehnicheskii Vestnik Informatsionnykh Tekhnologii, Mekhaniki i Optiki. – 2015. – V. 15. – Nr 6. – s. 957–968.

Kiedy słuchamy, jak ktoś mówi, nasze ucho wewnętrzne analizuje widmo częstotliwości dźwięku, a mózg odbiera to słowo. Niektóre komputery mogą symulować ten proces za pomocą analizatora widma.

Sygnały dźwiękowe wchodzą do analizatora poprzez mikrofon i analizowane są ich charakterystyki widmowe. Następnie komputer porównuje odebrane sygnały z zaprogramowaną listą fonemów, czyli elementów akustycznych. Sygnały krótkoterminowe porównuje się ze standardowymi wzorcami słów i odnosi do zasad języka i składni.

Ten proces pomaga komputerowi identyfikować wypowiadane słowa. Jeśli program jest wystarczająco zaawansowany, może nawet określić na podstawie kontekstu, czy zostało wypowiedziane słowo „owoc”, czy „tratwa”. Jednak to, czy komputer rzeczywiście potrafi rozumieć mowę tak jak ludzie, pozostaje po dziś dzień przedmiotem gorącej dyskusji. Możesz zaprogramować swój komputer tak, aby reagował pewne kombinacje słowa, ale czy to zastąpi prawdziwe zrozumienie? Niektórzy eksperci w tej dziedzinie sztuczna inteligencja Wierzą, że za kilka dekad komputer będzie w stanie przeprowadzić z człowiekiem odpowiednią, swobodną rozmowę. Niemniej jednak wielu ekspertów jest przekonanych, że komputer zawsze będzie ograniczony przez program, wstępnie skompilowane odpowiedzi.

Rozpoznawanie głosu

Dźwięki wypowiadane dłużej niż kilka sekund są dzielone na krótsze segmenty czasowe. Następnie komputer analizuje składowe częstotliwości każdego segmentu.

Analiza akustyczna

Spektrograf dźwięku przedstawia widmo dźwięku w formie widzialnej. Za pomocą jednej metody analizy normalny łańcuch dźwięków ludzki głos jest podzielony na segmenty, oznaczone kolorami w celu wskazania siły i częstotliwości ich składników. Trójwymiarowe wykresy, takie jak powyższy, przedstawiają inny sposób wizualizacji takich informacji.

Podejmowanie decyzji

Na podstawie wyników analizy komputer decyduje, czy dane słowo. Komputer porównuje zarejestrowaną analizę z listą możliwych kandydatów, a następnie na podstawie reguł leksykalnych i składniowych ustala, czy dany dźwięk pasuje do konkretnego słowa.

Standardowe wzorce mowy

Najmniejsze jednostki mowy definiuje się w kategoriach widma częstotliwości. Standardowe wzorce mowy wskazują, która jednostka występuje w danym słowie.

Spektrograf dźwięku (powyżej) przeprowadza analizę akustyczną dźwięków wypowiadanych słów. Tutaj dźwięk samogłoski (na górze po lewej) jest porównywany ze spektrum samogłosek (na dole).

Fale dźwiękowe powodują wibracje błony bębenkowej. Wibracje te są przenoszone na kilka małych kości i przekształcane w sygnały elektryczne, które docierają do mózgu.