Современи методи за автоматско препознавање на говор. Компаративна анализа на системи за препознавање говор со отворен код

15 јули 2009 година во 22:16 часот

Препознавање на говор. Дел 1. Класификација на системи за препознавање говор

  • Вештачка интелигенција
Епиграф
Во Русија, областа на системите за препознавање говор е навистина доста слабо развиена. Google одамна најави систем за снимање и препознавање телефонски разговори... За жал, сè уште не сум слушнал за системи од сличен обем и квалитет на препознавање на руски јазик.

Но, не треба да мислите дека сите во странство веќе одамна откриле сè и ние никогаш нема да ги стигнеме. Кога барав материјал за оваа серија, морав да копам низ облак од странска литература и дисертации. Покрај тоа, овие статии и дисертации беа од прекрасни американски научници Хуанг Ксуедонг; Хисајоши Коџима; ДонгСук Јукитн. Јасно е кој ја поддржува оваа гранка на американската наука? ;0)

Во Русија, познавам само една паметна компанија која успеа да ги донесе домашните системи за препознавање говор на комерцијално ниво: Центарот за говорни технологии. Но, можеби после оваа серија написи некому ќе му текне дека е можно и неопходно да се започне со развој на такви системи. Покрај тоа, во однос на алгоритми и мат. Практично не заостанувавме зад апаратот.

Класификација на системи за препознавање говор

Денес, концептот на „препознавање на говор“ крие цела област на научна и инженерска активност. Општо земено, секоја задача за препознавање говор се сведува на извлекување, класификација и соодветно реагирање на човечкиот говор од влезниот аудио поток. Може да биде и извршување одредена акцијапо наредба на некоја личност и избор на специфичен маркерски збор од голема низа телефонски разговори и системи за гласовно внесување текст.

Знаци на класификација на системи за препознавање говор
Секој таков систем има одредени задачи што е дизајниран да ги реши и збир на пристапи кои се користат за решавање на проблемите. Да ги разгледаме главните карактеристики според кои можат да се класифицираат системите за препознавање човечки говори како овој симптом може да влијае на работата на системот.
  • Големина на речник.Очигледно, колку е поголема големината на речникот што е вграден во системот за препознавање, толку е поголема стапката на грешка при препознавање зборови од системот. На пример, речник од 10 цифри може да се препознае речиси без грешка, додека стапката на грешка при препознавање на речник од 100.000 зборови може да достигне 45%. Од друга страна, дури ни признавањето не е голем речникможе да произведе голем број грешки при препознавање ако зборовите во овој речник се многу слични еден на друг.
  • Зависност од звучник или независност на системот од звучник.По дефиниција, системот зависен од звучник е дизајниран да се користи од еден корисник, додека систем независен од звучник е дизајниран да работи со кој било звучник. Независноста на звучникот е тешка цел за постигнување, бидејќи при обука на системот, тој се прилагодува на параметрите на говорникот на чиј пример се тренира. Стапката на грешки при препознавање на таквите системи обично е 3-5 пати повисока од стапката на грешка кај системите зависни од звучниците.
  • Одделен или континуиран говор.Ако во говорот секој збор е одделен од другиот со дел од тишината, тогаш тие велат дека овој говор е одделен. Континуираниот говор се природно изговорени реченици. Препознавањето на континуираниот говор е многу потешко поради фактот што границите на поединечните зборови не се јасно дефинирани и нивниот изговор е многу искривен со замаглување на изговорените звуци.
  • Цел.Целта на системот го одредува потребното ниво на апстракција на кое ќе се случи препознавање на говорен говор. Во командниот систем (на пример, гласовно бирање мобилен телефон) најверојатно, препознавањето на збор или фраза ќе се појави како препознавање на еден говорен елемент. Системот за диктирање на текст ќе бара поголема точност на препознавање и, најверојатно, при толкување на изговорената фраза, ќе се потпира не само на она што е изговорено во овој момент, но и за тоа како е поврзано со претходно кажаното. Исто така, системот мора да има вграден сет граматички правила, што мора да го задоволи изговорениот и препознатлив текст. Колку се построги овие правила, толку е полесно да се имплементира системот за препознавање и поограничен ќе биде множеството реченици што може да ги препознае.
Разлики помеѓу методите за препознавање говор
Кога креирате систем за препознавање говор, треба да изберете кое ниво на апстракција е соодветно за задачата, кои параметри на звучниот бран ќе се користат за препознавање и методи за препознавање на овие параметри. Да ги разгледаме главните разлики во структурата и процесот на работа на различни системи за препознавање говор.
  • По тип на конструктивна единица.Кога се анализира говорот, како основна единицаможе да се изберат поединечни зборови или делови од изговорени зборови, како што се фонеми, ди- или трифони и алофони. Во зависност од тоа кој структурен дел е избран, се менува структурата, разновидноста и сложеноста на речникот на препознаени елементи.
  • Со идентификување на карактеристиките.Редоследот на отчитувања на притисокот на звучните бранови сам по себе е претерано непотребен за системите за препознавање звук и содржи многу непотребни информации кои не се потребни за препознавање, па дури и штетни. Така, за да се претстави говорен сигнал, потребно е од него да се изберат некои параметри кои соодветно го претставуваат овој сигнал за препознавање.
  • Според механизмот на функционирање.Во современите системи тие се широко користени различни пристапина механизмот на функционирање на системите за препознавање. Веројатниот мрежен пристап се состои во тоа што говорниот сигнал е поделен на одредени делови (рамки, или според фонетски карактеристики), по што постои веројатност за проценка на кој елемент од препознаениот речник се однесува. овој дели/или целиот влезен сигнал. Пристап заснован на решенија инверзен проблемсинтезата на звукот се состои во тоа што природата на движењето на артикулаторите на гласовниот тракт се одредува од влезниот сигнал и, со помош на специјален речник, се одредуваат изречените фонеми.

UPD:Преместен во „Вештачка интелигенција“. Доколку има интерес, ќе продолжам да објавувам таму.

Комерцијални програмипрепознавањето говор се појави во раните деведесетти. Тие обично се користат од луѓе кои поради повреда на раката не можат да напишат голема количина текст. Овие програми (на пример, Dragon NaturallySpeaking, VoiceNavigator) го преведуваат гласот на корисникот во текст, а со тоа му ги олеснуваат рацете. Веродостојноста на преводот на таквите програми не е многу висока, но со текот на годините постепено се подобрува.

Зголемена компјутерска моќ Мобилни уредиовозможи да се креираат програми за нив со функции за препознавање говор. Меѓу таквите програми, вреди да се забележи апликацијата Microsoft Voice Command, која ви овозможува да работите со многу апликации користејќи го вашиот глас. На пример, можете да пуштате музика во вашиот плеер или да креирате нов документ.

Интелигентните говорни решенија кои автоматски го синтетизираат и препознаваат човечкиот говор се следниот чекор во развојот на интерактивни гласовни системи (IVR). Употребата на интерактивна телефонска апликација во моментов не е моден тренд, туку витална потреба. Намалувањето на обемот на работа на операторите и секретарите на контакт центрите, намалувањето на трошоците за работна сила и зголемувањето на продуктивноста на системите за услуги се само дел од придобивките кои ја докажуваат изводливоста на ваквите решенија.

Напредокот, сепак, не стои, а неодамна системите за автоматско препознавање и синтеза на говор сè повеќе почнаа да се користат во интерактивни телефонски апликации. Во овој случај, комуникацијата со гласовниот портал станува поприродна, бидејќи изборот во него може да се направи не само со тонско бирање, туку и со помош на гласовни команди. Во исто време, системите за препознавање се независни од звучниците, односно го препознаваат гласот на која било личност.

Следниот чекор во технологиите за препознавање говор може да се смета за развој на таканаречените тивки говорни интерфејси (SSI). Овие системи за обработка на говор се засноваат на примање и обработка на говорни сигнали во рана фаза на артикулација. Оваа фазаРазвојот на препознавање говор е предизвикан од два значајни недостатоци на современите системи за препознавање: прекумерна чувствителност на бучава, како и потреба за јасен и јасен говор при пристап до системот за препознавање. Пристапот SSI е да се користат нови сензори кои не се засегнати од бучавата како дополнување на обработените акустични сигнали.

Денес, постојат пет главни области на употреба на системите за препознавање говор:

Гласовната контрола е начин за интеракција и контрола на работата на уредот користејќи гласовни команди. Системите за гласовна контрола се неефикасни за внесување текст, но се погодни за внесување команди, како што се:

Видови системи

Денес, постојат два вида системи за препознавање говор - оние кои работат „базирани на клиент“ и оние што работат на принципот „клиент-сервер“. Кога се користи технологијата клиент-сервер, говорната команда се внесува на уредот на корисникот и се пренесува преку Интернет на оддалечен сервер, каде што се обработува и се враќа на уредот во форма на команда (Google Voice, Vlingo итн.) ; во поглед на големо количествокорисниците на серверот, системот за препознавање добива голема база за обука. Првата опција работи на други математички алгоритмии е редок (Speereo Software) - во овој случај, командата се внесува на уредот на корисникот и се обработува таму. Предноста на обработката „на клиентот“ е мобилност, независност од достапноста на комуникација и работа на далечинска опрема. Така, системот што работи „на клиентот“ изгледа посигурен, но понекогаш е ограничен од моќта на уредот од страната на корисникот.

Испратете ја вашата добра работа во базата на знаење е едноставна. Користете ја формата подолу

Добра работана страницата">

Студентите, дипломираните студенти, младите научници кои ја користат базата на знаење во нивните студии и работа ќе ви бидат многу благодарни.

Објавено на http://www.allbest.ru/

ВОВЕД

Човечкиот говор се проучува долго време. Во средината на дваесеттиот век се појави проблемот со автоматско препознавање на говор од компјутерите. Повеќе од половина век, научниците успеаја да акумулираат огромна количина на знаење за предметот на истражување. Стана јасно дека препознавањето говор е многу тешка задача.

Основната техника за многу системи за препознавање говор е статистички метод, наречен Скриено Марково моделирање (HMM). Таквите системи се развиваат во многу центри и се способни за добро препознавање на говорните зборови. Веројатноста за препознавање зборови достигнува 80 - 90%.

Областите на примена на системите за автоматско препознавање говор се многу разновидни. На пример, од раните деведесетти, неколку американски и канадски компании, нарачани од Министерството за одбрана на САД, развиваат системи за препознавање дизајнирани да пресретнуваат телефонски разговори. Неодамна, системи за препознавање се користат на курсеви за обука за компјутери. странски јазик, системи за подготовка на текстуални документи. Ветувачки области се развојот на системи за помош за лицата со посебни потреби и подобрување на интерфејсот човек-машина.

Фактори кои ја попречуваат широката имплементација на системите за автоматско препознавање говор се:

Комплексноста на имплементацијата во мобилната опрема со мала големина поради високите пресметковни трошоци и нивната значителна нерамномерност, како и потребата за складирање на голем речник (збир на модели на препознатливи говорни единици) во меморијата;

Значително влошување на параметрите за квалитет во услови на пречки.

Овој труд ги презентира основните принципи на конструирање системи за препознавање говор, претходна обработка на изворниот сигнал, конструирање акустични и јазични модели и разгледува модерен пристап за имунитет на бучава на системите за препознавање. Разгледани се методите за оценување на квалитетот на системите за препознавање.

Внимание се посветува и на развојните проблеми, изгледите за развој и постојаното подобрување на системите за препознавање.

1. СИСТЕМИ ЗА ПРЕПОЗНАВАЊЕ ГОВОР

Препознавањето говор е процес на конвертирање на електрично конвертираниот звучен сигнал во низа зборови. Препознаените зборови можат да бидат краен резултат, доколку целта на системот е контрола, внесување податоци или подготовка на документи. Тие исто така може да бидат основа за последователна лингвистичка обработка за да се постигне разбирање на говорот.

1.1 Класификација и структура на системите за препознавање говор

Класификација

Системите за препознавање говор се карактеризираат со многу параметри, од кои главни се дадени во Табела 1.1.

Табела 1.1. Општи параметри на системите за препознавање говор

Параметар

Опсег на промени

Поврзување

Поединечни зборови или континуиран говор

Говор базиран на пишан текст или спонтан

Прилагодување

Зависност или независност од говорникот

од мали (<20 слов) до большого(>20000)

Јазичен модел

Државно или зависно од контекст

Збунетост

од мали (< 10) до большой (> 100)

Голем (> 30dB) до мал (<10dB)

Ако системот е дизајниран да препознава поединечни зборови, тогаш говорникот мора да паузира меѓу нив ако за континуиран говор, тогаш не. Спонтаниот говор обично содржи многу повеќе некохерентност од говорот на личност која чита пишан текст, и затоа е потешко да се препознае. Некои системи бараат усогласување на звучниците, каде што корисникот мора да каже некои зборови или фрази за да го прилагоди системот пред да го користи системот, додека други системи не го бараат тоа. Општо земено, препознавањето е потешко кога големината на вокабуларот е голема и содржи многу зборови со сличен звук.

Наједноставниот модел на јазик може да се опише со мрежа со одреден број состојби. Во него, множеството валидни зборови што следат по секој збор е одредено. Моделите што приближуваат до природниот јазик се дефинираат со помош на граматики чувствителни на контекст.

Широко користен индикатор за сложеноста на проблемот решен со систем за препознавање е збунетоста (тежина, сложеност, сложеност). Збунетоста се дефинира како број на можни зборови кои следат даден збор во даден јазичен модел.

Системот за препознавање исто така се карактеризира со таков параметар како што е максималниот дозволен сооднос сигнал-шум (SNR).

Препознавањето на говорот е сложена задача, главно поради големиот број извори кои влијаат на параметрите на говорниот сигнал:

Акустичниот звук на фонемите, најмалите говорни единици, силно зависи од фонетскиот контекст што ги опкружува (/t/ во зборовите два, точно, путер), во фразите контекстуалната зависност станува уште посилна („мајсторско производство“, „учи добро манири“);

Варијации на звучниот сигнал поради разлики во акустиката на просторијата, карактеристиките на микрофонот и поставеноста;

Физичката и емоционалната состојба на говорникот;

Неговата возраст, пол, социјален статус, дијалект.

Општата структура на системот за препознавање говор е претставена на слика 1.1.

Слика 1.1 - Структура на системот за препознавање говор.

Говорниот сигнал е поделен на делови, а за секој дел се пресметува збир на параметри. Овие параметри се користат за да се најде најдобриот кандидат збор во достапните акустични, лексички и јазични модели. Лексичките модели во современите системи се вклучени во јазичниот модел како принципи и методи за создавање речник врз основа на постоечката текстуална база и пребарување во него. Во наједноставните системи, јазичниот модел дегенерира во лексички.

1.2 Тековно ниво на развој

Квалитетот на системот за препознавање обично се оценува со помош на таков индикатор како стапка на грешка:

(1.1)

N е вкупниот број на зборови во тест множеството, S, I, D се бројот на замени, вметнувања и бришења на зборови, соодветно.

Од 1990-тите, значителен напредок е направен во технологијата за препознавање говор. Стапката на грешка се намалуваше за приближно 2 пати на секои 2 години. Во голема мера се надминати бариерите на зависноста на системот за препознавање од говорникот, постојаното препознавање говор и употребата на голем речник. Неколку фактори придонесоа за ова:

- користење на скриени Марков модели (HMM);

Развој на стандардни правила за составување говорни бази на податоци за обука и тестирање (TIMIT, RM, ATIS, WSJ, итн.), Тие им овозможуваат на програмерите да го одредат бројот на акустични знаци важни за нагласување на фонетските карактеристики, врз основа на статистички техники. Стандардизацијата на правилата за обука и тестирање исто така овозможува да се споредат перформансите на различни системи;

- значително зголемување на перформансите на компјутерските системи.

Типична задача со ниско ниво на збунетост (PP = 11) е препознавање на броеви во стандарден телефонски канал. Овде, стапката на грешка од 0,3% е постигната со позната должина на низата цифри.

Задачите на просечното ниво на збунетост се задачи за управување со ресурси, на пример, спонтан систем за препознавање говор за информативниот систем за воздушниот сообраќај (Сервис за информации за воздушниот сообраќај, ATIS) со речник од околу 2000 зборови и PP = 15 постигнува стапка на грешка не повеќе од 3%.

Системите дизајнирани за диктирање текст имаат високо ниво на збунетост (PP? 200) и голем речник (околу 20.000 зборови). Стапката на грешка што ја постигнале е околу 7%.

Главните области на примена на системите за препознавање се гласовното бирање на телефонски број (на пример, „повикување дома“ наместо бирање број), подготовка на документи, информациски и референтни системи и системи за настава странски јазици.

1.3 Изгледи

Имунитет на бучава

Квалитетот на работа на системите за препознавање катастрофално се намалува бидејќи разликата помеѓу условите за снимање на говорни податоци за обука и условите за вистинска работа се зголемува поради различни пречки. Затоа, посебно внимание ќе се посвети на влијанието на акустичната средина и на електричните карактеристики на каналот за пренос.

Преносливост

Кога современите системи се пренесуваат за да се реши нов проблем, квалитетот на нивната работа е значително намален. За да се подобри, потребна е преквалификација на системот. Преносливоста подразбира можност за користење на системот за решавање на различни проблеми со минимално прилагодување.

Адаптација, прилагодување

Дури и за време на работата на системот за да се реши истиот проблем, надворешните услови може да се променат (звучници, микрофони, итн.). Неопходно е да се одлучи како да се принуди системот да го подобри квалитетот на работата за време на работата и да се прилагоди на новите услови.

Јазични модели

Современите системи користат статистички јазични модели за да го намалат просторот за пребарување и да ја решат несигурноста на акустичниот модел. Како што расте големината на вокабуларот и се релаксираат другите ограничувања, дефинирањето на правилата и ограничувањата наметнати од синтаксата на јазикот што се препознава станува сè поважно за создавање одржливи системи. Во исто време, чисто статистичките јазични модели ќе вклучуваат сè повеќе синтаксички и семантички правила и ограничувања.

Мерка за доверба во хипотезите

Повеќето системи за препознавање за подредување хипотези секоја хипотеза ја поврзуваат со одредена тежина, број. Во моментов, оваа тежина, по правило, не е показател за доверба во дадена хипотеза (т.е. зошто оваа хипотеза е подобра од другите). За проблеми со управувањето, неопходно е да се подобрат методите за проценка на веродостојноста на хипотезите.

Зборови кои не се вклучени во речникот

Системите се дизајнирани за употреба со специфичен вокабулар. Меѓутоа, во реалниот живот секогаш ќе има одреден процент зборови кои не се вклучени во речникот. Мора да постојат методи за откривање на присуството на такви зборови и нивна обработка.

Спонтан говор

Системите кои работат во реални услови секогаш наидуваат на различни феномени својствени за спонтаниот говор: лажни стартови, пелтечење, неграматички конструкции итн. Развојот на ATIS реши многу прашања во оваа област, но не сите.

Прозодија (интонација и ритам)

Интонацијата и ритмичката структура на говорот носат информации за значењето на изговорените зборови. Сепак, прашањето како да се интегрираат прозодичните информации во системот за препознавање сè уште не е решено.

Симулација на динамика

Современите системи добиваат низа делови од звучен сигнал и ги обработуваат како статични и независни еден од друг. Сепак, познато е дека секциите на сигналот кои се перцепирани како фонеми и зборови бараат комбинација на параметри извлечени од сигналот и нивна презентација во динамика. Ова би одразувало динамична артикулација. Како да се моделира динамиката на говорниот сигнал за системот за препознавање е нерешен проблем.

2. ПРЕТСТАВУВАЊЕ НА ОРИГИНАЛНИОТ СИГНАЛ

2.1 Принципи на претходна обработка на сигналот

Во препознавањето говор врз основа на статистички методи, оригиналниот сигнал се зема примерок на фреквенција од 6,6 до 20 kHz и се обработува за да се претстави како низа вектори во просторот за карактеристики кои ја моделираат состојбата на гласниот тракт на говорникот. Во овој случај, дел од оригиналниот сигнал со времетраење од 10 - 25 ms, што е 150 - 300 примероци, обично во голема корелација еден со друг, се проширува во ортогонална серија и, за дадена вредност на грешка, е претставен во форма на 10 - 20 коефициенти на проширување, наречени параметри.

Овие параметри вектори се користат во следните чекори за да се процени веројатноста на вектор или низа вектори кои припаѓаат на фонема или на цел збор при тестирање на хипотезата за членство.

Во повеќето системи, процесите на векторско претставување на сигналот и проценката на веројатноста се тесно поврзани. Затоа, се претпоставува дека ако операција или постапка се примени на говорен сигнал, таа припаѓа на фазата на презентација. Ако се користи за тестирање на хипотеза, тогаш тоа е дел од фазата на пресметување на усогласеноста.

Целта на фазата на претставување на сигналот е да ги зачува сите корисни информации потребни за фонетска идентификација на делот од говорниот сигнал за кој станува збор. Во исто време, презентацијата треба да биде што е можно поимуна на фактори како што се разликите меѓу говорниците, карактеристиките на каналите за комуникација и емоционалната состојба. Презентацијата исто така треба да биде што е можно покомпактна.

Претставите што се користат во современите системи ги рефлектираат повеќе својствата на говорниот сигнал поради обликот на гласниот тракт отколку сигналот за возбудување (основниот тон генериран од гркланот и гласните жици). Претставите само одредуваат дали гласните жици вибрираат или не, т.е. дали звукот е вокализиран.

Репрезентациите што се користат скоро секогаш се изведени од ограничен енергетски спектар, спектрална густина на моќноста на сигналот

каде што x1, …, xl, …, xn е почетната низа на примероци во сегментот; S(ejш) - спектрални коефициенти. Препорачливо е да се користи енергетскиот спектар бидејќи увото е нечувствително на фазата на акустичниот сигнал.

Покрај тоа, енергетскиот спектар речиси секогаш користи логаритамска претстава. Ова овозможува да се намалат претерано големите промени во параметрите со значителни флуктуации во амплитудата на сигналот, како и да се трансформираат мултипликативните акустични ефекти и пречки од опремата што се користи во адитивни пречки. Недостаток на логаритамското претставување е несигурноста на логаритамот нула. Ова бара ограничување на минималната скала на амплитудата на сигналот на некоја не-нулта вредност и ограничување на самиот сигнал одоздола за да се избегне прекумерна чувствителност на нискоенергетските спектрални компоненти, кои главно се шум. .

Слика 2.1 - Претставување на говорен сигнал за препознавање

Пред да се пресмета спектарот, сигналот обично се подложува на прелиминарно филтрирање, што осигурува дека засилувањето на сигналот се зголемува со зголемување на фреквенцијата со наклон од 6 dB/октава за да се компензира слабеењето воведено од електричната патека. Оригиналниот сигнал потоа се дели на последователни, преклопувачки делови, обично со должина од 25 ms, кои се обработуваат со функција на ѕвонче за да се намали амплитудата на сигналот на рабовите на делот. Потоа се пресметува спектралната густина на моќноста.

Резултирачкиот енергетски спектар има непожелна хармонична компонента на основната фреквенција. Оваа компонента може да се намали со групирање на соседните множества на спектрални компоненти за да се формира група од околу 20 опсези пред да се пресмета логаритмот на моќност. Овие опсези често се прават прогресивно пошироки во чекори од 1 kHz. Исто така е можно да се користи сет на дигитални филтри. Резултатите се слични.

Цепстралната претстава на сигналот дополнително ја намалува корелацијата на соседните примероци во оригиналниот сигнал. Овде се претпоставува дека говорот е излезниот сигнал на линеарен систем со бавно променливи параметри - гласниот тракт, возбуден или од низа основни тонови пулсирања или од бучава. Анализата на говорниот сигнал во овој случај се состои од пресметување на параметрите на гласовниот тракт од измерените параметри на говорниот сигнал и нивно оценување со текот на времето. Бидејќи возбудниот сигнал x(n) и одговорот на импулсот на филтерот h(n) комуницираат преку операцијата на конволуција, проблемот со анализата се смета како проблем на одвојување на компонентите вклучени во операцијата на конволуција. Овој проблем се нарекува инверзна конволуција или проблем со одвиткување. За да се реши, потребно е да се најде следниот хомоморфизам: C(x(n)*h(n)) = C(x(n)) + C(h(n)). Овој хомоморфизам може да се имплементира со помош на следнава трансформација:

c(n) = F-1(ln[ |F(x(n))| ]),(2.2)

кој се нарекува цепструм на дискретен сигнал x(n), F и F-1 се, соодветно, директна и инверзна дискретна Фуриеова трансформација.

Авторегресивното претставување на сигналот (линеарно предвидување, LPC) е поврзано со истиот модел на формирање на говорен сигнал. Коефициентите на авторегресија се пресметуваат од условот за директно минимизирање на корелацијата помеѓу блиските примероци на говорниот сигнал x(ti):

Во почетната фаза на пресметување на параметрите на сигналот, различни програмери користат различни модели, енергетски спектар или авторегресија, на пример, во телефонијата обично се користи авторегресија, бидејќи во сите современи телефонски вокодери овие параметри се пресметуваат. Во компјутерските системи, спектарот обично се пресметува бидејќи компонентите што се користат за негово пресметување може да се користат од други апликации. Во иднина, се пресметуваат цепстралните коефициенти Ci, бидејќи тие се најпогодни за задачата за препознавање. Пресметувањето на цепструмот преку авторегресија е пресметковно поекономично, што е добро за ограничени телефонски ресурси. Не постои такво строго ограничување за компјутерите, но разновидноста и можноста за повторна употреба на кодот се важни, па затоа спектарот е подобар. Некои системи, исто така, ја пресметуваат динамиката на промените во параметрите на сигналот dCi во делот на сигналот и помеѓу соседните делови.

Различни постојани надворешни фактори, како што се карактеристиките на одредена телефонска врска, се појавуваат како константна компонента (офсет) на спектарот или цепструмот. Разлика, динамички параметри dCi не подлежат на такви ефекти. Ако динамичките параметри од прв ред се пренесат низ интеграторот, вредностите блиски до оригиналните, статичките параметри Ci ќе бидат вратени. Слична техника применета на секвенци од коефициенти на спектарот на моќност, пред да се земе логаритам, е корисна за намалување на пречки од неподвижна или бавно променлива адитивна бучава.

Бидејќи цепстралните коефициенти се речиси неповрзани, пресметковно ефикасен метод за добивање на разумно добри веројатносни проценки во последователниот процес на совпаѓање е да се пресметаат Евклидовите растојанија до соодветните вектори на моделот. Пресметката на растојанија се врши по соодветно пондерирање на коефициентите (параметрите). Постојат многу методи за пондерирање, групирани во две главни класи: емпириски и статистички.

Постојат техники кои ги комбинираат наведените методи и овозможуваат скоро целосно отстранување на корелацијата на параметрите, меѓутоа, поради зголемените пресметковни трошоци, тие во моментов се користат за демонстративни цели.

2.2 Изгледи

Во моментов, се проучува можноста за користење на брановидни трансформации и методи на невронска мрежа во фазата на прикажување на оригиналниот сигнал, овозможувајќи нелинеарни операции со оригиналниот сигнал или со резултатите од други трансформации. Развојот на претстави кои попрецизно ја рефлектираат акустиката на просторијата, како и враќање на артикулацијата од говорен сигнал, продолжува.

Современите методи за прикажување сигнал ја користат само формата на спектарот, без да се земе предвид основната фреквенција. Сепак, познато е дека дури и при препознавање на еден збор, фреквенцијата на гласот може да биде поим за идентификација на лексичките зборови. Ова се однесува не само на тонските јазици како кинескиот, туку и на европските, бидејќи оваа фреквенција е поврзана со лексичкиот стрес. Во поврзаниот говор, основниот тон носи информации за синтаксичката структура на реченицата и расположението на говорникот. Истражувањата во оваа област ќе продолжат.

3. ПРЕПОЗНАВАЊЕ НА ГОВОР ОТПОРНО НА БУЧАВА

3.1 Одредување на отпорност на бучава

Имунитетот на бучава (робусноста) во препознавањето говор е поврзан со потребата да се обезбеди доволна точност под дестабилизирачки фактори:

Кога квалитетот на влезниот говорен сигнал е низок,

Кога постојат значителни разлики во акустичните, артикулационите и фонетските карактеристики на говорот помеѓу условите за обука и тестирање (работа).

Изворите на овие фактори се:

Акустични пречки во форма на адитивен шум,

Линеарни феномени на филтрација

Нелинеарни нарушувања при конверзија и пренос на оригиналниот сигнал,

Пулсни пречки

Промени во артикулацијата на звучниците предизвикани од присуството на извори на бучава.

Современите системи дизајнирани да работат во поволни акустични услови во голема мера постигнаа независност на звучниците, компензирајќи за одредена деградација на сигналот поради бучава и непознато линеарно филтрирање. Сепак, за апликации во реалниот свет, потребата за подобрена робусност е јасна. Дури и најдобрите модерни системи значително ги намалуваат перформансите ако сигналот што се препознава поминува низ телефонски канал или ако звучникот зборува со акцент. Следно, ја разгледуваме отпорноста на изобличувањето на сигналот предизвикано од околните, надворешни извори на пречки. Главните пристапи кон робусноста се динамично прилагодување на параметрите, употреба на низи од микрофон и обработка на сигнали земајќи ги предвид психолошките модели на перцепција.

3.2 Динамично прилагодување на параметрите

Вообичаено, моделите за прилагодување на системите на променливите услови на животната средина претпоставуваат дека изворите на деградација на квалитетот на говорот се адитивниот шум со непозната дистрибуција на спектрална густина на моќност или комбинација од адитивен шум и линеарно филтрирање. За да се компензира за овие пречки, системот може динамички да ги приспособи акустичните параметри, и пресметани од препознаениот влезен сигнал и од акустичните модели на искази складирани од системот. Постојат три главни пристапи за динамичко прилагодување на параметрите:

Користење на оптимална проценка за да се добијат нови вредности на параметрите во услови на тестирање,

Примена на компензација врз основа на емпириска споредба на говорниот сигнал во услови на обука и тестирање,

Високопропусно филтрирање на вредностите на параметрите.

Оптимална проценка на параметри

Се користат два главни пристапи за оптимална проценка.

Првиот се заснова на формално статистички модел, што ја карактеризира разликата помеѓу говорот што се користи за обука на системот и говорот што се користи за тестирање на системот. Вредностите на параметрите на моделот се проценуваат од пробните примероци на говор снимени во различни средини, по што се менуваат или пресметаните параметри на влезниот сигнал или акустичните модели на говорните единици складирани во системот. Експериментите покажуваат дека овој пристап значително го намалува бројот на грешки при препознавање на говорен сигнал со адитивен шум. Сепак, овој пристап не е во состојба сериозно да се спротивстави на влошувањето на квалитетот на говорот во реални услови.

Втор популарен пристап е да се користи знаењето за шумот за да се принудат фонетските модели да го карактеризираат говорот со бучава. Знаењето е изведено од постоечките шеми на интерференција и се користи за прилагодување на параметрите на фонетските модели (промени во средствата и варијанси) пресметани од говор без пречки. Овој пристап е имплементиран во техника наречена комбинација на паралелни модели. Дава добри резултати за адитивни, мултипликативни пречки и за вистински говорни сигнали. Меѓутоа, во моментов премногу високите пресметковни трошоци ја спречуваат неговата употреба во системите за препознавање.

Емпириска споредба на параметрите

Параметрите извлечени од говорот без пречки се споредуваат со параметрите на истиот говор снимен со пречки. Во овој пристап, комбинираниот ефект на различни пречки се смета за адитивни прекршувања на параметрите на сигналот. Кога се споредуваат параметрите, се пресметуваат вектори за корекција, кои потоа се користат за да се поправат или параметарските вектори на влезниот препознаен сигнал или векторите на параметрите на акустичните модели складирани во системот за препознавање.

Точноста на препознавање се подобрува ако се претпоставува дека векторите за корекција зависат од: односот сигнал-шум, локацијата во просторот на параметрите во даден сооднос сигнал-шум или очекуваната кореспонденција на фонемите.

Овој општ пристап може да се прошири на случаи каде што околината за тестирање е непозната априори, со формирање на ансамбл на вектори за корекција за многу различни услови на животната средина за тестирање. Векторите за корекција потоа секвенцијално се применуваат на говорните обрасци, почнувајќи од веројатно најверојатниот вектор, додека не се најде најдоброто совпаѓање со векторот добиен од влезниот сигнал.

Доколку условите за пресметување на вектори за корекција се блиску до реалните работни услови на системот, квалитетот на неговото работење е доста висок. Недостаток е потребата да се користи стерео снимање за да се создаде база на податоци за акустични модели.

Примена на високопропустливи филтри

Употребата на високофреквентно или пропусно филтрирање при пресметување на цепстралните коефициенти овозможува значително да се зголеми имунитетот на системот за бучава со минимална цена. Овој метод е имплементиран во алгоритмите RASTA и CMN. Овие алгоритми сега се користат во скоро сите системи каде што е потребен имунитет од бучава.

3.3 Користење низи за микрофон

Дополнително подобрување во точноста на препознавање при ниски соодноси сигнал-шум може да се постигне со помош на низа на микрофони. Ваквата матрица, во принцип, може да реализира насочена чувствителност со карактеристика што има максимум во насока на звучникот и минимум во насока на извори на пречки, слично на антената со фазна низа во радио комуникациите. Со менување на фазите на поединечни елементи со помош на собирачи и линии за одложување, можете фино да ги приспособите карактеристиките на директивноста како што се менуваат работните услови. Во исто време, алгоритмите се користат за компензирање на спектралната боја воведена од самата матрица. Експериментите со низа микрофони во канцелариско опкружување покажаа намалување на стапката на грешка до 61% за пречки во форма на извор на адитив на бучава.

Иако матрицата е ефикасна против пречки во форма на додаток, независен шум, таа значително ја влошува работата во присуство на многу рефлектирачки површини, кога пречките е малку задоцнет и атенуиран дел од корисниот сигнал.

Понапредните системи користат алгоритми засновани на вкрстена корелација за да се компензира пречки за доцнење на сигналот. Овие алгоритми се способни да го засилат звучното поле во одредени насоки. Сепак, тие само маргинално ги подобруваат перформансите на системот во споредба со едноставните алгоритми за одложување и сума.

3.4 Психолошки базирана обработка на сигнали

Обработката на оригиналниот говорен сигнал земајќи ги предвид психолошките модели на перцепција симулира различни аспекти на перцепцијата на човечкиот говор. Таквите системи за обработка обично вклучуваат збир на пропусни филтри кои ја симулираат чувствителноста на фреквенцијата на човечкиот слух, проследени со нелинеарни уреди за обработка на сигнали во и помеѓу каналите.

Неодамнешните евалуации на системите за препознавање покажуваат дека моделите за симулација на перцепција обезбедуваат подобра прецизност на препознавање од традиционалниот цепструм, и под бучни услови и преку разликите во условите за обука и тестирање. Сепак, овие модели се инфериорни во однос на квалитетот на алгоритмите за динамично прилагодување на параметрите, покрај тоа, динамичкото прилагодување е помалку скапо.

Можно е неуспехот на симулациските модели да е поврзан со употребата на моделите на Скриени Марков за класификација, кои се покажаа како слабо прилагодени за работа со добиените параметри. Голем број на истражувачи, исто така, веруваат дека оптималниот сет на параметри пресметани со користење на овие модели и карактеризирање на говорниот сигнал што е можно попрецизно сè уште не е пронајден. Затоа, оваа област продолжува да привлекува големо внимание од истражувачите.

3.5 Outlook

И покрај неговата очигледна важност, робусноста во препознавањето говор неодамна го привлече вниманието на истражувачите. Значителен успех е постигнат само за услови на прилично „пријателски“ пречки, како што се адитивен шум или линеарно филтрирање. Независноста на системите од говорникот сега се протега само на мајчин јазик. За луѓето кои зборуваат со акцент, точноста на препознавање е значително помала, дури и кога е прилагодена на звучникот.

Говор на телефон

Препознавањето на телефонскиот говор е тешко бидејќи секој телефонски канал има свој сооднос сигнал-шум и фреквентен одговор. Покрај тоа, нарушувањето на говорот може да биде предизвикано од краткорочни пречки или нелинеарности. Апликациите за телефонски линии мора да бидат способни да се приспособат на различни канали со малку податоци за каналот.

Опкружување со висока бучава

Дури и кога се користат различни техники за компензација на бучава, точноста на препознавање опаѓа значително при сооднос сигнал-шум под 15 dB, додека едно лице може совршено да слуша говор со многу помал сооднос.

Преслушување

Влијанието на други разговори, на пример во иста просторија или пречки на соседниот телефонски канал, е многу потежок проблем од пречки на шум на широкопојасен интернет. Досега, напорите да се користат информации што го разликуваат препознаениот говор од мешачкиот говор не доведоа до значителни резултати.

Брзо прилагодување на акцентот во говорот

Во денешното општество со брзо темпо, сериозните јазични апликации мора да бидат способни да ги разберат говорниците без акцент, како и оние со акцент.

Развој на принципи за креирање говорни бази на податоци

Напредокот во препознавањето отпорно на бучава ќе зависи и од развојот на принципите за создавање говорни бази на податоци и директно од создавањето на такви бази на податоци. За да се направи ова, потребно е да се соберат, обработат и структурираат многу примероци на изобличувања и пречки карактеристични за практични проблеми.

4. АКУСТИЧКИ МОДЕЛИ

4.1 Место на акустичниот модел во системот

Современите системи за препознавање говор се имплементирани главно како софтверски производи кои генерираат хипотези за изговорени секвенци од зборови врз основа на влезниот сигнал. Алгоритмите што се користат во таквите системи се базираат на статистички методи.

Векторот yt на акустичните параметри се пресметува од влезниот сигнал на секои 10-30 ms. Секвенците на овие вектори се сметаат за набљудувани низи генерирани од фонетски модели. Врз основа на ова, се пресметува веројатноста p(ylT/W) за набљудување на низа вектори ylT при изговарање низа (збор) W, со други зборови, веројатноста за генерирање на низа ylT од моделот W. Дадена е низа ylT , можете да пребарувате користејќи го правилото:

најдете ја најверојатната низа зборови што генерирале ylT. Оваа постапка за пребарување ја наоѓа низата зборови што ја има максималната задна веројатност. Веројатноста p(ylT/W) се пресметува со акустичниот модел, а p(W) со јазичниот модел.

За системи со голем речник, пребарувањето се состои од две фази. Во првиот, со пресметување на приближни веројатности во реално време со користење на поедноставени модели, се генерира решетка од n најдобри секвенци на зборови. Во втората фаза се пресметуваат попрецизни веројатности со ограничен број хипотези. Некои системи генерираат веројатна низа зборови во еден чекор.

4.2 Акустични модели базирани на Марков синџири

Акустичните модели се елементарни веројатносни модели на основни јазични единици (т.е. фонеми) и се користат за претставување на единиците на следното ниво - зборови.

Редоследот на акустичните параметри добиени од изговорената фраза се смета како имплементација на збир на процеси опишани со помош на скриени Марков модели (HMM). HMM е збир од два случајни процеси:

Скриен Марков синџир одговорен за промените со текот на времето,

Збирки на забележливи стационарни процеси одговорни за спектралните промени.

SMM во пракса докажа дека може да се справи со главните извори на двосмисленост во говорниот сигнал, како што се варијации во изговорот на фонемите, додека дозволува создавање системи со речник од десетици илјади зборови.

SMM структура

Моделот е дефиниран како пар од случајни процеси (X, Y). Процесот X е Марков синџир од прв ред, чиишто имплементации не се директно забележливи. Реализацијата на процесот Y ги земаат своите вредности од просторот на акустичните параметри, се набљудуваат директно, а нивната дистрибуција зависи од реализацијата на процесот X.

HMM се карактеризира со две формални претпоставки. Првиот се однесува на синџирот Марков и наведува дека следната состојба на синџирот се одредува само од моменталната состојба и не зависи од претходната траекторија. Вториот вели дека моменталната дистрибуција на процесот Y, од кој се зема набљудуваната вредност на акустичниот параметар, зависи само од моменталната состојба на Марков синџир (процес X), а не од претходните траектории на процесите X и Y.

Додаток 1 дава математичка дефиниција на моделот, пример за генерирање на набљудувана низа и формули за пресметка.

За повторно проценување на параметрите на моделот за време на неговата обука, се користи алгоритмот Баум-Велш, базиран на повторно проценување на веројатноста со помош на формулата Бејс.

HMM може да се класифицираат според елементите на матрицата Б, кои по својата природа се дистрибутивни функции.

Ако функциите на дистрибуција се дефинирани на конечен простор, тогаш моделот ќе биде дискретен. Во овој случај, набљудуваната реализација е вектор на вредности од конечна азбука од М елементи. За секој елемент на векторот Q избран од множеството V, се дефинира ненулта дискретна густина (w(k)/k=1,…,M), со што се формира распределбата. Оваа дефиниција ја претпоставува независноста на елементите од множеството V.

Ако распределбите се дефинирани како густини на веројатност на континуиран простор, тогаш моделот ќе биде континуиран. Во овој случај, барањата се наметнуваат на функциите на дистрибуција со цел да се ограничи бројот на проценетите параметри на прифатливи граници. Најпопуларниот пристап е да се користи линеарна комбинација на густини g од семејството на G стандардни дистрибуции со едноставна параметарска форма. Вообичаено, g се користи како повеќеваријантна нормална дистрибуција, која се карактеризира со вектор на математичко очекување и матрица на коваријанса. Бројот на стандардни дистрибуции вклучени во линеарна комбинација за да се формира добиената дистрибуција обично е ограничен од пресметковните способности и количината на достапни податоци за обука.

Подесувањето на параметрите за дистрибуција за време на обуката на континуиран модел бара голем број примероци за обука. Доколку се недоволни, тие прибегнуваат кон користење на псевдо-континуиран модел, во кој стандарден сет на основни густини се користи за да се формира линеарна комбинација. Линеарните комбинации се разликуваат едни од други само во нивните коефициенти на тежина. Општиот пристап е да се поврзе секоја влезна векторска координата со свој посебен сет на густини на базите.

4.3 Моделирање на зборови

Фонетско распаѓање

Зборот обично се претставува со мрежа од фонеми. Секоја патека во мрежата претставува варијантен изговор на збор.

Истата фонема, изговорена во различни контексти, може да има различни акустични параметри и затоа да се моделира со различни дистрибуции. Алофоните се обрасци кои претставуваат фонема во различни контексти. Одлуката за тоа колку алофони ќе претставуваат одредена фонема зависи од многу фактори, а главниот е количината на податоци за обука за прилагодување на параметрите на акустичниот модел.

Постојат неколку варијанти на моделот алофон. Еден од нив се полифоните. Во принцип, изговорот на фонемата е различен во сите зборови каде што се појавува, па затоа бара различни алофони. Со голем речник, речиси е невозможно да се обучи таков модел поради недостаток на податоци за обука. Затоа, претставувањето на алофоните се користи на неколку нивоа на детали: збор, слог, трифон, дифон, фонема независна од контекст. Веројатните распределби на алофоните на различни нивоа на детали може да се добијат со комбинирање на дистрибуции на подетални нивоа на претстави. Губењето на карактеристиките се компензира со подобрување на проценката на статистичките параметри на моделот за време на неговата обука поради зголемувањето на односот на обемот на податоци за обука со бројот на проценетите параметри на моделот.

Друга варијација е да се групираат алофоните во одреден број можни класи на контексти. Пребарувањето на класите се врши автоматски со користење на дрво за класификација и регресија (CART). Ова е бинарно дрво, во коренот има фонема, со секој јазол поврзано прашање за контекстот како: „Дали претходната фонема е носна согласка?“ За секој можен одговор (да, не) има гранка до друг јазол. Листовите на дрвото се алофони. Постојат алгоритми за раст и кастрење CART кои автоматски ги поврзуваат прашањата од рачно креиран базен со јазли.

Секој алофон во системите за препознавање е моделиран со користење на HMM. Општо земено, сите модели можат да се изградат со користење на дистрибуции извлечени од еден, заеднички базен или до неколку илјади кластери наречени сенони.

Моделите на алофони на повисоко ниво, како што се зборовите, исто така може да се конструираат со спојување на базните модели користејќи поврзувачки транзиции и дистрибуции. Таквите градежни блокови се нарекуваат фенони и мултони.

Друг пристап за моделирање на зборови е да се користи шифрарник - збир на референтни карактеристики кои се неговите зборови. Врз основа на влезниот вектор на параметрите на сигналот, се наоѓа најблискиот референтен знак од книгата со шифри, кој има свој број. За шифрарникот, се користи стандарден сет на основни густини, зборовите се претставени со низи од броеви на карактеристики. Секоја нумеричка секвенца потоа се моделира со помош на HMM.

Одредување граници и веројатности на зборови

Општо земено, говорниот сигнал и неговите претстави не даваат јасни индикации за границите меѓу зборовите, па оттука откривањето на границите на зборовите е дел од процесот на хипотеза што се изведува како пребарување. Во текот на овој процес, обрасците на зборовите се споредуваат со низа акустични параметри. Во веројатноста рамка, споредбата на акустичните секвенци со моделите вклучува пресметување на веројатноста дадената низа да биде генерирана од даден модел, т.е. пресметка на p(ylT/W). Ова е клучна компонента на процесот на препознавање.

За дадена временска низа: 1, 2, …, t, t+1, …, T-1, T:

Веројатност dt(i) дека со време t е забележана низата o1,o2...ot и моделот е во состојба Si (алгоритам напред):

за сите 1?i?N, 1?j?N, t = 1,2,…,T-1:

на t = 1: d1 (i) = pi bi (o1); (4.2)

за t > 1: dt(j) = .(4.3)

Веројатност ft(i) за набљудување на низата ot+1,ot+2,…oT почнувајќи од моментот t+1 до T, под услов во моментот t моделот да е во состојба Si (алгоритам наназад):

за сите 1?i?N, 1?j?N, t = T-1, T-2,…,1:

на t = T: fT(i) = 1; (4.4)

на т< T: ft(i) = .(4.5)

Вкупната веројатност дека моделот ќе помине одредена траекторија во T-такт циклусите (веројатноста да се совпадне низата и моделот) може да се пресмета на три начини:

P(O/l) = ;(4,6)

P(O/l) = ;(4,7)

P(Q/l) = dt(i) ft(i) = .(4.8)

Пример за пресметка на веројатноста е даден во Додаток 2.

За пресметки, моделите се користат во форма на линеарна низа на состојби со почеток и крај. Транзициите се можни само на место и од почеток до крај без прескокнување на состојби. Пред да се пресмета кореспонденцијата, оригиналната низа од вектори на параметрите е поделена на сегменти еднакви по должина на дадениот модел.

4.4 Outlook

Значителниот напредок во акустичкото моделирање постигнат во последниве години овозможи да се постигне добар квалитет на препознавање при користење на голем речник во реално време, притоа трошејќи прифатливо количество ресурси. Сепак, постојат голем број аспекти кои бараат подобрување. Пред сè, ова се однесува на адаптација на различни звучници и различни акустични средини, вклучително и во присуство на пречки. Исто така, има потешкотии во обработката на пелтечењето, лажните почетоци, зборовите што недостасуваат во речникот и други карактеристики својствени за спонтаниот говор.

Главни насоки модерни истражувањасе имунитет на акустична бучава, подобрување на системи на акустични параметри и модели, работа со голем лексикон, поддршка на повеќе контексти и повеќе јазици, развој на методи за автоматски системи за обука.

5. ЈАЗИЧНИ МОДЕЛИ

5.1 Место на јазичниот модел во системот

Системите за препознавање говор го претвораат звучниот сигнал во правописна претстава на говорниот исказ. Препознавачот гради хипотези користејќи го конечниот речник. За едноставност, се претпоставува дека зборот е уникатно идентификуван по неговиот изговор.

Значителен напредок во решавањето на проблемот со препознавање е постигнат со почетокот на користењето на статистички модел заедничка дистрибуција p(W,O) од низа од изговорени зборови W и соодветната акустична низа O. Овој пристап првпат беше користен од IBM под името „модел на извор-канал“. Ја одредува проценката на кореспонденцијата на избраната вокабуларна низа со набљудуваниот акустичен факт O користејќи ја задната дистрибуција p(W/O).

За да се минимизира грешката, системот избира речник низа што ја максимизира оваа задна дистрибуција:

каде што p(W) е веројатноста на низата зборови W, p(O/W) е веројатноста за набљудување на акустичната низа O при изговарање на низата зборови W, p(O) е вкупната веројатност за набљудување на низата O според сите достапни акустични модели. p(O/W) = p(ylT/W) = P(O/l) и се пресметува во фазата на акустично моделирање со помош на HMM и се нарекува канал. p(O) се претпоставува дека е еднаква на 1. Претходната веројатност p(W) се пресметува со помош на јазичен модел (LM).

Сличен модел на препознавање се користи за препознавање печатени и рачно напишани текстови.

5.2 Јазичен модел базиран на триграм

За дадена низа зборови W=(w1,…,wn), неговата веројатност може да се претстави како:

w0 е утврдено дека е погодно за да се обезбедат почетните услови. Веројатноста за секој следен збор wi зависи од веќе изговорената низа hi. Со оваа дефиниција, сложеноста на моделот расте експоненцијално како што се зголемува изговорената низа на зборови. За да се поедностави моделот, правејќи го практичен за пракса, се претпоставува дека само некои аспекти од приказната влијаат на веројатноста за следниот збор. Еден начин да се постигне ова е да се користи некоја операција μ(), која го дели историскиот простор на К еквивалентни класи. Потоа можете да го примените моделот:

Најголемиот успех во последните 20 години е постигнат со помош на едноставни модели n-грам. Најчесто се користат триграми, каде што само двата претходни збора ја одредуваат веројатноста за следниот збор. Во овој случај, веројатноста за низа зборови изгледа вака:

За да се проценат претходните веројатности p(W) на NM, потребна е голема количина едукативен текстуален материјал. За време на оценувањето, се пресметуваат фреквенциите:

каде што c123 е бројот на појавувања на низата зборови (w1, w2, w3), c12 е бројот на појавувања на низата (w1, w2,). За речник од том V, постојат V3 можни триграми за речник од 20 илјади зборови, има 8 трилиони. Очигледно, многу од овие триграми нема да се најдат во секвенците за обука, така што за нив f3(w3/w1, w2) = 0. За да се осигура дека соодветните веројатности не се еднакви на нула, линеарна интерполација на фреквенциите на триграми, биграми и зборовите, како и нивните униформа дистрибуцијана речникот:

f1() и f2() се оценуваат со броење на соодветните биграми и триграми. Коефициентите l на линеарната интерполација се проценуваат со пребарување на максималната веројатност за нови податоци кои не учествувале во пресметката на n-грам фреквенции. Кога се максимизира, се користи алгоритам напред-назад (формули (4.2) - (4.5)).

Општо земено, може да се користи повеќе од еден l вектор. Исто така, препорачливо е да се земе предвид поголемата доверба во триграмските фреквенции проценети на поголем број секвенци за обука. За да го направите ова, пондерирачките коефициенти l се зависни од групите биграми и зборови b(c12, c2) кои ја сочинуваат историјата за зборот за кој станува збор. Овој метод се нарекува избришана интерполација. Се користат и други шеми за измазнување. При моделирање на јазик со помош на триграми, обемот на податоци од речник обично се движи од 1 милион до 500 милиони зборови, со соодветен волумен на речник од 1 илјада до 267 илјади зборови.

5.3 Комплексност (збунетост)

За да ги споредите системите за препознавање, можете да ја користите стапката на грешка. Оваа метрика најдобро ги оценува јазичните модели. Сепак, постои поефтин начин за оценување на нуклеарните материјали. Користи количина што ја карактеризира количината на информации - ентропија. Идејата е да се пресмета ентропијата за нов текст што не бил користен при креирањето на моделот. Ентропијата на вокабуларот пресметана директно од текстот се споредува со ентропијата пресметана од ML. НМ чија ентропија е најблиску до текстот ќе биде најдобра.

Да ја означиме како p(x) правилната распределба на веројатноста на зборовите во текстуален сегмент x кој се состои од k зборови. Дозволете ни да ја дефинираме ентропијата на текстот врз основа на речник како:

Ако зборовите во текстот се подеднакво веројатни, а големината на текстот е V, тогаш H=log2V, за други дистрибуции H?log2V. Можете да користите NM за да ја одредите веројатноста во текстуален сегмент. Вредноста на логаритмот на веројатност за NM е:

каде pО(wi/hi) се веројатностите определени со дадена ML. Лимит, т.е. пресметано со NM, не е пониско од ентропијата на текстот. Очигледно, целта на споредувањето на различни NM е да се најде оној за кој логаритамот на веројатност пресметан од NM ќе биде најблиску до ентропијата пресметана од текстот.

Збунетоста го карактеризира нивото на логаритам на веројатноста NM и се дефинира како 2lp. Грубо кажано, ова е просечната големина на речникот од кој друг зборпо признавањето. Збунетоста зависи од говорниот домен што се користи. Вредностите на збунетост за некои говорни домени се дадени во Табела 5.1.

акустичен јазик за препознавање говор

Табела 5.1. Збунетост на говорните домени

5.4 Големина на речник

Стапката на грешка не може да биде помала од процентот на изговорени зборови што не се вклучени во речникот. Затоа, главниот дел од градењето на ML е да се развие речник кој максимално ги покрива текстовите што системот најверојатно ќе ги препознае. Ова останува човечки предизвик.

При креирањето на речник, прво се избираат текстови кои ја карактеризираат задачата со која ќе работи системот. Потоа текстовите се поделени на зборови користејќи алатки за автоматизација. Следно, секој збор е поврзан со збир од неговите опции за изговор, вклучувајќи ги и можните идни опции. Сите добиени опции за изговор се користат за составување триграми.

Во табела 5.2 е прикажан процентот на покриеност на нови текстови на англиски јазик од системот за препознавање кога се користи речник со фиксна големина. Во јазиците со голем број на форми на зборови и зависности во зборообразувањето (германски, француски), потребен е многу поголем речник за истиот степен на покриеност.

Порационален пристап вклучува составување персонализиран речник за секој корисник на системот за препознавање покрај фиксниот речник. Табелата 5.2 го покажува растот на опфатот на нови зборови со таков динамично приспособлив систем со почетен, фиксен волумен на речник од 20 илјади зборови. Податоците се споредуваат со систем кој користи статичен речник со иста големина при препознавање на текст со претставената должина.

Табела 5.2. Квалитет на препознавање на нови текстови

5.5 Подобрени јазични модели

Има многу подобрувања на YaM врз основа на триграми. Главните се споменати подолу.

Модели за класа

Наместо зборови во јазичен модел, можете да користите збир на класи на зборови. Класите може да се преклопуваат бидејќи зборот може да припаѓа различни класи. Класите може да се засноваат на делови од говорот, морфолошка анализа на зборот и може да се одредуваат автоматски врз основа на статистички односи. Моделот на општа класа изгледа вака:

каде што се класи. Ако класите не се вкрстат, тогаш:

Збунетоста на таков модел е поголема од онаа врз основа на триграми, но се намалува кога се комбинираат модели од овие два типа.

Динамични модели

Овде се зема предвид минатото, траејќи го целиот документ. Ова е направено за да се детектираат зборовите кои често се појавуваат (на пример, во овој текст, зборот „модел“ е чест збор). Користењето на CACHE за такви зборови овозможува да се направи ML подинамичен, намалувајќи го времето за пребарување.

Комбинирани модели

Друг пристап е да се подели целата говорна база на податоци во неколку кластери. За моделирање на нов текст, се користи линеарна комбинација на триграмски модели од различни кластери:

каде што pj() се оценува во однос на j-тиот текстуален кластер.

Структурни модели

Во овие модели, наместо да се влијае на веројатноста на зборот со непосредна претходна историја, се користи парсирање. Со помош на ваквото парсирање се воспоставува врска помеѓу избришаните зборови, што неодамна се предложи да се земе предвид при составување оддалечени биграми.

5.6 Изгледи

Главните области каде што моментално се фокусирани напорите се:

Избор на речник

Како да го дефинирате речникот на нов говорен домен, практично да го персонализирате речникот за корисникот, максимизирајќи ја покриеноста на текстот. Овој проблем е најзначаен за јазиците со голем број зборовни форми и источните јазици, каде што концептот на збор не е јасно дефиниран.

Адаптација на говорниот домен

Ова е задача за поставување на ефективна ML за домени кои немаат голема количина на податоци од речник достапни на машината, како и одредување на темата за разговор. Ова би овозможило да се примени специфичен, тематски модел за препознавање говор.

Користење на јазичната структура

Сегашното ниво на проценка на квалитетот на функционирањето на системот не дозволува подобрување на работата на системот користејќи ја структурата на јазикот. Развивањето на јазичен модел заснован на структурата на јазикот може да биде клучот за напредок во јазичното моделирање. Тековниот напредок заснован на веројатни модели ја одразува детската фаза во развојот на јазичното моделирање. Напредокот овде е поврзан со зголеменото структурирање на податоците.

ЗАКЛУЧОК

Овој труд ги разгледува основните принципи на конструирање системи за препознавање говор во сегашната фаза на развој, нивната класификација и проблемите што ги решаваат. Се разгледува модерен пристап за отпорност на бучава на системите.

Претставена е структурата на системот, главните задачи што ги решаваат неговите компоненти, принципите на прелиминарна обработка на изворниот сигнал, конструкцијата на акустични и јазични модели.

Слични документи

    Дигитална обработка на сигнали и нејзина употреба во системите за препознавање говор, дискретни сигнали и методи за нивна конверзија, основите на дигиталното филтрирање. Имплементација на системи за препознавање говор, хомоморфна обработка на говор, интерфејс за снимање и репродукција.

    теза, додадена 06/10/2010

    Предности на радио канали безбедносни системи. Главните насоки на говорното кодирање: кодирање на брановидни форми и кодирање на изворот. Блок-дијаграм на процесот на обработка на говор во стандардот GSM. Проценка на квалитетот на кодирањето на говорот.

    апстракт, додаден на 20.10.2011

    Задачи во говорот и преносот на податоци. Дигитален пренос на говор. Категории на методи за дигитално кодирање на говор. Кодери за бранови форми. Вид на амплитуда карактеристика на компресорот. Дискретен модел на производство на говор. Карактеристики на методот на краткорочна анализа.

    тест, додаден на 18.12.2010 година

    Разгледување на главните фази во решавањето на проблемот со оптимизирање на приемот на сигналот. Проучување на методи за филтрирање и оптимизирање решенија. Веројатен пристап за проценка на приемот на сигналот; одредување на веројатноста за грешки при препознавање. Статички критериуми за препознавање.

    презентација, додадена на 28.01.2015 година

    Кодирање на говор RPE – LTP – енкодер од 16 kbit/s. Структура на говорен декодер во GSM стандардот. Коефициенти на рефлексија на краткорочно предвидување со методот Берг за RF од 8-ми ред. Спектрални карактеристики на пост-филтерот. Формирање на формант региони.

    апстракт, додаден на 15.11.2010

    Блок-дијаграми на хомоморфна обработка и анализа на говорните сигнали. Комплексен говорен цепструм. Компонента на говорниот сигнал. Период на висина и фреквенција на формант. Модул за функција за пренос на гласниот тракт. Проценка на тонот заснована на цепструм.

    апстракт, додаден на 19.11.2008 година

    Општа класификацијасистеми и мрежи за радио пристап. Класификација на системи за радио пристап според параметрите и карактеристиките на радио интерфејсот. Системи со аналоген и дигитален пренос. Услуги дигитален преносговорот. Класификација според применетите проблеми што треба да се решат.

    апстракт, додаден 10/06/2010

    Состојба на проблемот со автоматско препознавање говор. Преглед на уреди за читање аудио сигнал. Архитектура на системот за контрола на периферниот уред. Коло за контрола на електричниот уред. Шематски дијаграм на поврзување на електрични уреди.

    теза, додадена 18.10.2011

    Информациски карактеристики и блок дијаграм на преносниот систем; пресметка на параметрите на аналогно-дигиталниот конвертор и излезен сигнал. Кодирање со код за корекција. Одредување на карактеристиките на модемот; споредба на отпорност на бучава на комуникациските системи.

    работа на курсот, додадена на 28.05.2012 година

    Структура на уреди за обработка на радио сигнал, внатрешна структура и принцип на работа, алгоритми за обработка на сигнали. Основа за генерирање сигнал на излезот на линеарен уред. Модели на линеарни уреди. Пресметка на коефициентот на пренос на операторот на колото.

Беленко М.В. 1, Балакшин П.В. 2

1 студент, Универзитет ITMO, 2 кандидат техничките науки, асистент, Универзитет ITMO

КОМПАРАТИВНА АНАЛИЗА НА СИСТЕМИТЕ ЗА ПРЕПОЗНАВАЊЕ НА ГОВОР ОТВОРЕН

прибелешка

Статијата дава компаративна анализа на најчестите системи за автоматско препознавање говор со отворен код. За време на споредбата, беа користени многу критериуми, вклучително и системски структури, програмски јазици што се користат за имплементација, достапност на детална документација, поддржани јазици за препознавање и ограничувања наметнати од лиценцата. Беа спроведени и експерименти на неколку говорни корпуси за да се одреди брзината и точноста на препознавањето. Како резултат на тоа, за секој од разгледаните системи, беа развиени препораки за употреба со дополнително наведување на опсегот на активност.

Клучни зборови:препознавање говор, метрика, стапка на препознавање зборови (WRR), стапка на грешка во зборови (WER), фактор на брзина (SF), отворен код

Беленко М.В. 1, Балакшин П.В. 2

1 студент, Универзитет ITMO, 2 докторат по инженерство, асистент, Универзитет ITMO

КОМПАРАТИВНА АНАЛИЗА НА СИСТЕМИТЕ ЗА ПРЕПОЗНАВАЊЕ ГОВОР СО ОТВОРЕН КОД

Апстракт

Трудот дава споредба на најчестите системи за автоматско препознавање говор со отворен код. За споредба беа користени многу критериуми, вклучително и системски структури, програмски јазици за имплементација, детална документација, поддржани јазици за препознавање и ограничувања наметнати од лиценцата. Исто така, беа спроведени експерименти на неколку говорни основи за одредување на брзината и точноста на препознавањето. Како резултат на тоа, препораките беа дадени за примена со дополнително назначување на опсегот на активност за секој од испитуваните системи.

Клучни зборови:препознавање говор, метрика, стапка на препознавање зборови (WRR), стапка на грешка во зборови (WER), фактор на брзина (SF), код со отворен код

Системите за препознавање говор (Автоматски системи за препознавање говор) главно се користат за симулирање на комуникација помеѓу лице и машина, на пример, за гласовна контрола на програмите. Во моментов, препознавањето говорни сигнали се користи во широк опсег на системи - од апликации на паметни телефони до системи за паметни домови. Дополнителен доказ за релевантноста на ова поле се многуте центри за истражување и развој низ светот. Сепак, огромното мнозинство на оперативни системи се сопственички производи, т.е. корисникот или потенцијалниот развивач немаат пристап до нивниот изворен код. Ова негативно влијае на способноста да се интегрираат системи за препознавање говор во проекти со отворен код. Исто така, не постои централизиран извор на податоци што ги опишува позитивните и негативните аспекти на системите за препознавање говор со отворен код. Како резултат на тоа, се појавува проблемот на избор оптимален системпрепознавање говор за да се реши проблемот.

Како дел од работата, беа разгледани шест системи со отворен код: CMU Sphinx, HTK, iAtros, Julius, Kaldi и RWTH ASR. Изборот се заснова на зачестеноста на спомнувањето во современите истражувачки списанија, постоечките случувања во последниве години и популарноста меѓу индивидуалните развивачи на софтвер. Избраните системи беа споредени во однос на таквите индикатори како што се точноста и брзината на препознавање, леснотијата на користење и внатрешната структура.

Во однос на точноста, системите беа споредени со користење на најчестите метрики: стапка на препознавање зборови (WRR), стапка на грешка во зборови (WER), кои се пресметуваат со помош на следните формули:

каде што S е бројот на операции за замена на зборови, I е бројот на операции за вметнување зборови, D е бројот на операции за отстранување зборови од препознаена фраза за да се добие оригиналната фраза, а T е бројот на зборови во оригиналот фраза и се мери како процент. Во однос на брзината на препознавање, споредбата беше направена со помош на факторот во реално време - индикатор за односот на времето на препознавање со времетраењето на препознаениот сигнал, познат и како Фактор на брзина (SF). Овој индикатор може да се пресмета со формулата:

каде што T ref е времето на препознавање сигнал, T е неговото времетраење и се мери во делови од реалното време.

Сите системи беа обучени со користење на говорниот корпус WSJ1 (Wall Street Journal 1), кој содржи приближно 160 часа податоци за обука и 10 часа податоци за тестирање, кои се извадоци од весникот Wall Street Journal. Овој говорен корпус вклучува снимки на говорници од двата пола на англиски јазик.

По спроведувањето на експериментот и обработката на резултатите, добиена е следната табела (Табела 1).

Табела 1 – Споредба на резултати за точност и брзина

Систем WER, % WRR, % СФ
HTK 19,8 80,2 1.4
CMU Сфинга

(џебна сфинга/сфинга4)

21.4/22.7 78.6/77.3 0.5/1
Калди 6.5 93.5 0.6
Јулиј 23.1 76.9 1.3
iAtros 16.1 83.9 2 .1
RWTH ASR 15.5 84.5 3.8

Точноста и исправноста на студијата се потврдува со фактот што добиените резултати се слични на резултатите добиени при тестирањето на овие системи на други говорни корпуси, како што се Verbmobil 1, Quaero, EPPS, , .

Критериумите за споредба на структурите беа јазикот на имплементацијата на системот, алгоритмите што се користат при препознавање, форматите на влезните и излезните податоци и внатрешната структура на софтверската имплементација на самиот систем.

Процесот на препознавање говор генерално може да се претстави во следните фази:

  1. Извлекување акустични карактеристики од влезниот сигнал.
  2. Акустично моделирање.
  3. Јазично моделирање.
  4. Декодирање.

Пристапите, алгоритмите и структурите на податоци што ги користат системите за препознавање говор што се разгледуваат во секоја од наведените фази се претставени во табелите (табели 2, 3).

Табела 2 – Резултати од споредба на алгоритми

Систем Екстракција на карактеристики Акустично моделирање Јазично моделирање Препознавање
HTK MFCC ХММ N-грам Алгоритам Витерби
CMU Сфинга MFCC, PLP ХММ N-грам, FST Алгоритам Витерби, алгоритам бушдерби
Калди MFCC, PLP HMM, GMM, SGMM, DNN FST, има N-gramm->FST конвертор Алгоритам со две премини напред-назад
Јулиј MFCC, PLP ХММ N-грам, базиран на правила Алгоритам Витерби
iAtros MFCC ХММ, ГММ N-грам, FST Алгоритам Витерби
RWTH ASR MFCC, PLP, гласност ХММ, ГММ N-грам, WFST Алгоритам Витерби

Табела 3 - Јазици за имплементација на системот и нивната структура

Систем Јазик Структура
HTK СО Модуларен, во форма на комунални услуги
CMU Сфинга

(џебна сфинга/сфинга4)

C/Java Модуларен
Калди C++ Модуларен
Јулиј В Модуларен
iAtros В Модуларен
RWTH ASR C++ Модуларен

Од гледна точка на леснотијата на користење, беа разгледани индикаторите како детали за документација, поддршка за различни околини за извршување на софтвер и хардвер, ограничувања за лиценцирање, поддршка за повеќе јазици за природно препознавање и карактеристики на интерфејсот. Резултатите се прикажани во следните табели (табели 4, 5, 6, 7, 8).

Табела 4 – Достапност на документација

Табела 5 - Поддршка за различни оперативни системи

Систем Поддржан ОС
HTK Linux, Solaris, HPUX, IRIX, Mac OS, FreeBSD, Windows
CMU Сфинга

(џебна сфинга/сфинга4)

Linux, Mac OS, Windows, Android
Калди Linux, Windows, FreeBSD
Јулиј Linux, Windows, FreeBSD, Mac OS
iAtros Linux
RWTH ASR Linux, Mac OS

Табела 6 - Системски интерфејси

Табела 7 – Поддржани јазици за препознавање

Табела 8 - Лиценци

Систем Лиценца
HTK HTK
CMU Сфинга

(џебна сфинга/сфинга4)

БСД
Калди Апачи
Јулиј Слично на BSD
iAtros GPLv3
RWTH ASR RWTH ASR

Откако ги анализиравме резултатите добиени погоре, можно е да се карактеризира секој од системите што се разгледуваат и да се развијат препораки за нивна употреба.

Калди. Овој системпокажува најдобра точност на препознавање од сите разгледани системи (WER=6,5%) и втората брзина на препознавање (SF=0,6). Од гледна точка на обезбедените алгоритми и структури на податоци кои се користат за препознавање говор, овој систем е исто така лидер, бидејќи обезбедува најголем бројсовремените пристапи кои се користат во областа на препознавање говор, како што се употребата на невронски мрежи и модели на гаусови мешавини во фазата на акустично моделирање и употребата на машини за конечни состојби во фазата на моделирање на јазикот. Исто така, ви овозможува да користите многу алгоритми за да ја намалите големината на карактеристиките на звучниот сигнал и, соодветно, да ги зголемите перформансите на системот. Калди е напишан на програмскиот јазик C++, што позитивно влијае на брзината на системот и има модуларна структура, што го олеснува рефакторирањето на системот, додавањето нова функционалност и исправката на постоечките грешки. Во однос на употребливоста, Kaldi е исто така еден од првите системи. Обезбедува детална документација, но е наменета за читатели искусни во препознавање говор. Ова може да има негативно влијание врз употребата на овој систем од оние кои се нови на теренот. Тој е меѓу-платформски, односно работи на повеќето модерни оперативни системи. Kaldi обезбедува само интерфејс за конзола, што ја отежнува интеграцијата во апликации од трети страни. Стандардно, овој систем поддржува само Англиски јазик, се дистрибуира под целосно бесплатна лиценца Apache, односно може да се интегрира во комерцијален производ без да се открие неговиот код. Овој систем може успешно да се користи за истражувачки активности, бидејќи обезбедува добра прецизност на препознавање, прифатлива брзина на препознавање и имплементира многу современи методипрепознавање говор, има многу готови рецепти, што го олеснува користењето и има сеопфатна документација.

CMU Сфинга. Овој систем за препознавање говор покажува медиокритетна точност на препознавање (WER~22%) и најдобра брзина на препознавање од сите прегледани (SF=0,5). Треба да се напомене дека најголемата брзина на препознавање се постигнува кога се користи џебниот декодер напишан во C, декодерот sphinx4 покажува многу просечна работна брзина (SF=1). Структурно, овој систем користи и многу модерни пристапи за препознавање говор, вклучително и модифициран алгоритам Витерби, но има помалку употребени пристапи од Калди. Особено, во фазата на акустично моделирање, овој систем работи само со скриени модели на Марков. CMU Sphinx вклучува два декодера - pocketsphinx, имплементиран во C, и sphinx4, имплементиран во Java. Ова овозможува системот да се користи на повеќе платформи, вклучувајќи го и оперативниот систем Андроид, а исто така ја олеснува интеграцијата во проекти напишани на Java. Овој систем има модуларна структура, што позитивно влијае на способноста за брзо правење промени и поправање на грешките. Во однос на леснотијата на користење, CMU Sphinx е пред Kaldi, бидејќи покрај интерфејсот на конзолата обезбедува и API, што значително го поедноставува процесот на интегрирање на системот во апликација од трета страна. Има и детална документација, која, за разлика од Калди, е наменета за почетниот програмер, што во голема мера го поедноставува процесот на запознавање со системот. Исто така силна точкаОвој систем стандардно е поддржан од многу јазици, односно достапноста на јазикот и акустичните модели на овие јазици во слободен пристап. Меѓу поддржаните јазици, покрај стандардниот англиски, има и руски, казахстански и ред други. CMU Sphinx се дистрибуира под лиценцата BSD, што овозможува нејзина интеграција во комерцијални проекти. Овој систем може да се користи во комерцијални проекти, бидејќи ги има повеќето предности на Kaldi, иако обезбедува малку полоша точност на препознавање, а исто така обезбедува API што може да се користи за изградба на апликации од трети страни врз основа на овој систем.

HTK. Во однос на точноста и брзината, овој систем покажува просечни резултати меѓу разгледаните системи (WER=19,8%, SF=1,4). HTK обезбедува само класични алгоритми и структури на податоци во областа на препознавање говор. Ова се должи на фактот дека претходната верзија на системот беше објавена во 2009 година. Новата верзија на HTK беше објавена на крајот на декември 2015 година, но не беше разгледана во оваа студија. Овој систем е имплементиран на јазикот C, што добро се рефлектира во брзината на работа, бидејќи C е програмски јазик на ниско ниво. Структурата на овој систем е збир на комунални услуги повикани од командната линија, а исто така обезбедува API познат како ATK. Во однос на леснотијата на користење, HTK, заедно со Јулиус, е водечки систем меѓу прегледаните. Како документација, ја обезбедува HTK Book, книга која ги опишува не само аспектите на работењето на HTK, туку и општите принципи на системите за препознавање говор. Стандардно, овој систем поддржува само англиски јазик. Дистрибуиран под лиценцата HTK, која овозможува дистрибуција на изворниот код на системот. Овој систем може да се препорача за употреба во едукативни активности во областа на препознавање говор. Ги имплементира повеќето од класичните пристапи за решавање на проблемот со препознавање говор, има многу детална документација која ги опишува и основните принципи на препознавање говор воопшто и има многу упатства и рецепти.

Јулиј. Овој систем покажува најлоша стапка на точност (WER=23,1) и просечна стапка на препознавање (SF=1,3). Фазите на акустично и јазично моделирање се изведуваат со помош на алатките вклучени во HTK, но декодирањето се случува со помош на сопствен декодер. Тој, како и повеќето од дискутираните системи, го користи алгоритмот Витерби. Овој систем е имплементиран на јазик C, структурата за имплементација е модуларна. Системот обезбедува конзолен интерфејс и API за интеграција во апликации од трети страни. Документацијата, како и во HTK, е имплементирана во форма на книга Јулиус. Стандардно, Јулиус поддржува англиски и јапонски. Дистрибуиран под лиценца слична на BSD. Системот Јулиус може да се препорача и за едукативни активности, бидејќи ги има сите предности на HTK, а исто така обезбедува можност за препознавање такви егзотичен јазиккако јапонски.

Јатрос. Овој систем покажува добар резултат во точноста на препознавање (WER=16,1%) и просечен резултат во брзина (SF=2,1). Тој е многу ограничен во своите можности во однос на алгоритмите и структурите на податоци што се користат во препознавањето на говорот, но обезбедува можност да се користат модели на гаусови мешавини како состојби на скриениот Марков модел во фазата на акустично моделирање. Овој систем е имплементиран на јазик C. Има модуларна структура. Покрај функционалноста за препознавање говор, содржи и модул за препознавање текст. Нема од големо значењеза оваа студија, сепак, тоа е карактеристична карактеристика на овој систем што не може да се игнорира. Во однос на леснотијата на користење, iAtros е инфериорен во однос на сите системи испитани во текот на студијата. Овој систем нема документација, не обезбедува API за вградување во апликации од трети страни. Воопшто не е крос-платформа, бидејќи работи само под оперативни системи од семејството Линукс. Дистрибуиран под лиценцата GPLv3, што не дозволува овој систем да се интегрира во комерцијални проекти без да се открие нивниот изворен код, што го прави несоодветен за употреба во комерцијални активности. Системот iAtros може успешно да се користи каде што, покрај препознавањето говор, потребно е да се користи и препознавање слики, бидејќи овој систем дава таква можност.

RWTH ASR. Во однос на точноста на препознавање, RWTH ASR покажува добар резултат (WER=15,5%), но во однос на брзината на препознавање е најлошиот систем меѓу оние што се разгледуваат (SF=3,8). Овој систем, како iAtros, може да користи модели на гаусови мешавини во фазата на акустично моделирање. Карактеристична карактеристикае можност за користење на гласовните карактеристики при извлекување на акустичните карактеристики на влезниот сигнал. Исто така, овој систем може да користи пондерирана државна машина како јазичен модел за време на фазата на јазично моделирање. Овој систем е имплементиран во C++ и има модуларна архитектура. Во однос на леснотијата на користење, има документација која го опишува само процесот на инсталација, што очигледно не е доволно за да започнете со работа со системот. Обезбедува само интерфејс за конзола, стандардно поддржува само англиски јазик. Системот не е доволно меѓуплатформски, бидејќи не може да работи под оперативниот систем Виндоус, што е многу вообичаено во денешно време. Дистрибуиран под лиценцата RWTH ASR, според која системскиот код е обезбеден само за некомерцијална употреба, што го прави овој систем несоодветен за интеграција во комерцијални проекти. Овој систем може да се користи за решавање на проблеми каде точноста на препознавање е важна, но времето не е важно. Исто така, вреди да се напомене дека е целосно несоодветен за каква било комерцијална дејност поради ограничувањата наметнати со лиценцата.

Список на литература / Референци

  1. CMU Sphinx Вики [ Електронски ресурс]. – URL: http://cmusphinx.sourceforge.net/wiki/ (датум на пристап: 01/09/2017)
  2. Gaida C. Споредување на алатки за препознавање говор со отворен код [Електронски ресурс]. / C. Gaida et al. // Технички извештај на проектот OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (датум на пристап: 02/12/2017)
  3. El Moubtahij H. Користење карактеристики на локални густини, статистика и HMM алатки (HTK) за офлајн препознавање арапски ракописен текст / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V 3. бр.3. – стр. 99-110.
  4. Jha M. Подобрен систем за препознавање говор без надзор со користење на адаптација на звучниците MLLR и мерење на доверба / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – P. 255-258.
  5. Калди [Електронски ресурс]. – URL: http://kaldi-asr.org/doc (датум на пристап: 19.12.2016)
  6. Luján-Mares M. iATROS: СИСТЕМ ЗА ПРЕПОЗНАВАЊЕ НА ГОВОР И РАКОПИС / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla - 2008. - P. 75-58.
  7. Ел Амранија М.Ј. Изградба на јазичен модел на CMU Sphinx за Светиот Куран користејќи поедноставени арапски фонеми / M.Y. Ел Амранија, М.М. Хафизур Рахманб, М.Р. Вахиддинб, А. Шахб // Египетски информатички весник – 2016. – V. 17. бр. 3. – стр. 305–314.
  8. Ogata K. Анализа на артикулаторно тајминг врз основа на модел на суперпозиција за VCV секвенци / K. Ogata, K. Nakashima // Зборник на трудови од Меѓународната конференција на IEEE за системи, човек и кибернетика - 2014. - јануари ед. – P. 3720-3725.
  9. Сандермајер Системот за евалуација на quaero asr rwth 2010 година за англиски, француски и германски / M. Sundermeyer et al. // Зборник на трудови од меѓународна конференција за акустика, говор и обработка на сигнали (ICASSP) – 2011. – стр. 2212-2215.
  10. Алимурадов А.К. АДАПТИВЕН МЕТОД НА ЗГОЛЕМУВАЊЕ НА ЕФЕКТИВНОСТА НА ГЛАСОВНАТА КОНТРОЛА / А.К. Алимурадов, П.П. Чураков // Зборник на трудови од меѓународната научна и техничка конференција „Напредни информациски технологии“ – 2016. – стр. 196-200.
  11. Бакаленко В.С. Интелектуализација на влез/излез на програмскиот код со користење говорни технологии: дис. ... Магистер по инженерство и технологија. – DonNTU, Донецк, 2016 година.
  12. Балакшин П.В. Алгоритамски и софтверски алатки за препознавање говор базирани на скриени Марков модели за телефонски услуги за поддршка на корисници: дис. ...сметка. техн. Науки: 13/05/11: заштитени 12/10/2015: одобрени. 06.08.2016 / Балакшин Павел Валериевич. – Санкт Петербург: Универзитет ITMO, 2014. – 127 стр.
  13. Балакшин П.В. ФУНКЦИЈА НА ГУСТИНА НА ВРЕМЕТРАЕЊЕ СОСТОЈБА НА СММ. ПРЕДНОСТИ И НЕДОСТАТОЦИ / P.V. Балакшин // Современи проблеми на науката и образованието. – 2011. – бр. 1. – стр. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (датум на пристап: 13.11.2016).
  14. Беленко М.В. КОМПАРАТИВНА АНАЛИЗА НА СИСТЕМИ ЗА ПРЕПОЗНАВАЊЕ НА ГОВОР ОТВОРЕН КОД / М.В. Беленко // Збирка дела на V серуски конгрес на млади научници. Т. 2. – Санкт Петербург: Универзитет ITMO, 2016. – стр. 45-49.
  15. Гушев М.Н. Систем за препознавање говор: основни модели и алгоритми / М.Н. Гушев, В.М. Дегтјарев. – Санкт Петербург: Знак, 2013. – 128 стр.
  16. Карпов А.А. Мултимодални асистивни системи за интелигентен простор за живеење / А.А. Карпов, Л.Акарун, А.Л. Ронжин // Зборник на трудови на SPIIRAN. – 2011. – T. 19. – Бр. 0. – стр 48-64.
  17. Карпов А.А. Методологија за оценување на перформансите на системите за автоматско препознавање говор / А.А. Карпов, И.С. Кипјаткова // Вести за вишото образовните институции. Инструментација. – 2012. – T. 55. – Бр. 11. – стр 38-43.
  18. Тампел И.Б. Автоматско препознавање говор – главни фази над 50 години / I.B. Тампел // Научен и технички билтен информатички технологии, механика и оптика. – 2015. – T. 15. – бр.6. – стр. 957–968.

Список на референци на англиски /Референци во Англиски

  1. Вики на CMU Sphinx. – URL: http://cmusphinx.sourceforge.net/wiki/ (пристапено: 01/09/2017).
  2. Gaida C. Споредба на алатки за препознавање говор со отворен код. / C. Gaida et al. // Технички извештај на проектот OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (пристапено: 02.12.2017)
  3. El Moubtahij, H. Користење карактеристики на локални густини, статистика и HMM алатки (HTK) за офлајн препознавање арапски ракописен текст / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V. 3. бр. 3. – стр. 99-110.
  4. Jha, M. Подобрен систем за препознавање говор без надзор со користење на адаптација на звучниците MLLR и мерење на доверба / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – P. 255-258.
  5. Калди. – URL: http://kaldi-asr.org/doc (пристапено: 19.12.2016)
  6. Лујан-Марез, М. ИАТРОС: СИСТЕМ ЗА ПРЕПОЗНАВАЊЕ ГОВОР И РАКОПИС / М. Лујан-Марез, В. Тамарит, В. Алабау и др. // V Journadas en Technologia del Habla - 2008. - P. 75-58.
  7. Ел Амранија, М.Ј. Изградба на јазичен модел на CMU Sphinx за Светиот Куран користејќи поедноставени арапски фонеми / M.Y. Ел Амранија, М.М. Хафизур Рахманб, М.Р. Вахиддинб, А. Шахб // Египетски информатички весник – 2016. – V. 17. бр. 3. – стр. 305–314.
  8. Ogata, K. Анализа на артикулаторно тајминг врз основа на модел на суперпозиција за VCV секвенци / K. Ogata, K. Nakashima // Зборник на трудови од Меѓународната конференција на IEEE за системи, човек и кибернетика - 2014 година - јануари ед. – P. 3720-3725.
  9. Сандермајер, М. Системот за евалуација на quaero asr rwth 2010 за англиски, француски и германски / M. Sundermeyer et al. // Зборник на трудови од меѓународна конференција за акустика, говор и обработка на сигнали (ICASSP) – 2011. – стр. 2212-2215.
  10. Алимурадов А.К. ADAPTIVNYJ METOD POVYSHENIA JeFFEKTIVNOSTI GOLOSOVOGO UPRAVLENIJa / A.K. Алимурадов, П.П. Чураков // Trudy Mezhdunarodnoj nauchno-tehnicheskoj konferencii “Perspektivnye informacionnye tehnologii”. – 2016. – P. 196-200.
  11. Бакаленко В.С. Intellektualizatsiya vvoda-vyivoda koda programmyi s pomoschyu rechevyih tehnologiy: dis. ... на Магистер по инженерство и технологија. – DonNTU, Донецк, 2016 година.
  12. Балакшин П.В. Algoritmicheskie i programmnyie sredstva raspoznavaniya rechi na osnove skryityih markovskih modeley dlya telefonnyih sluzhb podderzhki klientov: dis. ... Д-р по инженерство: 13/05/11: одбрана на тезата 12/10/2015: одобрена 06/08/2016 / Balakshin Pavel Valer’evich. – СПб.: Универзитет ITMO, 2014. – 127 стр.
  13. Балакшин П.В. ФУНКЦИЈА ПЛОТНОСТИ ДЛИТЕЛ’НОСТИ СОСТОЈАНИЈ СММ. ПРЕИМУШХЕСТВА И НЕДОСТАТКИ / П.В. Балакшин // Современи проблематични науки и образованија. – 2011. – бр. 1. – стр. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (пристапено: 13.11.2016).
  14. Беленко М.В. SRAVNITELNYY ANALIZ SISTEM RASPOZNAVANIYA RECHI S OTKRYTYM KODOM / М.В. Беленко // Sbornik trudov V Vserossiyskogo kongressa molodyih uchenyih. V. 2. – SPb.: ITMO University, 2016. P. 45-49.
  15. Гушев М.Н. Система распознаванија речи: основни модели и алгоритми / М.Н. Гушев В.М. Дегтјарев. – СПб.: Знак, 2013. – 141 стр.
  16. Карпов А.А. Mnogomodalnyie assistivnye sistemyi dlya intellektualnogo zhilogo prostranstva / А.А. Карпов, Л.Акарун, А.Л. Ronzhin // Trudyi SPIIRAN. – 2011. – V. 19. – Бр. 0. – P. 48-64.
  17. Карпов А.А. Metodologiya otsenivaniya rabotyi sistem avtomaticheskogo raspoznavaniya rechi / А.А. Карпов, И.С. Кипјаткова // Известија вииших учебњих заведениј. Приборостроение. – 2012. – V. 55. – Бр. 11. – стр. 38-43.
  18. Тампел И.Б. Автоматическое распознавание речи – основние етапи за 50 лет / И.Б. Тампел // Nauchno-Tehnicheskii Vestnik Informatsionnykh Technologii, Mekhaniki i Optiki. – 2015. – V. 15. – бр.6. – стр. 957–968.

Кога слушаме некого како зборува, нашето внатрешно уво го анализира фреквентниот спектар на звукот и мозокот го перцепира зборот. Некои компјутери можат да го симулираат овој процес користејќи анализатор на спектар.

Звучните сигнали влегуваат во анализаторот преку микрофон и се анализираат нивните спектрални карактеристики. Компјутерот потоа ги споредува примените сигнали со програмиран список на фонеми или акустични градежни блокови. Краткорочните сигнали се споредуваат со стандардните обрасци на зборови и се поврзани со правилата на јазикот и синтаксата.

Овој процес му помага на компјутерот да ги идентификува изговорените зборови. Ако програмата е доволно софистицирана, таа дури може да одреди од контекстот дали е изговорен зборот „овошје“ или „сплав“. Но, дали компјутерот навистина може да го разбере говорот на начинот на кој луѓето го разбираат, останува жестока дебатирана тема до ден-денес. Можете да го програмирате вашиот компјутер да одговори на одредени комбинациизборови, но дали ова ќе го замени вистинското разбирање? Некои експерти од областа вештачка интелигенцијаТие веруваат дека за неколку децении компјутерот ќе може да води релевантен, неврзан разговор со некоја личност. Сепак, многу експерти се убедени дека компјутерот секогаш ќе биде ограничен од програмата, претходно составени одговори.

Препознавање глас

Звуците изговорени повеќе од неколку секунди се поделени на пократки временски сегменти. Компјутерот потоа ги анализира фреквентните компоненти на секој сегмент.

Акустична анализа

Звучниот спектрограф го претставува спектарот на звукот во видлива форма. Со еден метод на анализа, нормален синџир на звуци човечки гласе поделен на сегменти, кодирани во боја за да ја означат јачината и зачестеноста на нивните компоненти. Тридимензионалните графикони, како оној погоре, прикажуваат друг начин за визуелизација на таквите информации.

Донесување одлуки

Врз основа на резултатите од анализата, компјутерот одлучува дали на даден збор. Компјутерот ја споредува снимената анализа со листа на можни кандидати, а потоа применува лексички и синтаксни правила за да утврди дали одреден звук се совпаѓа со одреден збор.

Стандардни говорни обрасци

Најмалите говорни единици се дефинирани во однос на фреквенцискиот спектар. Стандардните говорни обрасци покажуваат која единица е присутна во даден збор.

Звучниот спектрограф (горе) врши акустична анализа на звуците во изговорените зборови. Овде звукот на самогласките (горе лево) се споредува со спектарот на самогласки (долу).

Звучните бранови предизвикуваат вибрирање на тапанчето. Оваа вибрација се пренесува на неколку мали коски и се претвора во електрични сигнали кои патуваат до мозокот.