Најдобрите синтисајзери за говор на интернет.

Дали сакате информации, но вашиот мозок е уморен од визуелно воочување? На крајот на работниот ден не ви останува концентрација? Или можеби сте премногу мрзливи да читате?

Пред да ја искорените мрзеливоста во себе, не би било лошо да се дружите со неа. Всушност, ова е верен и мудар пријател кој, во соработка со неколку мозочни импулси, може да научи многу суптилности во животот, каде што можете да заобиколите не само големи планини, но дури и мали ридови. Како можете да живеете без стрес? Мрзеливоста го знае одговорот на ова прашање за секоја индивидуална ситуација.

На пример, за човек да не го оптоварува и штити видот, измислени се мотори за синтеза на глас - вештачка интелигенција која може да го претвори текстот во гласовен говор и обратно - говорот во текст.

Рецептот за согледување на која било печатена информација преку уво е едноставен: инсталирајте на вашиот компјутер која било од програмите за читање текст со глас како Govorilka или Balabolka, дополнете ја со гласовниот мотор на руски јазик со звучници како Алена, Николај, Олга или Катерина , копирајте го текстот во програмата и почнете да репродуцирате вештачки говор. Но, дури и овој рецепт може да се поедностави. Можете да слушате публикации на интернет-страниците со неколку кликања со инсталирање на специјална екстензија во вашиот прелистувач што е дизајнирана да го претвора текстот во говор.

Екстензија на Chrome SpeakIt!: синтисајзер за говор во прелистувачот за оние кои се премногу мрзливи да читаат

Екстензија за прелистувачи базирани на Chromium SpeakIt! може да чита текст на повеќе од 50 јазици, вклучително и руски. Во него веќе се инсталирани гласовни мотори на руски јазик, така што не се потребни дополнителни чекори за инсталирање на поединечни софтверски компоненти. Сè што треба да направите, надминувајќи ја вашата мрзеливост на неколку минути, е да инсталирате од продавницата Гугл хромЕкстензија SpeakI! Доаѓа потполно бесплатно.

По инсталирањето на SpeakIt! е вграден во лентата со алатки на прелистувачот со копче во форма на икона за звучник. Со кликнување на левото копче на глувчето ќе се отвори мини-интерфејс на екстензијата со копче за почеток на репродукција на говор и копче за стопирање.

Десен клик на SpeakIt! ќе отвори контекстно мени каде што треба да ја избереме командата „Опции“.

Овде, во поставките за наставката, од паѓачките списоци можеме да поставиме гласовен мотор различен од претходно инсталираниот со најавувач што зборува руски, можеме да избереме женски или машки глас. Можеме да ги прилагодиме и нивото и брзината на репродукција на говор со влечење на лизгачите на соодветните опции.

Изборот на најавувач што зборува руски како машки или со женски гласприсутни само за гласовниот мотор iSpeech. Speakit мотор! може да чита само со женски глас. А мајчиниот мотор може безбедно да го користат оние кои се навикнати на кадифениот глас на Николај Дигало. Внесете која било фраза во полето „Тест“ и тестирајте неколку гласовни мотори и звучници. Ова ќе им помогне на сите да изберат оптимална репродукција на говор за себе. Ако онлајн публикацијата е на англиски јазик, тогаш ги тестираме гласовните мотори на англиски јазик.

Па, решивме за поставките за проширување, сега да продолжиме директно на процесот на репродукција на Интернет публикации со вештачки глас. На веб-страницата на публикацијата за која сте заинтересирани, изберете го текстот што сакате да го репродуцирате, потоа или повикајте го контекстното мени и кликнете на копчето SpeakIt! или кликнете на копчето за оваа екстензија на панелот на прелистувачот.

Денес сакаме да зборуваме за едно интересно сценарио кое секако може да биде корисно на полето на е-трговијата. Тоа е заза автоматизација на услуги на клиентите, имено:

  1. Клиентот се јавува во онлајн продавницата и од него се бара да го внесе бројот на нарачката;
  2. Вредностите внесени од претплатникот преку DTMF се пренесуваат на скриптата AGI;
  3. Користејќи го бројот на нарачката, генерираме SQL барање до базата на податоци каде што складираме информации за нарачките. Од соодветната табела го добиваме статусот на нарачката и името на клиентот;
  4. Ние генерираме низа што треба да се изговори со клиентот и ја испраќаме за генерирање аудио кон Yandex.SpeechKit API (TTS технологија - текст во говор);
  5. Добиваме аудио датотека од Yandex, ја декодираме во формат што ни треба (.wav, 8k) и ја репродуцираме на клиентот;
  6. Ја бришеме репродуцираната датотека и го завршуваме повикот на клиентот;

Според наше мислење, ова е интересна автоматизација. Да почнеме да се поставуваме? :)

Добивање на API - токен Yandex.SpeechKit

За да се запознаете со технологијата, Yandex обезбедува бесплатен пробен период од 1 месец од моментот на испраќање на првото барање. После ова, за да продолжите да го користите Yandex. SpeechKit Cloud треба да потпише договор. Може да се прочитаат детали за условите за користење.

Прво, одете на сметката на развивачот користејќи ја врската https://developer.tech.yandex.ru и кликнете Земете го клучот:

  • Име на клучот- внесете име за клучот. На пример, Ѕвездичка + TTS;
  • Поврзување- изберете од списокот SpeechKit Cloud;

Се сеќаваме на вредноста што е означена со црвено на сликата од екранот погоре - ова е вашиот знак. Ајде да продолжиме со поставувањето на скриптата AGI.

Направете табела со нарачки

Ајде да создадеме табела SQL во која ќе ги складираме податоците за нарачката. ВО лабораториски цели, ќе го распоредиме на истиот хост како и IP-PBX Asterisk (+ ова ќе го намали доцнењето и времето на обработка). Значи, внесете ги следните команди во конзолата на серверот (прво поврзете се преку SSH):

Користете asteriskcdrdb; КРЕИРАЈ ТАБЕЛА zakazy(име varchar(20),телефон varchar(20),nomerzakaza varchar(20),status varchar(20)); INSERT INTO zakazy (име, телефон, номерзаказа, статус) ВРЕДНОСТИ („Александар“, „79257777777“, 300388, „Испратено“); INSERT INTO zakazy (име, телефон, номерзаказа, статус) ВРЕДНОСТИ („Иван“, „79251111111“, 476656, „Платено“); INSERT INTO zakazy (име, телефон, номерзаказа, статус) ВРЕДНОСТИ („Сергеј“, „79252222222“, 0089822, „Испорачано“);

Создадовме и пополнивме табела. Сега треба да креирате корисник кој може да има SELECT пристап до табелата:

КРЕИРАЈ КОРИСНИК "mysql_login"@"localhost" ИДЕНТИФИКУВАН СО "mysql_password"; GRANT SELECT ON asteriskcdrdb.zakazy TO "mysql_login";

Запомнете го вашето корисничко име и лозинка и продолжете на следниот чекор - прилагодување на скриптата AGI. Традиционално, коментарите на кодот по двојната коса црта // :

AGI - скрипта

Подолу е структурата на сценариото:

#!/usr/bin/php -q get_data ("прилагодено/генерира", 6000, 10); //прифати DTMF од клиентот; $number= $result["резултат"]; //забележете го бројот на нарачката внесен од клиентот во променлива; $hostname = "локален домаќин"; // имаме локален хост. Можеби ја имате IP адресата на серверот на кој е зачувана базата на податоци со нарачки (пред-конфигурирајте го pg_hba.conf на оддалечениот хост); $username = "mysql_login"; // најавување што сте го создале порано; $password = "mysql_password"; // лозинката што ја создадовте претходно; $dbName = "ѕвездичкаcdrdb"; mysql_connect ($hostname,$username,$password) ИЛИ УМРИ("Не можам да создадам врска"); mysql_select_db ($dbName) или умре (mysql_error()); $query = "SELECT * FROM zakazy WHERE `nomerzakaza`="$number";"; // поврзете и анализирајте ги податоците по број на нарачка; $res=mysql_query ($query) или умре (mysql_error()); while ($row = mysql_fetch_assoc($res)) ( $status = $row["status"]; $name = $row["name"]; // напишете го името и статусот добиени од SQL на променливите; ); $str = "Почитувани ".$name."! Статусот на вашата нарачка е ".$status." Ви благодариме што контактиравте, сè најдобро!"; // формирајте ја низата што треба да се синтетизира; $qs = http_build_query(array("format" => "wav","lang" => "ru-RU", "speaker" => "jane","key" => "your_token", "emotion" => "добро", "текст" => $str)); //опишете ги променливите што ќе бидат испратени до Yandex API. Можете да го прилагодите форматот на датотеката, локацијата, звучникот (машки или женски гласови) и емоционалното боење. Заменете го „your_token“ со клучот добиен од Yandex API. Облак SpeechKit; $ctx = stream_context_create(array("http"=>array("method"=>"GET","header"=>"Referer: \r\n"))); $soundfile = file_get_contents ("https://tts.voicetech.yandex.net/generate?".$qs, неточно, $ctx); $file = fopen ("file1.wav", "w"); fwrite ($ датотека, $soundfile); fclose ($ датотека); // земете ја аудио датотеката (зачувајте ја како file1.wav); shell_exec("sox -t raw -r 48k -e signed-цел број -b 16 -c 1 file1.wav -t wav -r 8k -c 1 /var/lib/asterisk/sounds/ru/custom/output1.wav" ); // претворете го аудиото во аудио формат потребен за Asterisk и копирајте го во директориумот /var/lib/asterisk/sounds/ru/custom/; shell_exec ("chown ѕвездичка:ѕвездичка /var/lib/asterisk/sounds/ru/custom/output1.wav"); shell_exec ("chmod 775 /var/lib/asterisk/sounds/ru/custom/output1.wav"); // дајте ѝ ги на датотеката потребните дозволи; $agi->exec ("Репродукција", "прилагодено/излез1"); // испратете ја командата до AGI за репродукција на примената аудио датотека; shell_exec ("rm -f /var/lib/asterisk/sounds/ru/custom/output1.wav"); shell_exec ("rm -f file1.wav"); // избришете ги двете датотеки; ? > Преземете AGI скрипта

Откако ќе ја преземете датотеката, зачувајте ја со наставката .php

Зачувајте ја скриптата под името tts.php во директориумот /var/lib/asterisk/agi-bin и издадете ги следните команди на конзолата на серверот:

Dos2unix /var/lib/asterisk/agi-bin/tts.php означена ѕвездичка:ѕвездичка /var/lib/asterisk/agi-bin/tts.php chmod 775 /var/lib/asterisk/agi-bin/tts.php

Ја прилагодуваме функционалноста на производството

Значи, прво, отворете ја датотеката /etc/asterisk/extensions_custom.conf за уредување и додајте го следниот запис во неа:

Exten => s,1,Answer() exten => s,2,AGI(tts.php)

Многу добро. Ајде да упатиме повик до сопствен контекст од FreePBX. За да го направите ова, ќе го користиме модулот. Да се ​​движиме по патеката АдминПрилагодени дестинациии притиснете Додадете дестинација:


Кликнете ПоднесетеИ Примени конфигурација. Сакаме клиентот да може да го дознае статусот на неговата нарачка од главното мени за IVR со притискање на 4. Одете во главниот IVR и во деловите IVR записидодадете го следново:

Подготвени. Ако нешто не успее, пишете ни во коментари, ќе се обидеме да помогнеме :)

Дали оваа статија ви беше корисна?

Те молам кажи ми зошто?

Жал ни е што статијата не ви беше корисна: (Ве молам, ако не е тешка, наведете зошто? Ќе ви бидеме многу благодарни за деталниот одговор. Ви благодариме што ни помогнавте да станеме подобри!

На уште една конференција во 2013 година, ја претставивме нашата нова библиотека Yandex SpeechKit. Ова е јавно API за препознавање говор што може да го користат програмерите на Android и iOS. Можете да го преземете SpeechKit и исто така да ја прочитате документацијата.

Yandex SpeechKit ви овозможува директно да пристапите до задниот дел што успешно се користи во мобилните апликации на Yandex. Овој систем го развиваме доста долго и сега правилно препознаваме 94% од зборовите во Навигаторот и мобилните карти, како и 84% од зборовите во мобилниот прелистувач. Во овој случај, препознавањето трае малку повеќе од секунда. Ова е веќе многу пристоен квалитет и ние активно работиме на негово подобрување.

Може да се тврди дека во блиска иднина гласовните интерфејси практично нема да се разликуваат во сигурноста од класичните методи за внесување. Детална приказназа тоа како успеавме да постигнеме такви резултати и како функционира нашиот систем, под намалувањето.

Препознавањето говор е едно од најинтересните и сложени задачи вештачка интелигенција. Достигнувањата вклучени овде се многу различни области: од пресметковна лингвистикапред дигитална обработкасигнали. За да разбереме како треба да биде структурирана машината што го разбира говорот, ајде прво да разбереме со што се занимаваме.

I. Основи
За нас говорниот говор е, пред сè, дигитален сигнал. И ако го погледнеме снимањето на овој сигнал, нема да видиме ниту зборови ниту јасно изразени фонеми- различни „говорни настани“ непречено се влеваат еден во друг без да формираат јасни граници. Изговорена истата фраза различни луѓеили во различни средини, нивото на сигналот ќе изгледа различно. Во исто време, луѓето некако го препознаваат говорот на едни со други: затоа, постојат непроменливи според кои, врз основа на сигналот, е можно да се реконструира она што всушност е кажано. Пронаоѓањето на такви непроменливи е задача на акустично моделирање.

Да претпоставиме дека човечкиот говор се состои од фонеми (ова е грубо поедноставување, но на прво приближување е точно). Ајде да ја дефинираме фонемата како минимална значајна единица на јазикот, односно звук, чија замена може да доведе до промена на значењето на зборот или фразата. Да земеме мал дел од сигналот, да речеме 25 милисекунди. Да го наречеме овој дел „рамка“. Која фонема се зборуваше во оваа рамка? Тешко е да се одговори недвосмислено на ова прашање - многу фонеми се исклучително слични едни на други. Но, ако е невозможно да се даде недвосмислен одговор, тогаш може да се резонира во смисла на „веројатности“: за даден сигнал, некои фонеми се поверојатни, други помалку веројатни, а други можат да бидат целосно исклучени од разгледување. Всушност, акустичен модел е функција која зема како влез мал дел од акустичен сигнал (рамка) и произведува распределба на веројатност на различни фонеми на оваа рамка. Така, акустичниот модел ни овозможува да го реконструираме со звук кажаното - со различни степени на доверба.

Друга важен аспектакустика - веројатноста за транзиција помеѓу различни фонеми. Од искуство знаеме дека некои комбинации на фонеми лесно се изговараат и се појавуваат често, додека други се потешки за изговарање и се користат поретко во пракса. Можеме да ги сумираме овие информации и да ги земеме предвид кога ја проценуваме „веродостојноста“ на одредена низа фонеми.

Сега ги имаме сите алатки за дизајнирање на еден од главните „работни коњи“ автоматско препознавањеговор - скриен Марков модел (HMM, Hidden Markov Model). За да го направите ова, за момент да замислиме дека не го решаваме проблемот со препознавање говор, туку токму спротивното - го претвораме текстот во говор. Да речеме дека сакаме да го добиеме изговорот на зборот „Јандекс“. Нека зборот „Јандекс“ се состои од збир на фонеми, да речеме, [th][a][n][d][e][k][s]. Ајде да изградиме машина за конечни состојби за зборот „Јандекс“, во која секоја фонема е претставена со посебна состојба. Во секој момент сме во една од овие состојби и го „изговараме“ звукот карактеристичен за оваа фонема (знаеме како секоја фонема се изговара благодарение на акустичниот модел). Но, некои фонеми траат долго време (како [a] во зборот „Јандекс“), други практично се проголтани. Ова е местото каде што информациите за веројатноста за транзиција помеѓу фонемите доаѓаат во рака. Имајќи генериран звук што одговара моментална состојба, прифаќаме веројатност решение: дали да останеме во иста состојба или да преминеме на следната (и соодветно на следната фонема).

Поформално, HMM може да биде претставена на следниот начин. Прво, да го воведеме концептот на емисии. Како што се сеќаваме од претходниот пример, секоја од состојбите на HMM „генерира“ звук карактеристичен за оваа конкретна состојба (т.е. фонема). На секој кадар, звукот се „игра“ од распределбата на веројатноста што одговара на дадената фонема. Второ, можни се транзиции меѓу состојбите, исто така предмет на однапред одредени веројатностични обрасци. На пример, веројатноста фонемата [a] да се „растегне“ е голема, што не може да се каже за фонемата [d]. Матрицата за емисија и транзициската матрица уникатно го дефинираат скриениот Марков модел.

Океј, разгледавме како Скриениот Марков модел може да се користи за генерирање на говор, но како можеме да го примениме на инверзниот проблем на препознавање говор? Алгоритмот Витерби доаѓа на помош. Имаме збир на забележливи величини (всушност, звук) и веројатен модел кој ги поврзува скриените состојби (фонеми) и набљудуваните величини. Алгоритмот Viterbi ви овозможува да ја вратите најверојатната низа на скриени состојби.

Нека има само два збора во нашиот речник за препознавање: „Да“ ([d][a]) и „Не“ ([n"][e][t]). Така, имаме два скриени Маркови модели. Следно, Дозволете ни да имаме снимка од гласот на корисникот кој вели „да“ или „не“. Алгоритмот Витерби ќе ни овозможи да одговориме на прашањето која хипотеза за препознавање е поверојатна.

Сега нашата задача се сведува на враќање на најверојатната низа на состојби на скриениот Марков модел, кој ја „генерираше“ (поточно, можеше да генерира) аудио снимката што ни беше претставена. Ако корисникот каже „да“, тогаш соодветната низа на состојби над 10 рамки може да биде, на пример, [d][d][d][d][a][a][a][a][a] [a] или [d][a][a][a][a][a][a][a][a][a]. Исто така, можно е различни опцииизговори за „не“ - на пример, [n"][n"][n"][e][e][e][e][t][t][t] и [n"][n" Сега ќе го најдеме „најдобриот“, односно најверојатниот начин за изговор на секој збор. рамка ќе го прашаме нашиот акустичен модел , колку е веројатно овде да звучи одредена фонема (на пример, [d] и [a]); дополнително, ќе ги земеме предвид веројатностите за транзиции ([d]->[ d], [d]->[a], [a ]->[a]) Така ќе го добиеме најверојатниот начин на изговарање на секој од хипотезните зборови, а за секој од нив ќе добиеме мерка за тоа колку е веројатно овој конкретен збор да е изговорен (можеме да ја сметаме оваа мерка како должина на најкратката патека низ соодветниот график). „Победничката“ (т.е., поверојатна) хипотеза ќе биде вратена како резултат на препознавање.

Алгоритмот Viterbi е прилично едноставен за имплементација (се користи динамично програмирање) и работи во време пропорционално на производот од бројот на состојби HMM и бројот на рамки. Сепак, не е секогаш доволно за нас да го знаеме најверојатниот пат; на пример, кога тренирате акустичен модел, треба да ја процените веројатноста за секоја состојба на секоја рамка. За таа цел се користи алгоритмот Forward-Backward.

Сепак, акустичниот модел е само една компонента на системот. Што да направите ако речникот за препознавање не се состои од два збора, како во примерот дискутиран погоре, туку од стотици илјади, па дури и милиони? Многу од нив ќе бидат многу слични во изговорот или дури и исти. Во исто време, во присуство на контекст, улогата на акустиката се намалува: нејасните, бучните или двосмислените зборови можат да се вратат „во значење“. За да се земе предвид контекстот, тие повторно се користат веројатност модели. На пример, мајчин руски јазик разбира дека природноста (во нашиот случај, веројатноста) на реченицата „мама ја изми рамката“ е поголема од „мама го изми циклотронот“ или „мама ја изми рамката“. Односно, присуството на фиксен контекст „мајка на сапунот...“ ја дефинира распределбата на веројатноста за следниот збор, што ја одразува и семантиката и морфологијата. Овој тип на јазични модели се нарекуваат n-грам јазични модели (триграми во примерот дискутиран погоре); Се разбира, постојат многу посложени и помоќни начини за моделирање на јазик.

II. Што има под хаубата на Yandex ASR?
Сега кога замислуваме општ уредсистеми за препознавање говор, подетално ќе ги опишеме деталите за технологијата Yandex - најдобриот, според нашите податоци, руски систем за препознавање говор.
Разгледувајќи ги горенаведените примери за играчки, намерно направивме неколку поедноставувања и испуштивме голем број важни детали. Конкретно, тврдевме дека основната „градежна единица“ на говорот е фонемата. Всушност, фонемата е преголема единица; За адекватно моделирање на изговорот на една фонема, се користат три посебни состојби - почеток, средина и крај на фонемата. Заедно тие го формираат истиот HMM како што е претставено погоре. Покрај тоа, фонемите зависат од позицијата и зависат од контекст: формално, „истата“ фонема звучи значително различно во зависност од тоа во кој дел од зборот е и со кои фонеми е соседна. Во исто време, едноставен список на сите можни опциифонемите чувствителни на контекст ќе се вратат многу голем бројкомбинации, од кои многу никогаш не се случуваат во реалниот живот; за да се направи бројот на акустични настани кои се сметаат за разумни, фонемите чувствителни на блиски контекст се комбинираат во раните фазиобука и се разгледуваат заедно.
Така, прво ги направивме фонемите чувствителни на контекст и второ, секоја од нив ја поделивме на три дела. Овие објекти - „фонемски делови“ - сега го сочинуваат нашиот фонетска азбука. Тие се нарекуваат и Сенони. Секоја состојба на нашиот HMM е сенон. Нашиот модел користи 48 фонеми и околу 4000 сенони.

Значи, нашиот акустичен модел сè уште го зема звукот како влез, а на излезот дава дистрибуција на веројатност над сеноните. Сега да погледнеме што точно се доставува до влезот. Како што рековме, звукот се сече на делови од 25 ms („рамки“). Вообичаено, чекорот на сечење е 10 ms, така што соседните рамки делумно се преклопуваат. Јасно е дека „суров“ звук - амплитудата на осцилациите со текот на времето - не е најинформативната форма за претставување на звучен сигнал. Спектарот на овој сигнал е многу подобар. Во пракса, обично се користи логаритамски и скалиран спектар, што одговара на човечките закони аудитивна перцепција(Мел-трансформација). Добиените вредности се подложени на дискретна косинус трансформација (DCT), а резултатот е MFCC - Цепстрални коефициенти на фреквенција на мел. (Зборот Cepstral се добива со преуредување на буквите во Spectral, одразувајќи го присуството на дополнителен DCT). MFCC е вектор од 13 (обично) реални броеви. Тие можат да се користат како влез за акустичниот модел во сурова форма, но често се предмет на многу дополнителни трансформации.

Обуката за акустичен модел е сложен и повеќестепен процес. За обука се користат алгоритми од семејството Очекување-Максимизација, како што е алгоритмот Баум-Велш. Суштината на алгоритмите од овој вид е алтернација на два чекора: во чекорот Очекување, постоечкиот модел се користи за пресметување на очекувањата на функцијата на веројатност; на чекорот Максимизација, параметрите на моделот се менуваат на таков начин што ќе се максимизира оваа проценка. Во раните фази на обуката, се користат едноставни акустични модели: едноставните карактеристики на MFCC се дадени како влез, фонемите се разгледуваат без зависност од контекст и мешавина од гауси со дијагонални коваријансни матрици (Дијагонални GMM - модели на гаусови мешавини) се користи за моделирање на веројатноста за емисија во HMM. Резултатите од секој претходен акустичен модел се почетна точка за повеќе тренирање комплексен модел, со посложени влезни, излезни или дистрибутивни функции на веројатноста за емисија. Постојат многу начини за подобрување на акустичниот модел, но најзначајниот ефект е преминот од модел GMM на DNN (Deep Neural Network), што речиси го удвојува квалитетот на препознавање. Невронските мрежи се ослободени од многу ограничувања на Гаусовите мешавини и имаат подобра способност за генерализација. Покрај тоа, акустичните модели базирани на невронски мрежи се поотпорни на бучава и имаат подобри перформанси.

Невронската мрежа за акустично моделирање се обучува во неколку фази. За иницијализирање на невронската мрежа, се користи куп ограничени Болцман машини (RBM). RBM е стохастичка невронска мрежа која тренира без учител. Иако тежините што ги учи не можат директно да се користат за да се направи разлика помеѓу класите на акустични настани, тие детално ја одразуваат структурата на говорот. Можете да го замислите RBM како извлекувач на карактеристики - добиениот генеративен модел се покажува како одлична почетна точка за градење на дискриминативен модел. Дискриминативниот модел е обучен со користење на класичниот алгоритам за задна пропагирање, кој применува голем број на техники, подобрување на конвергенцијата и спречување на прекумерно вклопување. Како резултат на тоа, влезот на невронската мрежа е неколку рамки со карактеристики на MFCC (централната рамка е предмет на класификација, а остатокот го формира контекстот), излезот е околу 4000 неврони што одговараат на различни сенони. Оваа невронска мрежа се користи како акустичен модел во производствен систем.

Ајде внимателно да го разгледаме процесот на декодирање. За задачата за препознавање спонтан говорСо голем речникПристапот опишан во првиот дел не е применлив. Потребна ви е структура на податоци што поврзува сè заедно можни предлозишто системот може да ги препознае. Соодветна структура е пондериран трансдуцер со конечни состојби (WFST) - во суштина само машина за конечни состојби со излезна лента и тегови на рабовите. На влезот на оваа машина се сенони, а на излезот се зборовите. Процесот на декодирање се сведува на изборот најдобриот начинво оваа машина и да обезбеди излезна низа од зборови што одговараат на оваа патека. Во овој случај, цената на премин по секој лак се состои од две компоненти. Првата компонента е однапред позната и се пресметува во фазата на склопување на машината. Тоа ги вклучува трошоците за изговор, транзиција во дадена состојба и проценка на веројатноста од јазичниот модел. Втората компонента се пресметува одделно за одредена рамка: ова е акустичната тежина на сенонот што одговара на влезниот симбол на предметниот лак. Декодирањето се случува во реално време, така што не се испитува сè можни начини: специјалните хеуристики го ограничуваат множеството хипотези на најверојатните.

Секако, најинтересниот дел од технички аспект е конструкцијата на ваков автомат. Овој проблем е решен офлајн. За да преминеме од едноставни HMM за секоја фонема чувствителна на контекст до линеарни автомати за секој збор, треба да користиме речник за изговор. Создавањето таков речник е невозможно рачно, и овде се користат методи машинско учење(и самата задача е научната заедницанаречена Графема-до-фонема, или G2P). За возврат, зборовите се „спојуваат“ едни со други во јазичен модел, исто така претставен во формата машина за конечни состојби. Централната операција овде е составот на WFST, но исто така важен различни методиоптимизирање на WFST за големина и ефикасност на складирање.

Резултатот од процесот на декодирање е листа на хипотези кои можат понатаму да се обработуваат. На пример, можете да користите помоќен јазичен модел за да ги прерангирате најверојатните хипотези. Добиената листа се враќа на корисникот, подредена според вредноста на доверливост - степенот до кој сме уверени дека препознавањето е извршено правилно. Честопати останува само една хипотеза, во тој случај клиентската апликација веднаш продолжува со извршување на гласовната команда.

Како заклучок, да го допреме прашањето за метрика за квалитет за системите за препознавање говор. Најпопуларната метрика е стапката на грешка во зборовите (и нејзината инверзна, точноста на зборовите). Во суштина, тоа го одразува процентот на погрешно препознаени зборови. За да се пресмета стапката на грешка во зборовите за систем за препознавање говор, се користат рачно означени корпуси на гласовни барања што одговараат на темата на апликацијата со помош на препознавање говор.

SpeechKit Cloud е програма која им овозможува на програмерите пристап до технологиите за препознавање и синтеза на говор Yandex. Интеграцијата се спроведува со помош на модулот Yandex TTS, достапен преку пазарот за додатоци на системот MajorDoMo.

Постапката за инсталација и конфигурација е многу едноставна и се завршува во неколку чекори.

1. Одете во Контролен панел

2. Одете на Пазарот за додатоци

3. Одете во делот „Интеракција“.

4. Додајте модул во системот MajorDomo - Контролен панел - Пазар на додатоци - Интеракција - Yandex TTS - Додадете:

5. Системот ќе не информира за успешна инсталација и ќе пренасочи на страницата „Додатен пазар“:

6. За понатамошно конфигурирање на модулот, потребен ви е Yandex Api Key, кој може да се добие бесплатно на сметката на програмерот со користење на постоечка сметка Yandex:

7. Доделете име на клучот што се креира и кликнете SpeechKit Cloud:

8. Пополнете ги бараните полиња со податоци и кликнете на копчето „Поднеси“:

9. Ако сè е направено правилно, генерираниот клуч API ќе се појави во списокот од десната страна, кој мора да се копира на таблата со исечоци:

10. Отворете ги поставките на модулот Yantex TTS (MajorDoMo - Контролен панел - Апликации - Yandex TTS), залепете го клучот копиран во претходниот чекор во полето API-клуч, изберете го гласот, расположението, а исто така проверете дали модулот се активира:

11. Поставувањето е завршено!

Внимание!Тестот Yandex Api Key се генерира 1 месец, по што системот ќе престане да изразува нови (не-кеширани) фрази. За да добиете постојан клуч, мора да испратите писмо до Yandex со барање да го пренесете клучот на постојан.

технологија за препознавање говор

Yandex Speechkit Autopoet.

Подготовка на текстот

Изговор и интонација

страница или на веб-локација за специјални ресурси

Многумина од вас веројатно имале можност да контролираат компјутер или паметен телефон користејќи го својот глас. Кога ќе му кажете на Навигаторот „Ајде да одиме кај Гогољ, 25“ или кажете во апликацијата Yandex барање за пребарување, технологијата за препознавање говор го претвора вашиот глас во текстуална команда. Но, исто така постои инверзен проблем: претворете го текстот што компјутерот го има на располагање во глас.

Yandex користи технологија за синтеза на говор од комплексот Yandex Speechkit до гласовни текстови. На пример, ви овозможува да дознаете како да изговарате странски зборовии фрази во Преведувачот. Благодарение на синтезата на говорот, Автопоет доби и свој глас.

Подготовка на текстот

Изговор и интонација

Со други зборови, многу податоци се користат за синтеза на секои 25 милисекунди говор. Информациите за непосредната околина обезбедуваат непречен премин од рамка во рамка и од слог до слог, а информациите за фразата и реченицата како целина се потребни за создавање правилна интонацијасинтетизиран говор.

За читање на подготвениот текст се користи акустичен модел. Се разликува од акустичниот модел, кој се користи при препознавање говор. Во случај на препознавање модели, неопходно е да се воспостави кореспонденција помеѓу звуците со одредени карактеристики и фонеми. Во случај на синтеза, акустичниот модел, напротив, мора, врз основа на описите на рамки, да создава описи на звуците.

Како акустичен модел знае правилно да изговори фонема или да даде правилна интонација? прашална реченица? Таа учи од текстови и звучни датотеки. На пример, можете да вчитате аудиокнига и соодветниот текст во неа. Колку повеќе податоци учи моделот, толку е подобар неговиот изговор и интонација.

Повеќе информации за технологиите од комплексот Yandex SpeechKit може да се најдат на оваа страница или на посебен ресурс. Ако сте програмер и сакате да тестирате облак или мобилна верзија SpeechKit, страница посветена на технологиите на Yandex ќе ви помогне.

","contentType":"текст/html", "amp":"

Многумина од вас веројатно имале можност да контролираат компјутер или паметен телефон користејќи го својот глас. Кога ќе му кажете на Навигатор „Ајде да одиме кај Гогољ, 25“ или ќе кажете барање за пребарување во апликацијата Yandex, технологијата за препознавање говор го претвора вашиот глас во текстуална команда. Но, постои и спротивна задача: текстот што компјутерот го има на располагање да го претвори во глас.

Ако сетот текстови што треба да се изразат е релативно мал и во нив се наоѓаат истите изрази - како, на пример, во најавите за поаѓање и пристигнување на возовите на станицата - доволно е да се покани говорник и да се снима во студиото вистинските зборовии фрази, а потоа составете порака од нив. Сепак, овој пристап не функционира со произволни текстови. Ова е местото каде што технологијата за синтеза на говор ни доаѓа.

Yandex користи технологија за синтеза на говор од комплексот Yandex Speechkit до гласовни текстови. На пример, ви овозможува да дознаете како се изговараат странски зборови и фрази во Преведувачот. Благодарение на синтезата на говорот, Автопоет доби и свој глас.

Подготовка на текстот

Проблемот со синтезата на говорот се решава во неколку фази. Прво, посебен алгоритам го подготвува текстот за да му биде погодно да го чита роботот: ги запишува сите броеви со зборови и ги проширува кратенките. Потоа текстот е поделен на фрази, односно на фрази со континуирана интонација - за ова, компјутерот се фокусира на интерпункциски знаци и стабилни структури. За сите зборови се составува фонетска транскрипција.

За да разбере како се чита збор и каде да се стави акцент во него, роботот прво се свртува кон класичните, рачно составени речници кои се вградени во системот. Ако бараниот збор го нема во речникот, компјутерот сам создава транскрипција - врз основа на правила позајмени од академски референтни книги. Конечно, ако нормални правилаиспаѓа дека е недоволен - и тоа се случува, бидејќи секој жив јазик постојано се менува - користи статистички правила. Ако зборот се појавил во корпусот текстови за обука, системот ќе запомни кој слог обично го нагласувале говорителите.

Изговор и интонација

Кога транскрипцијата е готова, компјутерот пресметува колку долго ќе звучи секоја фонема, односно колку рамки содржи - вака се нарекуваат фрагменти долги 25 милисекунди. Потоа секоја рамка е опишана според многу параметри: од која фонема е дел и какво место зазема во неа; на кој слог припаѓа оваа фонема? ако е самогласка, дали е нагласена; какво место зазема во слог; слог - со еден збор; збор - во фраза; какви интерпункциски знаци има пред и по оваа фраза; какво место зазема фразата во реченицата; конечно, каков знак е на крајот од реченицата и која е нејзината главна интонација.

Со други зборови, многу податоци се користат за синтеза на секои 25 милисекунди говор. Информациите за непосредната околина обезбедуваат непречен премин од рамка во рамка и од слог до слог, а информациите за фразата и реченицата како целина се потребни за да се создаде правилна интонација на синтетизираниот говор.

За читање на подготвениот текст се користи акустичен модел. Се разликува од акустичниот модел, кој се користи при препознавање говор. Во случај на препознавање модели, неопходно е да се воспостави кореспонденција помеѓу звуците со одредени карактеристики и фонеми. Во случај на синтеза, акустичниот модел, напротив, мора, врз основа на описите на рамки, да создава описи на звуците.

Како акустичен модел знае правилно да изговори фонема или да даде правилна интонација на прашална реченица? Таа учи од текстови и звучни датотеки. На пример, можете да вчитате аудиокнига и соодветниот текст во неа. Колку повеќе податоци учи моделот, толку е подобар неговиот изговор и интонација.

Конечно, за самиот глас. Она што ги прави препознатливи нашите гласови, пред сè, е темброт, кој зависи од структурните карактеристики на органите. говорен апаратСекој човек. Темброт на вашиот глас може да се моделира, односно да се опишат неговите карактеристики - за да го направите ова, доволно е да прочитате мал корпус текстови во студиото. По ова, податоците за вашиот тембр може да се користат за синтетизирање на говор на кој било јазик, дури и на оној што не го знаете. Кога робот треба да ви каже нешто, тој користи генератор звучни бранови- вокодер. Содржи информации за фреквентни карактеристикифрази добиени од акустичниот модел, како и податоци за темброт, што му дава на гласот препознатлива боја.

Повеќе информации за технологиите од комплексот Yandex SpeechKit може да се најдат на оваа страница или на посебен ресурс. Доколку сте програмер и сакате да ја тестирате облакот или мобилната верзија на SpeechKit, ќе ви помогне страницата посветена на технологиите на Yandex.

""instantArticle":"

Многумина од вас веројатно имале можност да контролираат компјутер или паметен телефон користејќи го својот глас. Кога ќе му кажете на Навигатор „Ајде да одиме кај Гогољ, 25“ или ќе кажете барање за пребарување во апликацијата Yandex, технологијата за препознавање говор го претвора вашиот глас во текстуална команда. Но, постои и спротивна задача: текстот што компјутерот го има на располагање да го претвори во глас.

Ако збирот на текстови што треба да се изразат е релативно мал и тие ги содржат истите изрази - како, на пример, во најавите за поаѓање и пристигнување на возовите на станицата - доволно е да се покани говорник, да се снимаат потребните зборови и фрази во студио, а потоа собирајте ги пораките. Сепак, овој пристап не функционира со произволни текстови. Ова е местото каде што технологијата за синтеза на говор ни доаѓа.

Yandex користи технологија за синтеза на говор од комплексот Yandex Speechkit до гласовни текстови. На пример, ви овозможува да дознаете како се изговараат странски зборови и фрази во Преведувачот. Благодарение на синтезата на говорот, Автопоет доби и свој глас.

Подготовка на текстот

Проблемот со синтезата на говорот се решава во неколку фази. Прво, посебен алгоритам го подготвува текстот за да му биде погодно да го чита роботот: ги запишува сите броеви со зборови и ги проширува кратенките. Потоа текстот е поделен на фрази, односно на фрази со континуирана интонација - за ова, компјутерот се фокусира на интерпункциски знаци и стабилни структури. За сите зборови се составува фонетска транскрипција.

За да разбере како се чита збор и каде да се стави акцент во него, роботот прво се свртува кон класичните, рачно составени речници кои се вградени во системот. Ако бараниот збор го нема во речникот, компјутерот сам создава транскрипција, врз основа на правила позајмени од академски референтни книги. Конечно, ако вообичаените правила не се доволни - и тоа се случува, бидејќи секој жив јазик постојано се менува - тој користи статистички правила. Ако некој збор се најде во корпусот на текстови за обука, системот ќе запомни кој слог говорниците обично го нагласувале во него.

Изговор и интонација

Кога транскрипцијата е готова, компјутерот пресметува колку долго ќе звучи секоја фонема, односно колку рамки содржи - вака се нарекуваат фрагменти долги 25 милисекунди. Потоа секоја рамка е опишана според многу параметри: од која фонема е дел и какво место зазема во неа; на кој слог припаѓа оваа фонема? ако е самогласка, дали е нагласена; какво место зазема во слог; слог - со еден збор; збор - во фраза; какви интерпункциски знаци има пред и по оваа фраза; какво место зазема фразата во реченицата; конечно, каков знак е на крајот од реченицата и која е нејзината главна интонација.

Со други зборови, многу податоци се користат за синтеза на секои 25 милисекунди говор. Информациите за непосредната околина обезбедуваат непречен премин од рамка во рамка и од слог до слог, а информациите за фразата и реченицата како целина се потребни за да се создаде правилна интонација на синтетизираниот говор.

За читање на подготвениот текст се користи акустичен модел. Се разликува од акустичниот модел, кој се користи при препознавање говор. Во случај на препознавање модели, неопходно е да се воспостави кореспонденција помеѓу звуците со одредени карактеристики и фонеми. Во случај на синтеза, акустичниот модел, напротив, мора, врз основа на описите на рамки, да создава описи на звуците.

Како акустичен модел знае правилно да изговори фонема или да даде правилна интонација на прашална реченица? Таа учи од текстови и звучни датотеки. На пример, можете да вчитате аудиокнига и соодветниот текст во неа. Колку повеќе податоци учи моделот, толку е подобар неговиот изговор и интонација.

Конечно, за самиот глас. Она што ги прави препознатливи нашите гласови, пред сè, е темброт, кој зависи од структурните карактеристики на органите на говорниот апарат кај секоја личност. Темброт на вашиот глас може да се моделира, односно да се опишат неговите карактеристики - за да го направите ова, доволно е да прочитате мал корпус текстови во студиото. По ова, податоците за вашиот тембр може да се користат за синтетизирање на говор на кој било јазик, дури и на оној што не го знаете. Кога роботот треба да ви каже нешто, користи генератор на звучни бранови - вокодер. Во него се вчитуваат информации за фреквентните карактеристики на фразата добиена од акустичниот модел, како и податоци за темброт, што му дава на гласот препознатлива боја.

Повеќе информации за технологиите од комплексот Yandex SpeechKit може да се најдат на оваа страница или на посебен ресурс. Доколку сте програмер и сакате да ја тестирате облакот или мобилната верзија на SpeechKit, ќе ви помогне страницата посветена на технологиите на Yandex.

"),,"proposedBody":("извор":"

Многумина од вас веројатно имале можност да контролираат компјутер или паметен телефон користејќи го својот глас. Кога ќе му кажете на Навигатор „Ајде да одиме кај Гогољ, 25“ или ќе кажете барање за пребарување во апликацијата Yandex, технологијата за препознавање говор го претвора вашиот глас во текстуална команда. Но, постои и спротивна задача: текстот што компјутерот го има на располагање да го претвори во глас.

Ако збирот на текстови што треба да се изразат е релативно мал и тие ги содржат истите изрази - како, на пример, во најавите за поаѓање и пристигнување на возовите на станицата - доволно е да се покани говорник, да се снимаат потребните зборови и фрази во студио, а потоа собирајте ги пораките. Сепак, овој пристап не функционира со произволни текстови. Ова е местото каде што технологијата за синтеза на говор ни доаѓа.

Yandex користи технологија за синтеза на говор од комплексот Yandex Speechkit до гласовни текстови. На пример, ви овозможува да дознаете како се изговараат странски зборови и фрази во Преведувачот. Благодарение на синтезата на говорот, Автопоет доби и свој глас.

Подготовка на текстот

Проблемот со синтезата на говорот се решава во неколку фази. Прво, посебен алгоритам го подготвува текстот за да му биде погодно да го чита роботот: ги запишува сите броеви со зборови и ги проширува кратенките. Потоа текстот е поделен на фрази, односно на фрази со континуирана интонација - за ова, компјутерот се фокусира на интерпункциски знаци и стабилни конструкции. За сите зборови се составува фонетска транскрипција.

За да разбере како се чита збор и каде да се стави акцент во него, роботот прво се свртува кон класичните, рачно составени речници кои се вградени во системот. Ако бараниот збор го нема во речникот, компјутерот сам создава транскрипција, врз основа на правила позајмени од академски референтни книги. Конечно, ако вообичаените правила не се доволни - и тоа се случува, бидејќи секој жив јазик постојано се менува - тој користи статистички правила. Ако некој збор се најде во корпусот на текстови за обука, системот ќе запомни кој слог говорниците обично го нагласувале во него.

Изговор и интонација

Кога транскрипцијата е готова, компјутерот пресметува колку долго ќе звучи секоја фонема, односно колку рамки содржи - вака се нарекуваат фрагменти долги 25 милисекунди. Потоа секоја рамка е опишана според многу параметри: од која фонема е дел и какво место зазема во неа; на кој слог припаѓа оваа фонема? ако е самогласка, дали е нагласена; какво место зазема во слог; слог - со еден збор; збор - во фраза; какви интерпункциски знаци има пред и по оваа фраза; какво место зазема фразата во реченицата; конечно, каков знак е на крајот од реченицата и која е нејзината главна интонација.

Со други зборови, многу податоци се користат за синтеза на секои 25 милисекунди говор. Информациите за непосредната околина обезбедуваат непречен премин од рамка во рамка и од слог до слог, а информациите за фразата и реченицата како целина се потребни за да се создаде правилна интонација на синтетизираниот говор.

За читање на подготвениот текст се користи акустичен модел. Се разликува од акустичниот модел, кој се користи при препознавање говор. Во случај на препознавање модели, неопходно е да се воспостави кореспонденција помеѓу звуците со одредени карактеристики и фонеми. Во случај на синтеза, акустичниот модел, напротив, мора, врз основа на описите на рамки, да создава описи на звуците.

Како акустичен модел знае правилно да изговори фонема или да даде правилна интонација на прашална реченица? Таа учи од текстови и звучни датотеки. На пример, можете да вчитате аудиокнига и соодветниот текст во неа. Колку повеќе податоци учи моделот, толку е подобар неговиот изговор и интонација.

Конечно, за самиот глас. Она што ги прави препознатливи нашите гласови, пред сè, е темброт, кој зависи од структурните карактеристики на органите на говорниот апарат кај секоја личност. Темброт на вашиот глас може да се моделира, односно да се опишат неговите карактеристики - за да го направите ова, само прочитајте мал корпус текстови во студиото. По ова, податоците за вашиот тембр може да се користат за синтетизирање на говор на кој било јазик, дури и на оној што не го знаете. Кога роботот треба да ви каже нешто, користи генератор на звучни бранови наречен вокодер. Во него се вчитуваат информации за фреквентните карактеристики на фразата добиена од акустичниот модел, како и податоци за темброт, што му дава на гласот препознатлива боја.

Повеќе информации за технологиите од комплексот Yandex SpeechKit може да се најдат на оваа страница или на посебен ресурс. Доколку сте програмер и сакате да ја тестирате облакот или мобилната верзија на SpeechKit, ќе ви помогне страницата посветена на технологиите на Yandex.

Многумина од вас веројатно имале можност да контролираат компјутер или паметен телефон користејќи го својот глас. Кога ќе му кажете на Навигатор „Ајде да одиме кај Гогољ, 25“ или ќе кажете барање за пребарување во апликацијата Yandex, технологијата за препознавање говор го претвора вашиот глас во текстуална команда. Но, постои и спротивна задача: текстот што компјутерот го има на располагање да го претвори во глас.

Ако збирот на текстови што треба да се изразат е релативно мал и тие ги содржат истите изрази - како, на пример, во најавите за поаѓање и пристигнување на возовите на станицата - доволно е да се покани говорник, да се снимаат потребните зборови и фрази во студио, а потоа собирајте ги пораките. Сепак, овој пристап не функционира со произволни текстови. Ова е местото каде што технологијата за синтеза на говор ни доаѓа.

Yandex користи технологија за синтеза на говор од комплексот Yandex Speechkit до гласовни текстови. На пример, ви овозможува да дознаете како се изговараат странски зборови и фрази во Преведувачот. Благодарение на синтезата на говорот, Автопоет доби и свој глас.

Подготовка на текстот

Проблемот со синтезата на говорот се решава во неколку фази. Прво, посебен алгоритам го подготвува текстот за да му биде погодно да го чита роботот: ги запишува сите броеви со зборови и ги проширува кратенките. Потоа текстот е поделен на фрази, односно на фрази со континуирана интонација - за ова, компјутерот се фокусира на интерпункциски знаци и стабилни структури. За сите зборови се составува фонетска транскрипција.

За да разбере како се чита збор и каде да се стави акцент во него, роботот прво се свртува кон класичните, рачно составени речници кои се вградени во системот. Ако бараниот збор го нема во речникот, компјутерот сам создава транскрипција, врз основа на правила позајмени од академски референтни книги. Конечно, ако вообичаените правила не се доволни - и тоа се случува, бидејќи секој жив јазик постојано се менува - тој користи статистички правила. Ако некој збор се најде во корпусот на текстови за обука, системот ќе запомни кој слог говорниците обично го нагласувале во него.

Изговор и интонација

Кога транскрипцијата е готова, компјутерот пресметува колку долго ќе звучи секоја фонема, односно колку рамки содржи - вака се нарекуваат фрагменти долги 25 милисекунди. Потоа секоја рамка е опишана според многу параметри: од која фонема е дел и какво место зазема во неа; на кој слог припаѓа оваа фонема? ако е самогласка, дали е нагласена; какво место зазема во слог; слог - со еден збор; збор - во фраза; какви интерпункциски знаци има пред и по оваа фраза; какво место зазема фразата во реченицата; конечно, каков знак е на крајот од реченицата и која е нејзината главна интонација.

Со други зборови, многу податоци се користат за синтеза на секои 25 милисекунди говор. Информациите за непосредната околина обезбедуваат непречен премин од рамка во рамка и од слог до слог, а информациите за фразата и реченицата како целина се потребни за да се создаде правилна интонација на синтетизираниот говор.

За читање на подготвениот текст се користи акустичен модел. Се разликува од акустичниот модел, кој се користи при препознавање говор. Во случај на препознавање модели, неопходно е да се воспостави кореспонденција помеѓу звуците со одредени карактеристики и фонеми. Во случај на синтеза, акустичниот модел, напротив, мора, врз основа на описите на рамки, да создава описи на звуците.

Како акустичен модел знае правилно да изговори фонема или да даде правилна интонација на прашална реченица? Таа учи од текстови и звучни датотеки. На пример, можете да вчитате аудиокнига и соодветниот текст во неа. Колку повеќе податоци учи моделот, толку е подобар неговиот изговор и интонација.

Конечно, за самиот глас. Она што ги прави препознатливи нашите гласови, пред сè, е темброт, кој зависи од структурните карактеристики на органите на говорниот апарат кај секоја личност. Темброт на вашиот глас може да се моделира, односно да се опишат неговите карактеристики - за да го направите ова, доволно е да прочитате мал корпус текстови во студиото. По ова, податоците за вашиот тембр може да се користат за синтетизирање на говор на кој било јазик, дури и на оној што не го знаете. Кога роботот треба да ви каже нешто, користи генератор на звучни бранови - вокодер. Во него се вчитуваат информации за фреквентните карактеристики на фразата добиена од акустичниот модел, како и податоци за темброт, што му дава на гласот препознатлива боја.

Повеќе информации за технологиите од комплексот Yandex SpeechKit може да се најдат на оваа страница или на посебен ресурс. Доколку сте програмер и сакате да ја тестирате облакот или мобилната верзија на SpeechKit, ќе ви помогне страницата посветена на технологиите на Yandex.

","contentType":"текст/html"), "authorId":"24151397", "slug":"kak-eto-rabotaet-sintez-rechi", "canEdit":false,"canComment":false," isBanned":false,"canPublish":false,"viewType":"мали","isDraft":false,"isOnModeration":false,"isOutdated":false,"isSubscriber":false,"commentsCount":55," modificationDate":"Вто, 03 април 2018 18:56:00 GMT+0000 (UTC)","isAutoPreview":false,"showPreview":true,"approvedPreview":("извор":"

Кога ќе му кажете на Navigator „Ајде да одиме кај Гогољ, 25“ или ќе кажете гласно барање за пребарување, технологијата за препознавање говор го претвора вашиот глас во текстуална команда. Постои и спротивна задача: претворање на текстот во глас. Понекогаш е доволно да поканите говорник и едноставно да ги запишете потребните зборови и фрази, но тоа нема да работи со произволни текстови. Ова е местото каде што технологијата за синтеза на говор ни доаѓа.

","contentType":"текст/html"),"proposedPreview":("извор":"

Кога ќе му кажете на Navigator „Ајде да одиме кај Гогољ, 25“ или ќе кажете гласно барање за пребарување, технологијата за препознавање говор го претвора вашиот глас во текстуална команда. Постои и спротивна задача: претворање на текстот во глас. Понекогаш е доволно да поканите говорник и едноставно да ги запишете потребните зборови и фрази, но тоа нема да работи со произволни текстови. Ова е местото каде што технологијата за синтеза на говор ни доаѓа.

Кога ќе му кажете на Navigator „Ајде да одиме кај Гогољ, 25“ или ќе кажете гласно барање за пребарување, технологијата за препознавање говор го претвора вашиот глас во текстуална команда. Постои и спротивна задача: претворање на текстот во глас. Понекогаш е доволно да поканите говорник и едноставно да ги запишете потребните зборови и фрази, но тоа нема да работи со произволни текстови. Ова е местото каде што технологијата за синтеза на говор ни доаѓа.

","contentType":"текст/html"),"titleImage":("h32":("висина":32,"патка":"/get-yablogs/47421/file_1475751201967/h32","ширина": 58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("висина":246"пат":"/get- yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_147575120":"jormajor020"),"jormajor020") height":156,"path":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421 /file_1475751201967/major288"),"major300":("патека":"/get-yablogs/47421/file_1475751201967/major300","fullPath":"https://avatars.mds.mds.yandex.blogs. 47421/file_1475751201967/major300","width":300,"height":150),,"major444":("path":"/get-yablogs/47421/file_1475751201967","httpl:"major44" / /avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),"major900":("path":"/get-yablogs/47421 / file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major900","width":444"8"висина":444"8"min"): : ("пат":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201968"minord" : 288,"height":160),,"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig","width":444,"fullPath":" https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("пат":"/get-yablogs/47421/file_1475751201968","thous2 "https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),,"touch444":("path":"/get -yablogs/ 47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch444":4"4th" ,"touch900 ":("висина":246,"пат":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https://avatars.mds.yandex. net/get -yablogs/47421/file_1475751201967/touch900"),"w1000":("height":246,"path":"/get-yablogs/47421/file_1475751201967/w1000","wi4"4thl: ":" https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("висина":246"пат":"/get-yablogs/47421/ file_1475751201967/w260h260 ","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w260hw:260h),"3"ight":260h" ,"path ":"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file57h32015 "), "w288":("висина":156,"пат":"/get-yablogs/47421/file_1475751201967/w288","width":282,"fullPath":"https://avatars.mds. yandex.net /get-yablogs/47421/file_1475751201967/w288"),"w288h160":("висина":160"пат":"/get-yablogs/47421/file_1475751201988,1201967,200,288,120, 2018, 1960, 2018, 2012, 2016, 2016, 2000, 2000, 2018, 1960, 2000,288,20,2019,8,0,2019,8,20,20,28,20,20,288,2019,8,120,28,20,20,28,20,2018,1967/ "fullPath" :"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("height":162,"path":"/get-yablogs/ 47421/file_1475751201967 /w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w304),"(w304)" :246, "path":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1214 /w444" ),"w900":("висина":246,"патка":"/get-yablogs/47421/file_1475751201967/w900","width":444,"fullPath":"https://avatars. mds.yandex .net/get-yablogs/47421/file_1475751201967/w900"),"major620":("path":"/get-yablogs/47421/file_1475751201967/major620":"ful .mds. yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)),,"tags":[("displayName":"Yandex technology","slug ":"technologii -yandeksa", "url":"/блог/компанија? ?tag=tekhnologii-yandeksa"),("displayName":"како функционира?","Slug":"kak-eto-rabotaet","url":"/blog/company??tag=kak-eto - rabotaet")],"isModerator":false,"isTypography":false,"metaDescription":"","metaKeywords":"","relatedTitle":"","isAutoRelated":false,"commentsEnabled":true , "url":"/blog/company/kak-eto-rabotaet-sintez-rechi","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https://yandex.ru/ блог /компанија","addCommentUrl":"/blog/createComment/company/kak-eto-rabotaet-sintez-rechi","updateCommentUrl":"/blog/updateComment/company/kak-eto-rabotaet-sintez-rechi" , "addCommentWithCaptcha":"/blog/createWithCaptcha/company/kak-eto-rabotaet-sintez-rechi","changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/im " ,"urlBlog":"/blog/company","urlEditPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/57f4dd21ccb9760017cf4ccf/edit","urlSlug":"/blog/post/generateSlug","urlPublishPost":"cc794blogf20 " ,"urlUnpublishPost":"/blog/57f4dd21ccb9760017cf4ccf/unpublish","urlRemovePost":"/blog/57f4dd21ccb9760017cf4ccf/removePost",:"urlremovetkablog чи/нацрт" , "urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":"/blog/57f4dd21ccb9760017cf4ccf/removeDraft","urlTagSuggest":"/blog/"DeleteDraft": " /blog/company","isAuthor":false,"subscribeUrl":"/blog/api/subscribe/57f4dd21ccb9760017cf4ccf","unsubscribeUrl":"/blog/api/unsubscribe/57f4dd21ccfostcf6 / company/57f4dd21ccb9760017cf4ccf/edit","urlForTranslate":"/blog/post/translate","urlRelateIssue":"/blog/post/updateIssue","urlUpdateTranslate":"/blog/post/translate","urlRelateIssue":"/blog/post/updateIssue","urlUpdateTranslate": : "/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/kak-eto-rabotaet-sintez-rechi/translationInfo","urlRelatedArticles":"/blog/api/relatedArticles/company/kak-eto - rabotaet-sintez-rechi","author":("id":"24151397","uid":("вредност":"24151397","lite":false,"hosted":false), "псевдоними ": ("13":"chistyakova"),"login":"amarantta","display_name":("име":"Света Чистјакова","avatar":("стандардно":"24700/24151397-15660497" "празен":неточно)),,"адреса":" [заштитена е-пошта] ","defaultAvatar":"24700/24151397-15660497","imageSrc":"https://avatars.mds.yandex.net/get-yapic/24700/24151397-15660497/islands-Ymiddle","ffis точно),"оригиналенДатум на промена":"2018-04-03T15:56:07.719Z","socialImage":("h32":("висина":32"пат":"/get-yablogs/47421/file_1475751201967/ h32","width":58,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/h32"),"major1000":("висина":246," патека":"/get-yablogs/47421/file_1475751201967/major1000","width":444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1471596702ma" ,"major288":("висина":156,"пат":"/get-yablogs/47421/file_1475751201967/major288","width":287,"fullPath":"https://avatars.mds.yandex. net/get-yablogs/47421/file_1475751201967/major288"),"major300":("патека":"/get-yablogs/47421/file_1475751201967/major300","fullPathsava":tarx" .net/get-yablogs/47421/file_1475751201967/major300","width":300,"height":150),,"major444":("path":"/get-yablogs/47421/file_14757647120 " fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major444","width":444,"height":246),,"major900":("пат" :" /get-yablogs/47421/file_1475751201967/major900","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967","44,"4"thhe" ": 246),"minor288":("пат":"/get-yablogs/47421/file_1475751201967/minor288","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/ file_1475751201967/ minor288","width":288,"height":160),,"orig":("height":246,"path":"/get-yablogs/47421/file_1475751201967/orig","width" :444, "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/orig"),"touch288":("path":"/get-yablogs/47421/file_12015 /touch288" "fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/touch288","width":444,"height":246),,"touch444": ("пат" :"/get-yablogs/47421/file_1475751201967/touch444","fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201944th"to" 444,"height ":246),,"touch900":("height":246,"path":"/get-yablogs/47421/file_1475751201967/touch900","width":444,"fullPath":"https ://avatars. mds.yandex.net/get-yablogs/47421/file_1475751201967/touch900"),"w1000":("height":246,"path":"/get-yablogs/47421/file_14715907520 "width": 444,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w1000"),"w260h260":("висина":246"пат" :"/get- yablogs/47421/file_1475751201967/w260h260","width":260,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1401967) w260h360":(" height":246,"path":"/get-yablogs/47421/file_1475751201967/w260h360","width":260,"fullPath":"https://avatars.mds.yandex.net/ get-yablogs/47421 /file_1475751201967/w260h360"),"w288":("висина":156"пат":"/get-yablogs/47421/file_1475751201967/w288"Path":28"wi "https:// avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288"),"w288h160":("height":160,"path":"/get-yablogs/47421/file_1967/1495 w288h160","width":288,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w288h160"),"w300":("висина":16," патека":"/ get-yablogs/47421/file_1475751201967/w300","width":292,"fullPath":"https://avatars.mds.yandex.net/get-yablogs/47421/file_1475765120) ,"w444": ("висина":246,"пат":"/get-yablogs/47421/file_1475751201967/w444","width":444,"fullPath":"https://avatars.mds.yandex. net/get-yablogs /47421/file_1475751201967/w444"),"w900":("висина":246"пат":"/get-yablogs/47421/file_1475751201967/w900"Pathful","4wid ":"https: //avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/w900"),"major620":("пат":"/get-yablogs/47421/file_14757571206",2069 fullPath":"https ://avatars.mds.yandex.net/get-yablogs/47421/file_1475751201967/major620","width":444,"height":150)))))">