Сучасні методи автоматичного розпізнавання мови. Порівняльний аналіз систем розпізнавання мовлення з відкритим кодом

15 липня 2009 о 22:16

Розпізнавання мови. Частина 1. Класифікація систем розпізнавання мовлення

Штучний інтелект

Епіграф

У Росії її напрямок систем розпізнавання мови справді розвинене досить слабко. Google давно анонсувала систему запису та розпізнавання телефонних розмов… Про системи схожого масштабу та якість розпізнавання російською мовою, на жаль, я поки не чув.

Але не треба думати, що за кордоном усі вже давно відкрили і нам їх ніколи не наздогнати. Коли я шукав матеріал для цієї серії, довелося перерити хмару зарубіжної літератури та дисертацій. Причому статті та дисертації ці були чудові американські вчені Huang Xuedong; Hisayoshi Kojima; DongSuk Yukта ін. Зрозуміло, на кому ця галузь американської науки тримається? ;0)

У Росії її знаю лише одну тлумачну компанію, якій вдалося вивести вітчизняні системи розпізнавання мови на комерційний рівень: Центр мовних технологій . Але, можливо, після цієї серії статей комусь спаде на думку, що зайнятися розробкою таких систем можна і потрібно. Тим більше, що в плані алгоритмів та мат. апарату ми мало відстали.

Класифікація систем розпізнавання мовлення

На сьогоднішній день під поняттям “розпізнавання мови” ховається ціла сфера наукової та інженерної діяльності. Загалом, кожне завдання розпізнавання мови зводиться до того, щоб виділити, класифікувати та відповідним чином відреагувати на людську мову із вхідного звукового потоку. Це може бути і виконання певної діїна команду людини і виділення певного слова-маркера з великого масиву телефонних переговорів, і системи для голосового введення тексту.

Ознаки класифікації систем розпізнавання мовлення

Кожна така система має деякі завдання, які покликана вирішувати і комплекс підходів, які застосовуються для вирішення поставлених завдань. Розглянемо основні ознаки, якими можна класифікувати системи розпізнавання людської мовиі те, як ця ознака може впливати на роботу системи.

Розмір словника.Очевидно, що чим більший розмір словника, закладеного в систему розпізнавання, тим більша частота помилок при розпізнаванні слів системою. Наприклад, словник з 10 цифр може бути розпізнаний практично безпомилково, тоді як частота помилок при розпізнаванні словника 100000 слів може досягати 45%. З іншого боку, навіть розпізнавання не великого словникаможе давати велику кількість помилок розпізнавання, якщо слова цьому словнику дуже схожі друг на друга.
Дикторозалежність або дикторонезалежність системи.За визначенням, дикторозалежна система призначена для використання одним користувачем, тоді як дикторонезалежна система призначена для роботи з будь-яким диктором. Дикторонезалежність – труднодосяжна мета, оскільки під час навчання системи, вона налаштовується параметри того диктора, з прикладу якого навчається. Частота помилок розпізнавання таких систем зазвичай у 3-5 разів більша, ніж частота помилок дикторозалежних систем.
Роздільна або злита мова.Якщо у мові кожне слово розділяється з іншого ділянкою тиші, то кажуть, що це – роздільна. Злита мова – це природно сказані пропозиції. Розпізнавання злитої мови набагато важче у зв'язку з тим, що межі окремих слів не чітко визначені і їхня вимова сильно спотворена змащуванням звуків, що вимовляються.
Призначення.Призначення системи визначає необхідний рівень абстракції, у якому відбуватиметься розпізнавання промовленої промови. У командній системі (наприклад, голосовий набір стільниковий телефон) швидше за все, розпізнавання слова чи фрази відбуватиметься як розпізнавання єдиного мовного елемента. А система диктування тексту вимагатиме більшої точності розпізнавання і, швидше за все, при інтерпретації сказаної фрази покладатиметься не тільки на те, що було сказано в поточний момент, Але й те що, як і співвідноситься про те, що було до цього. Також, у системі має бути вбудований набір граматичних правил, яким повинен задовольняти текст, що вимовляється і розпізнається. Чим суворіше ці правила, тим простіше реалізувати систему розпізнавання і тим обмеженішим буде набір пропозицій, які вона зможе розпізнати.

Відмінності методів розпізнавання мови

Під час створення системи розпізнавання мови потрібно вибрати, який рівень абстракції адекватний поставленої задачі, які параметри звукової хвилі будуть використовуватися для розпізнавання та методи розпізнавання цих параметрів. Розглянемо основні відмінності у структурі та процесі роботи різних систем розпізнавання мови.

На кшталт структурної одиниці.При аналізі мови, як базової одиниціможуть бути обрані окремі слова або частини слів, такі як фонеми, ді- або трифони, алофони. Залежно від того, яка структурна частина обрана, змінюється структура, універсальність і складність словника елементів, що розпізнаються.
По виділенню ознак.Сама послідовність відліків тиску звукової хвилі - надміру надмірна для систем розпізнавання звуків і містить багато зайвої інформації, яка при розпізнаванні не потрібна, або навіть шкідлива. Таким чином, для подання мовного сигналу з нього потрібно виділити будь-які параметри, які адекватно представляють цей сигнал для розпізнавання.
За механізмом функціонування.У сучасних системах широко використовуються різні підходидо механізму функціонування систем, що розпізнають. Імовірно-мережевий підхід полягає в тому, що мовний сигнал розбивається на певні частини (кадри, або за фонетичною ознакою), після чого відбувається імовірнісна оцінка того, до якого саме елемента словника, що розпізнається, має відношення дана частината (або) весь вхідний сигнал. Підхід, заснований на рішенні зворотного завданнясинтезу звуку, у тому, що у вхідному сигналу визначається характер руху артикуляторів мовного тракту і, за спеціальним словником відбувається визначення сказаних фонем.

UPD:Переніс до «Штучного інтелекту». Якщо буде інтерес, далі публікуватиму в ньому.

Комерційні програмиз розпізнавання мови з'явилися на початку 90-х років. Зазвичай їх використовують люди, які через травму руки не в змозі набирати велику кількість тексту. Ці програми (наприклад, Dragon NaturallySpeaking, VoiceNavigator) переводять голос користувача текст, таким чином, розвантажуючи його руки. Надійність перекладу таких програм не дуже висока, але з роками вона поступово покращується.

Збільшення обчислювальних потужностей мобільних пристроївдозволило і їм створити програми з функцією розпізнавання промови. Серед таких програм варто відзначити програму Microsoft Voice Command, яка дозволяє працювати з багатьма програмами за допомогою голосу. Наприклад, можна увімкнути відтворення музики у програвачі або створити новий документ.

Інтелектуальні мовні рішення, що дозволяють автоматично синтезувати та розпізнавати людську мову, є наступним ступенем розвитку інтерактивних голосових систем (IVR). Використання інтерактивної телефонної програми нині не віяння моди, а життєва необхідність. Зниження навантаження на операторів контакт-центрів та секретарів, скорочення витрат на оплату праці та підвищення продуктивності систем обслуговування – ось лише деякі переваги, що доводять доцільність подібних рішень.

Прогрес, однак, не стоїть на місці і останнім часом у телефонних інтерактивних програмах все частіше стали використовуватися системи автоматичного розпізнавання та синтезу мови. У цьому випадку спілкування з голосовим порталом стає природнішим, оскільки вибір у ньому може бути здійснений не лише за допомогою тонового набору, але й за допомогою голосових команд. При цьому системи розпізнавання незалежні від дикторів, тобто розпізнають голос будь-якої людини.

Наступним кроком технологій розпізнавання мови можна вважати розвиток так званих Silent Speech Interfaces (SSI) (Інтерфейсів Безмовного Доступу). Ці системи обробки мовлення базуються на отриманні та обробці мовних сигналів на ранній стадії артикулювання. Цей етапрозвитку розпізнавання мовлення викликаний двома суттєвими недоліками сучасних систем розпізнавання: надмірна чутливість до шумів, а також необхідність чіткого та ясного мовлення при зверненні до системи розпізнавання. Підхід, заснований на SSI, полягає в тому, щоб використовувати нові сенсори, не схильні до впливу шумів як доповнення до оброблених акустичних сигналів.

На сьогоднішній день можна виділити п'ять основних напрямків використання систем розпізнавання мовлення:

Голосове управління - спосіб взаємодії та управління роботою пристрою за допомогою голосових команд. Системи голосового управління малоефективні для введення тексту, проте зручні для введення команл, таких як:

Види систем

На сьогоднішній день існує два типи систем розпізнавання мови – працюючі «на клієнті» (client-based) та за принципом «клієнт-сервер» (client-server). При використанні клієнт-серверної технології мовна команда вводиться на пристрої користувача та через Інтернет передається на віддалений сервер, де обробляється та повертається на пристрій у вигляді команди (Google Voice, Vlingo, ін.); з огляду великої кількостіКористувачів сервера система розпізнавання отримує велику базу для навчання. Перший варіант працює на інших математичні алгоритмиі зустрічається рідко (Speereo Software) - в цьому випадку команда вводиться на пристрої користувача і обробляється в ньому. Плюс обробки «на клієнті» у мобільності, незалежності від наявності зв'язку та роботи віддаленого обладнання. Так, система, що працює «на клієнті» здається надійнішою, але обмежується часом потужністю пристрою на стороні користувача.

Надіслати свою гарну роботу до бази знань просто. Використовуйте форму нижче

Студенти, аспіранти, молоді вчені, які використовують базу знань у своєму навчанні та роботі, будуть вам дуже вдячні.

Розміщено на http://www.allbest.ru/

ВСТУП

Вивченням людської мови займаються давно. У ХХ століття виникає проблема автоматичного розпізнавання мови обчислювальними машинами. За півстоліття вченим вдалося нагромадити величезну кількість знань про предмет досліджень. Стало зрозуміло, що розпізнавання мови - дуже непросте завдання.

Основною технікою для багатьох систем розпізнавання мовлення є статистичний метод, званий прихованим Марківським моделюванням (HMM) Такі системи розробляються у багатьох центрах і здатні добре розпізнавання слів промови. Імовірність розпізнавання слів досягає 80 – 90 %.

Області застосування систем автоматичного розпізнавання мови найрізноманітніші. Наприклад, початку дев'яностих років у кількох американських і канадських компаніях на замовлення міністерства оборони США ведеться розробка систем розпізнавання, призначених для перехоплення телефонних переговорів. Останнім часом системи розпізнавання застосовують у комп'ютерних курсах навчання іноземної мови, системах підготовки текстових документів Перспективними напрямками є розробка систем допомоги людям з обмеженими можливостями та вдосконалення людино-машинного інтерфейсу.

Чинниками, що стримують широке використання систем автоматичного розпізнавання мови, є:

Складність реалізації в малогабаритній мобільній апаратурі через високі обчислювальні витрати і їх значну нерівномірність, а також необхідність зберігання в пам'яті великого словника (набору моделей мовних одиниць, що розпізнаються);

Значне погіршення параметрів якості за умов перешкод.

У цій роботі представлені основні засади побудови систем розпізнавання мовлення, попередньої обробки вихідного сигналу, побудови акустичних та мовних моделей, розглянуто сучасний підхід до завадостійкості систем розпізнавання. Розглядаються способи оцінки якості систем, що розпізнають.

Приділяється так само увага проблемам розробки, перспектив розвитку та безперервного вдосконалення систем, що розпізнають.

1. СИСТЕМИ РОЗІЗНАННЯ МОВЛЕННЯ

Розпізнавання мови - процес перетворення акустичного сигналу, перетвореного на електричний, на послідовність слів. Розпізнані слова можуть бути кінцевим результатом, якщо метою системи є управління, введення даних чи підготовка документа. Вони можуть також бути основою для подальшої лінгвістичної обробки для досягнення розуміння мови.

1.1 Класифікація та структура систем розпізнавання мовлення

Класифікація

Системи розпізнавання мови характеризуються безліччю параметрів, основні у тому числі наведені у таблиці 1.1.

Таблиця 1.1. Загальні параметри систем розпізнавання мовлення

Параметр	Діапазон зміни
Зв'язок	Окремі слова чи безперервна мова
	Мова за написаним текстом чи спонтанна
Підстроювання	Залежність чи незалежність від того, хто говорить
	Від малого (<20 слов) до большого(>20000)
Мовна модель	З набором станів чи залежна від контексту
Перплексність	Від малої (< 10) до большой (> 100)
	Від великого (>30dB) до малого (<10dB)

Якщо система призначена для розпізнавання окремих слів, то той, хто говорить, повинен робити між ними паузи, якщо - для безперервної мови, то ні. Спонтанна мова зазвичай містить набагато більше безладів, ніж мова читає письмовий текст, отже, її важче розпізнавати. Деякі системи вимагають підстроювання під того, хто говорить, коли користувач перед застосуванням системи повинен вимовити якісь слова або фрази для підстроювання системи, в той же час інші системи цього не вимагають. Розпізнавання загалом є складнішим завданням, коли обсяг словника великий і містить багато схожих слів.

Найпростішу модель мови можна описати мережею з певною кількістю станів. У ній безліч допустимих слів, що йдуть за кожним словом, є певним. Моделі, що наближаються до природної мови, визначаються за допомогою контекстно-залежних граматик.

Широко використовуваним показником складності завдання, розв'язуваної системою розпізнавання, є перплексність (perplexity, складність, складність, заплутаність). Перплексність визначається як число можливих слів, що йдуть за даним словом у цій мовній моделі.

Розпізнаючу систему характеризує такий параметр як максимально допустиме відношення сигнал-шум (signal to noise ratio, SNR).

Розпізнавання мови - складне завдання, в основному через велику кількість джерел, що впливають на параметри мовного сигналу:

Акустичне звучання фонем, найменших мовних одиниць, сильно залежить від навколишнього фонетичного контексту (/t/ в словах two, true, butter), в словосполученнях контекстна залежність стає ще сильнішим («освоїти виробництво», «засвоїти хороші манери»);

Акустичні варіації сигналу через відмінність акустики приміщень, характеристик та розташування мікрофона;

Фізичний та емоційний стан того, хто говорить;

Його вік, стать, соціальне становище, діалект.

Загальна структура системи розпізнавання мовлення представлена малюнку 1.1.

Малюнок 1.1 – Структура системи розпізнавання мови.

Мовний сигнал ділиться на ділянки, кожної ділянки розраховується набір параметрів. Ці параметри використовуються для пошуку відповідного слова - кандидата в межах наявних акустичних, лексичних і мовних моделей. Лексичні моделі в сучасних системах включені в мовну модель як принципи та способи створення словника на основі наявної текстової бази та пошуку у ньому. У найпростіших системах мовна модель вироджується у лексичну.

1.2 Сучасний рівень розвитку

Якість роботи системи, що розпізнає, зазвичай оцінюється за допомогою такого показника як норма помилки:

(1.1)

N - загальна кількість слів у тестовому наборі, S, I, D - відповідно кількість заміщень, вставок та видалень слів.

З дев'яностого року 20 століття технології розпізнавання мови досягнуть значний успіх. Норма помилки знижувалася приблизно вдвічі за кожні 2 роки. Були в основному подолані бар'єри залежності системи, що розпізнає, від диктора, розпізнавання безперервної мови та використання словника великого обсягу. Цьому сприяли кілька факторів:

- Використання Прихованих Марківських моделей (СММ);

Розробка стандартних правил складання мовних баз даних на навчання і тестування (TIMIT, RM, ATIS, WSJ та інших.), вони дозволяють розробникам визначати кількість акустичних реплік, важливих підкреслення фонетичних особливостей, з урахуванням статистичних методик. Стандартизація правил навчання та тестування дозволяє також порівняти продуктивність різних систем;

- Суттєве збільшення продуктивності обчислювальних систем.

Типове завдання з низьким рівнем перплексності (РР = 11) – розпізнавання цифр у стандартному телефонному каналі. Тут досягнуто норми помилки 0,3% при відомій довжині послідовності цифр.

Завданнями середнього рівня перплексності є завдання управління ресурсами, наприклад, система розпізнавання спонтанної мови для інформаційної системи повітряного руху (Air Travel Information Service, ATIS) зі словником близько 2000 слів і РР = 15 досягає норми помилки не більше 3%.

Високий рівень перплексності (РР? 200) і великий словник (близько 20000 слів) мають системи, призначені для диктування тексту. Досягнута ними норма помилки становить близько 7%.

Основними напрямками застосування систем, що розпізнають, є голосовий набір телефонного номера (наприклад «дзвоню додому» замість набору номера), підготовка документів, інформаційно-довідкові системи, системи навчання іноземної мови.

1.3 Перспективи

Перешкодостійкість

Якість роботи систем, що розпізнають, катастрофічно знижується при зростанні різниці в умовах запису навчальних мовних даних і умовах реальної роботи через різні перешкоди. Тому впливу акустичного оточення та електричних характеристик каналу передачі буде приділено особливу увагу.

Переносність

При перенесенні сучасних систем на вирішення нового завдання якість їхньої роботи сильно знижується. Для його покращення потрібне перенавчання системи. Переносність має на увазі можливість застосування системи для вирішення різних завдань з мінімальним підстроюванням.

Адаптація, підстроювання

Навіть під час експлуатації системи на вирішення однієї й тієї завдання, зовнішні умови можуть змінюватися (диктори, мікрофони тощо.). Необхідно вирішити, як змусити систему покращувати якість роботи під час експлуатації та підлаштовуватися під нові умови.

Мовні моделі

Сучасні системи використовують статистичні мовні моделі для зниження простору пошуку та вирішення невизначеності акустичної моделі. Зі зростанням обсягу словника та ослабленням інших обмежень, для створення життєздатних систем все більш важливим фактором стає визначення правил і обмежень, що накладаються синтаксисом мови, що розпізнається. При цьому чисто статистичні мовні моделі включатимуть все більше синтаксичних та семантичних правил та обмежень.

Міра довіри до гіпотез

Більшість систем, що розпізнають, для впорядкування гіпотез зіставляють кожній гіпотезі деяку вагу, число. В даний час ця вага, як правило, не є показником довіри до цієї гіпотези (тобто, ніж ця гіпотеза краща за інших). Для завдань управління необхідно удосконалювати методи оцінки достовірності гіпотез.

Слова, що не входять до словника

Системи розробляються до застосування з певним словником. Однак у реальних умовах завжди буде певний відсоток слів, які входять у словник. Повинні існувати методи визначення таких слів та його обробки.

Спонтанне мовлення

Системи, що працюють у реальних умовах, завжди стикаються з різноманітними явищами, властивими спонтанному мовленню: фальстарти, заїкуватість, неграматичні конструкції та ін. Розробка ATIS вирішила багато питань у цій галузі, але далеко не всі.

Просодія (інтонація та ритм)

Інтонація і ритмічна структура мови несуть інформацію про сенс слів, що вимовляються. Однак нині не вирішено питання про те, як інтегрувати просодичну інформацію до системи, що розпізнає.

Моделювання динаміки

Сучасні системи приймають послідовність ділянок акустичного сигналу та обробляють їх як статичні та незалежні одна від одної. Однак відомо, що сприймаються як фонеми та слова ділянки сигналу вимагають об'єднання виділених із сигналу параметрів та подання їх у динаміці. Це відбивало б динамічну артикуляцію. Як змоделювати динаміку мовного сигналу для системи, що розпізнає, - завдання не вирішене.

2. ПРЕДСТАВЛЕННЯ ВИХІДНОГО СИГНАЛУ

2.1 Принципи попередньої обробки сигналу

У заснованому на статистичних методах розпізнаванні мови вихідний сигнал піддається дискретизації з частотою від 6,6 до 20 кГц і обробляється з метою представлення його у вигляді послідовності векторів у просторі ознак, що моделюють стан мовного тракту диктора. При цьому ділянка вихідного сигналу тривалістю 10 - 25 мс, що становить 150 - 300 відліків, зазвичай сильно корелюваних між собою, розкладається в ортогональний ряд і при заданій величині помилки подається у вигляді 10 - 20 коефіцієнтів розкладання, званих параметрами.

Ці вектори параметрів у наступних кроках використовуються для оцінки вірогідності приналежності вектора або послідовності векторів фонем або ціле слово при перевірці гіпотези про приналежність.

У більшості систем процеси векторного подання сигналу та оцінки ймовірності тісно пов'язані. Тому передбачається, що й операція чи процедура застосовується до мовного сигналу - вона належить до етапу уявлення. Якщо вона застосовується для перевірки гіпотези, вона - частина етапу розрахунку відповідності.

Мета етапу представлення сигналу - збереження всієї корисної інформації, необхідної для фонетичної ідентифікації ділянки мовного сигналу, що розглядається. У той самий час уявлення має бути максимально несприйнятливим до таких чинників як різницю між дикторами, особливості каналів зв'язку, емоційний стан. Подання так само має бути якомога компактнішим.

Використані в сучасних системах уявлення більшою мірою відображають властивості мовного сигналу, зумовлені формою голосового тракту, ніж сигналом збудження (основний тон, що формується гортанню та голосовими зв'язками). Уявлення лише визначають, вібрують чи ні голосові зв'язки, тобто. чи є звук вокалізованим.

Подання, що використовуються, майже завжди є похідними від обмеженого енергетичного спектру, спектральної щільності потужності сигналу.

де x1, …, xl, …, xn – вихідна послідовність відліків у сегменті; S(ejщ) – спектральні коефіцієнти. Застосування енергетичного спектра є доцільним, оскільки вухо нечутливе до фази акустичного сигналу .

Крім того, для енергетичного спектру майже завжди використовується логарифмічне уявлення. Це дозволяє знизити занадто сильні перепади параметрів при значних коливаннях амплітуди сигналу, а також перетворити мультиплікативні акустичні ефекти та перешкоди від обладнання, що використовується в адитивні перешкоди. Недоліком логарифмічного уявлення є невизначеність логарифму нуля. Це вимагає обмеження мінімуму шкали амплітуд сигналу деяким ненульовим значенням і обмеження самого сигналу знизу для уникнення надмірної чутливості до спектральних складових з низькою енергією, що є переважно шумовими. .

Малюнок 2.1 - Подання мовного сигналу для розпізнавання

До розрахунку спектра сигнал зазвичай проходить попередню фільтрацію, що забезпечує зростання посилення сигналу при збільшенням частоти з крутістю 6 дБ/октаву для компенсації ослаблення електричного тракту. Далі вихідний сигнал ділиться на послідовні ділянки, що накладаються одна на одну, зазвичай 25 мс довжини, оброблювані дзвоноподібною функцією для зниження амплітуди сигналу по краях ділянки. Після цього розраховується спектральна щільність потужності.

Отриманий енергетичний спектр має небажану гармонійну складову частоті основного тону. Ця складова може бути зменшена угрупуванням сусідніх наборів спектральних складових до утворення групи близько 20 смуг перед розрахунком логарифму потужності. Ці смуги часто робляться послідовно дедалі ширшими з різницею 1 кГц. Можливе також застосування набору цифрових фільтрів. Результати - подібні.

Ще більш знижує кореляцію сусідніх відліків у вихідному сигналі є кепстральне уявлення сигналу. Тут передбачається, що мова є сигналом на виході лінійної системи з параметрами, що повільно змінюються - голосового тракту, що збуджується або послідовністю імпульсів основного тону, або шумом. Аналіз мовного сигналу у разі полягає у розрахунку параметрів голосового тракту за виміряними параметрами мовного сигналу та оцінці їх із часом. Оскільки сигнал збудження x(n) і імпульсна характеристика фільтра h(n) взаємодіють через операцію згортки, завдання аналізу сприймається як завдання поділу компонент, що у операції згортки. Таке завдання називається завданням зворотного згортки або розгортки. Для її вирішення необхідно знайти наступний гомоморфізм: C(x(n)*h(n)) = C(x(n)) + C(h(n)). Цей гомоморфізм може бути здійснений за допомогою наступного перетворення:

c(n) = F-1(ln[ |F(x(n))| ]),(2.2)

яке називається кепстром дискретного сигналу x(n), F і F-1 - відповідно пряме та зворотне дискретне перетворення Фур'є.

З такою ж моделлю формування мовного сигналу пов'язане авторегрессионное уявлення сигналу (лінійне передбачення, LPC). Коефіцієнти авторегресії розраховуються з умови безпосередньої мінімізації кореляції між близькими відліками мовного сигналу x(ti):

Різні розробники використовують на початковому етапі розрахунку параметрів сигналу різні моделі, енергетичний спектр або авторегресію, наприклад, у телефонії зазвичай застосовується авторегресія, так як у всіх сучасних телефонних вокодер розраховуються саме ці параметри. У обчислювальних системах зазвичай розраховується спектр, оскільки компоненти його розрахунку можуть бути використані іншими додатками. Надалі проводиться розрахунок кепстральних коефіцієнтів Сi, як найбільше відповідають задачі розпізнавання . Розрахунок кепстру через авторегресію в обчислювальному плані економічніший, що добре для обмежених ресурсів телефонії. Для комп'ютерів такого жорсткого обмеження немає, але важлива універсальність та можливість повторного використання коду, тому краще – спектр. Деякі системи розраховують так само динаміку змін параметрів сигналу дСi всередині ділянки сигналу між сусідніми ділянками.

Різні незмінні зовнішні чинники, такі як характеристики конкретного телефонного з'єднання, виявляються як постійна складова (зміщення) спектра чи кепструму. Різнисті, динамічні параметри дСi не схильні до таких ефектів. Якщо динамічні параметри першого порядку пропустити через інтегратор, буде відновлено величини, близькі вихідним, статичним параметрам Сi. Подібна техніка, застосована до послідовностей коефіцієнтів енергетичного спектру, до взяття логарифму, придатна для зниження перешкоди у вигляді стаціонарного або аддитивного шуму, що повільно змінюється.

Оскільки кепстральні коефіцієнти майже некорельовані, обчислювально ефективний метод отримання досить хороших ймовірнісних оцінок у процесі пошуку відповідності полягає у обчисленні евклідових відстаней до відповідних векторів моделей. Розрахунок відстаней проводиться після відповідного зважування коефіцієнтів (параметрів). Існує безліч способів зважування, що об'єднуються у два основні класи: емпіричні та статистичні.

Існують методики, що комбінують перелічені методи і дозволяють майже повністю прибрати кореляцію параметрів, однак, через зростання обчислювальних витрат, що використовуються для демонстраційних цілей .

2.2 Перспективи

В даний час вивчається можливість застосування на етапі подання вихідного сигналу вейвлет перетворень та нейромережевих методів, що дозволяють проводити нелінійні операції з вихідним сигналом або результатами інших перетворень. Продовжується розробка уявлень, які більш точно відображають акустику приміщення, а також відновлюють артикуляцію за мовним сигналом.

Сучасні способи представлення сигналу використовують лише форму спектра, не враховуючи частоту основного тону. Однак відомо, що навіть у розпізнаванні окремих слів частота основного тону може бути ключем до лексичної ідентифікації слів. Це стосується не тільки тональних мов, як китайської, а й європейської, оскільки ця частота пов'язана з лексичним наголосом. У зв'язному мовленні основний тон несе інформацію про синтаксичну структуру пропозиції та настрої того, хто говорить. Дослідження у цій галузі триватимуть.

3. ПЕРЕШКОДСТАВЛИВЕ РОЗІЗНАВАННЯ МОВЛЕННЯ

3.1 Визначення завадостійкості

Перешкодостійкість (робастність) у розпізнаванні мови пов'язана з необхідністю забезпечення достатньої точності при дестабілізуючих факторах:

При низькій якості вхідного мовного сигналу,

При суттєвих для акустичних, артикуляторних та фонетичних характеристик мовлення відмінностях між умовами навчання та тестування (роботи).

Джерелами цих факторів є:

Акустичні перешкоди у вигляді адитивного шуму,

Явлення лінійної фільтрації,

Нелінійні спотворення при перетвореннях та передачі вихідного сигналу,

Імпульсні перешкоди,

Зміни в артикуляції диктора, спричинені наявністю джерел шуму.

У сучасних системах, призначених для роботи в сприятливих акустичних умовах, багато в чому досягнуто незалежності від диктора, вони компенсують деяке погіршення сигналу через шум і невідому лінійну фільтрацію. Однак для додатків, що працюють у реальних умовах, необхідність підвищення стійкості очевидна. Навіть найкращі сучасні системи значно погіршують якість роботи, якщо сигнал пройшов через телефонний канал або якщо диктор говорить з акцентом. Далі розглядається стійкість до спотворень сигналу, викликаним навколишніми, зовнішніми джерелами перешкод. Основними підходами до робастності є динамічне підстроювання параметрів, застосування мікрофонних матриць, обробка сигналу з урахуванням психологічних моделей сприйняття.

3.2 Динамічний підстроювання параметрів

Зазвичай моделі адаптації систем до зміни навколишніх умов припускають, що джерелами погіршення якості промови є адитивний шум з невідомим розподілом спектральної щільності потужності або поєднання адитивного шуму та лінійної фільтрації. Для компенсації цих перешкод у системі може здійснюватися динамічна підстроювання акустичних параметрів як розрахованих з вхідного сигналу, що розпізнається, так і збережених системою акустичних моделей висловлювань. Існують три основні підходи до динамічного підстроювання параметрів:

Використання оптимальної оцінки для отримання нових значень параметрів в умовах тестування,

Застосування компенсації, заснованої на емпіричному порівнянні мовного сигналу в умовах навчання та тестування,

Високочастотне фільтрування значень параметрів.

Оптимальна оцінка параметрів

Використовуються два основних підходи до оптимальної оцінки.

Перший заснований на формальній статистичної моделі, Що характеризує різницю між мовою, що використовується при навчанні системи та мовленням при тестуванні системи. Значення параметрів моделей оцінюються за тестовими зразками мови, записаними в різному оточенні, після чого модифікуються або розраховані параметри вхідного сигналу, або акустичні моделі мовних одиниць, що зберігаються в системі. Досліди показують, що за такого підходу істотно знижується кількість помилок при розпізнаванні мовного сигналу з адитивним шумом. Однак скільки-небудь серйозно протистояти погіршенню якості мови у реальних умовах цей підхід нездатний.

Другий популярний підхід полягає у використанні знань про шум, щоб змусити фонетичні моделі характеризувати мову з шумом. Знання виходять із наявних зразків перешкод і використовуються для підстроювання параметрів фонетичних моделей (змін середніх значень та відхилень), розрахованих з мови без перешкод. Цей підхід реалізований у техніці, яка називається паралельним комбінуванням моделей. Він дає хороші результати для адитивних, мультиплікативних перешкод та реального мовного сигналу. Однак нині надто великі обчислювальні витрати перешкоджають його застосуванню у системах розпізнавання.

Емпіричне порівняння параметрів

Порівнюються параметри, витягнуті з промови без перешкод із параметрами такої ж промови, записаної з перешкодами. У цьому підході спільна дія різних перешкод сприймається як адитивні порушення параметрів сигналу. При порівнянні параметрів розраховуються вектори, що коригують, використовуються потім для корекції або векторів параметрів вхідного розпізнаваного сигналу, або векторів параметрів акустичних моделей, що зберігаються в системі, що розпізнає.

Точність розпізнавання підвищується, якщо коригувальні вектори вважаються залежать від: відношення сигнал/шум, розташування в просторі параметрів у межах заданого відношення сигнал/шум, або передбачуваного відповідності фонем.

Цей загальний підхід може бути поширений на випадки, коли тестове оточення невідоме апріорі шляхом формування ансамблю коригувальних векторів для безлічі різних тестових зовнішніх умов. Вектори, що коригують, потім послідовно застосовуються до моделей мови, починаючи з імовірно найбільш ймовірного вектора, до знаходження найбільш точної відповідності вектору, отриманому з вхідного сигналу.

Якщо умови розрахунку коригувальних векторів близькі до реальних умов роботи системи, якість її роботи досить висока. Недоліком є необхідність використання стерео запису для створення бази даних акустичних моделей.

Застосування фільтрів верхніх частот

Використання високочастотної або смугової фільтрації при розрахунку кепстральних коефіцієнтів дозволяє при мінімумі витрат значно підвищити стійкість до перешкод системи. Цей метод реалізований алгоритмах RASTA і CMN. Ці алгоритми зараз застосовуються практично у всіх системах, де необхідна завадостійкість.

3.3 Використання матриць мікрофонів

Додаткове поліпшення точності розпізнавання при малому співвідношенні сигнал/шум можна досягти з використанням матриці мікрофонів. Така матриця в принципі може реалізувати спрямовану чутливість з характеристикою, що має максимум у напрямку диктора та мінімуми - у напрямку джерел перешкод, аналогічно фазованій антеною решітці радіозв'язку. Змінюючи фазування окремих елементів за допомогою суматорів та ліній затримки, можна точно налаштувати характеристику спрямованості за зміни умов роботи. Одночасно застосовуються алгоритми компенсації спектрального забарвлення, яке вносить сама матриця. Досліди з мікрофонною матрицею в офісній обстановці показали зменшення норми помилки до 61% для перешкоди як джерела адитивного шуму.

Незважаючи на те, що матриця ефективна при перешкоді у вигляді адитивного, незалежного шуму, вона значно погіршує показники за наявності безлічі поверхонь, що відбивають, коли перешкода - злегка затримана і ослаблена частина корисного сигналу.

Більш просунуті системи для компенсації перешкод, пов'язаних із затримкою сигналу, використовують для управління матрицею алгоритми, що ґрунтуються на взаємній кореляції. Ці алгоритми здатні посилювати акустичне поле у певних напрямках. Тим не менш, вони лише трохи покращують показники системи в порівнянні з простими алгоритмами затримки та підсумовування.

3.4 Психологічно обґрунтована обробка сигналу

Обробка вихідного мовного сигналу з урахуванням психологічних моделей сприйняття імітує різні аспекти сприйняття мови. Такі системи обробки зазвичай включають набір смугових фільтрів, що імітують частотну чутливість слуху людини, за якими йдуть пристрої нелінійної обробки сигналу в каналах між каналами.

Недавні оцінки систем розпізнавання показують, що моделі, що імітують сприйняття, забезпечують кращу точність розпізнавання, ніж традиційний кепструм, і в умовах перешкод, і при різниці в умовах навчання і тестування. Однак ці моделі за показником якості поступаються алгоритмам динамічного підстроювання параметрів, крім того, динамічне підстроювання - менш затратне.

Можливо, що програш імітаційних моделей пов'язаний із застосуванням для класифікації Прихованих Марківських моделей, які виявляються погано пристосованими для роботи з параметрами. Ряд дослідників також вважає, що ще не знайдено оптимальний набір параметрів, що розраховується за допомогою цих моделей і максимально точно характеризує мовний сигнал. Тому цей напрямок продовжує привертати пильну увагу дослідників.

3.5 Перспективи

Незважаючи на очевидну важливість, робастність у розпізнаванні мови лише нещодавно привернула увагу дослідників. Значного успіху досягнуто лише умов досить «дружніх» перешкод, таких, як адитивний шум чи лінійна фільтрація. Незалежність систем від диктора зараз поширюється лише носіями мови. Для людей, які говорять з акцентом, точність розпізнавання істотно нижча, навіть під час підстроювання під диктора.

Мова телефоном

Розпізнавання телефонної мови утруднено, оскільки кожен телефонний канал має відношення сигнал/шум і частотну характеристику. Крім того, спотворення мови може бути викликане короткочасною інтерференцією чи нелінійностями. Програми для роботи в телефонних лініях повинні бути здатні адаптуватися до різних каналів за малої кількості даних про канал.

Оточення з високим рівнем шуму

Навіть при використанні різних методик компенсації шуму, точність розпізнавання істотно падає при відношенні сигнал/шум нижче 15 дБ, тоді як людина здатна чудово чути мову при значно нижчому відношенні.

Перехресна перешкода

Вплив інших розмов, наприклад, в одному приміщенні або наведення по сусідньому телефонному каналу, значно складніше завдання, ніж широкосмугова шумова перешкода. Досі зусилля щодо використання інформації, що відрізняє розпізнаване мовлення від заважає, до суттєвих результатів не привели.

Швидка адаптація до акценту у мові

У сучасному суспільстві, що швидко змінюється, серйозні мовні додатки повинні однаково добре розуміти як людей, які говорять без акценту, так і з акцентом.

Розробка принципів створення мовних баз даних

Прогрес у завадостійкому розпізнаванні залежатиме також від розробки принципів створення мовних баз даних і безпосередньо від створення таких баз даних. Для цього необхідно зібрати, обробити та структурувати безліч зразків спотворень та перешкод, властивих практичним завданням.

4. АКУСТИЧНІ МОДЕЛІ

4.1 Місце акустичної моделі у системі

Сучасні системи розпізнавання мови реалізовані головним чином як програмні продукти, що генерують гіпотези про послідовності слів, що вимовляються, за вхідним сигналом. Алгоритми, що використовуються в таких системах, засновані на статистичних методах.

Вектор yt акустичних параметрів розраховується за вхідним сигналом кожні 10-30 мс. Послідовності цих векторів розглядаються як послідовності, що спостерігаються, генеровані фонетичними моделями. Виходячи з цього, розраховується ймовірність p(ylT/W) спостереження послідовності векторів ylT при виголошенні послідовності (слова) W, іншими словами - ймовірність генерування послідовності ylT моделлю W. Задавшись послідовністю ylT, можна в ході пошуку за правилом:

знайти найімовірнішу послідовність слів, що згенерувала ylT. Ця пошукова процедура знаходить послідовність слів, що має максимальну апостеріорну ймовірність. Імовірність p(ylT/W) розраховується акустичною моделлю, а p(W) – мовною моделлю.

Для систем із великим словником пошук складається із двох етапів. На першому, у ході розрахунку приблизних ймовірностей у реальному масштабі часу за спрощеними моделями, генерується грати з n кращих послідовностей слів. На другому етапі розраховуються точніші ймовірності при обмеженій кількості гіпотез. Деякі системи генерують можливу послідовність слів за крок.

4.2 Акустичні моделі на основі ланцюгів Маркова

Акустичні моделі є елементарними моделями ймовірнісних базових лінгвістичних одиниць (тобто фонем) і використовуються для представлення одиниць наступного рівня - слів.

Послідовність акустичних параметрів, отримана зі сказаної фрази, сприймається як реалізація сукупності процесів, що описуються за допомогою Прихованих Марківських моделей (СММ). СММ – сукупність двох випадкових процесів:

Прихованого ланцюга Маркова, що відповідає за зміни в часі,

Безліч спостережуваних стаціонарних процесів, що відповідають за спектральні зміни.

СММ довела на практиці, що може справитися з основними джерелами неоднозначності мовного сигналу, наприклад варіаціями у вимовленні фонеми, дозволяючи при цьому створювати системи зі словником з десятків тисяч слів.

Структура СММ

Модель окреслюється пара випадкових процесів (Х, У). Процес Х - ланцюг Маркова першого порядку, реалізації якого немає безпосередньо. Реалізації процесу У беруть свої значення з простору акустичних параметрів, що спостерігаються безпосередньо, а їх розподіли залежать від реалізацій процесу Х .

СММ характеризується двома формальними припущеннями. Перше стосується ланцюга Маркова і свідчить, що таке стан ланцюга визначається лише поточним станом і залежить від попередньої траєкторії. Друге свідчить, що поточний розподіл процесу У, звідки береться значення акустичного параметра, залежить тільки від поточного стану ланцюга Маркова (процесу Х), а не від попередніх траєкторій процесів Х і У.

У додатку 1 наведено математичне визначення моделі, приклад генерування послідовності, що спостерігається, і розрахункові формули.

Для переоцінки параметрів моделі в ході її навчання використовується алгоритм Баума-Велша, що ґрунтується на переоцінці ймовірності за формулою Байєса.

СММ можна класифікувати за елементами матриці, які за своєю природою є функціями розподілу.

Якщо функції розподілу визначені кінцевому просторі, то модель буде дискретною. У цьому випадку спостерігається реалізація - вектор значень кінцевого алфавіту в М елементів. Для кожного елемента вектора Q, що вибирається з множини V, визначено ненульову дискретну щільність (w(k)/k=1,…,M), що формує розподіл. Таке визначення передбачає незалежність елементів множини V.

Якщо розподіли визначені як щільність ймовірності на безперервному просторі, то модель буде безперервною. У цьому випадку до функцій розподілу пред'являються вимоги з метою обмеження кількості параметрів, що оцінюються, до прийнятних меж. Найбільш популярний підхід полягає у використанні лінійної комбінації щільностей g із сімейства G стандартних розподілів із простою параметричною формою. Зазвичай як g використовується багатовимірний нормальний розподіл, що характеризується вектором математичного очікування та матриці коваріації. Число стандартних розподілів, що беруть участь у лінійній комбінації при формуванні результуючого розподілу, зазвичай обмежується обчислювальними можливостями та наявним обсягом навчальних даних.

Налаштування параметрів розподілу під час навчання безперервної моделі потребує великої кількості навчальних зразків. При їх недоліку вдаються до використання псевдонеперервної моделі, в якій для формування лінійної комбінації використовується стандартний набір базових густин. Лінійні комбінації відрізняються одна від одної лише ваговими коефіцієнтами. Загальний підхід полягає у зв'язуванні кожної координати вхідного вектора зі своїм набором базових щільностей, що відрізняється від інших.

4.3 Моделювання слів

Фонетична декомпозиція

Слово зазвичай представляється мережею фонем. Кожен шлях у мережі представляє варіант вимови слова.

Одна і та ж фонема, сказана в різних контекстах, може мати різні акустичні параметри, а значить моделюватися різними розподілами. Алофони – моделі, що представляють фонему в різних контекстах. Рішення, скільки алофонів будуть представляти конкретну фонему, залежить від багатьох факторів, основний з яких - кількість навчальних даних для налаштування параметрів акустичної моделі.

Існує кілька різновидів алофонної моделі. Одна з них – поліфони. У принципі проголошення фонеми відрізняється у всіх словах, де вона зустрічається, тому потребує різних алофонів. При великому обсязі словника навчити таку модель практично неможливо через нестачу навчальних даних. Тому використовується уявлення алофонів на кількох рівнях деталізації: слово, склад, трифон, дифон, контекстно-незалежна фонема. Імовірнісні розподіли алофонів на різних рівнях деталізації можуть бути одержані комбінуванням розподілів більш детальних рівнів уявлень. Втрата особливостей компенсується поліпшенням оцінки статистичних параметрів моделі при її навчанні завдяки зростанню відношення обсягу навчальних даних до оцінюваних параметрів моделі.

Інший різновид полягає в кластеризації алофонів за деякою кількістю можливих класів контекстів. Пошук класу проводиться автоматично за допомогою класифікаційно-регресійного дерева (CART). Це - бінарне дерево, що в корені знаходиться фонема, з кожним вузлом асоційовано питання про контекст типу: «Попередня фонема носова згодна?» Для кожної можливої відповіді (так, ні) існує гілка до іншого вузла. Листя дерева є алофони. Існують алгоритми зростання та обрізки CART, що автоматично пов'язують із вузлами питання зі створеного вручну пула .

Кожен алофон у системах розпізнавання моделюється за допомогою СММ. Загалом, всі моделі можуть бути побудовані з використанням розподілів, взятих з одного пулу, що розділяється, або до декількох тисяч кластерів, званих сенонами.

Моделі алофонів вищого рівня, наприклад слів, можуть бути побудовані конкатенацією базових моделей за допомогою сполучних переходів і розподілів. Такі будівельні блоки називають фенонами та мультонами.

Інший підхід до моделювання слів полягає у використанні кодової книги - набору еталонних ознак, що є її словами. По вхідному вектору параметрів сигналу знаходиться найближча еталонна ознака кодової книги, якому відповідає свій номер. Для кодової книги використовується стандартний набір базових густин, слова представляються послідовностями номерів ознак. Кожна послідовність номерів потім моделюється за допомогою СММ.

Визначення кордонів та ймовірностей слів

Загалом, мовний сигнал та її уявлення не дають чітких вказівок межі між словами, отже, визначення кордону слів є частиною процесу висування гіпотези, виконуваного як пошук. У ході цього процесу моделі слів порівнюються із послідовністю акустичних параметрів. У ймовірнісних рамках порівняння акустичних послідовностей із моделями включає розрахунок ймовірності генерування даної послідовності цією моделлю, тобто. розрахунок p(ylT/W). Це – ключова складова процесу розпізнавання.

При заданій часовій послідовності: 1, 2, …, t, t+1, …, T-1, T :

Імовірність dt(i) того, що на момент t спостерігалася послідовність o1,o2…ot і модель перебуває у стані Si (forward algorithm):

всім 1?i?N, 1?j?N, t = 1,2,…,T-1:

при t = 1: d1(i) = pi bi(o1);(4.2)

при t> 1: dt(j) = .(4.3)

Імовірність ft(i) спостереження послідовності ot+1,ot+2,…oT починаючи з моменту t+1до Т за умови, що у момент t модель перебуває у стані Si (backward algorithm):

всім 1?i?N, 1?j?N, t = T-1,T-2,…,1:

при t = T: fT(i) = 1; (4.4)

при t< T: ft(i) = .(4.5)

Повна ймовірність того, що модель за Т тактів пройде якусь траєкторію (імовірність відповідності послідовності та моделі) можна розрахувати трьома способами:

P(O/л) = ;(4.6)

P(O/л) = ;(4.7)

P(Q/л) = dt(i) ft(i) = .(4.8)

Приклад розрахунку ймовірності наведено у додатку 2.

Для розрахунків використовуються моделі у вигляді лінійної послідовності станів, що мають початок та кінець. Переходи можливі тільки на місці та від початку до кінця без перескоку через стани. Перед розрахунком відповідності вихідна послідовність векторів параметрів поділяється на сегменти, що рівні за довжиною даної моделі.

4.4 Перспективи

Досягнуті останніми роками значні успіхи в акустичному моделюванні дозволили реалізувати хорошу якість розпізнавання під час використання великого словника у реальному масштабі часу, у своїй витрачаючи прийнятну кількість ресурсів. Проте існує низка аспектів, які потребують поліпшення. Насамперед це стосується адаптації до різних дикторів та різного акустичного оточення, у тому числі і за наявності перешкод. Існують також труднощі з обробкою заїкувань, фальстартів, відсутніх у словнику слів та інших особливостей, властивих спонтанної мови.

Основними напрямками сучасних дослідженьє акустична завадостійкість, покращення систем акустичних параметрів та моделей, робота з великим лексиконом, підтримка кількох контекстів та кількох мов, розробка методів автоматичного навчання систем.

5. МОВНІ МОДЕЛІ

5.1 Місце мовної моделі у системі

Системи розпізнавання мови перетворять акустичний сигнал в орфографічне уявлення висловлювання, що вимовляється. Розпізнавач будує гіпотези, користуючись кінцевим словником. Для простоти передбачається, що слово однозначно визначається своєю вимовою.

Значного прогресу у вирішенні проблеми розпізнавання досягнуто з початком використання статистичної моделі. спільного розподілу p(W,O) послідовності слів W, що вимовляються, і відповідної акустичної послідовності О. Цей підхід вперше був застосований компанією IBM під назвою “source-channel model” (модель джерело-канал). У ній визначається оцінка відповідності обраної словникової послідовності акустичному факту, що спостерігався, за допомогою апостеріорного розподілу p(W/O) .

Для мінімізації помилки система вибирає словникову послідовність, що максимізує цей апостеріорний розподіл:

де p(W) - ймовірність послідовності слів W, p(O/W) - ймовірність спостереження акустичної послідовності При виголошенні послідовності слів W, p(O) - повна ймовірність спостереження послідовності Про всі наявні акустичні моделі. p(O/W) = p(ylT/W) = P(O/ л) і розраховується на етапі акустичного моделювання за допомогою СММ і називається каналом. p(O) належить рівною 1. Апріорна ймовірність p(W) розраховується за допомогою мовної моделі (ЯМ).

Аналогічна модель розпізнавання застосовується для розпізнавання друкованих та рукописних текстів.

5.2 Мовна модель на основі триграм

Для заданої послідовності слів W=(w1,…,wn) її ймовірність можна як:

w0 визначається придатним забезпечення початкових умов. Імовірність кожного наступного слова wi залежить від послідовності hi. За такого визначення складність моделі зростає експоненційно зі зростанням сказаної послідовності слів. Щоб спростити модель, зробивши її придатною для практики, передбачається, що деякі аспекти історії впливають на ймовірність наступного слова. Один із способів досягти цього - використовувати деяку операцію ц(), що поділяє історичний простір на К еквівалентних класів. Далі можна застосувати модель:

Найбільшого успіху в останні 20 років досягнуто за допомогою простих моделей n-грам. Найчастіше застосовуються триграми, де лише два попередні слова визначають ймовірність наступного слова. І тут ймовірність послідовності слів виглядає так:

Для оцінки апріорних ймовірностей p(W) ЯМ необхідний великий обсяг текстуального матеріалу, що навчає. У ході оцінки розраховуються частоти:

де с123 – число появи послідовності слів (w1, w2, w3), с12 – число появи послідовності (w1, w2,). Для словника обсягу V існує V3 можливих триграм, за словника 20 тис. слів - 8 трлн. Очевидно, що багато з цих триграм не зустрінуться в навчальних послідовностях, тому для них f3(w3/w1, w2) = 0. Щоб відповідні ймовірності не дорівнювали нулю, проводиться лінійна інтерполяція частот триграм, біграм і слів, а також їх рівномірний розподілна словнику:

f1() і f2() оцінюються підрахунком відповідних біграм та триграм. Коефіцієнти лінійної інтерполяції оцінюються пошуком максимуму ймовірності для нових даних, що не брали участь у підрахунку частот n-грам. При максимізації використовується forward-backward алгоритм (формули (4.2) - (4.5)).

У випадку може використовуватися більше одного л вектора. Так само доцільно врахувати більшу довіру частот триграм, оціненим на більшій кількості навчальних послідовностей. Для цього вагові коефіцієнти л робляться залежними від груп біграм і слів b(c12, c2), що становлять історію для аналізованого слова. Цей метод називається deleted interpolation. Застосовуються й інші схеми, що згладжують. При моделюванні мови за допомогою триграм обсяг словникових даних зазвичай коливається від 1 млн. до 500 млн. слів за відповідного обсягу словника від 1 тис. до 267 тис. слів.

5.3 Складність (перплексність)

Для порівняння систем, що розпізнають, можна використовувати норму помилки. Цей показник найкраще оцінює мовні моделі. Проте є менш витратний спосіб оцінки ЯМ. У ньому використовується величина, що характеризує кількість інформації – ентропія. Ідея полягає у розрахунку ентропії для нового, який не використовувався при створенні моделі тексту. Порівнюється словникова ентропія, розрахована безпосередньо з тексту, з ентропією, розрахованої по ЯМ. Та ЯМ, чия ентропія буде найближчою до текстової, і буде найкращою.

Позначимо як р(х) правильний розподіл ймовірності слів у сегменті тексту х, що складається з слів. Визначимо ентропію тексту за словниковим базисом як:

Якщо слова тексті рівноймовірні, а розмір тексту - V, тоді H=log2V, інших розподілів H?log2V. Для визначення ймовірності у сегменті тексту можна використовувати ЯМ. Значення логарифму ймовірності для ЯМ становить:

де pЮ(wi/hi) – ймовірності, визначені даною ЯМ. Межа, тобто. розрахований за ЯМ, - не нижче за ентропію тексту. Очевидно, що мета порівняння різних ЯМ – знайти таку, для якої логарифм ймовірності, розрахований за ЯМ, буде найближчим до ентропії, розрахованої за текстом.

Перплексність характеризує рівень логарифму ймовірності ЯМ та визначається як 2lp. Грубо кажучи, це – середній обсяг словника, з якого вибирається чергове словопри розпізнаванні. Перплексність залежить від мовного домену, що використовується. Значення перплексності для деяких мовних доменів наведено у таблиці 5.1.

мова розпізнавання акустичний мовний

Таблиця 5.1. Перплексність мовних доменів

5.4 Обсяг словника

Норма помилки може бути нижче, ніж відсоток сказаних слів, які входять у словник. Тому основна частина побудови ЯМ полягає у розробці словника, що максимально охоплює тексти, які, ймовірно, розпізнаватиме система. Це залишається завданням, яке вирішується людьми.

При створенні словника спочатку підбираються тексти, що характеризують завдання, з яким працюватиме система. Потім тексти за допомогою засобів автоматизації поділяються на слова. Далі кожному слову зіставляється набір варіантів вимови, включаючи можливі майбутні варіанти. Всі одержані варіанти вимови використовуються для складання триграм.

У таблиці 5.2 наводиться відсоток охоплення системою, що розпізнає, нових текстів в англійській мові, при використанні словника фіксованого обсягу. У мов з великою кількістю форм слова та залежностями у словотворі (німецька, французька), для такого ж ступеня охоплення потрібен словник значно більшого розміру.

Більш раціональний підхід передбачає складання персоніфікованого словника для кожного користувача системи розпізнавання на додаток до фіксованого словника. Таблиця 5.2 представляє зростання охоплення нових слів такою, що динамічно налаштовується системою при початковому, фіксованому обсязі словника 20 тис. слів. Дані порівнюються із системою, що використовує статичний словник того ж обсягу при розпізнаванні тексту представленої довжини.

Таблиця 5.2. Якість розпізнавання нових текстів

5.5 Удосконалені мовні моделі

Існує безліч удосконалень ЯМ на основі триграми. Основні їх згадані нижче .

Моделі класів

Замість слів у мовній моделі можна використовувати набір класів слів. Класи можуть перетинатися, оскільки слово може належати різним класам. Класи можуть ґрунтуватися на частинах мови, морфологічному аналізі слова, можуть визначатися автоматично за статистичними зв'язками. Загальна модель класів виглядає так:

де ci – класи. Якщо класи не перетинаються, то:

Перплексність такої моделі вища, ніж у заснованої на триграмах, проте вона знижується при комбінуванні моделей цих двох типів.

Динамічні моделі

Тут враховується минуле, тривалістю на весь документ. Це робиться для виявлення слів, що часто зустрічаються (наприклад, у цьому тексті часто зустрічається слово «модель»). Використання КЕШ для таких слів дозволяє надати ЯМ велику динаміку, скорочуючи час пошуку.

Комбінаційні моделі

Ще один підхід полягає у розподілі всієї мовної бази на кілька кластерів. Для моделювання нового тексту використовується лінійна комбінація триграмних моделей із різних кластерів:

де pj() оцінюється по j - му текстовому кластеру.

Структурні моделі

У цих моделях замість впливу на ймовірність слова найближчої попередньої історії використовується синтаксичний розбір. За допомогою такого аналізу встановлюється зв'язок між віддаленими словами, що нещодавно було запропоновано враховувати при складанні віддалених біграм.

5.6 Перспективи

Основними областями, де зараз зосереджені зусилля, є:

Вибір словника

Як визначити словник нового мовного домену, практично персоналізувати словник користувача, зробивши охоплення тексту максимальним. Ця проблема найбільш суттєва для мов із великою кількістю форм слова та східних мов, де поняття слова визначено нечітко.

Адаптація мовного домену

Це завдання налаштування ефективної ЯМ для доменів, які не мають великого обсягу словникових даних, доступних машині, а також визначення теми розмови. Це дозволило б застосувати для розпізнавання мовлення специфічну, тематичну модель.

Використання структури мови

Сучасний рівень оцінки якості роботи системи не дозволяє покращувати роботу системи, використовуючи структуру мови. Розробка мовної моделі, що базується на структурі мови, може стати ключем до прогресу в мовному моделюванні. Сучасні досягнення, засновані на ймовірнісних моделях, відбивають дитячий етап у розвитку моделювання мови. Прогрес тут пов'язаний із зростанням структуризації даних.

ВИСНОВОК

У цій роботі розглянуто основні принципи побудови систем розпізнавання мовлення на етапі розвитку, їх класифікація, розв'язувані ними завдання. Розглянуто сучасний підхід до завадостійкості систем.

Представлено структуру системи, основні завдання, які її компоненти вирішують, принципи попередньої обробки вихідного сигналу, побудови акустичних і мовних моделей,

Подібні документи

Цифрова обробка сигналів та її використання у системах розпізнавання мовлення, дискретні сигнали та методи їх перетворення, основи цифрової фільтрації. Реалізація систем розпізнавання мови, гомоморфна обробка мови, інтерфейс запису та відтворення.

дипломна робота , доданий 10.06.2010

Переваги радіоканальних охоронних систем. Основні напрями кодування мови: кодування форми (Waveform coding) та джерела сигналу (Source coding). Структурна схема процесу обробки мови у стандарті GSM. Оцінка якості кодування мови.

реферат, доданий 20.10.2011

Завдання при передачі мови та даних. Цифрова передача мови. Категорії методів цифрового кодування мовлення. Кодери форми сигналу. Вид амплітудної характеристики компресора. Дискретна модель мовлення. Особливості методу короткочасного аналізу.

контрольна робота , доданий 18.12.2010

Розгляд основних етапів у розв'язанні задачі оптимізації прийому сигналу. Вивчення методів фільтрації та оптимізації рішень. Імовірнісний підхід до оцінки прийому сигналу; визначення ймовірності помилок розпізнавання. Статичні критерії розпізнавання.

презентація , доданий 28.01.2015

Кодування мови RPE – LTP – кодер на 16 кбіт/с. Структура декодера мови у стандарті GSM. Коефіцієнти відображення короткочасного передбачення методом Берга для РФ 8-го порядку. Спектральна характеристика постфільтру. Формування формантних галузей.

реферат, доданий 15.11.2010

Структурні схеми гомоморфної обробки та аналізу мовних сигналів. Комплексний кепстр мовлення. Компонент мовного сигналу. Період основного тону та частоти формант. Модуль передавальної функції мовного тракту. Оцінювання основного тону з урахуванням кепстра.

реферат, доданий 19.11.2008

Загальна класифікаціясистем та мереж радіодоступу. Класифікація систем радіодоступу за параметрами та характеристиками радіоінтерфейсу. Системи з аналоговою та цифровою передачею. Послуги цифрової передачіпромови. Класифікація по прикладним задачам, що вирішуються.

реферат, доданий 06.10.2010

Стан проблеми автоматичного розпізнавання мови. Огляд пристроїв для читання аудіо сигналів. Архітектура системи керування периферійними пристроями. Схема керування електричними пристроями. Принципова схема увімкнення електричних пристроїв.

дипломна робота , доданий 18.10.2011

Інформаційні характеристики та структурна схема системи передачі; розрахунок параметрів аналого-цифрового перетворювача та вихідного сигналу. Кодування кодом, що коригує. Визначення параметрів модему; порівняння завадостійкості систем зв'язку.

курсова робота , доданий 28.05.2012

Структура пристроїв обробки радіосигналів, внутрішня структура та принцип роботи, алгоритми обробки сигналу. Основа формування сигналу на виході лінійного пристрою. Моделі лінійних пристроїв. Розрахунок операторного коефіцієнта передачі ланцюга.

Біленко М.В. 1, Балакшин П.В. 2

1 студент, Університет ІТМО, 2 кандидат технічних наук, асистент, Університет ІТМО

ПОРІВНЯЛЬНИЙ АНАЛІЗ СИСТЕМ РОЗІЗНАННЯ МОВЛЕННЯ З ВІДКРИТИМ КОДОМ

Анотація

У статті проведено порівняльний аналіз найпоширеніших систем автоматичного розпізнавання мовлення з відкритим вихідним кодом. При порівнянні використовувалося безліч критеріїв, включаючи структури систем, мови програмування при реалізації, наявність докладної документації, мови розпізнавання, що підтримуються, обмеження накладаються ліцензією. Також було проведено експерименти на кількох мовних корпусах визначення швидкості і точності розпізнавання. В результаті для кожної з розглянутих систем були вироблені рекомендації щодо застосування з додатковим зазначенням сфери діяльності.

Ключові слова:розпізнавання мови, метрика, Word Recognition Rate (WRR), Word Error Rate (WER), Speed Factor (SF), відкритий код

Belenko M.V. 1, Balakshin P.V. 2

1 student, ITMO University, 2 PhD in Engineering, assistant, ITMO University

COMPARATIVE ANALYSIS OF SPEECH RECOGNITION SYSTEMS WITH OPEN CODE

Abstract

Paper дає змогу скористатися найбільшим автоматичним швидким відкриттям систем з Open Source Code. Багато критеріїв були використані на comparison, включно з системами структур, програмування мовами з implementation, detailed documentation, supported recognition languages, і restrictions imposed by the license. Крім того, вони були виконані experiments на several speech bases for determination of speed and accuracy of recognition. Як результат, перекази були виконані для застосування з додатковою точкою основи діяльності для всіх систем, що були незмінні.

Keywords: Speech Recognition, Metric, Word Recognition Rate (WRR), Word Error Rate (WER), Speed Factor (SF), Open Source Code

Системи розпізнавання мови (англ. Automatic Speech Recognition Systems) переважно використовуються для моделювання звичного для людини спілкування з машиною, наприклад, для голосового управління програмами. В даний час розпізнавання мовних сигналів застосовується в широкому спектрі систем - від додатків на смартфонах до систем "Розумний дім". Додатковим підтвердженням актуальності цієї галузі є безліч науково-дослідних центрів та центрів розробки у всьому світі. Проте переважна більшість працюючих систем є пропрієтарними продуктами, тобто. користувач або потенційний розробник не має доступу до вихідного коду. Це негативно позначається на можливості інтеграції систем розпізнавання мови до проектів з відкритим кодом. Також не існує якогось централізованого джерела даних, що описує позитивні та негативні сторони систем розпізнавання мови з відкритим кодом. В результаті виникає проблема вибору оптимальної системирозпізнавання мови на вирішення поставленої задачи.

В рамках роботи було розглянуто шість систем з відкритим вихідним кодом: CMU Sphinx, HTK, iAtros, Julius, Kaldi та RWTH ASR. Вибір заснований на частоті згадки в сучасних науково-дослідних журналах, існуючими розробками останніх років та популярності у індивідуальних розробників програмного забезпечення , , , , , , . Вибрані системи порівнювали за такими показниками, як точність і швидкість розпізнавання, зручність використання та внутрішня структура.

За точністю системи порівнювалися за найбільш поширеними метриками: Word Recognition Rate (WRR), Word Error Rate (WER), які обчислюються за такими формулами:

де S – число операцій заміни слів, I – число операцій вставки слів, D – число операцій видалення слів із розпізнаної фрази для отримання вихідної фрази, а Т – число слів у вихідній фразі та вимірюється у відсотках. За швидкістю розпізнавання порівняння було проведено з використанням Real Time Factor – показника відношення часу розпізнавання до тривалості сигналу, що також розпізнається, також відомого як Speed Factor (SF). Даний показник можна розрахувати, використовуючи формулу:

де Т расп – час розпізнавання сигналу, Т – його тривалість і вимірюється у частках реального часу.

Всі системи були навчені із застосуванням мовного корпусу WSJ1 (Wall Street Journal 1), що містить близько 160 годин тренувальних даних і 10 годин тестових даних, що є уривками з газети Wall Street Journal. Цей мовний корпус включає записи дикторів обох статей англійською мовою.

Після проведення експерименту та обробки результатів було отримано наступну таблицю (табл. 1).

Таблиця 1 – Результати порівняння за точністю та швидкістю

Система	WER, %	WRR, %	SF
HTK	19,8	80,2	1.4
CMU Sphinx (pocketsphinx/sphinx4)	21.4/22.7	78.6/77.3	0.5/1
Kaldi	6.5	93.5	0.6
Julius	23.1	76.9	1.3
iAtros	16.1	83.9	2 .1
RWTH ASR	15.5	84.5	3.8

Точність і коректність дослідження підтверджується тим, що отримані результати схожі на результати, отримані при тестуванні даних систем на інших мовних корпусах, таких як Verbmobil 1, Quaero, EPPS , , .

В якості критеріїв порівняння структур були обрані мова реалізації системи, алгоритми, що використовуються при розпізнаванні, формати вхідних та вихідних даних та безпосередньо внутрішня структура програмної реалізації системи.

Процес розпізнавання мовлення у загальному вигляді можна як наступних етапів :

Вилучення акустичних ознак із вхідного сигналу.
Акустичне моделювання.
Мовне моделювання.
Декодування.

Підходи, алгоритми і структури даних, використовувані аналізованими системами розпізнавання мовлення кожному з перелічених етапів представлені таблицях (табл. 2, 3).

Таблиця 2 - Результати порівняння алгоритмів

Система	Вилучення ознак	Акустичне моделювання	Мовне моделювання	Розпізнавання
HTK	MFCC	HMM	N-gramm	Алгоритм Вітербі
CMU Sphinx	MFCC, PLP	HMM	N-грам, FST	Алгоритм Вітербі, алгоритм bushderby
Kaldi	MFCC, PLP	HMM, GMM, SGMM, DNN	FST є конвертер N-gramm->FST	Двопрохідний алгоритм прямого зворотного ходу
Julius	MFCC, PLP	HMM	N-gramm, Rule-based	Алгоритм Вітербі
iAtros	MFCC	HMM, GMM	N-грам, FST	Алгоритм Вітербі
RWTH ASR	MFCC, PLP, voicedness	HMM, GMM	N-грам, WFST	Алгоритм Вітербі

Таблиця 3 - Мови реалізації систем та їх структура

Система	Мова	Структура
HTK	З	Модульна, у вигляді утиліт
CMU Sphinx (pocketsphinx/sphinx4)	C/Java	Модульна
Kaldi	C++	Модульна
Julius	C	Модульна
iAtros	C	Модульна
RWTH ASR	C++	Модульна

З погляду зручності використання розглядалися такі показники як подробиця документації, підтримка різних програмних та апаратних середовищ виконання, ліцензійні обмеження, підтримка множини природних мов розпізнавання, характеристики інтерфейсу. Результати представлені у наступних таблицях (табл. 4, 5, 6, 7, 8).

Таблиця 4 – Наявність документації

Таблиця 5 - Підтримка різних операційних систем

Система	Підтримувані ОС
HTK	Linux, Solaris, HPUX, IRIX, Mac OS, FreeBSD, Windows
CMU Sphinx (pocketsphinx/sphinx4)	Linux, Mac OS, Windows, Android
Kaldi	Linux, Windows, FreeBSD
Julius	Linux, Windows, FreeBSD, Mac OS
iAtros	Linux
RWTH ASR	Linux, Mac OS

Таблиця 6 - Інтерфейси систем

Таблиця 7 – Підтримувані мови розпізнавання

Таблиця 8 – Ліцензії

Система	Ліцензія
HTK	HTK
CMU Sphinx (pocketsphinx/sphinx4)	BSD
Kaldi	Apache
Julius	BSD подібна
iAtros	GPLv3
RWTH ASR	RWTH ASR

Проаналізувавши отримані вище результати, можна скласти характеристику кожної з систем, що розглядаються, і виробити рекомендації щодо їх застосування.

Kaldi. Ця системапоказує кращу точність розпізнавання з усіх систем (WER=6.5%) і другу швидкість розпізнавання (SF=0.6). З точки зору алгоритмів і структур даних, що застосовуються для розпізнавання мови, дана система теж лідирує, тому що надає найбільша кількістьсучасних підходів, що застосовуються у сфері розпізнавання мовлення, таких як використання нейронних мереж та моделей гаусових сумішей на етапі акустичного моделювання та використання кінцевих автоматів на етапі мовного моделювання. Також вона дозволяє використовувати безліч алгоритмів зменшення розміру акустичних ознак сигналу, і, відповідно, збільшувати продуктивність системи. Kaldi написана мовою програмування С++, що позитивно позначається швидкості роботи системи, і має модульну структуру, що дозволяє легко проводити рефакторинг системи, додавання нового функціоналу, і навіть виправляти існуючі помилки. З точки зору зручності використання Kaldi також є однією з перших систем. Вона надає докладну документацію, але орієнтовану на досвідчених у сфері розпізнавання читачів. Це може негативно позначитися на використанні даної системи новачками у цій галузі. Вона кроссплатформенна, тобто запускається на більшості сучасних операційних систем. Kaldi надає лише консольний інтерфейс, що робить її інтеграцію в сторонні програми скрутною. За умовчанням ця система підтримує лише англійська мова, Розповсюджується під повністю вільною ліцензією Apache, тобто може бути інтегрована в комерційний продукт без розкриття його коду. Ця система може успішно застосовуватися для науково-дослідної діяльності, оскільки забезпечує хорошу точність розпізнавання, прийнятну швидкість розпізнавання, реалізує безліч сучасних методіврозпізнавання мови, має безліч готових рецептів, що робить її простою у використанні і має вичерпну документацію.

CMU Sphinx. Ця система розпізнавання мовлення показує посередню точність розпізнавання (WER~22%) та кращу швидкість розпізнавання з усіх розглянутих (SF=0.5). Потрібно зауважити, що найбільша швидкість розпізнавання досягається при використанні декодера pocketsphinx, написаного на С, декодер sphinx4 показує цілком середню швидкість роботи (SF=1). Структурно дана система також використовує безліч сучасних підходів до розпізнавання мови, включаючи модифікований алгоритм Вітербі, однак підходів, що використовуються менше, ніж у Kaldi. Зокрема, на етапі акустичного моделювання ця система працює лише із прихованими марківськими моделями. CMU Sphinx включає два декодери – pocketsphinx, реалізований на С, і sphinx4, реалізований на Java. Це дозволяє застосовувати цю систему на багатьох платформах, у тому числі під керуванням операційної системи Android, а також полегшує інтеграцію в проекти, написані на Java. Дана система має модульну структуру, що позитивно позначається на можливості швидкого внесення змін та виправлення помилок. З точки зору зручності використання CMU Sphinx випереджає Kaldi, оскільки крім консольного інтерфейсу надає API, що значно полегшує процес вбудовування системи в стороннє додаток. Також вона має докладну документацію, орієнтовану, на відміну від Kaldi, на розробника-початківця, що сильно спрощує процес знайомства з системою. Також сильною стороноюданої системи є підтримка безлічі мов за замовчуванням, тобто наявність мовних та акустичних моделей цих мов у вільному доступі. Серед мов, що підтримуються, крім стандартної англійської зустрічаються також російська, казахська та ряд інших. СMU Sphinx поширюється під ліцензією BSD, що дозволяє вбудовувати її в комерційні проекти. Дана система може застосовуватися в комерційних проектах, оскільки володіє більшістю переваг Kaldi, хоча і забезпечує дещо гіршу точність розпізнавання, а також надає API, яке можна використовувати для побудови сторонніх додатків на базі даної системи.

HTK. З точки зору точності та швидкості роботи дана система показує середні результати з розглянутих систем (WER=19.8%, SF=1.4). HTK надає лише класичні у сфері розпізнавання мови алгоритми та структури даних. Це пов'язано з тим, що з тим, що випуск попередньої версії системи було здійснено у 2009 році. Наприкінці грудня 2015 року було випущено нову версію HTK, проте вона не була розглянута в даному дослідженні. Реалізована дана система мовою С, що добре відбивається на швидкості роботи, оскільки C є низькорівневою мовою програмування. За структурою дана система є набором утиліт, що викликаються з командного рядка, а також надає API, відоме під назвою ATK. З точки зору зручності використання HTK, нарівні з Julius, є провідною системою з розглянутих. Як документація вона надає HTK Book – книгу, що описує як аспекти роботи HTK, а й загальні принципи роботи систем розпізнавання промови. За умовчанням ця система підтримує лише англійську мову. Поширюється під ліцензією HTK, що дозволяє розповсюдження вихідного коду системи. Цю систему можна порекомендувати для використання у освітній діяльності у сфері розпізнавання мови. Вона реалізує більшість класичних підходів до вирішення проблеми розпізнавання мови, має дуже докладну документацію, яка також описує основні принципи розпізнавання мови в цілому, і має безліч навчальних статей та рецептів.

Julius. Ця система показує найгірший показник точності (WER=23.1) та середній показник швидкості розпізнавання (SF=1.3). Етапи акустичного та мовного моделювання здійснюються за допомогою утиліт, що входять до складу HTK, проте декодування відбувається за допомогою свого декодера. Він, як більшість розглянутих систем, використовує алгоритм Вітербі. Реалізована дана система мовою С, структура реалізації є модульною. Система надає консольний інтерфейс та API для інтеграції у сторонні програми. Документацію, як і в HTK, реалізовано у формі книги Julius book. За замовчуванням Julius підтримує англійську та японську мови. Поширюється під BSD такою ліцензією. Систему Julius можна також порекомендувати для освітньої діяльності, так як вона має всі плюси HTK, і також надає можливість розпізнавати такий екзотична моваяк японська.

Іатрос. Ця система показує хороший результат точності розпізнавання (WER=16.1%) і посередній результат швидкості (SF=2.1). Вона дуже обмежена у можливостях щодо алгоритмів і структур даних, що застосовуються при розпізнаванні мови, проте надає можливість використовувати моделі гаусових сумішей як стани прихованої марківської моделі на етапі акустичного моделювання. Реалізована дана система мовою С. Має модульну структуру. Крім функціоналу розпізнавання мови містить у собі також модуль розпізнавання тексту. Це не має великого значеннядля даного дослідження, проте є характерною особливістю даної системи, про яку не можна не згадати. З погляду зручності використання iAtros програє всім розглянутим під час дослідження системам. Дана система не має документації, не надає API для вбудовування в сторонні програми, з мов, що підтримуються, представлені англійська та іспанська. Є зовсім не кросплатформною, тому що запускається лише під керуванням операційних систем сімейства Linux. Поширюється під ліцензією GPLv3, яка не дозволяє вбудовувати цю систему в комерційні проекти без розкриття їх вихідного коду, що робить її непридатною для використання в комерційної діяльності. Система iAtros з успіхом може використовуватися там, де, крім розпізнавання мови, необхідно ще застосування розпізнавання образів, оскільки дана система надає таку можливість.

RWTH ASR. За точністю розпізнавання RWTH ASR показує непоганий результат (WER=15.5%), проте за швидкістю розпізнавання є найгіршою системою з розглянутих (SF=3.8). Ця система так само, як і iAtros, може використовувати моделі гаусових сумішей на етапі акустичного моделювання. відмінною рисоює можливість використання характеристики дзвінкості під час вилучення акустичних характеристик вхідного сигналу. Також дана система може використовувати зважений кінцевий автомат як мовну модель на етапі мовного моделювання. Ця система реалізована мовою С++ і має модульну архітектуру. За зручністю використання є другий з кінця, має документацію, що описує лише процес установки, чого явно недостатньо для початку роботи із системою. Надає лише консольний інтерфейс, за замовчуванням підтримує лише англійську мову. Система недостатньо кроссплатформенна, тому що не може працювати під керуванням операційної системи Windows, яка дуже поширена в даний час. Поширюється під ліцензією RWTH ASR, за якою код системи надається лише для некомерційного використання, що робить цю систему непридатною для інтеграції до комерційних проектів. Дана система може застосовуватися для вирішення завдань, де важлива точність розпізнавання, але не важливий час. Також варто зауважити, що вона зовсім непридатна для будь-якої комерційної діяльності через обмеження ліцензії.

Список литературы / References

CMU Sphinx Wiki [ Електронний ресурс]. – URL: http://cmusphinx.sourceforge.net/wiki/ (дата звернення: 09.01.2017)
Gaida C. Comparing open-source speech recognition toolkits [Електронний ресурс]. / C. Gaida et al. // Technical Report of the Project OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (дата звернення: 12.02.2017)
El Moubtahij H. Використовуючи особливості національних відчуттів, статистики та HMM інструменти (HTK) для offline Арабське handwriting text recognition / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V . 3. №3. - P. 99-110.
Jha M. Improved unsupervised speech recognition system using MLLR speaker adaptation and confidence measurement / M. Jha et al. // V Jornadas en Tecnologies del Habla (VJTH'2008) - 2008. - P. 255-258.
Kaldi [Електронний ресурс]. – URL: http://kaldi-asr.org/doc (дата звернення: 19.12.2016)
Luján-Mares M. iATROS: A SPEECH AND HANDWRITING RECOGNITION SYSTEM / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla - 2008. - P. 75-58.
El Amrania M.Y. Будівництво CMU Sphinx language model для Holy Quran використовуючи simplified Arabic phonemes / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal – 2016. – V. 17. №3. - P. 305-314.
Ogata K. Analysis articulatory timing based on superposition model for VCV sequences / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics – 2014. – January ed. - P. 3720-3725.
Sundermeyer The rwth 2010 quaero asr evaluation system for english, french, and german / M. Sundermeyer та ін. // Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP) - 2011. - P. 2212-2215.
Алімурадов А.К. АДАПТИВНИЙ МЕТОД ПІДВИЩЕННЯ ЕФЕКТИВНОСТІ ГОЛОСОВОГО УПРАВЛІННЯ / О.К. Алімурадов, П.П. Чураков // Праці Міжнародної науково-технічної конференції "Перспективні інформаційні технології" - 2016. - С. 196-200.
Бакаленко В.С. Інтелектуалізація введення-виведення коду програми за допомогою мовних технологій: Дис. ... магістра техніки та технології. - ДонНТУ, Донецьк, 2016.
Балакшін П.В. Алгоритмічні та програмні засоби розпізнавання мовлення на основі прихованих марківських моделей для телефонних служб підтримки клієнтів: дис. … канд. техн. наук: 05.13.11: захищена 10.12.2015: затв. 08.06.2016 / Балакшин Павло Валерійович. - СПб.: Університет ІТМО, 2014. - 127 с.
Балакшін П.В. ФУНКЦІЯ ЩІЛЬНОСТІ ТРИВАЛЬНОСТІ СТАН СММ. ПЕРЕВАГИ І НЕДОЛІКИ / П.В. Балакшин // Сучасні проблеми науки та освіти. - 2011. - № 1. - С. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (дата звернення: 13.11.2016).
Біленко М.В. ПОРІВНЯЛЬНИЙ АНАЛІЗ СИСТЕМ РОЗІЗНАВАННЯ МОВЛЕННЯ З ВІДКРИТИМ КОДОМ / М.В. Беленко // Збірник праць V Всеросійського конгресу молодих вчених. Т. 2. - СПб.: Університет ІТМО, 2016. - С. 45-49.
Гусєв М.М. Система розпізнавання мови: основні моделі та алгоритми / М.М. Гусєв, В.М. Дегтярьов. - СПб.: Знак, 2013. - 128 с.
Карпов А.А. Багатомодальні асистивні системи для інтелектуального житлового простору/О.О. Карпов, Л. Акарун, А.Л. Ронжин // Праці СПІІРАН. – 2011. – Т. 19. – №. 0. - С. 48-64.
Карпов А.А. Методологія оцінювання роботи систем автоматичного розпізнавання мовлення / О.О. Карпов, І.С. Кип'яткова // Вісті вищих навчальних закладів. Приладобудування. – 2012. – Т. 55. – №. 11. - С. 38-43.
Тампель І.Б. Автоматичне розпізнавання мови – основні етапи за 50 років/І.Б. Тампель // Науково-технічний вісник інформаційних технологій, механіки та оптики. – 2015. – Т. 15. – № 6. – С. 957–968.

Список літератури англійською /References in English

CMU Sphinx Wiki. - URL: http://cmusphinx.sourceforge.net/wiki/ (accessed: 09.01.2017).
Gaida C. Comparing open-source speech recognition toolkits . / C. Gaida et al. // Technical Report of the Project OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (accessed: 12.02.2017)
El Moubtahij, H. Using features of local densities, statistics and HMM toolkit (HTK) for offline Арабське handwriting text recognition / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V. 3. №3. - P. 99-110.
Jha, M. Improved unsupervised speech recognition system using MLLR speaker adaptation and confidence measurement / M. Jha et al. // V Jornadas en Tecnologies del Habla (VJTH'2008) - 2008. - P. 255-258.
Kaldi. – URL: http://kaldi-asr.org/doc (accessed: 19.12.2016)
Luján-Mares, M. iATROS: A SPEECH AND HANDWRITING RECOGNITION SYSTEM / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla - 2008. - P. 75-58.
El Amrania, M.Y. Будівництво CMU Sphinx language model для Holy Quran використовуючи simplified Arabic phonemes / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal – 2016. – V. 17. №3. - P. 305-314.
Ogata, K. Analysis of articulatory timing based on superposition model for VCV sequences / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics – 2014. – January ed. - P. 3720-3725.
Sundermeyer, M. The rwth 2010 quaero як evaluation system for english, french, and german / M. Sundermeyer et al. // Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP) - 2011. - P. 2212-2215.
Alimuradov A.K. ADAPTIVNYJ METOD POVYShENIJa JeFFEKTIVNOSTI GOLOSOVOGO UPRAVLENIJa / A.K. Alimuradov, P.P. Чураков // Труди Міждународної науково-технічної konferenci «Переспективні інформаційні технології». - 2016. - P. 196-200.
Bakalenko V.S. Інтеллектуалізація ввода-вивода кода programmyi з помощью речових технологій : dis. ... Master in Engineering and Technology. - DonNTU, Donetsk, 2016.
Balakshin P.V. Algoritmicheskie і programmnye sredstva raspoznavaniya rechi на osnove skryityi markovskich modeley для телефонних sluzhb podderzhki klientov : dis. … PhD in Engineering: 05.13.11: Defense of thesis 10.12.2015: approved 08.06.2016 / Balakshin Pavel Valer'evich. - SPb.: ITMO University, 2014. - 127 p.
Balakshin P.V. FUNKCIJa PLOTNOSTI DLITEL’NOSTI SOSTOJaNIJ SMM. PREIMUShhESTVA I NEDOSTATKI / P.V. Баляксін // Сучасні проблеми науки і оздоблення. - 2011. - № 1. - P. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (accessed: 13.11.2016).
Belenko M.V. SRAVNITELNYY ANALIZ SISTEM RASPOZNAVANIYA RECHI S OTKRYTYM KODOM / M.V. Бєленко // Сборник трудов V Всеросійського конгресу молодих учень. V. 2. - SPb.: ITMO University, 2016. P. 45-49.
Gusev M.N. Система поширення речі: основние моделі і algoritmyi / М.Н. Gusev V.M. Дегтярев. - SPb.: Znak, 2013. - 141 p.
Karpov A.A. Багатоmodalnye asistivyvnye sistemyi для intelektuualnogo zhilogo prostranstva / А.А. Karpov, L. Akarun, A.L. Ronzhin // Trudyi SPIIRAN. - 2011. - V. 19. - №. 0. - P. 48-64.
Karpov A.A. Методологія отсеніванія роботі систем автоматического розпознавання речі / А.А. Karpov, I.S. Кипяткова // Известия виших усних вебій. Приборостроение.
- 2012. - V. 55. - №. 11. - P. 38-43.

Tampel I.B. Автоматичне розпознання речі - основні етапи за 50 років / I.B. Тампель // Научно-Технічний вестник Informatsionnykh Технології, Механікі і Optiki. - 2015. - V. 15. - № 6. - P. 957-968.

Коли ми слухаємо, як хтось каже, наше внутрішнє вухо аналізує частотний спектр звуку і мозок сприймає слово. Деякі комп'ютери можуть імітувати цей процес за допомогою спектрального аналізатора.

Звукові сигнали надходять у аналізатор через мікрофон, та його спектральні характеристики аналізуються. Потім комп'ютер порівнює отримані сигнали із запрограмованим списком фонем або будівельних акустичних блоків. Короткочасні сигнали порівнюються зі стандартними зразками слів та співвідносяться з правилами мови та синтаксису. Цей процес допомагає комп'ютеру ідентифікувати вимовлені слова. Якщо програма досить складна, вона навіть може визначити за контекстом, чи було вимовлено слово «плід» чи «тіль». Але чи може комп'ютер справді розуміти мову, як це роблять люди, - досі залишається предметом гарячих дебатів. Можна запрограмувати комп'ютер, щоб він міг відповідати наслів, але чи замінить це справжнє розуміння? Деякі спеціалісти в області штучного інтелектувірять, що за кілька десятиліть комп'ютер зможе вести актуальну розмову з людиною. Проте багато фахівців переконані, що комп'ютер завжди буде обмежений програмою, заздалегідь складеними відповідями.

Розпізнавання голосу

Звуки, що вимовляються довше кількох секунд, розбиваються більш короткі часові сегменти. Потім комп'ютер аналізує частотні компоненти кожного сегмента.

Акустичний аналіз

Звуковий спектрограф представляє спектр звуку у видимій формі. При одному методі аналізу нормальний ланцюжок звуків людського голосурозбивається на сегменти, колірний код яких вказує на силу та частоту їх компонентів. Тривимірні графи, як на ілюстрації зверху, зображують ще один спосіб візуалізації подібної інформації.

Прийняття рішення

За результатами аналізу комп'ютер вирішує, чи було сказано дане слово. Комп'ютер порівнює записаний аналіз зі списком можливих кандидатів, потім застосовує правила лексики та синтаксису, щоб визначити, чи відповідає певний звук певному слову.

Стандартні мовні моделі

Найдрібніші одиниці мовлення визначаються термінах частотного спектра. Стандартні зразки мови вказують, яка одиниця є у цьому слові.

Звуковий спектрограф (згори) здійснює акустичний аналіз звуків у словах, що вимовляються. Тут голосний звук (нагорі зліва) порівнюється зі спектром голосних (внизу).

Звукові хвилі змушують вібрувати барабанну перетинку. Ця вібрація передається кільком маленьким кісточкам і перетворюється на електричні сигнали, які надходять у мозок.