Moderne metoder til automatisk talegenkendelse. Komparativ analyse af open source talegenkendelsessystemer

15. juli 2009 kl. 22:16

Tale genkendelse. Del 1. Klassifikation af talegenkendelsessystemer

  • Kunstig intelligens
Epigrafi
I Rusland er området for talegenkendelsessystemer faktisk ret dårligt udviklet. Google har længe annonceret et system til optagelse og genkendelse af telefonsamtaler... Desværre har jeg endnu ikke hørt om systemer af lignende skala og kvalitet af genkendelse på russisk.

Men du skal ikke tro, at alle i udlandet allerede har opdaget alt for længe siden, og vi vil aldrig indhente dem. Da jeg ledte efter materiale til denne serie, måtte jeg grave gennem en sky af udenlandsk litteratur og afhandlinger. Desuden var disse artikler og afhandlinger fra vidunderlige amerikanske videnskabsmænd Huang Xuedong; Hisayoshi Kojima; DongSuk Yuk osv. Det er klart, hvem der støtter denne gren af ​​amerikansk videnskab? ;0)

I Rusland kender jeg kun én smart virksomhed, der har formået at bringe indenlandske talegenkendelsessystemer til det kommercielle niveau: Center for Speech Technologies. Men måske vil det efter denne serie af artikler gå op for nogen, at det er muligt og nødvendigt at begynde at udvikle sådanne systemer. Desuden med hensyn til algoritmer og mat. Vi sad praktisk talt ikke bagefter apparatet.

Klassificering af talegenkendelsessystemer

I dag skjuler begrebet "talegenkendelse" et helt område af videnskabelig og ingeniørmæssig aktivitet. Generelt går hver talegenkendelsesopgave ned til at udtrække, klassificere og reagere korrekt på menneskelig tale fra inputlydstrømmen. Det kan også være udførelse bestemt handling på en persons kommando, og valget af et specifikt markørord fra en lang række telefonsamtaler og systemer til stemmetekstinput.

Tegn på klassificering af talegenkendelsessystemer
Hvert sådant system har visse opgaver, som det er designet til at løse, og et sæt tilgange, der bruges til at løse problemerne. Lad os overveje de vigtigste funktioner, som genkendelsessystemer kan klassificeres efter menneskelig tale og hvordan dette symptom kan påvirke driften af ​​systemet.
  • Ordbog størrelse. Jo større ordbogen er indbygget i genkendelsessystemet, jo større er fejlprocenten, når ord genkendes af systemet. Eksempelvis kan en ordbog på 10 cifre genkendes næsten fejlfrit, mens fejlprocenten ved genkendelse af en ordbog på 100.000 ord kan nå op på 45 %. På den anden side er selv anerkendelse det ikke stor ordbog kan give et stort antal genkendelsesfejl, hvis ordene i denne ordbog minder meget om hinanden.
  • Højttalerafhængighed eller højttaleruafhængighed af systemet. Per definition er et højttalerafhængigt system designet til at blive brugt af en enkelt bruger, mens et højttaleruafhængigt system er designet til at fungere med enhver højttaler. Højttaleruafhængighed er et vanskeligt mål at opnå, da når systemet trænes, tilpasses det til parametrene for den højttaler, hvis eksempel det trænes. Genkendelsesfejlraten for sådanne systemer er normalt 3-5 gange højere end fejlraten for højttalerafhængige systemer.
  • Separat eller kontinuerlig tale. Hvis hvert ord i en tale er adskilt fra det andet af et afsnit af tavshed, så siger de, at denne tale er adskilt. Kontinuerlig tale er naturligt talte sætninger. Genkendelse af kontinuerlig tale er meget vanskeligere på grund af det faktum, at grænserne for individuelle ord ikke er klart definerede, og deres udtale er stærkt forvrænget af sløring af de talte lyde.
  • Formål. Formålet med systemet bestemmer det nødvendige abstraktionsniveau, ved hvilket talegenkendelse vil finde sted. I et kommandosystem (f.eks. stemmeopkald mobiltelefon) sandsynligvis vil genkendelse af et ord eller en sætning forekomme som genkendelse af et enkelt taleelement. Et tekstdikteringssystem vil kræve større genkendelsesnøjagtighed og vil højst sandsynligt, når man fortolker den talte sætning, ikke kun stole på det, der blev talt i dette øjeblik, men også om, hvordan det hænger sammen med det, der blev sagt før. Desuden skal systemet have et indbygget sæt grammatiske regler, hvilket den udtalte og genkendelige tekst skal opfylde. Jo strengere disse regler er, jo lettere er det at implementere et genkendelsessystem, og jo mere begrænset vil det sæt af sætninger, det kan genkende, være.
Forskelle mellem talegenkendelsesmetoder
Når du opretter et talegenkendelsessystem, skal du vælge, hvilket abstraktionsniveau der er tilstrækkeligt til opgaven, hvilke parametre for lydbølgen der vil blive brugt til genkendelse og metoder til at genkende disse parametre. Lad os overveje de vigtigste forskelle i strukturen og driftsprocessen for forskellige talegenkendelsessystemer.
  • Efter type strukturel enhed. Når man analyserer tale, som grundenhed individuelle ord eller dele af talte ord, såsom fonemer, di- eller trifoner og allofoner, kan vælges. Afhængigt af hvilken strukturel del der er valgt, ændres strukturen, alsidigheden og kompleksiteten af ​​ordbogen over anerkendte elementer.
  • Ved at identificere funktioner. Sekvensen af ​​lydbølgetrykaflæsninger i sig selv er alt for redundant for lydgenkendelsessystemer og indeholder en masse unødvendig information, som ikke er nødvendig for genkendelse, eller endda skadelig. For at repræsentere et talesignal er det således nødvendigt at vælge nogle parametre fra det, der repræsenterer dette signal tilstrækkeligt til genkendelse.
  • I henhold til funktionsmekanismen. I moderne systemer er de meget udbredt forskellige tilgange til mekanismen for funktion af genkendelsessystemer. Den probabilistiske netværkstilgang består i, at talesignalet er opdelt i bestemte dele (rammer, eller efter fonetiske karakteristika), hvorefter der er en sandsynlighedsvurdering af, hvilket element i den anerkendte ordbog det vedrører. denne del og/eller hele indgangssignalet. Løsningsbaseret tilgang omvendt problem lydsyntese består i, at arten af ​​bevægelsen af ​​artikulatorerne i vokalkanalen bestemmes ud fra inputsignalet, og ved hjælp af en speciel ordbog bestemmes de udtalte fonemer.

UPD: Flyttet til "Kunstig intelligens". Hvis der er interesse, vil jeg fortsætte med at udgive der.

Kommercielle programmer talegenkendelse dukkede op i begyndelsen af ​​halvfemserne. De bruges normalt af personer, der på grund af en håndskade ikke er i stand til at skrive en stor mængde tekst. Disse programmer (for eksempel Dragon NaturallySpeaking, VoiceNavigator) oversætter brugerens stemme til tekst og aflaster dermed hans hænder. Oversættelsessikkerheden for sådanne programmer er ikke særlig høj, men gennem årene er den gradvist forbedret.

Øget computerkraft mobile enheder gjort det muligt at lave programmer til dem med talegenkendelsesfunktioner. Blandt sådanne programmer er det værd at bemærke Microsoft Voice Command-applikationen, som giver dig mulighed for at arbejde med mange applikationer ved hjælp af din stemme. Du kan for eksempel afspille musik i din afspiller eller oprette et nyt dokument.

Intelligente taleløsninger, der automatisk syntetiserer og genkender menneskelig tale, er næste skridt i udviklingen af ​​interaktive stemmesystemer (IVR). Brugen af ​​en interaktiv telefonapplikation er i øjeblikket ikke en modetrend, men en vital nødvendighed. Reduktion af arbejdsbyrden for kontaktcenteroperatører og sekretærer, reduktion af lønomkostninger og forøgelse af produktiviteten af ​​servicesystemer er blot nogle af de fordele, der beviser gennemførligheden af ​​sådanne løsninger.

Fremskridt står imidlertid ikke stille, og for nylig er automatiske talegenkendelses- og syntesesystemer i stigende grad begyndt at blive brugt i interaktive telefonapplikationer. I dette tilfælde bliver kommunikationen med stemmeportalen mere naturlig, da valg i den ikke kun kan foretages ved hjælp af toneopkald, men også ved hjælp af stemmekommandoer. Samtidig er genkendelsessystemer uafhængige af højttalere, det vil sige, de genkender enhver persons stemme.

Det næste trin i talegenkendelsesteknologier kan betragtes som udviklingen af ​​såkaldte Silent Speech Interfaces (SSI). Disse talebehandlingssystemer er baseret på modtagelse og behandling af talesignaler på et tidligt stadium af artikulationen. Denne fase Udviklingen af ​​talegenkendelse er forårsaget af to væsentlige mangler ved moderne genkendelsessystemer: overdreven følsomhed over for støj, samt behovet for klar og tydelig tale ved adgang til genkendelsessystemet. SSI-tilgangen er at bruge nye sensorer, der ikke er påvirket af støj, som et supplement til de behandlede akustiske signaler.

I dag er der fem hovedområder for brug af talegenkendelsessystemer:

Stemmestyring er en måde at interagere og styre betjeningen af ​​en enhed ved hjælp af stemmekommandoer. Stemmestyringssystemer er ineffektive til at indtaste tekst, men er praktiske til at indtaste kommandoer, såsom:

Typer af systemer

I dag er der to typer talegenkendelsessystemer - dem, der opererer "klientbaseret" og dem, der opererer efter "klient-server"-princippet. Ved brug af klient-server-teknologi indtastes en talekommando på brugerens enhed og overføres via internettet til en fjernserver, hvor den behandles og returneres til enheden i form af en kommando (Google Voice, Vlingo osv.) ; set i lyset af stor mængde serverbrugere, modtager genkendelsessystemet en stor base for træning. Den første mulighed virker på den anden matematiske algoritmer og er sjælden (Speereo Software) - i dette tilfælde indtastes kommandoen på brugerens enhed og behandles der. Fordelen ved at behandle "på klienten" er mobilitet, uafhængighed af tilgængeligheden af ​​kommunikation og drift af fjernudstyr. Således virker et system, der kører "på klienten", mere pålideligt, men er nogle gange begrænset af enhedens kraft på brugerens side.

Send dit gode arbejde i videnbasen er enkel. Brug formularen nedenfor

Godt arbejde til webstedet">

Studerende, kandidatstuderende, unge forskere, der bruger videnbasen i deres studier og arbejde, vil være dig meget taknemmelig.

Udgivet på http://www.allbest.ru/

INTRODUKTION

Menneskelig tale er blevet undersøgt i lang tid. I midten af ​​det tyvende århundrede opstod problemet med automatisk talegenkendelse af computere. I løbet af et halvt århundrede har forskere formået at akkumulere en enorm mængde viden om emnet forskning. Det blev klart, at talegenkendelse er en meget vanskelig opgave.

Kerneteknikken for mange talegenkendelsessystemer er statistisk metode, kaldet Hidden Markov Modeling (HMM). Sådanne systemer udvikles i mange centre og er i stand til god taleordgenkendelse. Sandsynligheden for ordgenkendelse når 80 - 90%.

Anvendelsesområderne for automatiske talegenkendelsessystemer er meget forskellige. For eksempel har adskillige amerikanske og canadiske virksomheder siden begyndelsen af ​​halvfemserne, bestilt af det amerikanske forsvarsministerium, udviklet genkendelsessystemer designet til at opsnappe telefonsamtaler. For nylig er genkendelsessystemer blevet brugt i computertræningskurser. fremmedsprog, systemer til udarbejdelse af tekstdokumenter. Lovende områder er udvikling af hjælpesystemer til mennesker med handicap og forbedring af menneske-maskine-grænsefladen.

Faktorer, der hindrer den udbredte implementering af automatiske talegenkendelsessystemer er:

Kompleksiteten af ​​implementering i mobilt udstyr i små størrelser på grund af høje beregningsomkostninger og deres betydelige ujævnheder, samt behovet for at gemme en stor ordbog (et sæt modeller af genkendelige taleenheder) i hukommelsen;

Betydelig forringelse af kvalitetsparametre under interferensforhold.

Dette papir præsenterer de grundlæggende principper for konstruktion af talegenkendelsessystemer, forbehandling af kildesignalet, konstruktion af akustiske og sproglige modeller og overvejer en moderne tilgang til støjimmunitet for genkendelsessystemer. Metoder til vurdering af kvaliteten af ​​anerkendelsessystemer overvejes.

Der lægges også vægt på udviklingsproblemer, udsigter til udvikling og løbende forbedring af genkendelsessystemer.

1. TALEGENKENDELSESSYSTEMER

Talegenkendelse er processen med at konvertere et elektrisk konverteret akustisk signal til en sekvens af ord. Genkendte ord kan være slutresultat, hvis formålet med systemet er kontrol, dataindtastning eller dokumentforberedelse. De kan også være grundlaget for efterfølgende sproglig bearbejdning for at opnå taleforståelse.

1.1 Klassifikation og struktur af talegenkendelsessystemer

Klassifikation

Talegenkendelsessystemer er karakteriseret ved mange parametre, hvoraf de vigtigste er angivet i tabel 1.1.

Tabel 1.1. Generelle parametre for talegenkendelsessystemer

Parameter

Omfang af forandring

Forbindelse

Enkelte ord eller kontinuerlig tale

Tale baseret på skrevet tekst eller spontan

Justering

Afhængighed eller uafhængighed af taleren

Fra små(<20 слов) до большого(>20000)

Sprogmodel

Stateful eller kontekstafhængig

Forvirring

Fra små (< 10) до большой (> 100)

Stor (>30dB) til lille (<10dB)

Hvis systemet er designet til at genkende individuelle ord, skal taleren holde pause mellem dem; hvis for kontinuerlig tale, så nej. Spontan tale indeholder normalt meget mere usammenhæng end talen fra en person, der læser skrevet tekst, og er derfor sværere at genkende. Nogle systemer kræver højttalertilpasning, hvor brugeren skal sige nogle ord eller sætninger for at justere systemet, før systemet tages i brug, mens andre systemer ikke kræver dette. Genkendelse er generelt sværere, når ordforrådet er stort og indeholder mange enslydende ord.

Den enkleste model af et sprog kan beskrives af et netværk med et vist antal tilstande. I den er sættet af gyldige ord efter hvert ord bestemt. Modeller, der tilnærmer naturligt sprog, defineres ved hjælp af kontekstfølsomme grammatikker.

En meget brugt indikator for kompleksiteten af ​​et problem løst af et genkendelsessystem er forvirring (sværhedsgrad, kompleksitet, kompleksitet). Forvirring er defineret som antallet af mulige ord efter et givet ord i en given sprogmodel.

Genkendelsessystemet er også karakteriseret ved en sådan parameter som det maksimalt tilladte signal-til-støj-forhold (SNR).

Talegenkendelse er en kompleks opgave, primært på grund af det store antal kilder, der påvirker parametrene for talesignalet:

Den akustiske lyd af fonemer, de mindste taleenheder, afhænger stærkt af den fonetiske kontekst, der omgiver dem (/t/ i ordene to, sand, smør), i sætninger bliver den kontekstuelle afhængighed endnu stærkere (“mesterproduktion”, “lær godt manerer”);

Variationer i akustiske signaler på grund af forskelle i rumakustik, mikrofonegenskaber og placering;

Talerens fysiske og følelsesmæssige tilstand;

Hans alder, køn, sociale status, dialekt.

Den generelle struktur af talegenkendelsessystemet er præsenteret i figur 1.1.

Figur 1.1 - Opbygning af talegenkendelsessystemet.

Talesignalet er opdelt i sektioner, og et sæt parametre beregnes for hver sektion. Disse parametre bruges til at finde det bedste kandidatord inden for de tilgængelige akustiske, leksikalske og sproglige modeller. Leksikale modeller i moderne systemer indgår i sprogmodellen som principper og metoder til at skabe en ordbog med udgangspunkt i det eksisterende tekstgrundlag og søge i det. I de simpleste systemer degenererer sprogmodellen til en leksikalsk.

1.2 Nuværende udviklingsniveau

Kvaliteten af ​​genkendelsessystemet vurderes normalt ved hjælp af en sådan indikator som fejlprocenten:

(1.1)

N er det samlede antal ord i testsættet, S, I, D er antallet af henholdsvis substitutioner, indsættelser og sletninger af ord.

Siden 1990'erne er der sket betydelige fremskridt inden for talegenkendelsesteknologi. Fejlraten faldt ca. 2 gange hvert andet år. Barriererne for genkendelsessystemets afhængighed af taleren, kontinuerlig talegenkendelse og brugen af ​​en stor ordbog er stort set overvundet. Flere faktorer bidrog til dette:

- brug af Hidden Markov Models (HMM);

Udvikling af standardregler for kompilering af taledatabaser til træning og test (TIMIT, RM, ATIS, WSJ osv.), de giver udviklere mulighed for at bestemme antallet af akustiske signaler, der er vigtige for at understrege fonetiske funktioner, baseret på statistiske teknikker. Standardisering af trænings- og testregler gør det også muligt at sammenligne forskellige systemers ydeevne;

- en betydelig stigning i computersystemernes ydeevne.

En typisk opgave med et lavt niveau af forvirring (PP = 11) er at genkende numre i en standard telefonkanal. Her er der opnået en fejlrate på 0,3 % med en kendt længde af talfølgen.

Opgaverne for det gennemsnitlige forvirringsniveau er ressourcestyringsopgaver, for eksempel opnår et spontant talegenkendelsessystem til lufttrafikinformationssystemet (Air Travel Information Service, ATIS) med en ordbog på omkring 2000 ord og PP = 15 en fejlrate højst 3 %.

Systemer designet til tekstdiktering har et højt niveau af forvirring (PP? 200) og en stor ordbog (ca. 20.000 ord). Den fejlrate de opnåede er omkring 7 %.

De vigtigste anvendelsesområder for genkendelsessystemer er stemmeopkald til et telefonnummer (f.eks. "ringe hjem" i stedet for at ringe et nummer), dokumentforberedelse, informations- og referencesystemer oger.

1.3 Udsigter

Støjimmunitet

Kvaliteten af ​​driften af ​​genkendelsessystemer falder katastrofalt, efterhånden som forskellen mellem betingelserne for registrering af træningstaledata og betingelserne for reelt arbejde stiger på grund af forskellige interferenser. Derfor vil påvirkningen af ​​det akustiske miljø og transmissionskanalens elektriske karakteristika blive givet særlig opmærksomhed.

Bærbarhed

Når moderne systemer overføres for at løse et nyt problem, reduceres kvaliteten af ​​deres arbejde betydeligt. For at forbedre det kræves genoptræning af systemet. Portabilitet indebærer muligheden for at bruge systemet til at løse forskellige problemer med minimal justering.

Tilpasning, tilpasning

Selv under driften af ​​systemet for at løse det samme problem, kan eksterne forhold ændre sig (højttalere, mikrofoner osv.). Det er nødvendigt at beslutte, hvordan man tvinger systemet til at forbedre kvaliteten af ​​arbejdet under drift og tilpasse sig nye forhold.

Sprogmodeller

Moderne systemer bruger statistiske sprogmodeller til at reducere søgerummet og løse akustisk modelusikkerhed. Efterhånden som ordforrådets størrelse vokser, og andre begrænsninger slapper af, bliver det stadig vigtigere at definere de regler og begrænsninger, der pålægges af syntaksen for det sprog, der genkendes, for at skabe levedygtige systemer. Samtidig vil rent statistiske sprogmodeller omfatte flere og flere syntaktiske og semantiske regler og begrænsninger.

Et mål for tillid til hypoteser

De fleste anerkendelsessystemer til at bestille hypoteser forbinder hver hypotese med en bestemt vægt, et tal. I øjeblikket er denne vægt som regel ikke en indikator for tillid til en given hypotese (dvs. hvorfor denne hypotese er bedre end andre). For ledelsesproblemer er det nødvendigt at forbedre metoder til vurdering af hypotesers pålidelighed.

Ord, der ikke er med i ordbogen

Systemer er designet til brug med et specifikt ordforråd. Men i det virkelige liv vil der altid være en vis procentdel af ord, der ikke er med i ordbogen. Der skal være metoder til at opdage tilstedeværelsen af ​​sådanne ord og bearbejde dem.

Spontan tale

Systemer, der fungerer under virkelige forhold, støder altid på forskellige fænomener, der er iboende i spontan tale: falske starter, stammen, ugrammatiske konstruktioner osv. Udviklingen af ​​ATIS har løst mange problemer på dette område, men ikke alle.

Prosodi (intonation og rytme)

Intonation og tales rytmiske struktur bærer information om betydningen af ​​talte ord. Spørgsmålet om, hvordan man integrerer prosodisk information i et genkendelsessystem, er dog endnu ikke løst.

Dynamisk simulering

Moderne systemer modtager en sekvens af sektioner af et akustisk signal og behandler dem som statiske og uafhængige af hinanden. Det er dog kendt, at signalsektioner opfattet som fonemer og ord kræver kombinationen af ​​parametre udtrukket fra signalet og deres præsentation i dynamik. Dette ville afspejle dynamisk artikulation. Hvordan man modellerer dynamikken i et talesignal til et genkendelsessystem er et uløst problem.

2. REPRÆSENTATION AF DET ORIGINALE SIGNAL

2.1 Principper for signalforbehandling

Ved talegenkendelse baseret på statistiske metoder samples det originale signal ved en frekvens på 6,6 til 20 kHz og behandles til at repræsentere det som en sekvens af vektorer i trækrummet, der modellerer tilstanden af ​​talerens stemmekanal. I dette tilfælde udvides en sektion af det oprindelige signal med en varighed på 10 - 25 ms, hvilket er 150 - 300 samples, normalt stærkt korrelerede med hinanden, til en ortogonal serie og præsenteres for en given fejlværdi i i form af 10 - 20 ekspansionskoefficienter, kaldet parametre.

Disse parametervektorer bruges i efterfølgende trin til at estimere sandsynligheden for, at en vektor eller sekvens af vektorer tilhører et fonem eller et helt ord, når medlemskabshypotesen testes.

I de fleste systemer er processerne med vektorrepræsentation af et signal og sandsynlighedsestimering tæt forbundet. Derfor antages det, at hvis en operation eller procedure anvendes på et talesignal, hører den til præsentationsstadiet. Hvis det bruges til at teste en hypotese, er det en del af compliance-beregningsstadiet.

Formålet med signalrepræsentationstrinnet er at bevare al nyttig information, der er nødvendig for den fonetiske identifikation af den del af det pågældende talesignal. Samtidig skal præsentationen være så immun som muligt over for faktorer som forskelle mellem talere, træk ved kommunikationskanaler og følelsesmæssig tilstand. Præsentationen skal også være så kompakt som muligt.

De repræsentationer, der bruges i moderne systemer, afspejler mere talesignalets egenskaber på grund af stemmekanalens form end excitationssignalet (grundtonen genereret af strubehovedet og stemmebåndene). Repræsentationer afgør kun, om stemmebåndene vibrerer eller ej, dvs. om lyden er vokaliseret.

De anvendte repræsentationer er næsten altid afledt af et begrænset energispektrum, signalets effektspektrale tæthed

hvor x1, …, xl, …, xn er den indledende sekvens af prøver i segmentet; S(ejш) - spektralkoefficienter. Det er tilrådeligt at bruge energispektret, fordi øret er ufølsomt over for fasen af ​​det akustiske signal.

Derudover bruger energispektret næsten altid en logaritmisk repræsentation. Dette gør det muligt at reducere alt for store ændringer i parametre med betydelige udsving i signalamplitude, samt transformere multiplikative akustiske effekter og interferens fra det anvendte udstyr til additiv interferens. Ulempen ved den logaritmiske repræsentation er usikkerheden ved logaritmen af ​​nul. Dette kræver begrænsning af minimumsamplitudeskalaen af ​​signalet til en eller anden værdi, der ikke er nul, og begrænsning af selve signalet nedefra for at undgå overdreven følsomhed over for lavenergispektrale komponenter, som hovedsageligt er støj. .

Figur 2.1 - Repræsentation af talesignal til genkendelse

Inden spektret beregnes, gennemgår signalet normalt en foreløbig filtrering, som sikrer, at signalforstærkningen stiger med stigende frekvens med en hældning på 6 dB/oktav for at kompensere for den dæmpning, som den elektriske vej introducerer. Det originale signal opdeles derefter i successive, overlappende sektioner, typisk 25 ms lange, som behandles af en klokkefunktion for at reducere signalamplituden ved sektionens kanter. Derefter beregnes effektspektraltætheden.

Det resulterende energispektrum har en uønsket harmonisk komponent ved grundfrekvensen. Denne komponent kan reduceres ved at gruppere tilstødende sæt af spektralkomponenter for at danne en gruppe på ca. 20 bånd før beregning af magtlogaritmen. Disse bånd gøres ofte gradvist bredere i trin på 1 kHz. Det er også muligt at bruge et sæt digitale filtre. Resultaterne er ens.

Den cepstrale repræsentation af signalet reducerer yderligere korrelationen af ​​nabosamples i det oprindelige signal. Her antages det, at tale er udgangssignalet fra et lineært system med langsomt skiftende parametre - stemmekanalen, exciteret enten af ​​en sekvens af grundtoneimpulser eller af støj. Analyse af talesignalet består i dette tilfælde af at beregne stemmekanalens parametre ud fra de målte parametre for talesignalet og vurdere dem over tid. Da excitationssignalet x(n) og filterimpulsresponset h(n) interagerer gennem foldningsoperationen, betragtes analyseproblemet som et problem med at adskille komponenterne involveret i foldningsoperationen. Dette problem kaldes den omvendte foldning eller udpakningsproblem. For at løse det er det nødvendigt at finde følgende homomorfi: C(x(n)*h(n)) = C(x(n)) + C(h(n)). Denne homomorfi kan implementeres ved hjælp af følgende transformation:

c(n) = F-1(ln[ |F(x(n))| ]),(2.2)

som kaldes cepstrum af et diskret signal x(n), F og F-1 er henholdsvis direkte og invers diskret Fourier-transformation.

Den autoregressive repræsentation af signalet (lineær forudsigelse, LPC) er forbundet med den samme model for talesignaldannelse. Autoregressionskoefficienter beregnes ud fra betingelsen om direkte at minimere korrelationen mellem tætte prøver af talesignalet x(ti):

I den indledende fase af beregningen af ​​signalparametre bruger forskellige udviklere forskellige modeller, energispektrum eller autoregression, for eksempel i telefoni bruges autoregression normalt, da disse parametre beregnes i alle moderne telefonvokodere. I computersystemer beregnes spektret normalt, fordi de komponenter, der bruges til at beregne det, kan bruges af andre applikationer. Fremover beregnes cepstralkoefficienterne Ci, da de er bedst egnede til genkendelsesopgaven. Beregning af ceptrum gennem autoregression er beregningsmæssigt mere økonomisk, hvilket er godt for begrænsede telefoni ressourcer. Der er ingen så strenge begrænsninger for computere, men alsidighed og evnen til at genbruge kode er vigtig, så spektrum er bedre. Nogle systemer beregner også dynamikken af ​​ændringer i signalparametre dCi inden for en signalsektion og mellem tilstødende sektioner.

Forskellige konstante eksterne faktorer, såsom egenskaberne ved en bestemt telefonforbindelse, optræder som en konstant komponent (bias) af spektret eller cepstrum. Forskel, dynamiske parametre dCi er ikke genstand for sådanne effekter. Hvis de førsteordens dynamiske parametre sendes gennem integratoren, vil værdier tæt på de originale, statiske parametre Ci blive gendannet. En lignende teknik, der anvendes til sekvenser af effektspektrumkoefficienter, før man tager en logaritme, er nyttig til at reducere interferens fra stationær eller langsomt varierende additiv støj.

Da de cepstrale koefficienter er næsten ukorrelerede, er en beregningsmæssig effektiv metode til at opnå rimeligt gode probabilistiske estimater i den efterfølgende matchningsproces at beregne de euklidiske afstande til de tilsvarende modelvektorer. Beregningen af ​​afstande foretages efter passende vægtning af koefficienterne (parametrene). Der er mange vægtningsmetoder, grupperet i to hovedklasser: empirisk og statistisk.

Der er teknikker, der kombinerer de anførte metoder og gør det muligt næsten fuldstændigt at fjerne korrelationen af ​​parametre, men på grund af stigende beregningsomkostninger bruges de i øjeblikket til demonstrationsformål.

2.2 Udsigter

I øjeblikket undersøges muligheden for at bruge wavelet-transformationer og neurale netværksmetoder i præsentationsstadiet af det originale signal, hvilket muliggør ikke-lineære operationer med det originale signal eller med resultaterne af andre transformationer. Udviklingen af ​​repræsentationer, der mere præcist afspejler akustikken i et rum, samt genskaber artikulation fra et talesignal, fortsætter.

Moderne metoder til at repræsentere et signal bruger kun spektrumformen uden at tage hensyn til den grundlæggende frekvens. Det er dog kendt, at selv ved enkeltordsgenkendelse kan tonehøjdefrekvens være et fingerpeg om leksikalsk ordidentifikation. Dette gælder ikke kun for tonale sprog som kinesisk, men også for europæiske, da denne frekvens er relateret til leksikalsk stress. I forbundet tale bærer grundtonen information om sætningens syntaktiske struktur og talerens stemning. Forskningen på dette område vil fortsætte.

3. STØJ MODSTANDIG TALEGENKENDELSE

3.1 Bestemmelse af støjimmunitet

Støjimmunitet (robusthed) i talegenkendelse er forbundet med behovet for at sikre tilstrækkelig nøjagtighed under destabiliserende faktorer:

Når kvaliteten af ​​input-talesignalet er lav,

Når der er signifikante forskelle i talens akustiske, artikulatoriske og fonetiske karakteristika mellem trænings- og afprøvnings- (arbejds)forholdene.

Kilderne til disse faktorer er:

Akustisk interferens i form af additiv støj,

Lineære filtreringsfænomener

Ikke-lineære forvrængninger under konvertering og transmission af det originale signal,

Pulsinterferens

Ændringer i højttalerartikulation forårsaget af tilstedeværelsen af ​​støjkilder.

Moderne systemer designet til at fungere under gunstige akustiske forhold har stort set opnået højttaleruafhængighed, hvilket kompenserer for en vis signalforringelse på grund af støj og ukendt lineær filtrering. Men for applikationer i den virkelige verden er behovet for forbedret robusthed klart. Selv de bedste moderne systemer forringer ydeevnen betydeligt, hvis signalet, der genkendes, passerer gennem en telefonkanal, eller hvis højttaleren taler med en accent. Dernæst overvejer vi modstand mod signalforvrængning forårsaget af omgivende, eksterne kilder til interferens. De vigtigste tilgange til robusthed er dynamisk justering af parametre, brug af mikrofonarrays og signalbehandling under hensyntagen til psykologiske perceptionsmodeller.

3.2 Dynamisk justering af parametre

Typisk antager modeller til tilpasning af systemer til skiftende miljøforhold, at kilderne til talekvalitetsforringelse er additiv støj med en ukendt effektspektraltæthedsfordeling eller en kombination af additiv støj og lineær filtrering. For at kompensere for disse interferenser kan systemet dynamisk justere de akustiske parametre, både beregnet ud fra det genkendte inputsignal og de akustiske modeller af ytringer lagret af systemet. Der er tre hovedtilgange til dynamisk justering af parametre:

Ved at bruge optimal estimering til at opnå nye parameterværdier under testbetingelser,

Anvendelse af kompensation baseret på empirisk sammenligning af talesignal i trænings- og testforhold,

Højpasfiltrering af parameterværdier.

Optimal parameterestimering

Der anvendes to hovedtilgange til optimal estimering.

Den første er baseret på formelle statistisk model, som karakteriserer forskellen mellem den tale, der bruges til at træne systemet, og den tale, der bruges til at teste systemet. Værdierne af modelparametrene estimeres ud fra testtaleprøver optaget i forskellige miljøer, hvorefter enten de beregnede parametre for inputsignalet eller de akustiske modeller af taleenheder gemt i systemet modificeres. Eksperimenter viser, at denne tilgang signifikant reducerer antallet af fejl ved genkendelse af et talesignal med additiv støj. Denne tilgang er dog ikke i stand til for alvor at modvirke forringelsen af ​​talekvaliteten under virkelige forhold.

En anden populær tilgang er at bruge viden om støj til at tvinge fonetiske modeller til at karakterisere tale med støj. Viden udledes af eksisterende interferensmønstre og bruges til at justere parametrene for fonetiske modeller (ændringer i middelværdier og varianser) beregnet ud fra tale uden interferens. Denne tilgang er implementeret i en teknik kaldet parallel model kombination. Det giver gode resultater for additiv, multiplikativ interferens og for rigtige talesignaler. Men i øjeblikket forhindrer for høje beregningsomkostninger dets brug i genkendelsessystemer.

Empirisk sammenligning af parametre

Parametrene ekstraheret fra tale uden interferens sammenlignes med parametrene for den samme tale optaget med interferens. I denne tilgang betragtes den kombinerede effekt af forskellige interferenser som additive overtrædelser af signalparametre. Ved sammenligning af parametre beregnes korrektionsvektorer, som derefter bruges til at korrigere enten parametervektorerne for det indgangsgenkendte signal eller parametervektorerne for akustiske modeller, der er lagret i genkendelsessystemet.

Genkendelsesnøjagtigheden forbedres, hvis korrektionsvektorer antages at afhænge af: signal-til-støj-forholdet, placeringen i parameterrummet inden for et givet signal-til-støj-forhold eller den forventede overensstemmelse mellem fonemer.

Denne generelle tilgang kan udvides til tilfælde, hvor testmiljøet er ukendt a priori, ved at danne et ensemble af korrektionsvektorer for mange forskellige testmiljøforhold. Korrektionsvektorerne påføres derefter sekventielt på talemodellerne, begyndende med den formentlig mest sandsynlige vektor, indtil den bedste overensstemmelse med vektoren opnået fra inputsignalet er fundet.

Hvis betingelserne for beregning af korrektionsvektorer er tæt på systemets faktiske driftsbetingelser, er kvaliteten af ​​dets drift ret høj. Ulempen er behovet for at bruge stereooptagelse til at skabe en database med akustiske modeller.

Anvendelse af højpasfiltre

Brugen af ​​højfrekvens- eller båndpasfiltrering ved beregning af cepstralkoefficienter gør det muligt at øge systemets støjimmunitet betydeligt til en minimal pris. Denne metode er implementeret i RASTA- og CMN-algoritmerne. Disse algoritmer bruges nu i næsten alle systemer, hvor der kræves støjimmunitet.

3.3 Brug af mikrofonsystemer

Yderligere forbedring af genkendelsesnøjagtigheden ved lave signal-til-støj-forhold kan opnås ved hjælp af et mikrofonarray. En sådan matrix kan i princippet realisere retningsfølsomhed med en karakteristik, der har et maksimum i retning af højttaleren og minimum i retning af interferenskilder, svarende til en phased array-antenne i radiokommunikation. Ved at ændre faseinddelingen af ​​individuelle elementer ved hjælp af addere og forsinkelseslinjer kan du finjustere retningsbestemt karakteristika, efterhånden som driftsbetingelserne ændres. Samtidig bruges algoritmer til at kompensere for den spektrale farvning introduceret af selve matrixen. Eksperimenter med et mikrofonsystem i et kontormiljø viste en reduktion i fejlprocenten til 61 % for interferens i form af en additiv støjkilde.

Selvom matrixen er effektiv mod interferens i form af additiv, uafhængig støj, forringer den ydeevnen betydeligt i nærværelse af mange reflekterende overflader, når interferensen er en let forsinket og dæmpet del af det nyttige signal.

Mere avancerede systemer bruger algoritmer baseret på krydskorrelation for at kompensere for signalforsinkelsesinterferens. Disse algoritmer er i stand til at forstærke det akustiske felt i bestemte retninger. De forbedrer dog kun marginalt systemets ydeevne sammenlignet med simple forsinkelses- og sumalgoritmer.

3.4 Psykologisk baseret signalbehandling

Behandling af det originale talesignal under hensyntagen til psykologiske perceptionsmodeller simulerer forskellige aspekter af menneskelig taleopfattelse. Sådanne behandlingssystemer omfatter typisk et sæt båndpasfiltre, der simulerer frekvensfølsomheden af ​​menneskelig hørelse, efterfulgt af ikke-lineære signalbehandlingsanordninger inden for og mellem kanaler.

Nylige evalueringer af genkendelsessystemer viser, at perceptuelle simuleringsmodeller giver bedre genkendelsesnøjagtighed end traditionel ceptrum, både under støjende forhold og på tværs af forskelle i trænings- og testforhold. Disse modeller er dog dårligere med hensyn til kvalitet i forhold til algoritmer til dynamisk justering af parametre; desuden er dynamisk justering billigere.

Det er muligt, at fejlen i simuleringsmodeller er forbundet med brugen af ​​Hidden Markov-modeller til klassificering, som viser sig at være dårligt tilpasset til at arbejde med de resulterende parametre. En række forskere mener også, at det optimale sæt af parametre, der er beregnet ved hjælp af disse modeller og karakteriserer talesignalet så præcist som muligt, endnu ikke er fundet. Derfor tiltrækker dette område fortsat stor opmærksomhed fra forskere.

3.5 Outlook

Trods dens åbenlyse betydning har robusthed i talegenkendelse først for nylig tiltrukket sig forskernes opmærksomhed. Der er kun opnået betydelig succes for forhold med ret "venlig" interferens, såsom additiv støj eller lineær filtrering. Systemernes uafhængighed af taleren omfatter nu kun indfødte. For folk, der taler med en accent, er genkendelsesnøjagtigheden betydeligt lavere, selv når den er tilpasset højttaleren.

Tale i telefonen

Telefontalegenkendelse er vanskelig, fordi hver telefonkanal har sit eget signal-til-støj-forhold og frekvensrespons. Desuden kan taleforvrængning være forårsaget af kortvarig interferens eller ulineariteter. Telefonlinjeapplikationer skal kunne tilpasse sig forskellige kanaler med få kanaldata.

Højt støjmiljø

Selv når der bruges forskellige støjkompensationsteknikker, falder genkendelsesnøjagtigheden betydeligt ved et signal-til-støj-forhold under 15 dB, mens en person er i stand til at høre tale perfekt i et meget lavere forhold.

Crosstalk

Påvirkningen af ​​andre samtaler, for eksempel i samme rum eller interferens på en tilstødende telefonkanal, er et meget vanskeligere problem end bredbåndsstøjinterferens. Indtil videre har bestræbelser på at bruge information, der adskiller genkendt tale fra tale, der forstyrrer, ikke ført til væsentlige resultater.

Hurtig tilpasning til accent i tale

I dagens tempofyldte samfund skal seriøse sprogapplikationer være i stand til at forstå talere uden accent såvel som dem med accent.

Udvikling af principper for oprettelse af taledatabaser

Fremskridt inden for støjbestandig genkendelse vil også afhænge af udviklingen af ​​principper for oprettelse af taledatabaser og direkte af oprettelsen af ​​sådanne databaser. For at gøre dette er det nødvendigt at indsamle, behandle og strukturere mange prøver af forvrængninger og interferens, der er karakteristiske for praktiske problemer.

4. AKUSTISKE MODELLER

4.1 Den akustiske models placering i systemet

Moderne talegenkendelsessystemer implementeres hovedsageligt som softwareprodukter, der genererer hypoteser om talte sekvenser af ord baseret på inputsignalet. Algoritmerne, der anvendes i sådanne systemer, er baseret på statistiske metoder.

Vektoren yt for akustiske parametre beregnes ud fra indgangssignalet hver 10.-30. ms. Sekvenserne af disse vektorer betragtes som observerbare sekvenser genereret af fonetiske modeller. Baseret på dette beregnes sandsynligheden p(ylT/W) for at observere en sekvens af vektorer ylT, når en sekvens (ord) W udtales, med andre ord sandsynligheden for at generere en sekvens ylT ved en model W. Givet en sekvens ylT , kan du søge ved hjælp af reglen:

find den mest sandsynlige rækkefølge af ord, der genererede ylT. Denne søgeprocedure finder den rækkefølge af ord, der har den maksimale bageste sandsynlighed. Sandsynligheden p(ylT/W) beregnes af den akustiske model og p(W) af sprogmodellen.

For systemer med en stor ordbog består søgningen af ​​to trin. I den første, ved at beregne omtrentlige sandsynligheder i realtid ved hjælp af forenklede modeller, genereres et gitter af de n bedste ordsekvenser. På anden fase beregnes mere nøjagtige sandsynligheder med et begrænset antal hypoteser. Nogle systemer genererer en sandsynlig sekvens af ord i ét trin.

4.2 Akustiske modeller baseret på Markov-kæder

Akustiske modeller er elementære probabilistiske modeller af grundlæggende sproglige enheder (dvs. fonemer) og bruges til at repræsentere næste niveausenheder - ord.

Sekvensen af ​​akustiske parametre opnået fra en talt sætning betragtes som implementeringen af ​​et sæt processer beskrevet ved hjælp af Hidden Markov Models (HMM'er). HMM er et sæt af to tilfældige processer:

Skjult Markov-kæde ansvarlig for ændringer over tid,

Sæt af observerbare stationære processer, der er ansvarlige for spektrale ændringer.

SMM har i praksis bevist, at det kan klare de vigtigste kilder til tvetydighed i et talesignal, såsom variationer i fonemudtale, samtidig med at det tillader skabelsen af ​​systemer med en ordbog med titusindvis af ord.

SMM struktur

Modellen er defineret som et par tilfældige processer (X, Y). Process X er en første-ordens Markov-kæde, hvis implementeringer ikke er direkte observerbare. Realiseringer af processen Y tager deres værdier fra rummet af akustiske parametre, observeres direkte, og deres fordelinger afhænger af realiseringerne af processen X.

HMM er karakteriseret ved to formelle antagelser. Den første vedrører Markov-kæden og fastslår, at den næste tilstand af kæden kun bestemmes af den nuværende tilstand og ikke afhænger af den tidligere bane. Den anden siger, at den aktuelle fordeling af proces Y, hvorfra den observerede værdi af den akustiske parameter er taget, kun afhænger af den aktuelle tilstand af Markov-kæden (proces X), og ikke af de tidligere baner af processer X og Y.

Bilag 1 giver en matematisk definition af modellen, et eksempel på generering af en observeret sekvens og beregningsformler.

For at reestimere modelparametrene under træningen, bruges den Baum-walisiske algoritme baseret på sandsynlighedsreestimering ved hjælp af Bayes-formlen.

HMM'er kan klassificeres efter elementerne i matrix B, som i sagens natur er fordelingsfunktioner.

Hvis fordelingsfunktionerne er defineret på et begrænset rum, vil modellen være diskret. I dette tilfælde er den observerede realisering en vektor af værdier fra et endeligt alfabet af M elementer. For hvert element af vektoren Q valgt fra mængden V, defineres en diskret tæthed (w(k)/k=1,...,M), der ikke er nul, og danner fordelingen. Denne definition forudsætter uafhængigheden af ​​elementerne i sættet V.

Hvis fordelingerne er defineret som sandsynlighedstætheder på et kontinuert rum, så vil modellen være kontinuert. I dette tilfælde stilles der krav til fordelingsfunktionerne for at begrænse antallet af estimerede parametre til acceptable grænser. Den mest populære tilgang er at bruge en lineær kombination af tætheder g fra familien af ​​G-standardfordelinger med en simpel parametrisk form. Typisk bruges g som en multivariat normalfordeling, karakteriseret ved en vektor af matematisk forventning og en kovariansmatrix. Antallet af standardfordelinger involveret i lineær kombination for at danne den resulterende fordeling er normalt begrænset af beregningsevner og mængden af ​​tilgængelige træningsdata.

Tuning af fordelingsparametre under træning af en kontinuerlig model kræver et stort antal træningsprøver. Hvis de er utilstrækkelige, tyr de til at bruge en pseudo-kontinuerlig model, hvor et standardsæt af grundlæggende tætheder bruges til at danne en lineær kombination. Lineære kombinationer adskiller sig kun fra hinanden i deres vægtningskoefficienter. Den generelle tilgang er at associere hver inputvektorkoordinat med sit eget distinkte sæt af basisdensiteter.

4.3 Ordmodellering

Fonetisk nedbrydning

Et ord er normalt repræsenteret af et netværk af fonemer. Hver sti i netværket repræsenterer en variantudtale af et ord.

Det samme fonem, udtalt i forskellige sammenhænge, ​​kan have forskellige akustiske parametre og derfor modelleres af forskellige fordelinger. Allofoner er mønstre, der repræsenterer et fonem i forskellige sammenhænge. Beslutningen om, hvor mange allofoner, der skal repræsentere et bestemt fonem, afhænger af mange faktorer, hvor den vigtigste er mængden af ​​træningsdata til at indstille parametrene for den akustiske model.

Der er flere varianter af allofonmodellen. En af dem er polyfoner. I princippet er udtalen af ​​et fonem forskellig i alle ord, hvor det forekommer, og kræver derfor forskellige allofoner. Med et stort ordforråd er det næsten umuligt at træne sådan en model på grund af manglen på træningsdata. Derfor bruges repræsentationen af ​​allofoner på flere detaljeringsniveauer: ord, stavelse, trifon, difon, kontekstuafhængigt fonem. Sandsynlighedsfordelinger af allofoner på forskellige detaljeringsniveauer kan opnås ved at kombinere fordelinger af mere detaljerede niveauer af repræsentationer. Tabet af funktioner kompenseres af en forbedring i estimeringen af ​​modellens statistiske parametre under træningen på grund af en stigning i forholdet mellem mængden af ​​træningsdata og antallet af estimerede modelparametre.

En anden variation er at gruppere allofoner i et vist antal mulige klasser af sammenhænge. Klassesøgningen udføres automatisk ved hjælp af et klassifikations- og regressionstræ (CART). Dette er et binært træ, ved roden er der et fonem, med hver knude tilknyttet et spørgsmål om konteksten som: "Er det forrige fonem en nasal konsonant?" For hvert muligt svar (ja, nej) er der en gren til en anden node. Træets blade er allofoner. Der er CART-vækst- og beskæringsalgoritmer, der automatisk forbinder spørgsmål fra en manuelt oprettet pulje med noder.

Hver allofon i genkendelsessystemer er modelleret ved hjælp af HMM. Generelt kan alle modeller bygges ved hjælp af distributioner trukket fra en enkelt, delt pulje eller op til flere tusinde klynger kaldet senoner.

Modeller af allofoner på højere niveau, såsom ord, kan også konstrueres ved at sammenkæde basismodeller ved hjælp af forbindende overgange og distributioner. Sådanne byggeklodser kaldes phenoner og multoner.

En anden tilgang til modellering af ord er at bruge en kodebog - et sæt referencefunktioner, der er dets ord. Baseret på inputvektoren for signalparametre findes det nærmeste referencetegn fra kodebogen, som har sit eget nummer. Til kodebogen bruges et standardsæt af grundlæggende tætheder, ord er repræsenteret af sekvenser af funktionsnumre. Hver nummersekvens modelleres derefter ved hjælp af en HMM.

Bestemmelse af ordgrænser og sandsynligheder

Generelt giver talesignalet og dets repræsentationer ikke klare indikationer af grænserne mellem ord, hvorfor ordgrænsedetektering er en del af en hypoteseproces, der udføres som en søgning. Under denne proces sammenlignes ordmønstre med en sekvens af akustiske parametre. I en probabilistisk ramme involverer sammenligning af akustiske sekvenser med modeller at beregne sandsynligheden for, at en given sekvens genereres af en given model, dvs. beregning af p(ylT/W). Dette er en nøglekomponent i anerkendelsesprocessen.

For en given tidssekvens: 1, 2, …, t, t+1, …, T-1, T:

Sandsynlighed dt(i) for, at sekvensen o1,o2...ot til tiden t er blevet observeret, og modellen er i tilstand Si (fremadgående algoritme):

for alle 1?i?N, 1?j?N, t = 1,2,…,T-1:

ved t = 1: d1(i) = pi bi(o1);(4.2)

for t > 1: dt(j) = .(4.3)

Sandsynlighed ft(i) for at observere sekvensen ot+1,ot+2,…oT startende fra moment t+1 til T, forudsat at modellen i øjeblikket t er i tilstand Si (bagudgående algoritme):

for alle 1?i?N, 1?j?N, t = T-1,T-2,…,1:

ved t = T: fT(i) = 1;(4,4)

kl< T: ft(i) = .(4.5)

Den samlede sandsynlighed for, at en model vil passere en bestemt bane i T-urcyklusser (sandsynligheden for at matche sekvensen og modellen) kan beregnes på tre måder:

P(O/l) = ;(4,6)

P(O/l) = ;(4,7)

P(Q/l) = dt(i) ft(i) = .(4,8)

Et eksempel på sandsynlighedsberegning er givet i bilag 2.

Til beregninger anvendes modeller i form af en lineær sekvens af tilstande med en begyndelse og en slutning. Overgange er kun mulige på plads og fra start til slut uden at hoppe over tilstande. Før korrespondancen beregnes, opdeles den indledende sekvens af parametervektorer i segmenter, der er lige lange med den givne model.

4.4 Outlook

Betydelige fremskridt inden for akustisk modellering opnået i de senere år har gjort det muligt at realisere god genkendelseskvalitet ved brug af en stor ordbog i realtid, samtidig med at der forbruges en acceptabel mængde ressourcer. Der er dog en række aspekter, der kræver forbedring. Først og fremmest drejer det sig om tilpasning til forskellige højttalere og forskellige akustiske miljøer, også ved tilstedeværelse af interferens. Der er også vanskeligheder med at behandle stammer, falske starter, ord, der mangler i ordbogen og andre funktioner, der er iboende i spontan tale.

Hovedretninger moderne forskning er akustisk støjimmunitet, forbedring af systemer af akustiske parametre og modeller, arbejde med et stort leksikon, understøttelse af flere kontekster og flere sprog, udvikling af metoder til automatisk træning af systemer.

5. SPROGMODELLER

5.1 Sprogmodellens placering i systemet

Talegenkendelsessystemer konverterer det akustiske signal til en ortografisk repræsentation af den talte ytring. Genkenderen bygger hypoteser ved hjælp af den endelige ordbog. For nemheds skyld antages det, at et ord er unikt identificeret ved dets udtale.

Der er opnået betydelige fremskridt i løsningen af ​​anerkendelsesproblemet, da man begyndte at bruge en statistisk model fælles distribution p(W,O) af en sekvens af talte ord W og den tilsvarende akustiske sekvens O. Denne tilgang blev først brugt af IBM under navnet "kildekanalmodel". Den bestemmer vurderingen af ​​korrespondancen af ​​den valgte ordforrådssekvens til det observerede akustiske faktum O ved hjælp af den posteriore fordeling p(W/O).

For at minimere fejl, vælger systemet en ordbogssekvens, der maksimerer denne posteriore fordeling:

hvor p(W) er sandsynligheden for rækkefølgen af ​​ord W, p(O/W) er sandsynligheden for at observere den akustiske rækkefølge O, når man udtaler ordrækken W, p(O) er den samlede sandsynlighed for at observere rækkefølgen O i henhold til alle tilgængelige akustiske modeller. p(O/W) = p(ylT/W) = P(O/l) og beregnes på stadiet af akustisk modellering ved hjælp af HMM og kaldes kanalen. p(O) antages at være lig med 1. Den forudgående sandsynlighed p(W) beregnes ved hjælp af en sprogmodel (LM).

En lignende genkendelsesmodel bruges til at genkende trykte og håndskrevne tekster.

5.2 Trigram-baseret sprogmodel

For en given rækkefølge af ord W=(w1,…,wn), kan dens sandsynlighed repræsenteres som:

w0 er bestemt til at være egnet til at sikre startbetingelserne. Sandsynligheden for hvert næste ord wi afhænger af den allerede talte sekvens hi. Med denne definition vokser modellens kompleksitet eksponentielt i takt med at den talte rækkefølge af ord øges. For at forenkle modellen og gøre den praktisk til praksis, antages det, at kun nogle aspekter af historien påvirker sandsynligheden for det næste ord. En måde at opnå dette på er at bruge en eller anden operation μ(), som opdeler det historiske rum i K-ækvivalente klasser. Så kan du anvende modellen:

Den største succes i de sidste 20 år er opnået ved hjælp af simple modeller n-gram. Oftest bruges trigrammer, hvor kun de to foregående ord bestemmer sandsynligheden for det næste ord. I dette tilfælde ser sandsynligheden for en sekvens af ord sådan ud:

For at estimere de forudgående sandsynligheder p(W) for NM er der brug for en stor mængde pædagogisk tekstmateriale. Under vurderingen beregnes frekvenser:

hvor c123 er antallet af forekomster af ordsekvensen (w1, w2, w3), c12 er antallet af forekomster af sekvensen (w1, w2,). For en ordbog med bind V er der V3 mulige trigrammer; for en ordbog på 20 tusind ord er der 8 billioner. Det er klart, at mange af disse trigrammer ikke findes i træningssekvenser, så for dem f3(w3/w1, w2) = 0. For at sikre, at de tilsvarende sandsynligheder ikke er lig med nul, skal lineær interpolation af frekvenserne af trigrammer, bigrammer og ord, såvel som deres ensartet fordeling på ordbogen:

f1() og f2() evalueres ved at tælle de tilsvarende bigrammer og trigrammer. Koefficienter l for lineær interpolation estimeres ved at søge efter den maksimale sandsynlighed for nye data, der ikke deltog i beregningen af ​​n-gram frekvenser. Ved maksimering anvendes en frem-tilbage-algoritme (formlerne (4.2) - (4.5)).

Generelt kan der anvendes mere end en l vektor. Det er også tilrådeligt at tage højde for større tillid til trigramfrekvenser estimeret på et større antal træningssekvenser. For at gøre dette gøres vægtningskoefficienterne l afhængige af grupperne af bigrammer og ord b(c12, c2), der udgør historien for det pågældende ord. Denne metode kaldes slettet interpolation. Andre udjævningsordninger anvendes også. Når man modellerer et sprog ved hjælp af trigrammer, varierer mængden af ​​ordbogsdata normalt fra 1 million til 500 millioner ord, med en tilsvarende ordbogsvolumen fra 1 tusind til 267 tusinde ord.

5.3 Kompleksitet (forvirring)

For at sammenligne genkendelsessystemer kan du bruge fejlprocenten. Denne metrik evaluerer bedst sprogmodeller. Der er dog en billigere måde at evaluere nukleare materialer på. Den bruger en mængde, der karakteriserer mængden af ​​information - entropi. Ideen er at beregne entropi for ny tekst, der ikke blev brugt ved oprettelsen af ​​modellen. Ordforrådsentropien beregnet direkte ud fra teksten sammenlignes med entropien beregnet ud fra ML. Det NM, hvis entropi er tættest på teksten en, vil være bedst.

Lad os betegne som p(x) den korrekte sandsynlighedsfordeling af ord i et tekstsegment x bestående af k ord. Lad os definere tekstens entropi baseret på ordbogsgrundlaget som:

Hvis ordene i teksten er lige sandsynlige, og tekststørrelsen er V, så er H=log2V, for andre fordelinger H?log2V. Du kan bruge NM til at bestemme sandsynligheden i et tekstsegment. Værdien af ​​sandsynlighedslogaritmen for NM er:

hvor pО(wi/hi) er sandsynligheder bestemt af en given ML. Grænse, dvs. beregnet ved hjælp af NM, er ikke lavere end tekstens entropi. Målet med at sammenligne forskellige NM'er er naturligvis at finde en, for hvilken sandsynlighedslogaritmen beregnet ud fra NM vil være tættest på entropien beregnet ud fra teksten.

Forvirring karakteriserer niveauet af logaritmen af ​​NM-sandsynligheden og er defineret som 2lp. Groft sagt er dette den gennemsnitlige størrelse af den ordbog, hvorfra et andet ord ved anerkendelse. Forvirring afhænger af det taledomæne, der bruges. Forvirringsværdier for nogle taledomæner er angivet i tabel 5.1.

talegenkendelse akustisk sprog

Tabel 5.1. Forvirring af taledomæner

5.4 Ordbogsstørrelse

Fejlraten kan ikke være lavere end procentdelen af ​​talte ord, der ikke er med i ordbogen. Derfor er hoveddelen af ​​opbygningen af ​​en ML at udvikle en ordbog, der maksimalt dækker de tekster, som systemet sandsynligvis vil genkende. Dette er fortsat en menneskelig udfordring.

Ved oprettelse af en ordbog udvælges først tekster, der karakteriserer den opgave, som systemet skal arbejde med. Derefter opdeles teksterne i ord ved hjælp af automatiseringsværktøjer. Dernæst er hvert ord forbundet med et sæt af dets udtalemuligheder, inklusive mulige fremtidige muligheder. Alle opnåede udtalemuligheder bruges til at komponere trigrammer.

Tabel 5.2 viser procentdelen af ​​dækningen af ​​nye tekster på engelsk af genkendelsessystemet ved brug af en ordbog af en fast størrelse. På sprog med et stort antal ordformer og afhængigheder i orddannelse (tysk, fransk) kræves en meget større ordbog for samme dækningsgrad.

En mere rationel tilgang indebærer at sammensætte en personlig ordbog for hver bruger af genkendelsessystemet ud over den faste ordbog. Tabel 5.2 viser væksten i dækningen af ​​nye ord med et sådant dynamisk tilpasseligt system med en indledende, fast ordbogsvolumen på 20 tusinde ord. Dataene sammenlignes med et system, der bruger en statisk ordbog af samme størrelse, når teksten genkendes af den repræsenterede længde.

Tabel 5.2. Kvalitet af genkendelse af nye tekster

5.5 Forbedrede sprogmodeller

Der er mange forbedringer til YaM baseret på trigrammer. De vigtigste er nævnt nedenfor.

Klasse modeller

I stedet for ord i en sprogmodel kan du bruge et sæt ordklasser. Klasser kan overlappe hinanden, fordi et ord kan høre til forskellige klasser. Klasser kan være baseret på ordled, morfologisk analyse af et ord og kan bestemmes automatisk baseret på statistiske sammenhænge. Den generelle klassemodel ser således ud:

hvor ci er klasser. Hvis klasserne ikke krydser hinanden, så:

Forvirringen af ​​en sådan model er højere end den baseret på trigrammer, men den falder, når man kombinerer modeller af disse to typer.

Dynamiske modeller

Her tages der højde for fortiden, der varer hele dokumentet. Dette gøres for at opdage hyppigt forekommende ord (for eksempel er ordet "model" i denne tekst et hyppigt ord). Brug af en CACHE til sådanne ord gør det muligt at gøre ML mere dynamisk, hvilket reducerer søgetiden.

Kombinationsmodeller

En anden tilgang er at opdele hele taledatabasen i flere klynger. For at modellere en ny tekst bruges en lineær kombination af trigrammodeller fra forskellige klynger:

hvor pj() evalueres i forhold til den jth tekstklynge.

Strukturelle modeller

I disse modeller bruges parsing i stedet for at påvirke sandsynligheden for et ord ved umiddelbar tidligere historie. Ved hjælp af en sådan parsing etableres en forbindelse mellem slettede ord, som for nylig er blevet foreslået at blive taget i betragtning ved sammensætning af fjernbigrammer.

5.6 Udsigter

De vigtigste områder, hvor indsatsen i øjeblikket er fokuseret, er:

Ordbogsvalg

Hvordan man definerer ordbogen for et nyt taledomæne, praktisk personaliserer ordbogen til brugeren, maksimerer tekstdækningen. Dette problem er mest væsentligt for sprog med et stort antal ordformer og østlige sprog, hvor begrebet et ord ikke er klart defineret.

Tilpasning af taledomæne

Dette er opgaven med at opsætte en effektiv ML for domæner, der ikke har en stor mængde ordbogsdata til rådighed for maskinen, samt at bestemme samtaleemnet. Dette ville gøre det muligt at anvende en specifik, tematisk model for talegenkendelse.

Brug af sprogstruktur

Det nuværende niveau for vurdering af kvaliteten af ​​systemdriften tillader ikke at forbedre systemdriften ved hjælp af sprogets struktur. At udvikle en sprogmodel baseret på sprogets struktur kan være nøglen til fremskridt i sprogmodellering. Nuværende fremskridt baseret på probabilistiske modeller afspejler barndomsstadiet i udviklingen af ​​sprogmodellering. Fremskridt her er forbundet med øget datastrukturering.

KONKLUSION

Dette papir diskuterer de grundlæggende principper for konstruktion af talegenkendelsessystemer på det nuværende udviklingstrin, deres klassificering og de problemer, de løser. En moderne tilgang til systemers støjimmunitet overvejes.

Systemets struktur, hovedopgaverne løst af dets komponenter, principperne for foreløbig behandling af kildesignalet, konstruktionen af ​​akustiske og sproglige modeller præsenteres.

Lignende dokumenter

    Digital signalbehandling og dens anvendelse i talegenkendelsessystemer, diskrete signaler og metoder til deres konvertering, det grundlæggende i digital filtrering. Implementering af talegenkendelsessystemer, homomorf talebehandling, optagelse og afspilningsgrænseflade.

    afhandling, tilføjet 06/10/2010

    Fordele ved radiokanaler sikkerhedssystemer. De vigtigste retninger for talekodning: bølgeformskodning og kildekodning. Blokdiagram over talebehandlingsprocessen i GSM-standarden. Kvalitetsvurdering af talekodning.

    abstract, tilføjet 20/10/2011

    Opgaver inden for tale og datatransmission. Digital taletransmission. Kategorier af digitale talekodningsmetoder. Bølgeformkodere. Type af amplitudekarakteristik for kompressoren. Diskret model for taleproduktion. Funktioner ved den kortsigtede analysemetode.

    test, tilføjet 18.12.2010

    Overvejelse af de vigtigste stadier i løsningen af ​​problemet med at optimere signalmodtagelse. Undersøgelse af metoder til filtrering og optimering af løsninger. Probabilistisk tilgang til vurdering af signalmodtagelse; bestemmelse af sandsynligheden for genkendelsesfejl. Statiske genkendelseskriterier.

    præsentation, tilføjet 28.01.2015

    Talekodning RPE – LTP – 16 kbit/s encoder. Opbygning af en taledekoder i GSM-standarden. Refleksionskoefficienter for kortsigtet forudsigelse ved brug af Berg-metoden for 8. ordens RF. Spektral karakteristika for post-filteret. Dannelse af formant-regioner.

    abstract, tilføjet 15-11-2010

    Blokdiagrammer over homomorfisk behandling og analyse af talesignaler. Kompleks cepstrum af tale. Komponent af talesignalet. Pitch periode og formant frekvens. Funktionsmodul for stemmeoverførsel. Cepstrum-baseret pitch-estimering.

    abstract, tilføjet 19.11.2008

    Generel klassifikation radioadgangssystemer og netværk. Klassificering af radioadgangssystemer i henhold til radiogrænsefladens parametre og karakteristika. Systemer med analog og digital transmission. Tjenester digital transmission tale. Klassificering i henhold til anvendte problemer, der skal løses.

    abstract, tilføjet 10/06/2010

    Status for problemet med automatisk talegenkendelse. Gennemgang af lydsignalaflæsningsenheder. Arkitektur af det perifere enheds kontrolsystem. Styrekredsløb for elektriske apparater. Skematisk diagram over tilslutning af elektriske enheder.

    afhandling, tilføjet 18-10-2011

    Informationskarakteristika og blokdiagram af transmissionssystemet; beregning af analog-til-digital konverter parametre og udgangssignal. Kodning med rettelseskode. Bestemmelse af modemets egenskaber; sammenligning af støjimmunitet for kommunikationssystemer.

    kursusarbejde, tilføjet 28/05/2012

    Strukturen af ​​radiosignalbehandlingsenheder, intern struktur og driftsprincip, signalbehandlingsalgoritmer. Grundlaget for at generere et signal ved udgangen af ​​en lineær enhed. Modeller af lineære enheder. Beregning af operatørtransmissionskoefficienten for kredsløbet.

Belenko M.V. 1, Balakshin P.V. 2

1 studerende, ITMO University, 2 kandidat tekniske videnskaber, assistent, ITMO University

SAMMENLIGNENDE ANALYSE AF OPEN SOURCE TALEGENKENDELSESSYSTEMER

anmærkning

Artiklen giver en komparativ analyse af de mest almindelige open source automatiske talegenkendelsessystemer. Under sammenligningen blev der brugt mange kriterier, herunder systemstrukturer, programmeringssprog brugt til implementering, tilgængeligheden af ​​detaljeret dokumentation, understøttede genkendelsessprog og begrænsninger pålagt af licensen. Der blev også udført eksperimenter på adskillige talekorpus for at bestemme genkendelsens hastighed og nøjagtighed. Som følge heraf blev der for hvert af de betragtede systemer udviklet anbefalinger til brug med en yderligere indikation af aktivitetens omfang.

Nøgleord: talegenkendelse, metrisk, Word Recognition Rate (WRR), Word Error Rate (WER), Speed ​​​​Factor (SF), open source

Belenko M.V. 1, Balakshin P.V. 2

1 studerende, ITMO University, 2 PhD i ingeniørvidenskab, assistent, ITMO University

SAMMENLIGNENDE ANALYSE AF TALEGENKENDELSESSYSTEMER MED ÅBEN KODE

Abstrakt

Papiret giver en sammenligning af de mest almindelige automatiske talegenkendelsessystemer med åben kildekode. Mange kriterier blev brugt ved sammenligning, herunder systemstrukturer, programmeringssprog for implementering, detaljeret dokumentation, understøttede genkendelsessprog og begrænsninger pålagt af licensen. Der blev også udført eksperimenter på flere talebaser til bestemmelse af hastighed og nøjagtighed af genkendelsen. Som følge heraf blev anbefalingerne givet til anvendelse med yderligere angivelse af aktivitetsomfanget for hvert af de undersøgte systemer.

Nøgleord: talegenkendelse, metrisk, Word Recognition Rate (WRR), Word Error Rate (WER), Speed ​​​​Factor (SF), åben kildekode

Talegenkendelsessystemer (Automatic Speech Recognition Systems) bruges hovedsageligt til at simulere kommunikation mellem en person og en maskine, for eksempel til stemmestyring af programmer. I øjeblikket bruges talesignalgenkendelse i en lang række systemer – fra applikationer på smartphones til Smart Home-systemer. Yderligere bevis på relevansen af ​​dette felt er de mange forsknings- og udviklingscentre rundt om i verden. Langt de fleste styresystemer er dog proprietære produkter, dvs. brugeren eller den potentielle udvikler har ikke adgang til deres kildekode. Dette påvirker negativt evnen til at integrere talegenkendelsessystemer i open source-projekter. Der er heller ingen centraliseret datakilde, der beskriver de positive og negative aspekter af open source talegenkendelsessystemer. Som et resultat opstår problemet med valg optimalt system talegenkendelse for at løse problemet.

Som en del af arbejdet blev seks open source-systemer overvejet: CMU Sphinx, HTK, iAtros, Julius, Kaldi og RWTH ASR. Udvælgelsen er baseret på hyppighed af omtale i nutidige forskningstidsskrifter, eksisterende udvikling i de senere år og popularitet blandt individuelle softwareudviklere. De udvalgte systemer blev sammenlignet med hensyn til sådanne indikatorer som genkendelsesnøjagtighed og hastighed, brugervenlighed og intern struktur.

Med hensyn til nøjagtighed blev systemerne sammenlignet ved hjælp af de mest almindelige metrics: Word Recognition Rate (WRR), Word Error Rate (WER), som beregnes ved hjælp af følgende formler:

hvor S er antallet af operationer for at erstatte ord, I er antallet af operationer for at indsætte ord, D er antallet af operationer for at fjerne ord fra en genkendt sætning for at opnå den oprindelige sætning, og T er antallet af ord i originalen sætning og måles i procent. Med hensyn til genkendelseshastighed blev sammenligningen foretaget ved hjælp af Real Time Factor - en indikator for forholdet mellem genkendelsestid og varigheden af ​​det genkendte signal, også kendt som Speed ​​​​Factor (SF). Denne indikator kan beregnes ved hjælp af formlen:

hvor T ref er signalgenkendelsestiden, T er dens varighed og måles i brøkdele af realtid.

Alle systemer blev trænet ved hjælp af WSJ1 (Wall Street Journal 1) talekorpus, som indeholder cirka 160 timers træningsdata og 10 timers testdata, som er uddrag fra avisen Wall Street Journal. Dette talekorpus omfatter optagelser af talere af begge køn på engelsk.

Efter udførelse af eksperimentet og behandling af resultaterne blev følgende tabel opnået (tabel 1).

Tabel 1 – Sammenligningsresultater for nøjagtighed og hastighed

System WER, % WRR, % SF
HTK 19,8 80,2 1.4
CMU Sphinx

(pocketsphinx/sphinx4)

21.4/22.7 78.6/77.3 0.5/1
Kaldi 6.5 93.5 0.6
Julius 23.1 76.9 1.3
iAtros 16.1 83.9 2 .1
RWTH ASR 15.5 84.5 3.8

Nøjagtigheden og rigtigheden af ​​undersøgelsen bekræftes af, at de opnåede resultater svarer til resultaterne opnået ved testning af disse systemer på andre talekorpus, såsom Verbmobil 1, Quaero, EPPS, , .

Kriterierne for sammenligning af strukturer var sproget for systemimplementeringen, de algoritmer, der blev brugt til genkendelse, formaterne for input- og outputdata og den interne struktur af softwareimplementeringen af ​​selve systemet.

Talegenkendelsesprocessen generelt kan repræsenteres i følgende trin:

  1. Udtrække akustiske funktioner fra indgangssignalet.
  2. Akustisk modellering.
  3. Sprogmodellering.
  4. Afkodning.

De tilgange, algoritmer og datastrukturer, der anvendes af de talegenkendelsessystemer, der overvejes på hvert af de anførte stadier, er præsenteret i tabellerne (Tabel 2, 3).

Tabel 2 – Resultater af sammenligning af algoritmer

System Feature Extraction Akustisk modellering Sprogmodellering Anerkendelse
HTK MFCC HMM N-gram Viterbi algoritme
CMU Sphinx MFCC, PLP HMM N-gram, FST Viterbi-algoritme, bushderby-algoritme
Kaldi MFCC, PLP HMM, GMM, SGMM, DNN FST, der er en N-gramm->FST-konverter To-pass frem-tilbage-algoritme
Julius MFCC, PLP HMM N-gram, regelbaseret Viterbi algoritme
iAtros MFCC HMM, GMM N-gram, FST Viterbi algoritme
RWTH ASR MFCC, PLP, stemmelighed HMM, GMM N-gramm, WFST Viterbi algoritme

Tabel 3 – Systemimplementeringssprog og deres struktur

System Sprog Struktur
HTK MED Modulær, i form af hjælpeprogrammer
CMU Sphinx

(pocketsphinx/sphinx4)

C/Java Modulært
Kaldi C++ Modulært
Julius C Modulært
iAtros C Modulært
RWTH ASR C++ Modulært

Ud fra et brugervenlighedssynspunkt blev sådanne indikatorer som dokumentationsdetaljer, understøttelse af forskellige software- og hardwareudførelsesmiljøer, licensbegrænsninger, understøttelse af flere naturlige genkendelsessprog og interfacekarakteristika overvejet. Resultaterne er præsenteret i de følgende tabeller (Tabel 4, 5, 6, 7, 8).

Tabel 4 – Tilgængelighed af dokumentation

Tabel 5 - Understøttelse af forskellige operativsystemer

System Understøttet OS
HTK Linux, Solaris, HPUX, IRIX, Mac OS, FreeBSD, Windows
CMU Sphinx

(pocketsphinx/sphinx4)

Linux, Mac OS, Windows, Android
Kaldi Linux, Windows, FreeBSD
Julius Linux, Windows, FreeBSD, Mac OS
iAtros Linux
RWTH ASR Linux, Mac OS

Tabel 6 - Systemgrænseflader

Tabel 7 – Understøttede genkendelsessprog

Tabel 8 - Licenser

System Licens
HTK HTK
CMU Sphinx

(pocketsphinx/sphinx4)

BSD
Kaldi Apache
Julius BSD-lignende
iAtros GPLv3
RWTH ASR RWTH ASR

Efter at have analyseret resultaterne opnået ovenfor, er det muligt at karakterisere hvert af de overvejede systemer og udvikle anbefalinger til deres brug.

Kaldi. Dette system viser den bedste genkendelsesnøjagtighed af alle betragtede systemer (WER=6,5%) og den anden genkendelseshastighed (SF=0,6). Ud fra de leverede algoritmer og datastrukturer, der bruges til talegenkendelse, er dette system også førende, da det giver største antal moderne tilgange brugt inden for talegenkendelse, såsom brugen af ​​neurale netværk og gaussiske blandingsmodeller på stadiet af akustisk modellering og brugen af ​​finite state-maskiner på stadiet af sprogmodellering. Det giver dig også mulighed for at bruge mange algoritmer til at reducere størrelsen af ​​akustiske signalfunktioner og dermed øge systemets ydeevne. Kaldi er skrevet i programmeringssproget C++, hvilket har en positiv effekt på systemets hastighed, og har en modulær opbygning, som gør det nemt at refaktorere systemet, tilføje ny funktionalitet og rette eksisterende fejl. Med hensyn til brugervenlighed er Kaldi også et af de første systemer. Den giver detaljeret dokumentation, men henvender sig til læsere med erfaring i talegenkendelse. Dette kan have en negativ indvirkning på brugen af ​​dette system af nye på området. Det er cross-platform, det vil sige, det kører på de fleste moderne operativsystemer. Kaldi leverer kun en konsolgrænseflade, hvilket gør integration i tredjepartsapplikationer vanskelig. Som standard understøtter dette system kun engelsk sprog, distribueres under en helt gratis Apache-licens, det vil sige, at den kan integreres i et kommercielt produkt uden at afsløre dets kode. Dette system kan med succes bruges til forskningsaktiviteter, da det giver god genkendelsesnøjagtighed, acceptabel genkendelseshastighed og implementerer mange moderne metoder talegenkendelse, har mange færdige opskrifter, som gør den nem at bruge og har omfattende dokumentation.

CMU Sphinx. Dette talegenkendelsessystem viser middelmådig genkendelsesnøjagtighed (WER~22%) og den bedste genkendelseshastighed af alle de gennemgåede (SF=0,5). Det skal bemærkes, at den højeste genkendelseshastighed opnås ved brug af pocketsphinx-dekoderen skrevet i C; sphinx4-dekoderen viser en meget gennemsnitlig driftshastighed (SF=1). Strukturelt bruger dette system også mange moderne tilgange til talegenkendelse, inklusive en modificeret Viterbi-algoritme, men der er færre metoder, der anvendes end Kaldi. Især på det akustiske modelleringsstadium fungerer dette system kun med skjulte Markov-modeller. CMU Sphinx inkluderer to dekodere - pocketsphinx, implementeret i C, og sphinx4, implementeret i Java. Dette gør det muligt for systemet at blive brugt på flere platforme, inklusive Android-operativsystemet, og det letter også integration i projekter skrevet i Java. Dette system har en modulær opbygning, hvilket har en positiv effekt på evnen til hurtigt at foretage ændringer og rette fejl. Med hensyn til brugervenlighed er CMU Sphinx foran Kaldi, da den ud over konsolgrænsefladen giver en API, som væsentligt forenkler processen med at integrere systemet i en tredjepartsapplikation. Den har også detaljeret dokumentation, som i modsætning til Kaldi er rettet mod den nybegyndere, hvilket i høj grad forenkler processen med at lære systemet at kende. Også stærke side Dette system understøttes af mange sprog som standard, det vil sige tilgængeligheden af ​​sproglige og akustiske modeller af disse sprog i fri adgang. Blandt de understøttede sprog er der udover standard engelsk også russisk, kasakhisk og en række andre. CMU Sphinx distribueres under BSD-licensen, som tillader dets integration i kommercielle projekter. Dette system kan bruges i kommercielle projekter, da det har de fleste fordele ved Kaldi, selvom det giver lidt dårligere genkendelsesnøjagtighed, og det giver også en API, der kan bruges til at bygge tredjepartsapplikationer baseret på dette system.

HTK. Med hensyn til nøjagtighed og hastighed viser dette system gennemsnitlige resultater blandt de gennemgåede systemer (WER=19,8%, SF=1,4). HTK leverer kun klassiske algoritmer og datastrukturer inden for talegenkendelse. Dette skyldes det faktum, at den tidligere version af systemet blev udgivet i 2009. En ny version af HTK blev udgivet i slutningen af ​​december 2015, men blev ikke taget i betragtning i denne undersøgelse. Dette system er implementeret i C-sproget, hvilket afspejles godt i driftshastigheden, da C er et programmeringssprog på lavt niveau. Strukturen af ​​dette system er et sæt af hjælpeprogrammer kaldet fra kommandolinjen, og giver også en API kendt som ATK. Med hensyn til brugervenlighed er HTK sammen med Julius det førende system blandt de gennemgåede. Som dokumentation giver den HTK-bogen, en bog, der ikke kun beskriver aspekter af HTK's drift, men også de generelle principper for talegenkendelsessystemer. Som standard understøtter dette system kun engelsk. Distribueres under HTK-licensen, som tillader distribution af systemets kildekode. Dette system kan anbefales til brug i undervisningsaktiviteter inden for talegenkendelse. Den implementerer de fleste af de klassiske tilgange til løsning af talegenkendelsesproblemet, har meget detaljeret dokumentation, der også beskriver de grundlæggende principper for talegenkendelse generelt, og har mange tutorials og opskrifter.

Julius. Dette system viser den dårligste nøjagtighedsrate (WER=23,1) og den gennemsnitlige genkendelsesrate (SF=1,3). De akustiske og sproglige modelleringsfaser udføres ved hjælp af de værktøjer, der er inkluderet i HTK, men afkodningen sker ved hjælp af dens egen dekoder. Det bruger, ligesom de fleste af de diskuterede systemer, Viterbi-algoritmen. Dette system er implementeret i C-sprog, implementeringsstrukturen er modulær. Systemet giver en konsolgrænseflade og API til integration i tredjepartsapplikationer. Dokumentation er ligesom i HTK implementeret i form af en Julius bog. Som standard understøtter Julius engelsk og japansk. Distribueret under en BSD-lignende licens. Julius-systemet kan også anbefales til undervisningsaktiviteter, da det har alle fordelene ved HTK, og også giver mulighed for at genkende sådanne eksotisk sprog som japansk.

Iatros. Dette system viser et godt resultat i genkendelsesnøjagtighed (WER=16,1%) og et middelmådigt resultat i hastighed (SF=2,1). Det er meget begrænset i sine muligheder med hensyn til algoritmer og datastrukturer, der bruges i talegenkendelse, men det giver mulighed for at bruge Gaussiske blandingsmodeller som tilstande af en skjult Markov-model på det akustiske modelleringsstadium. Dette system er implementeret i sprog C. Det har en modulær struktur. Ud over talegenkendelsesfunktionalitet indeholder den også et tekstgenkendelsesmodul. Det har den ikke af stor betydning for denne undersøgelse er det dog et karakteristisk træk ved dette system, som ikke kan ignoreres. Med hensyn til brugervenlighed er iAtros ringere end alle systemer, der er undersøgt under undersøgelsen. Dette system har ikke dokumentation, giver ikke en API til indlejring i tredjepartsapplikationer; de understøttede standardsprog er engelsk og spansk. Det er slet ikke på tværs af platforme, da det kun kører under operativsystemer i Linux-familien. Distribueret under GPLv3-licensen, som ikke tillader dette system at blive integreret i kommercielle projekter uden at afsløre deres kildekode, hvilket gør det uegnet til brug i kommercielle aktiviteter. iAtros-systemet kan med succes bruges, hvor det udover talegenkendelse også er nødvendigt at bruge billedgenkendelse, da dette system giver en sådan mulighed.

RWTH ASR. Med hensyn til genkendelsesnøjagtighed viser RWTH ASR et godt resultat (WER=15,5%), men med hensyn til genkendelseshastighed er det det dårligste system blandt de betragtede (SF=3,8). Dette system, ligesom iAtros, kan bruge Gaussiske blandingsmodeller på det akustiske modelleringsstadium. Særpræg er muligheden for at bruge stemmeegenskaberne ved udtrækning af indgangssignalets akustiske karakteristika. Dette system kan også bruge en vægtet tilstandsmaskine som en sprogmodel under sprogmodelleringsfasen. Dette system er implementeret i C++ og har en modulær arkitektur. Med hensyn til brugervenlighed er den næstsidste, den har dokumentation, der kun beskriver installationsprocessen, hvilket tydeligvis ikke er nok til at begynde at arbejde med systemet. Giver kun en konsolgrænseflade, understøtter som standard kun engelsk. Systemet er ikke cross-platform nok, da det ikke kan køre under Windows-operativsystemet, hvilket er meget almindeligt i dag. Distribueret under RWTH ASR-licensen, hvorunder systemkoden kun er til ikke-kommerciel brug, hvilket gør dette system uegnet til integration i kommercielle projekter. Dette system kan bruges til at løse problemer, hvor genkendelsesnøjagtighed er vigtig, men tiden er ikke vigtig. Det er også værd at bemærke, at det er fuldstændig uegnet til enhver kommerciel aktivitet på grund af de begrænsninger, som licensen pålægger.

Liste over litteratur / referencer

  1. CMU Sphinx Wiki [ Elektronisk ressource]. – URL: http://cmusphinx.sourceforge.net/wiki/ (adgangsdato: 01/09/2017)
  2. Gaida C. Sammenligning af open source-talegenkendelsesværktøjssæt [Elektronisk ressource]. / C. Gaida et al. // Teknisk rapport om projektet OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (adgangsdato: 02/12/2017)
  3. El Moubtahij H. Brug af funktioner i lokale tætheder, statistik og HMM-værktøjssæt (HTK) til offline arabisk håndskrevet tekstgenkendelse / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V 3. Nr. 3. – S. 99-110.
  4. Jha M. Forbedret uovervåget talegenkendelsessystem ved hjælp af MLLR højttalertilpasning og konfidensmåling / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – S. 255-258.
  5. Kaldi [Elektronisk ressource]. – URL: http://kaldi-asr.org/doc (adgangsdato: 19/12/2016)
  6. Luján-Mares M. iATROS: ET SYSTEM FOR TALE OG HÅNDSKRIFTGENKENDELSE / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla - 2008. - S. 75-58.
  7. El Amrania M.Y. Opbygning af CMU Sphinx-sprogmodel for den hellige Koran ved hjælp af forenklede arabiske fonemer / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal – 2016. – V. 17. Nr. 3. – S. 305–314.
  8. Ogata K. Analyse af artikulatorisk timing baseret på en superpositionsmodel for VCV-sekvenser / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics - 2014. - Januar udg. – S. 3720-3725.
  9. Sundermeyer Det rwth 2010 quaero asr evalueringssystem for engelsk, fransk og tysk / M. Sundermeyer et al. // Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP) – 2011. – S. 2212-2215.
  10. Alimuradov A.K. ADAPTIV METODE TIL AT ØGE EFFEKTIVITETEN AF STEMMEKONTROL / A.K. Alimuradov, P.P. Churakov // Proceedings of the International Scientific and Technical Conference "Advanced Information Technologies" – 2016. – S. 196-200.
  11. Bakalenko V.S. Intellektualisering af programkode input/output vha taleteknologier: dis. ... Master of Engineering and Technology. – DonNTU, Donetsk, 2016.
  12. Balakshin P.V. Algoritmiske og software-talegenkendelsesværktøjer baseret på skjulte Markov-modeller til telefonisk kundesupport: dis. ...cand. tech. Videnskaber: 13/05/11: beskyttet 10/12/2015: godkendt. 06/08/2016 / Balakshin Pavel Valerievich. – St. Petersborg: ITMO University, 2014. – 127 s.
  13. Balakshin P.V. DENSITETSFUNKTION AF SMM STATENS VARIGHED. FORDELE OG ULEMPER / P.V. Balakshin // Moderne problemer med videnskab og uddannelse. – 2011. – nr. 1. – S. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (adgangsdato: 13/11/2016).
  14. Belenko M.V. SAMMENLIGNENDE ANALYSE AF ÅBEN KODE TALEGENKENDELSESSYSTEMER / M.V. Belenko // Samling af værker fra V All-Russian Congress of Young Scientists. T. 2. – St. Petersborg: ITMO University, 2016. – S. 45-49.
  15. Gusev M.N. Talegenkendelsessystem: grundlæggende modeller og algoritmer / M.N. Gusev, V.M. Degtyarev. – Sankt Petersborg: Znak, 2013. – 128 s.
  16. Karpov A.A. Multimodale hjælpesystemer til intelligent bolig / A.A. Karpov, L. Akarun, A.L. Ronzhin // Proceedings of SPIIRAN. – 2011. – T. 19. – Nej. 0. – S. 48-64.
  17. Karpov A.A. Metode til vurdering af ydeevnen af ​​automatiske talegenkendelsessystemer / A.A. Karpov, I.S. Kipyatkova // Nyheder om det højere uddannelsesinstitutioner. Instrumentering. – 2012. – T. 55. – Nr. 11. – s. 38-43.
  18. Tampel I.B. Automatisk talegenkendelse – hovedstadier over 50 år / I.B. Tampel // Videnskabelig og teknisk bulletin informationsteknologier, mekanik og optik. – 2015. – T. 15. – Nr. 6. – S. 957–968.

Liste over referencer på engelsk /Referencer i engelsk

  1. CMU Sphinx Wiki. – URL: http://cmusphinx.sourceforge.net/wiki/ (tilgået: 01/09/2017).
  2. Gaida C. Sammenligning af open source-talegenkendelsesværktøjssæt. / C. Gaida et al. // Teknisk rapport om projektet OASIS. – URL: http://suendermann.com/su/pdf/oasis2014.pdf (tilgået: 02.12.2017)
  3. El Moubtahij, H. Brug af funktioner i lokale tætheder, statistik og HMM-værktøjssæt (HTK) til offline arabisk håndskrevet tekstgenkendelse / H. El Moubtahij, A. Halli, K. Satori // Journal of Electrical Systems and Information Technology – 2016. – V. 3. Nr. 3. – S. 99-110.
  4. Jha, M. Forbedret uovervåget talegenkendelsessystem ved hjælp af MLLR-højttalertilpasning og konfidensmåling / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – S. 255-258.
  5. Kaldi. – URL: http://kaldi-asr.org/doc (tilgået: 19/12/2016)
  6. Luján-Mares, M. iATROS: ET SYSTEM FOR TALE OG HÅNDSKRIFTGENKENDELSE / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla - 2008. - S. 75-58.
  7. El Amrania, M.Y. Opbygning af CMU Sphinx-sprogmodel for den hellige Koran ved hjælp af forenklede arabiske fonemer / M.Y. El Amrania, M.M. Hafizur Rahmanb, M.R. Wahiddinb, A. Shahb // Egyptian Informatics Journal – 2016. – V. 17. Nr. 3. – S. 305–314.
  8. Ogata, K. Analyse af artikulatorisk timing baseret på en superpositionsmodel for VCV-sekvenser / K. Ogata, K. Nakashima // Proceedings of IEEE International Conference on Systems, Man and Cybernetics - 2014. - Januar udg. – S. 3720-3725.
  9. Sundermeyer, M. Det rwth 2010 quaero asr-evalueringssystem for engelsk, fransk og tysk / M. Sundermeyer et al. // Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP) – 2011. – S. 2212-2215.
  10. Alimuradov A.K. ADAPTIVNYJ METOD POVYSHENIJa JeFFEKTIVNOSTI GOLOSOVOGO UPRAVLENIJa / A.K. Alimuradov, P.P. Churakov // Trudy Mezhdunarodnoj nauchno-tehnicheskoj konferencii “Perspektivnye informacionnye tehnologii”. – 2016. – S. 196-200.
  11. Bakalenko V.S. Intellektualizatsiya vvoda-vyivoda koda programmyi s pomoschyu rechevyih tehnologiy: dis. ... af Master i Engineering and Technology. – DonNTU, Donetsk, 2016.
  12. Balakshin P.V. Algoritmicheskie i programmnyie sredstva raspoznavaniya rechi na osnove skryityih markovskih modeley dlya telefonnyih sluzhb podderzhki klientov: dis. ... PhD i ingeniørvidenskab: 13/05/11: forsvar af specialet 12/10/2015: godkendt 06/08/2016 / Balakshin Pavel Valer’evich. – SPb.: ITMO University, 2014. – 127 s.
  13. Balakshin P.V. FUNKCIJa PLOTNOSTI DLITEL’NOSTI SOSTOJaNIJ SMM. PREIMUShhESTVA I NEDOSTATKI / P.V. Balakshin // Sovremennye problemy nauki i obrazovanija. – 2011. – nr. 1. – S. 36-39. URL: http://www.science-education.ru/ru/article/view?id=4574 (tilgået: 13/11/2016).
  14. Belenko M.V. SRAVNITELNYY ANALIZ SISTEM RASPOZNAVANIYA RECHI S OTKRYTYM KODOM / M.V. Belenko // Sbornik trudov V Vserossiyskogo kongressa molodyih uchenyih. V. 2. – SPb.: ITMO University, 2016. S. 45-49.
  15. Gusev M.N. Raspoznavaniya system rechi: osnovnyie modeli og algoritmyi / M.N. Gusev V.M. Degtyarev. – SPb.: Znak, 2013. – 141 s.
  16. Karpov A.A. Mnogomodalnyie assistivnyie sistemyi dlya intellektualnogo zhilogo prostranstva / A.A. Karpov, L. Akarun, A.L. Ronzhin // Trudyi SPIIRAN. – 2011. – V. 19. – Nr. 0. – S. 48-64.
  17. Karpov A.A. Metodologiya otsenivaniya rabotyi sistem avtomaticheskogo raspoznavaniya rechi / A.A. Karpov, I.S. Kipyatkova // Izvestiya vyisshih uchebnyih zavedeniy. Priborostroenie. – 2012. – V. 55. – Nr. 11. – S. 38-43.
  18. Tampel I.B. Avtomaticheskoe raspoznavanie rechi – osnovnyie etapyi za 50 let / I.B. Tampel // Nauchno-Tehnicheskii Vestnik Informatsionnykh Tekhnologii, Mekhaniki i Optiki. – 2015. – V. 15. – Nr. 6. – S. 957–968.

Når vi lytter til nogen tale, analyserer vores indre øre lydens frekvensspektrum, og hjernen opfatter ordet. Nogle computere kan simulere denne proces ved hjælp af en spektrumanalysator.

Lydsignaler kommer ind i analysatoren gennem en mikrofon, og deres spektrale karakteristika analyseres. Computeren sammenligner derefter de modtagne signaler med en programmeret liste over fonemer eller akustiske byggeklodser. Kortsigtede signaler sammenlignes med standardordmønstre og relateres til reglerne for sprog og syntaks.

Denne proces hjælper computeren med at identificere talte ord. Hvis programmet er sofistikeret nok, kan det endda afgøre ud fra konteksten, om ordet "frugt" eller "flåde" blev talt. Men om en computer virkelig kan forstå tale, som mennesker gør, er stadig et meget omdiskuteret emne den dag i dag. Du kan programmere din computer til at reagere på visse kombinationer ord, men vil dette erstatte reel forståelse? Nogle eksperter på området kunstig intelligens De mener, at en computer om få årtier vil være i stand til at føre en relevant, tilfældig samtale med en person. Ikke desto mindre er mange eksperter overbevist om, at computeren altid vil være begrænset af programmet, prækompilerede svar.

Stemmegenkendelse

Lyde, der tales i mere end et par sekunder, opdeles i kortere tidssegmenter. Computeren analyserer derefter frekvenskomponenterne for hvert segment.

Akustisk analyse

Lydspektrografen repræsenterer lydspektret i synlig form. Med en metode til analyse, en normal kæde af lyde menneskelig stemme er opdelt i segmenter, farvekodet for at angive styrken og hyppigheden af ​​deres komponenter. Tredimensionelle grafer, som den ovenfor, viser en anden måde at visualisere sådan information på.

Beslutningstagning

Ud fra analyseresultaterne afgør computeren, om givet ord. Computeren sammenligner den registrerede analyse med en liste over mulige kandidater, og anvender derefter leksikalske og syntaksiske regler for at bestemme, om en bestemt lyd matcher et bestemt ord.

Standard talemønstre

De mindste taleenheder er defineret ud fra frekvensspektret. Standard talemønstre angiver, hvilken enhed der er til stede i et givet ord.

Lydspektrografen (ovenfor) udfører akustisk analyse af lydene i talte ord. Her sammenlignes vokallyden (øverst til venstre) med vokalspektret (nederst).

Lydbølger får trommehinden til at vibrere. Denne vibration overføres til flere små knogler og omdannes til elektriske signaler, der rejser til hjernen.