Arvutilingvist. Arvutuslingvistika kui rakenduslingvistiline distsipliin

lingvistika statistiline lingvistika tarkvara

Arvutuslingvistika arengulugu

Kaasaegse keeleteaduse kui loomuliku keele teaduse kujunemis- ja kujunemisprotsess esindab keeleteadmiste pikka ajaloolist arengut. Keeleteadmised põhinevad elementidel, mille kujunemine toimus tegevuse käigus, mis on lahutamatult seotud struktuuri arenguga. suuline kõne, kirjutamise tekkimine, edasiarendamine ja täiustamine, kirjutamise õpetamine, aga ka tekstide tõlgendamine ja dekodeerimine.

Loomulik keel kui keeleteaduse objekt hõivab keskne koht selles teaduses. Keele arenemise käigus muutusid ka ettekujutused sellest. Kui varem ei omistatud keele sisemisele korraldusele erilist tähtsust ja seda käsitleti eelkõige selle suhte kontekstis välismaailmaga, siis alates sellest. XIX lõpus- 20. sajandi algus, eriline roll on antud keele sisemisele vormilisele struktuurile. Just sel perioodil töötas kuulus Šveitsi keeleteadlane Ferdinand de Saussure välja selliste teaduste alused nagu semioloogia ja struktuurlingvistika ning kirjeldas neid üksikasjalikult oma raamatus "Üldkeeleteaduse kursus" (1916).

Teadlane tuli välja ideega käsitleda keelt ühtse mehhanismina, kogu süsteem märgid, mis omakorda võimaldab keelt matemaatiliselt kirjeldada. Saussure oli esimene, kes pakkus välja struktuurilise lähenemise keelele, nimelt: keele kirjelduse, uurides selle üksuste vahelisi suhteid. Ühikute või "märkide" all mõistis ta sõna, mis ühendab nii tähenduse kui ka kõla. Šveitsi teadlase pakutud kontseptsioon põhineb keeleteoorial kui märkide süsteemil, mis koosneb kolmest osast: keel (prantsuse keelest langue), kõne (prantsuse parole) ja kõnetegevus (prantsuse keelest).

Teadlane ise määratles enda loodud teadust, semioloogiat kui "teadust, mis uurib märkide elu ühiskonnaelu raames". Kuna keel on märgisüsteem, siis otsides vastust küsimusele, millise koha lingvistika teiste teaduste seas on, väitis Saussure, et keeleteadus on semioloogia osa. On üldtunnustatud seisukoht, et just Šveitsi filoloog pani aluse keeleteaduse uuele suunale, saades kaasaegse keeleteaduse rajajaks ja “isaks”.

F. de Saussure'i esitatud kontseptsioon sai kätte edasine areng paljude silmapaistvate teadlaste töödes: Taanis - L. Hjelmslev, Tšehhis - N. Trubetskoy, USA-s - L. Bloomfield, 3. Harris, N. Chomsky. Mis puutub meie riiki, siis siin alustas struktuurlingvistika oma arengut ligikaudu samal ajal kui läänes - a. XIX-XX vahetus sajandite jooksul - F. Fortunatovi ja I. Baudouin de Courtenay teostes. Tuleb märkida, et I. Baudouin de Courtenay tegi tihedat koostööd F. de Saussure'iga. Kui Saussure pani struktuurlingvistika teoreetilise aluse, siis Baudouin de Courtenayd võib pidada isikuks, kes pani aluse Šveitsi teadlase pakutud meetodite praktilisele rakendamisele. Just tema määratles keeleteaduse kui teaduse, mis kasutab statistilisi meetodeid ja funktsionaalsed sõltuvused ja eraldas selle filoloogiast. Esimene kogemus matemaatiliste meetodite rakendamisel keeleteaduses oli fonoloogia – teadus keele häälikute struktuurist.

Tuleb märkida, et F. de Saussure'i välja pakutud postulaadid suutsid peegelduda 20. sajandi keskpaigas aktuaalsetes keeleteaduslikes probleemides. Sel perioodil oli selge tendents keeleteaduse matematiseerimisele. Peaaegu kõigis suured riigid algab teaduse ja arvutitehnoloogia kiire areng, mis omakorda nõudis üha uusi ja uusi keelelised alused. Kõige selle tulemuseks oli täpsete ja humanitaarteadused ja aktiivne suhtlus leitud matemaatika ja keeleteadus praktiline kasutamine aktuaalsete teadusprobleemide lahendamisel.

20. sajandi 50. aastatel tekkis selliste teaduste nagu matemaatika, lingvistika, informaatika ja tehisintellekti ristumiskohas uus teadusharu - arvutilingvistika (tuntud ka kui masinlingvistika või loomulikus keeles automaatne tekstitöötlus). Selle suuna peamised arenguetapid toimusid meetodite arengu taustal tehisintellekt. Arvutilingvistika arengu võimsaks tõukejõuks oli esimeste arvutite loomine. Kuid uue põlvkonna arvutite ja programmeerimiskeelte tulekuga 60ndatel on põhimõtteliselt uus etapp selle teaduse arengus. Samuti tuleb märkida, et arvutuslingvistika alged ulatuvad tagasi kuulsa Ameerika keeleteadlase N. Chomsky töödesse keele struktuuri formaliseerimise vallas. Tema lingvistika ja matemaatika ristumiskohas saadud uurimistöö tulemused panid aluse formaalsete keelte ja grammatikateooria (generatiiv- ehk generatiivgrammatika) väljatöötamisele, mida kasutatakse laialdaselt nii loomulike kui ka matemaatikate kirjeldamiseks. tehiskeeled, eriti programmeerimiskeelte puhul. Täpsemalt öeldes on see teooria täiesti matemaatiline distsipliin. Seda võib pidada üheks esimeseks selles suunas rakenduslingvistika, Kuidas matemaatiline lingvistika.

Esimesed katsed ja esimesed arengud arvutuslingvistikas on seotud masintõlkesüsteemide loomisega, aga ka inimeste keeleoskusi modelleerivate süsteemide loomisega. 80ndate lõpus, koos Interneti tuleku ja aktiivse arenguga, kasvas kiiresti elektroonilisel kujul saadaoleva tekstiteabe maht. See on viinud selleni, et infootsingutehnoloogiad on oma arengus jõudnud kvalitatiivselt uude etappi. Tekkis vajadus loomuliku keele tekstide automaatseks töötlemiseks ning tekkisid täiesti uued ülesanded ja tehnoloogiad. Teadlased seisavad silmitsi suure hulga struktureerimata andmete kiire töötlemise probleemiga. Sellele probleemile lahenduse leidmiseks suur tähtsus hakkas keskenduma arendusele ja rakendusele statistilised meetodid automaatse tekstitöötluse valdkonnas. Just nende abiga sai võimalikuks lahendada selliseid probleeme nagu tekstide jagamine klastriteks, mida ühendab ühine teema, tekstis teatud fragmentide esiletõstmine jne. Lisaks meetodite kasutamine matemaatiline statistika ja masinõpe võimaldas lahendada kõnetuvastuse ja otsingumootorite loomise probleeme.

Teadlased ei piirdunud saavutatud tulemustega: nad jätkasid uute eesmärkide seadmist, uute tehnikate ja uurimismeetodite väljatöötamist. Kõik see viis selleni, et keeleteadus hakkas tegutsema kui rakendusteadus, mis ühendab endas mitmeid teisi teadusi, mille hulgas oli juhtiv roll matemaatikal oma kvantitatiivsete meetodite mitmekesisuse ja oskusega neid kasutada uuritavate nähtuste sügavamaks mõistmiseks. Nii alustas matemaatilise keeleteaduse kujunemist ja arengut. Praegu on see üsna "noore" teadus (see on eksisteerinud umbes viiskümmend aastat), kuid vaatamata väga "noorele eale" esindab see juba väljakujunenud teaduse valdkonda, millel on palju edukaid saavutusi.

Novoselova Irina

Miks ei ole kõik masintõlked täiuslikud? Mis määrab tõlke kvaliteedi? Kas autoril on piisavalt teadmisi olemasolevate kasutamiseks ja täiendamiseks arvutisõnastikud? Nendele küsimustele otsis autor oma töös vastuseid. Teema aruanne on lisatud failis, projekti tegevuse toode kooliportaalis

Lae alla:

Eelvaade:

Avatud

Rahvusvaheline

uurimine

konverents

gümnaasiumiõpilased ja üliõpilased

"Haridus. Teadus. elukutse"

Sektsioon "Võõrkeeleteadus"

« Arvutuslingvistika»

Esitaja Novoselova Irina

Munitsipaalharidusasutuse gümnaasium nr 39 “Klassika”

10 "B" klass

Teaduslikud juhendajad:

Chigrinyova Tatjana Dmitrievna,

õpetaja inglise keeles kõrgeim kategooria

Osipova Svetlana Leonidovna,

kõrgeima kategooria informaatikaõpetaja

Otradnõi

2011

Ingliskeelsed sõnad IKT-s

Vaata kodulehelt

Minu eksperiment

Üheks ülesandeks on läbi viia eksperiment, mille käigus võrreldakse erinevate arvutilingvistiliste sõnaraamatute võimalusi täpsemaks ja ligikaudsemaks tõlkimiseks inglise keelest vene keelde.

Testiti järgmisi saite:

http://translate.eu/
http://translate.google.ru/#ru
http://www.langinfo.ru/index.php?div=6
http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Eksperimendi puhtuse huvides valisin laused koos erineval määral stilistilise tõlkimise raskused. Sisestusfraasid on järgmised:

1. Uues raportis öeldakse, et tänapäeva teismelised on isekamad kui 20 aastat tagasi

(Uus raport ütleb, et teismelised on tänapäeval isekamad kui 20 aastat tagasi)

2. Ta usub videomänge ja Internet on selle suurenenud isekuse suurimad põhjused.

(Ta usub, et videomängud ja Internet on kõige rohkem olulised põhjused selle kasvava isekuse pärast)

3. Nad tahavad olla teistest paremad

(Nad tahavad olla paremad kui ülejäänud)

4. Ta leidis, et suur tõus algas alates aastal 2000, mil muutusid vägivaldsed videomängud tõeliselt populaarseks.

(Ta leidis suur tõus, mis sai alguse 2000. aastal, mil vägivaldsed videod mängud on muutunud väga populaarseks)

Olles tõlkinud need laused veebitõlkijate saitidel, sain järgmised tulemused:

http://translate.eu/

Artikli sisu

ARVUTILINGvistika, rakenduslingvistika suund, mis on keskendunud arvutivahendite – programmide, arvutitehnoloogiate kasutamisele andmete korrastamiseks ja töötlemiseks –, et modelleerida keele toimimist teatud tingimustes, olukordades, probleemkohtades jne, aga ka kogu rakendusala. keele arvutimudelid lingvistikas Ja seotud distsipliinid. Tegelikult ainult sisse viimasel juhul ja me räägime rakenduslingvistikast selle kitsas tähenduses, kuna keele arvutimodelleerimist võib käsitleda ka arvutiteaduse ja programmeerimise teooria rakendusvaldkonnana keeleteaduse probleemide lahendamisel. Praktikas hõlmab arvutuslingvistika aga peaaegu kõike, mis on seotud arvutite kasutamisega keeleteaduses.

Kui eriline teaduslik suund Arvutuslingvistika kujunes välja 1960. aastatel. Venekeelne termin “arvutilingvistika” on tõlge inglisekeelsest arvutilingvistikast. Kuna venekeelset omadussõna computational võib tõlkida ka kui “arvutuslik”, leidub kirjanduses ka mõiste “arvutuslingvistika”, kuid vene teaduses omandab see kitsama tähenduse, lähenedes mõistele “kvantitatiivne lingvistika”. Väljaannete voog selles valdkonnas on väga suur. Lisaks temaatilistele kogumikele ilmub Ameerika Ühendriikides kord kvartalis ajakiri Computer Linguistics. Suurem organisatsiooniline ja teaduslik töö viib läbi Arvutuslingvistika Ühing, millel on piirkondlikud struktuurid(eelkõige Euroopa filiaal). Iga kahe aasta tagant möödub rahvusvahelised konverentsid arvutuslingvistikas – COLING. Vastavad teemad on tavaliselt laialdaselt esindatud erinevatel tehisintellekti käsitlevatel konverentsidel.

Arvutuslingvistika tööriistakomplekt.

Arvutuslingvistikat kui spetsiaalset rakendusdistsipliini eristab eelkõige selle instrumendi - s.o. arvutivahendite kasutamise kohta keeleandmete töötlemisel. Kuna arvutiprogrammid, mis modelleerivad keele toimimise teatud aspekte, võivad kasutada mitmesuguseid programmeerimisvahendeid, ei näi olevat vaja rääkida arvutilingvistika üldisest kontseptuaalsest aparaadist. Siiski ei ole. Olemas üldised põhimõtted arvuti modelleerimine mõtlemist, mis mingil moel realiseeruvad mis tahes arvuti mudel. Need põhinevad teadmiste teoorial, mis algselt töötati välja tehisintellekti valdkonnas ja millest sai hiljem üks kognitiivteaduse harusid. Kõige tähtsam kontseptuaalsed kategooriad arvutuslingvistika on sellised teadmusstruktuurid nagu "raamid" (kontseptuaalsed või, nagu öeldakse, kontseptuaalsed struktuurid teadmiste deklaratiivseks esitamiseks tüüpilise temaatiliselt ühtse olukorra kohta), "stsenaariumid" (kontseptuaalsed struktuurid stereotüüpse teadmise protseduuriliseks esitamiseks olukord või stereotüüpne käitumine), "plaanid" (teadmiste struktuurid, mis haaravad ideid võimalike tegevuste kohta, mis viivad saavutamiseni. konkreetne eesmärk). Kaadri kategooriaga on tihedalt seotud stseeni mõiste. Stseenikategooriat kasutatakse arvutuslingvistika kirjanduses valdavalt tähistusena kontseptuaalne struktuur kõneaktis aktualiseeritute ja esile tõstetute deklaratiivseks kujutamiseks keel tähendab(lekseemid, süntaktilised konstruktsioonid, grammatilised kategooriad jne) olukorrad ja nende osad.

Teatud viisil organiseeritud teadmusstruktuuride kogum moodustab kognitiivse süsteemi ja selle arvutimudeli "maailmamudeli". Tehisintellekti süsteemides moodustab maailmamudel spetsiaalse ploki, mis sõltuvalt valitud arhitektuurist võib sisaldada üldteadmised maailma kohta (lihtsate väidete kujul, nagu "talvel on külm" või tootmisreeglite kujul "kui see on väljas sajab, siis tuleb selga panna vihmakeep või võtta vihmavari"), mõned konkreetsed faktid ("Kõige rohkem kõrge tipp maailmas – Everest”), samuti väärtused ja nende hierarhiad, mis on mõnikord eraldatud spetsiaalseks "aksioloogiliseks plokiks".

Enamik arvutuslingvistika tööriistade mõistete elemente on homonüümsed: need tähistavad samaaegselt mõningaid inimese kognitiivse süsteemi reaalseid üksusi ja nende teoreetilises kirjeldamises ja modelleerimises kasutatud üksuste esitusviise. Teisisõnu, elemendid kontseptuaalne aparaat arvutuslingvistikal on ontoloogiline ja instrumentaalne aspekt. Näiteks ontoloogilises aspektis vastab deklaratiivsete ja protseduuriliste teadmiste jaotus inimesele kättesaadavatele erinevatele teadmiste liikidele - nn teadmisele MIS (deklaratiivne; selline nt teadmine mõne NN postiaadressi kohta), mis on nn. ühelt poolt ja teadmine KUIDAS (protseduuriline; selline nt teadmine, mis võimaldab leida selle NN korteri, isegi teadmata selle ametlikku aadressi) - teiselt poolt. Instrumentaalses aspektis võivad teadmised sisalduda kirjelduste (kirjelduste) kogumina, ühelt poolt andmete kogumina ja algoritmis, arvuti või mõne muu kognitiivse süsteemi mudeli poolt teostatavas juhises, teiselt poolt.

Arvutuslingvistika suunad.

CL valdkond on väga mitmekesine ja hõlmab selliseid valdkondi nagu kommunikatsiooni arvutimodelleerimine, süžeestruktuuri modelleerimine, tekstiesitluse hüpertekstitehnoloogiad, masintõlge ja arvutileksikograafia. Kitsas tähenduses seostatakse CL probleeme sageli interdistsiplinaarse rakendusvaldkonnaga, mille nimetus on mõnevõrra kahetsusväärne "töötlemine". loomulik keel"(tõlge ingliskeelsest terminist Natural Language Processing). See tekkis 1960. aastate lõpus ja arenes välja tehisintellekti teadusliku ja tehnoloogilise distsipliini raames. Omal moel sisemine vorm Väljend "loomuliku keele töötlemine" hõlmab kõiki valdkondi, kus keeleandmete töötlemiseks kasutatakse arvuteid. Vahepeal on praktikas kinnistunud selle mõiste kitsam mõistmine – meetodite, tehnoloogiate ja spetsiifiliste süsteemide väljatöötamine, mis tagavad inimese suhtluse arvutiga loomulikus või piiratud loomulikus keeles.

“Loomuliku keeletöötluse” valdkonna kiire areng toimus 1970. aastatel, mida seostati arvuti lõppkasutajate arvu ootamatu hüppelise kasvuga. Kuna keelte ja programmeerimistehnoloogia õpetamine kõigile kasutajatele on võimatu, on tekkinud arvutiprogrammidega suhtlemise korraldamise probleem. Selle suhtlusprobleemi lahendus kulges kahel viisil. Esimesel juhul püüti programmeerimiskeeli ja operatsioonisüsteeme lõppkasutajale kohandada. Selle tulemusel ilmusid kõrgetasemelised keeled, nagu Visual Basic, ja mugavad operatsioonisüsteemid, mis on ehitatud kontseptuaalsesse ruumi. inimesele tuttav metafoorid – LÖÖD, RAAMATUKOGU. Teine võimalus on töötada välja süsteemid, mis võimaldaksid suhelda arvutiga konkreetses probleempiirkonnas loomulikus keeles või selle mõnes piiratud versioonis.

Loomuliku keele töötlemissüsteemide arhitektuur sisaldab üldjuhul plokki kasutaja kõneteate analüüsimiseks, plokki sõnumi tõlgendamiseks, plokki vastuse tähenduse genereerimiseks ja plokki väite pinnastruktuuri sünteesimiseks. Süsteemi eriliseks osaks on dialoogikomponent, mis salvestab dialoogi pidamise strateegiad, nende strateegiate kasutamise tingimused ja võimalused võimalikest kommunikatsioonitõrgetest (suhtlusprotsessi ebaõnnestumised) ületamiseks.

Arvuti loomuliku keele töötlussüsteemidest eristatakse tavaliselt küsimuste-vastuste süsteeme, interaktiivseid probleemilahendussüsteeme ja ühendatud tekstitöötlussüsteeme. Esialgu hakati vastusena välja töötama küsimuste-vastuste süsteeme halb kvaliteet päringute kodeerimine teabeotsingusüsteemides teabe otsimisel. Kuna selliste süsteemide probleemvaldkond oli väga piiratud, lihtsustas see mõnevõrra päringute formaalsesse keelde esitusse tõlkimise algoritme ja vastupidist protseduuri formaalse esituse teisendamiseks loomulikus keeles olevateks väideteks. Kodumaiste arenduste hulgas on seda tüüpi programmide seas POET süsteem, mille on loonud teadlaste meeskond E. V. Popovi juhtimisel. Süsteem töötleb päringuid vene keeles (väiksemate piirangutega) ja sünteesib vastuse. Programmi vooskeem hõlmab analüüsi kõigi etappide (morfoloogilise, süntaktilise ja semantilise) ja vastavate sünteesietappide läbimist.

Vestlusprobleemide lahendamise süsteemid, erinevalt eelmist tüüpi süsteemidest, mängivad suhtluses aktiivset rolli, kuna nende ülesanne on leida probleemile lahendus, tuginedes selles esitatud teadmistele ja kasutajalt saadavale teabele. Süsteem sisaldab teadmusstruktuure, mis salvestavad tüüpilised tegevuste jadad antud probleemvaldkonna probleemide lahendamiseks, samuti teavet vajalike ressursside kohta. Kui kasutaja esitab küsimuse või määrab konkreetse ülesande, aktiveeritakse vastav skript. Kui mõned skriptikomponendid on puudu või mõned ressursid puuduvad, alustab süsteem suhtlust. Nii toimib näiteks SNUKA süsteem, probleemi lahendaja sõjaliste operatsioonide planeerimine.

Seotud tekstide töötlemise süsteemid on struktuurilt üsna mitmekesised. Nende ühiseks tunnuseks võib pidada laialdane kasutamine teadmiste esitamise tehnoloogiad. Seda tüüpi süsteemide ülesanne on mõista teksti ja vastata küsimustele selle sisu kohta. Mõistmist ei peeta universaalseks kategooriaks, vaid tekstist teabe ammutamise protsessiks, mille määrab konkreetne kommunikatiivne kavatsus. Teisisõnu “loetakse” teksti ainult eeldusel, et potentsiaalne kasutaja soovib selle kohta täpselt teada. Seega ei osutu ühendatud tekstide töötlemise süsteemid sugugi universaalseteks, vaid probleemikeskseteks. Arutletud tüüpi süsteemide tüüpilised näited on süsteemid REEARCHER ja TAILOR, mis moodustavad ühtse tarkvarapakett, mis võimaldab kasutajal saada teavet keerukaid füüsilisi objekte kirjeldavatest patendikokkuvõtetest.

Arvutilingvistika kõige olulisem valdkond on infootsingusüsteemide (IRS) arendamine. Viimane tekkis 1950. aastate lõpus ja 1960. aastate alguses vastusena teadusliku ja tehnilise teabe mahu järsule kasvule. Säilitatava ja töödeldava teabe tüübi ning otsingufunktsioonide alusel jagunevad teabeotsingusüsteemid kahte suurde rühma – dokumentaalsed ja faktilised. Dokumentaalse teabe otsingusüsteemid salvestavad dokumentide tekste või nende kirjeldusi (konspektid, bibliograafilised kaardid jne). Faktiline IRS tegeleb konkreetsete faktide kirjeldamisega ja mitte tingimata teksti kujul. Need võivad olla tabelid, valemid ja muud tüüpi andmete esitusviisid. Samuti on olemas segainfosüsteemid, mis sisaldavad nii dokumente kui ka faktilist teavet. Praegu on faktiinfosüsteemid üles ehitatud andmebaasitehnoloogiate (DB) baasil. Infootsingusüsteemis teabeotsingu tagamiseks luuakse spetsiaalsed teabeotsingu keeled, mis põhinevad teabeotsingu tesaurustel. Infootsingu keel on ametlik keel, mille eesmärk on kirjeldada IRS-is salvestatud dokumentide ja päringu sisuplaani üksikuid aspekte. Dokumendi kirjeldamise protseduuri teabeotsingu keeles nimetatakse indekseerimiseks. Indekseerimise tulemusena omistatakse igale dokumendile selle formaalne kirjeldus infootsingu keeles – dokumendi otsingupilt. Sarnaselt indekseeritakse päring, millele on määratud otsingupäringu pilt ja otsinguretsept. Infootsingu algoritmid põhinevad otsinguretsepti ja otsingupäringu pildi võrdlemisel. Taotlusele dokumendi väljastamise kriteeriumiks võib olla dokumendi otsingupildi ja otsingujuhise täielik või osaline vastavus. Teatud juhtudel on kasutajal võimalus väljastamise kriteeriumid ise sõnastada. Selle määrab infovajadus. Automatiseeritud teabeotsingusüsteemid kasutavad sageli deskriptorite teabeotsingu keeli. Dokumendi teemat kirjeldatakse deskriptorite komplektiga. Kirjeldajad on sõnad ja terminid, mis tähistavad probleemse valdkonna lihtsaid, üsna elementaarseid kategooriaid ja mõisteid. Dokumendi otsingupildile sisestatakse sama palju deskriptoreid, kui palju on dokumendis käsitletud erinevaid teemasid. Deskriptorite arv ei ole piiratud, mis võimaldab dokumenti kirjeldada mitmemõõtmelises tunnuste maatriksis. Sageli on deskriptorite teabe otsimise keeles kehtestatud piirangud deskriptorite ühilduvusele. Sel juhul võime öelda, et teabeotsingu keelel on süntaks.

Üks esimesi süsteeme, mis töötas deskriptorkeelega, oli Ameerika süsteem UNITERM, looja M. Taube. Dokumendi märksõnad – uniterminid – toimisid selles süsteemis deskriptoritena. Selle IRS-i eripära on see, et algselt sõnastik teabekeel ei täpsustatud, vaid tekkis dokumendi indekseerimise ja päringu käigus. Kaasaegsete infootsingusüsteemide areng on seotud mittetesauruse tüüpi infootsingusüsteemide arenguga. Sellised infosüsteemid töötavad kasutajaga piiratud loomulikus keeles ning otsing toimub dokumendireferaatide tekstide, nende järgi. bibliograafilised kirjeldused ja sageli dokumentide endi põhjal. Indekseerimiseks mittetesauruse tüüpi IRS-is kasutatakse loomuliku keele sõnu ja fraase.

Teatud määral võib arvutilingvistika valdkond hõlmata tööd hüpertekstisüsteemide loomise vallas, mida peetakse teksti organiseerimise eriliseks viisiks ja isegi fundamentaalseks. uut tüüpi tekst, mis vastandub paljudes oma omadustes Gutenbergi trükitraditsioonis kujunenud tavalisele tekstile. Hüperteksti idee on seotud president F. Roosevelti teadusnõuniku Vannevar Bushi nimega. V. Bush põhjendas projekti teoreetiliselt tehniline süsteem“Memex”, mis võimaldas kasutajal ühendada tekste ja nende fragmente erinevat tüüpi seoste abil, peamiselt assotsiatiivsete suhete kaudu. Arvutitehnoloogia puudumine muutis projekti elluviimise keeruliseks, kuna mehaaniline süsteem osutus praktiliseks rakendamiseks liiga keeruliseks.

Bushi idee sündis uuesti 1960. aastatel T. Nelsoni Xanadu süsteemis, mis hõlmas juba arvutitehnoloogia kasutamist. "Xanadu" võimaldas kasutajal lugeda süsteemi sisestatud tekstide komplekti erinevaid viise, võimaldas tarkvara erinevates järjestustes nii vaadatud tekstide jada meelde jätta kui ka suvalisel ajahetkel neist peaaegu suvalise valida. Tekstide kogumit neid ühendavate suhetega (üleminekute süsteem) nimetas T. Nelson hüpertekstiks. Paljud teadlased peavad hüperteksti loomist uue infoajastu alguseks, mis vastandub trükkimise ajastule. Kirja lineaarsus, mis väliselt peegeldab kõne lineaarsust, osutub fundamentaalseks kategooriaks, mis piirab inimese mõtlemist ja tekstist arusaamist. Tähendusmaailm on mittelineaarne, seetõttu nõuab semantilise teabe kokkusurumine lineaarses kõnesegmendis spetsiaalse "kommunikatiivse pakendi" kasutamist - jagamist teemaks ja reemiks, lausungi sisuplaani jagamist eksplitsiitseks (väide, propositsioon, fookus) ja implitsiitne (eeldus, tagajärg, diskursuse implikatuur) kihid . Teksti lineaarsusest keeldumine nii selle lugejale esitamise protsessis (st lugemise ja mõistmise ajal) kui ka sünteesiprotsessis aitaks teoreetikute hinnangul kaasa mõtlemise "vabanemisele" ja isegi selle tekkimisele. uued vormid.

IN arvuti süsteem hüpertekst esitatakse graafiku kujul, mille sõlmed sisaldavad traditsioonilisi tekste või nende fragmente, pilte, tabeleid, videoid jne. Sõlme ühendavad mitmesugused seosed, mille tüübid määravad hüperteksti tarkvara arendajad või lugeja ise. Seosed määratlevad potentsiaalsed liikumise või hüperteksti kaudu navigeerimise võimalused. Suhted võivad olla ühe- või kahesuunalised. Sellest lähtuvalt võimaldavad kahesuunalised nooled kasutajal liikuda mõlemas suunas, samas kui ühesuunalised nooled võimaldavad kasutajal liikuda ainult ühes suunas. Sõlmede ahel, mille lugeja teksti komponente vaadates läbib, moodustab tee ehk marsruudi.

Hüperteksti arvutirakendused võivad olla hierarhilised või võrgustatud. Hüperteksti hierarhiline – puulaadne – struktuur piirab oluliselt selle komponentide vahelise ülemineku võimalusi. Sellises hüpertekstis meenutavad komponentidevahelised seosed perekonna-liikide suhetel põhineva tesauruse struktuuri. Võrguhüpertekst võimaldab kasutada erinevat tüüpi seoseid komponentide vahel, mitte ainult perekonna ja liikide suhetega. Hüperteksti olemasolu meetodi järgi eristatakse staatilisi ja dünaamilisi hüpertekste. Staatiline hüpertekst töö ajal ei muutu; sellesse saab kasutaja oma kommentaare salvestada, kuid need ei muuda asja olemust. Dünaamilise hüperteksti jaoks on muutus normaalne eksisteerimise vorm. Tavaliselt toimivad dünaamilised hüpertekstid seal, kus on vaja pidevalt analüüsida infovoogu, s.t. infoteenustes mitmesugused. Hüpertekst on näiteks Arizona infosüsteem (AAIS), mida uuendatakse igakuiselt 300–500 kokkuvõtte võrra kuus.

Hüperteksti elementide vahelised seosed võivad algselt kindlaks määrata loojad või need saab genereerida alati, kui kasutaja hüpertekstile ligi pääseb. Esimesel juhul räägime kõva struktuuriga hüpertekstidest ja teisel juhul pehme struktuuriga hüpertekstidest. Jäik struktuur on tehnoloogiliselt üsna arusaadav. Pehme struktuuri korraldamise tehnoloogia peaks põhinema dokumentide (või muude teabeallikate) üksteisele läheduse semantilisel analüüsil. See on arvutuslingvistika mittetriviaalne ülesanne. Tänapäeval on pehme struktuuri tehnoloogiate kasutamine märksõnadel laialt levinud. Hüpertekstivõrgus üleminek ühest sõlmest teise toimub märksõnade otsimise tulemusena. Kuna märksõnade komplekt võib iga kord olla erinev, muutub hüperteksti struktuur iga kord.

Hüpertekstisüsteemide loomise tehnoloogia ei tee vahet tekstilisel ja mittetekstilisel teabel. Samal ajal nõuab visuaalse ja helilise teabe (videod, pildid, fotod, helisalvestised jne) kaasamine kasutajaliidese olulist muutmist ning võimsamat tarkvara ja arvutituge. Selliseid süsteeme nimetatakse hüpermeediumiks või multimeediumiks. Multimeediumisüsteemide nähtavus määras ette nende laialdase kasutamise õppetöös ja entsüklopeediate arvutiversioonide loomisel. Seal on näiteks Dorlin Kindersley välja antud lasteentsüklopeediate põhjal kaunilt toodetud multimeediumisüsteemidega CD-ROMid.

Arvutileksikograafia raames areneme Arvutitehnoloogiad sõnaraamatute koostamine ja kasutamine. Eriprogrammid– andmebaasid, arvuti failikapid, tekstitöötlusprogrammid – võimaldavad automaatselt genereerida sõnaraamatukirjeid, salvestada sõnaraamatu infot ja seda töödelda. Paljud erinevad arvutileksikograafiaprogrammid jagunevad kahte suurde rühma: leksikograafiliste tööde toetamise programmid ja erinevat tüüpi automaatsed sõnastikud, sealhulgas leksikograafilised andmebaasid. Automaatsõnastik on spetsiaalses masinavormingus sõnastik, mis on mõeldud kasutajale või arvuti tekstitöötlusprogrammile arvutis kasutamiseks. Teisisõnu eristatakse lõppkasutajale mõeldud automaatseid sõnaraamatuid ja tekstitöötlusprogrammide automaatseid sõnastikke. Lõppkasutajale mõeldud automaatsed sõnastikud erinevad liidese ja sõnastikukirje struktuuri poolest oluliselt masintõlkesüsteemide, automaatsete abstraktsioonisüsteemide, teabeotsingusüsteemide jms automaatsetest sõnastikest. Enamasti on need tuntud tavasõnastike arvutiversioonid. Tarkvaraturul on inglise keele seletavate sõnaraamatute arvutianaloogid (automaatne Webster, automaatne Sõnastik Ingliskeelne kirjastus Collins, New Greati automaatversioon Inglise-vene sõnastik toimetanud Yu.D. Apresyan ja E.M. Mednikova), on ka arvuti versioon Ožegovi sõnastik. Tekstitöötlusprogrammide automaatseid sõnastikke võib kitsamas tähenduses nimetada automaatseteks sõnaraamatuteks. Need pole üldjuhul mõeldud tavakasutajale. Nende struktuuri ja sõnavara ulatuse määravad programmid, mis nendega suhtlevad.

Süžee struktuuri arvutimodelleerimine on veel üks paljulubav arvutilingvistika valdkond. Süžeestruktuuri uurimine on seotud struktuurse kirjanduskriitika probleemidega (in laiemas mõttes), semiootika ja kultuuriuuringud. Olemasolevad arvutiprogrammid süžee modelleerimiseks põhinevad kolmel süžee kujutamise põhiformalismil - süžee esituse morfoloogilisel ja süntaktilisel suunal, samuti kognitiivsel lähenemisel. Ideed süžeestruktuuri morfoloogilisest struktuurist ulatuvad tagasi kuulsad teosed V.Ya.Proppa ( cm.) vene muinasjutust. Propp märkas, et muinasjutu tegelaste ja sündmuste rohkusega on tegelaste funktsioonide arv piiratud ning ta pakkus välja aparaadi nende funktsioonide kirjeldamiseks. Proppi ideed olid aluseks arvutiprogrammile TALE, mis simuleerib muinasjutu süžee genereerimist. Programmi TALE algoritm põhineb muinasjutu tegelaste funktsioonide järjestusel. Tegelikult määratlesid Proppi funktsioonid tüüpiliste olukordade kogumi, mis olid järjestatud empiirilise materjali analüüsi põhjal. Siduri võimalused erinevaid olukordi genereerimise reeglites määrati tüüpiline funktsioonide jada - sellisel kujul, nagu seda saab muinasjuttude tekstidest kindlaks teha. Programmis kirjeldati tüüpilisi funktsioonide jadasid kui tüüpilisi tegelaste kohtumiste stsenaariume.

Teksti süžee süntaktilise käsitluse teoreetiliseks aluseks olid “jutugrammatikad” või “jutugrammatikad”. Need ilmusid 1970. aastate keskel N. Chomsky generatiivse grammatika ideede ülekandmise tulemusena teksti makrostruktuuri kirjeldusse. Kui kõige olulisemad komponendid süntaktiline struktuur Generatiivses grammatikas olid verbaalsed ja nominaalsed rühmad, enamikus süžeegrammatikates eristati põhilistena ekspositsioon (seade), sündmus ja episood. Süžeegrammatikateoorias on laialdaselt käsitletud minimaalsuse tingimusi ehk piiranguid, mis määravad süžeeelementide jada staatuse normaalse süžeena. Selgus aga, et see oli puhtalt keelelised meetodid seda on võimatu teha. Paljud piirangud on oma olemuselt sotsiaalkultuurilised. Ehkki joonisgrammatikad erinevad oluliselt genereerimispuu kategooriate komplekti poolest, võimaldasid narratiivi struktuuri muutmiseks kasutada väga piiratud reegleid.

1980. aastate alguses pakkus üks R. Schenki õpilastest V. Lehnert oma töö raames välja arvutisüžeegeneraatori loomisel emotsionaalsete süžeeühikute (Affective Plot Units) originaalse formalismi, mis osutus võimsaks vahendiks. süžee struktuuri kujutamisest. Hoolimata asjaolust, et see töötati algselt välja tehisintellekti süsteemi jaoks, kasutati seda formalismi puhtalt teoreetiline uurimus. Lehnerti käsitluse olemus seisnes selles, et süžeed kirjeldati kui tegelaste kognitiiv-emotsionaalse seisundi järjestikust muutumist. Seega ei ole Lehnerti formalismi fookuses mitte süžee välised komponendid - ekspositsioon, sündmus, episood, moraal -, vaid selle sisulised omadused. Selles osas on Lehnerti formalism osalt Proppi ideede juurde tagasipöördumine.

Arvutilingvistika pädevusse kuulub ka masintõlge, mis on praegu taassündimas.

Kirjandus:

Popov E.V. Suhtlemine arvutiga loomulikus keeles. M., 1982
Sadur V.G. Kõnesuhtlus elektrooniliste arvutitega ja nende arendamise probleemid. – Raamatus: Kõnesuhtlus: probleemid ja väljavaated. M., 1983
Baranov A.N. Tehisintellekti kategooriad keelelises semantikas. Raamid ja skriptid. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Inimene-masin süsteemides suhtlemise modelleerimine. – Keeleline tugi infosüsteemid. M., 1987
Olker H.R. Muinasjutud, tragöödiad ja maailmaajaloo esitlemise viisid. – Raamatus: Keel ja sotsiaalse suhtluse modelleerimine. M., 1987
Gorodetsky B. Yu. Arvutuslingvistika: keelelise suhtluse modelleerimine
McQueen K. Loomuliku keele tekstisünteesi diskursuse strateegiad. – Uus võõrkeeleteaduses. Vol. XXIV, Arvutuslingvistika. M., 1989
Popov E.V., Preobraženski A.B. . NL-süsteemide juurutamise tunnused
Preobraženski A.B. Kaasaegsete NL-süsteemide arengu seis. - Tehisintellekt. Raamat 1, Sidesüsteemid ja ekspertsüsteemid. M., 1990
Subbotin M.M. Hüpertekst. Uus vorm kirjalik suhtlus. – VINITI, ser. Arvutiteadus, 1994, 18. kd
Baranov A.N. Sissejuhatus rakenduslingvistikasse. M., 2000

Arvutuslingvistika(Samuti: matemaatilised või arvutuslingvistika, Inglise arvutuslingvistika) - teaduslik suund matemaatilise ja arvutimodelleerimise alal intellektuaalsed protsessid inimestel ja loomadel tehisintellektisüsteemide loomisel, mille eesmärk on kasutada loomulike keelte kirjeldamiseks matemaatilisi mudeleid.

Arvutuslingvistika kattub loomuliku keele töötlemisega. Viimases pole aga rõhk abstraktsetel mudelitel, vaid arvutisüsteemide keele kirjeldamise ja töötlemise rakendatud meetoditel.

Arvutilingvistide tegevusvaldkond on keeleinfo töötlemise algoritmide ja rakendusprogrammide väljatöötamine.

Päritolu

Matemaatiline lingvistika on tehisintellekti teaduse haru. Selle ajalugu sai alguse Ameerika Ühendriikides 1950. aastatel. Transistori leiutamisega ja uue põlvkonna arvutite, aga ka esimeste programmeerimiskeelte tulekuga algasid katsed masintõlkega, eriti vene teadusajakirjade puhul. 1960. aastatel tehti sarnaseid uuringuid ka NSV Liidus (näiteks artikkel vene keelest armeenia keelde tõlkimisest 1964. aasta kogumikus “Küberneetika probleemid”). Masintõlke kvaliteet jääb aga endiselt palju alla inimtõlke kvaliteedile.

15. maist 21. maini 1958 toimus I Moskva Riiklikus Võõrkeelte Pedagoogilises Instituudis esimene üleliiduline masintõlkekonverents. Korralduskomiteed juhtisid V. Yu Rosenzweig ja korralduskomitee vastutav sekretär G. V. Tšernov. Konverentsi täielik programm on avaldatud kogumikus “Masintõlge ja rakenduslingvistika”, vol. 1, 1959 (teise nimega "Masintõlkeühingu bülletään nr 8"). Nagu meenutab V. Yu Rosenzweig, jõudis avaldatud konverentside kokkuvõtete kogumik USA-sse ja jättis seal suure mulje.

Aprillis 1959 toimus Leningradis I üleliiduline matemaatilise lingvistika konverents, mis kutsuti kokku. Leningradi ülikool ja rakenduslingvistika komitee. Kohtumise peakorraldaja oli N.D. Andrejev. Koosolekul osalesid mitmed silmapaistvad matemaatikud, eriti S. L. Sobolev, L. V. Kantorovitš (hiljem - Nobeli preemia laureaat) ja A. A. Markov (kaks viimast sõna võtsid arutelus). V. Yu Rosenzweig esines koosoleku avapäeval peakõnega „Kindral lingvistiline teooria tõlkimine ja matemaatiline lingvistika".

Arvutuslingvistika valdkonnad

Loomuliku keele töötlemine loomuliku keele töötlemine; süntaktiline, morfoloogiline, semantiline tekstianalüüs). See hõlmab ka:

Korpuslingvistika, elektrooniliste tekstikorpuste loomine ja kasutamine
Elektrooniliste sõnaraamatute, tesauruste, ontoloogiate loomine. Näiteks Lingvo. Sõnaraamatuid kasutatakse näiteks automaattõlkeks ja õigekirjakontrolliks.
Tekstide automaattõlge. Promt on vene tõlkijate seas populaarne. Tasuta on Google'i tõlge.
Faktide automaatne ekstraheerimine tekstist (info ekstraheerimine) (ing. fakti väljavõte, teksti kaevandamine)
Automaatne viitamine automaatne teksti kokkuvõte). See funktsioon sisaldub näiteks Microsoft Wordis.
Teadmusjuhtimise süsteemide loomine. Vaadake jaotist Ekspertsüsteemid
Küsimuste ja vastuste süsteemide loomine küsimustele vastamise süsteemid).

Optiline märgituvastus OCR). Näiteks programm FineReader
Automaatne kõnetuvastus ASR). Seal on tasuline ja tasuta tarkvara
Automaatne kõne süntees

Suuremad ühendused ja konverentsid

Õppeprogrammid Venemaal

Vaata ka

Kirjutage ülevaade artiklist "Arvutuslingvistika"

Märkmed

Lingid

(abstraktne)
- vene keele keeleressursside teadmistebaas
- mõnede arvutuslingvistika utiliitide avatud lähtekoodid
- Interneti-juurdepääs arvutuslingvistika programmidele

Arvutuslingvistikat iseloomustav väljavõte

"Võta, võta laps," ütles Pierre, andis tüdruku kätte ning pöördus naise poole tungivalt ja kiirustades. - Anna see neile, anna see neile! - karjus ta peaaegu naisele, pannes karjuva tüdruku pikali ning vaatas uuesti prantslastele ja armeenlaste perekonnale. Vanamees istus juba paljajalu. Väike prantslane võttis jalast viimase saapa ja plaksutas saapaid üksteise vastu. Vanamees ütles nuttes midagi, kuid Pierre nägi seda vaid pilguga; kogu tähelepanu oli suunatud kapuutsis prantslasele, kes tol ajal aeglaselt õõtsudes noore naise poole liikus ja käed taskust välja võttes tal kaelast kinni haaras.
Kaunis armeenlanna istus edasi samas liikumatus asendis, pikad ripsmed alla lastud ja justkui ei näeks ega tunneks, mida sõdur temaga teeb.
Samal ajal kui Pierre jooksis neid paar sammu, mis teda prantslastest eraldasid, rebis kapuutsis pikk marodöör juba armeenlanna kaelast kaelakeed ja kätega kaelast kinni hoidev noor naine karjus kiljuva häälega. .
– Laissez cette femme! [Jätke see naine maha!] - Pierre krooksus meeletu häälega, haaras pikal, küürus sõduril õlgadest ja viskas ta minema. Sõdur kukkus, tõusis püsti ja jooksis minema. Kuid tema seltsimees, kes viskas saapad minema, võttis välja kliki ja astus ähvardavalt Pierre'i poole.
- Voyons, pas de betises! [Oh noh! Ära ole loll!] – hüüdis ta.
Pierre oli selles raevus, milles ta ei mäletanud midagi ja milles ta jõud kümnekordistus. Ta tormas paljajalu prantslasele kallale ja enne, kui ta oma naela välja võtta jõudis, oli ta juba pikali löönud ja rusikatega vastu vasardanud. Ümbritsevast rahvahulgast kostis heakskiitvat kisa ja samal ajal ilmus nurga taha prantsuse lantserite ratsapatrull. Lancerid traavisid Pierre'i ja prantslase juurde ning piirasid nad ümber. Pierre ei mäletanud järgnevast midagi. Talle meenus, et ta peksis kedagi, teda peksti ja et lõpuks tundis ta, et tal on käed seotud, et rahvas Prantsuse sõdurid seisab tema ümber ja otsib tema kleiti.
"Il a un poignard, leitnant, [leitnant, tal on pistoda"] olid esimesed sõnad, millest Pierre aru sai.
- Ah, une arme! [Ah, relvad!] - ütles ohvitser ja pöördus Pierre'iga kaasa võetud paljajalu sõduri poole.
"C"est bon, vous direz tout cela au conseil de guerre, [Olgu, okei, räägite kõik kohtuistungil," ütles ohvitser ja pöördus pärast seda Pierre'i poole: "Parlez vous francais vous?" Kas sa räägid prantsuse keelt? ]
Pierre vaatas enda ümber verised silmadega ega vastanud. Tema nägu tundus ilmselt väga hirmutav, sest ohvitser ütles midagi sosinal ja veel neli lanseri eraldusid meeskonnast ja seisid mõlemal pool Pierre'i.
– Parlez vous francais? – kordas ohvitser talle küsimust, hoides temast eemale. - Faites venir l "tõlgi. [Kutsuge tõlk.] - Nende ridade tagant, kust ta lahkus väikemees Vene tsiviilriietes. Pierre tundis oma riietuse ja kõne järgi ta kohe ära kui prantslase ühest Moskva poest.
"Il n"a pas l"air d"un homme du peuple, [Ta ei näe välja nagu tavaline inimene," ütles tõlkija Pierre'i vaadates.
— Oh, oh! ca m"a bien l"air d"un des incendiaires," hägustas ohvitser "Demandez lui ce qu"il est? [Oh, oh! ta näeb väga välja nagu süütaja. Küsi temalt, kes ta on?] lisas ta.
- Kes sa oled? – küsis tõlkija. "Ametivõimud peaksid vastama," ütles ta.
– Je ne vous dirai pas qui je suis. Je suis votre vang. Emmenez moi, [ma ei ütle teile, kes ma olen. Olen teie vang. Vii mind ära,” ütles Pierre järsku prantsuse keeles.
- Ah ah! – ütles ohvitser kulmu kortsutades. - Marchons!
Lantserite ümber kogunes rahvas. Pierre'ile kõige lähemal seisis täkitud naine tüdrukuga; Kui ümbersõit liikuma hakkas, liikus ta edasi.
- Kuhu nad sind viivad, mu kallis? - ta ütles. - See tüdruk, mida ma selle tüdrukuga peale hakkan, kui ta pole nende oma! - ütles naine.
– Qu"est ce qu"elle veut cette femme? [Mida ta tahab?] - küsis ohvitser.
Pierre nägi välja nagu oleks ta purjus. Tema ekstaatiline seisund süvenes päästetud tüdrukut nähes veelgi.
"Ce qu"elle dit?" ütles ta. "Elle m"apporte ma fille que je viens de sauver des flammes," ütles ta. - Hüvasti! [Mida ta tahab? Ta kannab mu tütart, kelle ma tulest päästsin. Hüvasti!] - ja ta, teadmata, kuidas see sihitu vale temast välja pääses, astus otsustaval, pühalikul sammul prantslaste sekka.
Prantsuse patrull oli üks neist, kes saadeti Duroneli käsul Moskva erinevatele tänavatele rüüstamisi maha suruma ja eelkõige tabama süütajaid, kes tol päeval kõige kõrgemate prantslaste seas tekkinud üldise arvamuse kohaselt olid tulekahjude põhjus. Mitmel tänaval ringi rännanud patrull võttis peale veel viis kahtlast venelast, ühe poepidaja, kaks seminaristi, talupoja ja sulase ning mitu rüüstajat. Kuid kõigist kahtlastest inimestest tundus Pierre kõige kahtlustavam. Kui nad kõik toodi ööbima Zubovsky Vali suurde majja, kus rajati valvemaja, pandi Pierre eraldi range valve alla.

Peterburis käis sel ajal kõrgeimates ringkondades senisest tulihingelisem võitlus Rumjantsevi, prantslaste, Maria Fjodorovna, Tsarevitši ja teiste parteide vahel, mida uputas nagu alati trompetimäng. kohtu droonidest. Kuid rahulik, luksuslik, ainult kummitustest, elupeegeldustest mures, läks Peterburi elu nagu vanasti; ja selle elukäigu tõttu tuli teha suuri jõupingutusi, et mõista ohtu ja rasket olukorda, millesse vene rahvas sattus. Seal olid samad väljapääsud, pallid, sama prantsuse teater, samad kohtuhuvid, samad teenimis- ja intriigihuvid. Vaid kõrgeimates ringkondades püüti meenutada praeguse olukorra keerukust. Sosinal räägiti, kuidas kaks keisrinnat nii rasketes oludes üksteisele vastanduvad. Keisrinna Maria Feodorovna, kes on mures jumalakartlike heaolu pärast ja õppeasutused, tegi korralduse saata kõik instituudid Kaasanisse ja nende asutuste asjad olid juba pakitud. Keisrinna Elizaveta Aleksejevna, kellelt küsiti, milliseid tellimusi ta soovib teha, vastas talle iseloomuliku vene patriotismiga, et valitsusasutused ta ei saa anda korraldusi, kuna see puudutab suverääni; umbes samast asjast, mis temast isiklikult sõltub, mõistis ta öelda, et lahkub Peterburist viimasena.

Keeleteadus (ladina keelest lingua -
keel), lingvistika, keeleteadus - teadus,
keelte õppimine.
See on loodusteadus inimkeelüleüldse
ja kõigis maailma keeltes nagu tema
üksikud esindajad.
Selle sõna laiemas tähenduses keeleteadus
jagatud teaduslikuks ja praktiliseks. Tihedamini
Kokku tähendab keeleteadus täpselt
teaduslik lingvistika. On osa semiootikast
märkide teadus.
Lingvistikateadlased tegelevad professionaalselt keeleteadusega.

Lingvistika ja arvutiteadus.
Kaasaegse ühiskonna elus olulist rolli mängib automatiseeritud
infotehnoloogia. Kuid infotehnoloogia areng toimub
väga ebaühtlaselt: kui kaasaegsel tasemel arvutitehnoloogia ja
sidevahendid hämmastab kujutlusvõimet, siis semantilise töötlemise valdkonnas
on edu palju tagasihoidlikum. Need edusammud sõltuvad ennekõike sellest
saavutused inimese mõtlemisprotsesside, kõneprotsesside uurimisel
inimestevaheline suhtlus ja võimalus neid protsesse arvutis simuleerida. Ja see on paljutõotava loomise ülesanne
infotehnoloogia, seejärel automaatse tekstitöötluse probleemid
esiplaanile tuleb loomulikes keeltes esitatav teave.
Selle määrab asjaolu, et inimese mõtlemine on tema keelega tihedalt seotud. Rohkem
Pealegi on loomulik keel mõtlemisvahend. Ta on ka
universaalne inimestevahelise suhtluse vahend - tajumisvahend,
teabe kogumine, säilitamine, töötlemine ja edastamine.
Loomuliku keele kasutamise probleemid automaatsetes süsteemides
Arvutilingvistika teadus tegeleb infotöötlusega. See teadus
tekkis suhteliselt hiljuti – viiekümnendate ja kuuekümnendate vahetusel
eelmisel sajandil. Alguses oli sellel kujunemise ajal mitmesuguseid
pealkirjad: matemaatiline lingvistika, arvutuslingvistika, tehnika
keeleteadus. Kuid kaheksakümnendate alguses omistati sellele nimi
arvutuslingvistika.

Arvutuslingvistika on probleemide lahendamisega seotud teadmiste valdkond
loomulikus keeles esitatava teabe automaatne töötlemine.
Keskne teaduslikud probleemid arvutuslingvistika on probleem
tekstide tähenduse mõistmise protsessi modelleerimine (üleminek tekstilt
selle tähenduse formaliseeritud esitus) ja kõnesünteesi probleem (üleminek alates
tähenduse formaliseeritud esitus loomulikus keeles tekstidele). Need probleemid
tekivad mitmete rakendusprobleemide lahendamisel:
1) automaatne vigade tuvastamine ja parandamine tekstide arvutisse sisestamisel,
2) automaatne analüüs ja suulise kõne süntees,
3) tekstide automaatne tõlkimine ühest keelest teise,
4) loomulikus keeles suhtlemine arvutiga,
5) tekstidokumentide automaatne liigitamine ja indekseerimine, nende
automaatne abstraktsioon, dokumentide otsimine täisteksti andmebaasidest.
Viimase poole sajandi jooksul on arvutuslingvistika valdkonnas saadud
olulisi teaduslikke ja praktilisi tulemusi: loodi masinasüsteemid
tekstide tõlkimine ühest loomulikust keelest teise, automatiseeritud süsteemid
tekstidest info otsimine, suulise kõne automaatse analüüsi ja sünteesi süsteemid ja
palju teisi. Kuid oli ka pettumusi. Näiteks masintõlke probleem
tekstid ühest keelest teise osutusid arvatust palju raskemaks
masintõlke pioneerid ja nende järgijad. Sama võib öelda ka selle kohta
automatiseeritud teabeotsing tekstidest ning suulise analüüsi ja sünteesi ülesanne
kõne. Teadlased ja insenerid peavad ilmselt palju rohkem tööd tegema
saavutada soovitud tulemusi.

loomuliku keele süntaktiline töötlemine;
morfoloogiline, semantiline tekstianalüüs). See hõlmab ka:
Korpuslingvistika, elektrooniliste tekstikorpuste loomine ja kasutamine
Loomine elektroonilised sõnaraamatud, tesaurused, ontoloogiad. Näiteks Lingvo. Sõnaraamatud
kasutatakse näiteks automaatseks tõlkimiseks ja õigekirjakontrolliks.
Tekstide automaattõlge. Populaarne vene tõlkijate seas
on Promt. Tasuta on Google'i tõlge.
Faktide automaatne ekstraheerimine tekstist (teabe ekstraheerimine)
ekstraheerimine, teksti kaevandamine)
Automaatne teksti kokkuvõte. See funktsioon on lubatud
näiteks sisse Microsoft Word.
Teadmusjuhtimise süsteemide loomine. Vaadake jaotist Ekspertsüsteemid
Küsimustele vastamise süsteemide loomine.
Optiline märgituvastus (OCR). Näiteks programm FineReader
Automaatne kõnetuvastus (ASR). Seal on tasuline ja tasuta tarkvara
Automaatne kõne süntees