Arvutuslingvistika kõige olulisem valdkond on areng. Arvutuslingvistika kui rakenduslingvistiline distsipliin

Novoselova Irina

Miks ei ole kõik masintõlked täiuslikud? Mis määrab tõlke kvaliteedi? Kas autoril on piisavalt teadmisi olemasolevate kasutamiseks ja täiendamiseks arvutisõnastikud? Nendele küsimustele otsis autor oma töös vastuseid. Aruanne teemal - lisatud failis, toode projekti tegevused- kooliportaalis

Lae alla:

Eelvaade:

Avatud

Rahvusvaheline

uurimine

konverents

gümnaasiumiõpilased ja üliõpilased

"Haridus. Teadus. elukutse"

Rubriik "Võõrkeeleteadus"

« Arvutuslingvistika»

Esitaja Novoselova Irina

Munitsipaalharidusasutuse gümnaasium nr 39 “Klassika”

10 "B" klass

Teaduslikud juhendajad:

Chigrinyova Tatjana Dmitrievna,

õpetaja inglise keeles kõrgeim kategooria

Osipova Svetlana Leonidovna,

kõrgeima kategooria informaatikaõpetaja

Otradnõi

2011

  1. Ingliskeelsed sõnad IKT-s

Vaata kodulehelt

  1. Minu eksperiment

Üheks ülesandeks on läbi viia eksperiment, mis seisneb erinevate arvutite võimaluste võrdlemises keelelised sõnaraamatud, vastavalt täpsemale ligikaudsele tõlkele inglise keelest vene keelde.

Testiti järgmisi saite:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Eksperimendi puhtuse huvides valisin laused koos erineval määral stilistilise tõlkimise raskused. Sisestusfraasid on järgmised:

1. Uues raportis öeldakse, et tänapäeva teismelised on isekamad kui 20 aastat tagasi

(Uus raport ütleb kaasaegsed teismelised isekamad kui 20 aastat tagasi)

2. Ta usub videomänge ja Internet on selle suurenenud isekuse suurimad põhjused.

(Ta usub, et videomängud ja Internet on kõige rohkem olulised põhjused selle kasvava isekuse pärast)

3. Nad tahavad olla teistest paremad

(Nad tahavad olla paremad kui ülejäänud)

4. Ta leidis, et suur tõus algas alates aastal 2000, mil muutusid vägivaldsed videomängud tõeliselt populaarseks.

(Ta leidis suur tõus, mis sai alguse 2000. aastal, mil vägivaldsed videod mängud on muutunud väga populaarseks)

Olles tõlkinud need laused veebitõlkijate saitidel, sain järgmised tulemused:

  1. http://translate.eu/

KURSUSETÖÖ

erialal "informaatika"

teemal: “Arvutuslingvistika”


SISSEJUHATUS

1. Arvutuslingvistika koht ja roll keeleteaduslikus uurimistöös

2. Arvutuslingvistika kaasaegsed liidesed

KOKKUVÕTE

KIRJANDUS


Sissejuhatus

Elus kaasaegne ühiskond oluline roll rolli mängivad automatiseeritud infotehnoloogiad. Aja jooksul suureneb nende tähtsus pidevalt. Aga areng infotehnoloogiad toimub väga ebaühtlaselt: kui kaasaegsel tasemel arvutitehnoloogia Ja suhtlusvahendid on hämmastavad, kuid teabe semantilise töötlemise valdkonnas on edu palju tagasihoidlikum. Need edusammud sõltuvad ennekõike saavutustest inimese mõtlemisprotsesside, protsesside uurimisel verbaalne kommunikatsioon inimeste vahel ja võimalus neid protsesse arvutis simuleerida.

Millal me räägime paljutõotavate infotehnoloogiate loomise kohta, siis tulevad esile loomulikes keeltes esitatava tekstilise teabe automaatse töötlemise probleemid. Selle määrab asjaolu, et inimese mõtlemine on tema keelega tihedalt seotud. Pealegi on loomulik keel mõtlemise tööriist. Ta on ka universaalne ravim inimestevaheline suhtlus – teabe tajumise, kogumise, salvestamise, töötlemise ja edastamise vahend. Probleemid kasutamisega loomulik keel Arvutilingvistika teadus tegeleb automaatsete infotöötlussüsteemidega. See teadus tekkis suhteliselt hiljuti - eelmise sajandi viiekümnendate ja kuuekümnendate aastate vahetusel. Viimase poole sajandi jooksul on olulisi teaduslikke ja praktilisi tulemusi: süsteemid tekstide masintõlkeks ühest loomulikust keelest teise, süsteemid tekstidest teabe automaatseks otsimiseks, süsteemid automaatne analüüs ja süntees suuline kõne ja paljud teised. see töö on pühendatud optimaalse arvutiliidese loomisele, kasutades läbiviimisel arvutilingvistikat keeleteaduslikud uuringud.


IN kaasaegne maailm Arvutuslingvistikat kasutatakse üha enam erinevates keeleteaduslikes uuringutes.

Arvutuslingvistika on teadmiste valdkond, mis on seotud loomulikus keeles esitatava teabe automaatse töötlemise probleemide lahendamisega. Keskne teaduslikud probleemid Arvutilingvistika on tekstide tähenduse mõistmise protsessi modelleerimise probleem (üleminek tekstilt selle tähenduse formaliseeritud esitusviisile) ja kõnesünteesi probleem (üleminek tähenduse formaliseeritud esitusest loomuliku keele tekstidele). Need probleemid tekivad mitmete probleemide lahendamisel rakendatud probleemid ja eelkõige ülesanded vigade automaatseks tuvastamiseks ja parandamiseks tekstide sisestamisel arvutisse, suulise kõne automaatseks analüüsiks ja sünteesiks, automaatne tõlge tekstid ühest keelest teise, suhtlemine arvutiga loomulikus keeles, automaatne klassifitseerimine ja indekseerimine tekstidokumendid, nende automaatne abstraktsioon, dokumentide otsimine täisteksti andmebaasidest.

Arvutuslingvistikas loodud ja kasutatavad keeletööriistad võib jagada kaheks: deklaratiivseks ja protseduuriliseks. Deklaratiivne osa sisaldab keele- ja kõneühikute sõnastikke, tekste ja mitmesugused grammatika tabelid, protseduurilise osa juurde - keele- ja kõneühikute, tekstide ja grammatika tabelid. Arvutiliides viitab arvutuslingvistika protseduurilisele osale.

Arvutilingvistika rakendusprobleemide lahendamise edukus sõltub ennekõike deklaratiivsete vahendite esitamise täielikkusest ja täpsusest arvutimälus ning protseduuriliste vahendite kvaliteedist. Tänaseks ei ole nende probleemide lahendamisel veel nõutud taset saavutatud, kuigi töö arvutuslingvistika vallas käib arenenud riigid maailmas (Venemaa, USA, Inglismaa, Prantsusmaa, Saksamaa, Jaapan jne).

Siiski võib märkida, et tõsine teaduslik ja praktilisi saavutusi arvutilingvistikas. Nii on mitmetes riikides (Venemaa, USA, Jaapan jt) ehitatud eksperimentaalseid ja tööstuslikke süsteeme tekstide masintõlkimiseks ühest keelest teise, hulk eksperimentaalsed süsteemid loomulikus keeles suhtlemine arvutitega, käib töö terminoloogiliste andmepankade, tesauruste, kaks- ja mitmekeelsete masinsõnastike loomisega (Venemaa, USA, Saksamaa, Prantsusmaa jt), ehitatakse suulise kõne automaatse analüüsi ja sünteesi süsteeme (Venemaa). , USA, Jaapan jt) jne), käivad uuringud loomuliku keele mudelite konstrueerimise alal.

Rakendusarvutuslingvistika oluliseks metodoloogiliseks probleemiks on automaatsete tekstiinfotöötlussüsteemide deklaratiivse ja protseduurilise komponendi vahelise vajaliku suhte õige hindamine. Mida eelistada: võimsad arvutusprotseduurid, mis põhinevad suhteliselt väikestel sõnastikusüsteemidel, millel on rikkalik grammatiline ja semantiline teave, või võimas deklaratiivne komponent, millel on suhteliselt lihtne arvutiliidesed? Enamik teadlasi usub, et eelistatav on teine ​​viis. See viib praktiliste eesmärkide saavutamiseni kiiremini, kuna on vähem ummikteid ja raskeid ületamiseks mõeldud takistusi ning siin on võimalik arvuteid suuremas mahus kasutada teadus- ja arendustegevuse automatiseerimiseks.

Vajadust mobiliseerida jõupingutusi ennekõike automaatsete tekstiinfotöötlussüsteemide deklaratiivse komponendi arendamiseks kinnitab poole sajandi pikkune arvutilingvistika arendamise kogemus. Lõppude lõpuks pole siin, hoolimata selle teaduse vaieldamatutest edusammudest, kirg algoritmiliste protseduuride vastu toonud oodatud edu. Mõningane pettumus oli isegi menetluslike vahendite võimalustes.

Eeltoodu valguses tundub paljutõotav välja töötada selline arvutilingvistika arengutee, kus põhilised jõupingutused on suunatud võimsate keele- ja kõneühikute sõnastike loomisele, nende semantilis-süntaktilise struktuuri uurimisele ja morfoloogilise, tekstide semantilis-süntaktiline ja kontseptuaalne analüüs ja süntees. See võimaldab meil tulevikus otsustada lai valik rakendatud probleemid.

Arvutilingvistika ees seisavad eeskätt teabe kogumise, akumuleerimise, töötlemise ja otsimise protsesside keelelise toe ülesanded. Neist olulisemad on:

1. Masinsõnastike koostamise ja keelelise töötlemise automatiseerimine;

2. Tekstide arvutisse sisestamisel vigade tuvastamise ja parandamise protsesside automatiseerimine;

3. Dokumentide ja teabepäringute automaatne indekseerimine;

4. Dokumentide automaatne klassifitseerimine ja abstraheerimine;

5. Infootsingu protsesside keeleline tugi ühe- ja mitmekeelsetes andmebaasides;

6. Tekstide masintõlge ühest loomulikust keelest teise;

7. Lingvistiliste protsessorite ehitamine, mis tagavad suhtluse kasutajate ja automatiseeritud intelligentide vahel infosüsteemid(eriti koos ekspertsüsteemid) loomulikus keeles või looduslähedases keeles;

8. Faktilise teabe ammutamine mitteametlikest tekstidest.

Vaatleme üksikasjalikult uurimisteemat puudutavatel probleemidel.

IN praktiline tegevus teabekeskused Vaja on lahendada tekstide vigade automaatse tuvastamise ja parandamise probleem nende arvutisse sisestamisel. See keeruline ülesanne võib tinglikult jagada kolmeks ülesandeks - tekstide ortograafilise, süntaktilise ja semantilise juhtimise ülesanded. Neist esimest saab lahendada morfoloogilise analüüsi protseduuriga, mis kasutab üsna võimsat sõnatüvede referentsmasinasõnastikku. Õigekirjakontrolli käigus alluvad teksti sõnad morfoloogilisele analüüsile ja kui nende alused identifitseeritakse viitesõnastiku alustega, siis loetakse need õigeks; kui neid ei tuvastata, esitatakse need koos mikrokontekstiga inimesele vaatamiseks. Inimene tuvastab ja parandab moonutatud sõnu ning vastavaid tarkvarasüsteem teeb need parandused parandatud tekstis.

Tekstide süntaktilise kontrolli ülesanne nendes vigade tuvastamiseks on sisuliselt raskemad ülesanded nende õigekirja kontroll. Esiteks sellepärast, et see sisaldab kohustusliku komponendina õigekirjakontrolli ülesannet ja teiseks seetõttu, et probleem sõelumine mitteametlikud tekstid sisse täielikult pole veel otsustatud. Tekstide osaline süntaktiline juhtimine on aga täiesti võimalik. Siin saab minna kahel viisil: kas koostada üsna esinduslikud masinsõnastikud viitesüntaktiliste struktuuride kohta ja võrrelda nendega analüüsitava teksti süntaktilisi struktuure; või areneda keeruline süsteem reeglid tekstielementide grammatilise järjepidevuse kontrollimiseks. Esimene tee tundub meile paljulubavam, kuigi see muidugi ei välista võimalust kasutada teise tee elemente. Süntaktiline struktuur tekste tuleks kirjeldada sõnade grammatiliste klasside kaudu (täpsemalt hulkade jadade kujul grammatilist teavet sõnadele).

Tekstide semantilise kontrolli ülesanne tuvastamiseks semantilised vead tuleks klassifitseerida tehisintellekti ülesanneteks. Täielikult saab seda lahendada ainult inimliku mõtlemise protsesside modelleerimise põhjal. Sel juhul on ilmselt vaja luua võimsad entsüklopeedilised teadmistebaasid ja tarkvaratööriistad teadmistega manipuleerimiseks. Siiski piiratud ainevaldkonnad ja formaliseeritud teabe puhul on see ülesanne täiesti lahendatav. Seda tuleks püstitada ja lahendada tekstide semantilis-süntaktilise kontrolli probleemina.

ARVUTILINGvistika (calque inglise computational linguistics), üks rakenduslingvistika valdkondi, milles arendatakse ja kasutatakse keele uurimiseks ja keele toimimise modelleerimiseks teatud tingimustes, olukordades ja probleemis arvutiprogramme, andmete organiseerimise ja töötlemise arvutitehnoloogiaid. alad. Teisest küljest on see rakendusvaldkond arvutimudelid keel lingvistikas ja sellega seotud distsipliinides. Kui eriline teaduslik suund aastal kujunes arvutuslingvistika Euroopa uuringud 1960. aastatel. Kuna ingliskeelset omadussõna computational võib tõlkida ka kui “arvutuslik”, leidub kirjanduses ka mõiste “arvutuslingvistika”, kuid rahvusteadus see omandab kitsama tähenduse, lähenedes mõistele “kvantitatiivne lingvistika”.

Mõistet “kvantitatiivne lingvistika” nimetatakse sageli arvutuslingvistikaks, mis iseloomustab rakendusuuringutes interdistsiplinaarset suunda, kus keele ja kõne uurimisel kasutatakse peamise vahendina kvantitatiivseid või statistilisi analüüsimeetodeid. Mõnikord vastandub kvantitatiivne (või kvantitatiivne) keeleteadus kombinatoorsele keeleteadusele. Viimases on domineeriv roll "mitte-kvantitatiivsel" matemaatiline aparaat- hulga teooria, matemaatiline loogika, algoritmide teooria jne Teoreetilisest vaatenurgast lähtudes kasutamine statistilised meetodid keeleteaduses võimaldab keele struktuurimudelit täiendada tõenäosuskomponendiga ehk luua teoreetiline struktuur-tõenäosuslik mudel, millel on märkimisväärne seletuspotentsiaal. IN rakendusala Kvantitatiivset keeleteadust esindab ennekõike selle mudeli fragmentide kasutamine, mida kasutatakse keele toimimise lingvistiliseks jälgimiseks, kodeeritud teksti dekodeerimiseks, teksti autoriseerimiseks/omistamiseks jne.

Mõistet “arvutilingvistika” ja selle valdkonna probleeme seostatakse sageli suhtlemise modelleerimisega ja eelkõige inimese suhtlemise tagamisega arvutiga loomulikus või piiratud loomulikus keeles (selleks spetsiaalsed süsteemid loomuliku keele töötlemine), samuti teabeotsingusüsteemide (IRS) teooria ja praktikaga. Inimeste suhtluse tagamist arvutiga loomulikus keeles nimetatakse mõnikord "loomuliku keele töötlemiseks" (inglise keelest tõlge terminist Natural Language Processing). See arvutilingvistika valdkond tekkis 1960. aastate lõpus välismaal ja arenes tehisintellektiks nimetatud teadusliku ja tehnoloogilise distsipliini raames (R. Schenki, M. Lebowitzi, T. Winogradi jt tööd). Selle tähenduses peaks väljend "loomuliku keele töötlemine" hõlmama kõiki valdkondi, kus keeleandmete töötlemiseks kasutatakse arvuteid. Praktikas on aga kinnistunud mõiste kitsam mõistmine - meetodite, tehnoloogiate ja spetsiifiliste süsteemide väljatöötamine, mis tagavad inimese suhtluse arvutiga loomulikus või piiratud loomulikus keeles.

Teatud määral võib arvutilingvistika hõlmata tööd hüpertekstisüsteemide loomise vallas, mida peetakse kui eriline viis teksti korraldus ja isegi kui põhimõtteliselt uut tüüpi tekst, mis vastandub paljudes oma omadustes Gutenbergi trükitraditsioonis kujunenud tavalisele tekstile (vt Gutenberg).

Arvutuslingvistika pädevusse kuulub ka automaattõlge.

Arvutuslingvistika raames on välja kujunenud suhteliselt uus, alates 1980-90ndatest aktiivselt arenev suund - korpuslingvistika, kus üldised põhimõtted lingvistiliste andmekorpuste (eelkõige tekstikorpuste) konstrueerimine kasutades kaasaegset arvutitehnoloogia. Tekstikorpused on spetsiaalselt valitud tekstide kogumikud raamatutest, ajakirjadest, ajalehtedest jne, mis on kantud arvutimeediale ja mõeldud automaatseks töötlemiseks. jaoks loodi üks esimesi tekstikorpusi Ameerika versioon inglise keelt Browni ülikoolis (nn Brown Corps) 1962-63 W. Francise juhtimisel. Venemaal on Vene Teaduste Akadeemia Vinogradovi Vene Keele Instituut alates 2000. aastate algusest arendanud vene keele riiklikku korpust, mis koosneb esinduslikust venekeelsete tekstide valimitest, mille maht on umbes 100 miljonit sõnakasutust. Lisaks tegelikule andmekorpuste ehitamisele tegeleb korpuslingvistika arvutitööriistade loomisega ( arvutiprogrammid), mille eesmärk on saada tekstikorpustest erinevat teavet. Kasutaja seisukohalt kehtivad tekstikorpustele esinduslikkuse (esinduslikkuse), terviklikkuse ja ökonoomsuse nõuded.

Arvutilingvistika areneb aktiivselt nii Venemaal kui ka välismaal. Väljaannete voog selles valdkonnas on väga suur. Lisaks temaatilistele kogumikele ilmub Ameerika Ühendriikides alates 1984. aastast kord kvartalis ajakiri Computational Linguistics. Suurt korralduslikku ja teaduslikku tööd teeb Arvutuslingvistika Ühing, millel on piirkondlikud struktuurid maailmas (eriti Euroopa filiaalis). Iga kahe aasta tagant toimuvad rahvusvahelised COLINT konverentsid (2008. aastal toimus konverents Manchesteris). Arvutuslingvistika põhisuundi arutatakse ka iga-aastasel rahvusvahelisel konverentsil “Dialoog”, mida korraldavad Venemaa Tehisintellekti Uurimise Instituut, Moskva Riikliku Ülikooli filoloogiateaduskond, Yandex ja mitmed teised organisatsioonid. Vastavad küsimused on samuti laialdaselt esindatud rahvusvahelised konverentsid Kõrval tehisintellekt erinevad tasemed.

Lit.: Zvegintsev V. A. Teoreetiline ja rakenduslingvistika. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Matemaatiline lingvistika. M., 1977; Gorodetsky B. Yu. Tegelikud probleemid rakenduslingvistika // Uut võõrkeeleteaduses. M., 1983. Väljaanne. 12; Kibrik A. E. Rakenduslingvistika // Kibrik A. E. Esseesid üldisest ja rakendusprobleemid keeleteadus. M., 1992; Kennedy G. Sissejuhatus korpuslingvistikasse. L., 1998; Bolšakov I.A., Gelbukh A. Arvutuslingvistika: mudelid, ressursid, rakendused. Mekh., 2004; Vene keele rahvuskorpus: 2003-2005. M., 2005; Baranov A. N. Sissejuhatus rakenduslingvistikasse. 3. väljaanne M., 2007; Arvutilingvistika ja intellektuaalsed tehnoloogiad. M., 2008. Väljaanne. 7.

Filoloogiaosakonnas Keskkool käivitatakse uus majandus Magistriprogramm, mis on pühendatud arvutuslingvistikale: siia on oodatud humanitaar- ja matemaatilise taustaga taotlejad põhiharidus ja kõik, kes on huvitatud probleemide lahendamisest ühes paljutõotavamas teadusharus. Selle direktor Anastasia Bonch-Osmolovskaja rääkis teooriatele ja praktikutele, mis on arvutuslingvistika, miks robotid inimesi ei asenda ja mida õpetatakse HSE arvutilingvistika magistriprogrammis.

See programm on Venemaal peaaegu ainus omataoline. Kus sa õppisid?

Õppisin Moskva Riiklikus Ülikoolis teoreetilise ja rakenduslingvistika osakonnas filoloogiateaduskond. Kohe ma sinna ei jõudnud, esmalt astusin vene osakonda, aga siis tekkis tõsine huvi keeleteaduse vastu ja mind köitis õhkkond, mis osakonnas püsib tänaseni. Kõige tähtsam on olemas hea kontaktõpetajate ja õpilaste vahel ning nende vastastikusest huvist.

Kui mul olid lapsed ja oli vaja elatist teenida, läksin kommertslingvistika valdkonda. 2005. aastal polnud veel päris selge, mis see tegevusvaldkond kui selline on. Töötasin erinevates keeleettevõtetes: alustasin väikese ettevõttega saidil Public.ru - see on omamoodi meediateek, kus hakkasin tegelema keeletehnoloogiatega. Siis töötasin aasta Rosnanotechis, kus tekkis idee teha analüütiline portaal nii et sellel olevad andmed struktureeritakse automaatselt. Seejärel juhtisin Avicompi ettevõttes keeleosakonda - see on juba tõsine toodang arvutilingvistika ja semantiliste tehnoloogiate valdkonnas. Samal ajal andsin Moskva Riiklikus Ülikoolis arvutilingvistika kursust ja püüdsin seda kaasaegsemaks muuta.

Kaks ressurssi keeleteadlasele: - keeleteadlaste loodud sait vene keelega seotud teadus- ja rakendusuuringute jaoks. See on vene keele mudel, mis on esitatud tohutul hulgal erinevatest žanritest ja perioodidest pärit tekste. Tekstid on varustatud keelelise märgistusega, mille abil saab teavet teatud keelenähtuste esinemissageduse kohta. Wordnet on tohutu inglise keele leksikaalne andmebaas, peamine idee Wordnet - mitte sõnade, vaid nende tähenduste ühendamine üheks suureks võrguks. Wordneti saab alla laadida ja kasutada oma projektide jaoks.

Mida teeb arvutuslingvistika?

See on kõige interdistsiplinaarsem valdkond. Siin on kõige tähtsam mõista, mis toimub elektrooniline maailm ja kes aitab teil konkreetseid asju teha.

Oleme ümbritsetud väga suur hulk digitaalset teavet, on palju äriprojekte, mille edu sõltub teabe töötlemisest, need projektid võivad olla seotud turunduse, poliitika, majanduse ja kõige muuga. Ja väga oluline on osata seda teavet tõhusalt käsitleda - peamine pole mitte ainult teabe töötlemise kiirus, vaid ka lihtsus, millega saate pärast müra välja filtreerimist hankida vajalikud andmed ja luua täieliku pilt sellest.

Varem olid mõned globaalsed ideed seotud arvutilingvistikaga, näiteks: inimesed arvasid, et masintõlge asendab inimtõlke, inimeste asemel hakkavad tööle robotid. Kuid praegu tundub see utoopiana ja selleks kasutatakse otsingumootorites masintõlget kiire otsing tundmatus keeles. See tähendab, et praegu tegeleb lingvistika harva abstraktsete probleemidega – enamasti mingite pisiasjadega, mida saab suurde tootesse sisestada ja sellega raha teenida.

Üks neist suuri ülesandeid kaasaegne keeleteadus- semantiline veeb, kui otsing ei toimu ainult sõnade kokkulangemise, vaid tähenduse järgi ja kõik saidid on ühel või teisel viisil semantikaga tähistatud. See võib olla kasulik näiteks politsei- või meditsiiniaruannete puhul, mida kirjutatakse iga päev. Analüüs sisemised ühendused annab palju vajalikku teavet, ning selle käsitsi lugemine ja loendamine on uskumatult aeganõudev.

Lühidalt öeldes on meil tuhat teksti, peame need rühmadesse sorteerima, esitama iga teksti struktuuri kujul ja saama tabeli, millega saame juba töötada. Seda nimetatakse struktureerimata infotöötluseks. Teisalt tegeleb arvutuslingvistika näiteks tehistekstide loomisega. On üks firma, kes on välja mõelnud mehhanismi, kuidas genereerida tekste teemadel, millest inimesel on igav kirjutada: kinnisvarahindade muutused, ilmaennustused, jalgpallimatšide teated. Nende tekstide tellimine inimesele on palju kallim ja arvutitekstid sellistel teemadel on kirjutatud sidusas inimkeeles.

Yandex osaleb aktiivselt Venemaal struktureerimata teabe otsimise valdkonna arengutes; Kaspersky Lab võtab tööle uurimisrühmad kes õpivad masinõpe. Kas keegi turul proovib arvutilingvistika vallas midagi uut välja mõelda?

**Arvutuslingvistika raamatud:**

Daniel Jurafsky, kõne- ja keeletöötlus

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Introduction to Information Retrieval"

Yakov Testelets, "Sissejuhatus üldisesse süntaksisse"

Enamik keelelisi arendusi on patenteeritud suured ettevõtted, sealt ei leia peaaegu midagi avatud juurdepääs. See pidurdab tööstuse arengut, meil pole vaba keelelist turgu ega pakendatud lahendusi.

Lisaks on puudu täisväärtuslikust teabeallikad. On olemas selline projekt nagu Vene keele rahvuskorpus. See on üks parimaid rahvushooneid maailmas, mis areneb kiiresti ja avab uskumatuid võimalusi teadus- ja rakendusuuringud. Erinevus on umbes sama, mis bioloogias – enne DNA-uuringuid ja pärast.

Kuid palju ressursse pole vene keeles olemas. Nii et sellisele suurepärasele ingliskeelsele ressursile nagu Framenet pole analoogi – see on kontseptuaalne võrgustik, kus kõik võimalikud ühendused mõni konkreetne sõna teiste sõnadega. Näiteks on sõna "lendama" - kes võib lennata, kus, millise eessõnaga seda sõna kasutatakse, milliste sõnadega see on ühendatud jne. See ressurss aitab keelt ühendada päris elu st jälgida, kuidas see käitub konkreetne sõna morfoloogia ja süntaksi tasandil. See on väga kasulik.

Avicompi ettevõte arendab praegu sarnase sisuga artiklite otsimiseks mõeldud pluginat. See tähendab, et kui olete artiklist huvitatud, saate kiiresti vaadata süžee ajalugu: millal teema tekkis, mida kirjutati ja millal oli selle probleemi vastu huvi kõrgpunkt. Näiteks on selle pistikprogrammi abil võimalik, alustades artiklist, mis on pühendatud sündmustele Süürias, väga kiiresti näha, kuidas eelmisel aastal seal arenesid sündmused.

Kuidas toimub õppeprotsess magistriprogrammis?

Koolitus HSE-s on korraldatud eraldi moodulitena – nagu in Lääne ülikoolid. Õpilased jagatakse väikesteks meeskondadeks, mini-idufirmadeks – see tähendab, et peaksime saama mitu lõpetatud projektid. Tahame saada tõelisi tooteid, mille avame seejärel inimestele ja jätame avalikkuse ette.

Lisaks tudengite vahetutele projektijuhtidele soovime leida neile kuraatorid enda hulgast potentsiaalsed tööandjad- näiteks samast Yandexist, kes samuti seda mängu mängib ja õpilastele nõu annab.

Loodan, et inimesed kõige rohkem erinevad valdkonnad: programmeerijad, keeleteadlased, sotsioloogid, turundajad. Meil on mitmeid kohanemiskursusi keeleteaduses, matemaatikas ja programmeerimises. Siis on meil kaks tõsist keeleteaduse kursust ja need on seotud kõige asjakohasemaga lingvistilisi teooriaid, soovime, et meie lõpetajad oskaksid lugeda ja mõista kaasaegseid keelealaseid artikleid. Matemaatikaga on sama lugu. Meil on kursus "Arvutuslingvistika matemaatilised alused", mis toob välja need matemaatika harud, millel kaasaegne arvutuslingvistika põhineb.

Magistriõppesse registreerumiseks peate läbima sisseastumiseksam keeles ja läbida portfooliokonkurss.

Lisaks põhikursustele tuleb rida valikaineid.Oleme planeerinud mitu tsüklit – neist kaks on suunatud sügavamale õppimisele. üksikud teemad, mis hõlmavad näiteks masintõlget ja korpuslingvistikat, ning üks, vastupidi, on seotud seotud valdkonnad: nagu näiteks, sotsiaalmeedia, masinõpe või digitaalne humanitaarteadus – kursus, mida loodetavasti õpetatakse inglise keeles.