Eneo muhimu zaidi la isimu computational ni maendeleo. Isimu hesabu kama taaluma ya isimu inayotumika

Novoselova Irina

Kwa nini tafsiri zote za mashine si kamilifu? Ni nini huamua ubora wa tafsiri? Je, mwandishi ana maarifa ya kutosha ya kutumia na kuongezea yaliyopo kamusi za kompyuta? Mwandishi alitaka kutoa majibu ya maswali haya katika kazi yake. Ripoti juu ya mada - katika faili iliyoambatanishwa, bidhaa shughuli za mradi- kwenye portal ya shule

Pakua:

Hakiki:

Fungua

Kimataifa

utafiti

mkutano

wanafunzi wa shule ya upili na wanafunzi

"Elimu. Sayansi. Taaluma"

Sehemu ya "Isimu za Kigeni"

« Isimu za kimahesabu»

Imechezwa na Novoselova Irina

gymnasium ya taasisi ya elimu ya manispaa No. 39 "Classical"

10 "B" darasa

Wasimamizi wa kisayansi:

Chigrinyova Tatyana Dmitrievna,

mwalimu Lugha ya Kiingereza kitengo cha juu zaidi

Osipova Svetlana Leonidovna,

mwalimu wa sayansi ya kompyuta wa kitengo cha juu zaidi

Otradny

2011

  1. Maneno ya Kiingereza katika ICT

Angalia kwenye tovuti

  1. Jaribio langu

Moja ya kazi ni kufanya majaribio, ambayo yanajumuisha kulinganisha uwezo wa kompyuta mbalimbali kamusi za lugha, kulingana na tafsiri ya takriban kwa usahihi zaidi kutoka kwa Kiingereza hadi Kirusi.

Tovuti zifuatazo zilijaribiwa:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Kwa usafi wa jaribio, nilichagua sentensi na kwa viwango tofauti ugumu wa tafsiri ya kimtindo. Maneno ya kuingiza ni kama ifuatavyo:

1. Ripoti mpya inasema vijana wa siku hizi wana ubinafsi zaidi kuliko walivyokuwa miaka 20 iliyopita

(Ripoti mpya inasema vijana wa kisasa ubinafsi zaidi kuliko miaka 20 iliyopita)

2. Anaamini michezo ya video na Mtandao ndio sababu kuu za kuongezeka kwa ubinafsi.

(Anaamini kuwa michezo ya video na mtandao ndio michezo mingi zaidi sababu muhimu kwa kuongezeka kwa ubinafsi)

3. Wanataka kuwa bora kuliko wengine

(Wanataka kuwa bora kuliko wengine)

4. Aligundua ongezeko kubwa limeanza kutoka kwa mwaka wa 2000, wakati ambapo michezo ya video yenye jeuri ikawa maarufu sana.

(Alipata ukuaji mkubwa, ambayo ilianza mwaka 2000, lini video za vurugu michezo imekuwa maarufu sana)

Baada ya kutafsiri sentensi hizi kwenye tovuti za watafsiri mtandaoni, nilipata matokeo yafuatayo:

  1. http://translate.eu/

KAZI YA KOZI

katika taaluma "Informatics"

juu ya mada: "Isimu ya kihesabu"


UTANGULIZI

1. Nafasi na dhima ya isimu komputa katika utafiti wa kiisimu

2. Violesura vya kisasa vya isimu kokotoa

HITIMISHO

FASIHI


Utangulizi

Katika maisha jamii ya kisasa jukumu muhimu teknolojia ya habari ya kiotomatiki ina jukumu. Kwa wakati, umuhimu wao huongezeka mara kwa mara. Lakini maendeleo teknolojia ya habari hutokea kwa kutofautiana sana: ikiwa ngazi ya kisasa teknolojia ya kompyuta na njia za mawasiliano ni za kushangaza, basi katika uwanja wa usindikaji wa habari wa semantic, mafanikio ni ya kawaida zaidi. Mafanikio haya yanategemea, kwanza kabisa, juu ya mafanikio katika utafiti wa michakato ya kufikiria ya mwanadamu, michakato mawasiliano ya maneno kati ya watu na uwezo wa kuiga michakato hii kwenye kompyuta.

Wakati tunazungumzia juu ya uundaji wa teknolojia za kuahidi za habari, basi shida za usindikaji otomatiki wa habari ya maandishi iliyowasilishwa kwa lugha asilia huja mbele. Hii imedhamiriwa na ukweli kwamba mawazo ya mtu yanahusiana sana na lugha yake. Aidha, lugha ya asili ni chombo cha kufikiri. Yeye pia ni tiba ya ulimwengu wote mawasiliano kati ya watu - njia ya utambuzi, mkusanyiko, uhifadhi, usindikaji na usambazaji wa habari. Matatizo ya matumizi lugha ya asili Sayansi ya isimu ya kompyuta inahusika na mifumo ya usindikaji wa habari otomatiki. Sayansi hii iliibuka hivi karibuni - mwanzoni mwa miaka ya hamsini na sitini ya karne iliyopita. Zaidi ya nusu karne iliyopita, muhimu kisayansi na matokeo ya vitendo: mifumo ya tafsiri ya mashine ya maandishi kutoka kwa lugha asilia hadi nyingine, mifumo ya utaftaji wa kiotomatiki wa habari katika maandishi, mifumo uchambuzi wa moja kwa moja na awali hotuba ya mdomo na wengine wengi. Kazi hii imejitolea kwa ujenzi wa kiolesura bora cha kompyuta kwa kutumia isimu ya kompyuta wakati wa kufanya utafiti wa kiisimu.


KATIKA ulimwengu wa kisasa Isimu ya komputa inazidi kutumika katika tafiti mbalimbali za kiisimu.

Isimu ya komputa ni uwanja wa maarifa unaohusishwa na kutatua shida za usindikaji kiotomatiki wa habari inayowasilishwa kwa lugha asilia. Kati matatizo ya kisayansi Isimu ya kompyuta ni shida ya kuiga mchakato wa kuelewa maana ya maandishi (mpito kutoka kwa maandishi hadi uwakilishi rasmi wa maana yake) na shida ya usanisi wa hotuba (mpito kutoka kwa uwakilishi rasmi wa maana hadi maandishi katika lugha asilia). Matatizo haya hutokea wakati wa kutatua idadi ya matatizo yaliyotumika na, haswa, kazi za kugundua kiotomatiki na urekebishaji wa makosa wakati wa kuingiza maandishi kwenye kompyuta, uchambuzi wa kiotomatiki na usanisi wa hotuba ya mdomo; tafsiri ya moja kwa moja maandishi kutoka lugha moja hadi nyingine, mawasiliano na kompyuta katika lugha asilia, uainishaji otomatiki na indexing hati za maandishi, uondoaji wao otomatiki, kutafuta hati katika hifadhidata za maandishi kamili.

Zana za kiisimu zilizoundwa na kutumika katika isimu mkokotoa zinaweza kugawanywa katika sehemu mbili: tamko na utaratibu. Sehemu ya kutangaza inajumuisha kamusi za vitengo vya lugha na hotuba, maandishi na aina mbalimbali meza za sarufi, kwa sehemu ya utaratibu - njia za kudhibiti vitengo vya lugha na hotuba, maandishi na meza za sarufi. Kiolesura cha kompyuta kinarejelea sehemu ya kiutaratibu ya isimu komputa.

Mafanikio katika kutatua matatizo yaliyotumika ya isimu ya kompyuta inategemea, kwanza kabisa, juu ya ukamilifu na usahihi wa uwakilishi wa njia za kutangaza katika kumbukumbu ya kompyuta na juu ya ubora wa njia za kiutaratibu. Kufikia sasa, kiwango kinachohitajika cha kutatua shida hizi bado hakijapatikana, ingawa kazi katika uwanja wa isimu ya hesabu inafanywa katika yote. nchi zilizoendelea ulimwengu (Urusi, USA, England, Ufaransa, Ujerumani, Japan, nk).

Hata hivyo, inaweza kuzingatiwa kuwa kubwa kisayansi na mafanikio ya vitendo katika Isimu Computational. Kwa hivyo, katika idadi ya nchi (Urusi, USA, Japan, n.k.) mifumo ya majaribio na kiviwanda ya tafsiri ya maandishi kutoka lugha moja hadi nyingine imejengwa, idadi ya mifumo ya majaribio mawasiliano na kompyuta katika lugha asilia, kazi inaendelea kuunda benki za data za istilahi, thesauri, kamusi za mashine za lugha mbili na lugha nyingi (Urusi, USA, Ujerumani, Ufaransa, n.k.), mifumo ya uchambuzi wa kiotomatiki na usanisi wa hotuba ya mdomo inajengwa (Urusi. , Marekani, Japan na nyinginezo), utafiti unaendelea katika uga wa kujenga modeli za lugha asilia.

Shida muhimu ya kimbinu ya isimu hesabu inayotumika ni tathmini sahihi ya uhusiano unaohitajika kati ya vifaa vya kutangaza na vya kiutaratibu vya mifumo ya usindikaji wa habari otomatiki. Nini cha kutoa upendeleo kwa: taratibu zenye nguvu za kukokotoa kulingana na mifumo midogo ya kamusi yenye taarifa nyingi za kisarufi na kisemantiki, au kijenzi chenye nguvu cha tamko kilicho rahisi kiasi. violesura vya kompyuta? Wanasayansi wengi wanaamini kuwa njia ya pili inafaa zaidi. Itasababisha kufikiwa kwa malengo ya vitendo haraka, kwani kutakuwa na ncha chache zilizokufa na vizuizi ngumu vya kushinda, na hapa itawezekana kutumia kompyuta kwa kiwango kikubwa kubinafsisha utafiti na maendeleo.

Haja ya kuhamasisha juhudi, kwanza kabisa, juu ya ukuzaji wa sehemu ya kutangaza ya mifumo ya usindikaji wa habari ya maandishi kiotomatiki inathibitishwa na uzoefu wa nusu karne katika ukuzaji wa isimu ya kompyuta. Hakika, hapa, licha ya mafanikio yasiyoweza kuepukika ya sayansi hii, shauku ya taratibu za algorithmic haijaleta mafanikio yaliyotarajiwa. Kulikuwa na hata tamaa fulani katika uwezo wa njia za kiutaratibu.

Kwa kuzingatia hayo hapo juu, inaonekana kuahidi kukuza njia kama hiyo ya maendeleo ya isimu ya kompyuta, wakati juhudi kuu zitakuwa na lengo la kuunda kamusi zenye nguvu za vitengo vya lugha na hotuba, kusoma muundo wao wa semantic-syntactic na kuunda taratibu za kimsingi za morphological. uchambuzi wa kisemantiki-kisintaksia na dhahania na usanisi wa matini. Hii itaturuhusu kuamua katika siku zijazo mbalimbali matatizo yaliyotumika.

Isimu ya kompyuta inakabiliwa, kwanza kabisa, kazi za usaidizi wa lugha kwa michakato ya kukusanya, kukusanya, kuchakata na kupata habari. Muhimu zaidi wao ni:

1. Automatisering ya mkusanyiko na usindikaji wa lugha ya kamusi za mashine;

2. Automation ya taratibu za kuchunguza na kurekebisha makosa wakati wa kuingiza maandiko kwenye kompyuta;

3. Indexing moja kwa moja ya nyaraka na maombi ya habari;

4. Uainishaji wa moja kwa moja na uondoaji wa nyaraka;

5. Usaidizi wa kiisimu kwa michakato ya kupata taarifa katika hifadhidata za lugha moja na lugha nyingi;

6. Tafsiri ya mashine ya maandishi kutoka lugha moja ya asili hadi nyingine;

7. Ujenzi wa vichakataji vya lugha vinavyohakikisha mawasiliano kati ya watumiaji na wenye akili otomatiki mifumo ya habari(hasa na mifumo ya wataalam) katika lugha ya asili, au katika lugha iliyo karibu na asilia;

8. Kutoa taarifa za ukweli kutoka kwa maandishi yasiyo rasmi.

Wacha tukae kwa undani juu ya shida zinazofaa zaidi kwa mada ya utafiti.

KATIKA shughuli za vitendo vituo vya habari Kuna haja ya kutatua tatizo la ugunduzi wa kiotomatiki na urekebishaji wa makosa katika maandishi yanapoingizwa kwenye kompyuta. Hii kazi ngumu inaweza kugawanywa kwa masharti katika kazi tatu - kazi za udhibiti wa maandishi, kisintaksia na kisemantiki wa maandishi. Ya kwanza kati yao yanaweza kutatuliwa kwa kutumia utaratibu wa uchanganuzi wa kimofolojia unaotumia kamusi ya mashine ya kumbukumbu yenye nguvu ya mashina ya maneno. Katika mchakato wa udhibiti wa herufi, maneno ya maandishi yanakabiliwa na uchambuzi wa morphological, na ikiwa misingi yao inatambuliwa na misingi ya kamusi ya kumbukumbu, basi inachukuliwa kuwa sahihi; ikiwa hawajatambuliwa, basi wao, wakifuatana na microcontext, huwasilishwa kwa mtu kwa kutazamwa. Mtu hugundua na kurekebisha maneno yaliyopotoka, na yanayolingana mfumo wa programu hufanya masahihisho haya kwa maandishi yaliyosahihishwa.

Kazi ya udhibiti wa kisintaksia wa matini ili kugundua makosa ndani yake ni kimsingi kazi ngumu zaidi udhibiti wao wa tahajia. Kwanza, kwa sababu inajumuisha kazi ya udhibiti wa tahajia kama sehemu yake ya lazima, na, pili, kwa sababu shida. kuchanganua maandishi yasiyo rasmi katika kwa ukamilifu bado haijaamuliwa. Walakini, udhibiti wa kisintaksia wa matini unawezekana kabisa. Hapa unaweza kwenda kwa njia mbili: ama kukusanya kamusi za mashine zinazowakilisha vyema za miundo ya kisintaksia ya marejeleo na kulinganisha nayo miundo ya kisintaksia ya matini iliyochanganuliwa; au kuendeleza mfumo mgumu sheria za kuangalia uthabiti wa kisarufi wa vipengele vya maandishi. Njia ya kwanza inaonekana kwetu kuwa ya kuahidi zaidi, ingawa, kwa kweli, haizuii uwezekano wa kutumia vitu vya njia ya pili. Muundo wa kisintaksia maandishi yanapaswa kuelezewa kwa suala la madarasa ya kisarufi ya maneno (kwa usahihi zaidi, katika mfumo wa mlolongo wa seti. habari za kisarufi kwa maneno).

Kazi ya udhibiti wa kisemantiki wa matini ili kugundua makosa ya kimantiki zinapaswa kuainishwa kama kazi za akili bandia. Inaweza kutatuliwa kwa ukamilifu tu kwa msingi wa kuiga michakato ya mawazo ya mwanadamu. Katika kesi hii, itakuwa muhimu kuunda misingi yenye nguvu ya maarifa ya encyclopedic na zana za programu kwa ajili ya upotoshaji wa maarifa. Hata hivyo, kwa mdogo maeneo ya masomo na kwa taarifa rasmi kazi hii inaweza solvable kabisa. Inapaswa kuwekwa na kutatuliwa kama tatizo la udhibiti wa kisemantiki-kisintaksia wa matini.

LUGHA ZA KOMPYUTA (calque kutoka kwa isimu ya kompyuta ya Kiingereza), moja ya maeneo ya isimu inayotumika, ambayo programu za kompyuta, teknolojia za kompyuta za kupanga na kuchakata data hutengenezwa na kutumika kusoma lugha na kuiga utendakazi wa lugha katika hali fulani, hali na shida. maeneo. Kwa upande mwingine, hii ni eneo la maombi mifano ya kompyuta lugha katika isimu na taaluma zinazohusiana. Jinsi maalum mwelekeo wa kisayansi isimu komputa ilichukua sura Masomo ya Ulaya katika miaka ya 1960. Kwa kuwa kivumishi cha kivumishi cha Kiingereza kinaweza pia kutafsiriwa kama "computational," neno "computational linguistics" linapatikana pia katika fasihi, lakini katika sayansi ya kitaifa inapata maana nyembamba, inakaribia dhana ya "isimu ya kiasi".

Neno "idadi ya isimu" mara nyingi hujulikana kama isimu hesabu, ambayo inaashiria mwelekeo wa taaluma mbalimbali katika utafiti unaotumika, ambapo mbinu za uchanganuzi wa kiasi au takwimu hutumiwa kama zana kuu ya kusoma lugha na usemi. Wakati mwingine isimu ya kiasi (au kiasi) inalinganishwa na isimu mseto. Katika mwisho, jukumu kubwa linachukuliwa na "isiyo ya kiasi" vifaa vya hisabati- kuweka nadharia, mantiki ya hisabati, nadharia ya algorithms, nk Kutoka kwa mtazamo wa kinadharia, matumizi mbinu za takwimu katika isimu hufanya iwezekane kuongezea modeli ya kimuundo ya lugha na kijenzi kinachowezekana, yaani, kuunda muundo wa kinadharia-uwezekano ambao una uwezo mkubwa wa kueleza. KATIKA eneo la maombi Isimu ya kiasi inawakilishwa, kwanza kabisa, na matumizi ya vipande vya modeli hii, inayotumiwa kwa ufuatiliaji wa lugha ya utendaji wa lugha, uundaji wa maandishi ya msimbo, idhini / sifa ya maandishi, nk.

Neno "isimu za kompyuta" na shida za eneo hili mara nyingi huhusishwa na mawasiliano ya kielelezo, na juu ya yote, na kuhakikisha mwingiliano wa mwanadamu na kompyuta katika lugha asilia au ndogo (kwa kusudi hili, mifumo maalum usindikaji wa lugha asilia), pamoja na nadharia na mazoezi ya mifumo ya kupata habari (IRS). Kutoa mawasiliano kati ya mtu na kompyuta katika lugha ya asili wakati mwingine hujulikana kama "usindikaji wa lugha asilia" (tafsiri kutoka kwa Kiingereza ya neno Natural Language Processing). Eneo hili la isimu ya kompyuta lilitokea mwishoni mwa miaka ya 1960 nje ya nchi na kukuzwa ndani ya mfumo wa taaluma ya kisayansi na kiteknolojia inayoitwa akili ya bandia (kazi na R. Schenk, M. Lebowitz, T. Winograd, nk). Kwa maana yake, maneno "usindikaji wa lugha asilia" yanapaswa kujumuisha maeneo yote ambayo kompyuta hutumiwa kuchakata data ya lugha. Katika mazoezi, hata hivyo, uelewa mdogo wa neno hilo umeshikilia - maendeleo ya mbinu, teknolojia na mifumo maalum ambayo inahakikisha mawasiliano ya binadamu na kompyuta katika lugha ya asili au ndogo.

Kwa kiasi fulani, isimu ya kompyuta inaweza kujumuisha kazi katika uwanja wa kuunda mifumo ya maandishi ya hypertext, inayozingatiwa kama njia maalum mpangilio wa maandishi na hata jinsi ya kimsingi sura mpya maandishi, yakilinganishwa katika sifa zake nyingi na maandishi ya kawaida yaliyoundwa katika mapokeo ya Gutenberg ya uchapishaji (tazama Gutenberg).

Uwezo wa isimu komputa pia unajumuisha tafsiri otomatiki.

Ndani ya mfumo wa isimu komputa, mwelekeo mpya umeibuka, ambao umekuwa ukiendelezwa kikamilifu tangu miaka ya 1980-90 - isimu corpus, ambapo kanuni za jumla ujenzi wa data za lugha (haswa, maandishi corpora) kwa kutumia kisasa teknolojia ya kompyuta. Maandishi ya maandishi ni mkusanyo wa maandishi yaliyochaguliwa maalum kutoka kwa vitabu, majarida, magazeti, n.k., yaliyohamishwa kwa vyombo vya habari vya kompyuta na vinavyokusudiwa kuchakatwa kiotomatiki. Moja ya maandishi ya kwanza ya corpora iliundwa kwa Toleo la Amerika Kiingereza katika Chuo Kikuu cha Brown (kinachojulikana kama Brown Corps) mnamo 1962-63 chini ya uongozi wa W. Francis. Nchini Urusi, tangu mwanzoni mwa miaka ya 2000, Taasisi ya V. Vinogradov ya Lugha ya Kirusi ya Chuo cha Sayansi cha Kirusi imekuwa ikitengeneza Corpus ya Kitaifa ya lugha ya Kirusi, inayojumuisha sampuli ya mwakilishi wa maandishi ya lugha ya Kirusi yenye kiasi cha takriban milioni 100. matumizi ya maneno. Mbali na ujenzi halisi wa shirika la data, isimu corpus inahusika katika uundaji wa zana za kompyuta ( programu za kompyuta), iliyoundwa ili kutoa taarifa mbalimbali kutoka kwa maandishi. Kwa mtazamo wa mtumiaji, shirika la maandishi liko chini ya mahitaji ya uwakilishi (uwakilishi), ukamilifu na uchumi.

Isimu ya kompyuta inakua kikamilifu nchini Urusi na nje ya nchi. Mtiririko wa machapisho katika eneo hili ni mkubwa sana. Mbali na makusanyo ya mada, jarida la Computational Linguistics limechapishwa kila robo mwaka nchini Marekani tangu 1984. Kazi nyingi za shirika na kisayansi hufanywa na Chama cha Isimu Kokotozi, ambacho kina miundo ya kikanda duniani kote (haswa tawi la Ulaya). Kila baada ya miaka miwili, mikutano ya kimataifa ya COLINT hufanyika (mwaka wa 2008 mkutano ulifanyika Manchester). Miongozo kuu ya isimu ya hesabu pia inajadiliwa katika mkutano wa kimataifa wa kila mwaka wa "Mazungumzo", ulioandaliwa na Taasisi ya Utafiti ya Ushauri wa Usanii wa Urusi, Kitivo cha Philology cha Chuo Kikuu cha Jimbo la Moscow, Yandex na mashirika mengine kadhaa. Masuala yanayolingana pia yanawakilishwa kwa upana mikutano ya kimataifa Na akili ya bandia viwango tofauti.

Lit.: Zvegintsev V. A. Isimu ya kinadharia na inayotumika. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Isimu hisabati. M., 1977; Gorodetsky B. Yu. Masuala ya sasa isimu iliyotumika // Mpya katika isimu za kigeni. M., 1983. Toleo. 12; Kibrik A. E. Isimu inayotumika // Kibrik A. E. Insha juu ya jumla na masuala yaliyotumika isimu. M., 1992; Kennedy G. Utangulizi wa isimu corpus. L., 1998; Bolshakov I.A., Gelbukh A. Isimu ya hesabu: mifano, rasilimali, matumizi. Mekh., 2004; Kikosi cha Kitaifa cha Lugha ya Kirusi: 2003-2005. M., 2005; Baranov A. N. Utangulizi wa isimu iliyotumika. Toleo la 3. M., 2007; Isimu ya kompyuta na teknolojia ya kiakili. M., 2008. Toleo. 7.

Katika idara ya philology Shule ya upili uchumi mpya unazinduliwa programu ya bwana, iliyojitolea kwa isimu hesabu: waombaji walio na asili ya kibinadamu na hisabati wanakaribishwa hapa. elimu ya msingi na kila mtu ambaye ana nia ya kutatua matatizo katika mojawapo ya matawi ya kuahidi zaidi ya sayansi. Mkurugenzi wake, Anastasia Bonch-Osmolovskaya, aliiambia Nadharia na Watendaji ni nini isimu ya hesabu, kwa nini roboti hazitachukua nafasi ya wanadamu, na watafundisha nini katika programu ya bwana wa HSE katika isimu ya hesabu.

Mpango huu ni karibu pekee wa aina yake nchini Urusi. Ulisomea wapi?

Nilisoma katika Chuo Kikuu cha Jimbo la Moscow katika idara ya nadharia na matumizi ya isimu Kitivo cha Filolojia. Sikufika hapo mara moja, kwanza niliingia katika idara ya Kirusi, lakini kisha nikapendezwa sana na isimu, na nikavutiwa na mazingira ambayo yamebaki kwenye idara hadi leo. Jambo muhimu zaidi kuna mawasiliano mazuri kati ya walimu na wanafunzi na maslahi yao ya pamoja.

Nilipokuwa na watoto na nilihitaji kupata riziki, niliingia katika taaluma ya isimu ya kibiashara. Mnamo 2005, haikuwa wazi kabisa eneo hili la shughuli lilikuwa nini. Nilifanya kazi katika makampuni mbalimbali ya lugha: Nilianza na kampuni ndogo kwenye tovuti Public.ru - hii ni aina ya maktaba ya vyombo vya habari, ambapo nilianza kufanya kazi kwenye teknolojia za lugha. Kisha nilifanya kazi kwa mwaka huko Rosnanotech, ambapo kulikuwa na wazo la kufanya portal ya uchambuzi ili data iliyo juu yake itengenezwe kiotomatiki. Kisha nikaongoza idara ya lugha katika kampuni ya Avicomp - hii tayari ni uzalishaji mkubwa katika uwanja wa isimu ya kompyuta na teknolojia ya semantic. Wakati huohuo, nilifundisha kozi ya isimu ya komputa katika Chuo Kikuu cha Jimbo la Moscow na kujaribu kuifanya iwe ya kisasa zaidi.

Rasilimali mbili kwa mwanaisimu: - tovuti iliyoundwa na wanaisimu kwa utafiti wa kisayansi na matumizi unaohusiana na lugha ya Kirusi. Huu ni mfano wa lugha ya Kirusi, iliyotolewa kwa kutumia safu kubwa ya maandishi kutoka kwa aina na vipindi tofauti. Maandishi yana vifaa vya kuashiria lugha, kwa msaada ambao unaweza kupata habari juu ya mzunguko wa matukio fulani ya lugha. Wordnet ni hifadhidata kubwa ya maneno ya lugha ya Kiingereza, wazo kuu Wordnet - kuunganisha sio maneno, lakini maana zao kwenye mtandao mmoja mkubwa. Wordnet inaweza kupakuliwa na kutumika kwa miradi yako mwenyewe.

Je! Isimu hesabu hufanya nini?

Huu ndio uwanja unaohusisha taaluma nyingi zaidi. Jambo kuu hapa ni kuelewa kinachoendelea ulimwengu wa kielektroniki na nani atakusaidia kufanya mambo maalum.

Tumezungukwa sana idadi kubwa habari ya digital, kuna miradi mingi ya biashara, mafanikio ambayo inategemea usindikaji wa habari, miradi hii inaweza kuhusiana na uwanja wa masoko, siasa, uchumi na kitu kingine chochote. Na ni muhimu sana kuweza kushughulikia habari hii kwa ufanisi - jambo kuu sio kasi tu ya usindikaji wa habari, lakini pia urahisi ambao unaweza, baada ya kuchuja kelele, kupata data unayohitaji na kuunda kamili. picha kutoka humo.

Hapo awali, baadhi ya mawazo ya kimataifa yalihusishwa na isimu ya kompyuta, kwa mfano: watu walifikiri kwamba tafsiri ya mashine ingechukua nafasi ya tafsiri ya binadamu, kwamba roboti zingefanya kazi badala ya watu. Lakini sasa inaonekana kama utopia, na tafsiri ya mashine hutumiwa katika injini za utafutaji utafutaji wa haraka kwa lugha isiyojulikana. Hiyo ni, sasa isimu mara chache hushughulika na shida za kufikirika - haswa na vitu vidogo ambavyo vinaweza kuingizwa kwenye bidhaa kubwa na kupata pesa juu yake.

Moja ya kazi kubwa isimu ya kisasa- mtandao wa semantic, wakati utafutaji hutokea si tu kwa bahati mbaya ya maneno, lakini kwa maana, na maeneo yote kwa namna fulani yana alama ya semantics. Hii inaweza kuwa muhimu, kwa mfano, kwa ripoti za polisi au za matibabu ambazo zimeandikwa kila siku. Uchambuzi miunganisho ya ndani inatoa mengi taarifa muhimu, na kuisoma na kuihesabu mwenyewe kunatumia wakati mwingi.

Kwa kifupi, tunayo maandishi elfu, tunahitaji kuyapanga katika vikundi, kuwasilisha kila maandishi kwa namna ya muundo na kupata meza ambayo tunaweza tayari kufanya kazi. Hii inaitwa usindikaji wa habari usio na muundo. Kwa upande mwingine, isimu computational inahusika, kwa mfano, na uundaji wa maandishi bandia. Kuna kampuni ambayo imekuja na utaratibu wa kutengeneza maandishi juu ya mada ambayo ni boring kwa mtu kuandika: mabadiliko ya bei ya mali isiyohamishika, utabiri wa hali ya hewa, ripoti juu ya mechi za mpira wa miguu. Kuagiza maandishi haya kwa mtu ni ghali zaidi, na maandishi ya kompyuta juu ya mada kama hizo zimeandikwa kwa lugha thabiti ya kibinadamu.

Yandex inashiriki kikamilifu katika maendeleo katika uwanja wa kutafuta habari zisizo na muundo nchini Urusi Kaspersky Lab inaajiri vikundi vya utafiti wanaosoma kujifunza mashine. Je, kuna mtu sokoni anayejaribu kuja na kitu kipya katika uwanja wa isimu mkokotoa?

**Vitabu juu ya isimu komputa:**

Daniel Jurafsky, Usindikaji wa Hotuba na Lugha

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Utangulizi wa Urejeshaji Habari"

Tezi za Yakov, "Utangulizi wa Syntax ya Jumla"

Maendeleo mengi ya lugha ni ya umiliki makampuni makubwa, karibu hakuna kitu kinachoweza kupatikana ndani ufikiaji wazi. Hii inapunguza kasi ya maendeleo ya tasnia hatuna soko huria la lugha au suluhu zilizowekwa.

Kwa kuongeza, kuna ukosefu wa full-fledged rasilimali za habari. Kuna mradi kama vile Corpus ya Kitaifa ya Lugha ya Kirusi. Hili ni moja wapo ya majengo bora zaidi ya kitaifa ulimwenguni, ambayo yanaendelea kwa kasi na kufungua fursa nzuri kwa kisayansi na kisayansi. utafiti uliotumika. Tofauti ni sawa na katika biolojia - kabla ya utafiti wa DNA na baada.

Lakini rasilimali nyingi hazipo kwa Kirusi. Kwa hivyo, hakuna mlinganisho wa rasilimali nzuri ya lugha ya Kiingereza kama Framenet - huu ni mtandao wa dhana ambapo wote miunganisho inayowezekana neno maalum na maneno mengine. Kwa mfano, kuna neno "kuruka" - ni nani anayeweza kuruka, wapi, neno hili linatumiwa na neno gani, limejumuishwa na maneno gani, na kadhalika. Nyenzo hii husaidia kuunganisha lugha kwa maisha halisi, yaani, kufuatilia jinsi inavyofanya neno maalum katika kiwango cha mofolojia na sintaksia. Hii ni muhimu sana.

Kampuni ya Avicomp kwa sasa inatengeneza programu-jalizi ya kutafuta makala zilizo na maudhui sawa. Hiyo ni, ikiwa una nia ya makala, unaweza kuangalia haraka historia ya njama: wakati mada ilipotokea, ni nini kilichoandikwa na ni wakati gani kilele cha riba katika tatizo hili. Kwa mfano, kwa msaada wa programu-jalizi hii itawezekana, kuanzia makala iliyotolewa kwa matukio ya Syria, kwa haraka sana kuona jinsi wakati wa mwaka jana matukio yaliyoendelea huko.

Mchakato wa kujifunza katika programu ya bwana utaundwaje?

Mafunzo katika HSE yamepangwa katika moduli tofauti - kama ilivyo Vyuo vikuu vya Magharibi. Wanafunzi watagawanywa katika timu ndogo, mini-startups - yaani, tunapaswa kupata kadhaa miradi iliyokamilika. Tunataka kupata bidhaa halisi, ambazo tutafungua kwa watu na kuziacha kwa umma.

Kando na wasimamizi wa mradi wa haraka wa wanafunzi, tunataka kuwatafutia wasimamizi kutoka miongoni mwao waajiri watarajiwa- kutoka kwa Yandex sawa, kwa mfano, ambaye pia atacheza mchezo huu na kuwapa wanafunzi ushauri.

Natumaini kwamba watu kutoka zaidi maeneo mbalimbali: waandaaji programu, wataalamu wa lugha, wanasosholojia, wauzaji. Tutakuwa na kozi kadhaa za urekebishaji katika isimu, hisabati na upangaji programu. Kisha tutakuwa na kozi mbili kubwa za isimu, na zitahusiana na zinazofaa zaidi nadharia za kiisimu, tunataka wahitimu wetu waweze kusoma na kuelewa makala za kiisimu za kisasa. Ni sawa na hisabati. Tutakuwa na kozi iitwayo "Misingi ya Hisabati ya Isimu Kokotozi," ambayo itaangazia matawi hayo ya hisabati ambayo msingi wake wa isimu ya kisasa ya hesabu.

Ili kujiandikisha katika programu ya bwana, unahitaji kupita uchunguzi wa kuingia kwa lugha na kupitisha shindano la kwingineko.

Mbali na kozi kuu, kutakuwa na safu ya masomo ya kuchaguliwa Tumepanga mizunguko kadhaa - miwili kati yao inazingatia masomo ya kina mada binafsi, ambayo ni pamoja na, kwa mfano, tafsiri ya mashine na isimu corpus, na, na moja, kinyume chake, inahusishwa na maeneo yanayohusiana: kama vile, mitandao ya kijamii, kujifunza kwa mashine au Humanities Digital - kozi ambayo tunatarajia itafundishwa kwa Kiingereza.