గణన భాషాశాస్త్రం యొక్క అతి ముఖ్యమైన ప్రాంతం అభివృద్ధి. అనువర్తిత భాషా క్రమశిక్షణగా కంప్యూటేషనల్ లింగ్విస్టిక్స్

నోవోసెలోవా ఇరినా

అన్ని యంత్ర అనువాదాలు ఎందుకు పరిపూర్ణంగా లేవు? అనువాద నాణ్యతను ఏది నిర్ణయిస్తుంది? ఉన్నవాటిని ఉపయోగించడానికి మరియు భర్తీ చేయడానికి రచయితకు తగినంత జ్ఞానం ఉందా కంప్యూటర్ నిఘంటువులు? రచయిత తన పనిలో ఈ ప్రశ్నలకు సమాధానాలు ఇవ్వడానికి ప్రయత్నించారు. అంశంపై నివేదించండి - జోడించిన ఫైల్‌లో, ఉత్పత్తి ప్రాజెక్ట్ కార్యకలాపాలు- పాఠశాల పోర్టల్‌లో

డౌన్‌లోడ్:

ప్రివ్యూ:

తెరవండి

అంతర్జాతీయ

పరిశోధన

సమావేశం

ఉన్నత పాఠశాల విద్యార్థులు మరియు విద్యార్థులు

"చదువు. సైన్స్. వృత్తి"

విభాగం "విదేశీ భాషాశాస్త్రం"

« కంప్యూటేషనల్ లింగ్విస్టిక్స్»

నోవోసెలోవా ఇరినా ప్రదర్శించారు

పురపాలక విద్యా సంస్థ వ్యాయామశాల నం. 39 "క్లాసికల్"

10 "బి" తరగతి

శాస్త్రీయ పర్యవేక్షకులు:

చిగ్రిన్యోవా టాట్యానా డిమిత్రివ్నా,

గురువు ఆంగ్లం లోఅత్యధిక వర్గం

ఒసిపోవా స్వెత్లానా లియోనిడోవ్నా,

అత్యున్నత వర్గానికి చెందిన కంప్యూటర్ సైన్స్ ఉపాధ్యాయుడు

ఒట్రాడ్నీ

2011

  1. ICTలో ఆంగ్ల పదాలు

వెబ్‌సైట్‌లో చూడండి

  1. నా ప్రయోగం

వివిధ కంప్యూటర్ల సామర్థ్యాలను పోల్చడం వంటి ప్రయోగాన్ని నిర్వహించడం ఒక పని భాషా నిఘంటువులు, ఇంగ్లీష్ నుండి రష్యన్ లోకి మరింత ఖచ్చితంగా సుమారుగా అనువాదం ప్రకారం.

కింది సైట్‌లు పరీక్షించబడ్డాయి:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

ప్రయోగం యొక్క స్వచ్ఛత కోసం, నేను వాక్యాలను ఎంచుకున్నాను వివిధ స్థాయిలలోశైలీకృత అనువాదం యొక్క ఇబ్బందులు. ఇన్‌పుట్ పదబంధాలు క్రింది విధంగా ఉన్నాయి:

1. నేటి యుక్తవయస్కులు 20 సంవత్సరాల క్రితం కంటే స్వార్థపరులుగా ఉన్నారని కొత్త నివేదిక చెబుతోంది

(కొత్త నివేదిక చెప్పింది ఆధునిక యువకులువారు 20 సంవత్సరాల క్రితం కంటే ఎక్కువ స్వార్థపరులు)

2. ఆమె వీడియో గేమ్‌లను నమ్ముతుంది ఇంకాఈ స్వార్థం పెరిగిపోవడానికి ఇంటర్నెట్ ప్రధాన కారణం.

(వీడియో గేమ్‌లు మరియు ఇంటర్నెట్‌లు ఎక్కువగా ఉన్నాయని ఆమె నమ్ముతుంది ముఖ్యమైన కారణాలుఈ పెరుగుతున్న స్వార్థం కోసం)

3. వారు ఇతరుల కంటే మెరుగ్గా ఉండాలని కోరుకుంటారు

(వారు మిగిలిన వారి కంటే మెరుగ్గా ఉండాలని కోరుకుంటారు)

4. పెద్ద పెరుగుదల ప్రారంభమైందని ఆమె కనుగొంది నుండి 2000వ సంవత్సరం, హింసాత్మక వీడియో గేమ్‌లు నిజంగా ప్రాచుర్యం పొందాయి.

(ఆమె కనుక్కొంది ఒక పెద్ద పెరుగుదల, ఇది 2000లో ప్రారంభమైంది, ఎప్పుడు హింసాత్మక వీడియోలుఆటలు బాగా ప్రాచుర్యం పొందాయి)

ఆన్‌లైన్ ట్రాన్స్‌లేటర్ సైట్‌లలో ఈ వాక్యాలను అనువదించిన తర్వాత, నేను ఈ క్రింది ఫలితాలను పొందాను:

  1. http://translate.eu/

కోర్సు పని

"ఇన్ఫర్మేటిక్స్" విభాగంలో

అంశంపై: "కంప్యూటేషనల్ లింగ్విస్టిక్స్"


పరిచయం

1. భాషా పరిశోధనలో గణన భాషాశాస్త్రం యొక్క స్థానం మరియు పాత్ర

2. కంప్యూటేషనల్ లింగ్విస్టిక్స్ కోసం ఆధునిక ఇంటర్‌ఫేస్‌లు

ముగింపు

సాహిత్యం


పరిచయం

జీవితంలో ఆధునిక సమాజం ముఖ్యమైన పాత్రఆటోమేటెడ్ ఇన్ఫర్మేషన్ టెక్నాలజీలు పాత్ర పోషిస్తాయి. కాలక్రమేణా, వారి ప్రాముఖ్యత నిరంతరం పెరుగుతుంది. కానీ అభివృద్ధి సమాచార సాంకేతికతలుచాలా అసమానంగా జరుగుతుంది: ఉంటే ఆధునిక స్థాయి కంప్యూటర్ సాంకేతిక పరిజ్ఞానం, కంప్యూటర్ విజ్ఞానం, ధీయంత్ర పరిజ్ఞానం, ధీయంత్ర విజ్ఞానంమరియు కమ్యూనికేషన్ సాధనాలు అద్భుతమైనవి, కానీ సమాచారం యొక్క సెమాంటిక్ ప్రాసెసింగ్ రంగంలో, విజయాలు చాలా నిరాడంబరంగా ఉంటాయి. ఈ విజయాలు అన్నింటిలో మొదటిది, మానవ ఆలోచనా ప్రక్రియలు, ప్రక్రియల అధ్యయనంలో సాధించిన విజయాలపై ఆధారపడి ఉంటాయి మౌఖిక సంభాషణలువ్యక్తుల మధ్య మరియు కంప్యూటర్‌లో ఈ ప్రక్రియలను అనుకరించే సామర్థ్యం.

ఎప్పుడు మేము మాట్లాడుతున్నాముఆశాజనక సమాచార సాంకేతిక పరిజ్ఞానాల సృష్టి గురించి, సహజ భాషలలో అందించబడిన వచన సమాచారం యొక్క స్వయంచాలక ప్రాసెసింగ్ సమస్యలు తెరపైకి వస్తాయి. ఒక వ్యక్తి యొక్క ఆలోచన అతని భాషతో దగ్గరి సంబంధం కలిగి ఉండటం ద్వారా ఇది నిర్ణయించబడుతుంది. అంతేకాదు, సహజమైన భాష ఆలోచనకు ఒక సాధనం. అతను కూడా సార్వత్రిక నివారణవ్యక్తుల మధ్య కమ్యూనికేషన్ - అవగాహన, సంచితం, నిల్వ, ప్రాసెసింగ్ మరియు సమాచారాన్ని ప్రసారం చేసే సాధనం. ఉపయోగం యొక్క సమస్యలు సహజ భాషకంప్యూటర్ లింగ్విస్టిక్స్ సైన్స్ ఆటోమేటిక్ ఇన్ఫర్మేషన్ ప్రాసెసింగ్ సిస్టమ్స్‌తో వ్యవహరిస్తుంది. ఈ శాస్త్రం సాపేక్షంగా ఇటీవల ఉద్భవించింది - గత శతాబ్దం యాభైలు మరియు అరవైల ప్రారంభంలో. గత అర్ధ శతాబ్దంలో, ముఖ్యమైన శాస్త్రీయ మరియు ఆచరణాత్మక ఫలితాలు: ఒక సహజ భాష నుండి మరొక భాషకు పాఠాలను యంత్ర అనువాదం కోసం వ్యవస్థలు, టెక్స్ట్‌లలో సమాచారం కోసం స్వయంచాలక శోధన వ్యవస్థలు, వ్యవస్థలు స్వయంచాలక విశ్లేషణమరియు సంశ్లేషణ మౌఖిక ప్రసంగంమరియు అనేక ఇతరులు. ఈ పనినిర్వహించేటప్పుడు కంప్యూటర్ భాషాశాస్త్రాన్ని ఉపయోగించి సరైన కంప్యూటర్ ఇంటర్‌ఫేస్ నిర్మాణానికి అంకితం చేయబడింది భాషా పరిశోధన.


IN ఆధునిక ప్రపంచంవివిధ భాషా అధ్యయనాలలో కంప్యూటేషనల్ లింగ్విస్టిక్స్ ఎక్కువగా ఉపయోగించబడుతోంది.

కంప్యూటేషనల్ లింగ్విస్టిక్స్ అనేది సహజ భాషలో అందించబడిన సమాచారం యొక్క స్వయంచాలక ప్రాసెసింగ్ యొక్క సమస్యలను పరిష్కరించడానికి సంబంధించిన జ్ఞాన రంగం. సెంట్రల్ శాస్త్రీయ సమస్యలుకంప్యూటర్ లింగ్విస్టిక్స్ అనేది పాఠాల అర్థాన్ని (టెక్స్ట్ నుండి దాని అర్థం యొక్క అధికారిక ప్రాతినిధ్యానికి మార్చడం) మరియు స్పీచ్ సింథసిస్ (అర్థం యొక్క అధికారిక ప్రాతినిధ్యం నుండి సహజ భాషలోని పాఠాలకు మారడం) యొక్క అర్థాన్ని అర్థం చేసుకునే ప్రక్రియను మోడలింగ్ చేయడంలో సమస్య. అనేక పరిష్కారాలను పరిష్కరించేటప్పుడు ఈ సమస్యలు తలెత్తుతాయి దరఖాస్తు సమస్యలుమరియు, ముఖ్యంగా, కంప్యూటర్‌లో పాఠాలను నమోదు చేసేటప్పుడు స్వయంచాలకంగా గుర్తించడం మరియు లోపాలను సరిదిద్దడం, స్వయంచాలక విశ్లేషణ మరియు నోటి ప్రసంగం యొక్క సంశ్లేషణ, స్వయంచాలక అనువాదంఒక భాష నుండి మరొక భాషకు టెక్స్ట్‌లు, సహజ భాషలో కంప్యూటర్‌తో కమ్యూనికేషన్, ఆటోమేటిక్ క్లాసిఫికేషన్ మరియు ఇండెక్సింగ్ వచన పత్రాలు, వారి స్వయంచాలక సంగ్రహణ, పూర్తి-టెక్స్ట్ డేటాబేస్‌లలో పత్రాల కోసం శోధించడం.

గణన భాషాశాస్త్రంలో సృష్టించబడిన మరియు ఉపయోగించిన భాషా సాధనాలను రెండు భాగాలుగా విభజించవచ్చు: డిక్లరేటివ్ మరియు విధానపరమైన. డిక్లరేటివ్ భాగంలో భాష మరియు ప్రసంగం, గ్రంథాలు మరియు యూనిట్ల నిఘంటువులు ఉన్నాయి వివిధ రకాలవ్యాకరణ పట్టికలు, విధానపరమైన భాగానికి - భాష మరియు ప్రసంగం యొక్క యూనిట్లను మార్చడం, పాఠాలు మరియు వ్యాకరణ పట్టికలు. కంప్యూటర్ ఇంటర్‌ఫేస్ అనేది గణన భాషాశాస్త్రం యొక్క విధానపరమైన భాగాన్ని సూచిస్తుంది.

కంప్యూటర్ భాషాశాస్త్రం యొక్క అనువర్తిత సమస్యలను పరిష్కరించడంలో విజయం, మొదటగా, కంప్యూటర్ మెమరీలో డిక్లరేటివ్ మార్గాల ప్రాతినిధ్యం యొక్క సంపూర్ణత మరియు ఖచ్చితత్వం మరియు విధానపరమైన మార్గాల నాణ్యతపై ఆధారపడి ఉంటుంది. ఈ రోజు వరకు, ఈ సమస్యలను పరిష్కరించే అవసరమైన స్థాయి ఇంకా సాధించబడలేదు, అయినప్పటికీ గణన భాషాశాస్త్రంలో అన్ని రంగాలలో పని జరుగుతోంది. అభివృద్ధి చెందిన దేశాలుప్రపంచం (రష్యా, USA, ఇంగ్లాండ్, ఫ్రాన్స్, జర్మనీ, జపాన్, మొదలైనవి).

అయితే, ఇది తీవ్రమైన శాస్త్రీయ మరియు గమనించవచ్చు ఆచరణాత్మక విజయాలుకంప్యూటేషనల్ లింగ్విస్టిక్స్‌లో. ఈ విధంగా, అనేక దేశాలలో (రష్యా, USA, జపాన్ మొదలైనవి) ఒక భాష నుండి మరొక భాషకు గ్రంథాలను యంత్ర అనువాదం కోసం ప్రయోగాత్మక మరియు పారిశ్రామిక వ్యవస్థలు నిర్మించబడ్డాయి, అనేక ప్రయోగాత్మక వ్యవస్థలుసహజ భాషలో కంప్యూటర్లతో కమ్యూనికేషన్, టెర్మినలాజికల్ డేటా బ్యాంకులు, థెసారస్, ద్విభాషా మరియు బహుభాషా యంత్ర నిఘంటువులను (రష్యా, USA, జర్మనీ, ఫ్రాన్స్, మొదలైనవి) రూపొందించడానికి పని జరుగుతోంది, స్వయంచాలక విశ్లేషణ మరియు మౌఖిక ప్రసంగం యొక్క సంశ్లేషణ కోసం వ్యవస్థలు నిర్మించబడుతున్నాయి (రష్యా , USA, జపాన్ మరియు ఇతరులు) మొదలైనవి), సహజ భాషా నమూనాలను నిర్మించే రంగంలో పరిశోధనలు జరుగుతున్నాయి.

అనువర్తిత గణన భాషాశాస్త్రం యొక్క ముఖ్యమైన పద్దతి సమస్య ఆటోమేటిక్ టెక్స్ట్ ఇన్ఫర్మేషన్ ప్రాసెసింగ్ సిస్టమ్స్ యొక్క డిక్లరేటివ్ మరియు విధానపరమైన భాగాల మధ్య అవసరమైన సంబంధాన్ని సరిగ్గా అంచనా వేయడం. దేనికి ప్రాధాన్యత ఇవ్వాలి: గొప్ప వ్యాకరణ మరియు అర్థ సమాచారంతో సాపేక్షంగా చిన్న నిఘంటువు వ్యవస్థల ఆధారంగా శక్తివంతమైన గణన విధానాలు లేదా సాపేక్షంగా సరళమైన శక్తివంతమైన డిక్లరేటివ్ భాగం కంప్యూటర్ ఇంటర్‌ఫేస్‌లు? చాలా మంది శాస్త్రవేత్తలు రెండవ మార్గం ఉత్తమమని నమ్ముతారు. ఇది ఆచరణాత్మక లక్ష్యాలను వేగంగా సాధించడానికి దారి తీస్తుంది, ఎందుకంటే తక్కువ డెడ్ ఎండ్‌లు మరియు అధిగమించడానికి కష్టమైన అడ్డంకులు ఉంటాయి మరియు ఇక్కడ పరిశోధన మరియు అభివృద్ధిని ఆటోమేట్ చేయడానికి కంప్యూటర్‌లను పెద్ద ఎత్తున ఉపయోగించడం సాధ్యమవుతుంది.

ఆటోమేటిక్ టెక్స్ట్ ఇన్ఫర్మేషన్ ప్రాసెసింగ్ సిస్టమ్స్ యొక్క డిక్లరేటివ్ కాంపోనెంట్ అభివృద్ధిపై ప్రయత్నాలను సమీకరించాల్సిన అవసరం, కంప్యూటర్ భాషాశాస్త్రం అభివృద్ధిలో అర్ధ శతాబ్దపు అనుభవం ద్వారా నిర్ధారించబడింది. అన్నింటికంటే, ఇక్కడ, ఈ శాస్త్రం యొక్క కాదనలేని విజయాలు ఉన్నప్పటికీ, అల్గోరిథమిక్ విధానాల పట్ల అభిరుచి ఆశించిన విజయాన్ని తీసుకురాలేదు. విధానపరమైన మార్గాల సామర్థ్యాలలో కొంత నిరాశ కూడా ఉంది.

పై విషయాల వెలుగులో, కంప్యూటర్ భాషాశాస్త్రం యొక్క అభివృద్ధి యొక్క అటువంటి మార్గాన్ని అభివృద్ధి చేయడం ఆశాజనకంగా ఉంది, ప్రధాన ప్రయత్నాలు భాష మరియు ప్రసంగ యూనిట్ల యొక్క శక్తివంతమైన నిఘంటువులను రూపొందించడం, వాటి అర్థ-వాక్య నిర్మాణ నిర్మాణాన్ని అధ్యయనం చేయడం మరియు పదనిర్మాణం కోసం ప్రాథమిక విధానాలను రూపొందించడం, సెమాంటిక్-సింటాక్టిక్ మరియు సంభావిత విశ్లేషణ మరియు పాఠాల సంశ్లేషణ. ఇది భవిష్యత్తులో నిర్ణయం తీసుకోవడానికి అనుమతిస్తుంది విస్తృతదరఖాస్తు సమస్యలు.

కంప్యూటర్ భాషాశాస్త్రం మొదటగా, సమాచారాన్ని సేకరించడం, సేకరించడం, ప్రాసెస్ చేయడం మరియు తిరిగి పొందడం వంటి ప్రక్రియలకు భాషాపరమైన మద్దతు యొక్క పనులను ఎదుర్కొంటుంది. వాటిలో ముఖ్యమైనవి:

1. యంత్ర నిఘంటువుల సంకలనం మరియు భాషాపరమైన ప్రాసెసింగ్ యొక్క ఆటోమేషన్;

2. కంప్యూటర్‌లో పాఠాలను నమోదు చేసేటప్పుడు లోపాలను గుర్తించడం మరియు సరిదిద్దడం వంటి ప్రక్రియల ఆటోమేషన్;

3. పత్రాలు మరియు సమాచార అభ్యర్థనల ఆటోమేటిక్ ఇండెక్సింగ్;

4. స్వయంచాలక వర్గీకరణ మరియు పత్రాల సంగ్రహణ;

5. ఏకభాష మరియు బహుభాషా డేటాబేస్‌లలో సమాచార పునరుద్ధరణ ప్రక్రియలకు భాషాపరమైన మద్దతు;

6. ఒక సహజ భాష నుండి మరొక భాషకు పాఠాల యొక్క యంత్ర అనువాదం;

7. వినియోగదారులు మరియు స్వయంచాలక మేధావుల మధ్య కమ్యూనికేషన్‌ను నిర్ధారించే భాషా ప్రాసెసర్‌ల నిర్మాణం సమాచార వ్యవస్థలు(ముఖ్యంగా నిపుణుల వ్యవస్థలు) సహజ భాషలో లేదా సహజత్వానికి దగ్గరగా ఉండే భాషలో;

8. అనధికారిక గ్రంథాల నుండి వాస్తవ సమాచారాన్ని సంగ్రహించడం.

పరిశోధన అంశానికి సంబంధించిన సమస్యలపై వివరంగా నివసిద్దాం.

IN ఆచరణాత్మక కార్యకలాపాలు సమాచార కేంద్రాలుకంప్యూటర్‌లోకి ప్రవేశించినప్పుడు పాఠాలలోని లోపాలను స్వయంచాలక గుర్తింపు మరియు దిద్దుబాటు సమస్యను పరిష్కరించాల్సిన అవసరం ఉంది. ఈ క్లిష్టమైన పనిషరతులతో మూడు పనులుగా విభజించవచ్చు - పాఠాల యొక్క ఆర్థోగ్రాఫిక్, వాక్యనిర్మాణం మరియు అర్థ నియంత్రణ పనులు. వాటిలో మొదటిది పద కాండం యొక్క చాలా శక్తివంతమైన రిఫరెన్స్ మెషిన్ నిఘంటువును ఉపయోగించే పదనిర్మాణ విశ్లేషణ విధానాన్ని ఉపయోగించి పరిష్కరించవచ్చు. స్పెల్లింగ్ నియంత్రణ ప్రక్రియలో, టెక్స్ట్ యొక్క పదాలు పదనిర్మాణ విశ్లేషణకు లోబడి ఉంటాయి మరియు వాటి స్థావరాలు రిఫరెన్స్ డిక్షనరీ యొక్క స్థావరాలతో గుర్తించబడితే, అవి సరైనవిగా పరిగణించబడతాయి; అవి గుర్తించబడకపోతే, అవి, మైక్రోకాంటెక్స్ట్‌తో పాటు, వీక్షించడానికి ఒక వ్యక్తికి అందించబడతాయి. ఒక వ్యక్తి వక్రీకరించిన పదాలను మరియు సంబంధిత పదాలను గుర్తించి సరిచేస్తాడు సాఫ్ట్వేర్ వ్యవస్థసరిదిద్దబడిన వచనానికి ఈ దిద్దుబాట్లు చేస్తుంది.

టెక్స్ట్‌లలో లోపాలను గుర్తించడానికి వాటి వాక్యనిర్మాణ నియంత్రణ యొక్క పని తప్పనిసరిగా ఉంటుంది మరింత కష్టమైన పనులువారి స్పెల్లింగ్ నియంత్రణ. మొదటిది, ఇది స్పెల్లింగ్ నియంత్రణ విధిని దాని విధిగా కలిగి ఉన్నందున, మరియు రెండవది, ఎందుకంటే సమస్య అన్వయించడంలో అనధికారిక గ్రంథాలు పూర్తిగాఇంకా నిర్ణయించలేదు. అయినప్పటికీ, పాఠాల యొక్క పాక్షిక వాక్యనిర్మాణ నియంత్రణ చాలా సాధ్యమే. ఇక్కడ మీరు రెండు విధాలుగా వెళ్ళవచ్చు: రిఫరెన్స్ సింటాక్టిక్ స్ట్రక్చర్‌ల యొక్క చాలా ప్రాతినిధ్య యంత్ర నిఘంటువులను కంపైల్ చేయండి మరియు విశ్లేషించబడిన టెక్స్ట్ యొక్క వాక్యనిర్మాణ నిర్మాణాలను వాటితో సరిపోల్చండి; లేదా అభివృద్ధి చేయండి సంక్లిష్ట వ్యవస్థటెక్స్ట్ మూలకాల యొక్క వ్యాకరణ అనుగుణ్యతను తనిఖీ చేయడానికి నియమాలు. మొదటి మార్గం మాకు మరింత ఆశాజనకంగా అనిపిస్తుంది, అయినప్పటికీ ఇది రెండవ మార్గంలోని అంశాలను ఉపయోగించే అవకాశాన్ని మినహాయించదు. వాక్యనిర్మాణ నిర్మాణంపాఠాలు పదాల వ్యాకరణ తరగతుల పరంగా వివరించబడాలి (మరింత ఖచ్చితంగా, సెట్ల క్రమాల రూపంలో వ్యాకరణ సమాచారంపదాలకు).

గుర్తించే క్రమంలో పాఠాల అర్థ నియంత్రణ విధి అర్థ దోషాలుకృత్రిమ మేధస్సు పనులుగా వర్గీకరించాలి. మానవ ఆలోచనా ప్రక్రియల నమూనా ఆధారంగా మాత్రమే ఇది పూర్తిగా పరిష్కరించబడుతుంది. ఈ సందర్భంలో, నాలెడ్జ్ మానిప్యులేషన్ కోసం శక్తివంతమైన ఎన్సైక్లోపీడిక్ నాలెడ్జ్ బేస్‌లు మరియు సాఫ్ట్‌వేర్ టూల్స్‌ను సృష్టించడం స్పష్టంగా అవసరం. అయితే, పరిమితికి సబ్జెక్ట్ ప్రాంతాలుమరియు అధికారిక సమాచారం కోసం ఈ పని పూర్తిగా పరిష్కరించబడుతుంది. ఇది టెక్స్ట్‌ల సెమాంటిక్-సింటాక్టిక్ నియంత్రణ సమస్యగా భావించి పరిష్కరించబడాలి.

కంప్యూటర్ లింగ్విస్టిక్స్ (ఇంగ్లీష్ కంప్యూటేషనల్ లింగ్విస్టిక్స్ నుండి ట్రేసింగ్), అనువర్తిత భాషాశాస్త్రంలో ఒకటి, దీనిలో కంప్యూటర్ ప్రోగ్రామ్‌లు, డేటాను నిర్వహించడానికి మరియు ప్రాసెస్ చేయడానికి కంప్యూటర్ సాంకేతికతలు అభివృద్ధి చేయబడ్డాయి మరియు భాషను అధ్యయనం చేయడానికి మరియు నిర్దిష్ట పరిస్థితులు, పరిస్థితులు మరియు సమస్యల్లో భాష యొక్క పనితీరును రూపొందించడానికి ఉపయోగించబడతాయి. ప్రాంతాలు. మరోవైపు, ఇది అప్లికేషన్ యొక్క ప్రాంతం కంప్యూటర్ నమూనాలుభాషాశాస్త్రం మరియు సంబంధిత విభాగాలలో భాష. ఎంత ప్రత్యేకం శాస్త్రీయ దిశగణన భాషాశాస్త్రం రూపుదిద్దుకుంది యూరోపియన్ అధ్యయనాలు 1960లలో. ఆంగ్ల విశేషణం కంప్యూటేషనల్‌ని “కంప్యూటేషనల్” అని కూడా అనువదించవచ్చు కాబట్టి “కంప్యూటేషనల్ లింగ్విస్టిక్స్” అనే పదం సాహిత్యంలో కూడా కనిపిస్తుంది, అయితే జాతీయ శాస్త్రంఇది "పరిమాణాత్మక భాషాశాస్త్రం" అనే భావనను చేరుస్తూ ఇరుకైన అర్థాన్ని పొందుతుంది.

"క్వాంటిటేటివ్ లింగ్విస్టిక్స్" అనే పదాన్ని తరచుగా గణన భాషాశాస్త్రంగా సూచిస్తారు, ఇది అనువర్తిత పరిశోధనలో ఇంటర్ డిసిప్లినరీ దిశను వర్ణిస్తుంది, ఇక్కడ భాష మరియు ప్రసంగాన్ని అధ్యయనం చేయడానికి పరిమాణాత్మక లేదా గణాంక విశ్లేషణ పద్ధతులు ప్రధాన సాధనంగా ఉపయోగించబడతాయి. కొన్నిసార్లు పరిమాణాత్మక (లేదా పరిమాణాత్మక) భాషాశాస్త్రం కలయిక భాషాశాస్త్రంతో విభేదిస్తుంది. తరువాతి కాలంలో, ఆధిపత్య పాత్ర "నాన్-క్వాంటిటేటివ్" ద్వారా ఆక్రమించబడింది గణిత ఉపకరణం- సెట్ థియరీ, గణిత తర్కం, అల్గారిథమ్‌ల సిద్ధాంతం మొదలైనవి. సైద్ధాంతిక కోణం నుండి, ఉపయోగం గణాంక పద్ధతులుభాషాశాస్త్రంలో భాష యొక్క నిర్మాణ నమూనాను సంభావ్య భాగంతో భర్తీ చేయడం సాధ్యపడుతుంది, అనగా గణనీయమైన వివరణాత్మక సామర్థ్యాన్ని కలిగి ఉన్న సైద్ధాంతిక నిర్మాణ-సంభావ్య నమూనాను రూపొందించడం. IN అప్లికేషన్ ప్రాంతంపరిమాణాత్మక భాషాశాస్త్రం ప్రాతినిధ్యం వహిస్తుంది, మొదటగా, ఈ నమూనా యొక్క శకలాలు ఉపయోగించడం ద్వారా, భాష యొక్క పనితీరు యొక్క భాషాపరమైన పర్యవేక్షణ, కోడెడ్ టెక్స్ట్ యొక్క డీకోడింగ్, టెక్స్ట్ యొక్క అధికారం/ఆపాదింపు మొదలైనవాటికి ఉపయోగిస్తారు.

"కంప్యూటర్ లింగ్విస్టిక్స్" అనే పదం మరియు ఈ ప్రాంతం యొక్క సమస్యలు తరచుగా మోడలింగ్ కమ్యూనికేషన్‌తో సంబంధం కలిగి ఉంటాయి మరియు అన్నింటికంటే, సహజమైన లేదా పరిమిత సహజ భాషలో కంప్యూటర్‌తో మానవ పరస్పర చర్యను నిర్ధారించడంతో (ఈ ప్రయోజనం కోసం, ప్రత్యేక వ్యవస్థలుసహజ భాషా ప్రాసెసింగ్), అలాగే సమాచార పునరుద్ధరణ వ్యవస్థల (IRS) సిద్ధాంతం మరియు అభ్యాసంతో. సహజ భాషలో కంప్యూటర్‌తో మానవ సంభాషణను నిర్ధారించడం కొన్నిసార్లు "సహజ భాషా ప్రాసెసింగ్" (నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్ అనే పదం యొక్క ఆంగ్లం నుండి అనువాదం)గా సూచించబడుతుంది. కంప్యూటర్ భాషాశాస్త్రం యొక్క ఈ ప్రాంతం 1960 ల చివరలో విదేశాలలో ఉద్భవించింది మరియు కృత్రిమ మేధస్సు అని పిలువబడే శాస్త్రీయ మరియు సాంకేతిక విభాగం యొక్క చట్రంలో అభివృద్ధి చేయబడింది (R. షెంక్, M. లెబోవిట్జ్, T. వినోగ్రాడ్, మొదలైనవి). దాని అర్థంలో, "సహజ భాషా ప్రాసెసింగ్" అనే పదబంధం భాష డేటాను ప్రాసెస్ చేయడానికి కంప్యూటర్లను ఉపయోగించే అన్ని ప్రాంతాలను కవర్ చేయాలి. అయితే, ఆచరణలో, ఈ పదం యొక్క సంకుచిత అవగాహన కలిగి ఉంది - సహజమైన లేదా పరిమిత సహజ భాషలో కంప్యూటర్‌తో మానవ కమ్యూనికేషన్‌ను నిర్ధారించే పద్ధతులు, సాంకేతికతలు మరియు నిర్దిష్ట వ్యవస్థల అభివృద్ధి.

కొంత వరకు, కంప్యూటర్ భాషాశాస్త్రం హైపర్‌టెక్స్ట్ సిస్టమ్‌లను సృష్టించే రంగంలో పనిని కలిగి ఉంటుంది, దీనిని పరిగణించవచ్చు ప్రత్యేక మార్గంటెక్స్ట్ యొక్క సంస్థ మరియు ఎంత ప్రాథమికంగా కూడా కొత్త రకంటెక్స్ట్, గూటెన్‌బర్గ్ ప్రింటింగ్ సంప్రదాయంలో ఏర్పడిన సాధారణ టెక్స్ట్‌తో దాని అనేక లక్షణాలతో విభేదిస్తుంది (గుటెన్‌బర్గ్ చూడండి).

కంప్యూటేషనల్ లింగ్విస్టిక్స్ యొక్క యోగ్యతలో స్వయంచాలక అనువాదం కూడా ఉంటుంది.

కంప్యూటేషనల్ లింగ్విస్టిక్స్ ఫ్రేమ్‌వర్క్‌లో, సాపేక్షంగా కొత్త దిశ ఉద్భవించింది, 1980-90ల నుండి చురుకుగా అభివృద్ధి చెందుతోంది - కార్పస్ లింగ్విస్టిక్స్, ఇక్కడ సాధారణ సిద్ధాంతాలుఆధునికతను ఉపయోగించి భాషా డేటా కార్పోరా (ముఖ్యంగా, టెక్స్ట్ కార్పోరా) నిర్మాణం కంప్యూటర్ సాంకేతిక పరిజ్ఞానం, కంప్యూటర్ విజ్ఞానం, ధీయంత్ర పరిజ్ఞానం, ధీయంత్ర విజ్ఞానం. టెక్స్ట్ కార్పోరా అనేది పుస్తకాలు, మ్యాగజైన్‌లు, వార్తాపత్రికలు మొదలైన వాటి నుండి ప్రత్యేకంగా ఎంచుకున్న టెక్స్ట్‌ల సేకరణలు, ఇవి కంప్యూటర్ మీడియాకు బదిలీ చేయబడతాయి మరియు ఆటోమేటిక్ ప్రాసెసింగ్ కోసం ఉద్దేశించబడ్డాయి. మొదటి టెక్స్ట్ కార్పోరాలో ఒకటి దీని కోసం సృష్టించబడింది అమెరికన్ వెర్షన్ W. ఫ్రాన్సిస్ నాయకత్వంలో 1962-63లో బ్రౌన్ విశ్వవిద్యాలయంలో (బ్రౌన్ కార్ప్స్ అని పిలవబడేది) ఇంగ్లీష్. రష్యాలో, 2000ల ప్రారంభం నుండి, రష్యన్ అకాడమీ ఆఫ్ సైన్సెస్ యొక్క వినోగ్రాడోవ్ రష్యన్ లాంగ్వేజ్ ఇన్‌స్టిట్యూట్ రష్యన్ భాష యొక్క నేషనల్ కార్పస్‌ను అభివృద్ధి చేస్తోంది, ఇందులో దాదాపు 100 మిలియన్ పద వినియోగాల వాల్యూమ్‌తో రష్యన్ భాషా గ్రంథాల ప్రతినిధి నమూనా ఉంటుంది. డేటా కార్పోరా యొక్క వాస్తవ నిర్మాణంతో పాటు, కార్పస్ లింగ్విస్టిక్స్ కంప్యూటర్ సాధనాల సృష్టిలో నిమగ్నమై ఉంది ( కంప్యూటర్ ప్రోగ్రామ్‌లు), టెక్స్ట్ కార్పోరా నుండి వివిధ సమాచారాన్ని సేకరించేందుకు రూపొందించబడింది. వినియోగదారు దృక్కోణం నుండి, టెక్స్ట్ కార్పోరా ప్రాతినిధ్యం (ప్రాతినిధ్యత), సంపూర్ణత మరియు ఆర్థిక వ్యవస్థ కోసం అవసరాలకు లోబడి ఉంటుంది.

రష్యా మరియు విదేశాలలో కంప్యూటర్ భాషాశాస్త్రం చురుకుగా అభివృద్ధి చెందుతోంది. ఈ ప్రాంతంలో ప్రచురణల ప్రవాహం చాలా పెద్దది. ఇతివృత్త సేకరణలతో పాటు, కంప్యూటేషనల్ లింగ్విస్టిక్స్ జర్నల్ 1984 నుండి యునైటెడ్ స్టేట్స్‌లో త్రైమాసికానికి ప్రచురించబడింది. చాలా సంస్థాగత మరియు శాస్త్రీయ పనిని అసోసియేషన్ ఫర్ కంప్యూటేషనల్ లింగ్విస్టిక్స్ నిర్వహిస్తుంది ప్రాంతీయ నిర్మాణాలుప్రపంచవ్యాప్తంగా (ముఖ్యంగా యూరోపియన్ శాఖ). ప్రతి రెండు సంవత్సరాలకు, అంతర్జాతీయ COLINT సమావేశాలు జరుగుతాయి (2008లో ఈ సమావేశం మాంచెస్టర్‌లో జరిగింది). రష్యన్ రీసెర్చ్ ఇన్స్టిట్యూట్ ఆఫ్ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్, మాస్కో స్టేట్ యూనివర్శిటీ యొక్క ఫిలాలజీ ఫ్యాకల్టీ, యాండెక్స్ మరియు అనేక ఇతర సంస్థలు నిర్వహించిన వార్షిక అంతర్జాతీయ సమావేశం "డైలాగ్"లో గణన భాషాశాస్త్రం యొక్క ప్రధాన దిశలు కూడా చర్చించబడ్డాయి. సంబంధిత సమస్యలు కూడా విస్తృతంగా ప్రాతినిధ్యం వహిస్తున్నాయి అంతర్జాతీయ సమావేశాలుద్వారా కృత్రిమ మేధస్సువివిధ స్థాయిలు.

లిట్.: Zvegintsev V. A. సైద్ధాంతిక మరియు అనువర్తిత భాషాశాస్త్రం. M., 1968; పియోట్రోవ్స్కీ R. G., బెక్టేవ్ K. B., పియోట్రోవ్స్కాయా A. A. గణిత భాషాశాస్త్రం. M., 1977; గోరోడెట్స్కీ బి. యు. వాస్తవ సమస్యలుఅనువర్తిత భాషాశాస్త్రం // విదేశీ భాషాశాస్త్రంలో కొత్తది. M., 1983. సంచిక. 12; కిబ్రిక్ A. E. అనువర్తిత భాషాశాస్త్రం // Kibrik A. E. సాధారణ మరియు వ్యాసాలపై దరఖాస్తు సమస్యలుభాషాశాస్త్రం. M., 1992; కెన్నెడీ జి. కార్పస్ లింగ్విస్టిక్స్‌కి ఒక పరిచయం. ఎల్., 1998; బోల్షాకోవ్ I.A., గెల్బుఖ్ A. కంప్యూటేషనల్ లింగ్విస్టిక్స్: మోడల్స్, రిసోర్సెస్, అప్లికేషన్స్. మేఖ్., 2004; నేషనల్ కార్పస్ ఆఫ్ ది రష్యన్ లాంగ్వేజ్: 2003-2005. M., 2005; బరనోవ్ A. N. అనువర్తిత భాషా శాస్త్రానికి పరిచయం. 3వ ఎడిషన్ M., 2007; కంప్యూటర్ భాషాశాస్త్రం మరియు మేధో సాంకేతికతలు. M., 2008. సంచిక. 7.

ఫిలాలజీ విభాగంలో ఉన్నత పాఠశాలకొత్త ఆర్థిక వ్యవస్థ ప్రారంభించబడుతోంది మాస్టర్ ప్రోగ్రామ్, గణన భాషా శాస్త్రానికి అంకితం చేయబడింది: మానవతా మరియు గణిత నేపథ్యాలు కలిగిన దరఖాస్తుదారులు ఇక్కడకు స్వాగతం ప్రాథమిక విద్యమరియు సైన్స్ యొక్క అత్యంత ఆశాజనకమైన శాఖలలో ఒకదానిలో సమస్యలను పరిష్కరించడంలో ఆసక్తి ఉన్న ప్రతి ఒక్కరూ. దాని డైరెక్టర్, అనస్తాసియా బోంచ్-ఓస్మోలోవ్స్కాయా, థియరీస్ మరియు ప్రాక్టీషనర్‌లకు కంప్యూటేషనల్ లింగ్విస్టిక్స్ అంటే ఏమిటి, రోబోట్‌లు మనుషులను ఎందుకు భర్తీ చేయవు మరియు గణన భాషాశాస్త్రంలో HSE మాస్టర్స్ ప్రోగ్రామ్‌లో ఏమి బోధిస్తాయో చెప్పారు.

ఈ కార్యక్రమం రష్యాలో దాదాపు ఒకే రకమైనది. నీవు ఎక్కడ చదివావు?

నేను మాస్కో స్టేట్ యూనివర్శిటీలో సైద్ధాంతిక మరియు అనువర్తిత భాషాశాస్త్రంలో చదివాను ఫిలోలజీ ఫ్యాకల్టీ. నేను వెంటనే అక్కడికి చేరుకోలేదు, మొదట నేను రష్యన్ డిపార్ట్‌మెంట్‌లోకి ప్రవేశించాను, కాని అప్పుడు నేను భాషాశాస్త్రంపై తీవ్రంగా ఆసక్తి కలిగి ఉన్నాను మరియు ఈ రోజు వరకు డిపార్ట్‌మెంట్‌లో ఉన్న వాతావరణంతో నేను ఆకర్షితుడయ్యాను. అందులో అతి ముఖ్యమైన విషయం ఏమిటంటే మంచి పరిచయంఉపాధ్యాయులు మరియు విద్యార్థుల మధ్య మరియు వారి పరస్పర ఆసక్తి.

నాకు పిల్లలు పుట్టి, జీవనోపాధి పొందవలసి వచ్చినప్పుడు, నేను వాణిజ్య భాషాశాస్త్ర రంగంలోకి వెళ్ళాను. 2005లో, ఈ కార్యాచరణ ప్రాంతం ఏమిటో చాలా స్పష్టంగా తెలియలేదు. నేను వివిధ భాషా సంస్థలలో పనిచేశాను: నేను Public.ru సైట్‌లో ఒక చిన్న కంపెనీతో ప్రారంభించాను - ఇది ఒక రకమైన మీడియా లైబ్రరీ, ఇక్కడ నేను భాషా సాంకేతికతలపై పని చేయడం ప్రారంభించాను. అప్పుడు నేను రోస్నానోటెక్‌లో ఒక సంవత్సరం పనిచేశాను, అక్కడ తయారు చేయాలనే ఆలోచన ఉంది విశ్లేషణాత్మక పోర్టల్తద్వారా దానిలోని డేటా స్వయంచాలకంగా నిర్మితమవుతుంది. అప్పుడు నేను Avicomp కంపెనీలో భాషా విభాగానికి నాయకత్వం వహించాను - ఇది ఇప్పటికే కంప్యూటర్ లింగ్విస్టిక్స్ మరియు సెమాంటిక్ టెక్నాలజీల రంగంలో తీవ్రమైన ఉత్పత్తి. అదే సమయంలో, నేను మాస్కో స్టేట్ యూనివర్శిటీలో గణన భాషాశాస్త్రంపై ఒక కోర్సును బోధించాను మరియు దానిని మరింత ఆధునికంగా మార్చడానికి ప్రయత్నించాను.

భాషా శాస్త్రవేత్త కోసం రెండు వనరులు: - రష్యన్ భాషకు సంబంధించిన శాస్త్రీయ మరియు అనువర్తిత పరిశోధన కోసం భాషా శాస్త్రవేత్తలు సృష్టించిన సైట్. ఇది రష్యన్ భాష యొక్క నమూనా, వివిధ శైలులు మరియు కాలాల నుండి భారీ శ్రేణి టెక్స్ట్‌లను ఉపయోగించి ప్రదర్శించబడింది. పాఠాలు భాషా మార్కప్‌తో అమర్చబడి ఉంటాయి, దీని సహాయంతో మీరు కొన్ని భాషా దృగ్విషయాల ఫ్రీక్వెన్సీ గురించి సమాచారాన్ని పొందవచ్చు. Wordnet అనేది ఆంగ్ల భాష యొక్క భారీ లెక్సికల్ డేటాబేస్, ప్రధానమైన ఆలోచన Wordnet - పదాలను కాదు, వాటి అర్థాలను ఒక పెద్ద నెట్‌వర్క్‌లోకి కనెక్ట్ చేయడం. Wordnetని డౌన్‌లోడ్ చేసుకోవచ్చు మరియు మీ స్వంత ప్రాజెక్ట్‌ల కోసం ఉపయోగించవచ్చు.

కంప్యూటేషనల్ లింగ్విస్టిక్స్ ఏమి చేస్తుంది?

ఇది అత్యంత ఇంటర్ డిసిప్లినరీ ఫీల్డ్. ఇక్కడ చాలా ముఖ్యమైన విషయం ఏమిటంటే ఏమి జరుగుతుందో అర్థం చేసుకోవడం ఎలక్ట్రానిక్ ప్రపంచంమరియు నిర్దిష్ట పనులను చేయడానికి మీకు ఎవరు సహాయం చేస్తారు.

మేము చాలా చుట్టూ ఉన్నాము పెద్ద సంఖ్యలోడిజిటల్ సమాచారం, అనేక వ్యాపార ప్రాజెక్ట్‌లు ఉన్నాయి, వీటిలో విజయం సమాచారం ప్రాసెసింగ్‌పై ఆధారపడి ఉంటుంది, ఈ ప్రాజెక్ట్‌లు మార్కెటింగ్, రాజకీయాలు, ఆర్థిక శాస్త్రం మరియు మరేదైనా రంగానికి సంబంధించినవి. మరియు ఈ సమాచారాన్ని సమర్థవంతంగా నిర్వహించడం చాలా ముఖ్యం - ప్రధాన విషయం ఏమిటంటే సమాచారాన్ని ప్రాసెస్ చేసే వేగం మాత్రమే కాదు, శబ్దాన్ని ఫిల్టర్ చేసిన తర్వాత, మీకు అవసరమైన డేటాను పొందడం మరియు పూర్తి సృష్టించడం. దాని నుండి చిత్రం.

గతంలో, కొన్ని ప్రపంచ ఆలోచనలు కంప్యూటర్ భాషాశాస్త్రంతో అనుబంధించబడ్డాయి, ఉదాహరణకు: యంత్ర అనువాదం మానవ అనువాదాన్ని భర్తీ చేస్తుందని, మనుషులకు బదులుగా రోబోట్లు పనిచేస్తాయని ప్రజలు భావించారు. కానీ ఇప్పుడు అది ఆదర్శధామం లాగా ఉంది మరియు శోధన ఇంజిన్‌లలో యంత్ర అనువాదం ఉపయోగించబడుతుంది శీఘ్ర శోధనతెలియని భాషలో. అంటే, ఇప్పుడు భాషాశాస్త్రం చాలా అరుదుగా నైరూప్య సమస్యలతో వ్యవహరిస్తుంది - ఎక్కువగా కొన్ని చిన్న వస్తువులతో పెద్ద ఉత్పత్తిలోకి చొప్పించవచ్చు మరియు దానిపై డబ్బు సంపాదించవచ్చు.

ఒకటి పెద్ద పనులు ఆధునిక భాషాశాస్త్రం- సెమాంటిక్ వెబ్, శోధన పదాల యాదృచ్చికం ద్వారా మాత్రమే కాకుండా, అర్థం ద్వారా సంభవించినప్పుడు మరియు అన్ని సైట్‌లు సెమాంటిక్స్ ద్వారా గుర్తించబడిన ఒక మార్గం లేదా మరొకటి. ఇది ఉపయోగకరంగా ఉంటుంది, ఉదాహరణకు, ప్రతిరోజూ వ్రాసే పోలీసు లేదా వైద్య నివేదికల కోసం. విశ్లేషణ అంతర్గత కనెక్షన్లుచాలా ఇస్తుంది అవసరమైన సమాచారం, మరియు దానిని మాన్యువల్‌గా చదవడం మరియు లెక్కించడం చాలా సమయం తీసుకుంటుంది.

క్లుప్తంగా, మనకు వెయ్యి పాఠాలు ఉన్నాయి, వాటిని సమూహాలుగా క్రమబద్ధీకరించాలి, ప్రతి వచనాన్ని నిర్మాణం రూపంలో ప్రదర్శించాలి మరియు మేము ఇప్పటికే పని చేయగల పట్టికను పొందాలి. దీనిని నిర్మాణాత్మక సమాచార ప్రాసెసింగ్ అంటారు. మరోవైపు, గణన భాషాశాస్త్రం, ఉదాహరణకు, కృత్రిమ గ్రంథాల సృష్టితో వ్యవహరిస్తుంది. రియల్ ఎస్టేట్ ధరలలో మార్పులు, వాతావరణ సూచనలు, ఫుట్‌బాల్ మ్యాచ్‌లపై నివేదికలు: ఒక వ్యక్తి గురించి వ్రాయడానికి విసుగు పుట్టించే అంశాలపై పాఠాలను రూపొందించడానికి ఒక యంత్రాంగాన్ని రూపొందించిన ఒక సంస్థ ఉంది. ఒక వ్యక్తి కోసం ఈ పాఠాలను ఆర్డర్ చేయడం చాలా ఖరీదైనది, మరియు కంప్యూటర్ పాఠాలుఅటువంటి అంశాలపై పొందికైన మానవ భాషలో వ్రాయబడ్డాయి.

రష్యాలో నిర్మాణాత్మక సమాచారం కోసం శోధించే రంగంలో అభివృద్ధిలో Yandex చురుకుగా పాల్గొంటుంది; Kaspersky ల్యాబ్ నియమిస్తోంది పరిశోధన సమూహాలుఎవరు చదువుకుంటారు యంత్ర అభ్యాస. కంప్యూటేషనల్ లింగ్విస్టిక్స్ రంగంలో ఎవరైనా కొత్తదాన్ని తీసుకురావడానికి మార్కెట్లో ఎవరైనా ప్రయత్నిస్తున్నారా?

**కంప్యూటేషనల్ లింగ్విస్టిక్స్‌పై పుస్తకాలు:**

డేనియల్ జురాఫ్స్కీ, స్పీచ్ అండ్ లాంగ్వేజ్ ప్రాసెసింగ్

క్రిస్టోఫర్ మన్నింగ్, ప్రభాకర్ రాఘవన్, హెన్రిచ్ షుట్జ్, "ఇంట్రడక్షన్ టు ఇన్ఫర్మేషన్ రిట్రీవల్"

యాకోవ్ టెస్టెలెట్స్, “సాధారణ వాక్యనిర్మాణానికి పరిచయం”

చాలా భాషా అభివృద్ధి యాజమాన్యం పెద్ద కంపెనీలు, దాదాపు ఏదీ కనుగొనబడలేదు అందరికి ప్రవేశం. ఇది పరిశ్రమ అభివృద్ధిని నెమ్మదిస్తుంది; మాకు ఉచిత భాషా మార్కెట్ లేదా ప్యాక్ చేసిన పరిష్కారాలు లేవు.

దీనికితోడు పూర్తి స్థాయిలో కొరవడింది సమాచార వనరులు. రష్యన్ భాష యొక్క నేషనల్ కార్పస్ వంటి ప్రాజెక్ట్ ఉంది. ఇది ప్రపంచంలోని అత్యుత్తమ జాతీయ భవనాలలో ఒకటి, ఇది వేగంగా అభివృద్ధి చెందుతోంది మరియు శాస్త్రీయ మరియు అద్భుతమైన అవకాశాలను తెరుస్తుంది. అనువర్తిత పరిశోధన. డిఎన్‌ఎ పరిశోధనకు ముందు మరియు తర్వాత - జీవశాస్త్రంలో తేడా దాదాపు ఒకే విధంగా ఉంటుంది.

కానీ చాలా వనరులు రష్యన్ భాషలో లేవు. కాబట్టి, ఫ్రేమ్‌నెట్ వంటి అద్భుతమైన ఆంగ్ల భాషా వనరుకి అనలాగ్ లేదు - ఇది ఒక సంభావిత నెట్‌వర్క్. సాధ్యం కనెక్షన్లుఇతర పదాలతో కొన్ని నిర్దిష్ట పదం. ఉదాహరణకు, “ఫ్లై” అనే పదం ఉంది - ఎవరు ఎగరగలరు, ఎక్కడ, ఈ పదం ఏ ప్రిపోజిషన్‌తో ఉపయోగించబడుతుంది, ఏ పదాలతో కలిపి ఉంది మరియు మొదలైనవి. ఈ వనరు భాషను కనెక్ట్ చేయడంలో సహాయపడుతుంది నిజ జీవితం, అంటే, అది ఎలా ప్రవర్తిస్తుందో పర్యవేక్షించడం నిర్దిష్ట పదంపదనిర్మాణం మరియు వాక్యనిర్మాణం స్థాయిలో. ఇది చాలా ఉపయోగకరంగా ఉంది.

Avicomp కంపెనీ ప్రస్తుతం సారూప్య కంటెంట్‌తో కథనాలను శోధించడానికి ప్లగిన్‌ను అభివృద్ధి చేస్తోంది. అంటే, మీరు ఒక వ్యాసంపై ఆసక్తి కలిగి ఉంటే, మీరు ప్లాట్ యొక్క చరిత్రను త్వరగా చూడవచ్చు: టాపిక్ తలెత్తినప్పుడు, ఏమి వ్రాయబడింది మరియు ఈ సమస్యలో ఆసక్తి యొక్క శిఖరం ఎప్పుడు ఉంది. ఉదాహరణకు, ఈ ప్లగ్ఇన్ సహాయంతో ఇది సాధ్యమవుతుంది, సిరియాలోని సంఘటనలకు అంకితమైన కథనం నుండి, ఆ సమయంలో ఎలా ఉంటుందో చాలా త్వరగా చూడవచ్చు. గత సంవత్సరంసంఘటనలు అక్కడ అభివృద్ధి చెందాయి.

మాస్టర్స్ ప్రోగ్రామ్‌లోని అభ్యాస ప్రక్రియ ఎలా నిర్మాణాత్మకంగా ఉంటుంది?

HSEలో శిక్షణ ప్రత్యేక మాడ్యూళ్ళలో నిర్వహించబడుతుంది - లో వలె పాశ్చాత్య విశ్వవిద్యాలయాలు. విద్యార్థులు చిన్న జట్లుగా విభజించబడతారు, మినీ-స్టార్టప్‌లు - అంటే, మనం చాలా పొందాలి పూర్తయిన ప్రాజెక్టులు. మేము నిజమైన ఉత్పత్తులను పొందాలనుకుంటున్నాము, దానిని మేము ప్రజలకు తెరిచి పబ్లిక్ డొమైన్‌లో వదిలివేస్తాము.

విద్యార్థుల తక్షణ ప్రాజెక్ట్ మేనేజర్‌లతో పాటు, మేము వారి నుండి క్యూరేటర్‌లను కనుగొనాలనుకుంటున్నాము సంభావ్య యజమానులు- అదే Yandex నుండి, ఉదాహరణకు, ఎవరు కూడా ఈ గేమ్ ఆడతారు మరియు విద్యార్థులకు కొన్ని సలహాలు ఇస్తారు.

నేను చాలా నుండి ప్రజలు ఆశిస్తున్నాము వివిధ ప్రాంతాలు: ప్రోగ్రామర్లు, భాషావేత్తలు, సామాజిక శాస్త్రవేత్తలు, విక్రయదారులు. మేము భాషాశాస్త్రం, గణితం మరియు ప్రోగ్రామింగ్‌లలో అనేక అడాప్టేషన్ కోర్సులను కలిగి ఉంటాము. అప్పుడు మేము భాషాశాస్త్రంలో రెండు తీవ్రమైన కోర్సులను కలిగి ఉంటాము మరియు అవి చాలా సందర్భోచితంగా ఉంటాయి భాషా సిద్ధాంతాలు, మా గ్రాడ్యుయేట్లు ఆధునిక భాషా వ్యాసాలను చదివి అర్థం చేసుకోగలరని మేము కోరుకుంటున్నాము. గణితం విషయంలోనూ అంతే. మేము "గణిత పునాదులు ఆఫ్ కంప్యూటేషనల్ లింగ్విస్టిక్స్" అనే కోర్సును కలిగి ఉంటాము, ఇది ఆధునిక గణన భాషాశాస్త్రం ఆధారంగా ఉన్న గణితశాస్త్ర శాఖలను వివరిస్తుంది.

మాస్టర్స్ ప్రోగ్రామ్‌లో నమోదు చేయడానికి, మీరు ఉత్తీర్ణత సాధించాలి ప్రవేశ పరీక్షభాషలో మరియు పోర్ట్‌ఫోలియో పోటీలో ఉత్తీర్ణత సాధించండి.

ప్రధాన కోర్సులతో పాటు, ఎలక్టివ్ సబ్జెక్టుల వరుస ఉంటుంది.మేము అనేక చక్రాలను ప్లాన్ చేసాము - వాటిలో రెండు లోతైన అధ్యయనంపై దృష్టి కేంద్రీకరించబడ్డాయి. వ్యక్తిగత విషయాలు, వీటిలో, ఉదాహరణకు, మెషిన్ ట్రాన్స్‌లేషన్ మరియు కార్పస్ లింగ్విస్టిక్స్ ఉన్నాయి, మరియు ఒకటి, దీనికి విరుద్ధంగా, అనుబంధించబడింది సంబంధిత ప్రాంతాలు: వంటి, సాంఘిక ప్రసార మాధ్యమం, మెషీన్ లెర్నింగ్ లేదా డిజిటల్ హ్యుమానిటీస్ - ఇంగ్లీషులో బోధించాలని మేము ఆశిస్తున్నాము.