Компјутерски лингвист. Компјутерска лингвистика како применета лингвистичка дисциплина

лингвистика статистичка лингвистика софтвер

Историја на развојот на пресметковната лингвистика

Процесот на формирање и формирање на современата лингвистика како наука за природниот јазик претставува долг историски развој на лингвистичкото знаење. Јазичното знаење се заснова на елементи, чиешто формирање се случило во процесот на активност нераскинливо поврзано со развојот на структурата усмен говор, појавата, натамошниот развој и усовршување на пишувањето, наставата по пишување, како и толкувањето и декодирањето на текстовите.

Природниот јазик како предмет на лингвистиката зазема централно местово оваа наука. Во процесот на развојот на јазикот, се променија и идеите за него. Ако претходно не се придаваше посебно значење на внатрешната организација на јазикот, а тој се разгледуваше пред се во контекст на неговиот однос со надворешниот свет, тогаш, почнувајќи од крајот на XIX- почетокот на 20 век, посебна улога има внатрешната формална структура на јазикот. Во овој период познатиот швајцарски лингвист Фердинанд де Сосир ги развил основите на таквите науки како што се семиологијата и структурната лингвистика и детално ги изложил во својата книга „Курс по општа лингвистика“ (1916).

Научникот дошол до идеја да го смета јазикот како единствен механизам, целиот системзнаци, што пак овозможува математички да се опише јазикот. Сосир беше првиот што предложи структурен пристап кон јазикот, имено: опис на јазикот со проучување на односите меѓу неговите единици. По единици, или „знаци“, тој разбра збор што ги комбинира и значењето и звукот. Концептот предложен од швајцарскиот научник се заснова на теоријата на јазикот како систем на знаци составен од три дела: јазик (од францускиот јазик), говор (од францускиот помилување) и говорна активност (од францускиот јазик).

Самиот научник ја дефинирал науката што ја создал како семиологија како „наука која го проучува животот на знаците во рамките на животот на општеството“. Бидејќи јазикот е знаковен систем, во потрага по одговор на прашањето какво место зазема лингвистиката меѓу другите науки, Сосир тврдеше дека лингвистиката е дел од семиологијата. Општо е прифатено дека токму швајцарскиот филолог ја постави теоретската основа за нова насока во лингвистиката, станувајќи основач и „татко“ на модерната лингвистика.

Концептот изнесен од Ф. де Сосир доби понатамошно развивањево делата на многу истакнати научници: во Данска - Л. Хјелмслев, во Чешка - Н. Трубецкој, во САД - Л. Блумфилд, 3. Харис, Н. Чомски. Што се однесува до нашата земја, овде структурната лингвистика го започна својот развој приближно во истиот временски период како и на Запад - во пресврт на XIX-XXвекови - во делата на Ф. Фортунатов и И. Бодуен де Кортене. Треба да се напомене дека I. Boduin de Courtenay тесно соработувал со F. de Saussure. Ако Сосир ја поставил теоретската основа на структурната лингвистика, тогаш Бодуен де Куртне може да се смета за личност која ги поставила основите за практична примена на методите предложени од швајцарскиот научник. Токму тој ја дефинирал лингвистиката како наука која користи статистички методи и функционални зависности, и го одвои од филологијата. Првото искуство во примената на математичките методи во лингвистиката беше фонологијата - науката за структурата на звуците на јазикот.

Треба да се забележи дека постулатите изнесени од Ф. де Сосир можеа да се одразат во проблемите на лингвистиката кои беа релевантни во средината на 20 век. Токму во овој период постоела јасна тенденција кон математизација на науката за јазикот. Речиси во сите големи земјизапочнува брзиот развој на науката и компјутерската технологија, која пак бараше се повеќе и повеќе нови јазични основи. Резултат на сето тоа беше брзото приближување на прецизни и хуманистичките науки, и активна интеракцијаматематика и лингвистика пронајдени практична употребапри решавање на актуелни научни проблеми.

Во 50-тите години на 20 век, на раскрсницата на науки како математика, лингвистика, компјутерски науки и вештачка интелигенција, се појави нова гранка на науката - компјутерска лингвистика (исто така позната како машинска лингвистика или автоматска обработка на текст на природен јазик). Главните фази на развој на оваа насока се одвиваа против позадината на еволуцијата на методите вештачка интелигенција. Моќен поттик за развој на компјутерската лингвистика беше создавањето на првите компјутери. Сепак, со доаѓањето на новата генерација на компјутери и програмски јазици во 60-тите, фундаментално нова фазаво развојот на оваа наука. Исто така, треба да се забележи дека потеклото на пресметковната лингвистика се враќа во делата на познатиот американски лингвист Н. Чомски во областа на формализирање на структурата на јазикот. Резултатите од неговото истражување, добиени на пресекот на лингвистиката и математиката, ја формираа основата за развој на теоријата на формалните јазици и граматики (генеративни, или генеративни, граматики), која е широко користена за опишување и природни и вештачки јазици, особено програмските јазици. Да бидам попрецизен, оваа теорија е целосно математичка дисциплина. Може да се смета за еден од првите во оваа насока применета лингвистика, Како математичка лингвистика.

Првите експерименти и првите случувања во пресметковната лингвистика се однесуваат на создавањето системи за машинско преведување, како и системи кои ги моделираат човечките јазични способности. Во доцните 80-ти, со доаѓањето и активниот развој на Интернетот, имаше брз раст на обемот на текстуални информации достапни во електронска форма. Ова доведе до фактот дека технологиите за пронаоѓање информации се преселиле во квалитативно нова фаза од нивниот развој. Се појави потреба од автоматска обработка на текстовите на природен јазик, при што се појавија сосема нови задачи и технологии. Научниците се соочуваат со проблемот на брза обработка на огромен прилив на неструктурирани податоци. Со цел да се најде решение за овој проблем големо значењепочна да се фокусира на развојот и примената статистички методиво областа на автоматска обработка на текст. Со нивна помош стана можно да се решат такви проблеми како што се делење текстови во кластери обединети со заедничка тема, истакнување на одредени фрагменти во текстот итн. Покрај тоа, употребата на методи математичка статистикаи машинското учење овозможи да се решат проблемите со препознавање говор и создавање на пребарувачи.

Научниците не застанаа на постигнатите резултати: тие продолжија да си поставуваат нови цели и задачи, да развиваат нови техники и методи на истражување. Сето ова доведе до фактот дека лингвистиката почна да дејствува како применетата наука, кој комбинира голем број други науки, меѓу кои водечката улога и припадна на математиката со нејзините разновидни квантитативни методи и способноста да се користат за подлабоко разбирање на појавите што се проучуваат. Така го започна своето формирање и развој математичката лингвистика. Во моментов, ова е прилично „млада“ наука (постои околу педесет години), но и покрај нејзината многу „млада возраст“, ​​таа претставува веќе воспоставено поле на научно знаење со многу успешни достигнувања.

Новоселова Ирина

Зошто сите машински преводи не се совршени? Што го одредува квалитетот на преводот? Дали авторот има доволно знаење за да ги искористи и дополни постоечките компјутерски речници? Авторката се обидела да даде одговори на овие прашања во своето дело. Извештајот за темата е во приложената датотека, производот од проектната активност е на училишниот портал

Преземи:

Преглед:

Отвори

Меѓународен

истражување

конференција

средношколци и студенти

„Образование. Науката. Професија"

Дел „Странска лингвистика“

« Компјутерска лингвистика»

Во изведба на Новоселова Ирина

Општинска образовна установа гимназија бр.39 „Класичен“

10 класа „Б“.

Научни претпоставени:

Чигрињова Татјана Дмитриевна,

наставник на англискинајвисока категорија

Осипова Светлана Леонидовна,

професор по информатика од највисока категорија

Отрадни

2011

  1. Англиски зборови во ИКТ

Погледнете на веб-страницата

  1. Мојот експеримент

Една од задачите е да се спроведе експеримент, кој вклучува споредување на можностите на различни компјутерски лингвистички речници за попрецизен и приближен превод од англиски на руски.

Следниве локации беа тестирани:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

За чистотата на експериментот, избрав реченици со до различен степентешкотии во стилскиот превод. Влезните фрази се како што следува:

1. Нов извештај вели дека денешните тинејџери се посебични отколку пред 20 години

(Новиот извештај вели дека тинејџерите денес се посебични отколку пред 20 години)

2. Таа верува во видео игри и наИнтернетот е најголемата причина за оваа зголемена себичност.

(Таа верува дека видео игрите и интернетот се најмногу значајни причиниза оваа зголемена себичност)

3. Сакаат да бидат подобри од другите

(Тие сакаат да бидат подобри од останатите)

4. Таа откри дека започна големото зголемување од 2000 година, кога насилните видео игри станаа навистина популарни.

(Таа откри големо зголемување, која започна во 2000 година, кога насилни видеаигрите станаа навистина популарни)

Откако ги преведов овие реченици на интернет-страниците за преведувачи, ги добив следниве резултати:

  1. http://translate.eu/

Содржината на статијата

КОМПЈУТЕРСКА ЛИНГВИСТИКА,насока по применета лингвистика, фокусирана на употреба на компјутерски алатки - програми, компјутерски технологии за организирање и обработка на податоци - за моделирање на функционирањето на јазикот во одредени услови, ситуации, проблематични области итн., како и целиот опсег на примена на компјутерски модели на јазикот во лингвистиката И поврзани дисциплини. Всушност, само во вториот случаја зборуваме за применета лингвистика во строга смисла, бидејќи компјутерското моделирање на јазикот може да се смета и како поле на примена на компјутерската наука и теоријата на програмирање за решавање проблеми во науката за јазикот. Меѓутоа, во пракса, компјутерската лингвистика вклучува речиси сè што е поврзано со употребата на компјутерите во лингвистиката.

Колку е посебно научна насокаКомпјутерска лингвистика се оформи во 1960-тите. Рускиот термин „компјутерска лингвистика“ е превод од англиската компјутерска лингвистика. Бидејќи придавката пресметковна на руски може да се преведе и како „компјутерска“, терминот „компјутерска лингвистика“ се наоѓа и во литературата, но во руската наука тој добива потесно значење, приближувајќи се кон концептот „квантитативна лингвистика“. Протокот на публикации во оваа област е многу голем. Покрај тематските збирки, списанието Computer Linguistics се објавува квартално во САД. Поголеми организациски и научна работаго спроведува Здружението за компјутерска лингвистика кое има регионални структури(особено, европската гранка). На секои две години меѓународни конференциипо компјутерска лингвистика – КОЛИНГ. Соодветните прашања обично се широко застапени на различни конференции за вештачка интелигенција.

Прирачник за компјутерска лингвистика.

Компјутерска лингвистика како посебна применета дисциплина се одликува пред се по својот инструмент - т.е. за употреба на компјутерски алатки за обработка на јазични податоци. Бидејќи компјутерските програми кои моделираат одредени аспекти на функционирањето на јазикот можат да користат различни програмски алатки, се чини дека нема потреба да се зборува за општиот концептуален апарат на компјутерската лингвистика. Сепак, тоа не е. Постои општи принципи компјутерско моделирањеразмислување, кои некако се реализираат во која било компјутерски модел. Тие се засноваат на теоријата на знаење, која првично беше развиена во областа на вештачката интелигенција, а подоцна стана една од гранките на когнитивната наука. Најважниот концептуални категориипресметковната лингвистика се такви структури на знаење како „рамки“ (концептуални, или, како што велат, концептуални структури за декларативно претставување на знаењето за типизирана тематски унифицирана ситуација), „сценарија“ (концептуални структури за процедурална претстава на знаење за стереотипна ситуација или стереотипно однесување), „планови“ (структури на знаење кои доловуваат идеи за можни дејства што водат до постигнување специфична цел). Тесно поврзан со категоријата рамка е концептот на „сцена“. Категоријата сцена претежно се користи во литературата за пресметковна лингвистика како ознака концептуална структураза декларативното претставување на актуелизираните во говорниот чин и истакнати јазични средства(лексеми, синтаксички конструкции, граматички категории и сл.) ситуации и нивни делови.

Организиран сет на структури на знаење на одреден начин го формира „светскиот модел“ на когнитивниот систем и неговиот компјутерски модел. Во системите за вештачка интелигенција, светскиот модел формира посебен блок, кој, во зависност од избраната архитектура, може да вклучува Општи знаењаза светот (во форма на едноставни предлози како „зима е ладно“ или во форма на правила за производство „ако е надвор врне, тогаш треба да облечете кабаница или да земете чадор“), некои конкретни факти („Најмногу висок врвво светот – Еверест“), како и вредностите и нивните хиерархии, понекогаш поделени во посебен „аксиолошки блок“.

Повеќето елементи на концептите на алатките на пресметковната лингвистика се хомонимни: тие истовремено означуваат некои реални ентитети на човечкиот когнитивен систем и начини на претставување на овие ентитети кои се користат во нивниот теоретски опис и моделирање. Со други зборови, елементите концептуален апаратпресметковната лингвистика има онтолошки и инструментални аспекти. На пример, во онтолошки аспект, поделбата на декларативното и процедуралното знаење соодветствува на различни видови знаења што му се достапни на една личност - т.н. од една страна, и знаење КАКО (процедурално; такво, на пример, знаење што ви овозможува да го најдете станот на оваа НН, дури и без да ја знаете неговата формална адреса) - од друга. Во инструментален аспект, знаењето може да се отелотвори во збир на описи (описи), во збир на податоци, од една страна, и во алгоритам, инструкција спроведена од компјутер или некој друг модел на когнитивен систем. од друга.

Насоки на пресметковната лингвистика.

Областа на CL е многу разновидна и вклучува области како што се компјутерско моделирање на комуникација, моделирање на структурата на заплетот, технологии за хипертекст за презентација на текст, машински превод и компјутерска лексикографија. Во потесна смисла, проблемите на CL често се поврзуваат со интердисциплинарно применета област со малку несреќно име „обработка природен јазик„(превод на англискиот термин Natural Language Processing). Се појави во доцните 1960-ти и се разви во рамките на научната и технолошката дисциплина „вештачка интелигенција“. На свој начин внатрешна формаФразата „обработка на природен јазик“ ги опфаќа сите области во кои компјутерите се користат за обработка на јазичните податоци. Во меѓувреме, во пракса се зафати потесно разбирање на овој термин - развој на методи, технологии и специфични системи кои обезбедуваат човечка комуникација со компјутер на природен или ограничен природен јазик.

Брзиот развој на полето на „обработка на природни јазици“ се случи во 1970-тите, што беше поврзано со неочекуван експоненцијален раст на бројот на крајни корисници на компјутерот. Бидејќи предавањето јазици и технологијата за програмирање на сите корисници е невозможна, се појави проблемот со организирање на интеракција со компјутерски програми. Решението на овој комуникациски проблем следеше два главни патеки. Во првиот случај, беа направени обиди да се прилагодат програмските јазици и оперативните системи на крајниот корисник. Како резултат на тоа, се појавија јазици на високо ниво како Visual Basic, како и удобни оперативни системи изградени во концептуалниот простор познат на човекотметафори – биро, БИБЛИОТЕКА. Вториот начин е да се развијат системи кои ќе овозможат интеракција со компјутер во одредена проблематична област на природен јазик или некоја негова ограничена верзија.

Архитектурата на системите за обработка на природен јазик во општиот случај вклучува блок за анализа на говорната порака на корисникот, блок за толкување на пораката, блок за генерирање на значењето на одговорот и блок за синтетизирање на површинската структура на исказот. Посебен дел од системот е компонентата дијалог, која ги евидентира стратегиите за водење дијалог, условите за користење на овие стратегии и начините за надминување на можните комуникациски неуспеси (неуспеси во процесот на комуникација).

Помеѓу компјутерските системи за обработка на природен јазик, обично се разликуваат системи за прашања-одговор, интерактивни системи за решавање проблеми и поврзани системи за обработка на текст. Првично, системи за прашања-одговор почнаа да се развиваат како одговор на лош квалитеткодирање на прашања при пребарување на информации во системите за пронаоѓање информации. Бидејќи проблематичната област на таквите системи беше многу ограничена, ова донекаде ги поедностави алгоритмите за преведување на прашања во претстава на формален јазик и обратна процедура за претворање на формална репрезентација во изјави на природен јазик. Меѓу домашните случувања, програмите од овој тип го вклучуваат системот ПОЕТ, создаден од тим истражувачи под раководство на Е.В. Попов. Системот ги обработува барањата на руски (со мали ограничувања) и го синтетизира одговорот. Програмскиот дијаграм вклучува поминување низ сите фази на анализа (морфолошка, синтаксичка и семантичка) и соодветните фази на синтеза.

Системите за решавање проблеми со разговор, за разлика од системите од претходниот тип, играат активна улога во комуникацијата, бидејќи нивната задача е да добијат решение за проблемот врз основа на знаењето што е претставено во него и информациите што може да се добијат од корисникот. . Системот содржи структури на знаење кои снимаат типични секвенци на дејства за решавање на проблеми во дадена проблемска област, како и информации за потребните ресурси. Кога корисникот поставува прашање или поставува одредена задача, се активира соодветната скрипта. Ако недостасуваат некои компоненти на скриптата или недостасуваат некои ресурси, системот иницира комуникација. Така функционира системот СНУКА, на пример, Решавач на проблемипланирање воени операции.

Системите за обработка на поврзани текстови се доста разновидни по структура. Може да се разгледа нивната заедничка карактеристика широка употребатехнологии за претставување на знаењето. Функциите на системите од овој вид се да го разберат текстот и да одговараат на прашања за неговата содржина. Разбирањето не се смета како универзална категорија, туку како процес на извлекување информации од текст, определен од одредена комуникациска намера. Со други зборови, текстот се „чита“ само со претпоставка дека токму она што потенцијалниот корисник сака да го знае за него. Така, системите за обработка на поврзани текстови во никој случај не се универзални, туку ориентирани кон проблеми. Типични примери на системи од типот што се дискутира се системите RESEARCHER и TAILOR, кои формираат единствена софтверски пакет, овозможувајќи му на корисникот да добие информации од патентни апстракти кои опишуваат сложени физички објекти.

Најважната област на компјутерската лингвистика е развојот на системи за пронаоѓање информации (IRS). Последново се појави во доцните 1950-ти и раните 1960-ти како одговор на наглото зголемување на обемот на научни и технички информации. Врз основа на видот на информациите зачувани и обработени, како и карактеристиките за пребарување, системите за пронаоѓање информации се поделени во две големи групи - документарни и фактички. Системите за пронаоѓање на документарни информации ги складираат текстовите на документите или нивните описи (апстракти, библиографски картички итн.). Фактичката УЈП се занимава со опис на конкретни факти, а не нужно во текстуална форма. Тоа може да бидат табели, формули и други видови презентација на податоци. Исто така, постојат мешани информациски системи, вклучувајќи и документи и фактички информации. Во моментов, фактичките информациски системи се изградени врз основа на технологии за бази на податоци (DB). За да се обезбеди пронаоѓање информации во системот за пронаоѓање информации, се создаваат специјални јазици за пронаоѓање информации, кои се засноваат на тезауруси за пронаоѓање информации. Јазикот за пронаоѓање информации е формален јазик, наменет за опишување на поединечни аспекти на планот за содржина за документите складирани во УЈП и барањето. Постапката за опишување документ на јазик за пронаоѓање информации се нарекува индексирање. Како резултат на индексирањето, на секој документ му е доделен неговиот формален опис на јазик за пронаоѓање информации - слика за пребарување на документот. Барањето е индексирано на сличен начин, на кое се доделува слика за пребарување и рецепт за пребарување. Алгоритмите за пронаоѓање информации се засноваат на споредување на рецептот за пребарување со сликата на барањето за пребарување. Критериумот за издавање документ за барање може да биде целосно или делумно совпаѓање на сликата за пребарување на документот и упатството за пребарување. Во некои случаи, корисникот има можност самиот да ги формулира критериумите за издавање. Тоа е определено со него потреба од информации. Автоматизираните системи за пронаоѓање информации често користат јазици за пронаоѓање информации со дескриптори. Предметот на документот е опишан со збир на дескриптори. Описниците се зборови и термини кои означуваат едноставни, прилично елементарни категории и концепти на проблематичната област. Толку дескриптори се внесени во сликата за пребарување на документот колку што има различни теми опфатени во документот. Бројот на дескриптори не е ограничен, што ви овозможува да го опишете документот во повеќедимензионална матрица на карактеристики. Често во јазикот за пронаоѓање информации за дескриптори, се наметнуваат ограничувања на компатибилноста на дескрипторите. Во овој случај, можеме да кажеме дека јазикот за пронаоѓање информации има синтакса.

Еден од првите системи што работеше со дескриптор јазик беше американски систем UNITERM, создаден од М. Таубе. Клучните зборови за документи - унитерми - функционираа како дескриптори во овој систем. Особеноста на оваа УЈП е дека првично речникот информативен јазикне беше одредено, но се појави за време на процесот на индексирање на документи и барање. Развојот на современите системи за пронаоѓање информации е поврзан со развојот на системи за пронаоѓање информации кои не се од типот на тезаурус. Таквите информациски системи работат со корисникот на ограничен природен јазик, а пребарувањето се врши според текстовите на апстрактите на документите, според нивните библиографски описи, и често врз основа на самите документи. За индексирање во не-тезаурус тип IRS, се користат зборови и фрази од природен јазик.

До одреден степен, областа на компјутерската лингвистика може да вклучи работа во областа на создавање хипертекстни системи, сметана како посебен начин на организирање текст, па дури и како фундаментален новиот видтекст, контраст во многу од неговите својства со обичниот текст формиран во традицијата на Гутенберг на печатење. Идејата за хипертекст е поврзана со името на Ваневар Буш, советник за наука на претседателот Ф. Рузвелт. В. Буш теоретски го поткрепи проектот технички систем„Memex“, кој му овозможи на корисникот да ги поврзува текстовите и нивните фрагменти користејќи различни видови врски, главно преку асоцијативни врски. Недостатокот на компјутерска технологија го отежнуваше спроведувањето на проектот, бидејќи механичкиот систем се покажа премногу сложен за практично спроведување.

Идејата на Буш беше повторно родена во 1960-тите во системот Xanadu на Т. Нелсон, кој веќе вклучуваше употреба на компјутерска технологија. „Xanadu“ му овозможи на корисникот да прочита збир на текстови внесени во системот различни начини, во различни секвенци, софтверот овозможи да се запамети редоследот на прегледани текстови и да се избере речиси секој од нив во произволна временска точка. Збир на текстови со врски што ги поврзуваат (систем на транзиции) беше наречен хипертекст од Т. Нелсон. Многу истражувачи го сметаат создавањето на хипертекст како почеток на нова информациска ера, спротивна на ерата на печатење. Линеарноста на пишувањето, која надворешно ја отсликува линеарноста на говорот, се покажува како основна категорија што го ограничува човековото размислување и разбирање на текстот. Светот на значењето е нелинеарен, затоа, компресирањето на семантичките информации во линеарен говорен сегмент бара употреба на специјално „комуникативно пакување“ - поделба на тема и рема, поделба на планот на содржината на исказот на експлицитни (изјава, предлог, фокус) и имплицитни (претпоставка, последица, дискурсна импликација) слоеви . Одбивањето на линеарноста на текстот и во процесот на неговото презентирање пред читателот (т.е. при читањето и разбирањето), така и во процесот на синтеза, според теоретичарите, би придонело за „ослободување“ на размислувањето, па дури и за појава на неговото нови форми.

ВО компјутерски системхипертекст е претставен во форма на график, чии јазли содржат традиционални текстови или нивни фрагменти, слики, табели, видеа итн. Јазлите се поврзани со различни врски, чии типови се специфицирани од развивачите на софтвер за хипертекст или од самиот читател. Врските ги дефинираат потенцијалните можности за движење или навигација низ хипертекст. Односите можат да бидат еднонасочни или двонасочни. Според тоа, двонасочните стрелки му овозможуваат на корисникот да се движи во двете насоки, додека еднонасочните стрелки му дозволуваат на корисникот да се движи само во една насока. Синџирот на јазли низ кои поминува читателот при прегледување на компонентите на текстот формира патека, или рута.

Компјутерските имплементации на хипертекст можат да бидат хиерархиски или мрежни. Хиерархиската структура на хипертекстот налик на дрво значително ги ограничува можностите за транзиција помеѓу неговите компоненти. Во таков хипертекст, односите помеѓу компонентите наликуваат на структурата на речник заснован на односите род-вид. Мрежниот хипертекст овозможува користење на различни типови на врски помеѓу компонентите, не ограничени на односите род-вид. Според методот на постоење на хипертекст, се разликуваат статични и динамички хипертекстови. Статичниот хипертекст не се менува за време на работата; во него корисникот може да ги сними своите коментари, но тие не ја менуваат суштината на работата. За динамичниот хипертекст, промената е нормална форма на постоење. Типично, динамичните хипертекстови функционираат онаму каде што е неопходно постојано да се анализира протокот на информации, т.е. во информатичките услуги разни видови. Хипертекстот е, на пример, информацискиот систем Аризона (AAIS), кој се ажурира месечно со 300–500 апстракти месечно.

Односите помеѓу елементите на хипертекст може првично да се поправат од креаторите, или може да се генерираат секогаш кога корисникот пристапува до хипертекстот. Во првиот случај станува збор за хипертексти со тврда структура, а во вториот за хипертекст на мека структура. Цврстата структура е технолошки сосема разбирлива. Технологијата за организирање на мека структура треба да се заснова на семантичка анализа на близината на документите (или други извори на информации) едни со други. Ова е нетривијална задача во пресметковната лингвистика. Во денешно време, употребата на технологии за мека структура на клучни зборови е широко распространета. Преминот од еден јазол во друг во хипертекст мрежа се врши како резултат на пребарување на клучни зборови. Бидејќи множеството клучни зборови може да биде различно секој пат, структурата на хипертекстот се менува секој пат.

Технологијата за градење хипертекстни системи не прави разлика помеѓу текстуални и нетекстуални информации. Во меѓувреме, вклучувањето на визуелни и аудио информации (видеа, слики, фотографии, звучни снимки итн.) бара значителна промена во корисничкиот интерфејс и помоќна софтверска и компјутерска поддршка. Таквите системи се нарекуваат хипермедија, или мултимедија. Видливоста на мултимедијалните системи ја предодреди нивната широка употреба во наставата и во создавањето на компјутерски верзии на енциклопедии. Постојат, на пример, прекрасно произведени ЦД-ромови со мултимедијални системи базирани на детски енциклопедии објавени од Дорлин Киндерсли.

Во рамките на компјутерската лексикографија се развиваме Компјутерски технологиисоставување и работа на речници. Специјални програми– бази на податоци, кабинети со компјутерски датотеки, програми за обработка на текст – ви овозможуваат автоматски да генерирате записи во речник, да складирате информации од речник и да ги обработувате. Многу различни компјутерски лексикографски програми се поделени во две големи групи: програми за поддршка на лексикографски дела и автоматски речници од различни типови, вклучително и лексикографски бази на податоци. Автоматски речник е речник во специјален машински формат наменет за употреба на компјутер од страна на корисник или компјутерска програма за обработка на текст. Со други зборови, постои разлика помеѓу автоматските речници за човечкиот краен корисник и автоматските речници за програмите за обработка на текст. Автоматските речници наменети за крајниот корисник значително се разликуваат по интерфејсот и структурата на записот во речникот од автоматските речници вклучени во системите за машинско преведување, системите за автоматско апстрактирање, системите за пронаоѓање информации итн. Најчесто тоа се компјутерски верзии на добро познати конвенционални речници. На пазарот на софтвер има компјутерски аналози на објаснувачки речници на англискиот јазик (автоматски Вебстер, автоматски РечникИздавачката куќа Колинс на англиски јазик, автоматска верзија на New Great Англиско-руски речникИзменето од Ју.Д.Апресјан и Е.М.Медникова), исто така постои компјутерска верзијаРечник на Ожегов. Автоматските речници за програми за обработка на текст може да се наречат автоматски речници во строга смисла. Тие обично не се наменети за просечниот корисник. Карактеристиките на нивната структура и обемот на вокабуларниот материјал се одредуваат од програмите што комуницираат со нив.

Компјутерското моделирање на структурата на заплетот е уште една ветувачка област на компјутерската лингвистика. Проучувањето на структурата на заплетот се однесува на проблемите на структуралната книжевна критика (во во широка смисла), семиотика и културолошки студии. Достапните компјутерски програми за моделирање на заплетот се засноваат на три основни формализми за претставување на заплетот - морфолошките и синтаксичките насоки на заплетот, како и на когнитивниот пристап. Идеите за морфолошката структура на структурата на парцелата се враќаат во познати делаВ.Ја.Пропа ( цм.) за една руска бајка. Проп забележал дека со изобилството на ликови и настани во бајките, бројот на функции на ликовите е ограничен и предложил апарат за опишување на овие функции. Идеите на Проп ја формираа основата на компјутерската програма TALE, која симулира генерирање на заплет од бајка. Алгоритмот на програмата TALE се заснова на низата функции на ликовите во бајката. Всушност, функциите на Проп дефинираа збир на типизирани ситуации, подредени врз основа на анализа на емпириски материјал. Способности на спојката различни ситуацииво правилата за генерирање беа одредени со типична низа на функции - во форма во која тоа може да се утврди од текстовите на бајките. Во програмата, типичните секвенци на функции беа опишани како типични сценарија за средба со карактери.

Теоретската основа на синтаксичкиот пристап кон заплетот на текстот беше „граматика на приказни“ или „граматика на приказни“. Тие се појавија во средината на 1970-тите како резултат на пренесувањето на идеите на генеративната граматика на Н. Чомски во описот на макроструктурата на текстот. Доколку најважните компоненти синтаксичка структураВо генеративната граматика имало вербални и номинални групи, во повеќето граматички заговори како основни се издвојувале експозицијата (поставката), настанот и епизодата. Во теоријата на граматиките на заплетот, нашироко се дискутирани условите на минималност, односно ограничувањата што го одредуваат статусот на низа елементи на заплетот како нормален заплет. Сепак, се покажа дека тоа е чисто лингвистички методитоа е невозможно да се направи. Многу ограничувања се од социокултурна природа. Граматиките на заплетот, иако значително се разликуваа во множеството категории во генерациското дрво, дозволија многу ограничен сет на правила за измена на наративната структура.

Во раните 1980-ти, една од учениците на Р. на претставување на структурата на парцелата. И покрај фактот дека првично беше развиен за систем на вештачка интелигенција, овој формализам беше искористен чисто теоретски истражувања. Суштината на пристапот на Ленерт беше дека заплетот беше опишан како последователна промена во когнитивно-емоционалните состојби на ликовите. Така, фокусот на формализмот на Ленерт не е на надворешните компоненти на заплетот - изложување, настан, епизода, морал - туку на неговите содржински карактеристики. Во овој поглед, формализмот на Ленерт е делумно враќање на идеите на Проп.

Компетентноста на компјутерската лингвистика вклучува и машински превод, кој во моментов доживува преродба.

Литература:

Попов Е.В. Комуникација со компјутер на природен јазик. М., 1982 година
Садур В.Г. Говорна комуникација со електронски компјутери и проблеми на нивниот развој. – Во книгата: Говорна комуникација: проблеми и перспективи. М., 1983 година
Баранов А.Н. Категории на вештачка интелигенција во лингвистичката семантика. Рамки и скрипти. М., 1987 година
Кобожева И.М., Лауфер Н.И., Сабурова И.Г. Моделирање на комуникација во системи човек-машина. – Јазична поддршка информациски системи. М., 1987 година
Олкер Х.Р. Бајки, трагедии и начини на прикажување на светската историја. – Во книгата: Јазик и моделирање на социјалната интеракција. М., 1987 година
Городецки Б.Ју. Компјутерска лингвистика: моделирање на јазична комуникација
Меквин К. Дискурсни стратегии за синтеза на текст на природен јазик. – Ново во странската лингвистика. Vol. XXIV, Компјутерска лингвистика. М., 1989 година
Попов Е.В., Преображенски А.Б. . Карактеристики на имплементација на NL системи
Преображенски А.Б. Состојба на развој на современи НЛ системи. - Вештачка интелигенција. Книга 1, Комуникациски системи и експертски системи. М., 1990 година
Субботин М.М. Хипертекст. Нова формаписмена комуникација. – ВИНИТИ, Сер. Компјутерски науки, 1994 година, том 18
Баранов А.Н. Вовед во применета лингвистика. М., 2000 година



Компјутерска лингвистика(Исто така: математичкиили пресметковна лингвистика, Англиски пресметковна лингвистика) - научна насока од областа на математичкото и компјутерското моделирање интелектуални процесикај луѓето и животните при креирање системи за вештачка интелигенција, чија цел е да користи математички модели за опишување на природни јазици.

Компјутерската лингвистика се преклопува со обработката на природниот јазик. Меѓутоа, во вториот акцентот не е на апстрактните модели, туку на применетите методи на опишување и обработка на јазикот за компјутерски системи.

Областа на дејност на компјутерските лингвисти е изработка на алгоритми и апликативни програми за обработка на лингвистички информации.

Потекло

Математичката лингвистика е гранка на науката за вештачка интелигенција. Неговата историја започна во Соединетите Американски Држави во 1950-тите. Со пронаоѓањето на транзисторот и појавата на новата генерација на компјутери, како и првите програмски јазици, започнаа експериментите со машинскиот превод, особено на руските научни списанија. Во 1960-тите, слични студии беа спроведени во СССР (на пример, статија за превод од руски на ерменски во збирката „Проблеми на кибернетиката“ за 1964 година). Сепак, квалитетот на машинскиот превод е сè уште многу инфериорен во однос на квалитетот на човечкиот превод.

Од 15 мај до 21 мај 1958 година, во I Московскиот државен педагошки институт за странски јазици се одржа првата Сојузна конференција за машинско преведување. Организацискиот одбор беше предводен од В. Ју.Розенцвајг и извршниот секретар на Организациониот одбор Г.В.Чернов. Целосната програма на конференцијата е објавена во збирката „Машински превод и применета лингвистика“, кн. 1, 1959 година (познато како „Билтен на Здружението за машинско преведување бр. 8“). Како што се сеќава В. Ју Розенцвајг, објавената збирка апстракти од конференцијата дојде во САД и остави голем впечаток таму.

Во април 1959 година, во Ленинград се одржа Првата Сојузна конференција за математичка лингвистика, свикана Ленинградскиот универзитети Комисијата за применета лингвистика. Главен организатор на Собирот беше Н.Д.Андреев. На состанокот учествуваа голем број истакнати математичари, особено С. Л. Соболев, Л. В. Канторович (подоцна - Нобеловец) и А. А. Марков (последните двајца зборуваа во дебатата). В. Ју Розенцвајг зборуваше на денот на отворањето на состанокот со главен говор „Генерал лингвистичка теоријапревод и математичка лингвистика“.

Области на компјутерска лингвистика

  • Обработка на природен јазик обработка на природен јазик; синтаксичка, морфолошка, семантичка анализа на текст). Ова исто така вклучува:
  1. Корпус лингвистика, создавање и употреба на електронски корпуси на текстови
  2. Креирање на електронски речници, тезаури, онтологии. На пример, Lingvo. Речниците се користат, на пример, за автоматски превод и проверка на правопис.
  3. Автоматски превод на текстови. Промт е популарен меѓу руските преведувачи. Меѓу бесплатните е Google Translate.
  4. Автоматско извлекување на факти од текст (извлекување информации) екстракција на факти, рударство на текст)
  5. Автоматско упатување автоматско сумирање на текст). Оваа функција е вклучена, на пример, во Microsoft Word.
  6. Градење системи за управување со знаење. Видете Експертски системи
  7. Создавање системи за прашања и одговори системи за одговарање прашања).
  • Оптичко препознавање знаци OCR). На пример, програмата FineReader
  • Автоматско препознавање на говор ASR). Има платен и бесплатен софтвер
  • Автоматска синтеза на говор

Големи здруженија и конференции

Студиски програми во Русија

исто така види

Напишете рецензија за статијата „Компјутерска лингвистика“

Белешки

Врски

  • (апстрактно)
  • - база на знаење за лингвистички ресурси за рускиот јазик
  • - кодови со отворен код на некои компјутерски лингвистички алатки
  • - онлајн пристапна програмите за компјутерска лингвистика

Извадок што ја карактеризира компјутерската лингвистика

„Земи, земи го детето“, рече Пјер, предавајќи го девојчето и ѝ се обрати на жената царски и набрзина. - Дај им, дај им! - викна речиси на жената, спуштајќи ја девојката што врескаше на земја и повторно погледна назад кон француското и ерменското семејство. Старецот веќе седеше бос. Малиот Французин ја соблече последната чизма и плесна со чизмите една против друга. Старецот, липајќи, рече нешто, но Пјер само го здогледа тоа; целото негово внимание беше свртено кон Французинот во хаубата, кој во тоа време, полека нишајќи се, тргна кон младата жена и, вадејќи ги рацете од џебовите, ја фати за врат.
Убавата Ерменка продолжила да седи во истата неподвижна положба, со спуштени долги трепки и како да не гледала и не чувствувала што и прави војникот.
Додека Пјер трчаше со тие неколку чекори што го одвојуваа од Французите, еден долг мародер со качулка веќе го кинеше ѓерданот што го носеше од вратот на Ерменката, а младата жена, стегајќи ја за вратот со рацете, врескаше со пискав глас. .
– Laissez cette femme! [Остави ја оваа жена!] - Пјер кркори со избезумен глас, фаќајќи го долгиот, стуткан војник за рамениците и фрлајќи го. Војникот паднал, станал и побегнал. Но, неговиот другар, фрлајќи ги чизмите, извади нож и заканувачки напредуваше кон Пјер.
- Војони, па де бетисес! [О, добро! Не биди глупав!] – извика тој.
Пјер беше во тој занес на бес во кој не се сеќаваше на ништо и во кој неговата сила се зголеми десет пати. Се втурна кон босиот Французин и, пред да го извади ножот, веќе го собори и го удира со тупаници. Се слушна одобрувачки крик од околната толпа, а во исто време монтирана патрола од француски лансери се појави зад аголот. Ленсерите тргнаа кон Пјер и Французинот и ги опколија. Пјер не се сеќаваше на ништо што се случи потоа. Се сети дека тепа некого, го тепаат и дека на крајот почувствувал дека му се врзани рацете, дека толпата Француски војницистои околу него и го пребарува неговиот фустан.
„Il a un poignard, поручник, [поручник, тој има кама“] беа првите зборови што ги разбра Пјер.
- Ах, une arme! [Ах, оружје!] - рече офицерот и се сврте кон босиот војник кој беше однесен со Пјер.
„C"est bon, vous direz tout cela au conseil de guerre, [Добро, во ред, ќе кажеш сè на судењето“, рече офицерот. И после тоа се сврте кон Пјер: „Parlez vous francais vous? Дали зборуваш француски? ]
Пјер погледна околу него со крвави очи и не одговори. Неговото лице веројатно се чинеше многу страшно, бидејќи службеникот рече нешто со шепот, а уште четири лансери се одделија од тимот и застанаа на двете страни на Пјер.
– Parlez vous francais? – му го повтори прашањето службеникот држејќи се настрана од него. - Faites venir l "interprete. [Повикај преведувач.] - Од зад редовите што ги напушти малиот човекво цивилна руска облека. Пјер, по својата облека и говор, веднаш го препозна како Французин од една од московските продавници.
„Тој не изгледа како обичен човек“, рече преведувачот гледајќи во Пјер.
– О, ох! ca m"a bien l"air d"un des incendiaires", замати офицерот. "Demandez lui ce qu"il est? [О, ох! многу личи на пироман. Прашајте го кој е?] додаде тој.
- Кој си ти? – прашал преведувачот. „Властите мора да одговорат“, рече тој.
– Je ne vous dirai pas qui je suis. Je suis votre burgnier. Еменез мои, [нема да ви кажам кој сум. Јас сум твој затвореник. Однесете ме“, ненадејно рече Пјер на француски.
- Ах ах! – рече офицерот намуртено. - Маршони!
Се собра толпа околу лансерите. Најблиску до Пјер стоеше жена со џеп со девојка; Кога обиколницата почнала да се движи, таа тргнала напред.
-Каде те носат душо моја? - таа рече. - Оваа девојка, што ќе правам со оваа девојка, ако не е нивна! - рече жената.
– Qu"est ce qu"elle veut cette femme? [Што сака таа?] - праша офицерот.
Пјер изгледаше како да е пијан. Неговата екстатична состојба уште повеќе се засилила кога ја видел девојката што ја спасил.
„Ce qu"elle dit?“ рече тој. „Elle m“apporte ma fille que je viens de sauver des flammes“, рече тој. - Збогум! [Што сака таа? Ја носи мојата ќерка која ја спасив од пожарот. Збогум!] - и тој, не знаејќи како му избега оваа бесцелна лага, чекореше со решителен, свечен чекор меѓу Французите.
Француската патрола беше една од оние што беа испратени по наредба на Дуронел на различни улици на Москва за да го потиснат грабежот и особено да ги фатат подметнувачите на пожар, кои според општото мислење што се појави тој ден меѓу Французите од највисоките чинови, беа причина за пожарите. Патувајќи низ неколку улици, патролата собрала уште петмина сомнителни Руси, еден дуќанџија, двајца семинаристи, еден селанец и еден слуга и неколку ограбувачи. Но, од сите сомнителни луѓе, Пјер изгледаше најсомнителен од сите. Кога сите беа донесени да ја поминат ноќта во голема куќа на Зубовски Вал, во која беше формирана стражарница, Пјер беше ставен под строга стража.

Во Санкт Петербург во тоа време, во највисоките кругови, со поголем жар од кога било, се водеше сложена борба меѓу партиите на Румјанцев, Французите, Марија Федоровна, Царевич и други, потонати, како и секогаш, од трубењето. на судските дронови. Но, мирен, луксузен, загрижен само за духови, одрази на животот, животот во Санкт Петербург продолжи како порано; а поради текот на овој живот, потребно беше да се вложат големи напори за да се препознае опасноста и тешката состојба во која се најде рускиот народ. Имаше исти излези, балови, истиот француски театар, исти интереси на терените, исти интереси за услуга и интриги. Само во највисоките кругови беа направени напори да се потсети на тешкотијата на сегашната ситуација. Со шепоти се раскажуваше како двете царици дејствувале спротивно една на друга во такви тешки околности. Царицата Марија Федоровна, загрижена за благосостојбата на побожните и образовните институции, направи наредба да се испратат сите институти во Казан, а работите на овие институции веќе беа спакувани. Царицата Елизавета Алексеевна, на прашањето какви наредби сака да прави, со својот карактеристичен руски патриотизам, удостои да одговори дека владините институциитаа не може да дава наредби, бидејќи тоа се однесува на суверенот; за истото што лично зависи од неа, се удостои да каже дека последна ќе го напушти Санкт Петербург.

Лингвистика (од латински lingua -
јазик), лингвистика, лингвистика - наука,
изучување јазици.
Ова е наука за природата човечки јазиквоопшто
и за сите јазици на светот како неговиот
поединечни претставници.
Во широка смисла на зборот, лингвистика
поделени на научни и практични. Почесто
она што се подразбира под лингвистика е токму
научна лингвистика. Тоа е дел од семиотиката како
наука за знаците.
Лингвистиката професионално ја проучуваат лингвистичките научници.

Лингвистика и компјутерски науки.
Во животот на современото општество важна улогаиграно од автоматизирано
информациска технологија. Но, развојот на информатичката технологија се случува
многу нерамномерно: ако модерно нивокомпјутерската технологија и
средство за комуникација ја восхитува имагинацијата, потоа во областа на семантичката обработка
информации, успесите се многу поскромни. Овие успеси зависат, пред сè, од
достигнувања во проучувањето на процесите на размислување на човекот, говорните процеси
комуникација меѓу луѓето и способност да се симулираат овие процеси на компјутер. И ова е задача со екстремна сложеност.Кога станува збор за создавање ветувачки
информатичката технологија, потоа проблемите на автоматската обработка на текстот
информациите презентирани на природни јазици доаѓаат до израз.
Ова се одредува со фактот дека размислувањето на една личност е тесно поврзано со неговиот јазик. Повеќе
Освен тоа, природниот јазик е алатка за размислување. Тој е исто така
универзално средство за комуникација меѓу луѓето - средство за перцепција,
акумулација, складирање, обработка и пренос на информации.
Проблеми со користење на природен јазик во автоматско
Науката за компјутерска лингвистика се занимава со обработка на информации. Оваа наука
се појави релативно неодамна - на крајот на педесеттите и шеесеттите
минатиот век. Отпрвин, за време на своето формирање, имал разновидни
наслови: математичка лингвистика, пресметковна лингвистика, инженерство
лингвистиката. Но, во раните осумдесетти, името му беше доделено
пресметковна лингвистика.

Компјутерска лингвистика е поле на знаење поврзано со решавање проблеми
автоматска обработка на информации презентирани на природен јазик.
Централно научни проблемикомпјутерската лингвистика е проблем
моделирање на процесот на разбирање на значењето на текстовите (премин од текст во
формализирано претставување на неговото значење) и проблемот на синтезата на говорот (премин од
формализирано претставување на значењето на текстовите на природен јазик). Овие проблеми
се јавуваат при решавање на голем број применети проблеми:
1) автоматско откривање и корекција на грешки при внесување текстови во компјутер,
2) автоматска анализаи синтеза на усниот говор,
3) автоматско преведување на текстови од еден јазик на друг,
4) комуникација со компјутер на природен јазик,
5) автоматска класификација и индексирање на текстуални документи, нивни
автоматско апстрактирање, пребарување на документи во бази на податоци со целосен текст.
Во текот на изминатиот половина век во областа на пресметковната лингвистика се добиени
значајни научни и практични резултати: беа создадени машински системи
превод на текстови од еден природен јазик на друг, автоматизирани системи
барање информации во текстови, системи за автоматска анализа и синтеза на усниот говор и
многу други. Но, имаше и разочарувања. На пример, проблемот со машинскиот превод
текстовите од еден на друг јазик се покажаа многу потешки отколку што се замислуваше
пионерите на машинското преведување и нивните следбеници. Истото може да се каже и за
автоматизирано пребарување на информации во текстови и задача за анализа и синтеза на усно
говорот. Научниците и инженерите очигледно ќе треба да работат многу повеќе
постигне саканите резултати.

Обработка на природен јазик; синтаксичка,
морфолошка, семантичка анализа на текстот). Ова исто така вклучува:
Корпус лингвистика, создавање и употреба на електронски текстуални корпуси
Создавање електронски речници, тезауруси, онтологии. На пример, Lingvo. Речници
се користи, на пример, за автоматско преведување и проверка на правопис.
Автоматски превод на текстови. Популарен меѓу руските преведувачи
е Промт. Меѓу бесплатните е Google Translate.
Автоматско извлекување на факти од текст (извлекување информации)
екстракција, текстуално рударство)
Автоматско сумирање на текст. Оваа функција е овозможена
на пример, во Microsoft Word.
Градење системи за управување со знаење. Видете Експертски системи
Создавање системи за одговарање прашања.
Оптичко препознавање знаци (OCR). На пример, програмата FineReader
Автоматско препознавање на говор (ASR). Има платен и бесплатен софтвер
Автоматска синтеза на говор