Што студира компјутерската лингвистика? Компјутерска лингвистика

Од 2012 година, Институтот за лингвистика на Рускиот државен универзитет за хуманистички науки обучува магистри во рамките на магистерската програма Компјутерска лингвистика(насока Фундаментална и применета лингвистика). Оваа програма е дизајнирана да подготви професионални лингвистикои ги совладаат и основите на лингвистиката и современите методи на истражување, стручно-аналитичката, инженерската работа и се способни ефективно да учествуваат во развојот на иновативни јазични компјутерски технологии.

Во образовниот процес учествуваат развивачи на големи истражувачки и комерцијални системи во областа на автоматска обработка на текст, што обезбедува поврзување на магистерската обука со главниот тек на модерната компјутерска лингвистика. Посебно вниманиесе плаќа за учество на мајстори на руски и меѓународни конференции.

Меѓу наставниците се автори на основни учебници по лингвистички специјалитети, специјалисти од светска класа, проект менаџери на големи системи за автоматска обработка на јазици: Ја.Г. Тестели, И.М. Богуславски, В.И. Беликов, В.И. Подлескаја, В.П. Селегеј, Л.Л. Јомдин, А.С. Старостин, С.А. Шаров, како и вработени во компании кои се светски лидери во областа на компјутерската лингвистика: IBM (Watson system), Yandex, ABBYY (Lingvo, FineReader, Compreno системи).

Основата за обука на мајстори во оваа програма е проектниот пристап. Вклучувањето на магистерските студенти во истражувачката работа во областа на компјутерската лингвистика се одвива врз основа на Рускиот државен универзитет за хуманистички науки и врз основа на компании кои развиваат програми од областа на AOT (ABBYY, IBM, итн.), кои , се разбира, е голем плус и за самите мајстори и за нивните можни работодавци. Особено, целните мајстори се примени на магистерската програма, чија обука ја обезбедуваат идните работодавци.

Влезни тестови: „Формални модели и методи на модерната лингвистика“. Точни информации за времето на испит може да се добијат на веб-страницата на магистерскиот оддел на Рускиот државен универзитет за хуманистички науки.

Раководители на магистратура - глава. Едукативен и научен центар за компјутерска лингвистика, директор за лингвистички истражувања во ABBYY Владимир Павлович Селегеји доктор на филолошки науки, професор Вера Исаковна Подлескаја .

Програма на приемен испит и интервју за дисциплината „Формални модели и методи на модерната лингвистика“.

Коментари за програмата

  • Секое програмско прашање може да биде придружено со задачи поврзани со описи на одредени јазични појави, поврзан со делот од прашањето: изградба на конструкции, опис на ограничувања, можни алгоритми за конструкција и/или идентификација.
  • Прашањата означени со ѕвездички се опционални (тие се појавуваат под број 3 на билетите). Познавањето на релевантниот материјал е главен бонус за кандидатите, но не е задолжително.
  • Покрај теоретските прашања, билетите за испитот ќе понудат и мал фрагмент од посебен (јазичен) текст во Англиски јазик– за превод и дискусија. Од апликантите се бара да покажат задоволително ниво на владеење во англиската научна терминологија и вештини за научна анализа на текст. Како пример за текст кој не треба да предизвика сериозни тешкотии за апликантот, подолу е фрагмент од написот https://en.wikipedia.org/wiki/Anaphora_(лингвистика):

Во лингвистиката, анафора (/əˈnæfərə/) е употреба на израз чие толкување зависи од друг израз во контекст (неговиот претходник или постцедент). Во потесна смисла, анафората е употреба на израз што зависи конкретно од претходник израз и на тој начин се спротивставува на катафората, што е употреба на израз кој зависи од постцедентен израз. Анафоричниот (референтен) термин се нарекува анафора. На пример, во реченицата Сали пристигна, но никој не ја виде, заменката таа е анафора, што се однесува назад на претходникот Сали. Во реченицата Пред нејзиното доаѓање, никој не ја видел Сали, заменката her се однесува на постцедентната Сали, па таа сега е катафора (и анафора во пошироката, но не и потесна смисла). Обично, анафоричен израз е проформ или некој друг вид деиктички (контекстуално-зависен) израз. И анафората и катафората се видови на ендофора, кои се однесуваат на нешто споменато на друго место во дијалог или текст.

Анафората е важен концепт од различни причини и на различни нивоа: прво, анафората покажува како се конструира и одржува дискурсот; второ, анафората врзува различни синтаксички елементи заедно на ниво на реченицата; трето, анафората претставува предизвик за обработката на природниот јазик во пресметковната лингвистика, бидејќи идентификацијата на референцата може да биде тешка; и четврто, анафората кажува некои работи за тоа како јазикот се разбира и обработува, што е релевантно за областите од лингвистиката заинтересирани за когнитивната психологија.

ТЕОРЕТСКИ ПРАШАЊА

ОПШТИ ПРАШАЊА НА ЛИНГВИСТИКАТА

  • Објект на лингвистиката. Јазик и говор. Синхронија и дијахронија.
  • Нивоа на јазикот. Формални модели на јазични нивоа.
  • Синтагматика и парадигматика. Концептот на дистрибуција.
  • Основи на меѓујазични споредби: типолошка, генеалошка и ареална лингвистика.
  • *Математичка лингвистика: објект и методи на истражување

ФОНЕТИКА

  • Предмет фонетика. Артикулаторна и акустична фонетика.
  • Сегментална и надсегментална фонетика. Прозодија и интонација.
  • Основни поими на фонологијата. Типологија на фонолошки системи и нивни фонетски имплементации.
  • *Компјутерски алатки и методи на фонетско истражување
  • *Анализа и синтеза на говор.

МОРФОЛОГИЈА

  • Предмет на морфологија. Морфи, морфеми, аломорфи.
  • Флексија и зборообразување.
  • Граматички значењаи начините за нивно спроведување. Граматички категории и грамами. Морфолошки и синтаксички граматички значења.
  • Концептите за форма на збор, стебло, лема и парадигма.
  • Делови од говорот; основни пристапи за идентификување на делови од говорот.
  • *Формални модели за опишување на флексија и зборообразување.
  • *Морфологија во задачите за автоматска обработка на јазикот: проверка на правопис, лематизација, означување ПОС

СИНТАКСА

  • Предмет на синтаксата. Начини на изразување синтаксички односи.
  • Начини на претставување на синтаксичката структура на реченицата. Предности и недостатоци на дрвјата и компонентите за зависност.
  • Начини за опишување на линеарен редослед. Недостаток на проективност и руптура на компонентите. Концептот на трансформација; трансформации поврзани со линеарен ред.
  • Врската помеѓу синтаксата и семантиката: валентности, контролни модели, актанти и цирконстанти.
  • Дијатеза и колатерал. Изведување на актант.
  • Комуникативна организација на исказот. Тема и рема, дадена и нова, контраст.
  • *Главни синтаксички теории: МСТ, генеративизам, функционална граматика, ХПСГ
  • *Математички модели на синтакса: класификација на формалните јазици според Чомски, алгоритми за препознавање и нивната сложеност.

СЕМАНТИКА

  • Предмет на семантика. Наивни и научни лингвистички слики на светот. Сапир-Ворф хипотеза.
  • Значењето во јазикот и говорот: значење и референт. Вид на референца (денотативен статус).
  • Лексичка семантика. Начини да се опише семантиката на зборот.
  • Граматичка семантика. Главни категории користејќи го примерот на рускиот јазик.
  • Семантика на реченицата. Предлог компонента. Деиксис и анафора. Квантификатори и сврзувачки елементи. Модалитет.
  • Хиерархија и систематичност на лексичките значења. Полисемија и хомонимија. Семантичка структурадвосмислен збор. Концептите на непроменливи и прототип.
  • Парадигматски и синтагматски односи во вокабуларот. Лексички функции.
  • Толкување. Јазик на толкување. Московско семантичко училиште
  • Семантика и логика. Вистинската вредност на изјавата.
  • Теорија на говорни акти. Исказот и неговата илокуциска сила. Перформативци. Класификација на говорните акти.
  • Фразеологија: инвентар и методи за опишување фразеолошки единици.
  • *Модели и методи на формална семантика.
  • *Модели на семантика во современата пресметковна лингвистика.
  • *Дистрибутивна и оперативна семантика.
  • *Основни идеи за градежна граматика.

ТИПОЛОГИЈА

  • Традиционални типолошки класификации на јазиците.
  • Типологија на граматички категории на именка и глагол.
  • Типологија едноставна реченица. Главните видови конструкции: акузатив, ергатив, активен.
  • Типологија на редослед на зборови и Гринберг корелации. Јазици со лево и десно разгранување.

ЛЕКСИКОГРАФИЈА

  • Вокабуларот како попис на културата; социјална варијација на вокабуларот, лексичка употреба, норма, кодификација.
  • Типологија на речници (на руски материјал). Рефлексија на вокабулар во речници од различни видови.
  • Двојазична лексикографија со користење на руски јазик.
  • Описна и рецептивна лексикографија. Стручни лингвистички речници.
  • Специфики на главните руски објаснувачки речници. Структура на запис во речник. Толкување и енциклопедиски информации.
  • Вокабулар и граматика. Идејата за интегрален модел на јазикот во Московската семантичка школа.
  • *Методологија на лексикограф.
  • *Корпус методи во лексикографијата.

ЛИНГВИСТИКА НА ТЕКСТ И ДИСКУРС

  • Концептот на текст и дискурс.
  • Механизми на интерфразна комуникација. Главните видови средства за нивна лингвистичка имплементација.
  • Реченицата како јазична единица и како елемент на текстот.
  • Суперфразни единства, принципи на нивно формирање и изолација, основни својства.
  • Главни категории на класификација на текст (жанр, стил, регистар, предметна област итн.)
  • *Методи за автоматска жанровска класификација.

СОЦИОЛИНГВИСТИКА

  • Проблемот на предметот и границите на социолингвистиката, нејзината интердисциплинарна природа. Основни концепти на социологија и демографија. Нивоа јазична структураи социолингвистика. Основни поими и насоки на социолингвистиката.
  • Јазични контакти. Двојазичност и диглосија. Дивергентни и конвергентни процеси во историјата на јазикот.
  • Социјална диференцијација на јазикот. Форми на постоење на јазикот. Литературен јазик: употреба-норма-кодификација. Функционални области на јазикот.
  • Јазична социјализација. Хиерархиската природа на општествениот и јазичниот идентитет. Јазичното однесување на поединецот и неговиот комуникативен репертоар.
  • Социјални методи лингвистичко истражување.

КОМПЈУТЕРСКА ЛИНГВИСТИКА

  • Задачи и методи на пресметковна лингвистика.
  • Корпус лингвистика. Главни карактеристики на случајот.
  • Претставување на знаењето. Основни идеи на теоријата на рамки од М. Мински. FrameNet систем.
  • Тезауруси и онтологии. WordNet.
  • Основи на статистичка анализа на текст. Фреквентни речници. Анализа на колокација.
  • *Концептот на машинско учење.

ЛИТЕРАТУРА

Образовно (основно ниво)

Баранов А.Н.Вовед во применета лингвистика. М.: Редакциски URRS, 2001 година.

Баранов А.Н., Доброволски Д.О.Основи на фразеологијата (краток курс) Студиски водич. 2. издание. Москва: Флинта, 2014 година.

Беликов В.А., Крисин Л.П.Социолингвистика. М., Руски државен универзитет за хуманистички науки, 2001 година.

Бурлак С.А., Старостин С.А.Компаративна историска лингвистика. М.: Академија. 2005 година

Вахтин Н.Б., Головко Е.В.Социолингвистика и социологија на јазикот. Санкт Петербург, 2004 година.

Књазев С.В., Пожарицкаја С.К.Современ руски литературен јазик: Фонетика, графика, правопис, правопис. 2. ед. М., 2010 година

Кобожева И.М. Лингвистичка семантика. М.: Редакциски URSS. 2004 година.

Коџасов С.В., Кривнова О.Ф.Општа фонетика. М.: РСУХ, 2001 година.

Кронгауз М.А.Семантика. М.: РСУХ. 2001 година.

Кронгауз М.А.Семантика: Задачи, задачи, текстови. М.: Академија. 2006 година..

Маслов Ју.С.Вовед во лингвистиката. Ед. 6-ти, избришано. М.: Академија, фил. лажен. Државниот универзитет во Санкт Петербург,

Плунгјан В.А.Општа морфологија: Вовед во предметот. Ед. 2. М.: Редакциски URSS, 2003 година.

Тестели Ya.G.Вовед во општата синтакса. М., 2001 година.

Шајкевич А.Ја.Вовед во лингвистиката. М.: Академија. 2005 година.

Научна и референтна

Апресјан Ју.Д.Избрани дела, том I. Лексичка семантика: 2. изд., шпански. и дополнителни М.: Училиште „Јазици на руската култура“, 1995 година.

Апресјан Ју.Д.Избрани дела, том II. Интегрален опис на јазикот и системската лексикографија. М.: Училиште „Јазици на руската култура“, 1995 година.

Апресјан Ју.Д.(уред.) Нов објаснувачки речник на синоними на рускиот јазик. Москва - Виена: „Јазици на руската култура“, Wiener Slavistischer Almanach, Sonderband 60, 2004 година.

Апресјан Ју.Д.(ед.) Јазична сликасветска и системска лексикографија (уред. Ју. Д. Апресјан). М.: „Јазици на словенските култури“, 2006 година, Предговор и поглавје. 1, стр.26 -- 74.

Булигина Т.В., Шмелев А.Д.Лингвистичка концептуализација на светот (заснована на руска граматика). М.: Училиште „Јазици на руската култура“, 1997 година.

Вајнрајх В.Јазични контакти. Киев, 1983 година.

Вежбицкаја А.Семантички универзалии и опис на јазиците. М.: Училиште „Јазици на руската култура“. 1999 година.

Галперин И.Р.Текстот како предмет на лингвистичко истражување. 6-ти ед. М.: ЛКИ, 2008 („Јазично наследство на 20 век“)

Зализнијак А.А.„Руска номинална флексија“ со додаток на избрани дела за современиот руски јазик и општа лингвистика. М.: Јазици на словенската култура, 2002 година.

Зализнијак А.А., Падучева Е.В.Кон типологијата релативна понуда. / Семиотика и компјутерски науки, кн. 35. М., 1997, стр. 59-107.

Иванов Вјач. Сонце..Лингвистика од третиот милениум. Прашања за иднината. M., 2004. P. 89-100 (11. Јазична ситуација во светот и прогноза за блиска иднина).

Кибрик А.Е.Есеи за општи и применети прашања од лингвистиката. М.: Издавачка куќа на Московскиот државен универзитет, 1992 година.

Кибрик А.Е.Јазични константи и променливи. Санкт Петербург: Алетеја, 2003 година.

Лабов У.За механизмот јазични промени// Ново во лингвистиката. Број 7. М., 1975. P.320-335.

Лајонс Џ.Лингвистичка семантика: Вовед. М.: Јазици на словенската култура. 2003 година.

Лајонс Џон.Јазик и лингвистика. Воведен курс. М: УРСС, 2004 година

Лакоф Ј.Жени, оган и опасни работи: Што ни кажуваат категориите на јазикот за размислувањето. М.: Јазици на словенската култура. 2004 година.

Лакоф Ј, Џонсон М. Метафори според кои живееме. Пер. од англиски Издание 2. М.: УРСС. 2008 година.

Лингвистички енциклопедиски речник/ Ед. ВО И. Јарцева. М.: Научна издавачка куќа „Голема руска енциклопедија“, 2002 година.

Мелчук И.А.Па општа морфологија. Тт. I-IV. Москва-Виена: „Јазици на словенската култура“, Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001 година.

Мелчук И.А.Искуство во теоријата на лингвистички модели „ЗНАЧЕЊЕ ↔ ТЕКСТ“. М.: Училиште „Јазици на руската култура“, 1999 година.

Федорова Л.Л.Семиотика. М., 2004 година.

Филипов К.А.Лингвистика на текст: Тек на предавања - 2. изд., шпански. и дополнителни Ед. Санкт Петербург Универзитет, 2007 година.

Хаспелмат, М., и сор. (eds.). Светски атлас на јазични структури. Оксфорд, 2005 година.

Фен, М.С. и Хаспелмат, М.(уред.) Светскиот атлас на јазични структури онлајн. Лајпциг: Институт за еволутивна антропологија Макс Планк, 2013. (http://wals.info)

Крофт В.Типологија и универзали. Кембриџ: Cambridge University Press, 2003 година. Шопен, Т. (уред.). Јазична типологија и синтаксички опис. 2. издание. Кембриџ, 2007 година.

V. I. Беликов. За речниците „што ги содржат нормите на современиот руски литературен јазиккога се користи како државен јазикРуска Федерација". 2010 // Портал Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

Компјутерска лингвистика и интелектуални технологии: Врз основа на материјалите од годишната меѓународна конференција „Дијалог“. Vol. 1-11. - М.: Издавачка куќа Наука, од Рускиот државен универзитет за хуманистички науки, 2002-2012 година. (Статии за пресметковна лингвистика, http://www.dialog-21.ru).

Национален корпус на рускиот јазик: 2006-2008 година. Нови резултати и перспективи. / Прет. ед. В.А. Плунгјан. - Санкт Петербург: Нестор-Историја, 2009 г.

Ново во странската лингвистика. Vol. XXIV, Компјутерска лингвистика / Комп. Б. Ју. Городецки. М.: Напредок, 1989 година.

Шимчук Е.Г. Руска лексикографија: Учебник. М.: Академија, 2009 година.

Национален корпус на рускиот јазик: 2003-2005 година. Дигест на статии. М.: Индрик, 2005 година.

За контакти:

Едукативен и научен центар за компјутерска лингвистика на Институтот за лингвистика на Рускиот државен универзитет за хуманистички науки

Филолошкиот факултет на Вишата економска школа започнува нова магистерска програма посветена на компјутерската лингвистика: апликантите со хуманитарна и математичка позадина се добредојдени овде основно образованиеи секој кој е заинтересиран за решавање на проблеми во една од најперспективните гранки на науката. Нејзината директорка, Анастасија Бонч-Осмоловска, им кажа на Theories and Practitioners што е пресметковна лингвистика, зошто роботите нема да ги заменат луѓето и што ќе се учи во магистерската програма за HSE по компјутерска лингвистика.

Оваа програма е речиси единствена од ваков вид во Русија. Каде учеше?

Студирав на Московскиот државен универзитет на Катедрата за теоретска и применета лингвистика на Филолошкиот факултет. Не стигнав таму веднаш, прво влегов во рускиот оддел, но потоа сериозно се заинтересирав за лингвистиката и ме привлече атмосферата што останува на одделот до ден-денес. Најважното нешто што постои добар контактпомеѓу наставниците и учениците и нивниот заеднички интерес.

Кога имав деца и требаше да заработам за живот, отидов во областа на комерцијалната лингвистика. Во 2005 година, не беше многу јасно каква е оваа област на активност како таква. Работев во различни лингвистички компании: започнав со мала компанија на страницата Public.ru - ова е еден вид медиумска библиотека, каде што почнав да работам на лингвистички технологии. Потоа работев една година во Роснанотех, каде што имаше идеја да се создаде аналитички портал за автоматски да се структурираат податоците за него. Потоа го предводев лингвистичкиот оддел во компанијата Avicomp - ова е веќе сериозно производство во областа на компјутерската лингвистика и семантичките технологии. Во исто време, предавав курс за компјутерска лингвистика на Московскиот државен универзитет и се обидов да го направам помодерен.

Два ресурси за лингвист: - страница создадена од лингвисти за научни и применети истражувања поврзани со рускиот јазик. Ова е модел на руски јазик, претставен со употреба на огромна низа текстови од различни жанрови и периоди. Текстовите се опремени со лингвистичка ознака, со чија помош можете да добиете информации за зачестеноста на одредени лингвистички појави. Wordnet е огромна лексичка база на податоци за англискиот јазик; главната идеја на Wordnet е да не ги поврзе зборовите, туку нивните значења во една голема мрежа. Wordnet може да се преземе и да се користи за ваши сопствени проекти.

Што прави компјутерската лингвистика?

Ова е најинтердисциплинарното поле. Овде најважно е да разберете што се случува во електронскиот свет и кој ќе ви помогне да направите конкретни работи.

Опкружени сме со многу голема количина на дигитални информации, има многу деловни проекти, чиј успех зависи од обработката на информациите, овие проекти можат да се однесуваат на полето на маркетинг, политика, економија и се друго. И многу е важно да можете ефикасно да се справите со овие информации - главната работа не е само брзината на обработка на информациите, туку и леснотијата со која можете, откако ќе ја филтрирате бучавата, да ги добиете податоците што ви се потребни и да создадете комплетна слика од него.

Претходно, некои глобални идеи беа поврзани со компјутерската лингвистика, на пример: луѓето мислеа дека машинскиот превод ќе го замени човечкиот превод, дека роботите ќе работат наместо луѓето. Но, сега се чини како утопија, а машинскиот превод се користи во пребарувачите брзо пребарувањена непознат јазик. Односно, сега лингвистиката ретко се занимава со апстрактни проблеми - најмногу со некои ситници што можат да се вметнат во голем производ и да заработат пари од него.

Една од големите задачи на модерната лингвистика е семантичката мрежа, кога пребарувањето се случува не само со усогласување на зборовите, туку и според значењето, а сите страници на еден или друг начин се обележани со семантика. Ова може да биде корисно, на пример, за полициски или медицински извештаи кои се пишуваат секој ден. Анализата на внатрешните врски дава многу потребни информации, а читањето и рачното броење е неверојатно одзема време.

Накратко, имаме илјада текстови, треба да ги подредиме во групи, да го претставиме секој текст во форма на структура и да добиеме табела со која веќе можеме да работиме. Ова се нарекува неструктурирана обработка на информации. Од друга страна, компјутерската лингвистика се занимава, на пример, со создавање на вештачки текстови. Има компанија која смисли механизам за генерирање текстови на теми за кои човек е здодевен да пишува: промени во цените на недвижностите, временска прогноза, извештаи за фудбалски натпревари. Многу е поскапо да се нарачаат овие текстови за човек, а компјутерските текстови на такви теми се напишани на кохерентен човечки јазик.

Yandex е активно вклучен во развојот на полето на пребарување на неструктурирани информации во Русија; Kaspersky Lab вработува истражувачки групикои учат машинско учење. Дали некој на пазарот се обидува да смисли нешто ново во областа на пресметковната лингвистика?

**Книги за компјутерска лингвистика:**

Даниел Јурафски, Обработка на говор и јазик

Кристофер Менинг, Прабакар Рагаван, Хајнрих Шуце, „Вовед во пронаоѓање информации“

Yakov Testelets, „Вовед во општата синтакса“

Повеќето лингвистички случувања се сопственост на големи компании; речиси ништо не може да се најде во јавниот домен. Ова го забавува развојот на индустријата, немаме слободен лингвистички пазар или пакувани решенија.

Дополнително, недостигаат сеопфатни информативни ресурси. Постои таков проект како Национален корпус на рускиот јазик. Ова е една од најдобрите национални градби во светот, која брзо се развива и отвора неверојатни можности за научни и применети истражувања. Разликата е приближно иста како и во биологијата - пред истражувањето на ДНК и потоа.

Но, многу ресурси не постојат на руски. Така, не постои аналог на таков прекрасен ресурс на англиски јазик како Framenet - ова е концептуална мрежа каде што формално се претставени сите можни врски на одреден збор со други зборови. На пример, постои зборот „лета“ - кој може да лета, каде, со кој предлог се користи овој збор, со кои зборови е комбиниран итн. Овој ресурс помага да се поврзе јазикот со реалниот живот, односно да се следи како се однесуваат луѓето конкретен зборна ниво на морфологија и синтакса. Тоа е многу корисно.

Компанијата Avicomp моментално развива додаток за пребарување на статии со слична содржина. Тоа е, ако сте заинтересирани за статија, можете брзо да ја погледнете историјата на заплетот: кога се појавила темата, што е напишано и кога бил врвот на интересот за овој проблем. На пример, со помош на овој додаток ќе биде можно, почнувајќи од статија посветена на настаните во Сирија, многу брзо да се види како се развиваа настаните таму во изминатата година.

Како ќе биде структуриран процесот на учење во магистерската програма?

Образованието на HSE е организирано во посебни модули, исто како и во западните универзитети. Студентите ќе бидат поделени во мали тимови, мини-стартапи - односно, треба да добиеме неколку готови проекти. Сакаме да добиеме вистински производи, кои потоа ќе ги отвориме за луѓето и ќе ги оставиме во јавниот домен.

Покрај директните менаџери на проектите на студентите, сакаме да им најдеме куратори меѓу нивните потенцијалните работодавци- од истиот Yandex, на пример, кој исто така ќе ја игра оваа игра и ќе им даде совет на студентите.

Се надевам дека на магистерската програма ќе дојдат луѓе од различни области: програмери, лингвисти, социолози, маркетери. Ќе имаме неколку курсеви за адаптација по лингвистика, математика и програмирање. Потоа ќе имаме два сериозни курса по лингвистика, а тие ќе бидат поврзани со најрелевантните лингвистички теории, сакаме нашите дипломци да можат да читаат и разбираат современи лингвистички статии. Исто е и со математиката. Ќе имаме курс наречен „Математички основи на компјутерската лингвистика“, кој ќе ги претстави оние гранки на математиката на кои се заснова модерната компјутерска лингвистика.

За да се запишете на магистерска програма треба да положите приемен испитпо јазик и да помине натпревар за портфолио.

Покрај главните предмети, ќе има и линија на изборни предмети.Планиравме неколку циклуси - два од нив се фокусирани на подлабоко проучување на поединечни теми, кои вклучуваат, на пример, машински превод и корпус лингвистика, а едната, напротив, е поврзана со сродни области: како што се , социјални мрежи, машинско учење или дигитални хуманистички науки - курс што се надеваме дека ќе се изучува на англиски јазик.

КУРСНА РАБОТА

во дисциплината „Информатика“

на тема: „Компјутерска лингвистика“


ВОВЕД

2. Современи интерфејси за пресметковна лингвистика

ЗАКЛУЧОК

ЛИТЕРАТУРА


Вовед

Во животот модерното општествоАвтоматизираните информатички технологии играат важна улога. Со текот на времето, нивната важност постојано се зголемува. Но, развојот на информатичката технологија е многу нерамномерен: ако модерно ниво компјутерска технологијаА средствата за комуникација се неверојатни, но на полето на семантичката обработка на информациите успесите се многу поскромни. Овие успеси зависат, пред сè, од достигнувањата во проучувањето на процесите на човековото размислување, процесите на вербална комуникација меѓу луѓето и способноста да се симулираат овие процеси на компјутер.

Кога станува збор за создавање ветувачки информациски технологии, проблемите со автоматска обработка на текстуалните информации презентирани на природни јазици доаѓаат до израз. Ова се одредува со фактот дека размислувањето на една личност е тесно поврзано со неговиот јазик. Покрај тоа, природниот јазик е алатка за размислување. Тоа е и универзално средство за комуникација меѓу луѓето - средство за перцепција, акумулација, складирање, обработка и пренос на информации. Проблеми со употреба природен јазикНауката за компјутерска лингвистика се занимава со системи за автоматска обработка на информации. Оваа наука се појави релативно неодамна - на крајот на педесеттите и шеесеттите години на минатиот век. Во текот на изминатиот половина век, добиени се значајни научни и практични резултати на полето на компјутерската лингвистика: системи за машинско преведување текстови од еден на друг природен јазик, системи за автоматско пребарување на информации во текстови, системи за автоматска анализа и синтеза на усно говор, и многу други се создадени. оваа работае посветен на изградбата на оптимален компјутерски интерфејс со користење на компјутерска лингвистика при спроведување на лингвистичко истражување.


1. Местото и улогата на пресметковната лингвистика во лингвистичкото истражување

Во современиот свет, компјутерската лингвистика се повеќе се користи за спроведување на различни лингвистички студии.

Компјутерска лингвистика е поле на знаење поврзано со решавање на проблеми на автоматска обработка на информации презентирани на природен јазик. Централно научни проблемиКомпјутерската лингвистика е проблем на моделирање на процесот на разбирање на значењето на текстовите (премин од текст во формализирано претставување на неговото значење) и проблем на синтезата на говорот (премин од формализирано претставување на значењето во текстови на природен јазик). Овие проблеми се јавуваат при решавање на голем број на применети проблемии, особено, задачите за автоматско откривање и корекција на грешки при внесување текстови во компјутер, автоматска анализа и синтеза на усниот говор, автоматско преведување на текстови од еден јазик на друг, комуникација со компјутер на природен јазик, автоматска класификација и индексирање текстуални документи, нивно автоматско апстрактирање, барање документи во бази на податоци со целосен текст.

Лингвистичките алатки создадени и користени во пресметковната лингвистика можат да се поделат на два дела: декларативен и процедурален. Декларативниот дел опфаќа речници на јазични и говорни единици, текстови и разни видови граматички табели, процедуралниот дел опфаќа средства за манипулирање со единици на јазикот и говорот, текстови и граматички табели. Компјутерскиот интерфејс се однесува на процедуралниот дел од пресметковната лингвистика.

Успехот во решавањето на применетите проблеми на компјутерската лингвистика зависи, пред сè, од комплетноста и точноста на застапеноста на декларативните средства во компјутерската меморија и од квалитетот на процедуралните средства. До денес, сè уште не е постигнато потребното ниво на решавање на овие проблеми, иако се работи на полето на компјутерската лингвистика во сите развиени земји во светот (Русија, САД, Англија, Франција, Германија, Јапонија итн.). ).

Сепак, може да се забележат сериозни научни и практични достигнувања во областа на пресметковната лингвистика. Така, во голем број земји (Русија, САД, Јапонија и др.) се изградени експериментални и индустриски системи за машинско преведување текстови од еден на друг јазик, голем број на експериментални системикомуникација со компјутери на природен јазик, се работи на создавање на терминолошки банки на податоци, тезауруси, двојазични и повеќејазични машински речници (Русија, САД, Германија, Франција итн.), Се градат системи за автоматска анализа и синтеза на усниот говор (Русија , САД, Јапонија и други) итн.), во тек е истражување на полето на конструирање на природни јазични модели.

Важен методолошки проблем на применетата пресметковна лингвистика е правилната проценка на потребната врска помеѓу декларативните и процедуралните компоненти на системите за автоматска обработка на информации за текст. Што треба да се претпочита: моќни пресметковни процедури засновани на релативно мали системи на вокабулар со богати граматички и семантички информации или моќна декларативна компонента со релативно едноставни компјутерски интерфејси? Повеќето научници веруваат дека се претпочита вториот начин. Тоа ќе доведе до побрзо постигнување на практични цели, бидејќи ќе има помалку ќорсокак и тешки пречки за надминување, а тука ќе биде можно да се користат компјутери во поголем обем за автоматизирање на истражувањето и развојот.

Потребата да се мобилизираат напорите, пред сè, за развој на декларативната компонента на системите за автоматска обработка на информации за текст е потврдена со половина век искуство во развојот на компјутерската лингвистика. На крајот на краиштата, овде, и покрај непобитните успеси на оваа наука, страста за алгоритамските процедури не го донесе очекуваниот успех. Имаше дури и одредено разочарување во можностите на процедуралните средства.

Со оглед на горенаведеното, се чини ветувачко развивање на таков пат на развој на компјутерската лингвистика, кога главните напори ќе бидат насочени кон создавање моќни речници на јазични и говорни единици, проучување на нивната семантичко-синтаксичка структура и создавање основни процедури за морфолошки, семантичко-синтаксичка и концептуална анализа и синтеза на текстови. Ова ќе ни овозможи да одлучуваме во иднина широк опсегприменети проблеми.

Компјутерската лингвистика се соочува, пред сè, со задачите на лингвистичка поддршка за процесите на собирање, акумулирање, обработка и пронаоѓање информации. Најважни од нив се:

1. Автоматизација на составувањето и лингвистичката обработка на машинските речници;

2. Автоматизација на процесите на откривање и поправање на грешки при внесување текстови во компјутер;

3. Автоматско индексирање на документи и барања за информации;

4. Автоматска класификација и апстрахирање на документи;

5. Јазична поддршка за процесите на пронаоѓање информации во еднојазични и повеќејазични бази на податоци;

6. Машинско преведување на текстови од еден на друг природен јазик;

7. Изградба на лингвистички процесори кои обезбедуваат корисничка комуникација со автоматизирани интелигентни информациски системи (особено, експертски системи) на природен јазик или на јазик близок до природниот;

8. Извлекување фактички информации од неформални текстови.

Дозволете ни да се задржиме во детали на проблемите кои се најрелевантни за темата на истражување.

Во практичните активности на информативните центри се јавува потреба од решавање на проблемот со автоматско откривање и корекција на грешките во текстовите кога тие се внесуваат во компјутер. Ова сложена задачаможе условно да се подели на три задачи - задачи на правописна, синтаксичка и семантичка контрола на текстовите. Првиот од нив може да се реши со помош на процедура за морфолошка анализа која користи прилично моќен референтна машина речник на стебла на зборови. Во процесот на правописна контрола, зборовите од текстот се предмет на морфолошка анализа, а доколку нивните основи се поистоветуваат со основите на референтниот речник, тогаш се сметаат за точни; ако тие не се идентификувани, тогаш тие, придружени со микроконтекст, се претставени на лице за прегледување. Едно лице детектира и коригира искривени зборови, а соодветниот софтверски систем ги прави овие корекции во поправениот текст.

Задачата за синтаксичка контрола на текстовите со цел откривање на грешки во нив е многу потешка од задачата за правописна контрола. Прво, затоа што ја вклучува задачата за контрола на правописот како нејзина задолжителна компонента, и, второ, затоа што проблемот парсирањенеформализираните текстови сè уште не се целосно решени. Сепак, делумна синтаксичка контрола на текстовите е сосема можна. Овде можете да одите на два начина: или да составите прилично репрезентативни машински речници на референтни синтаксички структури и да ги споредите синтаксичките структури на анализираниот текст со нив; или развиваат комплексен системправила за проверка на граматичката конзистентност на текстуалните елементи. Првиот пат ни се чини повеќе ветувачки, иако тој, се разбира, не ја исклучува можноста за користење на елементи од вториот пат. Синтаксичката структура на текстовите треба да се опише во смисла на граматички класи на зборови (поточно, во форма на секвенци од множества граматички информациина зборови).

Задачата за семантичка контрола на текстовите со цел да се откријат семантички грешки во нив треба да се класифицира како класа на задачи со вештачка интелигенција. Може целосно да се реши само врз основа на моделирање на процесите на човековото размислување. Во овој случај, очигледно ќе биде неопходно да се создадат моќни енциклопедиски бази на знаење и софтверски алатки за манипулација со знаењето. Сепак, за ограничени предметни области и за формализирани информации, оваа задача е целосно решлива. Треба да се постави и реши како проблем на семантичко-синтаксичка контрола на текстовите.

Проблемот со автоматизирање на индексирањето на документи и прашања е традиционален за автоматизираните системи за пронаоѓање информации за текст. Најпрво, индексирањето беше сфатено како процес на доделување класификациски индекси на документи и прашања кои ја одразуваат нивната тематска содржина. Последователно, овој концепт беше трансформиран и терминот „индексирање“ почна да се однесува на процесот на преведување на описи на документи и прашања од природен јазик во формализиран јазик, особено на јазикот на „пребарување слики“. Пребарувањето слики на документи почна, по правило, да се составува во форма на списоци на клучни зборови и фрази што ја рефлектираат нивната тематска содржина, и пребарување слики на прашања - во форма на логички структури во кои клучните зборови и фрази беа поврзани едни со други. од логички и синтаксички оператори.

Удобно е автоматски да се индексираат документите врз основа на текстовите на нивните апстракти (доколку ги има), бидејќи апстрактите ја рефлектираат главната содржина на документите во концентрирана форма. Индексирањето може да се изврши со или без контрола на речник. Во првиот случај, во текстот на насловот на документот и неговиот апстракт, се пребаруваат клучни зборови и фрази од речник на референтната машина и само оние што се наоѓаат во речникот се вклучени во АМЛ. Во вториот случај, клучните зборови и фрази се изолирани од текстот и се вклучени во ПОД, без оглед на нивната припадност на кој било референтен речник. Беше имплементирана и трета опција, каде што, заедно со термините од машинскиот речник, AML вклучуваше и термини извлечени од насловот и првата реченица на апстрактот на документот. Експериментите покажаа дека POD-овите компајлирани автоматски со помош на наслови и апстракти од документи обезбедуваат поголема комплетност на пребарувањето отколку POD-овите компајлирани рачно. Ова се објаснува со фактот дека системот за автоматско индексирање поцелосно се одразува различни аспектисодржина на документот отколку рачен систем за индексирање.

Автоматското индексирање на барањата ги поставува приближно истите проблеми како и автоматското индексирање на документи. Тука, исто така, треба да извлечете клучни зборови и фрази од текстот и да ги нормализирате зборовите вклучени во текстот за барање. Логички врскипомеѓу клучни зборови и фрази и контекстуалните оператори може да се вметнат рачно или со помош на автоматизирана процедура. Важен елемент на процесот на автоматско индексирање на барањето е додавањето на неговите составни клучни зборови и фрази со нивните синоними и хипоними (понекогаш и хипероними и други термини поврзани со оригиналните термини за барање). Ова може да се направи автоматски или интерактивно со користење на машински речник.

Веќе делумно го разгледавме проблемот со автоматизирање на пребарувањето документарни информации во врска со задачата за автоматско индексирање. Најмногу ветува овде е да се бараат документи користејќи ги нивните целосни текстови, бидејќи употребата на сите видови замени за оваа намена (библиографски описи, пребарување слики на документи и текстови на нивните апстракти) доведува до губење на информации за време на пребарувањето. Најголеми загуби се случуваат кога библиографските описи се користат како замена за примарните документи, а најмалите загуби се случуваат кога се користат апстракти.

Важни карактеристики на квалитетот на пронаоѓањето информации се неговата комплетност и точност. Комплетноста на пребарувањето може да се обезбеди со максимално земање предвид на парадигматските врски помеѓу единиците на јазикот и говорот (зборови и фрази) и точноста - земајќи ги предвид нивните синтагматски врски. Постои мислење дека комплетноста и точноста на пребарувањето се обратно поврзани: мерките за подобрување на една од овие карактеристики доведуваат до влошување на другата. Но, ова е точно само за фиксна логика на пребарување. Ако оваа логика се подобри, тогаш двете карактеристики можат да се подобрат истовремено.

Препорачливо е процесот на пребарување на информации во бази на податоци со целосен текст да се изгради како процес на интерактивна комуникација помеѓу корисникот и системот за пронаоѓање информации (IRS), во кој тој последователно гледа фрагменти од текст (параграфи) кои ги задоволуваат логичките услови на барањето и ги избира оние што се релевантни за него.се од интерес. Конечните резултати од пребарувањето може да се појават како целосни текстовидокументи и сите нивни фрагменти.

Како што може да се види од претходните дискусии, при автоматско пребарување на информации, неопходно е да се надмине јазичната бариера што се јавува помеѓу корисникот и информацискиот систем поради разновидноста на формите на претставување на истото значење што се јавува во текстовите. Оваа бариера станува уште позначајна ако пребарувањето треба да се изврши во повеќејазични бази на податоци. Радикално решение за проблемот овде може да биде машинско преведување на текстови на документи од еден јазик на друг. Ова може да се направи или однапред, пред да се вчитаат документи во пребарувач, или за време на процесот на пребарување на информации. Во вториот случај, барањето на корисникот мора да се преведе на јазикот на низата документи на кои се врши пребарувањето, а резултатите од пребарувањето мора да се преведат на јазикот на барањето. Овој вид на пребарувачи веќе работат на Интернет. VINITI RAS, исто така, изгради систем на прелистувач на кирилица, кој ви овозможува да пребарувате информации во текстови на руски јазик користејќи прашања на англиски јазик со резултатите од пребарувањето и на јазикот на корисникот.

Важна и ветувачка задача на компјутерската лингвистика е изградбата на лингвистички процесори кои обезбедуваат корисничка комуникација со интелигентни автоматизирани информациски системи (особено, експертски системи) на природен јазик или на јазик близок до природниот. Бидејќи во современите интелигентни системи информациите се чуваат во формализирана форма, лингвистичките процесори, кои дејствуваат како посредници помеѓу личноста и компјутерот, мора да ги решат следните главни задачи: 1) задачата за преминување од текстовите на барањата за влезни информации и пораки во природна јазик за претставување на нивното значење на формализиран јазик (при внесување на информации во компјутер); 2) задача за премин од формализирано претставување на значењето на излезните пораки до неговото претставување на природен јазик (при издавање информации на лице). Првата задача мора да се реши со морфолошка, синтаксичка и концептуална анализа на влезните прашања и пораки, втората - со концептуална, синтаксичка и морфолошка синтеза на излезните пораки.

Концептуалната анализа на барањата и пораките за информации се состои од идентификување на нивната концептуална структура (границите на имињата на концептите и односите меѓу концептите во текстот) и преведување на оваа структура во формализиран јазик. Се спроведува по морфолошка и синтаксичка анализа на барања и пораки. Концептуалната синтеза на пораките се состои од премин од претставување на елементите на нивната структура во формализиран јазик во вербално (вербално) претставување. По ова, на пораките им се дава потребниот синтаксички и морфолошки формат.

За машинско преведување на текстови од еден природен јазик на друг, неопходно е да има речници за преписна кореспонденција помеѓу имињата на поимите. Знаењето за таквите преписни преписки беше акумулирано од многу генерации луѓе и формализирано во форма специјални изданија– двојазични или повеќејазични речници. За специјалисти кои имаат одредено знаење за странски јазици, овие речници служеле како вредни помагала при преведувањето на текстови.

Во традиционалните двојазични и повеќејазични речници за општа намена, преводните еквиваленти беа назначени првенствено за поединечни зборови, а за фрази - многу поретко. Означувањето на еквивалентите на преводот за фрази беше потипично за посебни терминолошки речници. Затоа, при преведувањето на делови од текстови кои содржат полисемантички зборови, учениците честопати наидоа на тешкотии.

Подолу се дадени кореспонденции на преводот помеѓу неколку парови англиски и руски фрази за „училишни“ теми.

1) Лилјакот изгледа како глушец со крилја - Лилјакизгледа како глушец со крилја.

2) Децата сакаат да играат во песок на плажа - Децата сакаат да играат во песок на морскиот брег.

3) A drop of rain fall on my hand - A drop of rain fall on my hand.

4) Сувото дрво лесно гори - сувото дрво добро гори.

5) Се правеше дека не ме слуша - Се правеше дека не ме слуша.

Еве Англиски фразине се идиоматски изрази. Како и да е, нивниот превод на руски може само малку да се смета како едноставен превод од збор до збор, бидејќи скоро сите зборови вклучени во нив се двосмислени. Затоа, само достигнувањата на компјутерската лингвистика можат да им помогнат на учениците овде.

План:

1. Што е пресметковна лингвистика?

2. Објект и предмет на пресметковна лингвистика

4. Проблеми на пресметковната лингвистика

5. Истражувачки методи за пресметковна лингвистика

6. Историја и причини за појавата на пресметковната лингвистика

7. Основни поими на пресметковната лингвистика

8. Научници кои работат на проблемот на пресметковната лингвистика

9. Асоцијации и конференции за компјутерска лингвистика

10. Користена литература.


Компјутерска лингвистика –независна насока да применета лингвистика, фокусиран на користење на компјутери за решавање на проблеми кои вклучуваат употреба на природен јазик. (Шчилихина К.М.)


Компјутерска лингвистика– како една од областите на применетата лингвистика, таа ги проучува лингвистичките основи на компјутерската наука и сите аспекти на врската помеѓу јазикот и размислувањето, моделирањето на јазикот и размислувањето во компјутерска средина со помош на компјутерски програми, а нејзините интереси лежат во областите: 1) оптимизација на комуникацијата заснована на лингвистичко знаење 2) создавање природен јазичен интерфејс и типологии на јазично разбирање за комуникација човек-машина 3) создавање и моделирање на информациски компјутерски системи (Sosnina E.P.)


Објект на компјутерска лингвистика– анализа на јазикот во неговата природна состојба како што го користат луѓето во различни комуникациски ситуации и како може да се формулираат карактеристиките на јазикот.


Задачи на пресметковната лингвистика:


Методи за истражување на компјутерската лингвистика:

1. метод на моделирање -посебен предмет на проучување кој не е достапен преку директно набљудување. Според дефиницијата на математичарот К.

2. метод на теорија на претставување на знаењетоподразбира методи на претставување на знаењата кои се ориентирани кон автоматска обработка од современите компјутери.

3. метод на теорија на програмски јазик(теорија на програмски јазици) е област на компјутерската наука која се занимава со дизајн, анализа, карактеризација, класификација и проучување на програмските јазици индивидуални карактеристики.


Причини за појавата на пресметковната лингвистика

1. Појавата на компјутерите

2. Проблемот на комуникација со компјутери на необучени корисници


1. Систем за пребарување на речник развиен на колеџот Биркбек во Лондон во 1948 година.

2. Меморандум на Ворен Вивер

3. Почеток на воведувањето на првите компјутери во областа на машинскиот превод

4. Проектот Џорџтаун во 1954 година


1. ALPAC (Automatic Language Processing Advisory Committee) 2. нова фаза во развојот на компјутерските технологии и нивна активна употреба во јазичните задачи 3. создавање на нова генерација на компјутери и програмски јазици 4. зголемен интерес за машински превод 60

-70-ти на дваесеттиот век


Доцните 80-ти - почетокот на 90-тите години на дваесеттиот век

    Појавата и активниот развој на Интернет

  • Брзиот раст на обемот на текстуални информации во електронска форма

  • Потребата од автоматска обработка на текстови на природен јазик


1. Производи на PROMT и ABBY (Lingvo) 2. Технологии за машинско преведување 3. Технологии на меморија за превод

Современи комерцијални системи

  • Заживување на текстови

  • Модели за комуникација

  • Компјутерска лексикографија

  • Машински превод

  • Корпус на текстови


Анализа на текст на природен јазик

3 нивоа на структура на текст:
  • Површинска синтаксичка структура

  • Длабока синтаксичка структура

  • Семантичко ниво


Проблемот на синтезата е обратен од оној во анализата

Оживување на текстот

1. Размена на текстови преку визуелни слики на екранот за прикажување

2. 2 модалитети на човековото размислување: симболично и визуелно.


1. Имитација на процесот на комуникација 2. Креирање ефективен моделдијалог Модели за комуникација


Хипертекст- посебен начин на организирање и презентирање на текстот, во кој неколку текстови или фрагменти од текст можат да бидат меѓусебно поврзани со разни видовиврски.


Разлики помеѓу хипертекст и традиционалниот текст

Хипертекст

    1. обработка на говорниот јазик

  • 2. обработка на пишан текст


Обработка на говорен говор

1. автоматска синтеза на говор

А) развој на синтисајзери за текст во говор. Вклучува 2 блока: јазичен блок за обработка на текстИ блок за акустична синтеза.

2. автоматско препознавањеговори


1) препознавање текст

2) анализа на текст

3) синтеза на текст


IRS (систем за пронаоѓање информации)– тоа се софтверски системи за складирање, пребарување и издавање информации од интерес.

Захаров В.П. верува дека IPSе нарачан збир на документи и информациски технологии наменети за складирање и преземање информации - текстови или податоци.


3 типа на IPS

3 типа на IPS

    Прирачник- Ова е пребарување во библиотеката.

  • Механизирано IPS се технички средства кои обезбедуваат избор на потребните документи

  • Автоматски- пребарување на информации со помош на компјутери


Компјутерска лексикографија

Компјутерска лексикографија– една од значајните области на применетата лингвистика, се занимава со теоријата и практиката на составување речници.

Во лексикографијата има 2 насоки:
  • Традиционална лексикографијасоставува традиционални речници

  • Машинска лексикографијасе занимава со автоматизација на подготовка на речник и решава проблеми на изработка на електронски речници


Задачи на компјутерска лексикографија

  • Автоматско добивање различни речници од текст

  • Создавање речници кои се електронски верзии на традиционални речници или сложени електронски лингвистички речници за традиционална речничка работа, на пример LINGVO

  • Развој на теоретски и практични аспекти на составување специјални компјутерски речници, на пример за пронаоѓање информации, машински превод


Машински превод

Машински превод– конвертирање текст на еден природен јазик во друг природен јазик со помош на компјутер.

Видови машински превод
  • FAMT(Целосно автоматизиран машински превод) – целосно автоматски превод

  • ХАМТ(Human Aided machine Translation) - машински превод со човечко учество

  • МАХТ(Machine Aided Human Translation) – превод што го врши лице со помошен софтвер и лингвистички алатки.


  • 2) професионален пратеник– поквалитетен превод проследен со човечко уредување

  • 3) интерактивен пратеник– се смета за превод во посебни системи за поддршка, се одвива во режим на дијалог со компјутерски систем. Квалитетот на MP зависи од опциите за прилагодување, ресурсите и видот на текстовите.

Корпус на текстови

Корпус на текстови- ова е одредена збирка текстови, која се заснова на логичен концепт, логична идеја што ги обединува овие текстови.

Јазичен корпус-голема, електронски претставена, унифицирана, структурирана, означена, филолошки компетентна низа јазични податоци дизајнирани да решаваат специфични јазични проблеми.


Репрезентативноста е најважното својство на корпусот


Целта на јазичниот корпус е да го прикаже функционирањето на јазичните единици во нивната природна контекстуална средина



Врз основа на корпусот, можете да ги добиете следните податоци:

1. за зачестеноста на граматичките категории

2. за промените на фреквенцијата

3. за промените во контекстите во различни временски периоди

5. за со-појавувањето на лексичките единици

6. за карактеристиките на нивната компатибилност


Браун корпус


Корпус на текстови - ова е одредена збирка текстови, која се заснова на логичен концепт, логична идеја што ги обединува овие текстови. Олицетворение на оваа логична идеја: правила за организирање текстови во корпус; алгоритми и програми за анализа на корпус текстови; поврзана идеологија и методологија. Националниот корпус е даден јазикво одредена фаза (или фази) од неговото постоење и во сета разновидност на жанрови, стилови, територијални и социјални опции итн. Основни поими на пресметковната лингвистика

    Програмски јазици (LP) е класа на вештачки јазици дизајнирани за обработка на информации со помош на компјутер. Секој програмски јазик е строг (формален) знаковен систем со чија помош се пишуваат компјутерските програми. Според различни проценки, моментално ги има меѓу илјада и десет илјади разни јазиципрограмирање.

  • Компјутерски науки(Компјутерски науки) -наука за моделите на снимање, складирање, обработка, пренесување и користење на информации со помош на технички средства.



Пребарајте информации (Враќање информации) е процес на пронаоѓање на такви документи (текстови, записи и

и сл.) кои одговараат на добиеното барање.

« Систем за пронаоѓање информации (IPS) е подреден сет на документи (низи од документи) и информациски технологии дизајнирани за складирање и преземање информации - текстови (документи) или податоци (факти).

Машинска лексикографија(Компјутерска лексикографија)се занимава со автоматизација на подготовката на речници и ги решава проблемите на развивање на електронски

речници.

Машински превод е трансформација на текстот на компјутерот на едно

природен јазик во содржински еквивалентен текст во друг

природен јазик.

Хипертекст е технологија за организирање информации и специјално структуриран текст, поделена во посебни блокови, со нелинеарна презентација, за ефективно прикажување на информациите во компјутерски средини.


    Рамка е структура за претставување на декларативно знаење за типизирана тематски унифицирана ситуација, т.е. структура на податоци за стереотипна ситуација.

  • Сценарио - ова е низа од неколку епизоди во времето, ова е и претстава на стереотипна ситуација или стереотипно однесување, само елементите на сценариото се чекори на алгоритам или инструкции.
  • Планирајте – претставување на знаења за можни дејствија кои се неопходни за постигнување на одредена цел.



Научниците од областа на компјутерската лингвистика:

  • Советски и руски научници: Алексеј Љапунов, Игор Мелчук, Олга Кулагина, Ју.Д. Апресјан, Н.Н. Леонтјева, Ју.С. Мартемјанов, З.М. Шаљапина, Игор Богуславски, А.С. Наригнани, А.Е. Кибрик, Баранов А.Н.

  • Западни научнициУлоги: Јорик Вилкс, Грегори Грефенстет, Гравил Корбет, Џон Керол, Дијана Мекарти, Луис Маркез, Ден Молдаван, Јоаким Нивр, Виктор Раскин, Едуард Хови.


Асоцијации и конференции во компјутерската лингвистика:
  • „Дијалог“- главната руска конференција на пресметковна лингвистикасо меѓународно учество.

Приоритет на Дијалогот е компјутерско моделирање Руски јазик. Работните јазици на конференцијата се руски и англиски. За да се привлечат странски рецензенти, најголемиот дел од апликативната работа се поднесува на англиски јазик.

Главните насоки на конференцијата:
  • Лингвистичка семантикаи семантичка анализа

  • Формални јазични модели и нивните апликации

  • Теоретски и компјутерски лексикографија

  • Методи за евалуација на системи за анализа на текст и машинско преведување

  • Корпус лингвистика. Креирање, примена, евалуација на корпуси

  • Интернеткако јазичен ресурс. Лингвистички технологии на Интернет

  • Онтологии. Екстракција на знаењеод текстови

  • Компјутерска анализа на документи: апстрактирање, класификација, пребарување

  • Автоматска анализа на чувствата на текстовите

  • Машински превод

  • Модели на комуникација. Комуникација, дијалог и говорен чин

  • Анализа и синтеза на говор



2. Здружение за компјутерска лингвистика (ACL)е меѓународен научен и професионално друштволуѓе кои работат на проблеми кои вклучуваат природен јазик и компјутери. Годишниот состанок се одржува секое лето на локации каде што се вршат значајни компјутерски лингвистичко истражување. Основана во 1962 година, првично именувана Здружение за машински превод и компјутерска лингвистика (AMTCL). Во 1968 година стана ACL.
  • UACL има европска (EACL)и северноамерикански (NAACL)гранки.

  • ACL весник, Компјутерска лингвистика, е врвен форум за истражување во компјутерската лингвистика и обработката на природните јазици. Од 1988 година списанието се издава за ACL MIT Press.
  • Серија на книги ACL, Истражување во обработка на природни јазици, објавено Прес на Универзитетот Кембриџ.

  • Секоја година ACL и неговите поглавја организираат меѓународни конференции во различни земји.

ACL 2014 се одржа во Балтимор, САД.

  • Референци:

  • 1. Марчук Ју.Н. Компјутерска лингвистика: учебник/Ју.Н. Марчук.- М.:АСТ: Исток-Запад, 2007-317 стр.

  • 2. Шилихина К.М. Основи на применета лингвистика: учебник за специјалност 021800 (031301) - Теоретска и применета лингвистика, Воронеж, 2006 година.

  • 3. Бојарски К.К. Вовед во пресметковна лингвистика. Учебник - Санкт Петербург: NRU ITMO, 2013. - 72 стр.

  • 4. Шчипицина Л.Ју. Информатички технологии во лингвистиката: учебник / Л.Ју. Шчипицина.- М.: ФЛИНТА: наука, 2013.- 128 стр.

  • 5. Соснина Е.П. Вовед во применета лингвистика: учебник / Е.П.Соснина. - 2. изд., ревидирана. и дополнителни – Улјановск: Улјановск државен технички универзитет, 2012. -110 стр.

  • 6. Баранов А.Н. Вовед во применета лингвистика: Учебник - М.: Редакциски URSS, 2001. - 360 стр.

  • 7. Применета лингвистика: Учебник / Л.В. Бондарко, Л.А. Вербицкаја, Г.Ја. Мартиненко и други; Реп. Уредникот А.С. Герд. Санкт Петербург: издавачка куќа Санкт Петербург. Унив., 1996.- 528 стр.

  • 8. Шемјакин Ју.И. Почетоци на компјутерска лингвистика: Учебник. М.: Издавачка куќа МГОУ, АД „Росвузнаука“, 1992 година.

  • Компјутерски лингвисти развиваат алгоритми за препознавање текст и звучен говор, синтезата на вештачкиот говор, создавањето системи за семантички превод и самиот развој на вештачката интелигенција (во класична смисла на зборот - како замена за човечката интелигенција - тешко дека некогаш ќе се појави, но различни експертски системиврз основа на анализа на податоци).

    Алгоритмите за препознавање говор се повеќе ќе се користат во секојдневниот живот - паметните домови и електронските уреди нема да имаат далечински управувачи и копчиња, туку наместо тоа ќе се користи гласовен интерфејс. Оваа технологија се усовршува, но сè уште има многу предизвици: компјутерот е тешко да го препознае човечкиот говор бидејќи различни луѓе зборуваат многу различно. Затоа, по правило, системите за препознавање добро функционираат или кога се обучени за еден звучник и веќе се приспособени на неговите карактеристики на изговорот, или кога бројот на фрази што системот може да ги препознае е ограничен (како, на пример, во гласовните команди за ТВ).

    Специјалистите за креирање програми за семантички превод имаат уште многу работа: во моментов се развиени добри алгоритми само за превод на и од англиски јазик. Има многу проблеми овде - различни јазици се структурирани различно семантички, тоа варира дури и на ниво на конструирање фрази, а не сите значења на еден јазик можат да се пренесат со помош на семантичкиот апарат на друг. Покрај тоа, програмата мора да разликува хомоними, правилно да препознава делови од говорот и да го избере точното значење на полисемантички збор што одговара на контекстот.

    Синтезата на вештачки говор (на пример, за домашни роботи) е исто така макотрпна работа. Тешко е вештачки создадениот говор да звучи природно човечко уво, затоа што има милиони нијанси на кои не обрнуваме внимание, но без кои сè повеќе не е „исто“ - лажни стартови, паузи, напрегања итн. Текот на говорот е континуиран и во исто време дискретно: зборуваме без пауза меѓу зборовите, но не ни е тешко да разбереме каде завршува еден збор, а каде започнува друг, но за машина тоа би било голем проблем.

    Најголемата насока во пресметковната лингвистика е поврзана со Големите податоци. На крајот на краиштата, постојат огромни корпуси на текстови како што се доводи на вести, од кои е неопходно да се изолираат одредени информации - на пример, да се истакнат доводите за вести или да се прилагоди RSS според вкусот на одреден корисник. Такви технологии веќе постојат и ќе продолжат да се развиваат, бидејќи компјутерската моќ рапидно расте. Лингвистичка анализатекстовите се користат и за да се обезбеди безбедност на Интернет и да се бараат потребни информации за разузнавачките служби.

    Каде да студирате за да станете компјутерски лингвист? Кај нас, за жал, специјалностите поврзани со класичната лингвистика и програмирање, статистиката и анализата на податоци се доста одвоени. И за да станете дигитален лингвист, треба да ги разберете и двете. Странските универзитети имаат високообразовни програми по компјутерска лингвистика, но засега најдобра опција за нас е да добиеме основно лингвистичко образование и потоа да ги совладаме основите на ИТ. Добро е што сега има многу различни онлајн курсеви; за жал, тоа не беше случај во моите студентски години. Студирав на Факултетот за применета лингвистика на Московскиот државен лингвистички универзитет, каде имавме курсеви за вештачка интелигенција и препознавање говор - но сепак не во доволен обем. Сега ИТ компаниите активно се обидуваат да комуницираат со институциите. Моите колеги од Kaspersky Lab и јас се обидуваме да учествуваме во образовниот процес: држиме предавања, одржуваме студентски конференции и доделуваме грантови на дипломирани студенти. Но, досега иницијативата доаѓа повеќе од работодавците отколку од универзитетите.