Комп'ютерний лінгвіст. Комп'ютерна лінгвістика як прикладна лінгвістична дисципліна

лінгвістика статистичний мовознавство програмний

Історія розвитку комп'ютерної лінгвістики

Процес становлення та формування сучасної лінгвістики як науки про природну мову є тривалим історичним розвитком лінгвістичного знання. В основі лінгвістичного знання лежать елементи, формування яких відбувалося у процесі діяльності, нерозривно пов'язаної з освоєнням структури усного мовлення, появою, подальшим розвитком та вдосконаленням листа, навчанням письма, а також тлумаченням та розшифровкою текстів.

Природна мова як об'єкт лінгвістики займає центральне місцеу цій наукі. У процесі розвитку мови змінювалися й уявлення про неї. Якщо раніше не надавалося особливого значення внутрішньої організації мови, і він розглядався насамперед у контексті взаємозв'язку із зовнішнім світом, то, починаючи з кінця XIX- початку XX ст., особлива роль відводиться внутрішній формальній будові мови. Саме в цей період відомим швейцарським лінгвістом Фердинандом де Соссюр були розроблені основи таких наук, як семіологія і структурна лінгвістика, і докладно викладені в його книзі «Курс загальної лінгвістики» (1916).

Вченому належить ідея розгляду мови як єдиного механізму, цілісної системизнаків, що у свою чергу дає можливість описати мову математично. Соссюр першим запропонував структурний підхід до мови, саме: опис мови у вигляді вивчення співвідношень між його одиницями. Під одиницями, чи «знаками» він розумів слово, що об'єднує у собі сенс, і звучання. В основі концепції, запропонованої швейцарським ученим, лежить теорія мови як системи знаків, що складається з трьох частин: мови (від фр. langue), мови (від фр. parole) та мовної діяльності (від фр. langage).

Сам учений визначав створювану ним науку семіологію як «науку, що вивчає життя символів у межах життя суспільства». Оскільки мова - це знакова система, то у пошуку відповіді питання, яке місце лінгвістика посідає серед інших наук, Соссюр стверджував, що лінгвістика - це частина семіології. Вважають, що саме швейцарський філолог заклав теоретичний фундамент нового напряму в лінгвістиці, ставши основоположником, «батьком» сучасного мовознавства.

Концепція, висунута Ф. де Соссюр, отримала подальший розвитоку працях багатьох видатних учених: у Данії – Л. Єльмсльов, у Чехії – Н. Трубецькій, у США – Л. Блумфілд, 3. Харріс, Н. Хомський. Що стосується нашої країни, то тут структурна лінгвістика почала свій розвиток приблизно в той же період часу, що й на Заході - на рубежі XIX-XXст. - у працях Ф. Фортунатова та І. Бодуен де Куртене. Слід зазначити, що Бодуен де Куртене тісно співпрацював з Ф. де Соссюром. Якщо Соссюр заклав теоретичний фундамент структурної лінгвістики, Бодуен де Куртене може вважатися людиною, яка заклала основи практичного застосування методів, запропонованих швейцарським ученим. Саме він визначив лінгвістику як науку, яка використовує статистичні методи та функціональні залежності, та відокремив її від філології. Першим досвідом застосування математичних методів у мовознавстві стала фонологія – наука про структуру звуків мови.

Слід зазначити, що постулати, висунуті Ф. де Соссюром, змогли знайти свій відбиток у проблемах лінгвістики актуальних у середині ХХ століття. Саме цей період і намічається явна тенденція до математизації науки про мову. Практично у всіх великих країнахпочинається бурхливий розвиток науки та обчислювальної техніки, що у свою чергу зажадало дедалі нових лінгвістичних основ. Результатом цього стало швидке зближення точних і гуманітарних наук, а також активна взаємодіяматематики та лінгвістики знайшло практичне застосуванняпід час вирішення актуальних наукових проблем.

У 50-ті роки XX століття на стику таких наук, як математика, лінгвістика, інформатика та штучний інтелект, виник новий напрямок науки - комп'ютерна лінгвістика (відома також під назвою машинна лінгвістика або автоматична обробка текстів природною мовою). Основні етапи розвитку цього напряму відбувалися на тлі еволюції методів штучного інтелекту. Потужним поштовхом до розвитку комп'ютерної лінгвістики стало створення перших ЕОМ. Однак з появою у 60-х роках нового покоління комп'ютерів та мов програмування починається принципово новий етапу розвитку цієї науки. Також слід зазначити, що витоки комп'ютерної лінгвістики сягають праць відомого американського вченого-лінгвіста Н. Хомського в галузі формалізації структури мови. Результати його досліджень, отримані на стику лінгвістики та математики, сформували основу для розвитку теорії формальних мов та граматик (що породжують, або генеративних, граматик), яка широко застосовується для опису як природних, так і штучних мовзокрема мов програмування. Якщо говорити точніше, то ця теорія є математичною дисципліною. Її можна вважати однією з перших у такому напрямку прикладної лінгвістики, як математична лінгвістика.

Перші експерименти та перші розробки у комп'ютерній лінгвістиці відносяться до створення систем машинного перекладу, а також систем, що моделюють мовні здібності людини. Наприкінці 80-х років з появою та активним розвитком мережі Інтернет відбулося бурхливе зростання обсягів текстової інформації, доступної в електронному вигляді. Це призвело до того, що технології інформаційного пошуку перейшли на якісно новий рівень свого розвитку. Виникла необхідність автоматичної обробки текстів природною мовою, з'явилися абсолютно нові завдання та технології. Вчені зіткнулися з такою проблемою, як швидке опрацювання величезного потоку неструктурованих даних. З метою знайти рішення для цієї проблеми велике значеннястало приділятися розробці та застосуванню статистичних методіву сфері автоматичної обробки текстів. Саме з їхньою допомогою виявилося можливим вирішення таких завдань, як розбиття текстів на кластери, об'єднані загальною тематикою, виділення у тексті певних фрагментів тощо. Крім цього, застосування методів математичної статистикита машинного навчання дозволило вирішити завдання розпізнавання мови та створення пошукових систем.

Вчені не зупинялися на досягнутих результатах: вони продовжували ставити перед собою все нові цілі та завдання, розробляти нові прийоми та методи дослідження. Все це призвело до того, що мовознавство стало виступати як прикладної науки, що поєднує в собі ряд інших наук, провідна роль серед яких належала математиці з її різноманіттям кількісних методів та можливістю їх застосовувати для більш глибокого осмислення явищ, що вивчаються. Так розпочала своє формування та розвиток математична лінгвістика. На даний момент це досить «молода» наука (існує близько п'ятдесяти років), проте, незважаючи на свій вельми «юний вік», вона являє собою область наукових знань, що вже склалася, з безліччю успішних досягнень.

Новосьолова Ірина

Чому не всі машинні переклади досконалі? Від чого залежить якість перекладу? Чи достатньо автору знань, щоб використовувати та доповнювати існуючі комп'ютерні словники? Відповіді на ці запитання авторка прагнула подати у своїй роботі. Звіт на тему - у прикріпленому файлі, продукт проектної діяльності - на шкільному порталі

Завантажити:

Попередній перегляд:

Відкрита

Міжнародна

науково-дослідна

конференція

старшокласників та студентів

«Освіта. Наука. Професія»

Секція «Лінгвістика іншомовна»

« Комп'ютерна лінгвістика»

Виконала Новосьолова Ірина

МОУ гімназія №39 «Класична»

10 «Б» клас

Наукові керівники:

Чигриньова Тетяна Дмитрівна,

вчитель англійської мовивищої категорії

Осипова Світлана Леонідівна,

вчитель інформатики вищої категорії

м. Відрадний

2011

  1. Англомовні слова в ІКТ

Дивіться на сайті

  1. Мій експеримент

Одне із завдань – провести експеримент, який у порівнянні можливостей різних комп'ютерних лінгвістичних словників, по більш точно-наближеному перекладу з англійської на російську.

Були протестовані такі сайти:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Для чистоти експерименту, я вибирала пропозиції з різним ступенемскладності стилістичного перекладу Фрази для введення:

1. A New report says today's teenagers are more selfish than they were 20 years ago

(Нова доповідь каже, що сучасні підлітки більш егоїстичні, ніж вони були 20 років тому)

2. She believes video games and theІнтернет є величезні умови для цього вдосконаленого самопочуття.

(Вона вірить, що відео ігри та Інтернет є найбільш значущими причинамидля цієї зростаючої егоїстичності)

3. They want to be better than others

(Вони хочуть бути кращими, ніж інші)

4. She found the big increase started від year 2000, який є коли violent video games became real popular.

(Вона знайшла велике зростання, що розпочався з 2000 року, коли жорстокі відеоігри стали дійсно популярними)

Переклавши ці пропозиції на сайтах онлайн-перекладачів, я отримала такі результати:

  1. http://translate.eu/

Зміст статті

КОМП'ЮТЕРНА ЛІНГВІСТИКА,напрям у прикладній лінгвістиці, орієнтований використання комп'ютерних інструментів – програм, комп'ютерних технологій організації та обробки даних – для моделювання функціонування мови у тих чи інших умовах, ситуаціях, проблемних сферах тощо., і навіть вся сфера застосування комп'ютерних моделей мови у лінгвістиці і суміжних дисциплінах. Власне, тільки в останньому випадкуі йдеться про прикладну лінгвістику в строгому сенсі, оскільки комп'ютерне моделювання мови може розглядатися і як сфера застосування інформатики та теорії програмування до вирішення завдань науки про мову. Насправді, проте, до комп'ютерної лінгвістиці відносять практично, що пов'язані з використанням комп'ютерів у мовознавстві.

Як особливе науковий напрямкомп'ютерна лінгвістика оформилася у 1960-ті роки. Російський термін "комп'ютерна лінгвістика" є калькою з англійської computational linguistics. Оскільки прикметник computational російською може перекладатися і як «обчислювальний», у літературі зустрічається також термін «обчислювальна лінгвістика», проте у вітчизняній науці він набуває більш вузького значення, що наближається до поняття «квантитативної лінгвістики». Потік публікацій у цій галузі дуже великий. Окрім тематичних збірок, у США щокварталу виходить журнал «Комп'ютерна лінгвістика». Велику організаційну та наукову роботупроводить Асоціація з комп'ютерної лінгвістики, яка має регіональні структури(зокрема, європейське відділення). Кожні два роки минають міжнародні конференціїз комп'ютерної лінгвістики - COLING. Відповідна проблематика зазвичай буває широко представлена ​​також різних конференціях з штучному інтелекту.

Інструментарій комп'ютерної лінгвістики

Комп'ютерна лінгвістика як спеціальна прикладна дисципліна виділяється передусім інструментом – тобто. щодо використання комп'ютерних засобів обробки мовних даних. Оскільки комп'ютерні програми, що моделюють ті чи інші аспекти функціонування мови, можуть використовувати різні засоби програмування, то про загальний понятійний апарат комп'ютерної лінгвістики говорити начебто не доводиться. Однак, це не так. Існують загальні принципи комп'ютерного моделюваннямислення, які так чи інакше реалізуються у будь-якій комп'ютерної моделі. В їх основі лежить теорія знань, що спочатку розроблялася в галузі штучного інтелекту, а надалі стала одним із розділів когнітивної науки. Найважливішими понятійними категоріямикомп'ютерна лінгвістика є такі структури знань, як «фрейми» (понятійні, або, як заведено говорити, концептуальні структури для декларативного подання знань про типизовану тематично єдину ситуацію), «сценарії» (концептуальні структури для процедурного представлення знань про стереотипну ситуацію або стереотипну поведінку) , «плани» (структури знань, що фіксують уявлення про можливі дії, що ведуть до досягнення певної мети). Тісно пов'язані з категорією кадру поняття «сцена». Категорія сцени переважно використовується в літературі з комп'ютерної лінгвістики як позначення концептуальної структуридля декларативного подання актуалізованих у мовному акті та виділених мовними засобами(лексемами, синтаксичними конструкціями, граматичними категоріями та ін.) ситуацій та їх частин.

Певним чином організований набір структур знань формує модель світу когнітивної системи та її комп'ютерної моделі. У системах штучного інтелекту модель світу утворює особливий блок, який залежно від обраної архітектури можуть входити загальні знанняпро світ (у вигляді простих пропозицій типу «взимку холодно» або у вигляді правил продукції «якщо на вулиці йде дощ, то треба надіти плащ або взяти парасольку»), деякі специфічні факти («Сама висока вершинау світі – Еверест»), а також цінності та їх ієрархії, що іноді виділяються в особливий «аксіологічний блок».

Більшість елементів понять інструментарію комп'ютерної лінгвістики омонімічні: вони одночасно позначають деякі реальні сутності когнітивної системи людини та способи представлення цих сутностей, що використовуються при їхньому теоретичному описі та моделюванні. Іншими словами, елементи понятійного апаратуКомп'ютерні лінгвістики мають онтологічний та інструментальний аспекти. Наприклад, в онтологічному аспекті поділ декларативних і процедурних знань відповідає різним типам знань, що є у людини – так званим знанням ЩО (декларативним; таке, наприклад, знання поштової адреси будь-якого NN), з одного боку, та знанням ЯК (процедурним; таке , наприклад, знання, що дозволяє знайти квартиру цього NN, навіть не знаючи її формальної адреси) – з іншого. В інструментальному аспекті знання може бути втілене в сукупності дескрипцій (описів), у наборі даних, з одного боку, та в алгоритмі, інструкції, яку виконує комп'ютерна або інша модель когнітивної системи, з іншого.

Напрями комп'ютерної лінгвістики.

Сфера КЛ дуже різноманітна і включає такі галузі, як комп'ютерне моделювання спілкування, моделювання структури сюжету, гіпертекстові технології подання тексту, машинний переклад, комп'ютерна лексикографія. У вузькому значенні проблематика КЛ часто пов'язується з міждисциплінарним прикладним напрямком із дещо невдалою назвою «обробка природної мови»(Переклад англійської терміну Natural Language Processing). Воно виникло наприкінці 1960-х років та розвивалося в рамках науково-технологічної дисципліни «штучний інтелект». За своєю внутрішньої формисловосполучення "обробка природної мови" охоплює всі області, в яких комп'ютери використовуються для обробки мовних даних. Тим часом у практиці закріпилося більш вузьке розуміння цього терміна – розробка методів, технологій та конкретних систем, що забезпечують спілкування людини з ЕОМ природною або обмеженою природною мовою.

Бурхливий розвиток напряму «обробки природної мови» посідає 1970-ті роки, що було з несподіваним експоненційним зростанням кількості кінцевих користувачів ЕОМ. Оскільки навчання мов та технології програмування всіх користувачів неможливе, виникла проблема організації взаємодії з комп'ютерними програмами. Вирішення цієї проблеми комунікації йшло двома основними шляхами. У першому випадку робилися спроби адаптації мов програмування та операційних систем до кінцевого користувача. Внаслідок цього з'явилися мови високого рівня типу Visual Basic, а також зручні операційні системи, побудовані в концептуальному просторі. звичних людиніметафор - ПИСЬМОВИЙ СТІЛ, БІБЛІОТЕКА. Другий шлях – розробка систем, які дозволяли б взаємодіяти з ЕОМ у конкретній проблемної області природною мовою чи якомусь його обмеженому варіанті.

Архітектура систем обробки природної мови у випадку включає блок аналізу мовного повідомлення користувача, блок інтерпретації повідомлення, блок породження сенсу відповіді і блок синтезу поверхневої структури висловлювання. Особливою частиною системи є діалоговий компонент, у якому зафіксовано стратегії ведення діалогу, умови застосування цих стратегій, способи подолання можливих комунікативних невдач (збоїв у спілкуванні).

Серед комп'ютерних систем обробки природної мови зазвичай виділяються питання-відповідні системи, діалогові системи вирішення завдань та системи обробки зв'язкових текстів. Спочатку питання-відповідальні системи стали розроблятися як реакція на погана якістькодування запитів під час пошуку інформації в інформаційно-пошукових системах. Оскільки проблемна область таких систем була сильно обмежена, це дещо спрощувало алгоритми перекладу запитів у подання формальною мовою та зворотну процедуру перетворення формального подання у висловлювання природною мовою. p align="justify"> З вітчизняних розробок до програм такого типу відноситься система ПОЕТ, створена колективом дослідників під керівництвом Е.В.Попова. Система обробляє запити російською (з невеликими обмеженнями) та синтезує відповідь. Блок-схема програми передбачає проходження всіх етапів аналізу (морфологічного, синтаксичного та семантичного) та відповідних етапів синтезу.

Діалогові системи вирішення завдань, на відміну від систем попереднього типу, відіграють у комунікації активну роль, оскільки їх завдання полягає в тому, щоб отримати вирішення проблеми на основі тих знань, які представлені в ній самій, та інформації, яку можна отримати від користувача. Система містить структури знань, у яких фіксуються типові послідовності дій на вирішення завдань у цій проблемної області, і навіть інформацію про необхідні ресурси. Коли користувач ставить запитання або ставить певне завдання, активізується відповідний сценарій. Якщо якісь компоненти сценарію пропущені чи відсутні ресурси, система виступає ініціатором комунікації. Так працює, наприклад, система SNUKA, вирішальна задачапланування воєнних операцій.

Системи обробки зв'язкових текстів досить різноманітні структурою. Їхньою загальною рисою можна вважати широке використаннятехнологій подання знань. Функції систем такого роду полягають у розумінні тексту та відповідях на питання про його зміст. Розуміння розглядається не як універсальна категорія, бо як процес отримання інформації з тексту, який визначається конкретним комунікативним наміром. Іншими словами, текст «прочитується» тільки з установкою на те, що потенційний користувач захоче дізнатися про нього. Тим самим було й системи обробки зв'язкових текстів виявляються зовсім універсальними, а проблемно-ориентированными. Типовими прикладами систем обговорюваного типу можуть бути системи RESEARCHER і TAILOR, що утворюють єдиний програмний комплекс, що дозволяє користувачеві отримати інформацію з патентних рефератів, що описують складні фізичні об'єкти.

Найважливішим напрямком комп'ютерної лінгвістики є розробка інформаційно-пошукових систем (ІПС). Останні з'явилися наприкінці 1950-х – початку 1960-х як відповідь різке зростання обсягів науково-технічної інформації. За типом інформації, що зберігається і обробляється, а також за особливостями пошуку ІПС поділяються на дві великі групи - документальні і фактографічні. У документальних ІПС зберігаються тексти документів чи його описи (реферати, бібліографічні картки тощо.). Фактографічні ІПС мають справу з описом конкретних фактів, причому необов'язково у текстовій формі. Це можуть бути таблиці, формули та інші види представлення даних. Існують і змішані ІПС, що включають як документи, так і фактографічну інформацію. Нині фактографічні ІПС будуються з урахуванням технологій баз даних (БД). Для забезпечення інформаційного пошуку в ІПС створюються спеціальні інформаційно-пошукові мови, основу яких лежать інформаційно-пошукові тезауруси. Інформаційно-пошукова мова – це формальна мова, призначений для опису окремих аспектів плану змісту документів, що зберігаються в ІПС, та запиту. Процедура опису документа інформаційно-пошуковою мовою називається індексуванням. У результаті індексування кожному документу приписується його формальний опис інформаційно-пошуковою мовою – пошуковий образ документа. Аналогічно індексується і запит, якому приписується пошуковий образ запиту та пошукове розпорядження. Алгоритми інформаційного пошуку засновані на порівнянні пошукового розпорядження з пошуковим чином запиту. Критерій видачі документа на запит може бути повним або частковим збігом пошукового образу документа та пошукового припису. У ряді випадків користувач може сам сформулювати критерії видачі. Це визначається його інформаційною потребою. В автоматизованих ІПС найчастіше використовуються дескрипторні інформаційно-пошукові мови. Тематика документа описується сукупністю дескрипторів. Як дескриптори виступають слова, терміни, що позначають прості, досить елементарні категорії та поняття проблемної області. У пошуковий образ документа вводиться стільки дескрипторів, скільки різних тем торкається документа. Кількість дескрипторів не обмежується, що дозволяє описати документ у багатовимірній матриці ознак. Часто в дескрипторній інформаційно-пошуковій мові накладаються обмеження на поєднання дескрипторів. У цьому випадку можна говорити про те, що інформаційно-пошукова мова має синтаксис.

Одна з перших систем, що працювали з дескрипторною мовою, була американська системаУНІТЕРМ, створена М. Таубе. Як дескриптори в цій системі функціонували ключові слова документа – унітерми. Особливість цієї ІПС полягає в тому, що спочатку словник інформаційної мовине задавався, а виникав у процесі індексування документа та запиту. Розвиток сучасних інформаційно-пошукових систем пов'язаний із розробкою ІПС безтезаурусного типу. Такі ІПС працюють з користувачем обмеженою природною мовою, а пошук здійснюється за текстами рефератів документів, за їх бібліографічним описам, а часто і за самими документами. Для індексування в ІПС безтезаурусного типу використовуються слова та словосполучення природної мови.

До галузі комп'ютерної лінгвістики певною мірою можуть бути віднесені роботи в галузі створення гіпертекстових систем, що розглядаються як особливий спосіб організації тексту і навіть як принципово новий виглядтексту, протиставлений за багатьма своїми властивостями звичайному тексту, сформованому в гутенбергівській традиції друкарства. Ідея гіпертексту пов'язується з ім'ям Ванневара Буша – радника президента Ф.Рузвельта з науки. В.Буш теоретично обґрунтував проект технічної системи«Мемекс», яка дозволяла користувачеві пов'язувати тексти та їх фрагменти за різними типами зв'язків, переважно за асоціативними відносинами. Відсутність комп'ютерної техніки зробило проект важкореалізованим, оскільки механічна система виявилася надмірно складною для практичного втілення.

Ідея Буша у 1960-ті роки отримала друге народження у системі «Ксанаду» Т. Нельсона, яка вже передбачала використання комп'ютерної техніки. "Ксанаду" дозволяв користувачу прочитувати сукупність введених у систему текстів у різний спосіб, У різній послідовності, програмне забезпечення давало можливість як запам'ятовувати послідовність переглянутих текстів, і вибирати їх практично кожен у довільний час. Безліч текстів із зв'язуючими їх відносинами (системою переходів) було названо Т. Нельсоном гіпертекстом. Багато дослідників розглядають створення гіпертексту як початок нової інформаційної доби, протиставленої ері друкарства. Лінійність письма, що зовні відображає лінійність мови, виявляється фундаментальною категорією, що обмежує мислення людини та розуміння тексту. Світ сенсу нелінійний, тому стиснення смислової інформації в лінійному мовному відрізку вимагає використання спеціальних «комунікативних упаковок» – членування на тему та рему, поділ плану змісту висловлювання на експліцитні (ствердження, пропозиція, фокус) та імпліцитні (пресупозиція, слідство, імп . Відмова від лінійності тексту і в процесі його подання читачеві (тобто при читанні та розумінні) та в процесі синтезу, на думку теоретиків, сприяла б «звільненню» мислення і навіть виникненню його нових форм.

У комп'ютерної системигіпертекст представлений як графа, у вузлах якого перебувають традиційні тексти чи його фрагменти, зображення, таблиці, відеоролики тощо. Вузли пов'язані різноманітними відносинами, типи яких задаються розробниками програмного забезпечення гіпертексту чи самим читачем. Відносини задають потенційні можливості пересування, або навігації гіпертекстом. Відносини можуть бути односпрямованими або двоспрямованими. Відповідно, двоспрямовані стрілки дозволяють рухатися користувачеві в обидві сторони, а односпрямовані - тільки в одну. Ланцюжок вузлів, якими проходить читач під час перегляду компонентів тексту, утворює шлях, чи маршрут.

Комп'ютерні реалізації гіпертексту бувають ієрархічними чи мережевими. Ієрархічна – деревоподібна – будова гіпертексту суттєво обмежує можливості переходу між його компонентами. У такому гіпертексті відносини між компонентами нагадують структуру тезаурусу, заснованого на родовидових зв'язках. Мережевий гіпертекст дозволяє використовувати різні типи відносин між компонентами, не обмежуючись відносинами «рід – вид». За способом існування гіпертексту виділяються статичні та динамічні гіпертексти. Статичний гіпертекст не змінюється у процесі експлуатації; у ньому користувач може фіксувати свої коментарі, проте вони не змінюють суть справи. Для динамічного гіпертексту зміна є нормальною формою існування. Зазвичай динамічні гіпертексти функціонують там, де потрібно постійно аналізувати потік інформації, тобто. в інформаційних службах різного роду. Гіпертекстовий є, наприклад, Арізонська інформаційна система (AAIS), яка щомісяця поповнюється на 300-500 рефератів на місяць.

Відносини між елементами гіпертексту можуть спочатку фіксуватися творцями, а можуть породжуватися щоразу, коли відбувається звернення користувача до гіпертексту. У першому випадку йдеться про гіпертексти жорсткої структури, а в другому – про гіпертексти м'якої структури. Жорстка структура технологічно цілком зрозуміла. Технологія організації м'якої структури має ґрунтуватися на семантичному аналізі близькості документів (або інших джерел інформації) один до одного. Це нетривіальне завдання комп'ютерної лінгвістики. В даний час поширене використання технологій м'якої структури на ключових словах. Перехід від одного вузла до іншого в мережі гіпертексту здійснюється внаслідок пошуку ключових слів. Оскільки набір ключових слів щоразу може відрізнятися, щоразу змінюється структура гіпертексту.

Технологія побудови гіпертекстових систем робить різниці між текстової і нетекстовой інформацією. Тим часом включення візуальної та звукової інформації (відеороликів, картин, фотографій, звукозаписів тощо) вимагає суттєвої зміни інтерфейсу з користувачем та більш потужної програмної та комп'ютерної підтримки. Такі системи отримали назву гіпермедіа або мультимедіа. Наочність мультимедійних систем зумовила їхнє широке використання у навчанні, у створенні комп'ютерних варіантів енциклопедій. Існують, наприклад, чудово виконані CD-роми з мультимедійними системами з дитячих енциклопедій видавництва «Дорлін Кіндерслі».

У межах комп'ютерної лексикографії розробляються комп'ютерні технологіїскладання та експлуатації словників. Спеціальні програми– бази даних, комп'ютерні картотеки, програми обробки тексту – дозволяють автоматично формувати словникові статті, зберігати словникову інформацію та обробляти її. Багато різних комп'ютерних лексикографічних програм поділяються на дві великі групи: програми підтримки лексикографічних робіт і автоматичні словники різних типів, що включають лексикографічні бази даних. Автоматичний словник – це словник у спеціальному машинному форматі, який призначений для використання на ЕОМ користувачем або комп'ютерною програмою обробки тексту. Іншими словами, різняться автоматичні словники кінцевого користувача-людини та автоматичні словники для програм обробки тексту. Автоматичні словники, призначені для кінцевого користувача, за інтерфейсом та структурою словникової статті суттєво відрізняються від автоматичних словників, включених до систем машинного перекладу, системи автоматичного реферування, інформаційного пошуку тощо. Найчастіше вони є комп'ютерними версіями добре відомих звичайних словників. На ринку програмного забезпечення є комп'ютерні аналоги тлумачних словників англійської мови (автоматичний Вебстер, автоматичний тлумачний словниканглійської мови видавництва Коллінз, автоматичний варіант Нового великого англо-російського словниказа ред. Ю.Д.Апресяна та Е.М.Медникової), існує і комп'ютерна версіясловника Ожегова. Автоматичні словники для програм обробки тексту можна назвати автоматичними словниками точно. Вони зазвичай не призначені для звичайного користувача. Особливості їхньої структури, сфера охоплення словникового матеріалу задаються тими програмами, які з ними взаємодіють.

Комп'ютерне моделювання структури сюжету – ще один перспективний напрямок комп'ютерної лінгвістики. Вивчення структури сюжету відноситься до проблематики структурного літературознавства ( широкому значенні), семіотики та культурології. Наявні комп'ютерні програми моделювання сюжету ґрунтуються на трьох базових формалізмах уявлення сюжету – морфологічному та синтаксичному напрямках уявлення сюжету, а також на когнітивному підході. Ідеї ​​про морфологічний устрій структури сюжету сягають відомим роботамВ.Я.Проппа ( см.) про російську чарівну казку. Пропп зауважив, що з великої кількості персонажів та подій чарівної казки кількість функцій персонажів обмежена, і запропонував апарат для опису цих функцій. Ідеї ​​Проппа лягли основою комп'ютерної програми TALE, моделюючої породження сюжету казки. В основу алгоритму програми TALE покладено послідовність функцій персонажів казки. Фактично функції Проппа задавали безліч типізованих ситуацій, упорядкованих з урахуванням аналізу емпіричного матеріалу. Можливості зчеплення різних ситуаційу правилах породження визначалися типовою послідовністю функцій – у вигляді, у якому вдається встановити з текстів казок. У програмі типові послідовності функцій описувалися як типові сценарії зустрічей персонажів.

Теоретичну основу синтаксичного підходу до сюжету тексту склали "сюжетні граматики", або "граматики оповідання" (story grammars). Вони з'явилися в середині 1970-х років в результаті перенесення ідей граматики Н.Хомського, що породжує, на опис макроструктури тексту. Якщо найважливішими складовими синтаксичної структуриу породжувальній граматиці були дієслівні та іменні групи, то в більшості сюжетних граматик як базові виділялися експозиція (setting), подія та епізод. Теоретично сюжетних граматик широко обговорювалися умови мінімальності, тобто обмеження, визначали статус послідовності з елементів сюжету як нормальний сюжет. Виявилося, однак, що чисто лінгвістичними методамице зробити неможливо. Багато обмежень мають соціокультурний характер. Сюжетні граматики, суттєво відрізняючись набором категорій у дереві породження, допускали дуже обмежений набір правил модифікації оповідальної (наративної) структури.

На початку 1980-х років однією з учениць Р.Шенка – В.Ленерт у рамках робіт зі створення комп'ютерного генератора сюжетів було запропоновано оригінальний формалізм емоційних сюжетних одиниць (Affective Plot Units), який виявився потужним засобом представлення структури сюжету. При тому, що він був спочатку розроблений для системи штучного інтелекту, цей формалізм використовувався чисто теоретичні дослідження. Сутність підходу Ленерт у тому, що сюжет описувався як послідовна зміна когнітивно-емоційних станів персонажів. Тим самим у центрі уваги формалізму Ленерт стоять не зовнішні компоненти сюжету – експозиція, подія, епізод, мораль, – а його змістовні характеристики. У цьому плані формалізм Ленерт частково виявляється поверненням до ідеям Проппа.

До компетенції комп'ютерної лінгвістики належить і машинний переклад, який переживає нині друге народження.

Література:

Попов Е.В. Спілкування з ЕОМ природною мовою. М., 1982
Садур В.Г. Мовленнєве спілкування з електронно-обчислювальними машинами та проблеми їх розвитку. – У кн.: Мовленнєве спілкування: проблеми та перспективи. М., 1983
Баранов О.М. Категорії штучного інтелекту у лінгвістичній семантиці. Фрейми та сценарії. М., 1987
Кобозєва І.М., Лауфер Н.І., Сабурова І.Г. Моделювання спілкування в людино-машинних системах. – Лінгвістичне забезпечення інформаційних систем. М., 1987
Олкер Х.Р. Чарівні казки, трагедії та способи викладу світової історії. – У кн.: Мова та моделювання соціальної взаємодії. М., 1987
Городецький Б.Ю. Комп'ютерна лінгвістика: моделювання мовного спілкування
Макк'юїн К. Дискурсивні стратегії для синтезу тексту природною мовою. – Нове у закордонній лінгвістиці. Вип. XXIV, Комп'ютерна лінгвістика. М., 1989
Попов Е.В., Преображенський А.Б. . Особливості реалізації ЕЯ-систем
Преображенський А.Б. Стан розвитку сучасних ЕЯ-систем. – Штучний інтелект. Кн. 1, Системи спілкування та експертні системи. М., 1990
Суботін М.М. Гіпертекст. Нова формаписьмової комунікації. - ВІНІТІ, Сер. Інформатика, 1994, т. 18
Баранов О.М. Введення в прикладну лінгвістику. М., 2000



Комп'ютерна лінгвістика(також: математичнаабо обчислювальна лінгвістика, англ. computational linguistics) - науковий напрямок у галузі математичного та комп'ютерного моделювання інтелектуальних процесіву людини та тварин при створенні систем штучного інтелекту, що ставить за мету використання математичних моделей для опису природних мов.

Комп'ютерна лінгвістика частково перетинається з обробкою природних мов. Проте в останній акцент робиться не на абстрактні моделі, а на прикладні методи опису та обробки мови для комп'ютерних систем.

Полем діяльності комп'ютерних лінгвістів є розробка алгоритмів та прикладних програм для обробки мовної інформації.

Витоки

Математична лінгвістика є гілкою науки штучного інтелекту. Її історія розпочалася у Сполучених Штатах Америки у 1950-х роках. З винаходом транзистора та появою нового покоління комп'ютерів, а також перших мов програмування, почалися експерименти з машинним перекладом, особливо російських наукових журналів. У 1960-х роках подібні дослідження проводилися і в СРСР (наприклад, стаття про переведення з російської на вірменську в сб. «Проблеми кібернетики» за 1964). Однак якість машинного перекладу досі сильно поступається якістю перекладу, зробленого людиною.

З 15 по 21 травня 1958 року в I МДПІІІ відбулася перша Всесоюзна конференція з машинного перекладу. Оргкомітет очолювали В. Ю. Розенцвейг та відповідальний секретар Оргкомітету Г. В. Чернов. Повністю програму конференції опубліковано у збірнику «Машинний переклад та прикладна лінгвістика», вип. 1, 1959 р. (він же «Бюлетень Об'єднання з машинного перекладу № 8»). Як згадує В. Ю. Розенцвейг, опублікована збірка тез конференції потрапила до США і справила там велике враження.

У квітні 1959 року в Ленінграді відбулася I Всесоюзна нарада з математичної лінгвістики, скликана Ленінградським університетомта комітетом прикладної лінгвістики. Головним організатором Наради був М. Д. Андрєєв. У Нараді взяли участь ряд відомих математиків, зокрема, С. Л. Соболєв, Л. В. Канторович (згодом - Нобелівський лауреат) і А. А. Марков (останні двоє виступали в дебатах). В. Ю. Розенцвейг виступив у день відкриття Наради із програмною доповіддю «Загальна лінгвістична теоріяперекладу та математична лінгвістика».

Напрями комп'ютерної лінгвістики

  • Обробка природної мови (англ. natural language processing; синтаксичний, морфологічний, семантичний аналіз тексту). Сюди включають також:
  1. Корпусна лінгвістика, створення та використання електронних корпусів текстів
  2. Створення електронних словників, тезаурусів, онтологій. Наприклад, Lingvo. Словники використовують, наприклад, для автоматичного перекладу, перевірки орфографії.
  3. Автоматичний переклад тексту. Серед російських перекладачів популярним є Промт. Серед безкоштовних відомий перекладач Google Translate
  4. Автоматичне вилучення фактів із тексту (витяг інформації) (англ. fact extraction, text mining)
  5. Автореферування (англ. автоматичний текст summarization). Ця функція увімкнена, наприклад, у Microsoft Word .
  6. Побудова систем управління знаннями. Див Експертні системи
  7. Створення питання-відповідальних систем (англ. question answering systems).
  • Оптичне розпізнавання символів (англ. OCR). Наприклад, програма FineReader
  • Автоматичне розпізнавання мови (англ. ASR). Є платне та безкоштовне ПЗ
  • Автоматичний синтез мови

Великі асоціації та конференції

Навчальні програми у Росії

також

Напишіть відгук про статтю "Комп'ютерна лінгвістика"

Примітки

Посилання

  • (реферат)
  • - база знань з лінгвістичних ресурсів для російської мови
  • - відкриті вихідні джерела деяких утиліт комп'ютерної лінгвістики
  • - онлайн доступдо програм комп'ютерної лінгвістики

Уривок, що характеризує Комп'ютерна лінгвістика

- Візьми, візьми дитину, - промовив П'єр, подаючи дівчинку і наказово і поспішно звертаючись до баби. - Ти віддай їм, віддай! - закричав він майже на бабу, саджаючи дівчину, що закричала на землю, і знову озирнувся на французів і на вірменське сімейство. Старий уже сидів босий. Маленький француз зняв з нього останній чобіт і поплескував чоботами один про одного. Старий, схлипуючи, говорив щось, але П'єр тільки мигцем бачив це; вся увага його була звернена на француза в капоті, який у цей час, повільно розгойдуючись, посунувся до молодої жінки і, вийнявши руки з кишень, взявся за її шию.
Красуня вірменка продовжувала сидіти в тому ж нерухомому становищі, з опущеними довгими віями, і ніби не бачила і не відчувала того, що робив із нею солдат.
Поки П'єр пробіг ті кілька кроків, які відділяли його від французів, довгий мародер у капоті вже рвав з шиї вірменки намисто, яке було на ній, і молода жінка, хапаючись руками за шию, кричала пронизливим голосом.
- Laissez cette femme! [Залишіть цю жінку!] – шаленим голосом прохрипів П'єр, схоплюючи довгого, мідного солдата за плечі і відкидаючи його. Солдат упав, підвівся і побіг геть. Але товариш його, кинувши чоботи, вийняв тесак і грізно насунувся на П'єра.
- Voyons, pas de betises! [Ну, ну! Не дури!] – крикнув він.
П'єр був у тому захопленні сказу, в якому він нічого не пам'ятав і в якому сили його вдесятьох. Він кинувся на босого француза і, перш ніж той встиг вийняти свій тесак, уже збив його з ніг і молотив кулаками. Почувся схвальний крик навколишнього натовпу, в той же час з-за рогу з'явився кінний роз'їзд французьких уланів. Улани риссю під'їхали до П'єра та француза і оточили їх. П'єр нічого не пам'ятав, що було далі. Він пам'ятав, що він бив когось, його били і що під кінець він відчув, що руки його пов'язані, що натовп французьких солдатівстоїть навколо нього і обшукує його сукню.
— Il a un poignard, lieutenant, — були перші слова, які зрозумів П'єр.
- Ah, une arme! [А, зброя!] – сказав офіцер і звернувся до босого солдата, якого взяли з П'єром.
— Добре, добре, на суді все розкажеш, — сказав офіцер. І потім повернувся до П'єра: — Parlez vous francais vous? [Чи говориш французькою? ]
П'єр озирався навколо себе очима, що налилися кров'ю, і не відповідав. Ймовірно, обличчя його здалося дуже страшним, бо офіцер щось пошепки сказав, і ще чотири улани відокремилися від команди і стали по обидва боки П'єра.
– Parlez vous francais? - повторив йому запитання офіцер, тримаючись далеко від нього. – Faites venir l"interprete. [Покличте перекладача.] – З-за лав виїхав маленький чоловічоку цивільному російському платті. П'єр по одязі і говірці його відразу ж дізнався в ньому француза одного з московських магазинів.
— Він не схожий на простолюдина, — сказав перекладач, оглянувши П'єра.
– Oh, oh! ca 'a bien l'air d'un des incendiaires, – змастив офіцер. – Demandez lui ce qu'il est? [О, о! він дуже схожий на палія. Запитайте його, хто він?] – додав він.
- Ти хто? – спитав перекладач. - Ти маєш відповідати начальство, - сказав він.
- Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [Я не скажу вам, хто я. Я ваш полонений. Поводьте мене,] – раптом французькою мовив П'єр.
– Ah, Ah! - промовив офіцер, насупившись. - Marchons!
Біля уланів зібрався натовп. Ближче за всіх до П'єра стояла ряба баба з дівчинкою; коли об'їзд рушив, вона посунулася вперед.
- Куди ж це ведуть тебе, голубчику ти мій? – сказала вона. - Дівчинку то, дівчинку то куди я подіну, коли вона не їхня! – казала баба.
– Qu'est ce qu'elle veut cette femme? [Чого їй потрібно?] - Запитав офіцер.
П'єр був як п'яний. Захоплений стан його ще посилився побачивши дівчинки, яку він врятував.
- Ce qu'elle dit? - промовив він. - Adieu! [Чого їй потрібно? Вона несе мою дочку, яку я врятував з вогню. Прощай!] – і він, сам не знаючи, як вирвалася в нього ця безцільна брехня, рішучим урочистим кроком пішов між французами.
Роз'їзд французів був один із тих, які були послані за розпорядженням Дюронеля різними вулицями Москви для припинення мародерства і особливо для затримання паліїв, які, за загальним, в той день виявився, думку у французів вищих чинів, були причиною пожеж. Об'їхавши кілька вулиць, роз'їзд забрав ще чоловік п'ять підозрілих росіян, одного крамаря, двох семінаристів, мужика та дворового чоловіка та кількох мародерів. Але з усіх підозрілих людей найпідозріліше здавався П'єр. Коли їх усіх привели на нічліг до великого будинку на Зубівському валу, в якому було засновано гауптвахту, то П'єра під суворою варти помістили окремо.

У Петербурзі в цей час у вищих колах, з великим жаром, ніж коли-небудь, точилася складна боротьба партій Румянцева, французів, Марії Феодорівни, цесаревича та інших, що заглушується, як завжди, трубінням придворних трутнів. Але спокійне, розкішне, стурбоване лише привидами, відображеннями життя, петербурзьке життя йшло по старому; і з-за цього життя треба було робити великі зусилля, щоб усвідомлювати небезпеку і те важке становище, в якому знаходився російський народ. Ті самі були виходи, бали, той самий французький театр, самі інтереси дворів, самі інтереси служби та інтриги. Тільки найвищих колах робилися зусилля у тому, щоб нагадувати труднощі справжнього становища. Розповідалося пошепки про те, як протилежно одна одній вчинили, за таких важких обставин, обидві імператриці. Імператриця Марія Феодорівна, стурбована добробутом підвідомчих їй богоугодних та виховних установ, зробила розпорядження про відправку всіх інститутів до Казані, і речі цих закладів вже було укладено. Імператриця ж Єлизавета Олексіївна на питання про те, які їй завгодно зробити розпорядження, із властивим їй російським патріотизмом зволила відповісти, що про державні установивона може робити розпоряджень, оскільки це стосується государя; про те, що особисто залежить від неї, вона хотіла сказати, що вона остання виїде з Петербурга.

Лінгвістика (від лат. lingua -
мова), мовознавство, мовознавство - наука,
вивчає мови.
Це наука про природне людською мовоювзагалі
і про всі мови світу як його
індивідуалізованих представників.
У широкому значенні слова, лінгвістика
підрозділяється на наукову та практичну. Частіше
всього під лінгвістикою мається на увазі саме
наукова лінгвістика. Є частиною семіотики як
науки про знаки.
Лінгвістикою професійно займаються вчені лінгвісти.

Лінгвістика та Інформатика.
У житті сучасного суспільства важливу рольграють автоматизовані
інформаційні технології Але розвиток інформаційних технологій відбувається
дуже нерівномірно: якщо сучасний рівеньобчислювальної техніки та
засобів зв'язку вражає уяву, то в області смислової обробки
інформації успіхи значно скромніші. Ці успіхи залежать, перш за все, від
досягнень у вивченні процесів людського мислення, процесів мовного
спілкування між людьми та від уміння моделювати ці процеси на ЕОМ. А це завдання надзвичайної складності. Коли йдеться про створення перспективних
інформаційних технологій, то проблеми автоматичної обробки текстової
інформації, представленої природними мовами, виступають на передній план.
Це визначається тим, що мислення людини тісно пов'язане з її мовою. Більше
того, природна мова є інструментом мислення. Він є також
універсальним засобом спілкування для людей – засобом сприйняття,
накопичення, зберігання, обробки та передачі інформації.
Проблемами використання природної мови у системах автоматичної
обробкою інформації займається наука комп'ютерна лінгвістика. Ця наука
виникла порівняно недавно - на рубежі п'ятдесятих та шістдесятих років
минулого сторіччя. Спочатку, у період свого становлення, вона мала різні
назви: математична лінгвістика, обчислювальна лінгвістика, інженерна
лінгвістика. Але на початку вісімдесятих років за нею закріпилася назва
комп'ютерна лінгвістика

Комп'ютерна лінгвістика - це сфера знань, пов'язана з вирішенням завдань
автоматичної обробки інформації, представленої природною мовою.
Центральними науковими проблемамикомп'ютерної лінгвістики є проблема
моделювання процесу розуміння сенсу текстів (переходу від тексту до
формалізованому уявленню його сенсу) та проблема синтезу мови (переходу від
формалізованого уявлення сенсу до текстів природною мовою). Ці проблеми
виникають під час вирішення низки прикладних завдань:
1) автоматичного виявлення та виправлення помилок при введенні текстів в ЕОМ,
2) автоматичного аналізута синтезу усного мовлення,
3) автоматичного перекладу текстів з одних мов на інші,
4) спілкування з ЕОМ природною мовою,
5) автоматичної класифікації та індексування текстових документів, їх
автоматичне реферування, пошук документів у повнотекстових базах даних.
За минулі півстоліття в галузі комп'ютерної лінгвістики було отримано
значні наукові та практичні результати: були створені системи машинного
перекладу текстів з одних природних мов на інші, системи автоматизованого
пошуку інформації в текстах, системи автоматичного аналізу та синтезу мовлення та
багато інших. Але були й розчарування. Наприклад, проблема машинного перекладу
текстів з одних мов іншими виявилася значно складніше, ніж це представляли
собі піонери машинного перекладу та його послідовники. Те ж саме можна сказати про
автоматизованому пошуку інформації в текстах та задачі аналізу та синтезу усної
промови. Вченим та інженерам доведеться ще чимало потрудитися, щоб
досягти необхідних результатів.

Обробка природної мови (англ. natural language processing; синтаксичний,
морфологічний, семантичний аналіз тексту). Сюди включають також:
Корпусна лінгвістика, створення та використання електронних корпусів текстів
Створення електронних словників, тезауруси, онтології. Наприклад, Lingvo. Словники
використовують, наприклад, для автоматичного перекладу, перевірки орфографії.
Автоматичний переклад тексту. Серед російських перекладачів популярним
є Промт. Серед безкоштовних відомий перекладач Google Translate
Автоматичне вилучення фактів із тексту (витяг інформації) (англ. fact
extraction, text mining)
Автореферування (англ. automatic text summarization). Ця функція увімкнена,
наприклад, у Microsoft Word.
Побудова систем керування знаннями. Див Експертні системи
Створення запитально-відповідних систем (англ. question answering systems).
Оптичне розпізнавання символів (англ. OCR). Наприклад, програма FineReader
Автоматичне розпізнавання мови (англ. ASR). Є платне та безкоштовне ПЗ
Автоматичний синтез мови