Najważniejszym obszarem lingwistyki obliczeniowej jest rozwój. Lingwistyka komputerowa jako dyscyplina lingwistyki stosowanej

Nowosełowa Irina

Dlaczego nie wszystkie tłumaczenia maszynowe są doskonałe? Co decyduje o jakości tłumaczenia? Czy autor ma wystarczającą wiedzę, aby wykorzystać i uzupełnić istniejącą słowniki komputerowe? Odpowiedzi na te pytania autorka szukała w swojej pracy. Sprawozdanie na ten temat - w załączonym pliku produkt działania projektowe- na portalu szkoły

Pobierać:

Zapowiedź:

otwarty

Międzynarodowy

badania

konferencja

uczniowie i studenci szkół średnich

"Edukacja. Nauka. Zawód"

Sekcja „Językoznawstwo obce”

« Lingwistyka komputerowa»

Wykonywane przez Novoselovą Irinę

Miejska placówka oświatowa Gimnazjum nr 39 „Klasyczna”

10 klasa „B”.

Opiekunowie naukowi:

Chigrinyova Tatyana Dmitrievna,

nauczyciel po angielsku najwyższa kategoria

Osipowa Swietłana Leonidowna,

nauczyciel informatyki najwyższej kategorii

Otradny

2011

  1. Angielskie słowa w ICT

Zobacz na stronie internetowej

  1. Mój eksperyment

Jednym z zadań jest przeprowadzenie eksperymentu polegającego na porównaniu możliwości różnych komputerów słowniki językowe, zgodnie z dokładniejszym przybliżonym tłumaczeniem z języka angielskiego na rosyjski.

Przetestowano następujące witryny:

  1. http://tłumacz.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Dla czystości eksperymentu wybrałem zdania z aby zróżnicować stopnie trudności tłumaczenia stylistycznego. Wprowadzane frazy są następujące:

1. Z nowego raportu wynika, że ​​dzisiejsi nastolatkowie są bardziej samolubni niż 20 lat temu

(Nowy raport mówi współczesne nastolatki bardziej samolubni niż 20 lat temu)

2. Wierzy w gry wideo i Internet jest najczęstszą przyczyną zwiększonego egoizmu.

(Uważa, że ​​najbardziej przydają się gry wideo i Internet istotne powody za ten rosnący egoizm)

3. Chcą być lepsi od innych

(Chcą być lepsi od reszty)

4. Zauważyła, że ​​rozpoczął się duży wzrost z rok 2000, kiedy to brutalne gry wideo stały się naprawdę popularne.

(Ona znalazła duży wzrost, która rozpoczęła się w 2000 roku, kiedy brutalne filmy gry stały się naprawdę popularne)

Po przetłumaczeniu tych zdań na stronach internetowych tłumaczy otrzymałem następujące wyniki:

  1. http://tłumacz.eu/

PRACA KURSOWA

w dyscyplinie „Informatyka”

na temat: „Lingwistyka komputerowa”


WSTĘP

1. Miejsce i rola lingwistyki komputerowej w badaniach językoznawczych

2. Nowoczesne interfejsy dla lingwistyki komputerowej

WNIOSEK

LITERATURA


Wstęp

W życiu nowoczesne społeczeństwo ważna rola zautomatyzowane technologie informacyjne odgrywają rolę. Z biegiem czasu ich znaczenie stale rośnie. Ale rozwój Technologie informacyjne dzieje się bardzo nierównomiernie: jeśli nowoczesny poziom technologia komputerowa A środki komunikacji są niesamowite, ale w dziedzinie semantycznego przetwarzania informacji sukcesy są znacznie skromniejsze. Sukcesy te zależą przede wszystkim od osiągnięć w badaniu procesów, procesów myślenia człowieka Komunikacja werbalna między ludźmi oraz możliwość symulowania tych procesów na komputerze.

Gdy mówimy o o tworzeniu obiecujących technologii informatycznych, na pierwszy plan wysuwają się problemy automatycznego przetwarzania informacji tekstowych prezentowanych w językach naturalnych. Wynika to z faktu, że myślenie danej osoby jest ściśle związane z jej językiem. Co więcej, język naturalny jest narzędziem myślenia. On jest także uniwersalny środek komunikacja między ludźmi – sposób percepcji, gromadzenia, przechowywania, przetwarzania i przekazywania informacji. Problemy użytkowania język naturalny Nauka lingwistyki komputerowej zajmuje się systemami automatycznego przetwarzania informacji. Nauka ta powstała stosunkowo niedawno – na przełomie lat pięćdziesiątych i sześćdziesiątych ubiegłego wieku. W ciągu ostatniego półwiecza znaczące naukowe i praktyczne rezultaty: systemy maszynowego tłumaczenia tekstów z jednego języka naturalnego na inny, systemy automatycznego wyszukiwania informacji w tekstach, systemy automatyczna analiza i synteza Mowa ustna i wiele innych. ta praca poświęcona jest budowie optymalnego interfejsu komputerowego z wykorzystaniem lingwistyki komputerowej podczas dyrygowania badania językowe.


W nowoczesny świat Lingwistyka komputerowa jest coraz częściej wykorzystywana w różnych badaniach językowych.

Lingwistyka komputerowa jest dziedziną wiedzy związaną z rozwiązywaniem problemów automatycznego przetwarzania informacji prezentowanych w języku naturalnym. Centralny problemy naukowe Lingwistyka komputerowa to problem modelowania procesu rozumienia znaczenia tekstów (przejście od tekstu do sformalizowanej reprezentacji jego znaczenia) oraz problem syntezy mowy (przejście od sformalizowanej reprezentacji znaczenia do tekstów w języku naturalnym). Problemy te pojawiają się podczas rozwiązywania wielu stosowane problemy a w szczególności zadania automatycznego wykrywania i korygowania błędów przy wprowadzaniu tekstów do komputera, automatycznej analizy i syntezy mowy ustnej, automatyczne tłumaczenie teksty z jednego języka na drugi, komunikacja z komputerem w języku naturalnym, automatyczna klasyfikacja i indeksowanie dokumenty tekstowe, ich automatyczne abstrahowanie, wyszukiwanie dokumentów w pełnotekstowych bazach danych.

Narzędzia językowe tworzone i wykorzystywane w lingwistyce obliczeniowej można podzielić na dwie części: deklaratywną i proceduralną. Część deklaratywna obejmuje słowniki jednostek języka i mowy, teksty i różnego rodzaju tabele gramatyczne, do części proceduralnej - środki manipulacji jednostkami języka i mowy, tekstów i tabele gramatyczne. Interfejs komputerowy odnosi się do proceduralnej części lingwistyki komputerowej.

Sukces w rozwiązywaniu problemów stosowanych lingwistyki komputerowej zależy przede wszystkim od kompletności i dokładności reprezentacji środków deklaratywnych w pamięci komputera oraz od jakości środków proceduralnych. Do chwili obecnej wymagany poziom rozwiązania tych problemów nie został jeszcze osiągnięty, chociaż prace w zakresie lingwistyki komputerowej prowadzone są we wszystkich kraje rozwinięteświat (Rosja, USA, Anglia, Francja, Niemcy, Japonia itp.).

Można jednak zauważyć, że poważne naukowe i praktyczne osiągnięcia w Lingwistyce Komputerowej. W ten sposób w wielu krajach (Rosja, USA, Japonia itp.) zbudowano eksperymentalne i przemysłowe systemy do maszynowego tłumaczenia tekstów z jednego języka na drugi, szereg systemy eksperymentalne komunikacja z komputerami w języku naturalnym, trwają prace nad stworzeniem banków danych terminologicznych, tezaurusów, dwujęzycznych i wielojęzycznych słowników maszynowych (Rosja, USA, Niemcy, Francja itp.), budowane są systemy automatycznej analizy i syntezy mowy ustnej (Rosja , USA, Japonia i inne) itp.), trwają badania w zakresie konstrukcji modeli języka naturalnego.

Ważnym problemem metodologicznym stosowanej lingwistyki obliczeniowej jest prawidłowa ocena niezbędnej relacji pomiędzy komponentem deklaratywnym i proceduralnym systemów automatycznego przetwarzania informacji tekstowych. Co preferować: potężne procedury obliczeniowe oparte na stosunkowo małych systemach słownikowych z bogatą informacją gramatyczną i semantyczną lub potężny komponent deklaratywny ze stosunkowo prostym interfejsy komputerowe? Większość naukowców uważa, że ​​lepszy jest drugi sposób. Szybciej doprowadzi to do osiągnięcia celów praktycznych, bo będzie mniej ślepych zaułków i trudnych przeszkód do pokonania, a tu będzie można na szerszą skalę wykorzystać komputery do automatyzacji badań i rozwoju.

Konieczność mobilizacji wysiłków przede wszystkim nad rozwojem komponentu deklaratywnego systemów automatycznego przetwarzania informacji tekstowych potwierdza półwieczne doświadczenie w rozwoju lingwistyki komputerowej. Przecież tutaj, pomimo niezaprzeczalnych sukcesów tej nauki, zamiłowanie do procedur algorytmicznych nie przyniosło oczekiwanego sukcesu. Doszło nawet do pewnego rozczarowania możliwościami środków proceduralnych.

W świetle powyższego obiecujące wydaje się opracowanie takiej ścieżki rozwoju lingwistyki komputerowej, gdzie główne wysiłki będą skierowane na tworzenie potężnych słowników języków i jednostek mowy, badanie ich struktury semantyczno-syntaktycznej oraz tworzenie podstawowych procedur morfologicznych, Analiza semantyczno-syntaktyczna i konceptualna oraz synteza tekstów. To pozwoli nam podjąć decyzję w przyszłości szeroki zasięg stosowane problemy.

Przed lingwistyką komputerową stoją przede wszystkim zadania językowego wsparcia procesów gromadzenia, gromadzenia, przetwarzania i wyszukiwania informacji. Najważniejsze z nich to:

1. Automatyzacja kompilacji i przetwarzania językowego słowników maszynowych;

2. Automatyzacja procesów wykrywania i korygowania błędów przy wprowadzaniu tekstów do komputera;

3. Automatyczne indeksowanie dokumentów i wniosków o informacje;

4. Automatyczna klasyfikacja i abstrakcja dokumentów;

5. Wsparcie językowe procesów wyszukiwania informacji w jednojęzycznych i wielojęzycznych bazach danych;

6. Tłumaczenie maszynowe tekstów z jednego języka naturalnego na inny;

7. Budowa procesorów językowych zapewniających komunikację pomiędzy użytkownikami i zautomatyzowanych inteligentnych systemy informacyjne(w szczególności z systemy eksperckie) w języku naturalnym lub w języku zbliżonym do naturalnego;

8. Wydobywanie informacji faktograficznych z tekstów nieformalnych.

Zatrzymajmy się szczegółowo nad problemami najbardziej istotnymi dla tematu badań.

W zajęcia praktyczne centra informacyjne Istnieje potrzeba rozwiązania problemu automatycznego wykrywania i korygowania błędów w tekstach wprowadzanych do komputera. Ten złożone zadanie można warunkowo podzielić na trzy zadania - zadania kontroli ortograficznej, składniowej i semantycznej tekstów. Pierwszy z nich można rozwiązać za pomocą procedury analizy morfologicznej, która wykorzystuje dość potężny słownik maszynowy tematów wyrazów. W procesie kontroli pisowni słowa tekstu poddawane są analizie morfologicznej i jeśli ich podstawy zostaną utożsamione z podstawami słownika podręcznego, wówczas uznaje się je za prawidłowe; jeśli nie zostaną zidentyfikowane, wówczas wraz z mikrokontekstem są prezentowane osobie do obejrzenia. Osoba wykrywa i koryguje zniekształcone słowa i odpowiadające im systemu oprogramowania dokonuje tych poprawek w poprawionym tekście.

Zadaniem syntaktycznej kontroli tekstów w celu wykrycia w nich błędów jest zasadniczo trudniejsze zadania ich kontrolę nad ortografią. Po pierwsze dlatego, że zawiera zadanie kontroli pisowni jako swój obowiązkowy element, a po drugie dlatego, że problem rozbiór gramatyczny zdania nieformalne teksty w w pełni jeszcze nie zdecydowano. Jednak częściowa kontrola składniowa tekstów jest całkiem możliwa. Można to zrobić na dwa sposoby: albo skompilować w miarę reprezentatywne słowniki maszynowe referencyjnych struktur syntaktycznych i porównać z nimi struktury składniowe analizowanego tekstu; lub rozwijać skomplikowany system zasady sprawdzania spójności gramatycznej elementów tekstowych. Bardziej obiecująca wydaje nam się pierwsza ścieżka, choć oczywiście nie wyklucza ona możliwości wykorzystania elementów drugiej ścieżki. Struktura syntaktyczna teksty należy opisywać w kategoriach klas gramatycznych wyrazów (dokładniej w postaci ciągów zbiorów informacje gramatyczne do słów).

Zadanie semantycznej kontroli tekstów w celu ich wykrycia błędy semantyczne należy zaliczyć do zadań związanych ze sztuczną inteligencją. Można go w pełni rozwiązać jedynie na podstawie modelowania procesów ludzkiego myślenia. W tym przypadku najwyraźniej konieczne będzie stworzenie potężnych encyklopedycznych baz wiedzy i narzędzi programowych do manipulacji wiedzą. Jednak dla ograniczonych obszary podlegające a dla sformalizowanych informacji zadanie to jest całkowicie do rozwiązania. Należy go postawić i rozwiązać jako problem semantyczno-syntaktycznego sterowania tekstami.

LINGWISTYKA KOMPUTEROWA (kalka z angielskiego lingwistyki komputerowej), jedna z dziedzin lingwistyki stosowanej, w której opracowywane są programy komputerowe, technologie komputerowe do organizowania i przetwarzania danych oraz wykorzystywane do badania języka i modelowania funkcjonowania języka w określonych warunkach, sytuacjach i problemie obszary. Z drugiej strony jest to obszar zastosowania modele komputerowe język w językoznawstwie i dyscyplinach pokrewnych. Jak wyjątkowy kierunek naukowy ukształtowała się lingwistyka komputerowa Europejskie Studia, studia europejskie w 1960 roku. Ponieważ angielski przymiotnik computational można również przetłumaczyć jako „computational”, w literaturze spotyka się również termin „lingwistyka obliczeniowa”, ale w nauka narodowa nabiera węższego znaczenia, zbliżając się do pojęcia „lingwistyki ilościowej”.

Termin „lingwistyka ilościowa” często nazywany jest lingwistyką obliczeniową, co charakteryzuje interdyscyplinarny kierunek badań stosowanych, w których głównym narzędziem badania języka i mowy są metody analizy ilościowej lub statystycznej. Czasami lingwistykę ilościową (lub ilościową) przeciwstawia się lingwistyce kombinatorycznej. W tym ostatnim dominującą rolę odgrywają „nieilościowe” aparat matematyczny- teoria mnogości, logika matematyczna, teoria algorytmów itp. Z teoretycznego punktu widzenia zastosowanie metody statystyczne w językoznawstwie umożliwia uzupełnienie strukturalnego modelu języka o element probabilistyczny, czyli stworzenie teoretycznego modelu strukturalno-probabilistycznego, który ma znaczny potencjał wyjaśniający. W obszar zastosowań Lingwistyka ilościowa reprezentowana jest przede wszystkim przez wykorzystanie fragmentów tego modelu, służących do językowego monitorowania funkcjonowania języka, dekodowania zakodowanego tekstu, autoryzacji/atrybucji tekstu itp.

Termin „lingwistyka komputerowa” i problemy tej dziedziny często kojarzone są z modelowaniem komunikacji, a przede wszystkim z zapewnieniem interakcji człowieka z komputerem w języku naturalnym lub ograniczonym języku naturalnym (w tym celu systemy specjalne przetwarzanie języka naturalnego), a także z teorią i praktyką systemów wyszukiwania informacji (IRS). Zapewnienie komunikacji człowieka z komputerem w języku naturalnym jest czasami określane jako „przetwarzanie języka naturalnego” (tłumaczenie z języka angielskiego terminu Przetwarzanie języka naturalnego). Ten obszar lingwistyki komputerowej powstał pod koniec lat 60. XX wieku za granicą i rozwinął się w ramach dyscypliny naukowo-technologicznej zwanej sztuczną inteligencją (prace R. Schenka, M. Lebowitza, T. Winograda i in.). W swoim znaczeniu wyrażenie „przetwarzanie języka naturalnego” powinno obejmować wszystkie obszary, w których komputery są wykorzystywane do przetwarzania danych językowych. W praktyce jednak ugruntowało się węższe rozumienie tego terminu – rozwój metod, technologii i specyficznych systemów zapewniających komunikację człowieka z komputerem w języku naturalnym lub ograniczonym języku naturalnym.

W pewnym stopniu lingwistyka komputerowa może obejmować prace z zakresu tworzenia systemów hipertekstowych, zaliczanych do tzw specjalna droga organizacja tekstu, a nawet jak fundamentalnie nowy rodzaj tekst, kontrastujący pod wieloma względami ze zwykłym tekstem ukształtowanym w tradycji drukarskiej Gutenberga (patrz Gutenberg).

Do kompetencji lingwistyki komputerowej zalicza się także tłumaczenie automatyczne.

W ramach lingwistyki komputerowej wyłonił się stosunkowo nowy kierunek, aktywnie rozwijający się od lat 80.-90. XX wieku – lingwistyka korpusowa, w której ogólne zasady budowa językowych korpusów danych (w szczególności korpusów tekstowych) z wykorzystaniem nowoczesności technologia komputerowa. Korpusy tekstowe to zbiory specjalnie wyselekcjonowanych tekstów z książek, czasopism, gazet itp., przeniesionych na nośniki komputerowe i przeznaczonych do automatycznego przetwarzania. Powstał jeden z pierwszych korpusów tekstowych Wersja amerykańska Anglistyki na Brown University (tzw. Brown Corps) w latach 1962-63 pod kierunkiem W. Francisa. W Rosji od początku XXI wieku Instytut Języka Rosyjskiego im. Winogradowa Rosyjskiej Akademii Nauk opracowuje Narodowy Korpus Języka Rosyjskiego, składający się z reprezentatywnej próby tekstów rosyjskojęzycznych o objętości około 100 milionów słów. Oprócz samej konstrukcji korpusów danych, lingwistyka korpusowa zajmuje się tworzeniem narzędzi komputerowych ( programy komputerowe), przeznaczony do wydobywania różnych informacji z korpusów tekstowych. Z punktu widzenia użytkownika korpusy tekstowe podlegają wymogom reprezentatywności (reprezentatywności), kompletności i oszczędności.

Lingwistyka komputerowa aktywnie rozwija się zarówno w Rosji, jak i za granicą. Napływ publikacji z tego zakresu jest bardzo duży. Oprócz zbiorów tematycznych od 1984 roku w Stanach Zjednoczonych co kwartał ukazuje się czasopismo Computational Linguistics. Wiele prac organizacyjnych i naukowych prowadzi Stowarzyszenie Lingwistyki Komputerowej, które ma m.in struktury regionalne na całym świecie (w szczególności oddział europejski). Co dwa lata odbywają się międzynarodowe konferencje COLINT (w 2008 roku konferencja odbyła się w Manchesterze). Główne kierunki lingwistyki obliczeniowej omawiane są także na corocznej międzynarodowej konferencji „Dialog”, organizowanej przez Rosyjski Instytut Badawczy Sztucznej Inteligencji, Wydział Filologiczny Moskiewskiego Uniwersytetu Państwowego, Yandex i szereg innych organizacji. Odpowiednie kwestie są również szeroko reprezentowane konferencje międzynarodowe Przez sztuczna inteligencja różne poziomy.

Dosł.: Zvegintsev V. A. Lingwistyka teoretyczna i stosowana. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Lingwistyka matematyczna. M., 1977; Gorodecki B. Yu. Rzeczywiste problemy lingwistyka stosowana // Nowość w językoznawstwie obcym. M., 1983. Wydanie. 12; Kibrik A. E. Lingwistyka stosowana // Kibrik A. E. Eseje na temat ogólnych i stosowane zagadnienia językoznawstwo. M., 1992; Kennedy G. Wprowadzenie do lingwistyki korpusowej. L., 1998; Bolshakov I.A., Gelbukh A. Lingwistyka obliczeniowa: modele, zasoby, zastosowania. Mech., 2004; Narodowy Korpus Języka Rosyjskiego: 2003-2005. M., 2005; Baranov A. N. Wprowadzenie do językoznawstwa stosowanego. wydanie 3. M., 2007; Językoznawstwo komputerowe i technologie intelektualne. M., 2008. Wydanie. 7.

Na wydziale filologicznym Liceum uruchamiana jest nowa gospodarka Program główny, poświęcony lingwistyce obliczeniowej: mile widziani są tutaj kandydaci z wykształceniem humanitarnym i matematycznym Podstawowa edukacja oraz wszystkich zainteresowanych rozwiązywaniem problemów w jednej z najbardziej obiecujących dziedzin nauki. Jej dyrektorka, Anastasia Bonch-Osmolovskaya, opowiedziała Teoriom i Praktykom, czym jest lingwistyka obliczeniowa, dlaczego roboty nie zastąpią człowieka i czego będzie się uczyć w ramach studiów magisterskich HSE z lingwistyki obliczeniowej.

Program ten jest prawie jedyny w swoim rodzaju w Rosji. Gdzie się uczyłeś?

Studiowałem na Moskiewskim Uniwersytecie Państwowym na wydziale lingwistyki teoretycznej i stosowanej Wydział Filologiczny. Nie trafiłem tam od razu, najpierw trafiłem na wydział rosyjski, ale potem poważnie zainteresowałem się lingwistyką i urzekła mnie atmosfera, która panuje na wydziale do dziś. Jest najważniejsza rzecz dobry kontakt pomiędzy nauczycielami i uczniami oraz ich obopólne interesy.

Kiedy miałam dzieci i musiałam zarabiać na życie, zajęłam się lingwistyką komercyjną. W 2005 roku nie było do końca jasne, na czym polega ten obszar działalności jako taki. Pracowałem w różnych firmach językowych: Zacząłem od małej firmy na stronie Public.ru - jest to rodzaj biblioteki multimediów, w której zacząłem pracować nad technologiami językowymi. Potem przez rok pracowałem w Rosnanotechu, gdzie pojawił się pomysł do zrealizowania portalu analitycznego dzięki czemu znajdujące się na nim dane są automatycznie strukturyzowane. Następnie kierowałem działem lingwistycznym w firmie Avicomp – to już poważna produkcja z zakresu lingwistyki komputerowej i technologii semantycznych. W tym samym czasie prowadziłem kurs lingwistyki komputerowej na Moskiewskim Uniwersytecie Państwowym i starałem się uczynić go bardziej nowoczesnym.

Dwa zasoby dla lingwisty: - strona stworzona przez lingwistów w celu badań naukowych i stosowanych związanych z językiem rosyjskim. Jest to model języka rosyjskiego, przedstawiony przy użyciu ogromnej gamy tekstów z różnych gatunków i epok. Teksty wyposażone są w znaczniki językowe, za pomocą których można uzyskać informacje o częstotliwości występowania określonych zjawisk językowych. Wordnet to ogromna baza leksykalna języka angielskiego, główny pomysł Wordnet - aby połączyć nie słowa, ale ich znaczenia w jedną dużą sieć. Wordnet można pobrać i używać do własnych projektów.

Czym zajmuje się lingwistyka komputerowa?

Jest to najbardziej interdyscyplinarna dziedzina. Najważniejszą rzeczą jest tutaj zrozumienie tego, co się dzieje elektroniczny świat i kto pomoże Ci zrobić konkretne rzeczy.

Otacza nas bardzo duża liczba informacji cyfrowej, istnieje wiele projektów biznesowych, których powodzenie zależy od przetwarzania informacji, projekty te mogą dotyczyć dziedziny marketingu, polityki, ekonomii i wszystkiego innego. A bardzo ważne jest, aby umieć efektywnie posługiwać się tymi informacjami – najważniejsza jest nie tylko szybkość przetwarzania informacji, ale także łatwość, z jaką po odfiltrowaniu szumu można pozyskać potrzebne dane i stworzyć kompletny zdjęcie z niego.

Wcześniej z lingwistyką komputerową kojarzono pewne globalne idee, np.: ludzie myśleli, że tłumaczenie maszynowe zastąpi tłumaczenie ludzkie, że zamiast ludzi będą działać roboty. Ale teraz wydaje się to utopią, a w wyszukiwarkach używa się tłumaczenia maszynowego Szybkie wyszukiwanie w nieznanym języku. Oznacza to, że obecnie lingwistyka rzadko zajmuje się abstrakcyjnymi problemami - głównie małymi rzeczami, które można włożyć do dużego produktu i na tym zarobić.

Jeden z duże zadania współczesna językoznawstwo- sieć semantyczna, gdy wyszukiwanie odbywa się nie tylko na podstawie zbieżności słów, ale także znaczenia, a wszystkie witryny są w ten czy inny sposób oznaczone semantyką. Może to być przydatne na przykład w przypadku raportów policyjnych lub medycznych sporządzanych codziennie. Analiza połączenia wewnętrzne daje dużo niezbędne informacje, a ręczne czytanie i liczenie jest niezwykle czasochłonne.

W skrócie mamy tysiąc tekstów, trzeba je posortować w grupy, przedstawić każdy tekst w formie struktury i otrzymać tabelę, z którą możemy już pracować. Nazywa się to nieustrukturyzowanym przetwarzaniem informacji. Z kolei lingwistyka komputerowa zajmuje się na przykład tworzeniem sztucznych tekstów. Jest taka firma, która wymyśliła mechanizm generowania tekstów na tematy, o których człowiekowi nudzi się pisanie: zmiany cen nieruchomości, prognozy pogody, relacje z meczów piłkarskich. Zamawianie tych tekstów dla osoby jest znacznie droższe i teksty komputerowe na takie tematy napisane są spójnym, ludzkim językiem.

Yandex aktywnie angażuje się w rozwój w dziedzinie wyszukiwania nieustrukturyzowanych informacji w Rosji, Kaspersky Lab poszukuje pracowników grupy badawcze którzy studiują nauczanie maszynowe. Czy ktoś na rynku próbuje wymyślić coś nowego w dziedzinie lingwistyki komputerowej?

**Książki z zakresu lingwistyki komputerowej:**

Daniel Jurafsky, Przetwarzanie mowy i języka

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, „Wprowadzenie do wyszukiwania informacji”

Jakow Testelets, „Wprowadzenie do składni ogólnej”

Większość zmian językowych jest zastrzeżona duże firmy, prawie nic nie można znaleźć otwarty dostęp. To spowalnia rozwój branży, nie mamy wolnego rynku językowego i pakietowych rozwiązań.

Ponadto brakuje pełnoprawnych zasoby informacji. Istnieje taki projekt jak Narodowy Korpus Języka Rosyjskiego. Jest to jeden z najlepszych budynków narodowych na świecie, który szybko się rozwija i otwiera niesamowite możliwości dla nauki i nauki badania stosowane. Różnica jest mniej więcej taka sama jak w biologii – przed badaniami DNA i po.

Ale wiele zasobów nie istnieje w języku rosyjskim. Nie ma więc analogii do tak wspaniałego anglojęzycznego zasobu jak Framenet - jest to sieć koncepcyjna, w której wszyscy możliwe połączenia jakieś konkretne słowo z innymi słowami. Na przykład jest słowo „latać” - kto potrafi latać, gdzie, z jakim przyimkiem jest użyte to słowo, z jakimi słowami jest połączone i tak dalej. Ten zasób pomaga połączyć język z prawdziwe życie, czyli monitorować jego zachowanie konkretne słowo na poziomie morfologii i składni. To jest bardzo użyteczne.

Firma Avicomp pracuje obecnie nad wtyczką umożliwiającą wyszukiwanie artykułów o podobnej treści. Oznacza to, że jeśli interesuje Cię artykuł, możesz szybko zapoznać się z historią fabuły: kiedy pojawił się temat, co zostało napisane i kiedy było największe zainteresowanie tym problemem. Przykładowo za pomocą tej wtyczki będzie można, zaczynając od artykułu poświęconego wydarzeniom w Syrii, bardzo szybko sprawdzić, jak podczas ostatni rok rozwinęły się tam wydarzenia.

Jak będzie zorganizowany proces uczenia się w programie magisterskim?

Szkolenia w HSE organizowane są w odrębnych modułach – jak w zachodnie uniwersytety. Studenci zostaną podzieleni na małe zespoły, ministartupy – czyli powinniśmy otrzymać kilka skończone projekty. Chcemy uzyskać prawdziwe produkty, które następnie udostępnimy ludziom i pozostawimy w domenie publicznej.

Oprócz bezpośrednich kierowników projektów studentów, chcemy znaleźć wśród nich kuratorów potencjalni pracodawcy- na przykład od tego samego Yandexa, który również zagra w tę grę i udzieli uczniom kilku rad.

Mam nadzieję, że ludzie z jak najbardziej różne obszary: programiści, lingwiści, socjolodzy, marketerzy. Będziemy mieli kilka kursów adaptacyjnych z lingwistyki, matematyki i programowania. Następnie będziemy mieli dwa poważne kursy z lingwistyki i będą one powiązane z najbardziej odpowiednimi teorie językowe, chcemy, aby nasi absolwenci potrafili czytać i rozumieć artykuły nowożytne. Podobnie jest z matematyką. Będziemy mieli kurs zatytułowany „Matematyczne podstawy lingwistyki obliczeniowej”, który zarysuje te gałęzie matematyki, na których opiera się współczesna lingwistyka obliczeniowa.

Aby zapisać się na studia magisterskie, musisz zdać egzamin Egzamin wstępny z języka i zdać konkurs na portfolio.

Oprócz przedmiotów głównych w ofercie znajdzie się linia przedmiotów do wyboru.Zaplanowaliśmy kilka cykli – dwa z nich nastawione są na pogłębioną wiedzę poszczególne tematy, które obejmują na przykład tłumaczenie maszynowe i lingwistykę korpusową, a jeden, wręcz przeciwnie, jest kojarzony z powiązane obszary: Jak na przykład, Media społecznościowe, uczenie maszynowe czy humanistyka cyfrowa – kierunek, który, mamy nadzieję, będzie prowadzony w języku angielskim.