Objekt og metoder for matematisk lingvistikk. Språklig encyklopedisk ordbok

I løpet av det siste århundret har lingvistikk alltid blitt trukket frem som et eksempel på en vitenskap som utviklet seg raskt og svært raskt nådde metodisk modenhet. Allerede i midten av forrige århundre tok ung vitenskap trygt sin plass i kretsen av vitenskaper som hadde en tusenårig tradisjon, og en av dens mest fremtredende representanter - A. Schleicher - hadde mot til å tro at han med sine verker tegnet den siste linjen.<113>Språkvitenskapens historie har imidlertid vist at en slik mening var for forhastet og uberettiget. På slutten av århundret led lingvistikken sitt første store sjokk knyttet til kritikk av neogrammatiske prinsipper, som ble fulgt av andre. Det skal bemerkes at alle krisene som vi kan avsløre i språkvitenskapens historie, som regel ikke rokket ved grunnlaget, men tvert imot bidro til styrkingen og til slutt brakte med seg avklaringen og forbedringen metoder for språklig forskning, utvidet sammen med disse og vitenskapelige problemstillinger.

Men andre vitenskaper, inkludert et stort antall nye, levde og utviklet seg også ved siden av lingvistikken. De fysiske, kjemiske og tekniske (såkalte «eksakte») vitenskapene har fått en særlig rask utvikling i vår tid, og deres teoretiske grunnlag, matematikken, har regjert over dem alle. De eksakte vitenskapene har ikke bare i stor grad fortrengt alle humaniora, men prøver nå å "bringe dem inn i deres tro", underordne dem deres skikker og påtvinge dem deres forskningsmetoder. Gitt den nåværende situasjonen, ved å bruke et japansk uttrykk, kan vi si at nå skjender lingvister og filologer selve kanten av matten, der de eksakte vitenskapene, ledet av matematikken, triumferende og fritt plassert.

Er det ikke mer hensiktsmessig sett fra allmennvitenskapelige interesser å kapitulere for matematikken, å overgi seg helt til kraften i dens metoder, slik enkelte røster allerede åpenlyst etterlyser, 5 9 og derved kanskje få ny styrke? For å svare på disse spørsmålene må vi først se på hva matematikken hevder å gjøre i dette tilfellet, i hvilket område av lingvistikken matematiske metoder brukes, i hvilken grad de er i samsvar med spesifikasjonene til språklig materiale, og om de er i stand til å å gi eller til og med bare foreslå svar på de spørsmålene som språkvitenskapen stiller seg selv.

Helt fra begynnelsen bør det bemerkes at blant entusiaster av den nye, matematiske retningen i lingvistikk<114>I vitenskapelig forskning er det ingen konsensus om dens mål og mål. Akademiker A. A. Markov, som var den første som brukte matematiske metoder på språk, Boldrini, Yul, Mariotti anser språklige elementer som egnet illustrerende materiale for å konstruere kvantitative metoder, eller for statistiske teoremer, uten i det hele tatt å spørre om resultatene av slik forskning er av interesse for lingvister 6 0 . Ross mener at sannsynlighetsteori og matematisk statistikk gir et verktøy eller, som de nå foretrekker å si, en matematisk modell for å teste og bekrefte de språklige konklusjonene som tillater numerisk tolkning. Derfor er matematiske metoder kun tenkt som hjelpemidler for språkforskning 6 1 . Mye mer hevdes av Kherdan, som i sin bok ikke bare oppsummerte og systematiserte alle forsøk på matematisk studie av språkproblemer, men også forsøkte å gi dem en klar orientering i forhold til videre arbeid. Han fokuserer presentasjonen av alt materialet i boken sin om "å forstå litterær statistikk (som han kaller studiet av tekster ved metoder for matematisk statistikk. - AT 3.) som en integrert del av lingvistikk» 6 2, og essensen og målene for denne nye delen i lingvistikk er formulert med følgende ord: «Litterær statistikk som en kvantitativ språkfilosofi er anvendelig for alle grener av lingvistikk. Etter vår mening er litterær statistikk strukturell lingvistikk, hevet til nivået for kvantitativ vitenskap eller kvantitativ filosofi. Dermed er det like feil å definere resultatene som ikke relevante for feltet<115>lingvistikk eller behandle det som et hjelpeverktøy for forskning" 6 3.

Det er neppe tilrådelig å gå inn i teoretisering om hvorvidt det er legitimt i dette tilfellet å snakke om fremveksten av en ny gren av lingvistikken og løse spørsmålet om dens påstander, uten først å gå over til en vurdering av hva som faktisk har blitt gjort i denne. område, og for å avklare i hvilken retning bruken av nye metoder går 6 4. Dette vil hjelpe oss å forstå mangfoldet av meninger.

Bruken av et matematisk (eller mer presist, statistisk) kriterium for å løse språklige spørsmål er på ingen måte nytt for språkvitenskapen, og har i en eller annen grad lenge vært brukt av lingvister. Tross alt, i hovedsak, slike tradisjonelle begreper om lingvistikk som den fonetiske loven (og relaterte<116>noe annet enn det er et unntak fra loven), produktiviteten til grammatiske elementer (for eksempel orddannende suffikser) eller til og med kriteriene for relaterte forhold mellom språk er til en viss grad basert på relative statistiske egenskaper. Tross alt, jo skarpere og mer distinkt den statistiske kontrasten til de observerte tilfellene er, jo mer grunn har vi til å snakke om produktive og uproduktive suffikser, om den fonetiske loven og unntak fra den, om tilstedeværelsen eller fraværet av beslektede relasjoner mellom språk. Men hvis det statistiske prinsippet i slike tilfeller ble brukt mer eller mindre spontant, begynte det senere å bli brukt bevisst og med en viss målsetting. I vår tid har således såkalte frekvensordbøker over ordforråd og uttrykk for individuelle språk 6 5 eller til og med betydningen av flerspråklige ord med et "generelt fokus på virkeligheten" 6 6 blitt utbredt. Dataene fra disse ordbøkene brukes til å sette sammen fremmedspråklige lærebøker (hvis tekstene er basert på det mest brukte ordforrådet) og minimumsordbøker. Statistiske beregninger fant en spesiell språklig bruk i metoden for leksikostatistikk eller glottokronologi av M. Swadesh, der det, på grunnlag av statistiske formler som tar hensyn til tilfeller av forsvinning av grunnleggende ord fra språk, er mulig å etablere en absolutt kronologi av inndeling av språkfamilier 6 7 .

I i fjor tilfeller av bruk av matematiske metoder på språklig materiale har mangedoblet seg betydelig, og i mengden av slike forsøk har mer eller mindre bestemte retninger dukket opp. La oss slå til<117>å vurdere dem sekvensielt, uten å gå i detaljer.

La oss starte med retningen som er gitt navnet stylostatistics. I dette tilfellet snakker vi om å definere og karakterisere stiltrekkene til individuelle verk eller forfattere gjennom de kvantitative relasjonene til de språklige elementene som brukes. Grunnlaget for den statistiske tilnærmingen til studiet av stilistiske fenomener er forståelsen av litterær stil som en individuell måte å mestre språkets midler på. Samtidig er forskeren fullstendig distrahert fra spørsmålet om den kvalitative betydningen av de tellbare språklige elementene, og fokuserer hele sin oppmerksomhet kun på den kvantitative siden; den semantiske siden av de språklige enhetene som studeres, deres emosjonelle og ekspressive belastning, så vel som deres egenvekt i stoffet til et kunstverk - alt dette forblir utenfor regnskapet og refererer til de såkalte overflødige fenomenene. Dermed fremstår et kunstverk i form av en mekanisk totalitet, hvis spesifikke konstruksjon kun kommer til uttrykk gjennom de numeriske forholdene mellom elementene. Representanter for stilistisk statistikk lukker ikke øynene for alle de bemerkede omstendighetene, og kontrasterer metodene til tradisjonell stilistikk, som utvilsomt inkluderer elementer av subjektivitet, med en enkelt kvalitet ved den matematiske metoden, som etter deres mening betaler for alle dens mangler - objektiviteten til de oppnådde resultatene. «Vi streber», skriver for eksempel V. Fuchs, «... å karakterisere stilen til språklige uttrykk med matematiske midler. For dette formålet må det skapes metoder, hvis resultater må ha objektivitet i samme grad som resultatene fra de eksakte vitenskapene... Dette forutsetter at vi, i hvert fall i utgangspunktet, kun vil være opptatt av de formelle strukturelle kvalitetene, og ikke med det semantiske innholdet i språklige uttrykk . På denne måten vil vi få et system av ordinalrelasjoner, som i sin helhet vil representere grunnlaget og utgangspunktet for den matematiske stilteorien» 6 8 .<118>

Den enkleste typen statistisk tilnærming til å studere språket til forfattere eller individuelle verk er å telle ordene som brukes, siden rikdommen i ordforrådet tilsynelatende på en viss måte skal karakterisere forfatteren selv. Resultatene av slike beregninger gir imidlertid noe uventede resultater i denne forbindelse og bidrar ikke på noen måte til estetisk kunnskap og vurdering av et litterært verk, som ikke minst er blant stilistikkens oppgaver. Her er noen data om det totale antallet ord brukt i en rekke verk:

Bibelen (latinsk). . . . . . . . . . 5649 ord

Bibelen (hebraisk). . . . 5642 ord

Demosthenes (taler). . . . . . . . . . . . 4972 ord

Sallust. . . . . . . . . . . . . . . . . 3394 ord

Horace. . . . . . . . . . . . . . . . . . . .6084 ord

Dante (Den guddommelige komedie) 5860 ord

(dette inkluderer 1615 egennavn og geografiske navn)

Tasso (Furious Orland). . . . 8474 ord

Milton. . . . . . . . . . . . . . . . . . . . .8000 ord (ca. data)

Shakespeare. . . . . . . . . . . . . . . . . . .15000 ord

(omtrent, ifølge andre kilder, 20 000 ord)

O. Jespersen påpeker at vokabularet til Zola, Kipling og Jack London betydelig overgår Miltons, dvs. tallet er 8000 6 9 . En beregning av ordboken med taler av USAs president William Wilson fant at den er rikere enn Shakespeares. Til dette skal legges data fra psykologer. Derfor slo Terman, basert på observasjoner av et stort antall tilfeller, fast at det gjennomsnittlige barnets ordforråd er omtrent 3600 ord, og i en alder av 14 - allerede 9000. Den gjennomsnittlige voksen bruker 11.700 ord, og en person med "høy intelligens". bruker opptil 13 500 7 0 . Slike numeriske data gir derfor ikke i seg selv noe grunnlag for å identifisere verkens stilistiske kvaliteter og bestemmer bare «objektivt»<119>De oppgir bruken av forskjellige antall ord av forskjellige forfattere, som, som beregningene ovenfor viser, ikke er relatert til den relative kunstneriske verdien av deres verk.

Beregninger av den relative hyppigheten av ordbruk blant enkeltforfattere er konstruert noe annerledes. I dette tilfellet blir ikke bare det totale antallet ord tatt i betraktning, men også bruksfrekvensen av individuelle ord. Statistisk bearbeiding av materialet innhentet på denne måten innebærer at ord med lik bruksfrekvens blir gruppert i klasser (eller ranger), noe som fører til etablering av frekvensfordelingen av alle ord brukt av en gitt forfatter. Et spesielt tilfelle av denne typen beregning er bestemmelsen av den relative frekvensen av spesielle ord (for eksempel romansk ordforråd i verkene til Chaucer, som ble gjort av Mersand 7 1). Den relative frekvensen av ord brukt av forfattere inneholder den samme objektive informasjonen om stilen til individuelle forfattere som oppsummeringsberegningene ovenfor, med den eneste forskjellen at resultatet er mer nøyaktige numeriske data. Men den brukes også til å datere individuelle verk av samme forfatter på grunnlag av en foreløpig beregning av den relative hyppigheten av hans bruk av ord i ulike perioder av livet hans (basert på verk datert av forfatteren selv). En annen type bruk av data fra slike beregninger er å fastslå ektheten av forfatterskap til verk som dette spørsmålet virker tvilsomt for 7 2 . I dette siste tilfellet er alt basert på en sammenligning av statistiske formler for bruksfrekvensen i ekte og kontroversielle verk. Det er ikke nødvendig å snakke om den veldig store relativiteten og omtrentligheten til resultatene oppnådd med slike metoder. Tross alt endres den relative bruksfrekvensen ikke bare med forfatterens alder, men også avhengig av sjangeren, plottet, så vel som det historiske miljøet til verket (jf. for eksempel "Brød" og "Peter I" ” av A. Tolstoy).<120>

Ved å utdype metoden beskrevet ovenfor, begynte stilistisk statistikk å ty til kriteriet om stabilitet av den relative frekvensen til de vanligste ordene som en stilkarakteristikk. Metoden som brukes i dette tilfellet kan illustreres av den statistiske behandlingen av Pushkins historie "Kapteinens datter", utført av Jesselson og Epstein ved Institute of Slavic Languages ved University of Detroit (USA) 7 3 . Hele teksten i historien (ca. 30.000 tilfeller av ordbruk) ble undersøkt, og deretter passasjer som inneholdt rundt 10.000 og 5.000 tilfeller av bruk. Deretter, for å bestemme stabiliteten til den relative frekvensen av ordbruk, for de 102 vanligste ordene (med en frekvens fra 1160 ganger til 35), ble den beregnede relative frekvensen (laget på grunnlag av eksempelpassasjer) sammenlignet med faktisk en. For eksempel ble konjunksjonen "og" brukt 1160 ganger gjennom hele historien. I en passasje som inneholder 5 000 forekomster av alle ord, forventer vi at denne konjunksjonen brukes 5 000 x 1 160:30 000, eller omtrent 193 ganger, og i en passasje som inneholder 10 000 forekomster av alle ord, vil den forventes å bli brukt 10,000 ganger x. 1 160: 30 000, eller 386 ganger. Sammenligning av data oppnådd ved bruk av denne typen beregninger med faktiske data viser et svært ubetydelig avvik (innen 5%). Basert på lignende beregninger ble det funnet at i denne historien av Pushkin brukes preposisjonen "k" dobbelt så ofte som "y", og pronomenet "du" brukes tre ganger oftere enn "dem", etc. Dermed, til tross Til tross for alle vendingene i handlingen, både gjennom hele historien og i dens enkelte deler, er det stabilitet i den relative hyppigheten av ordbruk. Det som observeres i forhold til noen (vanligste) ord er antagelig anvendelig i forhold til alle ord som brukes i verket. Det følger at forfatterens stil kan karakteriseres av et visst forhold mellom variasjonen mellom den gjennomsnittlige bruksfrekvensen av et ord og den generelle frekvensen for et gitt språk<121>hyppigheten av bruken. Dette forholdet betraktes som en objektiv kvantitativ karakteristikk av forfatterens stil.

Andre formelle elementer i språkstrukturen studeres på lignende måte. For eksempel underkastet V. Fuchs en komparativ og statistisk undersøkelse de metriske trekkene til verkene til Goethe, Rilke, Caesar, Sallust og andre

Stabilitetskriteriet for den relative hyppigheten av ordbruk, mens det tydeliggjør teknikken for kvantitativ karakterisering av stil, introduserer ikke noe fundamentalt nytt sammenlignet med de mer primitive metodene diskutert ovenfor. Alle metoder for stylostatistikk gir til syvende og sist like lidenskapelige "objektive" resultater, som glir over overflaten av språket og klamrer seg bare til rent ytre trekk. Kvantitative metoder er tilsynelatende ikke i stand til å fokusere på de kvalitative forskjellene i materialet som studeres og faktisk utjevne alle objektene som studeres.

Der maksimal spesifikasjon er nødvendig, foreslås de mest generaliserte kriteriene; kvalitative egenskaper uttrykkes i kvantitetsspråket. Dette er ikke bare en logisk motsetning, men også en uenighet med tingenes natur. Faktisk, hva skjer hvis vi prøver å oppnå en komparativ stilistisk (dvs. derfor kvalitativ) karakteristikk av verkene til Alexander Gerasimov og Rembrandt basert på det kvantitative forholdet mellom rød og svart maling på lerretene deres? Tilsynelatende er dette absolutt tull. I hvilken grad er fullstendig "objektiv" kvantitativ informasjon om en persons fysiske data i stand til å gi oss en idé om alt som kjennetegner en person og utgjør hans sanne essens? Tydeligvis ingen. De kan bare tjene som et individuelt tegn som skiller en person fra en annen, som avtrykket av viklingene på tommelen. Situasjonen er lik med de kvantitative egenskapene til litterær stil. Hvis du ser nøye etter, gir de like magre data for å bedømme den faktiske stilistiske<122>kvaliteter til forfatterens språk, samt en beskrivelse av viklingene på fingeren for studiet av menneskelig psykologi.

Til alt som er sagt, skal det legges til at man tidligere, i den såkalte formelle skolen for litteraturkritikk, allerede forsøkte å kvantitativt studere forfatterstilen, da det ble gjort beregninger av epitet, metaforer, og rytmiske og melodiske elementer av vers. Dette forsøket ble imidlertid ikke videreutviklet.

En annen retning for anvendelse av matematiske metoder for å studere språklige fenomener kan kombineres under navnet språkstatistikk. Den søker å invadere de grunnleggende spørsmålene i språkteorien og på den måten oppnå et kall i den egentlige språklige sfæren. For å bli kjent med denne retningen, er det best å vende seg til det allerede nevnte arbeidet til Herdan, med ordene til en av dets mange anmeldere, "en monstrøst pretensiøs bok" 7 5 , som imidlertid fikk bred respons blant lingvister 7 6 . På grunn av det faktum at Kherdan (som allerede antydet ovenfor) forsøkte å samle i sin bok alt som er mest essensielt i feltet for anvendelse av matematiske metoder på språklige problemer, i boken hans har vi faktisk ikke så mye å gjøre med Kherdan, men med en hel retning. Som tittelen på selve boken viser - "Språk som valg og sannsynlighet" - er hovedoppmerksomheten rettet mot å finne ut hva på et språk som er overlatt til talerens frie valg og hva som bestemmes av språkets immanente struktur, bare som det er ved å bestemme det kvantitative forholdet mellom elementene i første og andre orden. Herdans bok gir nesten uttømmende informasjon om alt arbeidet på dette området utført av representanter for ulike spesialiteter<123>(filosofer, lingvister, matematikere, teknikere), men er ikke begrenset til dette og inkluderer mange originale observasjoner, betraktninger og konklusjoner fra forfatteren selv. Som et summativt arbeid gir det en god idé om de kvantitative metodene som brukes og resultatene oppnådd med deres hjelp. Problemstillingene som vi betinget kombinerer inn i den språklige statistikkdelen, behandles i bokens andre og fjerde del.

Av de mange tilfellene med å bruke metodene for matematisk statistikk til studiet av språklige spørsmål, vil vi fokusere på de mest generelle, som samtidig kan betraktes som de mest typiske. Bruke data fra andre forfattere - Boldrini 7 7 , Mathesius 7 8 , Mariotti 7 9 , Zipf 8 0 , Diway 8 1 og andre, samt siterer deres egen forskning som bestemmer den relative frekvensen av fordelingen av fonemer, bokstaver, ordlengde (målt ved antall bokstaver og stavelser), grammatiske former og metriske elementer på latin og det greske heksameteret, fastslår Herdan faktumet av stabiliteten til den relative frekvensen av språklige elementer som en generell karakteristikk av alle språklige strukturer. Han utleder følgende regel: "Andelene av språklige elementer som tilhører et eller annet nivå eller sfære av språklig koding - fonologi, grammatikk, metrikk - forblir mer eller mindre konstant for et gitt språk, i en gitt periode av dets utvikling og innenfor grenser for tilstrekkelig omfattende og upartiske observasjoner » 8 2 . Denne regelen, som Herdan kaller språkets grunnleggende lov, søker han å tolke og utvide på en bestemt måte. «Den», skriver Herdan om denne loven, «er et uttrykk for at selv her, hvor menneskelig vilje og valgfrihet er gitt<124>det bredeste rammeverket, hvor bevisste valg og bekymringsløs lek levende veksler med hverandre, i det hele tatt er det betydelig stabilitet... Vår forskning har avdekket en annen faktor av generell orden: det observeres vidtrekkende likheter mellom medlemmer av samme språklige fellesskap. ikke bare i fonemsystemet, i ordboken og i grammatikken, men også i forhold til bruksfrekvensen av spesifikke fonemer, leksikale enheter (ord) og grammatiske fonemer og konstruksjoner; med andre ord, likheten er ikke bare i hva som brukes, men også i hvor ofte det brukes." 8 3 Denne situasjonen skyldes åpenbare årsaker, men den gir opphav til nye konklusjoner. Når man for eksempel undersøker forskjellige tekster eller segmenter av et gitt språk, finner man at de relative frekvensene for bruk av det bestemte fonemet (eller andre taleelementer) av forskjellige personer forblir i hovedsak de samme. Dette fører til tolkningen av individuelle taleformer som visse fluktuasjoner i den konstante sannsynligheten for å bruke det aktuelle fonemet på et gitt språk. Dermed viser det seg at en person i sin taleaktivitet er underlagt visse sannsynlighetslover i forhold til antall språklige elementer som brukes. Og så, når vi observerer et stort antall språklige elementer i en stor samling av tekster eller talesegmenter, får vi inntrykk av en årsaksavhengighet i den forstand at det i dette tilfellet også er en bestemmelse i forhold til bruken av visse språklige elementer. Det viser seg med andre ord å være tillatt å hevde at det som fra et intuitivt synspunkt fremstår som en årsakssammenheng, i kvantitative termer er en sannsynlighet 8 4 . Det er åpenbart at jo større totalsummen<125>For de undersøkte tekstene eller talesegmentene vil stabiliteten til den relative bruksfrekvensen av språklige elementer også komme til uttrykk ved individuell bruk (loven om store tall). Herfra kommer en ny generell konklusjon om at språk er et massefenomen og bør tolkes som det.

Disse konklusjonene, oppnådd på grunnlag av frekvensberegninger av de fonetiske elementene, ordene og de grammatiske formene som til sammen utgjør språk, blir deretter brukt på den "statistiske tolkningen" av Saussures inndeling i "språk" (lalangue) og "tale" (laparole). . I følge Saussure er "språk" et sett av språklige vaner som gjør kommunikasjon mulig mellom medlemmer av et gitt språksamfunn. Dette er en sosial realitet, et «massefenomen», obligatorisk for alle mennesker som snakker et gitt språk. Herdan, som antydet, argumenterer for at medlemmer av et enkelt språklig fellesskap ligner hverandre, ikke bare ved at de bruker samme fonemer, leksikale enheter og grammatiske former, men også ved at alle disse elementene brukes med samme frekvens. Dermed har hans statistiske definisjon av "språk" følgende form: "språk" (lalangue) er helheten av vanlige språklige elementer pluss deres relative sannsynlighet for bruk.

Denne definisjonen av "språk" er også utgangspunktet for den tilsvarende statistiske tolkningen av "tale", som ifølge Saussure er en individuell ytring. Ved å sammenligne «språk» som et sosialt fenomen med «tale» som et individuelt fenomen, skrev Saussure: «Tale er en individuell handling av vilje og forståelse, der man må skille: 1. kombinasjoner ved hjelp av hvilke det talende subjektet bruker språklig kode for å uttrykke hans personlige tanke; 2. en psykofysisk mekanisme som lar ham objektivisere disse kombinasjonene» 8 5. Siden "språk" i språkstatistikk betraktes som et sett med elementer med en viss relativ<126>en viss sannsynlighet for bruk, i den grad den inkluderer en statistisk populasjon eller ensemble (populasjon) som en vesentlig egenskap og kan vurderes i dette aspektet. I samsvar med dette blir "tale" til et eget utvalg tatt fra "språk" som et statistisk aggregat. Sannsynligheten i dette tilfellet bestemmes av forholdet mellom "tale" og "språk" (i deres "kvantitative" forståelse), og fordelingen av den relative bruksfrekvensen av forskjellige elementer i språket tolkes som et resultat av en kollektiv «valg» i en viss kronologisk periode av språkets eksistens. Når han innser at en slik tolkning av forskjellene mellom «språk» og «tale» fortsatt er bygget på et helt annet grunnlag enn Saussures, skriver Herdan i denne forbindelse: «Denne tilsynelatende mindre modifikasjonen av Saussures konsept har den viktige konsekvensen at «språk» ( lalangue) får nå en vesentlig egenskap i form av et statistisk aggregat (populasjon). Denne populasjonen er preget av visse relative frekvenser eller sannsynligheter for fluktuasjoner, med tanke på at hvert språklig element tilhører et visst språklig nivå. I dette tilfellet viser "tale" (laparole), i samsvar med dens betydning, seg å være et begrep for å definere statistiske utvalg tatt fra "språk" som en statistisk populasjon. Det blir åpenbart at valg her opptrer i form av forholdet mellom "tale" og "språk", som er forholdet mellom et tilfeldig utvalg og en statistisk helhet (populasjon). Selve rekkefølgen av frekvensfordeling, som en forekomst av taleaktiviteten til et språklig fellesskap gjennom århundrene, representerer et element av valg, men ikke et individuelt valg, som i stil, men et kollektivt valg. Ved å bruke en metafor kan vi her snakke om valget tatt av språkånden, hvis vi forstår prinsippene for språklig kommunikasjon med dette, som er i samsvar med komplekset av mentale data til medlemmene i et bestemt språklig fellesskap. Stabiliteten til serier er resultatet av sannsynlighet (sjans)” 8 6 .

Et spesielt tilfelle av anvendelsen av det oppgitte prinsippet<127>PA er skillet i språket mellom normative fenomener fra «unntak» (avvik). I linguostatistikken hevdes det at den statistiske metoden lar oss eliminere vagheten som eksisterer i denne problemstillingen og etablere klare kriterier for å skille mellom disse fenomenene. Hvis normen forstås som et statistisk aggregat (i ovennevnte betydning), og et unntak (eller feil) er et avvik fra frekvensene vist av det statistiske aggregatet, så foreslår en kvantitativ løsning på spørsmålet seg selv. Det hele kommer ned til det statistiske forholdet mellom "befolkning" og "varians." Hvis frekvensene observert i et enkelt utvalg avviker fra sannsynlighetene antydet av den statistiske populasjonen med mer enn det som ville bli bestemt av en rekke utvalgstellinger, er vi berettiget til å konkludere med at grenselinjen mellom "det samme" (normen) og "ikke det samme" (unntak) viser seg å være krenket.

Kvantitative forskjeller mellom "språk" og "tale" brukes også for å skille mellom to typer språklige elementer: grammatiske og leksikalske. Utgangspunktet for å løse dette problemet, som ofte byr på store vanskeligheter fra et språklig synspunkt, er antakelsen om at frekvensgraden til grammatiske elementer er annerledes enn leksikalske enheter. Dette er visstnok assosiert med "generalisering" av grammatiske elementer, hvordan de skiller seg fra konsepter fastsatt av leksikale enheter. I tillegg antas det at grammatiske elementer som regel er mye mindre i volum: som uavhengige ord (pronomen, preposisjoner, konjunksjoner og funksjonsord er inkludert) består de vanligvis av et lite antall fonemer, og i form av "koblede former". ” - fra ett eller to fonemer 8 7 . Jo mindre det språklige elementet er, desto mindre er dets "lengde" (kvantitative øyeblikk) i stand til å tjene som en definerende egenskap, og jo viktigere blir "kvaliteten" til fonemer for dette formålet. Hvilke metoder foreslås for å løse problemet under vurdering? Det løses ved å appellere til det rent kvantitative konseptet grammatisk<128>laster, "Anta," skriver Kherdan i denne forbindelse, "at vi er interessert i å sammenligne to språk i denne forbindelse. Hvordan bestemmer vi, med en viss grad av objektivitet, den «grammatiske belastningen» som et språk bærer? Det er klart at denne belastningen vil avhenge av plasseringen av avgrensningslinjen som skiller grammatikk fra ordforråd. Den første betraktningen som kan komme til våre sinn er å bestemme hvor "kompleks" grammatikken til et gitt språk er. Tross alt er "kompleksitet" en kvalitativ egenskap, og konseptet "grammatisk belastning" er en kvantitativ egenskap. Riktignok avhenger belastningen til en viss grad av kompleksiteten, men ikke helt. Et språk kan være velsignet med en ekstremt kompleks grammatikk, men bare en relativt liten del av den brukes i språkets funksjon. Vi definerer "grammatisk belastning" som helheten av grammatikk som bæres av et språk når det er i aksjon, noe som umiddelbart plasserer problemet vårt i feltet strukturell lingvistikk i den forstand som denne disiplinen ble definert av Saussure. I den følgende presentasjonen brukes kvantitative metoder for å bestemme forskjellene mellom språk avhengig av hvor grensen som skiller grammatikk fra vokabular går» 8 8 . Med andre ord, forskjellene mellom språk i dette tilfellet bør reduseres til forskjeller i de numeriske relasjonene mellom grammatiske og leksikalske elementer.

Materialene vi har til rådighet tegner følgende bilde. I det engelske språket (bare "grammatiske ord" ble tatt i betraktning: pronomen, eller, som de også kalles, "erstatninger", preposisjoner, konjunksjoner og hjelpeverb), i et segment som inkluderer 78 633 forekomster av alle ord (1 027 forskjellige ord ), 53 102 ble funnet tilfeller av bruk av grammatiske elementer, eller mer presist "grammatiske ord" (149 forskjellige ord), som er 67,53% med 15,8% av forskjellige ord. Dette er dataene til Diway 8 9 . Andre data viser en annen prosentandel<129>forhold: 57,1 % med 5,4 % forskjellige ord 9 0. Dette betydelige avviket forklares av forskjellen mellom skriftspråk og talespråk. Skriftlige språkformer (de første dataene) bruker visstnok flere grammatiske elementer enn muntlige former (det andre tilfellet). I Dantes guddommelige komedie (basert på den italienske originalen) etablerte Mariotti 54,4% av tilfellene med bruk av "grammatiske ord".

En annen og tilsynelatende mer avansert måte å bestemme den grammatiske belastningen til et språk på er å telle fonemene som inngår i de grammatiske elementene. I dette tilfellet tas ikke bare uavhengige grammatiske ord i betraktning, men også relaterte former. Ulike alternativer er mulige her. For eksempel å bestemme den relative frekvensen for bruk av individuelle konsonantfonem i grammatiske elementer og sammenligne dem med frekvensen av den totale bruken av disse samme fonemer (de endelige dataene for et slikt forhold på engelsk gir en andel på 99,9 % til 100 000 - total bruk); eller en lignende sammenligning av konsonanter i henhold til individuelle klassifikasjonsgrupper (labial, palatal, velar og andre fonemer). Det endelige forholdet her tar form av en andel på 56,47 % (i grammatiske elementer) til 60,25 % (i total bruk); eller samme sammenligning av første konsonantfonem (i dette tilfellet var forholdet 100,2 % i grammatiske ord til 99,95 i total bruk). Andre mer komplekse statistiske operasjoner er også mulige, som imidlertid resulterer i lignende kvantitative uttrykk for problemet som studeres.

De presenterte kvantitative dataene tjener som grunnlag for en generell konklusjon. Det koker ned til at fordelingen av fonemer i grammatiske elementer bestemmer arten av fordelingen (i numeriske termer, selvfølgelig) av fonemer i språket som helhet. Og dette lar oss igjen konkludere med at bruken av grammatiske elementer i minst grad avhenger av individuelle valg og utgjør den delen av det språklige uttrykket som sannsynligvis er kontrollert.<130>ness. Denne spekulative konklusjonen bekreftes av tellingen av grammatiske former i det russiske språket gjort av Jesselson 9 1 . Studien inkluderte 46 896 ord hentet fra II-kilder (verk av Griboyedov, Dostojevskij, Goncharov, Saltykov-Sjtsjedrin, Garshin, Belinskij, Amfiteatrov, Gusev-Orenburgskij, Ehrenburg, Simonov og N. Ostrovskij). De ble delt inn i talte ord (17 756 ord, eller 37,9 %) og ikke-talte ord (29 140 ord, eller 62,1 %). Deretter ble hele settet med ord delt inn i 4 grupper avhengig av deres grammatiske natur: 1. gruppe inkluderte substantiv, adjektiver, adjektiver som substantiv, pronomen og bøyde tall; i den andre gruppen - verb; i den tredje gruppen - verbale partisipp, partisipp som adjektiver og substantiv og gerundier; i 4. gruppe - uforanderlige former for adverb, preposisjoner, konjunksjoner og partikler. De samlede resultatene (tabeller med data om individuelle forfattere er også gitt) gir følgende forhold:

1. gruppe

2. gruppe

3. gruppe

4. gruppe

dagligdagse

usagt

Herdan karakteriserer betraktningen av de kvantitative dataene som dermed er oppnådd med følgende ord: «De begrunner konklusjonen om at grammatiske elementer bør betraktes som en faktor som bestemmer sannsynligheten for språklig uttrykk. Denne konklusjonen unngår den tyngende kvalifiseringen av hvert ord som brukes. Det er klart at siden grammatikk og vokabular ikke er lagret i vanntette skall, er det heller ikke rent valg eller ren tilfeldighet. Både grammatikk og vokabular inneholder begge elementene, men i betydelig varierende proporsjoner» 9 2.<131>

En stor del av Herdans bok er viet studiet av dualitet eller dualitet i språk, og selve begrepet dualitet er basert på matematiske egenskaper.

Dermed kan teoremer i projektiv geometri ordnes i to rader, slik at hver teorem i en rad kan hentes fra en teorem i en annen rad ved å erstatte ord med hverandre punktum Og rett. For eksempel, hvis proposisjonen er gitt: "hvilke som helst forskjellige punkter tilhører én og bare én linje," så kan vi utlede den tilsvarende proposisjonen fra den: "hvilken som helst to forskjellige linjer tilhører ett og bare ett punkt." En annen metode for å bestemme dualitet er å plotte forskjellige plan av fenomenet som studeres langs abscissen og ordinataksen. Som Yul gjør for eksempel 9 3, telles de ulike bruksfrekvensene langs x-aksen, og antall leksikale enheter som frekvensen er bestemt for osv., telles langs ordinataksen av dualitet tolkes, visstnok i likt gjelder også for språkforskning.

Under begrepet dualitet definert på denne måten, som i alle tilfeller faktisk har karakter av en binær kode og som også regnes som det mest essensielle trekk ved den språklige strukturen, oppsummeres ekstremt forskjellige kvalitative fenomener, som åpner for motsetning på to nivåer. : fordelingen av bruken av ord etter leksikalske enheters natur og fordeling av leksikalske enheter etter frekvensbruk av ord; skriftlige og muntlige former for tale; leksikalske og grammatiske elementer; synonymer og antonymer; fonem og dets grafiske representasjon; definert og definerende (Saussures signifiant og signifiy), etc.

Etter en kvantitativ studie av dualiteten til et bestemt språklig fenomen eller begrenset "tekst", som regel, trekkes en konklusjon som kvalitetene til språklig universalitet tilskrives. Arten av slike konklusjoner og måten de er underbygget kan spores ved hjelp av eksemplet<132>forskning på dualiteten av ord og begreper (faktisk snakker vi om forholdet mellom lengden av et ord og volumet av et begrep - vi må huske på at ekstremt fri bruk av språklige og andre termer i slike verk ofte gjør forståelse veldig vanskelig). Det er viktig å merke seg at materialet som fungerte som kilde til observasjoner av denne typen språklig dualitet ble brukt: den internasjonale nomenklaturen for sykdommer (ca. 1000 navn) og det generelle sykdommersregisteret for England og Wells for 1949. I dette tilfellet , er følgende generelle konklusjon laget: "Hvert konsept som betegner en generell idé har det som kan kalles en "sfære" eller "volum." Den tillater, gjennom sitt medium, å tenke på mange objekter eller andre konsepter som befinner seg innenfor sin "sfære". På den annen side utgjør alle elementene som er nødvendige for å definere et konsept det som kalles dets "innhold". Volum og innhold er gjensidig korrelert - jo mindre innholdet er, og følgelig jo mer abstrakt konseptet er, desto større omfang eller volum, det vil si, jo flere objekter er lagt inn under det. Dette kan betraktes som en analogi (i den konseptuelle sfæren) til prinsippene for koding, ifølge hvilke lengden på et symbol og bruksfrekvensen er gjensidig avhengige av hverandre» 9 4.

Dualitetsprinsippet gjelder også for spesielle problemer. For eksempel når man etablerer ekvivalensen av betydningen av ord på to forskjellige språk. Som et resultat av å studere den engelsk-tyske Muhre-Zanders-ordboken ved hjelp av den matematiske iterasjonsmetoden, konkluderes det med at sannsynligheten for å bruke et engelsk ord med en eller flere betydninger i den tyske oversettelsen forblir konstant for hver forbokstav i hele ordboken 9 5 . Betraktning av rekkefølgen på ordene i kinesiske ordbøker fører til konklusjonen at den er taksonomisk i sin natur, siden antall streker i et tegn indikerer dets plass (som en uavhengig radikal eller en spesifikk underklasse underordnet radikalen). Taksonomi er et underordnet klassifiseringsprinsipp som brukes i zoologi og botanikk. Det opplyser Herdan<133>grunnlaget for kinesisk leksikografi er også bygget på prinsippene for taksonomi 9 6, etc.

Når man gjør en generell vurdering av denne retningen for anvendelse av matematiske metoder til studiet av språklige problemer (dvs. språkstatistikk), er det tilsynelatende nødvendig å gå ut fra posisjonen som ble formulert av Ettinger: "Matematikk kan effektivt brukes i tjenesten av lingvistikk bare når lingvister er klare over de virkelige grensene for dens anvendelse, så vel som mulighetene til de matematiske modellene som brukes» 9 7. Med andre ord kan vi snakke om matematisk lingvistikk når matematiske metoder beviser deres egnethet til å løse de egentlige språklige problemene, som i sin helhet utgjør språkvitenskapen. Hvis dette ikke er tilfelle, selv om dette kan åpne for nye sider ved vitenskapelig forskning, så kan vi i dette tilfellet snakke om hva som helst, men ikke om lingvistikk - i dette tilfellet mener vi ikke forskjellige typer anvendt lingvistikk (vi vil snakke om det senere tale nedenfor), men vitenskapelig, eller teoretisk, lingvistikk. Basert på denne posisjonen bør det bemerkes at fra en lingvists synspunkt vekker mye i språkstatistikken tvil og til og med forvirring.

La oss gå til analysen av bare to eksempler (for ikke å rote opp presentasjonen), og ta forbehold om at det kan gjøres svært betydelige innvendinger mot hvert av dem. Her har vi et kvantitativt skille mellom grammatiske og leksikale enheter. Det viser seg at for å gjøre et slikt skille, er det nødvendig å vite på forhånd hva som hører til grammatikkfeltet og hva man skal ha ordforråd, siden den "grammatiske belastningen" av språket (dvs. totalen av grammatiske elementer som brukes i tale), som angitt i sitert ovenfor, "avhenger av grenselinjen som skiller vokabular fra grammatikk." Uten å vite hvor denne linjen går, er det derfor umulig å gjøre det angitte skillet. Hva er da meningen med den kvantitative metoden for å skille leksikalsk fra grammatisk<134>matic? Men når det gjelder Kherdan, tenker han ikke spesielt på dette problemet og klassifiserer dristig språklige elementer, og klassifiserer som grammatiske elementer "assosierte former", som, etter presentasjonen å dømme, skulle bety ytre bøyning, og "grammatiske ord", som inkluderer preposisjoner , konjunksjoner, hjelpeverb og pronomen - sistnevnte på grunn av det faktum at de er "erstatninger". Men hvis vi bare snakker om denne kvaliteten på pronomen og på dette grunnlag tilskriver dem grammatiske elementer, bør åpenbart slike ord som "nevnt", "navngitt", "gitt" osv. også inkluderes i dem, så hvordan de også fungere som surrogater. I forbindelse med metoden for å isolere grammatiske elementer som brukes i språkstatistikk, oppstår naturligvis spørsmålet om hvordan man i dette tilfellet skal forholde seg til slike «formløse» grammatiske fenomener som ordstilling, toner, nullmorfemer, paradigmatiske relasjoner (noen av disse fenomenene, av måten, gjenspeiles i de språkene som studeres med matematiske metoder)? Hvordan skille mellom språk med rik indre bøyning (som for eksempel i semittiske språk), der det ikke bare utfører en grammatisk modifikasjon av roten (radikal), men også gir den leksikalsk eksistens, siden en rot uten omformulering har ingen reell eksistens i språket? Hva skal forstås med den grammatiske kompleksiteten til et språk, hvilket kriterium bestemmes det av? Hvis det kvantitative poenget, som i dette tilfellet er sterkt vektlagt, vil et av de mest grammatisk komplekse språkene være engelsk, som har slike konstruksjoner som IshallhavebeencallingorHewouldhavebeencalling. I disse setningene er det kun kall som kan klassifiseres som leksikalsk, og alt annet bør derfor betraktes som grammatisk. Hvilket grunnlag er det for å koble hyppigheten av bruk av grammatiske elementer med det generelle eller abstrakte i betydningen av grammatiske ord? Tross alt er det ganske åpenbart at den relativt høye bruksfrekvensen av grammatiske elementer bestemmes av deres funksjon i konstruksjonen av setninger, og når det gjelder abstraktheten til betydninger, er det veldig enkelt å finne en stor<135>antallet leksikalske elementer som lett kan konkurrere med grammatiske elementer i denne forbindelse, og er stort sett underordnet dem i frekvens (f.eks. væren, eksistens, utvidelse, rom, substans etc).

En lignende type absurditet møter oss når det gjelder å definere dualiteten til et ord og et begrep. Man må ha en ekstremt unik forståelse av språkets strukturelle vesen for å underkaste det forskning ved bruk av sykdommers nomenklatur og sykehusregisteret over sykdommer, som, som antydet ovenfor, fungerte som kildemateriale for svært viktige språklige konklusjoner. Uten å dvele ved den fullstendig uklare bruken av slike ikke-språklige begreper som sfære, volum og innhold av et begrep (forresten, den leksikalske betydningen av ordet og begrepet betegnet med det vitenskapelige begrepet er grovt forvirret), la oss gå til konklusjonen som trekkes i denne saken. Som nevnt ovenfor har vi å gjøre med utsagnet om at "volum og innhold er gjensidig korrelert." Hele resonnementet som gir grunnlaget for en slik konklusjon, så vel som metoden for matematisk manipulering av språklige fakta, viser tydelig at i dette tilfellet blir en svært betydelig kvalitet ved språket fullstendig ignorert, som omstøter alle beregningene som gjøres: evnen til å uttrykke det samme "innholdet" ved hjelp av språklige enheter med forskjellig "volum", som utvilsomt også har forskjellige relative bruksfrekvenser. Så vi kan utpeke samme person som Petrov, min bekjent, han, en muskovitt, en ung mann, en universitetsansatt, min kones bror, mannen vi møtte på broen osv. I lys av slike fakta er det tvil. ikke reist bare spesielle konklusjoner, som imidlertid, som antydet, er gitt universell betydning, men også hensiktsmessigheten av å anvende de kvantitative metodene i seg selv på denne typen språklige problemer.

Men noen ganger blir lingvister tilbudt konklusjoner hvis gyldighet er hevet over enhver tvil. Dette er "språkets grunnleggende lov", som består i det faktum at det i et språk er en viss stabilitet av elementene og den relative hyppigheten av deres forekomst.<136>forbruk. Problemet med funn av denne typen er imidlertid at de lenge har vært kjent for lingvister. Tross alt er det ganske åpenbart at hvis språket ikke hadde en viss stabilitet og hvert medlem av et gitt språksamfunn fritt varierte elementene i språket, ville gjensidig kommunikasjon ikke være mulig og selve eksistensen av språket ville bli meningsløs . Når det gjelder fordelingen av den relative bruksfrekvensen av individuelle språkelementer, fant den sitt uttrykk i lingvistikk i form av å identifisere kategoriene passivt og aktivt ordforråd og grammatikk, som L. V. Shcherba ga så mye oppmerksomhet. I dette tilfellet statistiske metoder kan hjelpe lingvister bare i fordelingen av spesifikke lingvistiske elementer i kategorier med relativ hyppighet av deres bruk, men har ingen grunn til å hevde oppdagelsen av nye mønstre som er verdifulle for teoretisk lingvistikk.

På den annen side tilbyr språkstatistikk en rekke virkelig "originale" konklusjoner som er ekstremt indikative for arten av den vitenskapelige tenkningen til dens tilhengere. Dermed brukes komplekse statistiske metoder for å studere det "politiske vokabularet" i verkene til Churchill, Benes, Halifax, Stresemann og andre, og oversettelser av deres verk til engelsk brukes i beregningene for ikke-engelsktalende forfattere. Beregningsresultatene presenteres i form av en rekke tabeller, matematiske formler og ligninger. Den språklige tolkningen av de kvantitative dataene i dette tilfellet koker rett og slett ned til at Churchills bruk av «politisk vokabular» er den mest typiske (?) for denne gruppen forfattere og at Churchills bruk av ord i tilfeller hvor han angår politiske spørsmål er. typisk for det engelske talemiljøet 9 8 .

I et annet tilfelle, etter passende statistiske manipulasjoner, konkluderes det med at Hitler, i ordbruken til Nazi-Tyskland, krenket dualiteten mellom "språk" og "tale" i den kvantitative forståelsen av disse begrepene. Et spesielt tilfelle av ødeleggelsen av denne dualiteten er den bokstavelige forståelsen<137>bruken av metaforiske setninger (for eksempel "hell salt i åpne sår"). Nazi-Tyskland har stemplet seg selv med så mange umenneskelige handlinger at det knapt er behov for å dømme det for denne språklige grusomheten 9 9 . I følge Kherdan fører Marx sin definisjon av språk som tankens umiddelbare virkelighet også til et brudd på den språklige dualiteten, og dialektikkens lov om overgangen av et fenomen til det motsatte er etter hans mening en misforstått språklig lov om dualiteten. av språk 100. Slike tolkninger taler for seg selv.

Til slutt, en vanlig ulempe, karakteristisk for alle de ovennevnte tilfellene av den kvantitative metoden for å studere språklig materiale og derved tilegne seg en metodisk karakter, er tilnærmingen til språklige elementer som et mekanisk sett av fakta som er helt uavhengig av hverandre, ifølge hvilken selv hvis noen eller mønstre, så forholder de seg bare til de numeriske relasjonene til fordelingen av autonome fakta, utenfor deres systemavhengigheter. Riktignok streber J. Whatmough på alle mulige måter for å sikre at det er matematikk som er bedre enn noen form for språklig strukturell analyse som er i stand til å avsløre språkets strukturelle trekk. "Moderne matematikk," skriver han, "er ikke opptatt av måling og kalkulus, hvis nøyaktighet etter deres natur er begrenset, men først og fremst av struktur. Dette er grunnen til at matematikk er svært befordrende for presisjonen av språklæring - i en grad som en separat beskrivelse, enda mer begrenset av sin natur, ikke er i stand til... Akkurat som i fysikk, brukes matematiske elementer for å beskrive den fysiske verden , siden de antas å samsvare med elementer i den fysiske verden, og i matematisk lingvistikk må matematiske elementer antagelig svare til elementer i taleverdenen" 1 01. Men en slik formulering av spørsmålet redder ikke situasjonen, siden den i beste fall kan<138>gi en analyse av språk enten som en fysisk struktur, som fortsatt er langt fra tilstrekkelig for språk, og til syvende og sist har samme mekanistiske karakter, eller som en logisk-matematisk struktur, og dette overfører språket til et annet og stort sett fremmed plan 102. Det er ikke overflødig å merke seg at Watmough forutser suksessene til matematisk lingvistikk bare i fremtiden, og når det gjelder deres virkelige resultater, vurderer han dem med følgende ord: "... nesten alt arbeidet gjort til dags dato av Herdan, Zipf, Yule, Guiraux og andre er på ingen måte hinsides kritikk fra både lingvistikk og matematikk; det lukter i stor grad av amatørisme» 1 03 . Så hvis vi ikke prøver å forutsi fremtiden for matematiske metoder i språkforskning, men prøver å evaluere det vi har i dag, så må vi nødvendigvis innrømme at matematikken så langt har vært begrenset innen språkvitenskapen kun til å «måling og telling», og jeg var ikke i stand til å gi en kvalitativ analyse av språket ved å dykke ned i strukturen.<139>

Vi vil likevel prøve å være så objektive som mulig. Til en viss grad kan kvantitative data tilsynelatende brukes av lingvistikken, men kun som et hjelpemiddel og først og fremst i problemer som har en praktisk orientering. Når det gjelder de fleste av de kvantitative metodene for å studere individuelle språklige fenomener, er den generelle konklusjonen til R. Brown utvilsomt berettiget: «De kan betraktes slik Herdan ser på dem, men hva er meningen med alt dette?» 1 04 . La oss forestille oss at vi stiller spørsmålet: "Hva er trærne i denne hagen?" Og som svar får vi: "Det er hundre trær i denne hagen." Er dette svaret på spørsmålet vårt, og gir det virkelig mening? Men i forhold til mange språklige spørsmål gir matematiske metoder nettopp denne typen svar.

Imidlertid er det et bredt forskningsområde som primært bruker matematiske metoder og samtidig fokuserer dem på språklig materiale, hvor gjennomførbarheten av en slik kombinasjon ikke reiser noen tvil. "Betydningen" av denne forskningsaktiviteten, dens betydning bestemmes av målene den streber etter. Det er allerede testet i praksis. I dette tilfellet snakker vi om problemer knyttet til opprettelsen av informasjonsmaskiner, strukturer for maskinoversettelse av skriftlige vitenskapelige tekster, automatisering av oversettelse av muntlig tale fra ett språk til et annet, og med hele komplekset av oppgaver som er kombinert i de språklige spørsmålene om kybernetikk. Hele settet med slike problemer får vanligvis det generelle navnet på anvendt lingvistikk. Dermed skiller den seg fra den såkalte matematiske lingvistikken, som inkluderer de arbeidsområdene som ovenfor ble utpekt som stilstatistikk og lingvistisk statistikk, selv om den slett ikke unngår statistisk bearbeiding av språklig materiale. Det kanskje viktigste trekk ved anvendt lingvistikk, som skiller den fra matematisk lingvistikk som skissert ovenfor, er at førstnevnte har motsatt orientering: ikke matematikk for lingvistikk, men lingvistikk<140>(formalisert ved matematiske metoder) for et bredt spekter av praktiske problemer.

Det er ikke nødvendig å avsløre innholdet i individuelle problemer som inngår i det nå ekstremt brede feltet av anvendt lingvistikk. I motsetning til matematisk lingvistikk, diskuteres disse problemene aktivt i sovjetisk lingvistisk litteratur og begynner med rette å innta en stadig mer fremtredende plass i forskningsinstituttenes vitenskapelige problemer 1 05 . Dermed er de allerede ganske godt kjent for vårt språklige fellesskap. Denne omstendigheten frigjør oss imidlertid ikke fra behovet for å utsette dem for forståelse, spesielt fra synspunktet til prinsippene for språkvitenskapen. Dette vil utvilsomt bidra til å eliminere misforståelser som i økende grad oppstår mellom representanter for vitenskaper som er svært fjernt fra hverandre, som deltar i arbeidet med problemene med anvendt lingvistikk, og vil skissere måter for deres konvergens, på den ene siden, og avgrensning av forskningsområder , på den andre siden. Det sier seg selv at følgende betraktninger vil representere lingvistens synspunkt, og det er nødvendig at matematikere ikke bare prøver å assimilere det, men i forbindelse med spørsmålene som reises, gir dem sin egen tolkning.

En lingvist-teoretiker kan ikke på noen måte være fornøyd med at det i alle tilfeller av forskning<141>språk for formålene satt av anvendt lingvistikk, er de basert på en matematisk modell. I samsvar med dette uttrykkes observasjoner av språkfenomener og de oppnådde resultatene i termer og begreper innen matematikk, det vil si gjennom matematiske ligninger og formler. La oss se på et eksempel for klarhet. Condon 1 06 og Zipf 1 07 fastslo at logaritmene for frekvens ( f) bruken av ord i en stor tekst er plassert nesten på en rett linje hvis de er korrelert på diagrammet med logaritmene for rangering eller kategori ( r) av disse ordene. Ligningen f = c: r, Hvor Med er en konstant, reflekterer dette forholdet i begrenset forstand at c:r for en gitt verdi r gjengir den observerte frekvensen med stor tilnærming. Forholdet mellom f Og r, uttrykt med en matematisk formel, er en modell for forholdet mellom observerte verdier av bruksfrekvens og rangering, eller kategori, av ord. Dette er et av tilfellene med matematisk modellering. 

Hele informasjonsteorien er helt basert på en matematisk modell av kommunikasjonsprosessen utviklet av K. Shannon 1 08 . Det er definert som "en matematisk disiplin viet til metoder for å beregne og estimere mengden informasjon som finnes i alle data, og til studiet av prosessene for lagring og overføring av informasjon" (TSB, vol. 51, s. 128). Følgelig mottar de grunnleggende konseptene for informasjonsteori et matematisk uttrykk. Informasjon måles i binits eller binære enheter (en kode som et språk sammenlignes med, med to betingede like sannsynlige signaler overfører en binær informasjonsenhet ved overføring av hvert symbol er definert som "forskjellen mellom den teoretisk mulige sendekapasiteten til hvilken - kode og den gjennomsnittlige informasjonsmengden som overføres<142>formasjoner. Redundans uttrykkes som en prosentandel av kodens totale overføringskapasitet” 1 09 osv. På samme måte krever maskinoversettelse algoritmisk utvikling av visning av elementer av ett språk på et annet osv. 1 10. Dette er andre tilfeller av modellering.

Bruken av modeller utover enhver mening kan gi svært betydelig hjelp, spesielt, etter all sannsynlighet, for å løse problemene som anvendt lingvistikk setter seg selv. For teoretisk lingvistikk er imidlertid det faktum at en abstrakt modell som regel ikke reproduserer alle funksjonene til et virkelig fenomen, alle dets funksjonelle kvaliteter, veldig viktig. Dermed kan en arkitekt, før han bygger et hus, lage en modell av det som gjengir det tegnede huset i alle de minste detaljene, og dette hjelper ham med å løse en rekke praktiske problemer knyttet til konstruksjonen av selve huset. Men en slik modell av et hus, uansett hvor nøyaktig den kan være, er blottet for den "funksjonen" og formålet som alle hus er bygget for generelt - den er ikke i stand til å gi en person bolig. Situasjonen er lik med språket, hvor modellen ikke alltid klarer å reprodusere alle sine kvaliteter. I dette tilfellet kompliseres saken ytterligere av det faktum at matematiske snarere enn språklige mål brukes for å konstruere modellen. "Matematiske modeller ..." skriver A. Ettinger, "spiller en ekstremt viktig rolle på alle teknologiområder, men siden de er et synteseverktøy, er deres betydning for lingvistikk, som først og fremst er en historisk og beskrivende disiplin, naturlig nok begrenset. " 1 11 .<143>

Matematisk modellering av et språk er faktisk kun anvendelig for dets statiske tilstand, som for en lingvist er betinget og faktisk er i direkte motsetning til språkets grunnleggende kvalitet, hvis eksistensform er utvikling. Det sier seg selv at det statiske studiet av språk på ingen måte er utelukket fra lingvistikken og er grunnlaget for sammenstilling av normative grammatikker og ordbøker, beskrivende grammatikker, praktiske grammatikker og ordbøker som fungerer som en veiledning for praktisk studie av fremmedspråk, osv. Men i alle slike verk, som har en overveiende anvendt karakter, begrenser lingvister bevisst forskningsfeltet og lukker ikke øynene for andre sider ved språket 1 12 . I en statisk undersøkelse av språk, spesielt, forsvinner slike kvaliteter ved språk assosiert med dets dynamiske natur som produktivitet, avhengighet av tankeformer, bred interaksjon med kulturelle, sosiale, politiske, historiske og andre faktorer fullstendig fra synsfeltet til språket. forsker. Bare på et synkront nivå kan språk betraktes som et system av konvensjonelle tegn eller koder, som imidlertid viser seg å være fullstendig ulovlig så snart vi inntar et mer dynamisk standpunkt for språk. Det er i utviklingsprosessene at slike kvaliteter ved språk som motivasjon, polysemi av ord uten stabile grenser, ikke-autonomi av betydningen av ordet og dets lydskall, det kreative potensialet til ordet assosiert med konteksten manifesteres. , og alt dette er i skarp motsetning til de grunnleggende egenskapene til koden eller tegnet 1 13 . I anvendt lingvistikk er det åpenbart også mulig å tenke utover alle disse språkkvalitetene og, for praktiske formål, nøye seg med så å si et "øyeblikksbilde" av språket, som fortsatt er i stand til å gi en ganske omtrentlig idé av mekanismen for dens funksjon.<144>ning. Imidlertid må hvert slikt «øyeblikksbilde», hvis det betraktes som et språkfaktum, og ikke som et faktum i et system av konvensjonelle koder, inkluderes i den endeløse bevegelsesprosessen der språket alltid ligger 1 14 . Den kan ikke studeres utenom de spesifikke forholdene som kjennetegner denne bevegelsen, som setter sitt preg på den gitte språktilstanden og bestemmer potensialet for dens videre utvikling. Her er det samme forskjell som mellom et øyeblikkelig fotografi av en person og hans portrett malt med penselen til en ekte kunstner. I kunstnerens arbeid ser vi et generaliserende bilde av en person i all originaliteten til ikke bare hans fysiske utseende, men også hans indre åndelige innhold. Fra et kunstnerisk portrett kan vi lese fortiden til personen som er avbildet på det og bestemme hva han er i stand til i sine handlinger. Og et øyeblikkelig fotografi, selv om det er i stand til å gi et mer nøyaktig bilde av utseendet til originalen, er blottet for disse egenskapene og fanger ofte både en tilfeldig kvise som har dukket opp på nesen og<145>en helt ukarakteristisk positur eller uttrykk, som til slutt fører til en forvrengning av originalen.

Det skal bemerkes at "snapshot"-metoden selvfølgelig kan brukes på fakta om språkutvikling. Men i dette tilfellet vil vi faktisk bare ha å gjøre med individuelle språktilstander, som, når de karakteriseres kvantitativt, ikke viser seg å henge sammen i større grad enn de komparative kvantitative egenskapene til forskjellige språk. Denne typen kvantitativ "dynamikk" vil ikke inneholde noe organisk, og forbindelsen mellom individuelle språktilstander vil kun hvile på sammenligningen av numeriske relasjoner. Hvis vi tyr til en analogi i dette tilfellet, kan vi referere til veksten til et barn. Hans utvikling kan selvfølgelig presenteres i form av dynamikken til numeriske data om hans vekt, høyde, skiftende forhold mellom volumet av deler av kroppen hans, men alle disse dataene er absolutt løsrevet fra alt som først og fremst utgjør den individuelle essensen av en person - hans karakter, tilbøyeligheter, vaner, smak, etc.

En annen negativ side ved matematisk "modellering" av et språk er det faktum at det ikke kan tjene som det generelle prinsippet som en omfattende og omfattende systematisk beskrivelse av språket kan utføres på grunnlag av. Bare en matematisk tilnærming til fenomenene språk, for eksempel, vil ikke gjøre det mulig å besvare selv slike grunnleggende spørsmål (uten hvilke selve eksistensen av språkvitenskapen er utenkelig) som: hva er språk, hvilke fenomener bør klassifiseres som språklige fenomener, hvordan et ord eller en setning er definert, hva er de grunnleggende begrepene og kategoriene av språk, osv. Før man går over til matematiske metoder for språkforskning, er det nødvendig å ha svar på forhånd (selv om det er i form av et arbeidende arbeid). hypotese) på alle disse spørsmålene. Det er ingen grunn til å lukke øynene for det faktum at i alle tilfeller vi kjenner til å studere språklige fenomener ved bruk av matematiske metoder, måtte alle disse konseptene og kategoriene uunngåelig aksepteres ettersom de ble definert av tradisjonelle eller, relativt sett, kvalitative metoder.

Dette trekket ved matematiske metoder i deres språklige anvendelse ble bemerket av Spang-Hanssen når<146>sal: «Det bør huskes på at observerte fakta som får kvantitativt uttrykk ... ikke har noen verdi med mindre de inngår i en beskrivelse, og for språklige formål må dette være en systematisk beskrivelse nært knyttet til kvalitativ språklig beskrivelse og teori» 1 15 . I en annen tale av Spang-Hanssen finner vi en presisering av denne tanken: «Inntil muligheten for å konstruere et kvantitativt system er bevist, og så lenge det finnes et allment akseptert kvalitativt system for et gitt fagfelt, frekvenstellinger og annet numerisk kjennetegn fra et språklig synspunkt har ingen mening." 1 16. Uldall uttrykker lignende ideer, noe som uventet forbinder dem med utviklingen av det generelle teoretiske grunnlaget for glossematikk: «Når en lingvist teller eller måler alt han teller og måler, er i seg selv ikke bestemt kvantitativt; for eksempel blir ord, når de telles, definert, hvis de i det hele tatt er definert, i helt andre termer» 1 17 .<147>

Dermed viser det seg at både i teoretiske termer og i deres praktiske anvendelse er matematiske metoder direkte avhengige av språklige begreper og kategorier definert av tradisjonelle, filologiske eller, som nevnt ovenfor, kvalitative metoder. Når det gjelder anvendt lingvistikk, er det viktig å innse denne avhengigheten, og derfor bli kjent med hele settet av grunnleggende kategorier innen tradisjonell lingvistikk.

Det er imidlertid ingen grunn til å klandre representanter for de eksakte vitenskapene som arbeider innen anvendt lingvistikk for ikke å bruke dataene fra moderne lingvistikk. Dette samsvarer ikke med den faktiske tilstanden. De kjenner ikke bare godt, men bruker også i sitt arbeid i stor utstrekning systemene med differensielle trekk etablert av lingvister, karakteristiske for forskjellige språk, distribusjon og ordning av lingvistiske elementer innenfor spesifikke språksystemer, prestasjonene til akustisk fonetikk, etc. Men i i denne saken er det nødvendig med et meget betydelig forbehold. Faktisk bruker representanter for de eksakte vitenskapene data fra bare én retning i lingvistikk - den såkalte beskrivende lingvistikken, som bevisst skiller seg fra de tradisjonelle problemene innen teoretisk lingvistikk, dekker ikke hele feltet av lingvistisk forskning, og fra den lingvistiske synspunkt i seg selv har betydelige metodiske mangler, som førte til krise som nylig har dukket opp 1 18, og har i tillegg en rent praktisk orientering, tilsvarende interessene til anvendt lingvistikk. Alle forbeholdene og bebreidelsene som ble tatt ovenfor angående statisk betraktning av språk gjelder beskrivende lingvistikk. En slik ensidig tilnærming av deskriptiv lingvistikk kan, etterforsker<148>Men kun rettferdiggjort av oppgavene som anvendt lingvistikk setter seg, er det langt fra å uttømme hele innholdet i språkvitenskapen.

I prosessen med å utvikle problemstillinger innen anvendt lingvistikk kan det oppstå nye teoretiske problemer, og de har faktisk allerede oppstått. Noen av disse problemene er nært knyttet til spesifikke problemer innen anvendt lingvistikk og er rettet mot å overvinne vanskelighetene som oppstår med å løse disse problemene. Andre problemer er direkte relatert til teoretisk lingvistikk, som tillater et nytt perspektiv å se på tradisjonelle ideer eller åpner opp for nye områder av lingvistisk forskning, nye konsepter og teorier. Blant disse sistnevnte er for eksempel problemet med å skape et "maskinspråk" (eller mellomspråk), som er nærmest knyttet til et komplekst sett av slike kardinalspørsmål innen teoretisk lingvistikk som forholdet mellom begreper og leksikalske betydninger, logikk og grammatikk, diakroni og synkroni, språkets tegnnatur, essensen av språklig mening, prinsippene for å konstruere kunstige språk, etc. 1 19. I dette tilfellet er det spesielt viktig å etablere gjensidig forståelse og samarbeid i det felles arbeidet til representanter for språklige disipliner og eksakte vitenskaper. Når det gjelder den språklige siden, bør samtalen i dette tilfellet tilsynelatende ikke dreie seg om på forhånd å begrense innsatsen til for eksempel designere av oversettelsesmaskiner» og å prøve å etablere arbeidsevnen til slike maskiner med poesien til N. Gribatsjov eller prosaen til V. Kochetov 1 20 . Maskinen selv vil finne grensene for sine evner, og lønnsomhet vil finne grensene for bruken. Men lingvister, som deres bidrag til den felles sak, må bringe sin kunnskap om særegenhetene ved språkets struktur, dets allsidighet, de interne kryssende forholdene mellom dets elementer, så vel som de brede og multilaterale forbindelsene mellom språk og fysiske, fysiologiske, mentalt og logisk<149>mi-fenomener, spesifikke funksjonsmønstre og utvikling av språk. Hele settet med denne kunnskapen er nødvendig for designerne av de tilsvarende maskinene, for ikke å vandre i feil retninger, men for å gjøre søket målrettet og tydelig orientert. Selv den svært korte oversikten over tilfeller av anvendelse av matematiske metoder på språklige problemer, som ble laget i dette essayet, overbeviser at slik kunnskap ikke vil være overflødig for representanter for de eksakte vitenskapene.

Basert på alle de ovennevnte betraktningene kan vi åpenbart komme til noen generelle konklusjoner.

Så, matematisk lingvistikk? Hvis dette betyr bruk av matematiske metoder som en universell hovednøkkel for å løse alle språklige problemer, bør slike påstander anses som absolutt uberettigede. Alt som har blitt gjort i denne retningen har så langt bidratt svært lite eller ikke i det hele tatt til løsningen av tradisjonelle problemer i språkvitenskapen. I verste fall er bruken av matematiske metoder ledsaget av åpenbare absurditeter eller er fra et språklig synspunkt fullstendig meningsløst. I beste fall kan matematiske metoder brukes som hjelpeteknikker for lingvistisk forskning, og settes i tjeneste for spesifikke og begrensede språklige oppgaver. Det kan ikke være snakk om noen "kvantitativ språkfilosofi" her. En gang gikk fysikk, psykologi, fysiologi, logikk, sosiologi og etnologi inn i språkvitenskapens uavhengighet, men de kunne ikke underlegge språkvitenskapen. Det motsatte skjedde - lingvistikken utnyttet prestasjonene til disse vitenskapene og begynte å bruke deres hjelp i den grad det var nødvendig, og beriket dermed arsenalet av forskningsteknikker. Nå er det tilsynelatende matematikkens tur. Det er å håpe at dette nye fellesskapet også vil bidra til å styrke språkvitenskapen, forbedre arbeidsmetodene og øke mangfoldet. Derfor er det berettiget å snakke om matematisk lingvistikk i samme grad som om fysisk lingvistikk, fysiologisk lingvistikk, logisk lingvistikk, psykologisk lingvistikk og<150>osv. Det er ingen slik lingvistikk, det er bare én lingvistikk, som nyttig implementerer data fra andre vitenskaper som hjelpeforskningsverktøy. Dermed er det ingen grunn til å trekke seg tilbake før angrepet av ny vitenskap og lett gi etter for den de oppnådde posisjonene. Her er det veldig passende å minne om ordene til A. Martinet: «Kanskje det er fristende å slutte seg til ved å bruke noen få velvalgte termer til denne eller den store tankebevegelsen, eller å erklære med en eller annen matematisk formel strengheten i ens resonnement. . Tiden er imidlertid inne for lingvister til å innse uavhengigheten til vitenskapen deres og frigjøre seg fra det mindreverdighetskomplekset som tvinger dem til å assosiere enhver av sine handlinger med et eller annet generelt vitenskapelig prinsipp, som et resultat av at virkelighetens konturer alltid blir bare mer vag, i stedet for å bli tydeligere» 1 21.

Derfor matematikk i seg selv og lingvistikk i seg selv. Dette utelukker slett ikke deres gjensidige bistand eller vennskapelige møte i felles arbeid med vanlige problemer. Denne typen steder hvor den samordnede innsatsen fra de to vitenskapene brukes, er hele det brede spekteret av problemer som er inkludert i anvendt lingvistikk og av stor nasjonal økonomisk betydning. Vi kan bare ønske at begge vitenskapene i deres felles arbeid viser maksimal gjensidig forståelse, noe som utvilsomt vil bidra til maksimal fruktbarhet av deres samarbeid.<151>

Inntrengningen av matematiske metoder og den "matematiske ånden" i lingvistikken bidro til utviklingen av lingvistikken mot nøyaktighet og objektivitet. Det er imidlertid alvorlige hindringer for den videre utviklingen i denne retningen. Forfatteren reflekterer over årsakene til konvergensen mellom lingvistikk og matematikk, over grensene for anvendelighet av matematiske metoder i lingvistikk, og over arten av faktorene som hindrer gjensidig forståelse mellom matematikere og lingvister.

Da noen unge lingvister på andre halvdel av 50-tallet tenkte på å bruke matematiske metoder for å studere språkets struktur og begynte å samarbeide med matematikere, forårsaket dette overraskelse og til og med sjokk blant mange av kollegene deres - tross alt fra barndommen var de overbevist om at humaniora, hvorav lingvistikk er en, matematikk og andre «eksakte» vitenskaper har og ikke kan ha noe til felles.

I mellomtiden var tilstedeværelsen av en nær forbindelse mellom naturlig språk og matematikk slett ikke en ny oppdagelse på den tiden. L. S. Vygotsky skrev i boken "Thinking and Speech" utgitt i 1934: "Den første som så i matematikk tenkning som kommer fra språk, men overvinner det, var tilsynelatende Descartes" og fortsatte: "Vårt vanlige samtalespråk, på grunn av dets iboende svingninger og inkonsekvenser av grammatisk og psykologisk, er i en tilstand av bevegelig likevekt mellom idealene om matematisk og fantastisk harmoni og i konstant bevegelse, som vi kaller evolusjon.»

Læren om grammatiske kategorier som oppsto i antikkens Hellas var allerede en beskrivelse av en rekke av de viktigste aspektene ved språkets struktur ved bruk av abstrakte modeller, tilsvarende de modellene som ble skapt av antikke greske matematikere for å beskrive romlige former; Bare kjennskapen til slike begreper som kasus, kjønn, etc., som har blitt, som H. Steinthal skrev, "vår andre natur", hindrer oss i å forstå hvilket høyt nivå av abstrakt tenkning deres skapelse krevde. Så man bør heller bli overrasket over at de første forsøkene på å bruke ekte matematiske midler for å beskrive det språklige "idealet om matematisk harmoni" ble gjort først på midten av det tjuende århundre.

To årsaker til denne "forsinkelsen" kan identifiseres. For det første begynte språkvitenskapen, etter betydelige skritt tatt i antikken, å virkelig utvikle seg igjen først på 1800-tallet, men gjennom dette århundret ble hovedoppmerksomheten til lingvister rettet mot språkets historie, og først i det neste århundre, som generelt var strukturalismens århundre for humaniora, vendte lingvistikk for første gang etter den antikke perioden til studiet av språklige strukturer, men på et nytt nivå. Da lingvister innså at språk er, med F. de Saussures ord, et "system av rene relasjoner", dvs. et system av tegn hvis fysiske natur er uviktig, og bare relasjonene mellom dem er signifikante, parallellen mellom språk og matematiske konstruksjoner ble helt åpenbare , som også er "systemer av rene relasjoner", og allerede på begynnelsen av det tjuende århundre drømte den samme de Saussure om å studere språk ved hjelp av matematiske midler.

For det andre, i matematikken i begynnelsen av moderne tid kom kvantitative metoder til syne, og først på 1800-tallet begynte matematikere igjen å bygge ikke-kvantitative abstrakte modeller som skilte seg fra gamle på et høyere abstraksjonsnivå, og som også - som er spesielt viktig for vårt emne - ved at de kan brukes til å beskrive et mye bredere spekter av fenomener enn romlige former; Ofte viste slike modeller seg å være et praktisk og til og med nødvendig middel for å studere fenomener som matematikerne som bygde dem ikke tenkte på i det hele tatt og ikke engang visste om deres eksistens. Blant disse modellene var de som senere ble brukt i lingvistikk; Spesielt intensiv utvikling av matematiske disipliner, hvis innhold var deres konstruksjon, skjedde i første halvdel av det tjuende århundre. Derfor var møtet mellom matematikk og lingvistikk i midten av dette århundret ganske naturlig.

Et av resultatene av dette møtet var fremveksten av en ny matematisk disiplin - matematisk lingvistikk, hvis emne er utviklingen av et matematisk apparat for lingvistisk forskning. Den sentrale plassen i matematisk lingvistikk er besatt av teorien formelle grammatikker, av arten av apparatet som brukes i det, er beslektet med matematisk logikk og spesielt teorien om algoritmer. Den gir formelle metoder for å beskrive korrekte språklige enheter på ulike nivåer, samt, viktigst av alt, formelle metoder for å beskrive transformasjoner av språklige enheter – både på ett nivå og på tvers av nivåer. Ved siden av teorien om formell grammatikk ligger teorien om syntaktiske strukturer, som er mye enklere med tanke på apparat, men ikke mindre viktig for språklige anvendelser. I matematisk lingvistikk utvikles det også analytiske modeller for språk, der det på grunnlag av visse - ansett kjente - data om "riktige tekster" lages formelle konstruksjoner, resultatet av disse er en beskrivelse av noen " komponenter"språkmekanisme. På denne måten er det mulig å få en formell beskrivelse av noen tradisjonelle grammatiske begreper. Dette bør også inkludere en beskrivelse av betydningen av en setning ved bruk av intensjonell logikk ("Montague-semantikk").

Ved hjelp av et matematisk apparat er det selvsagt mulig å beskrive bare ett av de to språkidealene som Vygotsky snakket om; Derfor gir de ofte hørte innvendingene mot bruken av denne eller den matematiske modellen (eller matematiske modeller generelt) med den begrunnelse at den ikke dekker slike og slike spesielle tilfeller ikke fornuftig: å beskrive "svingningene og inkonsekvensene" som ligger i et språk, trenger vi absolutt andre, ikke-matematiske virkemidler, og bare en klar beskrivelse av det "matematiske idealet" kan bidra til å finne dem, siden det ville gjøre det mulig å klart skille "fantastisk" fra "matematisk" i språket. Men dette er fortsatt en sak for fremtiden.

Ikke mindre, og kanskje enda viktigere, enn fremveksten av matematisk lingvistikk, var den direkte penetrasjonen inn i lingvistikken av grunnleggende matematiske ideer og begreper - som sett, funksjon, isomorfisme. I moderne lingvistisk semantikk spiller begrepene predikat og kvantifisering, som kommer fra matematisk logikk, en viktig rolle. (Den første av dem oppsto i logikken selv når den ikke ble skilt fra lingvistikk, og har nå returnert til lingvistikk i en generalisert og matematisk bearbeidet form.)

Og til slutt er avklaringen av språkforskningens språk av stor betydning, noe som skjer på grunn av penetrasjonen av den "matematiske ånden" i lingvistikken, ikke bare i de områdene der bruken av matematiske ideer og metoder er mulig. Alt dette kan kort oppsummeres slik: lingvistikk blir en stadig mer nøyaktig og mer objektiv vitenskap – uten at den selvfølgelig slutter å være en humanitær vitenskap.

Imidlertid møter denne naturlige utviklingsveien for språkvitenskapen alvorlige hindringer som kan bremse den i lang tid. Den viktigste er "separasjonen av fakulteter" som oppsto i begynnelsen av moderne tid: naturvitere og matematikere på den ene siden og humanistiske forskere på den andre er ikke interessert i arbeidet til kolleger "i et annet fakultet", og dessuten, dypt nede, og ofte åpenlyst forakter dem . Matematikere og naturvitere (og enda flere "teknikere") har en tendens til å se humanistisk forskning som bare en slags "dekorasjon" eller til og med "tom prat", mens "humanister" er klare til å tolerere matematikk og naturvitenskap bare for praktiske skyld. nytte og er overbevist om at de er ingenting kan hjelpe til å forstå naturen til den menneskelige ånd.

Først på midten av 1800-tallet i dette, med ordene til den store biologen og store tenkeren Konrad Lorenz, "den onde muren mellom natur- og menneskevitenskap (die böse Mauer zwischen Natur- und Geistwissenschaften)", var det første bruddet laget på det tynneste stedet som skiller logikk fra matematikk. På 1900-tallet dukket det opp andre brudd - blant dem det som matematikere og lingvister gjorde på begge sider - men de er fortsatt få, muren er fortsatt sterk, og det mangler ikke på innsats fra begge sider for å styrke den ytterligere og lappe opp hullene. Ofte er disse anstrengelsene ganske vellykkede; den siste "prestasjonen" i denne retningen - "spesialisert utdanning" i ungdomsskolen, som allerede i barndommen deler dyktige og interesserte mennesker inn i "fakulteter" og lærer dem å være stolte av sin uvitenhet om "fremmede" vitenskaper - kan i stor grad hindre den videre tilnærming til natur- og humanvitenskap, presserende nødvendig for normal utvikling av begge. En av konsekvensene av å reise en mur er at "humanister", inkludert det store flertallet av lingvister, ikke vet noe om det grunnleggende i nettopp de grenene av matematikken som er viktigst for humaniora (og forestille seg en matematiker som en person som er engasjert utelukkende. i beregninger).

En annen hindring er den hektiske rasen som er karakteristisk for den nåværende vitenskapens tilstand, den ustanselige jakten på flere og flere nye "resultater", som innsnevrer ens horisont og ikke gir tid til å tenke på dypere problemer eller til å engasjere seg i seriøse studier av relaterte , og spesielt ikke helt relatert, vitenskapelig disiplin. Dette gjelder like mye for lingvister og matematikere - som faktisk alle som er profesjonelt engasjert i naturfag.

Og den tredje er treghet, eller rett og slett latskap. Ved første øyekast er latskap og frenetisk racing uforenlige, men i virkeligheten kommer de godt overens med hverandre og støtter og stimulerer hverandre dessuten. Når en person er for lat til å ta på seg en vanskelig oppgave, tar han tak i noe enklere og mer "pålitelig", hvis suksess rettferdiggjør og oppmuntrer treghet hans. En arrogant holdning til «småbrødrene» som svermer på den andre siden av veggen oppmuntrer og oppmuntres også av latskap. Når for eksempel en matematiker foreslår å revurdere alle ideer om eldgamle historie, uten å ta seg bryet med å bli i det minste litt kjent med eldgamle språk, er den samme mor-latskapen i svært stor grad ansvarlig for dette.

Faren for utviklingen av vitenskapen som disse hindringene utgjør, er mye mer alvorlig enn det kan virke ved første øyekast. Når uvitenhet i «fremmede» vitenskaper blir en kilde til stolthet, fører dette naturligvis til overfladiskhet og uvitenhet også i «vår egen». Det har lenge vært mange flere "fakulteter" enn to, antallet vokser fra år til år, og hver av dem er avgrenset fra de andre; Vegger dukker også opp inne på fakulteter. Forskernes horisont smalner gradvis inn; Riktignok blir forskningsapparatet mer og mer subtilt og raffinert, men nesten utelukkende små objekter faller inn i dets synsfelt, og ideen styrkes om at bare de fortjener studier. Det er all grunn til å snakke om en krise i vitenskapen, og lingvistikk er intet unntak. Nå synes det jeg er på tide å se tilbake og reflektere.

Lingvister i retningen knyttet til "Meaning - Text"-modellen har samlet seg her. Denne modellen, skapt på 60-tallet av det nå forrige århundre, var et av de første og beste resultatene av møtet mellom lingvistikk og matematikk, hvoretter to generasjoner lingvister vokste opp, vant til presis tenkning fra studieårene. Men dessverre er de ikke fri for treghet, noe som hindrer dem i å erkjenne eksistensen av en krise og tenke på måter å overvinne den på. I mellomtiden har de blant alle lingvister – og kanskje til og med blant alle som er involvert i humaniora – de mest objektive mulighetene for en slik bevissthet, og vi vil gjerne håpe at de vil benytte seg av disse mulighetene.

Teksten til rapporten var vennlig levert av A.V Gladkiy og forlaget

I MATEMATISKE ASPEKTER AV SPRÅKSTRUKTUR

I.Zvegintsev ANVENDELSE AV LOGISK-MATEMATISKE METODER I LINGVITIKK

Det er ingen tvil om at bruken av matematiske og logiske metoder i lingvistikken i stor grad ble stimulert av oppgavene til anvendt lingvistikk. Hvis det ble gjort forsøk på å bruke disse metodene til å løse problemer direkte relatert til feltet teoretisk lingvistikk, for eksempel for å skille mellom fenomenene språk og tale 1, så i fremtiden (selv om det kanskje ikke alltid er klare og nære) behovene til anvendt lingvistikk.

Suksessen med å bruke disse metodene i et helt nytt felt med felles poeng synet bestemmes i stor grad av svaret på spørsmålet om i hvilken grad det er tillatt å identifisere et logisk korrekt språk med et naturlig språk, eller, i en annen formulering, er det mulig å redusere den andre til den første 2 . Svaret på dette spørsmålet gis vanligvis i praktisk form. - gjennom konstruksjon av statistiske, informasjonsteoretiske, settteoretiske, sannsynlighetsteoretiske og andre språkmodeller, som imidlertid ikke alltid er orientert mot spesifikke oppgaver. Når de konstruerer modeller av denne typen, går forfatterne ofte ut fra antagelsen (åpenbart fra deres synspunkt) at enhver anvendelse av formelt logisk eller matematisk apparat til språklig beskrivelse og forskning automatisk bidrar til forbedringen. Av dette er bra

1 Se G. Herdan, Språk som valg og sjanse, Gronigen, 1956.

2 ons. G. Currys bemerkning: «Det faktum at det er en nær sammenheng mellom matematikk og logikk, på den ene siden, og språk - på den annen side ble det åpenbart for ganske lenge siden, og nå er dette faktum blitt fokus for oppmerksomheten i strengere forstand...” (se nedenfor, s. 98).

sa Warren Plath i sin anmeldelse av arbeidet med matematisk lingvistikk: "Hvis språkmodeller betraktes som abstrakte systemer av diskrete elementer, kan en rekke matematiske konsepter og metoder brukes på dem, alt fra den elementære ideen om tall til komplekse logiske, statistiske og settteoretiske operasjoner. Men ideen om at all bruk av tall og matematiske operasjoner for å beskrive slike systemer av elementer gjør utsagn mer "nøyaktige" eller mer "vitenskapelige" er fullstendig feil. Det må først vises at det nye systemet som er oppnådd på denne måten er en mer tilfredsstillende modell enn det opprinnelige systemet, enten i den forstand at det gjør det mulig å formulere enklere og mer generelle teoretiske utsagn om enkelte aspekter ved domenet som modelleres, eller fordi operasjoner på modellen belyste resultatene av tilsvarende operasjoner i det modellerte området. En av de største farene forbundet med å konstruere matematiske språkmodeller, spesielt kvantitative, er at vilkårlig bruk av matematiske apparater uunngåelig fører til meningsløse og misvisende resultater. Derfor er det nødvendig å tydelig forstå at forutsetningen for å berike lingvistikk ved hjelp av matematikk ikke bare er kunnskap om de relevante områdene av matematikk, men også i tillegg en dyp forståelse av essensen av språklige problemer, hvis løsning matematiske metoder bør rettes mot.”3.

For å unngå, så langt det er mulig, faren Warren Plath antyder, er det nødvendig å ikke bare ha rent empiriske forsøk på å svare på spørsmålet formulert ovenfor, men også strebe etter dets generelle teoretiske forståelse. Faktisk er spørsmålet om reduserbarheten av naturlig språk til en eller annen logisk-matematisk modell eller tolkning hovedspørsmålet i teorien om anvendt lingvistikk, hvis behov for å lage det føles mer og mer presserende. For å løse dette problemet må man først og fremst vurdere naturen til de fenomenene som utgjør studiet, på den ene siden, logikk og matematikk.

3 Se artikkelen Gebyr i denne samlingen, side 202.

og på den andre - naturlig språk, og da også mulighetene til de metodene som hver av disse vitenskapene bruker. Allerede fra en komparativ studie av disse punktene vil det være mulig å trekke noen generelle konklusjoner. Det siste er kanskje ikke ubrukelig for alle de som nødvendigvis må utføre sin forskning i skjæringspunktet mellom disse vitenskapene.

Til en viss grad ble dette målet også forfulgt av symposiet "The Structure of Language and Its Mathematical Aspects", holdt av American Mathematical Society. Utvalgte artikler fra dette symposiet utgjør følgende seksjon. Men alle, som det fremgår av selve tittelen på symposiet, berører bare individuelle og i noen tilfeller svært spesifikke aspekter ved problemet som interesserer oss. Selv om de samlet sett skaper tilstrekkelig begrunnede forutsetninger for å svare på spørsmålet vi har stilt, mangler de fortsatt en klar og entydig formulering av nødvendige konklusjoner. På mange måter fortsetter deltakerne i symposiet rekken av empiriske forsøk på å løse dette problemet, uten påtrengende å tilby sine erfaringer til lingvisters oppmerksomhet i håp om at sistnevnte selv vil finne ut hvor passende hypotesene og løsningene som er gitt til dem vil være for lingvistikkformål.

Det ser ut til at vi allerede har et entydig svar på spørsmålet vårt. Dermed skriver N.D. Andreev og L.R. Zinder: "Den matematiske representasjonen (modellen) av språk er på ingen måte identisk med språket selv" 4 . Denne ideen er også utviklet av forfatteren av boken "Models of Language" I. I. Revzin, som påpeker at resultatet av modellering bare kan være "en mer eller mindre nær tilnærming av dataene til den konkrete virkeligheten" 5 . Men å si dette betyr å si ingenting ennå, siden det gjenstår

4 N. D. Andreev, L. R. Zinder, Hovedproblemer innen anvendt lingvistikk, "Spørsmål om lingvistikk", 1959, nr. 4, s. 18

5 I. I. Revzin, Models of Language, Moscow, 1962, s. 8. For øvrig er uttrykket "nær tilnærming" en direkte tautologi: nær tilnærming.

ukjent hvorfor det er slik, og om man fortsatt bør ty til metoden for matematisk og logisk modellering, og i så fall i hvilken grad og til hvilket formål.

Før vi begynner å løse disse problemene, må vi først fastslå hvilke vitenskaper – induktiv eller deduktiv – som inkluderer lingvistikk, logikk og matematikk. Når det gjelder de to siste vitenskapene, er deres posisjon klar - de tilhører utvilsomt de deduktive vitenskapene, som baserer seg på slutninger i sin forskningsmetodikk. Lingvistikk er tradisjonelt definert som en empirisk vitenskap, siden det antas at dens hovedvitenskapelige mål er å beskrive fakta. Dette betyr tilsynelatende at lingvistikk bør klassifiseres i feltet induktive vitenskaper. Dette betyr også at ved å prøve å bruke det formelle apparatet for logikk og matematikk i lingvistikk, prøver de å anvende deduktive forskningsmetoder i induktiv vitenskap.

Imidlertid har den induktive karakteren til språkvitenskapen de siste årene indirekte eller direkte blitt stilt spørsmål ved. Dette ble gjort i den mest dramatiske form av L. Elmslev. Riktignok er terminologien han bruker veldig forvirrende og er spesielt preget av en særegen og veldig personlig forståelse av begrepene deduksjon og induksjon (faktisk tolker han dem i motsatt forstand). Grunnlaget for hans lingvistiske teori etterlater imidlertid ingen tvil om dens metodiske essens. Derfor anser han det som akseptabelt å bruke alle innledende operasjonelle definisjoner, som er typisk for deduktive vitenskaper. Og han karakteriserer selv sin teori i følgende uttrykk: «1. Teori i vår forstand er i seg selv uavhengig av erfaring. I seg selv sier den ingenting verken om muligheten for dens anvendelse eller om forholdet til eksperimentelle data. Det inkluderer ikke et eksistenspostulat. Det representerer det som har blitt kalt et rent deduktivt system, i den forstand at det alene kan brukes til å beregne mulighetene som følger av dets premisser. 2. På den annen side inkluderer en teori en rekke premisser som er kjent fra tidligere erfaring for å tilfredsstille vilkårene for anvendelse på enkelte eksperimentelle data. Disse premissene er de mest generelle og kan derfor tilfredsstille vilkårene for anvendelse på et stort antall eksperimentelle data» 6.

Som det fremgår av denne uttalelsen, søker L. Elmslev å fremme ideen om den doble metodologiske karakteren til objektene for språkforskning med en primær vekt på deres deduktive egenskaper. Han skal også ha æren for den ganske tvetydige metoden («på den ene siden..., men på den andre siden...»), som generelt har blitt karakteristisk for å vurdere denne problemstillingen (og som gjør det mulig å levere inn evt. retning). Ideen om lingvistikkens metodologiske dualitet har nylig blitt utbredt og til og med fungert som et teoretisk grunnlag for å formulere prinsippene for den nyeste retningen i språkvitenskapen. - universals lingvistikk (universalisme). "Memorandum on Linguistic Universals" sier om denne saken: "Studien av lingvistiske universaler fører til en hel rekke empiriske generaliseringer om språklig atferd - både de som fortsatt krever eksperimentering og de som allerede er etablert. Disse generaliseringene representerer potensielt materiale for å konstruere den deduktive strukturen til vitenskapelige lover. Noen og kanskje de fleste av dem har imidlertid fortsatt bare status som empiriske generaliseringer, som, gitt den nåværende kunnskapen vår, ikke er mulig å korrelere med generaliseringer eller deduktivt utlede fra lover av mer generell betydning» 7 . J. Gryenberg uttrykker seg med ikke mindre sikkerhet i sitt forord til samlingen viet språklige universaler. Ved å polemisere med de berømte ordene til L. Bloomfield om at «de eneste legitime generaliseringene angående språk er induktive generaliseringer», skriver han: «Likevel ser det ut til å være allment akseptert at den vitenskapelige metoden ikke bare skal være induktiv, men også deduktiv. Formuleringen av generaliseringer oppnådd ved induktiv forskning fører til teoretiske hypoteser basert på

6 L. E l m slev, Prolegomena til språkteorien, lø. "Nytt i lingvistikk", vol. I, M., 1960, s. 274-275.

7 "Memorandum om språkuniversaler", V "Universals of Language", red. av J. Greenberg, Cambridge, Mass., 1963, s. 262 - 263.

hvorfra ytterligere generaliseringer igjen kan utledes ved deduksjon. Disse sistnevnte må deretter underkastes empirisk testing." 8

Det faktum at språkvitenskapens historie ikke bare består av akkumulering av språklige fakta og deres klassifisering, men også av en endring i synspunkter på selve språket, noe som uunngåelig innebærer forskjellige tilnærminger til språklige fakta og til og med forskjellige teoretiske tolkninger av dem, tvang noen sovjetiske lingvister til også å komme til konklusjonene om den metodiske dualiteten til deres vitenskap. S.K. Shaumyan foretrekker imidlertid å snakke om den hypotetisk-deduktive metoden, og beskriver dens trekk som følger: «Den hypotetisk-deduktive metoden er en syklisk prosedyre som begynner med fakta og slutter med fakta. Det er fire faser i denne prosedyren:

1) registrere fakta som krever forklaring;

2) fremsette hypoteser for å forklare disse fakta;

3) utledning fra hypoteser om spådommer om fakta som ligger utenfor faktakretsen for å forklare hvilke hypoteser som ble fremsatt;

4) teste fakta som er forutsagt av hypotesene og bestemme sannsynligheten for hypotesene.

Den hypotetisk-deduktive metoden er fundamentalt forskjellig fra den induktive metoden som brukes i slike kunnskapsfelt som for eksempel beskrivende botanikk eller zoologi» 9. Metoden til S.K. Shaumyan gjentar fullstendig metoden for lingvistikk av universaler og J. Greenberg. Den eneste forskjellen er navnet. Hvis for eksempel J. Greenberg snakker om en kombinasjon av induktive og deduktive metoder, så kaller S. K. Shaumyan metoden hans hypotetisk-deduktiv - betegnelsen er tydelig inkonsistent for en metode som "begynner med fakta og slutter med fakta."

Spørsmålet om hvor lingvistikk skal klassifiseres, stilles også av I. I. Revzin. "I sin natur, - fra -

8 «Universals of Languages s. IX.

9 S. K-Shaumyan, Problemer med teoretisk fonologi, M., 1962, ca. 18-19. Angående den hypotetisk-deduktive metoden, se også artikkelen av V. S. Shvyrev, Noen spørsmål om logisk-metodologisk analyse av forholdet mellom det teoretiske og empiriske nivået av vitenskapelig kunnskap, i samlingen "Problems of the logic of scientific knowledge", M. , " Vitenskapen", 1964, s. 66-75 (3. del av artikkelen).

Han svarer på dette spørsmålet: lingvistikk må først og fremst bruke induktive metoder, den beskriver spesifikke talehandlinger for spesifikke språk.

På den annen side gjør tilstedeværelsen av et uendelig antall talehandlinger studert av en lingvist det neppe mulig å formulere de grunnleggende begrepene i språkvitenskapen ved generalisering ved induksjon.

Det følger at lingvister ikke bare trenger induktive, men også deduktive forskningsmetoder for å oppnå et system med generell kunnskap som hjelper til med å forstå dataene som er hentet fra analysen av spesifikke språk...

I sin deduktive del kan lingvistikk tilsynelatende struktureres på samme måte som logikk eller matematikk er strukturert, nemlig: et visst minimum antall primære, udefinerte termer er identifisert, og alle andre termer er definert gjennom primære. Samtidig må noen primære utsagn om sammenhengen mellom disse begrepene (aksiomer) være klart formulert, og alle andre utsagn må bevises, det vil si reduseres til noen andre utsagn» 10.

Her fungerer deduksjonsmetoden, nedfelt i logikk og matematikk, bare som et middel til å bestille "settet av talehandlinger" med det formål å skape et "system av generelle begreper." I direkte motsetning til denne oppgaven står imidlertid presentasjonen av selve den deduktive metoden, anbefalt for bruk i lingvistikk. Det er fullstendig gjennomtenkt fra både handlinger og fakta, og som utgangspunkt for å konstruere et system av generelle språklige begreper, krever det et sett med udefinerte og, tilsynelatende, absolutt betingede primærtermer, gjennom hvilke alle påfølgende termer defineres.

Denne motsetningen er ikke tilfeldig, den ligger i selve naturen til vitenskapene vi vurderer. Det ser ut til at konklusjonen om at når man studerer lingvistiske objekter en kombinasjon av induktive og deduktive metoder er tillatt åpner døren for bruk av logiske og matematiske metoder i lingvistikk, og den konkrete implementeringen av denne konklusjonen er opprettelsen av en rekke

10 I. I. R e vzin, Models of language, M., 1962, s. 7-8.

formelle-logiske og matematiske modeller av språk. Men, som det skal vises senere, kan ikke en slik forenklet tilnærming gi tilfredsstillende resultater. Vi kan være enige om at det i språkforskning er tillatt og til og med nødvendig å kombinere deduktive og induktive metoder. Til slutt, som V. Brøndal skrev, «induksjon er ikke noe annet enn en skjult deduksjon, og bak de rene sammenhengene som er etablert mellom observerte fenomener, antas det absolutt uunngåelig en realitet, et spesifikt objekt for en gitt vitenskap» 11 . Men dette betyr ikke at det formelle apparatet for logikk og matematikk ubetinget og mekanisk skal overføres til lingvistikk uten noen vurdering av det "spesifikke objektet for en gitt vitenskap." Som den samme I. I. Revzin med rette bemerker, "bevis innhentet med deduktive midler, uansett hvor upåklagelig de måtte være fra et logisk synspunkt, sier fortsatt ikke noe om egenskapene til det virkelige språket beskrevet av modellen" 12 . Og for å bestemme effektiviteten til modeller, anbefaler han å vende seg til praksis, som er representert ved maskinoversettelse og "andre praktiske anvendelser av lingvistikk."

Og praksisen med anvendt lingvistikk viser at det legges svært strenge restriksjoner på bruken av matematiske og logiske metoder i studiet av språkfenomener.

Logikk gir et eksempel på den mest konsekvente bruken av den deduktive metoden. Matematikk følger i stor grad logikk i denne forbindelse, og derfor kan de betraktes sammen.

Både logikk og matematikk representerer selvsagt ikke homogene systemer med hensyn til deres metoder og tolkning av mål. Så, for eksempel, i forhold til logikk kan vi snakke om dialektisk, formell, matematisk logikk og, i en snevrere forstand, om subjekt, semantisk, fenomenologisk, transcendental eller konstruktiv, kombinatorisk, flerverdi, mo-

11 V. Brøndal, Strukturell lingvistikk. Sitat Av
bok av V. A. Zvegintsev "Lingvistikkens historie i det 19. og 20. århundre." i disposisjon
kah og utdrag”, del II, M., Uchpedgiz, 1960, s. 41-42.

12 I. I. Revzin, Språkmodeller, M., 1962, s.

fjernt osv. Vi må imidlertid nødvendigvis legge til side alle slike inndelinger og bare snakke om de mest generelle trekk som ligger i logikk og matematikk som helhet, og hovedsakelig om de som tydeligst viser metodenes deduktive natur. disse vitenskapene.

Med denne posisjonen vil vi derfor ikke ty til induktiv logikk. La oss bare merke oss at konklusjoner i induktiv logikk ikke bestemmes av premisser - dermed er de ikke tautologiske. Konklusjoner i induktiv logikk er direkte avhengig av fakta, og disse sistnevnte bestemmes av volumet av kunnskapen vår - dermed er de etablert på et sannsynlighetsgrunnlag. Sannsynlighet er det viktigste metodiske verktøyet for induktiv logikk.

Deduktiv logikk er mest fullstendig representert av formell og matematisk logikk, som har mye til felles. Deduktiv logikk er en vitenskap som studerer menneskelig tenkning eller mentale handlinger fra synspunktet deres struktur eller form, og abstraherer fra deres spesifikke innhold. Dermed søker deduktiv logikk å formulere lover og prinsipper, hvis overholdelse er en forutsetning for å oppnå sanne resultater i prosessen med å oppnå inferensiell kunnskap. Det viktigste metodiske verktøyet for deduktiv logikk er implikasjon. Hun mottar inferensiell kunnskap uten direkte ty til erfaring eller praksis, bare gjennom anvendelsen av logikkens lover. I prosessen med deduksjon bestemmer premisset konklusjonen: hvis premisset er sant, så konklusjonen det bør være ekte. Dermed ligger konklusjonen allerede i premisset, og formålet med fradraget er å synliggjøre hva som allerede er skjult i premisset. Det følger av dette at enhver konklusjon oppnådd gjennom deduksjon er tautologisk, det vil si at den er logisk tom, selv om den fra andre synspunkter, for eksempel i tilfeller av anvendelse av det formelle logiske apparatet for andre vitenskapers formål, kan være nytt , uventet og original.

En lignende situasjon oppstår i matematikk - gyldigheten av argumenter i den hviler helt på deduksjon. Dessuten, i matematikk, som regel, ethvert innledende synspunkt, er enhver tilnærming til å løse et problem akseptabel - så lenge de tilfredsstiller betingelsene for matematisk deduksjon. Matematikk har et rikt sett med slike "initielle synspunkter" og "tilnærminger" som en forsker alternativt kan bruke for å løse problemet sitt. Matematiske problemer blir ofte oversatt til ulike ekvivalente former, og hver av dem involverer bruk av ulike områder matematisk teori for å løse problemet. Dermed har matematikeren tilnærmet ubegrenset frihet til å velge premisser – han velger de som fra hans ståsted inneholder de mest lovende mulighetene for den enkleste, mest ikke-trivielle, elegante løsningen på problemet. Hans talent og erfaring manifesteres nettopp i det vellykkede valget av lokaler, de "la oss anta at ..." eller "hvis ... da" som matematiske arbeider er fulle av. Som i logikk, bestemmer matematiske premisser - aksiomer eller postulater - definisjonene av ennå ikke definerte enheter.

Friheten til å velge premisser i matematikk er direkte avhengig av de immaterielle enhetene eller objektene som den opererer med - dens oppmerksomhet er rettet mot relasjonene mellom dem. Matematiske objekter fungerer som symboler som uttrykker strukturen til rene relasjoner. Et matematisk system kan dermed betraktes som et sett av formelle relasjoner som eksisterer kun i kraft av uttalelsen om disse relasjonene. Selvfølgelig, spesielt for anvendte formål, kan uttalelser om relasjoner være rettet mot å legemliggjøre korrespondanse med ekstern virkelighet, som ikke vil ha noen innvirkning på disse uttalelsene i seg selv, snarere tvert imot. Matematikere undersøker ikke "sannheten" til deres aksiomer, selv om de krever gjensidig konsistens mellom dem. Forskning innenfor et matematisk system er studiet og etableringen av sammenhenger som gjør det mulig å bevise at fakta om teori A forutsetter fakta om teori B. Følgelig er hovedspørsmålet i matematikk ikke "hva er A og B", men " forutsetter A (eller betingelse) B?

Situasjonen i lingvistikk er en helt annen – den er hovedsakelig fokusert på det første av disse spørsmålene, og dette gir den ikke mulighet til å bryte opp fra virkeligheten; den opererer derfor ikke med abstrakte, men med konkrete enheter, selv om den i en rekke tilfeller streber etter å skape abstrakte objekter som begrepet fonem eller morfem. Denne situasjonen er ikke bare karakteristisk for tradisjonell lingvistikk, men er like karakteristisk for dens nyeste retninger, forent under strukturalismens fane. En rekke utsagn har allerede blitt sitert ovenfor, hvor forfatterne, ved å prøve å bruke ikke bare induktive, men også deduktive metoder (eller matematiske og logiske metoder) i språkvitenskapen, fortsatt ikke var i stand til å omgå behovet for å adressere en ekte språklig faktum. I tillegg til dem kan en til siteres, noe som bringer fullstendig klarhet i spørsmålet som vurderes. "Lingvistisk analyse,- P. Garvin skriver i denne forbindelse,- Det er i hovedsak en induktiv prosess i den forstand at den søker å etablere en liste over elementer eller et sett med utsagn fra informantenes språklige stimuli eller fra undersøkelse av teksten. Det er basert på antakelsen om at det i begge disse informasjonskildene vil være mulig å gjenkjenne regelmessig forekommende elementer forskjellige typer og rekkefølger av kompleksitet. Klassifiseringen av disse typene og erklæringen om deres distribusjonsbetingelser, oppnådd som et resultat av analysen, danner en induktiv beskrivelse av språket» 13.

I lingvistikken kan man selvsagt også bruke premissmetoden, ut fra hvilken bestemte objekter, fakta eller språkenheter så bestemmes. Men her står vi overfor to funksjoner som gjør betydelige justeringer av bruken av denne metoden. I motsetning til logikk og matematikk, vil "sannheten" til definisjonene oppnådd på denne måten i dette tilfellet bli søkt, det vil si deres korrespondanse med erfaringsdataene. Dermed er den gjensidige avhengigheten av premisset og konklusjonskunnskap etablert: premisset bestemmer konklusjonen (definisjonen av et bestemt språklig objekt i form av premisset), men hvis konklusjonen ikke samsvarer med erfaringsdataene, er det en må justere selve premisset. Men denne typen justering av premissene har ingenting å gjøre med oversettbarheten til ekvivalente former, som, som angitt ovenfor, er tillatt i matematikk, siden de ikke er bestemt

13 P. Garvin, En studie av induktiv metode i syntaks, "Word", vol. 18, 1962, s. 107.

formelle hensyn, men data fra erfaring. Alt det ovenstående gir grunn til å konkludere med at selve konseptet om et premiss og friheten til å velge det har en spesifisitet i lingvistisk analyse som ikke kan ignoreres ved bruk av den deduktive metoden i lingvistikk.

Språkforskere kan ikke bruke «hvis»- eller «la oss si»-metoden like fritt som matematikere. Deres forutsetningsfrihet er svært strengt begrenset. Språkvitenskapens historie kjenner til mange endringer i "synspunkter" eller, med andre ord, innledende premisser som ble foranlediget av oppdagelsen av nye fakta, spredningen av generelle vitenskapelige ideer til lingvistikken, eller til og med dannelsen av originale teorier . Men for en lingvist, i alle slike tilfeller, er en endring i "hvis", eller initial premiss, en endring i hele det vitenskapelige konseptet. Derfor sier ikke lingvisten "hvis", men postulerer sin forståelse av premisset, det vil si en forståelse av emnet for forskningen hans, og gir, basert på denne forståelsen, en definisjon av bestemte språkenheter, testing av disse definisjonene med data fra erfaring. Sistnevnte omstendighet, på grunn av den gjensidige avhengigheten av premiss og konklusjon i lingvistikk, tjener som et middel til å verifisere og validere selve premisset, som står i begynnelsen av en deduktiv form for lingvistisk analyse. Så hvis vi ser på spesifikke eksempler,Vtidligere ble språk tolket som et uttrykk for menneskets åndelige essens (i Humboldt), som en naturlig organisme (i Schleicher), som en individuell psykofysiologisk aktivitet (hos neogrammarianere), etc. Forskningspraksis basert på disse begrepene har vist sin utilstrekkelighet. I dag er utgangspunktet for lingvistisk analyse postulatet om at språk er et system av tegn. Det er gjenstand for den samme testen av erfaring og praksis som ethvert annet konsept innen språkvitenskapen.

Allerede disse foreløpige og mest generelle betraktningene viser at deduktive metoder slett ikke er kontraindisert i lingvistikk, men bruken av dem krever overholdelse av spesifikke betingelser. Det er disse spesifikke forholdene som legger visse begrensninger på den mekaniske overføringen av metoder for logikk og matematikk til lingvistikkfeltet. Men hvis vi begrenser oss til en slik generell uttalelse, vil mye fortsatt være uklart. Det er derfor det er nødvendig å utdype spørsmålet vi undersøker og, for å forsterke potensielle konklusjoner, vende seg til praksisen med anvendt lingvistikk, der legitimiteten til premissene og korrespondansen til konklusjonene gjort på grunnlag av eksperimentelle data er tydeligst demonstrert.

Forholdet mellom språk og logikk er veldig særegent. Representanter for empiriske vitenskaper, som inkluderer lingvistikk, studerer et bestemt objekt eller fenomen for å beskrive eller forklare det. De formulerer resultatene de får på et språk som kalles objektspråk. Logikeren bruker bevis, konklusjoner, dommer osv., men de er kun tilgjengelige for ham i språklig form. Dermed viser det seg at logikeren er ett skritt lenger fra den virkelige verden enn representanter for de empiriske vitenskapene. Analysen hans er ikke rettet direkte mot det virkelige objektet studert av de empiriske vitenskapene, men mot deres språk 14. Han undersøker med andre ord språk og formulerer resultatene som er oppnådd på et språk som kalles et metaspråk.

Fra et logisk synspunkt er språkets grunnleggende enhet ikke et tegn eller objektet det betegner, men en setning, siden bare i den kan den logiske prosessen utfolde seg. Det er derfor bare en setning kan være sann eller usann. Men ord i seg selv kan ikke ha disse egenskapene. Men før vi kan fastslå om en setning er sann eller ikke, må vi slå fast at den har en mening.

Begrepene sannhet og mening tilhører feltet semantikk, som studerer forholdet mellom språk og objektene det betegner. Gjennom disse relasjonene bestemmes sannheten eller usannheten til en setning: hvis setningen beskriver objekter riktig, er den sann, og hvis den er feil, er den ikke det. Men språklige uttrykk kan inngå andre forhold enn de

14 "Den logiske analysen av vitenskapelig kunnskap," skriver P. V. Tavanets og V. S. Shvyrev i denne forbindelse, "er først av alt og direkte en analyse av språket som denne kunnskapen er uttrykt på." Se artikkelen "Logikk" vitenskapelig kunnskap"i samlingen "Problems of the logic of scientific knowledge", M., "Science", 1964, s. 161.

eksisterer mellom objektene de utpeker. I tillegg kan setninger inngå relasjoner med andre setninger. Logikerens oppgave er å finne ut hva relasjonene mellom språklige uttrykk og setninger er, og å etablere regler for å avgjøre om prosedyren foreskrevet i et gitt tilfelle følges eller ikke. Når du løser dette siste spørsmål logikeren refererer ikke til objektene beskrevet av setningen. Han er interessert i den språklige formen, og ikke dens innhold, som selvfølgelig ikke hindrer tolkningen av innholdet, noe som resulterer i fremveksten av et formalisert språk. Et formalisert språk kan representeres som et abstrakt system, for eksempel predikatkalkulus.

Så, en logiker, avhengig av målene for studien, kan arbeide på to nivåer - syntaktisk (logisk syntaks) og semantisk (logisk semantikk). La oss først vurdere anvendelsen av det første av disse nivåene på naturlig språk.

Hvis en logiker, engasjert i studiet av språklige former og relasjonene som eksisterer mellom dem, kan forbli innenfor det syntaktiske nivået, opererer med meningsløse termer, så kan ikke en språkforsker gjøre dette. Alle nivåer av naturlig språk (med mulig unntak av fonemisk) er meningsfulle og derfor utenkelige utenfor semantikk. Og dessuten eksisterer ikke naturlig språk utenfor pragmatikken, som ikke lett kan skilles fra det av den enkle grunn at det i talehandlingen hele tiden omdannes til semantikk. Derfor er naturlig språk alltid en tolkning og dessuten en to-trinns, siden det er knyttet til både semantikk og pragmatikk 15. Og denne tolkningen egner seg ennå ikke til noen formalisering.

La oss nå gå videre til det andre nivået, når tolkning tilskrives kalkulus gjennom semantiske regler. Og i dette tilfellet vil vi få en utdanning som på ingen måte kan sammenlignes med naturlig språk. Er det sant,

15 ons. Niels Bohrs bemerkninger om matematisk språk, der «entydigheten av definisjoner som er nødvendige for en objektiv beskrivelse oppnås ved å bruke matematiske symboler nettopp på grunn av at man på denne måten unngår referanser til det bevisste subjektet, som gjennomsyrer hverdagsspråk" (Nil Bor, Atomfysikk og menneskelig kognisjon, M., IL, 1961, s. 96.)Her har vi å gjøre med meningsfulle termer, men i logisk og naturlig språk bygger de sitt forhold til «sannhet» på helt andre grunnlag. Som A. Tarski skriver, er «sant», «i alle fall, i sin klassiske tolkning» slik i den grad at det «sammenfaller med virkeligheten» 16. Men dette sannhetskriteriet gjelder faktisk bare naturlige språk, som alltid er realitetsorienterte. Situasjonen er annerledes i logisk semantikk. Semantisk analyse er kun avhengig av den logiske tolkningen av systemet og involverer etablering på - Jegvisse regler som formulerer sannhetsbetingelser,JegHan foreskriver overholdelse av disse reglene, uten å svare på spørsmålet i hvilken grad det er en "tilfeldighet" her.Jegkontakt med virkeligheten." I tillegg utføres selve fokuset på virkeligheten i naturlig språk, ikke direkte, men gjennom en person, noe som igjen gjør det nødvendig å vende seg til det tredje nivået,- pragmatisk. "... Flytt til det semantiske nivået,- P.V. Tavanets og V.S. Shvyrev oppgir,- er ikke i seg selv en tilbakevending til det levende språket i sin konkrethet, slik det kan virke ved første øyekast på grunn av det faktum at språkets semantiske funksjon så å si er essensen av språket som «tankens umiddelbare virkelighet». Faktisk, den opprinnelige ordningen med semantikk "språk - virkeligheten" gir ennå ikke et konkret bilde av språket som tankens umiddelbare virkelighet av den enkle grunn at språket er forbundet med virkeligheten ikke i seg selv på en mystisk måte, men gjennom en person, gjennom sine handlinger, sin oppførsel. Derfor, strengt tatt, kan en spesifikk idé om språk som en tankebærer bare oppnås på nivået av dens pragmatiske analyse i henhold til "språk" -ordningen - menneskelige handlinger med og basert på språk - virkeligheten" 17.

Men det er ikke alt. Angående dette spørsmålet, V. M. | Glushkov skriver: «Et levende menneskelig språk kan betraktes som et formelt språk først etter at et strengt regelsystem er formulert, som tillater

16 A. T a g s k i, Grundlegung der Wissenschaftlichen Semantik
(Actes du Congrès International de Philosophie Scientifique, 1936).

17 Se artikkelen «Logic of Scientific Knowledge» i samlingen «Pro-
problemer med logikken til vitenskapelig kunnskap", M., "Vitenskap", 1964, s. 16.

som skiller uttrykk som er tillatt i språket fra alle andre uttrykk, det vil si meningsfulle setningerFrameningsløs" 18. For å forklare vanskelighetene som oppstår ved formalisering av et naturlig språk, påpeker han videre at «... intet fast formalisert språk kan være tilstrekkelig for et levende menneskelig språk, siden sistnevnte, i motsetning til førstnevnte, stadig utvikles og forbedres. Derfor er enhver formalisering av et levende menneskelig språk bare en mer eller mindre vellykket øyeblikkelig rollebesetning av det, og mister likheten med originalen etter hvert som sistnevnte utvikler seg» 19. Hvis alt kom ned til nettopp dette, ville det ikke vært så ille I anvendt lingvistikk tenker de på øyeblikkene i språkutviklingen, streber etter å betrakte det som et helt stabilt system, og likevel klarer de ikke å oppnå formalisering av naturlig. Språk. Dette skjer av en veldig enkel grunn. Det formelle systemet og det naturlige språket baserer sin effektivitet på polare motsatte kvaliteter. Ethvert formelt system er alltid identisk med seg selv. Det er denne egenskapen som gjør det mulig for henne å utføre sine funksjoner i alle konkrete tilfeller sine applikasjoner. Og et naturlig språk - når det gjelder innhold, semantikk, eller, som de vanligvis sier i disse tilfellene, i informative termer - er aldri identisk med seg selv. Det er denne evnen hans som gjør det mulig for ham å fungere i alle spesifikke tilfeller av hans søknad. Selv om det forblir det samme språket, er det alltid annerledes i forskjellige situasjoner. Samtidig har han verken eksplisitte eller formative regler, eller sannhetsregler, eller transformasjonsregler for å bestemme hvilken av de potensielle betydningene eller betydningsnyansene et gitt ord vil få i en gitt situasjon. Dessuten kan nesten ethvert ord i et naturlig språk få en betydning som ikke er fiksert av noe språk - det kan, etter å ha oppstått, bli fiksert i språket, men med samme suksess, som et løpende lys, blusse opp, gå seg vill i det språklige kosmos og gå ut.

18 V. M. Glushkov, Tenkning og kybernetikk, "Spørsmål om fysikk"
losophy", 1963, nr. 1, s. 37-38

19 Ibid., s. 38.

Og med alle disse egenskapene viser naturlig språk seg å være et utrolig perfekt verktøy som lar oss oppnå fullstendig gjensidig forståelse for det meste komplekse konsepter og i enhver situasjon. Hvorfor skjer dette?

Tilsynelatende bør svaret på dette spørsmålet delvis søkes i en av tankene til grunnleggeren av semiotikken, Charles Peirce, som han vedvarende gjentar i mange av sine arbeider. Det kommer ned til dette. I moderne lingvistikk er språk vanligvis definert som et system av tegn. Dette er utgangspunktet for all språklig analyse. Hvis dette er slik, så er ikke språket bare et system av tegn, men et system for gjensidig tolking av tegn som eksisterer i det i den grad de tolkes i andre tegn. C. Peirce sier det slik: «Ingen tegn kan fungere som et tegn med mindre det tolkes i et annet tegn. Følgelig er det helt avgjørende for et tegn at det påvirker et annet tegn» 20 . Og andre steder: "Hele hensikten med et tegn er at det skal tolkes i et annet tegn" 21. Og til slutt, kanskje viktigst: "Et tegn er ikke et tegn med mindre det oversetter seg selv til et annet tegn der det får mer fullstendig utvikling" 22.

Følgelig er naturlig språk et system av tegn som gjennom gjensidig tolkning er i stand til å svare på alle menneskelige behov i semantisk uttrykk. Men her er en viktig advarsel nødvendig. Tross alt er alle behov av denne typen bestemt av en persons holdning til fenomenene i den ytre verden og det sosiale miljøet der livet hans finner sted. På grunn av denne omstendigheten kan transformasjonssemantikk, hvis den kunne skapes, ikke bare stole på reglene for gjensidig tolkning av tegn, det vil si være lukket og endelig. Det viser seg å være et derivat av et veldig stort antall mengder som sterkt motstår formalisering.

20 kap. R e i g s e , Collected Papers, Cambridge, Mass., vol. 8,
s. 225.

21 Ibid., vol. 8 poeng. 191.

22 Ibid., vol. 5, s. 594.

I forbindelse med ovenstående er det viktig å vurdere egenskapene til prosedyren for å løse problemer og selve begrepet løsbarhet i logikk og matematikk, på den ene siden, og i lingvistikk, på den andre.

Før du løser et problem i matematikk, må problemet formuleres i presise termer. Denne formuleringen i seg selv er en forutsetning for en vellykket løsning på problemet. Samtidig, som allerede antydet, kan matematikeren fritt forvandle denne formuleringen av problemet til en ekvivalent versjon, hun har også passende midler for dette. Allerede på dette første stadiet av forskningsmetodikk skiller lingvistikk seg vesentlig fra matematikk. Når lingvisten formulerer problemene sine, har lingvisten en viss mengde observerte empiriske data, som han ikke alltid kan gi en eksakt formulering, men som han likevel med vilje må danne grunnlaget for sin forskning - allerede i gang med selve denne forskningen. , klargjøres formuleringene, som ofte er målet for forskningen. For ikke å gå langt for eksempler kan vi vise til den språklige betydningen, som ligger til grunn for forskning innen feltet automatisk behandling av taleinformasjon, men som samtidig er definert svært vagt og inkonsekvent. Det er denne omstendigheten som tvinger forskere på dette feltet til stadig å endre strategi.

Men nå har forskningen begynt og en avgjørelse er tatt. Hva betyr dette i forhold til logikk og matematikk og i forhold til lingvistikk? Logikk, som nevnt ovenfor, gjør det mulig å eksplisitt presentere konklusjoner som ligger implisitt i premissene. Imidlertid har logikk ikke regler, hvis bruk kan garantere at den ønskede løsningen vil bli oppnådd, siden det ikke er et middel for å oppnå nye konklusjoner, men bare en teknikk for å bestemme deres riktighet. Hun er ikke den magiske nøkkelen til alle mysterier. Det er ganske åpenbart at hvis logikken hadde slike regler, ville det ikke vært noen uløste problemer. Det ville være nok å bruke et visst sett med logiske regler, og vi vil automatisk motta et ferdig svar på ethvert spørsmål som plager oss. I lys av ovenstående får også begrepet løselighet av et problem eller en oppgave en bestemt betydning.

I logikk og matematikk blir ethvert sluttresultat anerkjent som sant hvis ingen formell regel ble brutt under bevisprosessen. Siden ulike måter å bevise på er mulig, er det tillatt å ha ulike løsninger. Men alle av dem kan bli gjenstand for verifisering fra synspunktet om kravene til logikk eller matematikk. Situasjonen er annerledes i lingvistikk. Den har ikke et apparat som man kan verifisere eller bevise riktigheten av konklusjonene som er oppnådd. Følgelig bestemmes sannheten til de oppnådde løsningene - den etableres ikke av formelle regler, men av korrespondanse med erfaringsdata. Under disse forholdene vil man teoretisk forvente en enkelt endelig løsning. Men i praksis, som det fremgår av motstridende språklige definisjoner av selv de grunnleggende språkkategoriene, skjer ikke dette. I dette tilfellet er det alltid en viss subjektivitet av vurderinger, som i stor grad bestemmes av mengden fakta som forskeren har til rådighet. Det følger at sannheten til en løsning i lingvistikk alltid er gitt i en viss tilnærming og ikke er bestemmende, men sannsynlighetsmessig.

Under disse forholdene er det svært viktig å teste riktigheten av språklige definisjoner og tolkninger basert på objektive kriterier. Muligheten for slik verifisering er gitt av det brede feltet av anvendt lingvistikk, der naturlig språk motarbeides av en maskin som representerer interessene til logikk og matematikk.

For å løse praktiske problemer innen anvendt lingvistikk, brukes en digital datamaskin. Den er i stand til å oppfatte, lagre, overføre, omgruppere og utstede informasjon. Den tolker og utfører et sett med kommandoer (kommandoprogram), og modifiserer dem også under utførelsen av oppgaven. Den er i stand til å løse svært komplekse problemer, men samtidig må hele overgangsprosessen fra oppgave til løsning beskrives uttømmende og konsekvent i form av en sekvens av grunnleggende elementære operasjoner. Informasjon legges inn i maskinen ved hjelp av en tosifret (binær) kode eller språk. Maskinen opererer med ord kodet på denne måten, tilsvarende de grunnleggende logiske forbindelsene . eller funksjoner av proposisjonell eller predikatkalkulus. En maskin kan løse komplekse matematiske problemer nettopp fordi komplekse matematiske operasjoner kan reduseres til en sekvens av aritmetiske operasjoner, og disse sistnevnte i sin tur til logiske operasjoner. Derfor kan en digital datamaskin betraktes på samme måte som en logisk maskin.

Dermed, uansett hvor komplekst problemet er, løser maskinen det ved hjelp av en sekvens av elementære operasjoner, hvis program må formuleres helt entydig (konsekvent), nøyaktig, detaljert og uttømmende. Det bør med andre ord ikke gå utover grensene som er fastsatt av den logiske beregningen av proposisjoner; og når vi spør om en maskin kan takle behandlingen av informasjon som finnes i naturlige språk, må vi først finne ut i hvilken grad den logiske beregningen av proposisjoner er en adekvat modell for naturlig språk.

Med tanke på det digitale datamaskin, beskrevet ovenfor, er det første som må gjøres for at maskinen skal "forstå" oppgaven og begynne å behandle taleinformasjon i samsvar med denne oppgaven å omformulere informasjonen i naturlig språk til logisk språk. Vi snakker om oversettelse av naturlig språk til språket for logisk proposisjonskalkyle.

Samtidig, som Bar-Hillel 23 viste, må man møte vanskeligheter som setter utsiktene for automatisk informasjonsbehandling i et svært dystert lys med mindre hele retningen for søket etter en løsning på dette problemet endres. I det minste må vi ta hensyn til hindringene som er oppført nedenfor, som vi ennå ikke har de nødvendige midlene til å overvinne.

A. Den logiske beregningen av proposisjoner er for dårlig til at det er mulig, selv med en fjernkontroll

23 Y. V a g - H i 1 1 e 1, En demonstrasjon av ikke-gjennomførbarheten av helautomatisk høykvalitetsoversettelse, Advances in Computers, red. av F. Alt., vol. Jeg, N. Y., 1960, s. 158-163.

nærmere, å omformulere et naturlig språk, utrolig komplekst i sin semantiske struktur, som har et stort volum av overflødige elementer og - viktigst av alt - ofte preget av en slik tvetydighet og usikkerhet i uttrykket av "mening" at ingen to-verdi logikk er i stand til å takle etableringen av en kunstig dobbel av naturlig språk 24 . Riktignok omhandler logikk, som nevnt, bare språklig form. Men siden vi har å gjøre med automatisk behandling av informasjon, er det nødvendig å kunne skille mellom semantisk informasjon, og hvis dette ikke kan oppnås ved hjelp av de logiske midlene vi har til rådighet, hvordan kan vi da få "tillit til at vår oversettelse av naturlig språk i logisk språk er riktig?

B. Maskinen kan ikke ta hensyn til det Bar-Hillel kaller "generelle forhåndsdata for informasjon"(generisk bakgrunn for informasjon),som faktisk forblir utenfor det naturlige språkets grenser og derfor ikke kan oversettes til logisk språk. Språkforskere snakker i disse tilfellene om ekstraspråklig kontekst(referanseramme), som, ubemerket av oss, men på en veldig avgjørende måte, korrigerer eller til og med helt revurderer alle våre ord. Tross alt, selv en så enkel setning som "Jeg kommer tilbake før mørkets frembrudd," for å forstå den nøyaktig og bestemme tidsangivelsen i den, som et minimum, krever forhåndskunnskap om hvor den ble uttalt og når dag og år. Bare denne typen foreløpig informasjon er ofte det eneste middelet for å forstå de intrafase-relasjonene som verken proposisjonskalkylen eller predikatkalkulen kan takle. Så, bruker for eksempel to setninger som blinket i avisene:

Universitetsstudent fra Kursk. Æret innovatør av Sibir,

vi ser at hver av dem kan tolkes på to måter. Hvis vi bare holder oss til det formelle

24 C. Hocketts artikkel «Grammar for the Listener», inkludert i denne delen, gir mange eksempler på denne typen kompleksitet i den «naturlige» forståelsen av en setning, som løses ved påfølgende og vidtrekkende analysetrinn.

grammatiske trekk, så kan den første setningen like godt forstås som "En doktorgradsstudent fra et universitet som ligger i byen Kursk" og som "En doktorgradsstudent ved et universitet som bor i byen Kursk (eller kommer fra byen Kursk) ).» Og den andre setningen kan tolkes både som "Æret innovatør, hvis aktivitetsområde er Sibir" og som "Æret innovatør som er bosatt i Sibir." Og bare foreløpig kunnskap (foreløpig informasjon) som ikke er uttrykt på noen måte i setninger, som sier at det ikke er noe universitet i byen Kursk og at velfortjent rasjonalisering av overbelastningen Det er en ærestittel tildelt i Sovjetunionen av individuelle administrative distrikter, som gjør det mulig å forstå disse forslagene riktig. Hvis du ser nøye etter, bak nesten hver setning i talespråket er det veldig grundig og forgrenet foreløpig informasjon, som er selvinnlysende for en person, men som ligger utenfor "forståelsen" til en maskin som verken kjenner klan eller stamme.

B. Maskinen kan ikke komme med intratekstuelle semantiske konklusjoner som strekker seg over flere setninger (og noen ganger til og med bevisst over en hel historie, for ikke å avsløre karakteren eller plottets utvikling fullt ut). Den nederlandske lingvisten A. Reichling 25 trakk oppmerksomheten til denne omstendigheten, og illustrerte ideen hans med følgende eksempel. Anta at vi leser en historie som begynner med setningen: "Jeg leker med broren min." Hvis vi stopper her, vil vi ikke ha noen data til rådighet for å finne ut hvordan denne frasen skal forstås, hva slags spill vi snakker om her. Tross alt kan du spille for penger (kort osv.), på et musikkinstrument, på teatret eller på kino, med leker, fotball, spille for moro skyld, leke med en person og hans skjebne osv. Men her har vi les videre: “ Dette sa jeg da Wilhelm møtte meg en dag

25 På kollokviet "Stichting Studiecentrum for administrativ automatisering",organisert i 1961. Det finnes også en tysk oversettelse av rapporten: A. R e i c h 1 i n g, Möglichkeiten und Grenzen der mechanischen Obersetzung, aus der Sicht des Linguisten, “Beiträge zur Sprachkunde und Informationsverarbeitung”, Heft I., Wien, 1963.

i baren". Nå med mer sannsynlig vi kan konkludere med at vi tilsynelatende snakker om å spille for penger. Men det er fortsatt andre muligheter. Den fortsetter: "Broren min kom til bordet og terningene ble kastet." Det er nå klart hva slags spill vi snakker om, selv om ingen steder i teksten var en presis indikasjon på den faktiske betydningen av ordet "spill". Vi gjettet om det fra helheten av de eksterne tegnene som er gitt i teksten i forskjellige setninger. Disse tegnene følger her etter hverandre, men i en skriftlig fortelling kan de skilles vesentlig fra hverandre. En person kan velge dem fra en bred språklig kontekst, sammenligne dem og deretter trekke den passende konklusjonen. Maskinen er fratatt denne muligheten.

Men dette er kanskje ikke så viktig? Det er faktisk ingen spesielle vanskeligheter når du oversetter disse setningene til tysk eller fransk med maskin (men det kan selvfølgelig oppstå vanskeligheter når du oversetter andre setninger). Når vi oversetter til tysk kan vi bruke bokstavtro:Ich spiele mit meinem Bruder.På samme måte på fransk kan vi starte: Du har det... Når du oversetter til engelsk, oppstår det grammatiske vanskeligheter, fordi det i den gitte teksten ikke er noen indikasjon på hvilken form maskinen skal velge: 1. Jeg leker med broren min, 2. Jeg leker med broren min, eller 3. Jeg skal leke med broren min. Og ting vil være veldig ille når du oversetter til spansk, siden maskinen må velge mellom minst tre verb: jugar, tocar eller trabajar.

Her er logisk språk hjelpeløst.

D. Maskinen håndterer faktisk tale (eller, mer presist, med talesegmenter) - i skriftlig og muntlig form. Hver av disse formene for tale har sitt eget system av pragmatiske elementer, som også kan forvandles til semantiske (og reglene for en slik overgang er ikke studert og er stort sett vilkårlige). For eksempel har muntlig tale en slik suprasegmental overbygning som intonasjon. Det ser nå ut til å være mulig å klassifisere intonasjon i funksjonelle typer, ved å skille spørrende, narrative og andre intonasjoner. Det er imidlertid helt klart at intonasjon ikke eksisterer isolert fra setninger. Det samhandler selvfølgelig med betydningen i dem. For å bekrefte dette er det nok å referere til et retorisk spørsmål, som kun er et spørsmål i sin ytre struktur, men ikke i mening - det krever ikke svar fra de som lytter. Dette er nye vanskeligheter som logisk språk ikke har noen midler til å håndtere.

D. Men selv om det er mulig å takle de oppførte språkvanskene, er det fortsatt hindringer av en strengt logisk rekkefølge - i dette tilfellet snakker vi om de såkalte "beslutningsslutningsreglene"(vedtaksregler). Tross alt, hvis vi ønsker å være sikre på at maskinen vil fungere logisk upåklagelig, må vi gi den et sett med regler, som følger den konsekvent kan gå fra den første informasjonen til de nødvendige konklusjonene. I forhold til proposisjonell logisk kalkulus har vi slike regler, men for mer komplekse logikker finnes det ingen slike regler, og dessuten er det grunn til å tro at slike regler ikke kan finnes. Hvis vi stoler på reglene vi allerede har til rådighet, vil bruken av dem gjøre oppløsningsprosessen så komplisert (selv når du bruker avanserte datamaskiner) at spillet ikke vil være verdt lyset.

Slik skildres problemet med å bruke logiske og matematiske metoder i språkvitenskapen på grunnlag av data fra anvendt lingvistikk. Hva er konklusjonene? Konklusjonene er allerede formulert ovenfor - Lingvistisk analyse åpner for en kombinasjon av induktive metoder med deduktive, men når vi snakker om bruk av deduktive metoder i lingvistikk, bør ikke alt reduseres til den blinde underordningen av lingvistisk forskning til logisk-matematiske metoder. Naturlig språk gjør opprør mot slik vold. Og praktiseringen av anvendt lingvistikk bekrefter disse konklusjonene, og fastslår at det er slike forskjeller mellom formalisert logisk språk og naturlig språk at det er ganske fullstendig (når det gjelder informasjon), konvertering av den andre til den første er umulig. Betyr dette at vi i lingvistikk, og i anvendt lingvistikk spesielt, bør forlate bruken av logisk-matematiske metoder? Selvfølgelig ikke. Men du bør ikke stole helt på dem, men kombinere dem med andre. Og for ikke å være ubegrunnet, la oss vende oss til vitnesbyrdet fra matematikere og logikere som i praksis må bruke sin kunnskap til studiet av naturlig språk.

Her er hva matematikeren sier: «Hjelpen til matematikk i studiet av naturlig språk er fortsatt langt fra åpenbar... Før vi kan tenke på å bruke matematikk til kalkulus, er det nødvendig å bestemme grensene og funksjonene til språklige enheter. Dette - et ikke-matematisk problem, det er en del av de induktive metodene i lingvistikk.

Det viste seg at matematikk ikke erstatter empirisk metodikk, selv om noen lingvister streber etter å gjøre det. Tvert imot, først etter at enhetene og relasjonene til naturlig språk er etablert induktivt og hensiktsmessig verifisert, vil de nødvendige forutsetningene bli skapt for realistisk anvendelse av matematikk på naturlig språk. I dette tilfellet vil matematikere enten oppdage at de har å gjøre med en ny manifestasjon av det som allerede er kjent for dem i sin essens, eller de vil motta en stimulans for matematisk tenkning av en ny orden» 26.

Og her er hva logikeren sier: "Utsiktene for automatisk behandling av taleinformasjon er veldig gode, men logikkens rolle på dette området er begrenset. Men som et verktøy for språklig analyse, ikke som et sett med regler for å trekke konklusjoner, gir den virkelige løfter» 27. Og så slår han fast hvilken forskningsstrategi som er mer å foretrekke: «Problemer bør ikke løses ved ufleksibel å følge et sett med regler etablert av en logiker, men snarere ved hjelp av heuristiske teknikker... For automatisk behandling av taleinformasjon, en empiri, induktiv tilnærming er foretrukket, der grove regler for løsning av informasjonsproblemer. Man bør ikke forsøke å oversette vanlig språk til logisk språk for videre bearbeiding, men heller se etter heuristiske regler som vil tillate en å takle naturlig språk. Nødvendig slutte å søke

26 P. Garvin og W. K a g u s h, lingvistikk, dataprosesser-
synge og matematikk, "Naturlig språk og datamaskinen," N.Y.,
1963, s. 368-369. Cm. også i samme bok en artikkel av W. K a g du er h,
Bruken av matematikk i atferdsvitenskapene, s. 64-83.

27 M. M a g o n, en logikers syn på språkdataprosesser-
synge, sa bok, s. 144.

absolutt pålitelighet og vend deg til omtrentlige metoder, som vil bli raffinert og forbedret med akkumulering av erfaring. Vi foretrekker å behandle tilnærminger på samme måte som teori behandles i vitenskap, hvor modifikasjoner og forbedringer gjøres på grunnlag av data innhentet som et resultat av eksperimenter." 28

Dette er de generelle konklusjonene. De sier at lingvister spiller en ledende rolle i samarbeid med logikere og matematikere. Språkforskernes ansvar er å utarbeide språkmateriale på en slik måte at det gjøres tilgjengelig for bearbeiding med logisk-matematiske metoder. Det er i denne retningen man bør se etter en realistisk kombinasjon i lingvistikk av induktive metoder med deduktive. Og når vi, når vi løser problemer med anvendt lingvistikk, snakker om heuristiske hypoteser, må de først og fremst komme fra en lingvist, siden han er nærmere språket og på grunn av sin posisjon er forpliktet til å kjenne og forstå det bedre .

Artiklene som er inkludert i denne delen bør tilnærmes med de ovennevnte hensynene i tankene. Som allerede angitt, er de hentet fra materialsamlingen til symposiet om anvendt matematikk, "The Structure of Language and Its Mathematical Aspects" (symposiet ble holdt i New York i april 1960, materialet til symposiet ble publisert i 1961 ).

Symposiet ble deltatt av matematikere, logikere og lingvister, det vil si nettopp representanter for de vitenskapene hvis felles arbeid ble nevnt ovenfor. Temaet for symposiet, ganske fritt formulert, ga deltakerne muligheten til å snakke både om helt spesifikke og spesielle problemstillinger, og om ganske generelle, uten å forplikte seg til evt. felles forståelse oppgaver til de problemstillinger som vurderes, og heller ikke en vurdering av deres egenvekt i hele problemstillingen som helhet. Kanskje det eneste teoretiske prinsippet som forener deltakerne på symposiet var avhandlingen gitt av R. Jacobson i "Forordet" til materialene, i henhold til hvilken lingvistikk følger

28 Ibid., s. 143-144.

bør betraktes som en bro mellom matematiske og humanistiske disipliner. Ellers snakket hver forfatter av rapporten i samsvar med sine individuelle interesser og i samsvar med retningen for hans forskningsarbeid.

På grunn av en viss sidebegrensning i denne samlingen var det ikke mulig å bruke alle artiklene som inngår i symposiummaterialet. Det var nødvendig å gjøre noen utvalg av verk, men på en slik måte at det ville gi den sovjetiske leseren mulighet til å komponere nok Full utsikt om generelle trender i studiet av problemstillingen som står i tittelen på symposiet. I sin informasjonskvalitet er alle artiklene i denne delen av unektelig interesse både for lingvistikkens teori og for forskningspraksisen for anvendt lingvistikk.

I.Zvegintsev

en matematisk disiplin hvis emne er utviklingen av et formelt apparat for å beskrive strukturen til naturlige og noen kunstige språk. Oppsto på 50-tallet. Det 20. århundre; en av de viktigste insentivene for fremveksten av M. l. fungerte som et presserende behov i lingvistikken for å klargjøre dens grunnleggende begreper. Metoder M. l. har mye til felles med metodene for matematisk logikk - en matematisk disiplin som studerer strukturen til matematisk resonnement - og spesielt seksjoner som teorien om algoritmer og teorien om automater. Mye brukt i M. l. Også algebraiske metoder. M. l. utvikler seg i nært samspill med lingvistikk. Noen ganger uttrykket "M. l." brukes også for å referere til enhver språklig forskning der en slags matematisk apparat brukes.

Den matematiske beskrivelsen av språk er basert på ideen om språk som en mekanisme, som går tilbake til F. de Saussure, hvis funksjon er manifestert i taleaktiviteten til høyttalerne; resultatet er "korrekte tekster" - sekvenser av taleenheter som adlyder visse mønstre, hvorav mange tillater matematisk beskrivelse. Utvikling og studie av metoder for matematisk beskrivelse av korrekte tekster (primært setninger) utgjør innholdet i en av delene av matematisk litteratur. - teorier om måter å beskrive syntaktisk struktur på. For å beskrive strukturen til en setning - mer presist, dens syntaktiske struktur - kan man enten fremheve i den komponenter- grupper av ord som fungerer som integrerte syntaktiske enheter, eller indikerer for hvert ord de ordene som er direkte underordnet det (hvis noen). Så, i setningen "Kosken sitter på bjelken" (A.S. Pushkin), når beskrevet i henhold til den første metoden, vil komponentene være hele setningen P, hver av dens individuelle ord og grupper av ord A = sitter på bjelke og B = på bjelken (se. Fig. 1; piler indikerer "direkte feste"); beskrivelsen i henhold til den andre metoden gir diagrammet vist i fig. 2. De matematiske objektene som oppstår i dette tilfellet kalles system av komponenter(1. metode) og syntaktisk underordningstre(2. metode).

Mer presist er et system av komponenter et sett med setningssegmenter som inneholder som elementer hele setningen og alle forekomster av ord i denne setningen ("ettordssegmenter") og har egenskapen at hvert andre segment som er inkludert i den, enten ikke gjør det kryss, eller en av dem er inneholdt i en annen; Et syntaktisk underordningstre, eller ganske enkelt et underordningstre, er et tre hvis mange noder er de mange forekomstene av ord i en setning. tre i matematikk kalles et sett, mellom elementene de kalles for noder- en binær relasjon er etablert - kalles det underordningsforhold og er grafisk representert av piler som går fra underordnede noder til underordnede - slik at: 1) blant nodene er det nøyaktig én - det kalles rot, - ikke underordnet noen node; 2) hver av de gjenværende nodene er underordnet nøyaktig én node; 3) det er umulig å gå tilbake til samme node etter å ha forlatt noen node langs pilene. Nodene til underordningstreet er forekomster av ord i setninger. Når det er avbildet grafisk, ser komponentsystemet (som i fig. 1) også ut som et tre ( tre av komponenter). Et underordningstre eller system av komponenter bygget for en setning kalles ofte syntaktisk struktur i form av et underordningstre (system av komponenter). Systemer av bestanddeler brukes først og fremst i beskrivelser av språk med en stiv ordrekkefølge, underordningstre - i beskrivelser av språk med en fri ordrekkefølge (spesielt russisk), formelt for hver (ikke for kort) setning, mange forskjellige syntaktiske strukturer av hvilken som helst av de to typene kan konstrueres, men blant dem er bare en eller flere riktige. Roten til et korrekt underordningstre er vanligvis predikatet. En setning som har mer enn én korrekt syntaktisk struktur (av samme type) kalles syntaktisk homonym; Som regel tilsvarer forskjellige syntaktiske strukturer forskjellige betydninger av en setning. For eksempel tillater setningen "Skolebarn fra Rzhev til Torzhok" to riktige underordningstrær (fig. 3, a, b); den første av dem tilsvarer betydningen "Rzhev-skolebarn dro (ikke nødvendigvis fra Rzhev) til Torzhok," den andre - "Skolebarn (ikke nødvendigvis Rzhev) gikk fra Rzhev til Torzhok."

På russisk og en rekke andre språk er underordningstrene i "forretningsstil"-setninger vanligvis underordnet lov om projektivitet, som består i at alle pilene kan trekkes over linjen som setningen er skrevet på, på en slik måte at ikke to av dem krysser hverandre og roten vil ikke ligge under noen pil. I skjønnlitterært språk, spesielt i poesi, er avvik fra loven om projektivitet tillatt og tjener oftest det formål å skape en viss kunstnerisk effekt. I setningen "Venner av folkekrigens blodige antikke" (Pushkin), fører ikke-projektivitet til den ettertrykkelige vektleggingen av ordet "folk" og ser samtidig ut til å bremse talen, og dermed skape inntrykk av en viss oppstemthet og høytidelighet. Det er andre formelle trekk ved underordningstrær som kan brukes til å karakterisere stil. For eksempel tjener det maksimale antallet nestede piler som et mål på den "syntaktiske besværligheten" til en setning (se fig. 4).

For en mer dekkende beskrivelse av strukturen til en setning er komponentene vanligvis merket med symboler for grammatiske kategorier ("substantivfrase", "transitiv verbgruppe", etc.), og pilene til underordningstreet er merket med symboler for syntaktiske relasjoner ("predikativ", "definitiv", etc. .).

Apparatet til underordningstrær og komponentsystemer brukes også til å representere den dype syntaktiske strukturen til en setning, som danner et mellomnivå mellom semantisk og ordinær syntaktisk struktur (sistnevnte kalles ofte overflatesyntaktisk).

En mer perfekt representasjon av den syntaktiske strukturen til en setning (som imidlertid krever et mer komplekst matematisk apparat) er gitt av syntaktiske gruppesystemer, som inkluderer både setninger og syntaktiske forbindelser, og ikke bare mellom ord, men også mellom setninger. Syntaktiske gruppesystemer gjør det mulig å kombinere strengheten til en formell beskrivelse av setningsstruktur med fleksibiliteten som ligger i tradisjonelle, uformelle beskrivelser. Underordningstrær og komponentsystemer er ekstreme spesialtilfeller av systemer av syntaktiske grupper.

En annen del av M. l., som inntar en sentral plass i den, er teori om formell grammatikk, som begynte med verkene til N. Chomsky. Hun studerer måter å beskrive mønstre på som ikke karakteriserer en enkelt tekst, men hele settet med korrekte tekster til et bestemt språk. Disse mønstrene er beskrevet ved hjelp av formell grammatikk- en abstrakt "mekanisme" som tillater, ved hjelp av en enhetlig prosedyre, å oppnå korrekte tekster på et gitt språk sammen med beskrivelser av deres struktur. Den mest brukte typen formell grammatikk er generativ grammatikk, eller Chomsky-grammatikk, som er et ordnet system Г = ⟨ V, W, П, R ⟩, hvor V og W er usammenhengende endelige sett, kalt hhv. hoved-, eller terminal, Og hjelpemiddel, eller ikke-terminal, alfabeter(elementene deres kalles henholdsvis hoved- eller terminal, og hjelpe- eller ikke-terminale, symboler), P er et element av W, kalt startkarakter, og R er et endelig sett regler av formen φ → ψ, der φ og ψ er kjeder (endelige sekvenser) av hoved- og hjelpesymboler. Hvis φ → ψ er en grammatikkregel Г og ω 1, ω 2 er kjeder av hoved- og hjelpesymboler, sier de at kjeden ω 1 ψω 2 direkte utledet i Г fra ω 1 φω 2 . Hvis ξ 0, ξ 1, ..., ξ n er kjeder og for hver i = 1, ..., n er kjeden ξ i direkte deduserbar fra ξ i−1, sier vi at ξ n utledelig i Г fra ξ 0 . Settet med de kjedene med grunnleggende symboler som kan utledes i Γ fra det opprinnelige symbolet, kalles språk generert av grammatikkГ, og er betegnet med L(Г). Hvis alle regler Γ har formen η 1 Aη 2 → η 1 ωη 2, kalles Γ grammatikk av komponenter(eller direkte komponenter), forkortet NS- grammatikk; hvis det i hver regel i kjeden er η 1 og η 2 ( høyre og venstre kontekst) er tomme, så kalles grammatikken kontekstløst(eller kontekstfri), forkortet B- grammatikk(eller KS- grammatikk). I den vanligste språklige tolkningen er hovedsymbolene ord, hjelpesymbolene er symboler for grammatiske kategorier, det innledende symbolet er symbolet for kategorien "setning"; i dette tilfellet tolkes språket som genereres av grammatikken som settet av alle grammatisk korrekte setninger i et gitt naturlig språk. I en NN-grammatikk gir utgangen av en setning den et tre med bestanddeler, der hver bestanddel består av ord "avledet" fra et enkelt hjelpesymbol, slik at hver bestanddel får sin grammatiske kategori. Så hvis grammatikken har blant annet reglene P → S x, y, im, V y → V i y O, O → S x, y, setning, V i y → sitter, S ektemann, enhet, im → på , kusk, S ektemann, entall, setning. → bestråling, så har setningen "Sjåføren sitter på bestrålingen" konklusjonen vist i fig. 5, hvor pilene går fra de venstre delene av de anvendte reglene til elementene i de høyre delene. Systemet med komponenter som tilsvarer denne konklusjonen sammenfaller med det som er vist i fig. 1. Andre tolkninger er også mulige: for eksempel kan hovedsymbolene tolkes som morfer, hjelpesymboler som symboler for typer morfer og tillatte kjeder av morfer, det innledende symbolet som et symbol av typen "ordform", og språk generert av grammatikk som et sett med vanlige ordformer (morfologisk tolkning); Morfonologiske og fonologiske tolkninger brukes også. I virkelige beskrivelser av språk brukes vanligvis "multi-level" grammatikk, som inneholder sekvensielt fungerende syntaktiske, morfologiske og morfonologisk-fonologiske regler.

En annen viktig type formell grammatikk er dominans grammatikk, som genererer mange kjeder, vanligvis tolket som setninger sammen med deres syntaktiske strukturer i form av underordningstrær. Grammatikk for syntaktiske grupper genererer mange setninger sammen med deres syntaktiske strukturer, som har form av systemer av syntaktiske grupper. Det er også ulike konsepter transformasjonsgrammatikk (tre grammatikk), som ikke tjener til å generere setninger, men til å transformere trær, tolket som underordnede trær eller komponenttrær. Et eksempel er Δ- grammatikk- et system med regler for transformering av trær, tolket som "rene" setningsunderordningstre, dvs. underordningstrær uten lineær ordrekkefølge.

Stå ut Montague grammatikk, tjener til å beskrive de syntaktiske og semantiske strukturene til en setning samtidig; de bruker komplekse matematiske og logiske apparater (det såkalte intensjonell logikk).

Formelle grammatikker brukes til å beskrive ikke bare naturlige, men også kunstige språk, spesielt programmeringsspråk.

I M.l. utvikles også analytiske modeller språk, der det, på grunnlag av visse data om tale som anses som kjent, lages formelle konstruksjoner, hvor resultatet er en beskrivelse av visse aspekter av språkets struktur. Disse modellene bruker vanligvis et enkelt matematisk apparat - enkle konsepter settteori og algebra; Dette er grunnen til at analytiske modeller av språk noen ganger kalles settteoretisk. I analytiske modeller av den enkleste typen er startdata et sett med korrekte setninger og et system omgivelser- sett med "ord" som tilhører ett leksem (for eksempel (hus, hus, hus, hus, hus, hus, hus, hus, hus, hus)). Det enkleste avledede konseptet i slike modeller er utskiftbarhet: ord en erstattes med ord b, hvis hver riktig setning inneholder en forekomst av ordet en, forblir korrekt når du erstatter denne forekomsten med en forekomst av ordet b. Hvis EN erstattes av b Og b på en, de sier det en Og b utskiftbare. (For eksempel, på russisk er ordet "blå" erstattet av ordet "goluboy"; ordene "sinego" og "golubogo" er utskiftbare.) Klassen av ord som er utskiftbare med hverandre kalles familie. Fra nabolag og familier kan det utledes en rekke andre språklig meningsfulle klassifikasjoner av ord, hvorav en omtrent tilsvarer tradisjonelt system deler av tale. I en annen type analytiske modeller, i stedet for et sett med korrekte setninger, brukes en relasjon av potensiell underordning mellom ord, som betyr evnen til en av dem til å underordne den andre i riktige setninger. I slike modeller er det mulig å oppnå, spesielt formelle definisjoner av en rekke tradisjonelle grammatiske kategorier - for eksempel en formell definisjon av substantiv kasus, som er en prosedyre som lar deg gjenopprette sakssystem språk, kun kjennskap til forholdet mellom potensiell underordning, systemet med nabolag og settet med ord som er former for substantiv.

Analytiske språkmodeller bruker enkle begreper fra mengdlære og algebra. Nær analytiske modeller av språk dekrypteringsmodeller- prosedyrer som gjør det mulig, fra et tilstrekkelig stort korpus av tekster på et ukjent språk uten noen foreløpig informasjon om det, å få en rekke data om strukturen.

I henhold til formålet, M. l. er først og fremst et verktøy for teoretisk lingvistikk. Samtidig er metodene mye brukt i anvendt lingvistisk forskning - automatisk tekstbehandling, automatisk oversettelse og utvikling knyttet til såkalt kommunikasjon mellom mennesker og datamaskiner.

Kulagina O.S., Om en måte å definere grammatiske konsepter på grunnlag av settteori, i: Problems of Cybernetics, v. 1, M., 1958;
Chomsky N., Syntaktiske strukturer, i: "New in Linguistics", v. 2, M., 1962;
Glatt A.V., Melchuk I. A., Elements of mathematical linguistics, M., 1969 (lit.);
deres egen, Grammars of trees, I, II, i: Informasjonsspørsmål om semiotikk, lingvistikk og automatisk oversettelse, i. 1, 4, M., 1971-74 (lit.);
Marcus S., Set-teoretiske modeller for språk, trans. fra engelsk, M., 1970 (lit.);
Glatt A.V., Formelle grammatikker og språk, M., 1973 (lit.);
hans, Et forsøk på å formelt definere begrepene kasus og kjønn av et substantiv, i samlingen: Problems of grammatical modeling, M., 1973 (lit.);
hans, Syntaktiske strukturer av naturlig språk i automatiserte kommunikasjonssystemer, M., 1985 (lit.);
Sukhotin B.V., Optimaliseringsmetoder for språkforskning. M., 1976 (lit.);
Sevbo I.P., Grafisk representasjon av syntaktiske strukturer og stilistisk diagnostikk, K., 1981;
Parti B. Kh., Montagu's Grammar, mental representations and reality, i boken: Semiotics, M., 1983;
Montague R., Formell filosofi, New Haven - L., 1974(opplyst).

Introduksjon

Kapittel 1. Historie om anvendelsen av matematiske metoder i lingvistikk

1.1. Dannelsen av strukturell lingvistikk i begynnelsen av 1800-tallet– XX århundrer

1.2. Anvendelse av matematiske metoder i lingvistikk i andre halvdel av det tjuende århundre

Kapittel 2. Utvalgte eksempler på bruk av matematikk i lingvistikk

2.1. Maskinoversettelse

2.2.Statistiske metoder i språkopplæring

2.3. Å lære et språk ved hjelp av formelle logiske metoder

2.4. Utsikter for anvendelse av matematiske metoder i lingvistikk

Konklusjon

Litteratur

Vedlegg 1. Ronald Schleifer. Ferdinand de Saussure

Vedlegg 2. Ferdinand de Saussure (oversettelse)

Introduksjon

I det tjuende århundre var det en kontinuerlig trend mot interaksjon og gjensidig gjennomtrenging av ulike kunnskapsfelt. Grensene mellom individuelle vitenskaper viskes gradvis ut; Flere og flere grener av mental aktivitet dukker opp, lokalisert i "krysset" av humanitær, teknisk og naturvitenskapelig kunnskap.

Et annet åpenbart trekk ved moderniteten er ønsket om å studere strukturer og deres bestanddeler. Derfor gis matematikken en økende plass både i vitenskapsteori og i praksis. Ved å komme i kontakt på den ene siden med logikk og filosofi, på den annen side med statistikk (og følgelig med samfunnsvitenskapene), trenger matematikken stadig dypere inn i de områdene som i lang tid ble ansett som rent "humanitære, ” utvide sitt heuristiske potensial (svaret på spørsmålet “hvor mye” vil ofte hjelpe til med å svare på spørsmålene “hva” og “hvordan”). Lingvistikk var intet unntak.

Hensikten med kursarbeidet mitt er å kort belyse sammenhengen mellom matematikk og en slik gren av lingvistikk som lingvistikk. Siden 50-tallet av forrige århundre har matematikk blitt brukt i lingvistikk for å lage et teoretisk apparat for å beskrive strukturen til språk (både naturlige og kunstige). Det skal imidlertid sies at det ikke umiddelbart fant en slik praktisk anvendelse. Til å begynne med begynte man å bruke matematiske metoder i lingvistikk for å klargjøre de grunnleggende begrepene i lingvistikk, men med utviklingen av datateknologi begynte et slikt teoretisk premiss å bli brukt i praksis. Å løse slike problemer som maskinoversettelse, innhenting av maskininformasjon og automatisk tekstbehandling krevde en fundamentalt ny tilnærming til språk. Et spørsmål har dukket opp for lingvister: hvordan lære å representere språklige mønstre i en form der de kan brukes direkte på teknologi. Begrepet "matematisk lingvistikk", som er populært i vår tid, refererer til all lingvistisk forskning som bruker eksakte metoder (og begrepet eksakte metoder i vitenskap er alltid nært knyttet til matematikk). Noen forskere fra tidligere år mener at selve uttrykket ikke kan heves til rangering av et begrep, siden det ikke betegner noen spesiell "lingvistikk", men bare en ny retning fokusert på å forbedre, øke nøyaktigheten og påliteligheten til språkforskningsmetoder. Lingvistikk bruker både kvantitative (algebraiske) og ikke-kvantitative metoder, noe som bringer den nærmere matematisk logikk, og følgelig til filosofi, og til og med psykologi. Schlegel bemerket også samspillet mellom språk og bevissthet, og den fremtredende lingvisten fra det tidlige tjuende århundre Ferdinand de Saussure (jeg vil snakke om hans innflytelse på utviklingen av matematiske metoder i lingvistikk senere) koblet strukturen til et språk med dets tilhørighet til en mennesker. Moderne utforsker L. Perlovsky går videre, og identifiserer de kvantitative egenskapene til et språk (for eksempel antall kjønn, tilfeller) med egenskapene til den nasjonale mentaliteten (mer om dette i avsnitt 2.2, "Statistiske metoder i lingvistikk").

Samspillet mellom matematikk og lingvistikk er et mangefasettert tema, og i mitt arbeid vil jeg ikke fokusere på dem alle, men først og fremst på de anvendte aspektene.

Kapittel I. Historie om anvendelsen av matematiske metoder i lingvistikk

1.1 Dannelsen av strukturell lingvistikk ved overgangen til 1800- og 1900-tallet

Den matematiske beskrivelsen av språk er basert på ideen om språk som en mekanisme, som går tilbake til den berømte sveitsiske lingvisten fra det tidlige tjuende århundre, Ferdinand de Saussure.

Den første koblingen til konseptet hans er teorien om språk som et system som består av tre deler (språket selv - språk, tale - passord, og taleaktivitet – språk), der hvert ord (medlem av systemet) ikke anses i seg selv, men i forbindelse med andre medlemmer. Som en annen fremtredende lingvist, dansken Louis Hjelmslev, senere bemerket, var Saussure "den første som krevde en strukturell tilnærming til språk, det vil si en vitenskapelig beskrivelse av språk ved å registrere relasjonene mellom enheter."

Etter å ha forstått språk som en hierarkisk struktur, var Saussure den første som stilte problemet med verdi og betydning av språklige enheter. Individuelle fenomener og hendelser (f.eks. historien om opprinnelsen til individuelle indoeuropeiske ord) bør ikke studeres på egen hånd, men i et system der de er korrelert med lignende komponenter.

Saussure betraktet den strukturelle enheten i språket for å være ordet, "tegnet", der lyd og mening ble kombinert. Ingen av disse elementene eksisterer uten hverandre: derfor er forskjellige nyanser av betydning tydelige for en morsmål polysemantisk ord som et eget element i den strukturelle helheten, i språket.

I teorien til F. de Saussure kan man således se samspillet mellom lingvistikk, på den ene siden, med sosiologi og sosialpsykologi (det bør bemerkes at samtidig utviklet Husserls fenomenologi, Freuds psykoanalyse, Einsteins relativitetsteori seg , pågikk det eksperimenter med form og innhold i litteratur, musikk og kunst), på den annen side med matematikk (begrepet systematikk tilsvarer det algebraiske språkbegrepet). Dette konseptet endret begrepet språklig tolkning som sådan: Fenomener begynte å bli tolket ikke i forhold til årsakene til deres forekomst, men i forhold til nåtid og fremtid. Tolkning er ikke lenger uavhengig av en persons intensjoner (til tross for at intensjoner kan være upersonlige, "ubevisste" i freudiansk betydning av ordet).

Funksjonen til språkmekanismen manifesteres gjennom taleaktiviteten til morsmål. Resultatet av tale er de såkalte "korrekte tekstene" - sekvenser av taleenheter som adlyder visse mønstre, hvorav mange tillater matematisk beskrivelse. Teorien om metoder for å beskrive syntaktisk struktur omhandler studiet av måter å matematisk beskrive korrekte tekster (først og fremst setninger på). I en slik struktur defineres språklige analogier ikke ved hjelp av deres iboende kvaliteter, men ved hjelp av systemiske ("strukturelle") forhold.

I Vesten er Saussures ideer utviklet av yngre samtidige til den store sveitsiske lingvisten: i Danmark - den allerede nevnte L. Hjelmslev, som ga opphav til den algebraiske språkteorien i sitt arbeid "Fundamentals of Linguistic Theory", i USA - E. Sapir, L. Bloomfield, C. Harris, i Tsjekkia - russisk emigrantforsker N. Trubetskoy.

Statistiske mønstre i studiet av språk begynte å bli studert av ingen ringere enn grunnleggeren av genetikk, Georg Mendel. Først i 1968 oppdaget filologer at han i de siste årene av sitt liv var opptatt av å studere språklige fenomener ved hjelp av matematiske metoder. Mendel brakte denne metoden til lingvistikk fra biologien; på nittitallet av det nittende århundre var det bare de mest vågale lingvistene og biologene som erklærte gjennomførbarheten av en slik analyse. I arkivene til klosteret St. Tomas i Brno, hvor Mendel var abbed, ble det funnet ark med kolonner med etternavn som sluttet på «mann», «bauer», «mayer», og med noen brøker og beregninger. I et forsøk på å oppdage de formelle lovene for opprinnelsen til slektsnavn, gjør Mendel komplekse beregninger, der han tar hensyn til antall vokaler og konsonanter i det tyske språket, det totale antallet ord han vurderer, antall etternavn, etc.

I vårt land begynte den strukturelle lingvistikken å utvikle seg omtrent samtidig som i Vesten – ved overgangen til 1800- og 1900-tallet. Samtidig med F. de Saussure ble konseptet språk som et system utviklet i verkene til professor ved Kazan-universitetet F.F. Fortunatov og I.A. Baudouin de Courtenay. Sistnevnte korresponderte med de Saussure i lang tid, og Genève- og Kazan-skolene samarbeidet med hverandre. Hvis Saussure kan kalles ideologen for "eksakte" metoder innen lingvistikk, så la Baudouin de Courtenay det praktiske grunnlaget for deres anvendelse. Han var den første som skilte lingvistikk (som korrekt en vitenskap som bruker statistiske metoder og funksjonell avhengighet) av filologi (et fellesskap av humanitære disipliner som studerer åndelig kultur gjennom språk og tale). Forskeren selv mente at "lingvistikk kan være nyttig i nær fremtid bare ved å frigjøre seg fra den obligatoriske foreningen med filologi og litteraturhistorie." Fonologi ble "prøvegrunnen" for introduksjonen av matematiske metoder i lingvistikk - lyder som "atomer" i språksystemet, med et begrenset antall lett målbare egenskaper, var det mest hensiktsmessige materialet for formelle, strenge beskrivelsesmetoder. Fonologi benekter tilstedeværelsen av mening i lyd, så den "menneskelige" faktoren ble eliminert i forskningen. I denne forstand er fonemer som fysiske eller biologiske objekter.

Fonemer, som de minste språklige elementene som er akseptable for persepsjon, representerer en egen sfære, en egen "fenomenologisk virkelighet". For eksempel på engelsk kan lyden "t" uttales på forskjellige måter, men i alle tilfeller vil en person som snakker engelsk oppfatte den som en "t". Hovedsaken er at fonemet vil utføre sin viktigste – meningsskillende – funksjon. Dessuten er forskjellene mellom språk slik at varianter av en lyd på ett språk kan svare til forskjellige fonemer på et annet; for eksempel er "l" og "r" forskjellige på engelsk, mens de på andre språk er variasjoner av samme fonem (som det engelske "t", uttales aspirert eller unaspirated). Det enorme vokabularet til ethvert naturlig språk er en samling kombinasjoner av et mye mindre antall fonemer. På engelsk, for eksempel, brukes bare 40 fonemer til å uttale og skrive omtrent en million ord.

Lydene til et språk representerer et systematisk organisert sett med funksjoner. I 1920-1930-årene, etter Saussure, identifiserte Jacobson og N.S. Trubetskoy de "særeegenskapene" til fonemer. Disse funksjonene er basert på strukturen til taleorganene - tunge, tenner, stemmebånd. Si, på engelsk, er forskjellen mellom "t" og "d" tilstedeværelsen eller fraværet av "stemme" (spenningen i stemmebåndene) og stemmenivået som skiller ett fonem fra et annet. Dermed kan fonologi betraktes som et eksempel på en generell språklig regel beskrevet av Saussure: "I språket er det bare forskjeller." Det som er viktigere er ikke engang dette: forskjellen innebærer vanligvis de nøyaktige forholdene den ligger mellom; men i språket er det bare forskjeller uten presise betingelser. Enten vi vurderer "betydelig" eller "betegnet", er det ingen begreper eller lyder i språket som eksisterte før språksystemet utviklet seg.

I saussureansk lingvistikk blir fenomenet som studeres således forstått som et sett av sammenligninger og kontraster av språk. Språk er både et uttrykk for ordenes betydning og et kommunikasjonsmiddel, og disse to funksjonene faller aldri sammen. Vi kan legge merke til vekslingen mellom form og innhold: språklige kontraster definerer dens strukturelle enheter, og disse enhetene samhandler for å skape et visst meningsfullt innhold. Siden elementene i språket er tilfeldige, kan verken kontrast eller kombinasjon være grunnlaget. Altså på språket egenskaper danner fonetisk kontrast på et annet forståelsesnivå, fonemer kombineres til morfemer, morfemer til ord, ord til setninger osv. I alle fall et helt fonem, ord, setning osv. er mer enn summen av delene.

Saussure foreslo ideen om en ny vitenskap fra det tjuende århundre, atskilt fra lingvistikk, som studerte rollen til tegn i samfunnet. Saussure kalte denne vitenskapen semiologi (fra det greske "semeîon" - tegn). "Vitenskapen" om semiotikk, som utviklet seg i Øst-Europa på 1920-1930-tallet og i Paris på 1950-1960-tallet, utvidet studiet av språk og språklige strukturer til litterære funn komponert (eller formulert) ved hjelp av disse strukturene. I tillegg, i skumringen av karrieren, parallelt med kurset i generell lingvistikk, begynte Saussure en "semiotisk" analyse av senromersk poesi, og prøvde å oppdage bevisst komponerte anagrammer av egennavn. Denne metoden var på mange måter det motsatte av rasjonalisme i dens språklige analyse: den var et forsøk på å studere i et system problemet med "sannsynlighet" i språk. Slik forskning bidrar til å fokusere på den «materielle siden» av sannsynlighet; "nøkkelordet", et anagram som Saussure leter etter, som Jean Starobinsky hevder, "et verktøy for dikteren, og ikke kilden til diktets liv." Diktet tjener til å snu lydene til nøkkelordet. I følge Starobinsky, i denne analysen "graver Saussure ikke i søket etter skjulte betydninger." Tvert imot er det i verkene hans et merkbart ønske om å unngå problemer knyttet til bevissthet: «siden poesi ikke bare uttrykkes i ord, men også i det disse ordene genererer, går den utenfor bevissthetens kontroll og avhenger bare av lovene. av språk» (se . Vedlegg 1).

Saussures forsøk på å studere egennavn i senromersk poesi understreker en av komponentene i hans språklige analyse – tegnenes vilkårlige natur, samt den formelle essensen av Saussures språkvitenskap, som utelukker muligheten for å analysere mening. Todorov konkluderer med at Saussures verk i dag virker uvanlig konsistente i deres motvilje mot å studere symbolene på et fenomen som har en klart definert betydning [vedlegg 1]. Når han studerer anagrammer, legger Saussure kun hensyn til repetisjon, men ikke til tidligere varianter. . . . Ved å studere Nibelungenlied identifiserer han symboler bare for å tilordne dem til feilavlesninger: hvis de er utilsiktede, eksisterer ikke symboler. Tross alt antyder han i sine skrifter om generell lingvistikk eksistensen av en semiologi som beskriver mer enn bare lingvistiske tegn; men denne antakelsen er begrenset av det faktum at semiologi bare kan beskrive tilfeldige, vilkårlige tegn.

Hvis dette virkelig er tilfelle, er det bare fordi han ikke kunne forestille seg "intensjon" uten et objekt; han klarte ikke helt å overvinne gapet mellom form og innhold – i verkene hans ble dette til et spørsmål. I stedet appellerte han til «språklig lovlighet». Ligger mellom på den ene siden nittende århundres begreper basert på historie og subjektiv formodning, og metodene for betinget tolkning basert på disse begrepene, og på den annen side strukturalistiske begreper som sletter motsetningen mellom form og innhold (subjekt og innhold). objekt), mening og opprinnelse i strukturalisme, psykoanalyse og til og med kvantemekanikk, markerer Ferdinand de Saussures skrifter om lingvistikk og semiotikk et vendepunkt i studiet av mening i språk og kultur.

Russiske forskere var også representert på First internasjonal kongress lingvister i Haag i 1928. S. Kartsevsky, R. Yakobson og N. Trubetskoy laget en rapport der de vurderte hierarkisk struktur språk - i ånden til de mest moderne ideene på begynnelsen av forrige århundre. Jacobson utviklet i sine arbeider Saussures ideer om at de grunnleggende elementene i språket først og fremst skulle studeres i forbindelse med deres funksjoner, og ikke med årsakene til deres forekomst.

Dessverre, etter at Stalin kom til makten i 1924, ble innenlandsk lingvistikk, som mange andre vitenskaper, kastet tilbake. Mange talentfulle vitenskapsmenn ble tvunget til å emigrere, ble utvist fra landet eller døde i leirer. Først fra midten av 1950-tallet ble en viss pluralisme av teorier mulig – mer om dette i avsnitt 1.2.

1.2 Anvendelse av matematiske metoder i lingvistikk i andre halvdel av det tjuende århundre

Ved midten av det tjuende århundre hadde fire verdensspråklige skoler dannet seg, som hver viste seg å være stamfaren til en viss "nøyaktig" metode. Leningrad fonologiske skole(grunnleggeren var Baudouin de Courtenays student L.V. Shcherba) brukte et psykolingvistisk eksperiment basert på analysen av talen til morsmål som hovedkriteriet for å generalisere lyd i form av et fonem.

Forskere Praha språksirkel, spesielt – grunnleggeren N.S. Trubetskoy, som emigrerte fra Russland, utviklet teorien om opposisjoner - språkets semantiske struktur ble beskrevet av dem som et sett med opposisjonelt konstruerte semantiske enheter - familier. Denne teorien ble brukt i studiet av ikke bare språk, men også kunstnerisk kultur.

Ideologer Amerikansk deskriptivisme det var lingvistene L. Bloomfield og E. Sapir. Språk ble presentert for deskriptivister som et sett med taleytringer, som var hovedobjektet for deres forskning. Deres fokus var på reglene for vitenskapelig beskrivelse (derav navnet) av tekster: studiet av organisering, arrangement og klassifisering av elementene deres. Formaliseringen av analytiske prosedyrer innen fonologi og morfologi (utvikling av prinsipper for å studere språk på forskjellige nivåer, distribusjonsanalyse, metoden for direkte komponenter, etc.) førte til utformingen av generelle spørsmål om språklig modellering. Uoppmerksomhet på planen for språkets innhold, så vel som den paradigmatiske siden av språket, tillot ikke deskriptivister å tolke språket som et system fullt ut.

På 1960-tallet utviklet teorien om formell grammatikk seg, som hovedsakelig oppsto takket være verkene til den amerikanske filosofen og lingvisten N. Chomsky. Han regnes med rette som en av de mest kjente moderne vitenskapsmenn og offentlige personer, mange artikler, monografier og til og med en dokumentarfilm i full lengde er dedikert til ham. Etter den fundamentalt nye måten å beskrive syntaktisk struktur oppfunnet av Chomsky - generativ (generativ) grammatikk - ble den tilsvarende bevegelsen i lingvistikk kalt generativisme.

Chomsky, en etterkommer av immigranter fra Russland, studerte lingvistikk, matematikk og filosofi ved University of Pennsylvania fra 1945, og ble sterkt påvirket av læreren Zelig Harris - som Harris, vurderte og betrakter Chomsky sine politiske synspunkter nær anarkisme (han er fortsatt kjent som kritiker av det eksisterende amerikanske politiske systemet og som en av anti-globalismens åndelige ledere).

Chomskys første store vitenskapelige arbeid, hans masteroppgave “The Morphology of Modern Hebrew » (1951), forble upublisert. Doktorgrad Chomsky mottok sine studier ved University of Pennsylvania i 1955, men det meste av forskningen som dannet grunnlaget for avhandlingen hans (publisert i sin helhet først i 1975 under tittelen "The Logical Structure of Linguistic Theory") og hans første monografi, "Syntactic Structures” (Syntactic Structures, 1957, russisk oversettelse) 1962), ble fremført ved Harvard University i 1951–1955. I samme 1955 flyttet forskeren til Massachusetts Institute of Technology, hvor han ble professor i 1962.

I sin utvikling gikk Chomskys teori gjennom flere stadier.

I sin første monografi, "Syntactic Structures", presenterte forskeren språket som en mekanisme for å generere et uendelig antall setninger ved å bruke et begrenset sett med grammatiske virkemidler. For å beskrive språklige egenskaper foreslo han begrepene dype (skjult fra direkte persepsjon og generert av et system av rekursive, dvs. regler som kan brukes gjentatte ganger) og overflate (direkte oppfattet) grammatiske strukturer, samt transformasjoner som beskriver overgangen fra dype strukturer til overflaten. En dyp struktur kan tilsvare flere overflatestrukturer (for eksempel en passiv struktur Dekretet er signert av presidenten avledet fra den samme dype strukturen som den aktive konstruksjonen Presidenten undertegner et dekret) og omvendt (altså tvetydighet Mor elsker datter beskrevet som et resultat av et sammentreff av overflatestrukturer som går tilbake til to forskjellige dype, hvor den ene er moren som elsker datteren, og i den andre er den datteren elsker).

Chomskys standardteori er Aspects-modellen, nedfelt i Chomskys bok Aspects of the Theory of Syntax. I denne modellen ble regler for semantisk tolkning som tildeler mening til dype strukturer introdusert i formell teori for første gang. I «Aspekter» står språklig kompetanse i motsetning til bruk av språk (performance), den såkalte Katz-Postal-hypotesen om bevaring av mening under transformasjon tas i bruk, og derfor er begrepet valgfri transformasjon utelukket, og et apparat av syntaktiske funksjoner som beskriver leksikalsk kompatibilitet introduseres.

På 1970-tallet arbeidet Chomsky med teorien om kontroll og binding (GB-teori - fra ordene Myndighetene Og bindende) – mer generell enn den forrige. I den forlot forskeren spesifikke regler som beskriver de syntaktiske strukturene til spesifikke språk. Alle transformasjoner er erstattet av én universell bevegelsestransformasjon. Innenfor rammen av GB-teori er det også private moduler som hver står for sin del av grammatikken.

Så sent som i 1995 la Chomsky frem et minimalistisk program der menneskelig språk beskrives som likt maskinspråk. Dette er bare et program - ikke en modell eller en teori. I den identifiserer Chomsky to hovedundersystemer av det menneskelige språkapparatet: leksikonet og datasystemet, samt to grensesnitt - fonetisk og logisk.

Chomskys formelle grammatikker har blitt klassiske for å beskrive ikke bare naturlige, men også kunstige språk - spesielt programmeringsspråk. Utviklingen av strukturell lingvistikk i andre halvdel av det tjuende århundre kan med rette betraktes som en "chomskysk revolusjon."

Moskva fonologiske skole, hvis representanter var A.A. Reformatsky, V.N. Sidorov, P.S. Kuznetsov, A.M. Sukhotin, R.I. Avanesov, brukte en lignende teori for å studere fonetikk. Gradvis begynner "nøyaktige" metoder å bli brukt ikke bare på fonetikk, men også på syntaks. Både lingvister og matematikere, både her og i utlandet, begynner å studere språkets struktur. På 1950-60-tallet begynte et nytt stadium i samspillet mellom matematikk og lingvistikk i USSR, assosiert med utviklingen av maskinoversettelsessystemer.

Drivkraften for starten av dette arbeidet i vårt land var den første utviklingen innen maskinoversettelse i USA (selv om den første mekaniserte oversettelsesanordningen av P.P. Smirnov-Troyansky ble oppfunnet i USSR tilbake i 1933, den var primitiv, ble ikke utbredt). I 1947 kom A. Butt og D. Britten med en kode for ord-for-ord-oversettelse ved hjelp av en datamaskin et år senere, foreslo R. Richens en regel for å dele ord i stammer og endelser i maskinoversettelse. Disse årene var ganske annerledes enn i dag. Dette var veldig store og dyre maskiner som okkuperte hele rom og krevde en stor stab av ingeniører, operatører og programmerere for vedlikeholdet. I utgangspunktet ble disse datamaskinene brukt til å utføre matematiske beregninger for behovene til militære institusjoner - nye ting innen matematikk, fysikk og teknologi tjente først og fremst militære anliggender. I de tidlige stadiene ble utviklingen av MP aktivt støttet av militæret, mens (under den kalde krigen) utviklet en russisk-engelsk retning i USA, og en anglo-russisk retning i USSR.

I januar 1954 fant "Georgetown-eksperimentet" sted ved Massachusetts Technical University - den første offentlige demonstrasjonen av oversettelse fra russisk til engelsk på en IBM-701-maskin. Sammendrag av meldingen om vellykket gjennomføring av eksperimentet, laget av D.Yu. Panov, dukket opp i Russian Journal of Mathematics, 1954, nr. 10: "Oversettelse fra ett språk til et annet ved hjelp av en maskin: rapport om den første vellykkede testen."

D. Yu Panov (den gang direktør for Institute of Scientific Information - INI, senere VINITI) tiltrakk seg I. K. Belskaya til å jobbe med maskinoversettelse, som senere skulle lede maskinoversettelsesgruppen ved Institute of Precision Mathematics and Computer Science. USSR Academy of Sciences. Den første erfaringen med å oversette fra engelsk til russisk ved bruk av BESM-maskinen dateres tilbake til slutten av 1955. Programmer for BESM ble satt sammen av N.P. Trifonov og L.N. Korolev, hvis doktorgradsavhandling var viet metoder for å konstruere ordbøker for maskinoversettelse.

Parallelt ble det utført arbeid med maskinoversettelse ved Institutt for anvendt matematikk ved Mathematical Institute of USSR Academy of Sciences (nå M.V. Keldysh Institute of Applied Mathematics ved det russiske vitenskapsakademiet). På initiativ av matematiker A.A. Lyapunova. Han involverte doktorgradsstudenten ved Steklov Mathematical Institute O.S. i arbeidet med å oversette tekster ved hjelp av Strela-maskinen fra fransk til russisk. Kulagin og hans studenter T.D. Ventzel og N.N. Ricco. Lyapunov og Kulaginas ideer om muligheten for å bruke teknologi for oversettelse fra ett språk til et annet ble publisert i tidsskriftet Nature, 1955, nr. 8. Siden slutten av 1955 fikk de selskap av T.N. Moloshnaya, som deretter begynte uavhengig arbeid med en algoritme for engelsk-russisk oversettelse.

R. Frumkina, som på den tiden var engasjert i den algoritmiske oversettelsen fra spansk, husker at det på dette stadiet av arbeidet var vanskelig å ta noen konsekvente skritt. Mye oftere måtte jeg følge heuristiske erfaringer – min egen eller kollegenes.

Den første generasjonen av maskinoversettelsessystemer var imidlertid svært ufullkommen. Alle av dem var basert på påfølgende oversettelsesalgoritmer "ord for ord", "frase for frase" - de semantiske forbindelsene mellom ord og setninger ble ikke tatt i betraktning på noen måte. For eksempel kan følgende setninger gis: " John lette etter lekeboksen sin.Til slutt fant han det. Boksen lå i pennen.John var veldig glad. (John lette etter lekeboksen sin. Til slutt fant han den. Boksen lå i lekegrind. John var veldig fornøyd.) "Penn" i denne sammenhengen er ikke en "penn" (et skriveinstrument), men en "lekegrind" ( leke-penn). Kunnskap om synonymer, antonier og figurative betydninger er vanskelig å legge inn i en datamaskin. En lovende retning var utviklingen av maskinsystemer rettet mot bruk av en menneskelig oversetter.

Over tid ble direkte oversettelsessystemer erstattet av T-systemer (fra det engelske ordet "transfer" - transformasjon), der oversettelse ble utført på nivå med syntaktiske strukturer. T-systemalgoritmer brukte en mekanisme som gjorde det mulig for dem å bygge en syntaktisk struktur i henhold til reglene for grammatikken for språket i inngangssetningen (ligner på hvordan de lærer et fremmedspråk på videregående), og deretter syntetisere utdatasetningen, transformere den syntaktiske strukturen og erstatte de nødvendige ordene fra ordboken.

Lyapunov snakket om oversettelse ved å trekke ut betydningen av den oversatte teksten og presentere den på et annet språk. Tilnærmingen til å bygge maskinoversettelsessystemer basert på å oppnå en semantisk representasjon av en inngangssetning gjennom dens semantiske analyse og syntese av inngangssetningen basert på den resulterende semantiske representasjonen regnes fortsatt som den mest avanserte. Slike systemer kalles jeg-systemer (fra ordet "interlingua"). Oppgaven med å skape dem, satt tilbake på slutten av 50-tallet og begynnelsen av 60-tallet, er ennå ikke helt løst, til tross for innsatsen fra International Federation IFIP, et globalt fellesskap av forskere innen informasjonsbehandling.

Forskere har tenkt på hvordan man kan formalisere og bygge algoritmer for arbeid med tekster, hvilke ordbøker som skal legges inn i maskinen, hvilke språklige mønstre som skal brukes i maskinoversettelse. Tradisjonell lingvistikk hadde ikke slike ideer – ikke bare når det gjelder semantikk, men også når det gjelder syntaks. For ingen språk på den tiden var det lister over syntaktiske strukturer, betingelsene for deres kompatibilitet og utskiftbarhet ble ikke studert, og regler for å konstruere store enheter av syntaktisk struktur fra mindre bestanddeler ble ikke utviklet.

Behovet for å skape teoretiske grunnlag for maskinoversettelse førte til dannelsen og utviklingen av matematisk lingvistikk. Den ledende rollen i denne saken i USSR ble spilt av matematikere A.A. Lyapunov, O.S. Kulagina, V.A. Uspensky, lingvister V.Yu. Rosenzweig, P.S. Kuznetsov, R.M. Frumkina, A.A. Reformatsky, I.A. Melchuk, V.V. Ivanov. Kulaginas avhandling ble viet til studiet av den formelle teorien om grammatikk (samtidig med N. Chomsky i USA), Kuznetsov fremførte problemet med aksiomatisering av lingvistikk, og gikk tilbake til verkene til F.F. Fortunatova.

mai 1960 ble resolusjonen fra presidiet til USSR Academy of Sciences "Om utvikling av strukturelle og matematiske metoder for språkforskning" vedtatt, og tilsvarende divisjoner ble opprettet ved Institute of Linguistics og Institute of Russian Language. Siden 1960 begynte landets ledende humanitære universiteter - fakultetet for filologi ved Moscow State University, Leninrad, Novosibirsk Universities, Moscow State Pedagogical Institute of Foreign Languages - å trene personell innen automatisk tekstbehandling.

Arbeid med maskinoversettelse fra denne perioden, kalt den "klassiske" perioden, er imidlertid av mer teoretisk enn praktisk interesse. Kostnadseffektive maskinoversettelsessystemer begynte å bli opprettet først på åttitallet av forrige århundre. Jeg vil snakke om dette senere, i avsnitt 2.1, "Maskinoversettelse".

1960- og 70-tallet så dyp teoretisk utvikling ved bruk av metoder for settteori og matematisk logikk, som feltteori og fuzzy set theory.

Forfatteren av feltteori i lingvistikk var den sovjetiske poeten, oversetteren og lingvisten V.G. Admony. Han utviklet først teorien sin på grunnlag av det tyske språket. I Admoni betegner begrepet "felt" et vilkårlig ikke-tomt sett med språklige elementer (for eksempel "leksikalsk felt", "semantisk felt").

Strukturen til feltet er heterogen: den består av en kjerne, hvis elementer har et komplett sett med egenskaper som definerer settet, og en periferi, hvis elementer kan ha begge egenskapene til et gitt sett (ikke alle) og naboene. La meg gi et eksempel for å illustrere dette utsagnet: si, på engelsk, feltet for sammensatte ord ("dagdrøm" - "drøm" er vanskelig å skille fra feltet for setninger ("tåregass")).

Teorien om uklare sett som allerede er nevnt ovenfor er nært knyttet til feltteori. I Sovjetunionen ble underbyggelsen utført av lingvistene V.G. Admoni, I.P. Ivanova, G.G. Pochentsov, men grunnleggeren var den amerikanske matematikeren L. Zade, som publiserte artikkelen "Fuzzy Logic" i 1965. Zadeh ga en matematisk begrunnelse for teorien om uklare sett, og vurderte dem ved å bruke språklig materiale.

I denne teorien snakker vi ikke så mye om elementers tilhørighet til et gitt sett (AÎa), men om graden av dette medlemskapet (mAÎa), siden perifere elementer i en eller annen grad kan tilhøre flere felt. Zade (Lofti-zade) var innfødt i Aserbajdsjan, frem til han var 12 år hadde han praksis i å kommunisere på fire språk - aserbajdsjansk, russisk, engelsk og persisk - og brukte tre forskjellige alfabeter: kyrillisk, latin, arabisk. Når en vitenskapsmann blir spurt om hva fuzzy settteori og lingvistikk har til felles, benekter han ikke denne sammenhengen, men presiserer: «Jeg er ikke sikker på at studiet av disse språkene hadde stor innflytelse på min tenkning. Hvis dette fant sted, var det kanskje ubevisst.» I sin ungdom studerte Zadeh i Teheran ved en presbyteriansk skole, og emigrerte etter andre verdenskrig til USA. "Spørsmålet er ikke om jeg er amerikaner, russisk, aserbajdsjansk eller noen andre," sa han i en av samtalene, "jeg er dannet av alle disse kulturene og folkene og føler meg ganske komfortabel blant hver av dem." I disse ordene er det noe som ligner på det som kjennetegner teorien om fuzzy sets - et avvik fra entydige definisjoner og skarpe kategorier.

I vårt land, på 70-tallet, ble verkene til vestlige lingvister på 1900-tallet oversatt og studert. I.A. Melchuk oversatte verkene til N. Chomsky til russisk. PÅ. Slyusareva i sin bok "The Theory of F. de Saussure in the Light of Modern Linguistics" kobler postulatene til Saussures lære med aktuelle språkvitenskapelige problemer på 70-tallet. Det er en voksende trend mot ytterligere matematisering av lingvistikk. Ledende innenlandske universiteter gir opplæring i spesialiteten "matematisk (teoretisk, anvendt) lingvistikk." Samtidig er det i Vesten et kraftig sprang i utviklingen av datateknologi, som krever stadig nye språklige grunnlag.

Gjennom det tjuende århundre var det således en konvergens mellom eksakte vitenskaper og humaniora. Samspillet mellom matematikk og lingvistikk fikk i økende grad praktisk anvendelse. Mer om dette i neste kapittel.

Kapittel 2. Utvalgte eksempler på bruk av matematikk i lingvistikk

2.1 Maskinoversettelse

Ideen om å oversette fra ett språk til et annet ved hjelp av en universell mekanisme oppsto flere århundrer tidligere enn den første utviklingen på dette feltet begynte - tilbake i 1649 foreslo Rene Descartes ideen om et språk der likeverdige ideer om forskjellige språk vil bli uttrykt med et enkelt symbol. De første forsøkene på å implementere denne ideen på 1930-40-tallet, begynnelsen av den teoretiske utviklingen i midten av århundret, forbedringen av oversettelsessystemer ved hjelp av teknologi på 1970-80-tallet, den raske utviklingen av oversettelsesteknologi i det siste tiår - dette er stadiene i utviklingen av maskinoversettelse som industri. Det var fra arbeidet med maskinoversettelse at datalingvistikk vokste frem som vitenskap.

Med utviklingen av datateknologi på slutten av 70-tallet og begynnelsen av 80-tallet satte forskerne seg mer realistiske og kostnadseffektive mål – maskinen ble ikke en konkurrent (som tidligere antatt), men en assistent for en menneskelig oversetter. Maskinoversettelse slutter å tjene utelukkende militære formål (alle sovjetiske og amerikanske oppfinnelser og forskning, primært fokusert på russisk og engelsk, bidro til den kalde krigen i en eller annen grad). I 1978 ble ord på naturlig språk overført over Arpa-nettverket, og seks år senere dukket de første oversettelsesprogrammene for mikrodatamaskiner opp i USA.

På 70-tallet kjøpte Kommisjonen for De europeiske fellesskap den engelsk-franske versjonen av Systran-dataoversetteren, og bestilte også de fransk-engelske og italiensk-engelske versjonene, og det russisk-engelske oversettelsessystemet som ble brukt av de amerikanske væpnede styrker. Slik ble grunnlaget for EUROTRA-prosjektet lagt.

Om gjenopplivingen av maskinoversettelse på 70-80-tallet. Følgende fakta indikerer: Kommisjonen for De europeiske fellesskap (CEC) kjøper den engelsk-franske versjonen av Systran, samt et oversettelsessystem fra russisk til engelsk (sistnevnte utviklet etter ALPAC-rapporten og fortsatte å bli brukt av US Air Force og NASA); i tillegg gir CEC oppdrag for utvikling av fransk-engelske og italiensk-engelske versjoner. Samtidig er det en rask utvidelse av aktiviteter for å lage maskinoversettelsessystemer i Japan; i USA beordrer Pan American Health Organization (PAHO) utviklingen av en spansk-engelsk retning (SPANAM-system); US Air Force finansierer utviklingen av et maskinoversettelsessystem ved Linguistics Research Center ved University of Texas i Austin; TAUM-gruppen i Canada gjør betydelige fremskritt med å utvikle sitt METEO-system (for oversettelse av værmeldinger). En rekke prosjekter startet på 70-80-tallet. senere utviklet til fullverdige kommersielle systemer.

I perioden 1978-93 brukte USA 20 millioner dollar på forskning innen maskinoversettelse, 70 millioner i Europa og 200 millioner i Japan.

En av de nye utviklingene er TM-teknologi (oversettelsesminne), som fungerer etter akkumuleringsprinsippet: under oversettelsesprosessen lagres det originale segmentet (setningen) og oversettelsen, noe som resulterer i dannelsen av en språklig database; Hvis et identisk eller lignende segment som originalen finnes i den nylig oversatte teksten, vises det sammen med oversettelsen og en indikasjon på prosentvis samsvar. Oversetteren tar deretter en avgjørelse (rediger, avvis eller godta oversettelsen), hvis resultat lagres av systemet, så det er ikke nødvendig å oversette den samme setningen to ganger. For tiden er utvikleren av et velkjent kommersielt system basert på TM-teknologi TRADOS-systemet (grunnlagt i 1984).

For tiden utvikler flere dusin selskaper kommersielle maskinoversettelsessystemer, inkludert: Systran, IBM, L&H (Lernout & Hauspie), Transparent Language, Cross Language, Trident Software, Atril, Trados, Caterpillar Co., LingoWare; Ata programvare; Lingvistica b.v. osv. Det er nå mulig å bruke tjenestene til automatiske oversettere direkte på nettet: alphaWorks; PROMTs onlineoversetter; LogoMedia.net; AltaVistas Babel Fish-oversettelsestjeneste; InfiniT.com; Oversettelse av Internett.

Kommersielt effektive oversettelsessystemer dukket opp i andre halvdel av 80-tallet i vårt land. Selve konseptet med maskinoversettelse har utvidet seg (det begynte å inkludere "opprettelsen av en rekke automatiske og automatiserte systemer og enheter som automatisk eller halvautomatisk utfører hele oversettelsessyklusen eller individuelle oppgaver i en dialog med en person"), og offentlige bevilgninger til utvikling av denne næringen har økt.

Hovedspråkene i innenlandske oversettelsessystemer er russisk, engelsk, tysk, fransk og japansk. All-Union Translation Center (VTsP) utviklet et system for å oversette fra engelsk og tysk til russisk på en EC-1035 datamaskin - ANRAP. Den besto av tre ordbøker - input engelsk og tysk og utgang russisk - under en enkelt programvare. Det var flere utskiftbare spesialiserte ordbøker - om datateknologi, programmering, radioelektronikk, maskinteknikk, landbruk, metallurgi. Systemet kunne operere i to moduser - automatisk og interaktivt, når skjermen viste kildeteksten og oversettelsen, frase for frase, som en person kunne redigere. Hastigheten på tekstoversettelse til ANRAP (fra begynnelsen av skrivingen til slutten av utskriften) var omtrent 100 sider i timen.

I 1989 ble det opprettet en familie av kommersielle oversettere som SPRINT, som jobbet med russisk, engelsk, tysk og japanske språk. Deres største fordel var deres kompatibilitet med IBM PC - dermed nådde innenlandske maskinoversettelsessystemer et internasjonalt kvalitetsnivå. Samtidig utvikles et maskinoversettelsessystem fra fransk til russisk FRAP, som inkluderer 4 stadier av tekstanalyse: grafematisk, morfologisk, syntaktisk og semantisk. I Leningrad State Pedagogical Institute oppkalt etter. Herzen jobbet med et firespråklig (engelsk, fransk, spansk, russisk) system SILOD-MP (engelsk-russiske og fransk-russiske ordbøker ble brukt i industriell modus.

For spesialisert oversettelse av tekster om elektroteknikk var det ETAP-2-systemet. Analysen av inputteksten i den ble utført på to nivåer - morfologisk og syntaktisk. ETAP-2-ordboken inneholdt omtrent 4 tusen oppføringer; teksttransformasjonsstadiet - ca 1000 regler (96 generelle, 342 private, resten er ordbok). Alt dette sikret tilfredsstillende oversettelseskvalitet (for eksempel ble tittelen på patentet "Optisk fasegitterarrangement og koblingsanordning med et slikt arrangement" oversatt til "Optisk fasegitterarrangement og koblingsanordning med en slik enhet" - til tross for tautologien, betydning ble bevart).

Ved Minsk Pedagogical Institute of Foreign Languages ble et system for maskinoversettelse av titler oppfunnet på grunnlag av en engelsk-russisk ordbok med ordformer og fraser), og ved Institute of Oriental Studies of the Academy of Sciences, et oversettelsessystem fra japansk til russisk ble oppfunnet. Den første automatiske ordbok- og terminologiske tjenesten (SLOTERM) for datateknologi og programmering, opprettet ved Moscow Research Institute of Automation Systems, inneholdt omtrent 20 000 termer i den forklarende ordboken og spesielle ordbøker for språkforskning.

Maskinoversettelsessystemer begynte gradvis å bli brukt ikke bare til det tiltenkte formålet, men også som en viktig komponent i automatiske læringssystemer (for undervisning i oversettelse, overvåking av staving og grammatisk kunnskap).

90-tallet førte med seg den raske utviklingen av PC-markedet (fra desktop til lommeformat) og informasjonsteknologi, og den utbredte bruken av Internett (som blir stadig mer internasjonal og flerspråklig). Alt dette gjorde det populært videre utvikling automatiserte oversettelsessystemer. Siden tidlig på 1990-tallet. Innenlandske utviklere går også inn på PC-systemmarkedet.

I juli 1990, på PC Forum-utstillingen i Moskva, den første i Russland kommersielt system maskinoversettelse kalt PROMT (PROgrammer's Machine Translation I 1991 ble CJSC PROJECT MT opprettet, og allerede i 1992 vant PROMT-selskapet en NASA-konkurranse for levering av MP-systemer (PROMT var det eneste ikke-amerikanske selskapet i denne konkurransen). I 1992 ga PROMT ut en hel familie av systemer under det nye navnet STYLUS for oversettelse fra engelsk, tysk, fransk, italiensk og spansk til russisk og fra russisk til engelsk, og i 1993 ble det første laget på grunnlag av STYLUS. verdens maskinoversettelsessystem for Windows I 1994 ble versjon STYLUS 2.0 utgitt for Windows 3.X/95/NT, og i 1995-1996 den tredje generasjonen av maskinoversettelsessystemer, fullt 32-biters STYLUS 3.0 for Windows 95/NT. ble introdusert, samtidig ble utviklingen av helt nye, verdensførste russisk-tyske og russisk-franske maskinoversettelsessystemer fullført.

I 1997 ble det signert en avtale med det franske selskapet Softissimo om å lage oversettelsessystemer fra fransk til tysk og engelsk og omvendt, og i desember i år ble verdens første tysk-franske oversettelsessystem utgitt. Samme år ga PROMT-selskapet ut et system implementert ved hjelp av Gigant-teknologi, som støtter flere språkretninger i ett skall, samt en spesiell oversetter for arbeid på Internett, WebTranSite.

I 1998 ble en hel konstellasjon av programmer utgitt under det nye navnet PROMT 98. Et år senere ga PROMT-selskapet ut to nye produkter: en unik programvarepakke for arbeid på Internett - PROMT Internet, og en oversetter for bedriftspostsystemer - PROMT Mail Oversetter. I november 1999 ble PROMT anerkjent det beste systemet maskinoversettelse blant dem som ble testet av det franske magasinet PC Expert, og slo konkurrentene når det gjelder summen av indikatorer med 30 prosent. Det er også utviklet spesielle serverløsninger for bedriftskunder - bedriftens oversettelsesserver PROMT Translation Server (PTS) og Internett-løsningen PROMT Internet Translation Server (PITS). I 2000 oppdaterte PROMT hele serien med programvareprodukter, og ga ut en ny generasjon MP-systemer: PROMT Translation Office 2000, PROMT Internet 2000 og Magic Gooddy 2000.

Online oversettelse med støtte fra PROMT-systemet brukes på en rekke innenlandske og utenlandske nettsteder: PROMTs Online Translator, InfiniT.com, Translate.Ru, Lycos, etc., samt i institusjoner med forskjellige profiler for oversettelse av virksomhet dokumentasjon, artikler og brev (det er oversettelsessystemer bygget direkte inn i Outlook Express og andre e-postklienter).

I dag dukker det opp nye maskinoversettelsesteknologier, basert på bruk av systemer kunstig intelligens, statistiske metoder. Sistnevnte diskuteres i neste avsnitt.

2.2 Statistiske metoder i språkopplæring

Betydelig oppmerksomhet i moderne lingvistikk er gitt til studiet av språklige fenomener ved bruk av metodene for kvantitativ matematikk. Kvantitative data hjelper ofte til en dypere forståelse av fenomenene som studeres, deres plass og rolle i systemet relaterte fenomener. Svaret på spørsmålet "hvor mye" hjelper til med å svare på spørsmålene "hva", "hvordan", "hvorfor" - dette er det heuristiske potensialet til kvantitative egenskaper.

Statistiske metoder spiller en betydelig rolle i utviklingen av maskinoversettelsessystemer (se avsnitt 2.1). I den statistiske tilnærmingen vurderes oversettelsesproblemet i form av en støyende kanal. La oss forestille oss at vi trenger å oversette en setning fra engelsk til russisk. Støykanalprinsippet gir oss følgende forklaring på forholdet mellom en engelsk og en russisk setning: en engelsk setning er ikke noe mer enn en russisk setning forvrengt av noe støy. For å rekonstruere den opprinnelige russiske setningen, må vi vite nøyaktig hva folk vanligvis sier på russisk og hvordan russiske fraser blir forvrengt til engelsk. Oversettelse utføres ved å søke etter en russisk setning som maksimerer produktet av den ubetingede sannsynligheten for den russiske setningen og sannsynligheten for den engelske setningen (original) gitt den gitte russiske setningen. I følge Bayes' teorem er denne russiske setningen den mest sannsynlige oversettelsen av engelsk:

der e er oversettelsessetningen, og f er den opprinnelige setningen

Så vi trenger en kildemodell og en kanalmodell, eller en språkmodell og en oversettelsesmodell. Språkmodellen må tilordne et sannsynlighetsestimat til enhver setning på målspråket (i vårt tilfelle russisk), og oversettelsesmodellen må tilordne et sannsynlighetsestimat til den opprinnelige setningen. (se tabell 1)

Generelt fungerer et maskinoversettelsessystem i to moduser:

1. Trening av systemet: et opplæringskorpus av parallelle tekster tas, og ved hjelp av lineær programmering søkes det etter verdier for oversom maksimerer sannsynligheten for (for eksempel) den russiske delen av korpuset gitt den eksisterende engelske del i henhold til den valgte oversettelsesmodellen. En modell av det russiske språket er bygget på den russiske delen av samme korpus.

2. Operasjon: basert på innhentede data, søkes en russisk setning etter en ukjent engelsk setning som maksimerer produktet av sannsynlighetene tildelt av språkmodellen og oversettelsesmodellen. Programmet som brukes for dette søket kalles en dekryptering.

Den enkleste statistiske oversettelsesmodellen er den bokstavelige oversettelsesmodellen. I denne modellen antas det at for å oversette en setning fra ett språk til et annet, er det nok å oversette alle ordene (for å lage en "pose med ord"), og deres ordning i riktig rekkefølge vil bli sikret av modellen For å redusere P(a, f | e) til P(a | e , f), dvs. sannsynlighet for en gitt justering for et gitt setningspar, hver sannsynlighet P(a, f | e) normaliseres med summen av sannsynlighetene for alle justeringer av et gitt setningspar:

Implementeringen av Viterbi-algoritmen som brukes til å trene modell nr. 1 er som følger:

1. Hele tabellen over oversettelseskorrespondanse er fylt med de samme verdiene.

2. For alle mulige varianter av parvise koblinger av ord, beregnes sannsynligheten P(a, f | e):

3. P(a, f | e)-verdiene normaliseres for å oppnå P(a | e, f)-verdiene.

4. Frekvensen for hvert overføringspar beregnes, vektet av sannsynligheten for hvert justeringsalternativ.

5. De resulterende vektede frekvensene normaliseres og en ny tabell med oversetteldannes

6. Algoritmen gjentas fra trinn 2.

La oss vurdere, som et eksempel, å trene en lignende modell på et korpus av to setningspar (fig. 2):

hvite hus

Etter stort nummer iterasjoner får vi en tabell (tabell 2.), hvorfra det kan ses at oversettelsen er utført med høy nøyaktighet.

Statistiske metoder er også mye brukt i studiet av ordforråd, morfologi, syntaks og stilistikk. Forskere fra Perm State University utførte en studie basert på påstanden om at stereotype ordkombinasjoner er et viktig "byggemateriale" i teksten. Disse frasene består av "kjerne" gjentatte ord og avhengige konkretiserende ord og har en uttalt stilistisk fargelegging.

I vitenskapelig stil kan "kjernefysiske" ord kalles: forskning, studie, oppgave, problem, spørsmål, fenomen, fakta, observasjon, analyse osv. I journalistikken vil «atomkraft» være andre ord som har økt verdi spesifikt for avisens tekst: tid, person, makt, materie, handling, lov, liv, historie, sted etc. (totalt 29)

Av spesiell interesse for lingvister er også den faglige differensieringen av nasjonalspråket og den unike bruken av vokabular og grammatikk avhengig av type yrke. Det er kjent at sjåfører bruker formen sh i faglig tale O fer, legene snakker med O Klush i stedet for Cockle Yu w – lignende eksempler kan gis. Statistikkens oppgave er å overvåke variasjonen i uttale og endringer i språknormen.

Faglige forskjeller fører til ikke bare grammatiske, men også leksikale forskjeller. Ved Yakut State University oppkalt etter. M.K. Ammosov analyserte 50 spørreskjemaer med de vanligste reaksjonene på enkelte ord blant leger og byggherrer (tabell 3).

		Byggherrer
Menneskelig	pasient (10), personlighet (5)	mann (5)
flink	hjelp (8), hjelp (7)	ond (16)
liv	død (10)	vakker (5)
død	lik (8)	livet (6)
Brann	varme (8), brenne (6)	brann (7)
finger	hånd (14), forbryter (5)	tommel (7), indeks (6)
øyne	syn (6), pupill, øyelege (5 hver)	brun (10), stor (6)
hode	sinn (14), hjerner (5)	stor (9), smart (8), smart (6)
å tape	bevissthet, liv (4 hver)	penger (5), finn (4)

Det kan bemerkes at leger oftere enn byggherrer gir assosiasjoner knyttet til deres faglige virksomhet, siden stimulusordene gitt i spørreskjemaet er relatert til deres yrke. mer holdning enn til yrket som byggmester.

Statistiske mønstre i språk brukes til å lage frekvensordbøker – ordbøker som inneholder numeriske egenskaper hyppigheten av forekomst av et ord i en tekst av en viss lengde brukes vanligvis som en karakteristikk av bruk

En modell for taleoppfatning er umulig uten en ordbok som den viktigste komponenten. Når du oppfatter tale, er den viktigste operasjonelle enheten ordet. Det følger spesielt av dette at hvert ord i den oppfattede teksten må identifiseres med den tilsvarende enheten i det interne vokabularet til lytteren (eller leseren). Det er naturlig å anta at søket helt fra starten er begrenset til enkelte delområder i ordboken. I følge de fleste moderne teorier om taleoppfatning gir den faktiske fonetiske analysen av en klingende tekst i et typisk tilfelle bare noe delvis informasjon om det mulige fonologiske utseendet til et ord, og denne typen informasjon besvares ikke av en, men av en viss MANGE ord i ordboken; Derfor oppstår to problemer:

(a) velg det tilsvarende settet i henhold til visse parametere;

(b) innenfor det avgrensede settet (hvis det er tilstrekkelig valgt), "sil ut" alle ord bortsett fra det eneste som best samsvarer med et gitt ord i den gjenkjente teksten. En av screeningsstrategiene er å eliminere lavfrekvente ord. Det følger at ordboken for taleoppfatning er en frekvensordbok. Det er opprettelsen av en datamaskinversjon av frekvensordboken til det russiske språket som er den første oppgaven til det presenterte prosjektet.

Det er 5 frekvensordbøker basert på det russiske språket (ikke medregnet industri). La oss bare merke noen generelle mangler ved eksisterende ordbøker.

Alle kjente frekvensordbøker av det russiske språket er bygget på å behandle rekker av skrevne (trykte) tekster. Delvis av denne grunn, når identiteten til et ord i stor grad er basert på en formell, grafisk tilfeldighet, blir det ikke tatt nok hensyn til semantikk. Som et resultat blir frekvenskarakteristikkene forskjøvet og forvrengt; for eksempel, hvis kompilatoren av en frekvensordbok inkluderer ord fra kombinasjonen "hverandre" i den generelle statistikken over bruken av ordet "venn", så er dette neppe berettiget: med tanke på semantikken, må vi innrømme at disse er allerede forskjellige ord, eller rettere sagt, at de er en uavhengig vokabularenhet bare selve kombinasjonen som helhet.

I alle eksisterende ordbøker er ord bare plassert i sine grunnleggende former: substantiv i entallsform, nominativ kasus, verb i infinitivform, etc. Noen av ordbøkene gir informasjon om hyppigheten av ordformer, men vanligvis gjør de dette på en utilstrekkelig konsistent og ikke-uttømmende måte. Frekvensene til ulike ordformer av det samme ordet er åpenbart ikke sammenfallende. Utvikleren av en taleoppfatningsmodell må ta i betraktning at i en reell perseptuell prosess er det en spesifikk ordform "nedsenket" i teksten som er gjenstand for gjenkjennelse: basert på analysen av den innledende delen av ordformeksponenten, mange ord med identisk begynnelse dannes, og den første delen av ordformen er ikke nødvendigvis identisk med den første delen av ordbokformen . Det er ordformen som har en bestemt rytmisk struktur, som også er en ekstremt viktig parameter for det perseptuelle utvalget av ord. Til slutt, i den endelige representasjonen av den anerkjente ytringen, blir ord igjen representert ved deres tilsvarende ordformer.

Det er mange verk som demonstrerer viktigheten av frekvens i prosessen med taleoppfatning. Men vi er ikke klar over noe verk som bruker frekvensen av ordformer - tvert imot ignorerer alle forfattere praktisk talt frekvensen av individuelle ordformer, og vender seg utelukkende til leksemer. Hvis resultatene de oppnådde ikke anses som artefakter, må vi anta at morsmålet på en eller annen måte har tilgang til informasjon om forholdet mellom frekvensene til ordformer og ordbokformen, dvs. faktisk leksemer. Dessuten kan denne typen overgang fra en ordform til et leksem selvfølgelig ikke forklares med naturlig kunnskap om det tilsvarende paradigmet, siden informasjon om frekvens må brukes før den endelige identifiseringen av ordet, ellers mister det ganske enkelt sin mening.

Basert på primære statistiske kjennetegn er det mulig å bestemme, med en gitt relativ feil, den delen av vokabularet som inkluderer ord med høy forekomstfrekvens, uavhengig av teksttype. Det er også mulig, ved å innføre trinnvis rekkefølge i ordboken, å få en rekke ordbøker som dekker de første 100, 1000, 5000 osv. med hyppige ord. De statistiske egenskapene til ordboken er av interesse i forbindelse med den semantiske analysen av vokabular. Studiet av fagideologiske grupper og semantiske felt viser at leksikalske assosiasjoner understøttes av semantiske sammenhenger som er konsentrert rundt leksemer med den mest generelle betydningen. Beskrivelsen av betydninger innenfor det leksikalsk-semantiske feltet kan utføres ved å identifisere ord med de mest abstrakte leksemene. Tilsynelatende utgjør "tomme" (fra nominative potenser) vokabularenheter et statistisk homogent lag.

Ordbøker for individuelle sjangere er ikke mindre verdifulle. Å studere målet for deres likhet og arten av statistiske fordelinger vil gi interessant informasjon om den kvalitative stratifiseringen av ordforråd avhengig av talebrukssfæren.

Sammenstilling av store frekvensordbøker krever bruk av datateknologi. Innføringen av delvis mekanisering og automatisering i prosessen med å arbeide med en ordbok er av interesse som et eksperiment i maskinell behandling av ordbøker for ulike tekster. En slik ordbok krever et mer strengt system for å behandle og samle vokabularmateriale. I miniatyr er dette et informasjonsinnhentingssystem som er i stand til å gi informasjon om forskjellige sider tekst og ordbok. Noen grunnleggende spørsmål til dette systemet er planlagt helt fra begynnelsen: det totale antallet inventarord, statistiske egenskaper for et enkelt ord og hele ordbøker, bestilling av hyppige og sjeldne områder i ordboken, etc. Maskinkartoteket lar deg automatisk bygge omvendte ordbøker for individuelle sjangere og kilder. Mye annen nyttig statistisk informasjon om språket vil bli hentet ut fra den akkumulerte rekke informasjonen. Datafrekvensordboken skaper et forsøksgrunnlag for overgangen til mer omfattende automatisering av ordbokarbeidet.

Statistiske data fra frekvensordbøker kan brukes mye til å løse andre språklige problemer - for eksempel ved å analysere og bestemme de aktive virkemidlene for orddannelse av det moderne russiske språket, løse problemer med å forbedre grafikk og stavemåte, som er forbundet med å ta hensyn til statistisk informasjon om ordforrådets sammensetning (det er viktig å ta hensyn til sannsynlige egenskaper ved grafemkombinasjoner, typer bokstavkombinasjoner implementert i ord), praktisk transkripsjon og translitterasjon. De statistiske parameterne til ordboken vil også være nyttige for å løse problemer med automatisering av utskrift, gjenkjenning og automatisk lesing av alfabetisk tekst.

Moderne forklarende ordbøker og grammatikk for det russiske språket er hovedsakelig bygget på grunnlag av litterære og kunstneriske tekster. Det finnes frekvensordbøker for språket A.S. Pushkina, A.S. Griboyedova, F.M. Dostojevskij, V.V. Vysotsky og mange andre forfattere. Ved Institutt for historie og litteraturteori ved Smolensk State University. Pedagogisk universitet har i en årrekke jobbet med å lage frekvensordbøker over poetiske og prosatekster. For denne studien ble frekvensordbøker for alle tekstene til Pushkin og ytterligere to poeter fra gullalderen valgt - "Ve fra Wit" av Griboedov og all poesi til Lermontov; Pasternak og fem andre poeter sølvalder- Balmont 1894-1903, «Dikt om en vakker dame» av Blok, «Stone» av Mandelstam, «Ildstøtte» av Gumilyov, «Anno Domini MCMXXI» av Akhmatova og «Mitt livs søster» av Pasternak og ytterligere fire poeter of the Iron Age - "Dikt av Yuri Zhivago", "Når det klarner opp", hele korpuset av tekster av M. Petrovs, "The Road Is Far", "Windshield", "Farvel to the Snow" og "Horseshoe" av Mezhirov, «Antimirov» av Voznesensky og «Snow Woman» av Rylenkov.

Det skal bemerkes at disse ordbøkene er forskjellige i natur: noen representerer vokabularet til ett dramatisk verk, andre - en tekstbok, eller flere bøker, eller hele korpuset av poesi av en poet. Resultatene av analysen som presenteres i dette arbeidet bør tas med forsiktighet, de kan ikke tas som absolutte. Ved hjelp av spesielle tiltak kan imidlertid forskjellen i teksters ontologiske natur reduseres til en viss grad.

De siste årene har kontrasten mellom samtale- og boktale blitt mer og tydeligere anerkjent. Denne problemstillingen er spesielt heftig debattert blant metodologer som krever et skifte i undervisningen mot talespråk. Imidlertid er detaljene ved muntlig tale fortsatt uforklarlige.

Ordbokbehandling ble utført ved å lage en tilpasset applikasjon i kontorprogrammiljøet EXCEL97. Applikasjonen inkluderer fire regneark i EXCEL-boken - "Tittelark", et "Ordbøker" -ark med innledende data, "Nærheter" og "Avstander" med resultater, samt et sett med makroer.

Den første informasjonen legges inn på arket "Ordbøker". Ordbøker av de studerte tekstene er skrevet inn i EXCEL-celler, den siste kolonnen S er dannet fra resultatene som er oppnådd og er lik antall ord som finnes i andre ordbøker. Tabellene for nærhet og avstand inneholder de beregnede målene for nærhet M, korrelasjon R og avstand D.

Applikasjonsmakroer er hendelsesbaserte programmeringsprosedyrer skrevet i Visual Basic for Application (VBA). Prosedyrene er basert på VBA-bibliotekobjekter og metoder for å behandle dem. For operasjoner med applikasjonens regneark, brukes derfor nøkkelobjektet for regneark og den tilsvarende aktiveringsmetoden Aktiver ark. Innstilling av området for analyserte kildedata på arket "Ordbøker" utføres ved hjelp av Select-metoden til Range-objektet, og overføring av ord som verdier til variabler utføres som Value-egenskapen til det samme Range-objektet.

Til tross for at rangkorrelasjonsanalyse gjør oss forsiktige med avhengigheten av emner mellom ulike tekster, har de fleste av de hyppigste ordene i hver tekst treff i en eller flere andre tekster. Kolonne S viser antall slike ord blant de 15 mest hyppige ordene for hver forfatter. Ord som vises i tabellen vår i bare én poet er uthevet med fet skrift. Blok, Akhmatova og Petrovs har ingen uthevede ord i det hele tatt, de har S = 15. For disse tre dikterne er alle de 15 mest hyppige ordene like, de skiller seg bare fra hverandre i sin plass i listen. Men selv Pushkin, hvis ordforråd er det mest originale, har S = 8 og 7 uthevede ord.

Resultatene viser at det er et visst lag med vokabular som konsentrerer poesiens hovedtemaer. Som regel er disse ordene korte: fra totalt antall(225) bruk av én stavelse 88, to stavelse 127, tre stavelse 10. Ofte representerer disse ordene hovedmytologene og kan deles inn i par: natt - dag, jord - himmel (sol), Gud - menneske (mennesker), liv - død, kropp - sjel, Roma - verden(fra Mandelstam); kan kombineres til mytologier på et høyere nivå: himmel, stjerne, sol, jord; hos en person skilles som regel kroppen, hjertet, blodet, armen, beinet, kinnet, øynene ut. Blant menneskelige tilstander er søvn og kjærlighet foretrukket. Huset og byene - Moskva, Roma, Paris - tilhører den menneskelige verden. Kreativitet er representert av leksemer ord Og sang.

Griboyedov og Lermontov har nesten ingen ord som betegner naturen blant de vanligste ordene. De har tre ganger så mange ord som betegner en person, deler av kroppen hans, elementer av hans åndelige verden. I Pushkin og dikterne i det tjuende århundre. betegnelser på menneske og natur er omtrent like. I dette viktige aspektet av emnet kan vi si at det tjuende århundre. fulgte Pushkin.

Minimalt tema sak blant de vanligste ordene finnes det bare i Griboyedov og Pushkin. I Lermontov og dikterne i det tjuende århundre. det gir plass til et minimalt tema ord. Ordet utelukker ikke gjerningen (bibelsk tolkning av emnet: i Det nye testamente blir hele Jesu Kristi lære betraktet som Guds ord eller Jesu ord, og apostlene kaller seg noen ganger Ordets tjenere). Den hellige betydningen av leksemordet er overbevisende manifestert, for eksempel i Pasternaks vers "Og verdens bilde åpenbart i Ordet." Den hellige betydningen av leksemet ord i samspill med og kontrast til menneskelige anliggender, manifesteres overbevisende i Gumilyovs dikt med samme navn.

Leksem som bare forekommer i én tekst karakteriserer det unike ved en gitt bok eller et sett med bøker. For eksempel er ordet "sinn" det hyppigste i Griboyedovs komedie "Wee from Wit" - men det finnes ikke blant de vanligste ordene i andre tekster. Temaet for sinnet er det desidert mest betydningsfulle i komedie. Dette leksemet følger bildet av Chatsky, og Chatskys navn er det hyppigste i komedie. Dermed kombinerer verket organisk det vanligste substantivet med det vanligste egennavnet.

Den høyeste korrelasjonskoeffisienten forbinder temaene til de tragiske bøkene til Gumilev "The Pillar of Fire" og Akhmatovas "Anno Domini MCMXXI". Blant de 15 vanligste substantivene her er 10 vanlige, inkludert blod, hjerte, sjel, kjærlighet, ord, himmel. La oss huske at Akhmatovas bok inkluderer miniatyren "Du vil aldri leve ...", skrevet mellom Gumilyovs arrestasjon og henrettelse.

Temaene for stearinlys og folkemengder i det studerte materialet finnes bare i "The Poems of Yuri Zhivago." Temaet for lyset i diktene fra romanen har mange kontekstuelle betydninger: det er assosiert med bildet av Jesus Kristus, med temaene tro, udødelighet, kreativitet og en kjærlighetsdato. Stearinlyset er den viktigste lyskilden i de sentrale scenene i romanen. Temaet for mengden utvikler seg i forbindelse med hovedideen til romanen, der privatlivet til en person med dets urokkelige verdier står i kontrast til den nye statens umoral, bygget på prinsippene om å glede publikum .

Arbeidet involverer et tredje trinn, også reflektert i programmet, - dette er beregningen av forskjellen i ordenstallene til ord som er felles for to ordbøker og gjennomsnittlig avstand mellom identiske ord i to ordbøker. Dette stadiet lar oss gå fra de generelle trendene i samspillet mellom ordbøker, identifisert ved hjelp av statistikk, til et nivå som nærmer seg teksten. For eksempel er bøkene til Gumilyov og Akhmatova statistisk signifikant korrelerte. Vi ser på hvilke ord som viser seg å være felles for ordbøkene deres, og velger først og fremst de som har forskjellen mellom ordenstallene deres er minimal eller lik null. Det er disse ordene som har samme rangeringsnummer, og derfor er det disse minimale temaene som er like viktige i hodet til de to dikterne. Deretter bør du gå til nivået av tekster og kontekster.

Kvantitative metoder bidrar også til å studere egenskapene til morsmål. La oss si, på det russiske språket er det 6 tilfeller, på engelsk er det ingen tilfeller, og på noen språk av folket i Dagestan når antallet tilfeller 40. L. Perlovsky i sin artikkel "Bevissthet, språk og kultur" korrelerer disse egenskapene med folks tendens til individualisme eller kollektivisme, med oppfatning av ting og fenomener separat eller i forbindelse med andre. Tross alt var det i den engelsktalende verden (det er ingen tilfeller - en ting oppfattes "i seg selv") at slike begreper som personlig frihet, liberalisme og demokrati dukket opp (merk at jeg bruker disse begrepene bare i forbindelse med språk, uten noen evalueringsegenskaper). Til tross for at slike gjetninger fortsatt bare forblir på nivået til dristige vitenskapelige hypoteser, bidrar de til å se på kjente fenomener på en ny måte.

Som vi ser kan kvantitative egenskaper brukes på helt andre områder av lingvistikken, noe som i økende grad visker ut grensene mellom «eksakte» og «humanitære» metoder. Lingvistikk tyr i økende grad til hjelp av ikke bare matematikk, men også datateknologi for å løse sine problemer.

2.3 Å lære språk ved hjelp av formelle logiske metoder

Moderne teoretisk lingvistikk samhandler med ikke-kvantitative metoder for matematikk, spesielt med logikk, ikke mindre fruktbart enn med kvantitative. Den raske utviklingen av datateknologi og økningen i deres rolle i den moderne verden krevde en revisjon av tilnærmingen til samspillet mellom språk og logikk som helhet.

Metoder for logikk er mye brukt i utviklingen av formaliserte språk, spesielt programmeringsspråk, hvis elementer er visse symboler (i likhet med matematiske), valgt (eller konstruert fra tidligere valgte symboler) og tolket på en bestemt måte, assosiert med ingen «tradisjonell» bruk, forståelse og funksjoner av de samme symbolene i andre sammenhenger. En programmerer arbeider konstant med logikk i arbeidet sitt. Poenget med programmering er nettopp å lære en datamaskin å resonnere (i vid forstand av ordet). Samtidig viser metodene for "resonnering" seg å være veldig forskjellige. Hver programmerer bruker en viss tid på å søke etter feil i egne og andres programmer. Det vil si å søke etter feil i resonnement, i logikk. Og dette setter også sine spor. Det er mye lettere å oppdage logiske feil i vanlig tale. Den relative enkelheten til språkene studert av logikere lar dem belyse strukturene til disse språkene tydeligere enn det er oppnåelig av lingvister som analyserer utelukkende komplekse naturlige språk. Fordi språkene studert av logikere bruker relasjoner kopiert fra naturlige språk, er logikere i stand til å introdusere betydelig bidrag inn i den generelle språkteorien. Situasjonen her er lik den som forekommer i fysikk: fysikeren formulerer også teoremer for ideelt forenklede tilfeller som ikke forekommer i naturen i det hele tatt - han formulerer lover for ideelle gasser, ideelle væsker, snakker om bevegelse i fravær av friksjon osv. . For disse idealiserte tilfellene kan man sette enkle lover, som i stor grad ville bidratt til forståelsen av hva som skjer i virkeligheten og hva som sannsynligvis ville forbli ukjent for fysikken hvis den forsøkte å vurdere virkeligheten direkte, i all dens kompleksitet.

I studiet av naturlige språk brukes logiske metoder slik at språkelever ikke dumt kan "memorere" så mange ord som mulig, men bedre forstå strukturen. L. Shcherba brukte også i sine forelesninger et eksempel på en setning konstruert i henhold til lovene i det russiske språket: "Glokaya kuzdra shteko budlanul bokra og kurdyachit bokrenok," og spurte deretter studentene hva dette betydde. Til tross for at betydningen av ordene i setningen forble uklar (de eksisterer rett og slett ikke på det russiske språket), var det mulig å svare tydelig: "kuzdra" er subjektet, et feminint substantiv, i entall, nominativ kasus , "bokr" er animert, og etc. Oversettelsen av uttrykket er omtrent som følger: "Noe feminint gjorde noe med en skapning av det mannlige kjønn på en gang, og begynte deretter å gjøre noe langsiktig, gradvis med ungen sin." Et lignende eksempel på en tekst (fiksjon) fra ikke-eksisterende ord, konstruert helt i henhold til språkets lover, er Lewis Carrolls "Jabberwocky" (i "Alice in Wonderland" forklarer Carroll, gjennom munnen til hans karakter Humpty Dumpty, betydningen av ordene han fant opp: "kokt" - klokken åtte om kvelden, når det er på tide å lage middag, "khliky" - spinkel og fingernem, "shoryok" - en krysning mellom en ilder, en grevling og en korketrekker, "grave" - hopp, dykk, spinn, "nava" - gress under soluret (strekker seg litt til høyre, litt til venstre og litt bakover), "grunt" - grynt og ler, "zelyuk" - en grønn kalkun, "myumzik" - en fugl er rufsete og stikker ut i alle retninger, som en kost, "mova" - langt hjemmefra) .

Et av de grunnleggende konseptene for moderne logikk og teoretisk lingvistikk, brukt i studiet av språk av forskjellige logisk-matematiske beregninger, naturlige språk, for å beskrive relasjonene mellom språk på forskjellige "nivåer" og for å karakterisere relasjonene mellom de aktuelle språkene og fagområdene beskrevet med deres hjelp er begrepet metaspråk. Metaspråk er et språk som brukes til å uttrykke vurderinger om et annet språk, et objektspråk. Ved hjelp av et metaspråk studerer de strukturen til tegnkombinasjoner (uttrykk) til et objektspråk, beviser teoremer om dets ekspressive egenskaper, dets forhold til andre språk osv. Språket som studeres kalles også et objektivt språk ift. dette metaspråket. Både fagspråket og metaspråket kan være vanlige (naturlige) språk. Et metaspråk kan avvike fra objektspråket (for eksempel i en engelsk lærebok for russere er russisk et metaspråk, og engelsk er et objektspråk), men det kan falle sammen med det eller avvike bare delvis, for eksempel spesiell terminologi(Russisk lingvistisk terminologi er et element i et metaspråk for å beskrive det russiske språket; såkalte semantiske faktorer er en del av et metaspråk for å beskrive semantikken til naturlige språk).

Logikken lærer oss et fruktbart skille mellom objektspråk og metaspråk. Språkobjekt er selve objektet logisk forskning, og metaspråk er det uunngåelig kunstige språket som slik forskning utføres på. Logisk tenkning består nettopp i å formulere på symbolspråket (metaspråk) relasjonene og strukturen til et virkelig språk (språk-objekt).

Et metaspråk må i alle fall være "ikke fattigere" enn fagspråket (dvs. for hvert uttrykk av sistnevnte i metaspråket må det være navnet - "oversettelse") - ellers, hvis disse kravene ikke er oppfylt (noe som åpenbart skjer i naturlige språk, dersom spesielle avtaler ikke gir noe annet), oppstår semantiske paradokser (antinomier).

Etter hvert som flere og flere nye programmeringsspråk blir opprettet, i forbindelse med problemet med programmeringsoversettere, oppsto det et presserende behov for å lage metaspråk. For tiden er den mest brukte for å beskrive syntaksen til programmeringsspråk Backus-Naur-formen metaspråk (forkortet BNF). Den presenteres i en kompakt form i form av noen formler som ligner på matematiske. For hvert konsept av et språk er det en enkelt metaforformel (normal formel). Den består av venstre og høyre deler. Venstre side indikerer konseptet som defineres, og høyre side spesifiserer settet med akseptable språkkonstruksjoner som er kombinert i dette konseptet. Formelen bruker spesielle metasymboler i form av vinkelparenteser, som inneholder det definerte konseptet (på venstre side av formelen) eller et tidligere definert konsept (på høyre side), og separasjonen mellom venstre og høyre del er indikert med metasymbolet "::=", hvis betydning tilsvarer ordene "per definisjon er det." Metalingvistiske formler er i en eller annen form innebygd i oversettere; med deres hjelp blir konstruksjonene som brukes av programmereren sjekket for formell samsvar med noen av konstruksjonene som er syntaktisk akseptable på dette språket. Det er også separate metaspråk fra ulike vitenskaper - dermed eksisterer kunnskap i form av ulike metaspråk.

Logiske metoder fungerte også som grunnlag for opprettelsen av kunstige intelligenssystemer basert på begrepet konneksjonisme. Konneksjonisme er en spesiell bevegelse innen filosofisk vitenskap, hvis emne er spørsmål om kunnskap. Som en del av denne bevegelsen gjøres det forsøk på å forklare menneskelige intellektuelle evner ved hjelp av kunstige nevrale nettverk. Består av et stort antall strukturelle enheter, i likhet med nevroner, med en vekt spesifisert for hvert element som bestemmer styrken til forbindelser med andre elementer, nevrale nettverk er forenklede modeller av den menneskelige hjernen. Eksperimenter med denne typen nevrale nettverk har vist deres evne til å lære oppgaver som mønstergjenkjenning, lesing og identifisering av enkle grammatiske strukturer.

Filosofer begynte å interessere seg for konneksjonisme fordi den konneksjonistiske tilnærmingen lovet å gi et alternativ til den klassiske teorien om sinn og den utbredte ideen innenfor den teorien om at sinnets virkemåte lignet behandlingen av symbolsk språk av en digital datamaskin. Dette konseptet er svært kontroversielt, men de siste årene har det funnet flere og flere støttespillere.

Det logiske studiet av språk viderefører det saussureanske konseptet om språk som et system. Det faktum at det hele tiden fortsetter, bekrefter nok en gang dristigheten til vitenskapelige gjetninger på begynnelsen av forrige århundre. Siste avsnitt Jeg vil vie arbeidet mitt til utsiktene for utvikling av matematiske metoder i lingvistikk i dag.

2.4 Utsikter for anvendelse av matematiske metoder i lingvistikk

I datateknologiens tid har metoder for matematisk lingvistikk fått et nytt utviklingsperspektiv. Søket etter løsninger på problemene med språklig analyse blir nå i økende grad implementert på informasjonssystemnivå. Samtidig setter automatisering av prosessen med å behandle språklig materiale, mens den gir forskeren betydelige muligheter og fordeler, uunngåelig nye krav og oppgaver for ham.

Kombinasjonen av «eksakt» og «humanitær» kunnskap har blitt grobunn for nye oppdagelser innen lingvistikk, informatikk og filosofi.

Maskinoversettelse fra ett språk til et annet er fortsatt en raskt voksende gren av informasjonsteknologi. Til tross for at oversettelse ved hjelp av en datamaskin aldri vil være sammenlignbar i kvalitet med oversettelse laget av en person (spesielt for litterære tekster), har maskinen blitt en integrert menneskelig assistent i å oversette store tekstvolumer. Det antas at det i nær fremtid vil bli laget mer avanserte oversettelsessystemer, hovedsakelig basert på semantisk analyse av teksten.

En like lovende retning forblir samspillet mellom lingvistikk og logikk, som tjener som et filosofisk grunnlag for å forstå informasjonsteknologi og den såkalte "virtuelle virkeligheten". I nær fremtid vil arbeidet fortsette med å lage kunstige intelligenssystemer – selv om det igjen aldri vil være lik menneskelig intelligens når det gjelder dens evner. Slik konkurranse er meningsløs: i vår tid bør en maskin ikke bli (og bli) en rival, men en menneskelig assistent, ikke noe fra fantasiens rike, men en del av den virkelige verden.

Studiet av språk fortsetter å bruke statistiske metoder, som lar oss mer nøyaktig bestemme dets kvalitative egenskaper. Det er viktig at de mest vågale hypotesene om språk finner sitt matematiske, og følgelig logiske bevis.

Det mest betydningsfulle er at ulike grener av bruken av matematikk i lingvistikk, tidligere ganske uensartede, har de siste årene blitt korrelert med hverandre, kombinert til et sammenhengende system, i analogi med språksystemet oppdaget for et århundre siden av Ferdinand de Saussure og Yvan Baudouin de Courtenay. Dette er kontinuiteten til vitenskapelig kunnskap.

Lingvistikk i den moderne verden har blitt grunnlaget for utviklingen av informasjonsteknologi. Så lenge informatikk forblir en gren av menneskelig aktivitet i rask utvikling, vil foreningen av matematikk og lingvistikk fortsette å spille sin rolle i utviklingen av vitenskap.

Konklusjon

For det 20. århundre Datateknologi har kommet langt - fra militær bruk til fredelig bruk, fra et snevert spekter av mål til penetrering i alle sektorer av menneskelivet. Matematikk som vitenskap fikk ny praktisk betydning med utviklingen av datateknologi. Denne prosessen fortsetter i dag.

Den tidligere utenkelige "tandemen" av "fysikere" og "lyrikere" har blitt en realitet. For det fulle samspillet mellom matematikk og informatikk med humaniora, var det nødvendig med kvalifiserte spesialister fra begge sider. Mens dataspesialister i økende grad trenger systematisk humanitær kunnskap (språklig, kulturell, filosofisk) for å forstå endringer i virkeligheten rundt dem, i samspillet mellom menneske og teknologi, for å utvikle flere og flere nye språklige og mentale konsepter, for å skrive programmer, da any I vår tid må en "humanist" mestre i det minste det grunnleggende om å jobbe med en datamaskin for å vokse profesjonelt.

Matematikk, som er nært forbundet med informatikk, fortsetter å utvikle seg og samhandle med naturvitenskapelig og humanistisk kunnskap. I det nye århundret svekkes ikke tendensen til matematisering av vitenskapen, men tvert imot intensiveres. Ved å bruke kvantitative data blir mønstrene for språkutvikling, dets historiske og filosofiske egenskaper forstått.

Matematisk formalisme er best egnet for å beskrive mønstre i lingvistikk (som faktisk i andre vitenskaper - både humaniora og naturvitenskap). Situasjonen utvikler seg noen ganger i vitenskapen på en slik måte at uten å bruke det passende matematiske språket er det umulig å forstå naturen til det fysiske, kjemiske osv. prosessen er umulig. Å lage en planetarisk modell av atomet, det berømte engelsk fysiker XX århundre E. Rutherford opplevde matematiske vanskeligheter. Til å begynne med ble teorien hans ikke akseptert: den hørtes ikke avgjørende ut, og årsaken til dette var Rutherfords uvitenhet om sannsynlighetsteorien, på grunnlag av mekanismen som det bare var mulig å forstå modellrepresentasjonen av atomære interaksjoner. Da han innså dette, meldte en fremragende vitenskapsmann seg på den tiden, en nobelprisvinner, seg inn på seminaret til matematikeren professor Lamb og tok i to år sammen med studentene et kurs og jobbet med en workshop om sannsynlighetsteori. På grunnlag av dette var Rutherford i stand til å beskrive elektronets oppførsel, og ga hans strukturelle modell overbevisende nøyaktighet og oppnå anerkjennelse. Det samme er tilfelle med lingvistikk.

Dette reiser spørsmålet, hva er så matematisk inneholdt i objektive fenomener som gjør dem tilgjengelige for beskrivelse på matematikkspråket, på språket for kvantitative egenskaper? Dette er homogene enheter av materie fordelt i rom og tid. De vitenskapene som har gått lenger enn andre mot identifisering av homogenitet, viser seg å være bedre egnet for bruk av matematikk i dem.

Internett, som utviklet seg raskt på 90-tallet, forente representanter for ulike land, folk og kulturer. Til tross for at engelsk fortsetter å være hovedspråket for internasjonal kommunikasjon, har Internett blitt flerspråklig i vår tid. Dette førte til utviklingen av kommersielt vellykkede maskinoversettelsessystemer, som er mye brukt i ulike felt av menneskelig aktivitet.

Datanettverk har blitt gjenstand for filosofisk forståelse - flere og flere nye språklige, logiske verdensbildekonsepter har blitt skapt for å hjelpe til med å forstå "virtuell virkelighet". I mange kunstverk ble det skapt scenarier – ofte pessimistiske – om maskinenes dominans over mennesker, og den virtuelle virkelighetens dominans over verden rundt. Ikke alltid slike prognoser viste seg å være meningsløse. Informasjonsteknologi er ikke bare et lovende område for å investere menneskelig kunnskap, det er også en måte å kontrollere informasjon på, og følgelig over menneskelig tanke.

Dette fenomenet har både negative og positiv side. Negativt – fordi kontroll over informasjon strider mot den umistelige menneskerettigheten til fri tilgang til den. Positivt - fordi mangelen på denne kontrollen kan føre til katastrofale konsekvenser for menneskeheten. Det er nok å minne om en av de klokeste filmene det siste tiåret - "When the World Ends" av Wim Wenders, hvis karakterer er fullstendig nedsenket i den "virtuelle virkeligheten" til sine egne drømmer, spilt inn på en datamaskin. Imidlertid kan ikke en eneste vitenskapsmann eller kunstner gi et sikkert svar på spørsmålet: hva som venter vitenskap og teknologi i fremtiden.

Fokus på "fremtiden", som noen ganger virker fantastisk, var et særtrekk ved vitenskapen på midten av det tjuende århundre, da oppfinnere forsøkte å lage perfekte eksempler på teknologi som kunne fungere uten menneskelig innblanding. Tiden har vist den utopiske karakteren til slik forskning. Det ville imidlertid være unødvendig å fordømme forskere for dette – uten deres entusiasme på 1950- og 60-tallet ville ikke informasjonsteknologien gjort et så kraftig sprang på 90-tallet, og vi ville ikke hatt det vi har nå.

De siste tiårene av det tjuende århundre endret vitenskapens prioriteringer - forskning, oppfinnsom patos ga plass for kommersiell interesse. Igjen, dette er verken bra eller dårlig. Dette er en realitet der vitenskapen i økende grad integreres i hverdagen.

Fremkomsten av det 21. århundre fortsatte denne trenden, og i vår tid, bak oppfinnelser er det ikke bare berømmelse og anerkjennelse, men først og fremst penger. Dette er også grunnen til at det er viktig å sikre at de siste prestasjonene innen vitenskap og teknologi ikke faller i hendene på terrorgrupper eller diktatoriske regimer. Oppgaven er vanskelig til det er umulig; Å realisere det så mye som mulig er hele verdenssamfunnets oppgave.

Informasjon er et våpen, og et våpen som ikke er mindre farlig enn atomvåpen eller kjemiske våpen - bare det virker ikke fysisk, men heller psykologisk. Menneskeheten må tenke på hva som er viktigere for den i dette tilfellet – frihet eller kontroll.

De siste filosofiske konseptene knyttet til utviklingen av informasjonsteknologi og forsøk på å forstå dem har vist begrensningene til både naturvitenskapelig materialisme, som dominerte gjennom det 19. og tidlige 20. århundre, og ekstrem idealisme, som benekter betydningen av den materielle verden. Det er viktig for moderne tenkning, spesielt vestlig tenkning, å overvinne denne dualismen i tenkningen, når verden rundt oss er tydelig delt inn i det materielle og idealet. Veien til dette er en dialog mellom kulturer, en sammenligning av ulike synspunkter på omkringliggende fenomener.

Paradoksalt nok kan informasjonsteknologi spille en viktig rolle i denne prosessen. Datanettverk, og spesielt Internett, er ikke bare en ressurs for underholdning og vill kommersiell virksomhet, det er også et middel for meningsfull, kontroversiell kommunikasjon mellom representanter for forskjellige sivilisasjoner i den moderne verden, samt for dialog mellom fortid og nåtid. Vi kan si at Internett utvider romlige og tidsmessige grenser.

Og i dialogen mellom kulturer gjennom informasjonsteknologi er språkets rolle som det eldste universelle kommunikasjonsmidlet fortsatt viktig. Det er derfor lingvistikk, i samspill med matematikk, filosofi og informatikk, opplevde sin gjenfødelse og fortsetter å utvikle seg frem til i dag. Trenden til nåtiden vil fortsette i fremtiden - "til verdens ende", som den samme V. Wenders spådde for 15 år siden. Riktignok er det ukjent når denne slutten vil skje - men er det viktig nå, for før eller siden vil fremtiden fortsatt bli nåtiden.

Vedlegg 1

Ferdinand de Saussure

Den sveitsiske lingvisten Ferdinand de Saussure (1857-1913) er ansett for å være grunnleggeren av moderne lingvistikk i sine forsøk på å beskrive språkets struktur i stedet for historien til bestemte språk og språkformer. Faktisk finner metoden for strukturalisme i lingvistikk og litteraturvitenskap og en betydelig gren av semiotikk sitt viktigste utgangspunkt i hans arbeid ved begynnelsen av det tjuende århundre. Det har til og med blitt hevdet at komplekset av strategier og forestillinger som har blitt kalt "poststrukturalisme" – arbeidet til Jacques Derrida, Michel Foucault, Jacques Lacan, Julia Kristeva, Roland Barthes og andre – antydes av Saussures arbeid innen lingvistikk. og anagrammatiske lesninger av sen latinsk poesi Hvis dette er slik, kan det sees tydeligst på måten at Saussures arbeid innen lingvistikk og tolkning deltar i transformasjoner i forståelsesmåter på tvers av et bredt spekter av intellektuelle disipliner fra fysikk til litterær modernisme. til psykoanalyse og filosofi på begynnelsen av det tjuende århundre. Som Algirdas Julien Greimas og Joseph Courtés argumenterer i Semiotics and Language: An Analytic Dictionary, under overskriften "Interpretation", oppsto en ny tolkningsmåte på begynnelsen av det tjuende århundre som de identifiserer med Saussurean-lingvistikk, Husserlian Phenomenology og Freudiansk psykoanalyse. I denne modusen er "tolkning ikke lenger et spørsmål om å tilskrive et gitt innhold til en form som ellers ville mangle en; snarere er det en parafrase som på en annen måte formulerer det ekvivalente innholdet til et betegnende element i et gitt semiotisk system" ( 159). I denne forståelsen av «tolkning» er ikke form og innhold atskilt; snarere er hver "form" alternativt også et semantisk "innhold", en "signifiserende form", slik at tolkningen tilbyr en analogisk parafrase av noe som allerede betyr innenfor et annet system av signifikans.

En slik nytolkning av form og forståelse – som Claude Lévi-Strauss beskriver i en av sine mest programmatiske artikulasjoner av begrepet strukturalisme, i "Structure and Form: Reflections on a Work by Vladimir Propp" – er implisitt i Saussures posthume kurs. i General Linguistics (1916, overs., 1959, 1983) I hans levetid publiserte Saussure relativt lite, og hans hovedverk, Kurset, var transkripsjonen av studentene av flere kurs i generell lingvistikk han tilbød i 1907-11. I kurset ba Saussure om den "vitenskapelige" studien av språk i motsetning til arbeidet i historisk lingvistikk som ble gjort på det nittende århundre. Dette arbeidet er en av de store prestasjonene til vestlig intellekt: å ta spesielle ord som byggesteinene i. språk, historisk (eller "diakronisk") lingvistikk sporet opprinnelsen og utviklingen til vestlige språk fra en antatt felles språkkilde, først et "indoeuropeisk" språk og deretter et tidligere "proto-indoeuropeisk" språk.

Det er nettopp denne studien av den unike forekomsten av ord, med den samtidige antakelsen om at språkets grunnleggende "enhet" faktisk er den positive eksistensen av disse "ordelementene", som Saussure stilte spørsmål ved. Arbeidet hans var et forsøk på å redusere mengden av fakta om språk, studert så nøye av historisk lingvistikk, til et håndterlig antall påstander. Den "sammenlignende skolen" for filologi fra det nittende århundre, sier Saussure i kurset, "lyktes ikke med å sette opp den sanne vitenskapen om lingvistikk" fordi "den ikke klarte å søke ut det natur av dets studieobjekt" (3). At "natur," hevder han, ikke bare finnes i de "elementære" ordene som et språk består av - de tilsynelatende "positive" faktaene (eller "stoffene") i språket – men i de formelle forholdene som gir opphav til disse "stoffene."

Saussures systematiske reundersøkelse av språk er basert på tre antagelser. Den første er at den vitenskapelige studien av språket trenger å utvikle og studere systemet i stedet for språkfenomenenes historie. Av denne grunn skiller han mellom språkets spesielle forekomster "tale-hendelser," som han utformer som prøveløslatelse - og det riktige objektet for lingvistikk, systemet (eller "koden") som styrer disse hendelsene, som han designer som langue, krever dessuten en "synkron". oppfatning av forholdet mellom språkelementene på et bestemt øyeblikk snarere enn den "diakroniske" studien av språkets utvikling gjennom historien.

Denne antakelsen ga opphav til det Roman Jakobson i 1929 kom til å betegne som "strukturalisme", der "ethvert sett med fenomener som undersøkes av samtidsvitenskap, behandles ikke som en mekanisk agglomerasjon, men som en strukturell helhet, den mekaniske oppfatningen av prosesser gir etter for spørsmålet av deres funksjon" ("Romantic" 711). I denne passasjen artikulerer Jakobson Saussures intensjon om å definere lingvistikk som et vitenskapelig system i motsetning til en enkel, "mekanisk" fremstilling av historiske ulykker. Sammen med dette beskriver Jakobson også den andre grunnleggende antakelsen i Saussurean – vi kan nå kalle den «strukturell» – lingvistikk: at språkets grunnleggende elementer bare kan studeres i forhold til deres funksjoner snarere enn i forhold til deres årsaker. . I stedet for å studere spesielle og unike hendelser og enheter (dvs. historien til bestemte indoeuropeiske "ord"), må disse hendelsene og enhetene plasseres innenfor et systemisk rammeverk der de er relatert til andre såkalte hendelser og enheter. Dette er en radikal reorientering når det gjelder oppfatning av erfaring og fenomener, en hvis betydning filosofen Ernst Cassirer har sammenlignet med "den nye vitenskapen om Galileo som på det syttende århundre endret hele vårt konsept av den fysiske verden" (sitert i Culler, Pursuit 24) . Denne endringen, som Greimas og Courtés bemerker, gjenoppfatter "tolkning" og gjenoppfatter dermed forklaring og forståelse selv. I stedet for at forklaringen er i form av et fenomens årsaker, slik at det som en "effekt" på noen måter er underordnet dets årsaker, består forklaringen her i å underordne et fenomen til dets fremtidsorienterte "funksjon" eller "hensikt." Forklaring er ikke lenger uavhengig av menneskelige intensjoner eller hensikter (selv om disse intensjonene kan være upersonlige, felles eller, i freudianske termer, "ubevisste").

I sin lingvistikk oppnår Saussure denne transformasjonen spesifikt i redefinisjonen av det lingvistiske "ordet", som han beskriver som det lingvistiske "tegnet" og definerer i funksjonalistiske termer. Tegnet, hevder han, er foreningen av "et konsept og et lydbilde", som han kalte "signified and signifier" (66-67; Roy Harris' oversettelse fra 1983 tilbyr begrepene "signification" og "signal") av deres "kombinasjon" er "funksjonell" ved at verken det betydde eller det betydde er "årsaken" til den andre snarere, "hver sine verdier fra den andre" (8). og gjør den grunnleggende antagelsen om historisk lingvistikk, nemlig identiteten til de elementære enhetene av språk og betydning (dvs. "ord"), gjenstand for streng analyse. Grunnen til at vi kan gjenkjenne forskjellige forekomster av ordet "tre" som ". samme" ord er ikke fordi ordet er definert av iboende kvaliteter - det er ikke en "mekanisk agglomerasjon" av slike kvaliteter - men fordi det er definert som et element i et system, den "strukturelle helheten" "av språket.

En slik relasjonell (eller "diakritisk") definisjon av en enhet styrer oppfatningen av alle elementene i språket i strukturell lingvistikk. Dette er tydeligst i den mest imponerende prestasjonen til saussureansk lingvistikk, utviklingen av begrepene "fonemene" og "særtrekkene" til språket. Fonemer er de minste artikulerte og betegnende enhetene i et språk. Det er ikke lydene som forekommer i språket, men "lydbildene" Saussure nevner, som blir oppfattet av høyttalere – fenomenalt oppfattet – som formidlende mening. (Dermed beskriver Elmar Holenstein Jakobsons lingvistikk, som følger Saussure på viktige måter, som «fenomenologisk strukturalisme.») Det er av denne grunn at den ledende talspersonen for Praha skolestrukturalisme, Jan Mukarovsky, i 1937 bemerket at «struktur. . . er en fenomenologisk og ikke en empirisk virkelighet; det er ikke selve verket, men et sett av funksjonelle relasjoner som er lokalisert i bevisstheten til et kollektiv (generasjon, miljø, etc.)» (sitert i Galan 35). På samme måte, Lévi-Strauss, den ledende talspersonen for fransk strukturalisme , bemerket i 1960 at "struktur ikke har noe distinkt innhold; den er tilfreds med seg selv, og den logiske organisasjonen den er arrestert i, er tenkt som en eiendom til det virkelige» (167; se også Jakobson, Fundamentals 27-28).

Fonemer, altså de minste merkbare elementene i språket, er ikke positive objekter, men en «fenomenologisk virkelighet». På engelsk, for eksempel, kan fonemet /t/ uttales på mange forskjellige måter, men i alle tilfeller vil en engelsktalende gjenkjenne at det fungerer som en /t/. En aspirert t (dvs. en t uttalt med en h-lignende pust etter seg), en høy eller lav t-lyd, en utvidet t-lyd, og så videre, vil alle fungere på samme måte for å skille betydningen av "to" og "do" på engelsk. Dessuten er forskjellene mellom språk slik at fonologiske variasjoner i ett språk kan utgjøre distinkte fonemer i et annet; Dermed skiller engelsk mellom /l/ og /r/, mens andre språk er så strukturert at disse artikulasjonene betraktes som varianter av samme fonem (som den aspirerte og uaspirerte t-en på engelsk). I hvert naturlig språk er det store antallet mulige ord en kombinasjon av et lite antall fonemer. Engelsk, for eksempel, har mindre enn 40 fonemer som til sammen danner over en million forskjellige ord.

Språkets fonem er i seg selv systematisk organiserte funksjonsstrukturer. På 1920- og 1930-tallet, etter Saussures ledelse, isolerte Jakobson og N. S. Trubetzkoy de "særpregede trekkene" til fonemer. Disse trekkene er basert på den fysiologiske strukturen til taleorganene – tunge, tenner, stemmebånd og så videre – som Saussure nevner i kurset og som Harris beskriver som "fysiologisk fonetikk" (39; Baskins tidligere oversettelse bruker begrepet "fonologi" [(1959) 38]) - og de kombineres i "bunter" av binære motsetninger for å danne fonemer. For eksempel, på engelsk er forskjellen mellom /t/ og /d/ tilstedeværelsen eller fraværet av "stemme" (engasjementet til stemmebåndene), og på stemmenivået definerer disse fonemene hverandre gjensidig. På denne måten er fonologi et konkret eksempel på en generell språkregel beskrevet av Saussure: I språket er det bare forskjeller. Enda viktigere: en forskjell innebærer generelt positive termer som forskjellen er satt opp mellom; men i språket er det bare forskjeller uten positive termer. Enten vi tar det betegnede eller det betegnende, har språket verken ideer eller lyder som eksisterte før det språklige systemet. (120)

I dette rammeverket bestemmes språklige identiteter ikke av iboende kvaliteter, men av systemiske ("strukturelle") forhold.

Jeg har sagt at fonologien "fulgte ledetråden" til Saussure, for selv om analysen hans av fysiologien til språkproduksjon "i dag ville," som Harris sier, "bli kalt "fysisk", i motsetning til enten "psykologisk" eller "funksjonell". "" (Lesing 49), men i kurset artikulerte han retningen og konturene til en funksjonell analyse av språk. Tilsvarende var hans eneste utvidede publiserte verk, Mémoire sur le système primitif des voyelles dans les langues Indo-Européennes (Memoir om det primitive systemet med vokaler i indoeuropeiske språk), som dukket opp i 1878, fullt ut plassert innenfor prosjektet til det nittende- århundres historisk lingvistikk. Likevel, innenfor dette arbeidet, som Jonathan Culler har diskutert, demonstrerte Saussure "fruktbarheten ved å tenke på språk som et system av rent relasjonelle elementer, selv når han arbeidet med oppgaven med historisk rekonstruksjon" (Saussure 66). Ved å analysere de systematiske strukturelle relasjonene mellom fonemer for å redegjøre for mønstre av vokalveksling i eksisterende indoeuropeiske språk, antydet Saussure at i tillegg til flere forskjellige fonemer /a/, må det ha vært et annet fonem som kunne beskrives formelt. "Det som gjør Saussures arbeid så veldig imponerende," konkluderer Culler, "er det faktum at nesten femti år senere, da kileskriftet Hittite ble oppdaget og dechiffrert, ble det funnet å inneholde et fonem, skrevet h, som oppførte seg slik Saussure hadde spådd. . Han hadde oppdaget, ved en rent formell analyse, det som nå er kjent som strupehodet til indoeuropeisk» (66).

Denne oppfatningen av den relasjonelle eller diakritiske bestemmelsen av betydningselementene, som er både implisitt og eksplisitt i kurset, antyder en tredje antakelse som styrer strukturell lingvistikk, det Saussure kaller "tegnets vilkårlige natur." Med dette mener han at forholdet mellom betegneren og betegnet i språket aldri er nødvendig (eller "motivert"): man kunne like gjerne finne lydbetegneren arbre som betegnelsestreet for å forene seg med begrepet "tre". Men mer enn dette betyr det at det signerte også er vilkårlig: man kan like gjerne definere begrepet "tre" ved dens treaktige kvalitet (som vil ekskludere palmer) som ved størrelsen (som ekskluderer de "lave treplantene" vi kalle busker). Dette bør gjøre det klart at nummereringen av forutsetningene jeg har presentert ikke representerer en prioriteringsrekkefølge: hver forutsetning – den systemiske karakteren av betydning (best oppfattet ved å studere språket "synkront"), den relasjonelle eller "diakritiske" naturen til elementene av betydning, tegnenes vilkårlige natur – henter sin verdi fra de andre.

Det vil si at saussureansk lingvistikk forstår fenomenene den studerer i overordnede forhold mellom kombinasjon og kontrast i språk. I denne oppfatningen er språk både prosessen med å artikulere mening (betydelse) og dets produkt (kommunikasjon), og disse to funksjonene til språket er verken identiske eller fullstendig kongruente (se Schleifer, «Dekonstruksjon»). Her kan vi se vekslingen mellom form og innhold som Greimas og Courtés beskriver i modernistisk tolkning: språket presenterer kontraster som formelt definerer dets enheter, og disse enhetene kombineres på etterfølgende nivåer for å skape det betydningsfulle innholdet. Siden språkets elementer er vilkårlige, kan dessuten verken kontrast eller kombinasjon sies å være grunnleggende. , i språk kombineres karakteristiske trekk for å danne kontrasterende fonemer på et annet nivå av forståelse, fonemer kombineres for å danne. Dermed kontrasterende morfemer, morfemer kombineres for å danne ord, ord kombineres for å danne setninger, og så videre. I hvert tilfelle er hele fonemet, eller ordet, eller setningen, og så videre, større enn summen av delene (akkurat som vann, H2O, i Saussures eksempel [(1959) 103] er mer enn den mekaniske agglomerasjonen av hydrogen og oksygen).

De tre forutsetningene for kurset i generell lingvistikk førte til at Saussure etterlyste en ny vitenskap fra det tjuende århundre som ville gå utover lingvistisk vitenskap for å studere «tegns liv i samfunnet». Saussure kalte denne vitenskapen "semiologi (fra gresk semeîon "tegn")" (16). "Vitenskapen" om semiotikk, slik den kom til å bli praktisert i Øst-Europa på 1920- og 1930-tallet og Paris på 1950- og 1960-tallet, utvidet studiet av språk og språklige strukturer til litterære artefakter utgjort (eller artikulert) av disse strukturene. Gjennom den sene delen av karrieren, selv mens han tilbød kursene i generell lingvistikk, forfulgte Saussure sin egen "semiotiske" analyse av sen latinsk poesi i et forsøk på å oppdage bevisst skjulte anagrammer av egennavn. Studiemetoden var på mange måter det motsatte av den funksjonelle rasjonalismen i hans språklige analyser: den forsøkte, som Saussure nevner i en av de 99 notatbøkene der han forfulgte denne studien, å systematisk undersøke problemet med "tilfeldighet", som " blir det uunngåelige grunnlaget for alt" (sitert i Starobinski 101). En slik studie, som Saussure selv sier, fokuserer på "det materielle faktum" om tilfeldigheter og mening (sitert 101), slik at "temaordet" hvis anagram Saussure søker, som Jean Starobinski hevder, "er, for poeten , et instrument, og ikke en livsviktig kime til diktet. Diktet er forpliktet til å gjenbruke det lydmessige materialet til temaordet.» (45). I denne analysen sier Starobinski: "Saussure mistet seg ikke i et søk etter skjulte betydninger." I stedet ser hans arbeid ut til å demonstrere et ønske om å unndra alle problemene som oppstår fra bevissthet: "Siden poesi ikke bare realiseres i ord, men er noe født av ord, unnslipper den bevissthetens vilkårlige kontroll for å avhenge utelukkende av en slags språklig lovlighet. " (121).

Det vil si Saussures forsøk på å oppdage egennavn i sen latinsk poesi - det Tzvetan Todorov kaller reduksjonen av et "ord. . . to its signifier" (266) – understreker et av elementene som styrte hans språklige analyse, tegnets vilkårlige natur. (Det understreker også den formelle naturen til saussureansk lingvistikk – "Språk," hevder han, "er en form og ikke en substans" – som effektivt eliminerer semantikk som et hovedobjekt for analyse.) Som Todorov konkluderer, fremstår Saussures arbeid spesielt homogent i dag i sin avvisning av å akseptere symbolske fenomener. . . . I sin forskning på anagrammer tar han kun hensyn til fenomenene repetisjon, ikke til evokasjon. . . . I sine studier av Nibelungen gjenkjenner han symboler bare for å tilskrive dem feillesninger: siden de ikke er tilsiktet, eksisterer ikke symboler. Til slutt i sine kurs om generell lingvistikk tenker han på eksistensen av semiologi, og dermed av andre tegn enn lingvistiske; men denne bekreftelsen er umiddelbart begrenset av det faktum at semiologi er viet til en enkelt type tegn: de som er vilkårlige. (269–70)

Hvis dette er sant, er det fordi Saussure ikke kunne tenke seg "intensjon" uten et subjekt; han kunne ikke helt unnslippe motsetningen mellom form og innhold. Arbeidet hans gjorde så mye tvil. I stedet tyr han til «språklig lovlighet». Plassert mellom på den ene siden 1800-tallets forestillinger om historie, subjektivitet og den kausale tolkningsmåten styrt av disse forestillingene, og på den andre siden 1900-tallets "strukturalistiske" forestillinger om det Lévi-Strauss kalte "kantianisme uten et transcendentalt subjekt" (sitert i Connerton 23) - forestillinger som sletter motsetningen mellom form og innhold (eller subjekt og objekt) og hierarkiet av forgrunn og bakgrunn i fullblåst strukturalisme, psykoanalyse og til og med kvantemekanikk - arbeidet til Ferdinand de Saussure i lingvistikk og semiotikk avgrenser et signalmoment i studiet av mening og kultur.

Ronald Schleifer

Vedlegg 2

Ferdinand de Saussure (oversettelse)

Den sveitsiske lingvisten Ferdinand de Saussure (1857-1913) regnes som grunnleggeren av moderne lingvistikk - takket være hans forsøk på å beskrive språkets struktur fremfor historie individuelle språk og ordformer. I det store og hele ble grunnlaget for strukturelle metoder innen lingvistikk og litteraturkritikk og i stor grad semiotikk lagt i verkene hans helt på begynnelsen av det tjuende århundre. Det er bevist at metodene og konseptene for såkalt "poststrukturalisme", utviklet i verkene til Jacques Derrida, Michel Foucault, Jacques Lacan, Julia Kristeva, Roland Barthes og andre, går tilbake til Saussures språklige verk og anagrammatiske lesninger av senromersk poesi. Det bør bemerkes at Saussures arbeid med lingvistikk og språktolkning bidrar til å bygge bro over et bredt spekter av intellektuelle disipliner, fra fysikk til litterær innovasjon, psykoanalyse og tidlig 1900-talls filosofi. A. J. Greimas og J. Courtet skriver i «Semiotics and Language»: «Den analytiske ordboken med tittelen «Interpretation» som en ny type tolkning dukket opp på begynnelsen av det tjuende århundre sammen med lingvistikken til Saussure, fenomenologien til Husserl og Husserl. psykoanalysen til Freud. I dette tilfellet er "tolkning ikke å tilskrive gitt innhold til en form som ellers ville mangle det; snarere er det en parafrase som på en annen måte formulerer det samme innholdet av et betydelig element innenfor et gitt semiotisk system" (159) . I denne forståelsen av «tolkning» er form og innhold uadskillelige; tvert imot er hver form gjennomsyret av semantisk mening ("meningsfull form"), så tolkningen tilbyr en ny, lignende gjenfortelling av noe vesentlig i et annet tegnsystem.

En lignende forståelse av form og innhold, presentert av Claude Lévi-Strauss i et av strukturalismens programmatiske verk, ("Structure and Form: Reflections on the Works of Vladimir Propp") kan sees i Saussures posthumt publiserte bok "A Course in Generell lingvistikk» (1916, overs., 1959, 1983). Saussure publiserte lite i løpet av sin levetid. I The Course ba Saussure om en "vitenskapelig" studie av språk, og kontrasterte det med den komparative historiske lingvistikken fra det nittende århundre. Dette verket kan betraktes som en av de største prestasjonene til vestlig tankegang: å ta utgangspunkt i individuelle ord som de strukturelle elementene i språket, beviste historisk (eller "diakronisk") lingvistikk opprinnelsen og utviklingen av vesteuropeiske språk fra et vanlig indo -Europeisk språk - og et tidligere proto-indoeuropeisk.

Det er nettopp denne studien av den unike forekomsten av ord, med den tilhørende antakelsen om at den grunnleggende "enheten" i språket faktisk er den positive eksistensen av disse "ordelementene" som Saussure stilte spørsmål ved. Arbeidet hans var et forsøk på å redusere de mange fakta om språk som hadde blitt tilfeldig studert komparativ lingvistikk, til et lite antall teoremer. Den komparative filologiske skolen på 1800-tallet, skriver Saussure, "lyktes ikke i å skape en virkelig skole for lingvistikk" fordi "den ikke forsto essensen av studieobjektet" (3). Denne «essensen», hevder han, ligger ikke bare i individuelle ord – de «positive substansene» i språket – men også i de formelle forbindelsene som hjelper disse substansene til å eksistere.

Saussures «test» av språk er basert på tre forutsetninger. For det første: den vitenskapelige forståelsen av språk er ikke basert på et historisk, men på et strukturelt fenomen. Derfor skilte han mellom individuelle fenomener i språket - "talehendelser", som han definerer som "parole" - og det riktige, etter hans mening, studieobjektet for lingvistikk, systemet (kode, struktur) som kontrollerer disse hendelsene (" språk"). En slik systematisk studie krever dessuten et "synkront" konsept av relasjonene mellom elementene i et språk i et gitt øyeblikk, snarere enn en "diakron" studie av utviklingen av et språk gjennom dets historie.

Denne hypotesen ble forløperen til det Roman Jakobson i 1929 ville kalle "strukturalisme" - en teori der "ethvert sett av fenomener studert av moderne vitenskap betraktes ikke som en mekanisk akkumulering, men som en strukturell helhet der den konstruktive komponenten er korrelert med funksjon" ("Romantisk " 711). I denne passasjen formulerte Jakobson Saussures idé om å definere språk som en struktur, i motsetning til den "maskiniske" oppregningen av historiske hendelser. I tillegg utvikler Jacobson en annen saussureansk antagelse, som ble forløperen til strukturell lingvistikk: de grunnleggende elementene i språket bør studeres ikke så mye med deres årsaker, men med deres funksjoner. Individuelle fenomener og hendelser (f.eks. historien om opprinnelsen til individuelle indoeuropeiske ord) bør ikke studeres på egen hånd, men i et system der de er korrelert med lignende komponenter. Dette var en radikal vending i sammenligningen av fenomener med den omgivende virkeligheten, hvis betydning ble sammenlignet av filosofen Ernst Cassirer med "vitenskapen om Galileo, som i det syttende århundre veltet ideer om den materielle verden." som Greimas og Kurte bemerker, endrer ideen om "tolkning", og følgelig begynte forklaringene i seg selv å bli tolket ikke i forhold til årsakene til deres forekomst, men i forhold til effekten de kan ha i nåtiden og fremtid har sluttet å være uavhengig av menneskelige intensjoner (til tross for at intensjoner kan være upersonlige, "ubevisste").

I sin lingvistikk viser Saussure spesielt denne vendingen i endringen i begrepet ordet i lingvistikken, som han definerer som et tegn og beskriver i form av dets funksjoner. For ham er et tegn en kombinasjon av lyd og mening, "signified and designation" (66-67; i den engelske oversettelsen av Roy Harris fra 1983 - "signification" og "signal"). Naturen til denne forbindelsen er "funksjonell" (verken det ene eller det andre elementet kan eksistere uten det andre); dessuten «låner den ene egenskaper fra den andre» (8). Dermed definerer Saussure det viktigste strukturelle elementet i språket - tegnet - og gjør det til grunnlaget historisk lingvistikk identiteten til tegn med ord, noe som krever en spesielt streng analyse. Derfor kan vi forstå forskjellige betydninger av for eksempel det samme ordet "tre" - ikke fordi ordet bare er et sett av visse kvaliteter, men fordi det er definert som et element i et tegnsystem, i en "strukturell helhet." i språket.

Dette relative («diakritiske») enhetsbegrepet ligger til grunn for begrepet om alle elementer i språket i strukturell lingvistikk. Dette er spesielt tydelig i den mest originale oppdagelsen av saussureansk lingvistikk, i utviklingen av begrepet "fonem" og "særtegn" ved språk. Fonemer er de minste uttalbare og meningsfulle enhetene i språket. De er ikke bare lyder som finnes i et språk, men «lydbilder», bemerker Saussure, som av morsmålsbrukere oppfattes som å ha mening. (Det skal bemerkes at Elmar Holenstein kaller Jakobsons lingvistikk, som viderefører Saussures ideer og begreper i henhold til hovedbestemmelsene, "fenomenologisk strukturalisme"). Dette er grunnen til at den ledende foredragsholderen for Praha-skolen for strukturalisme, Jan Mukarovsky, i 1937 observerte at «struktur. . . ikke et empirisk, men et fenomenologisk begrep; det er ikke resultatet i seg selv, men et sett av betydningsfulle relasjoner av kollektiv bevissthet (av en generasjon, andre, etc.).» En lignende idé ble uttrykt i 1960 av Lévi-Strauss, lederen av fransk strukturalisme: «Struktur har ikke noe bestemt innhold; den er meningsfull i seg selv, og den logiske strukturen den er inneholdt i er et avtrykk av virkeligheten.»

På sin side representerer fonemer, som de minste språklige elementene akseptable for persepsjon, en separat, integrert "fenomenologisk virkelighet". For eksempel på engelsk kan lyden "t" uttales på forskjellige måter, men i alle tilfeller vil en person som snakker engelsk oppfatte den som en "t". Uttales med aspirasjon, med høy eller lav stigning i tungen, vil en lang lyd "t" osv. like skille betydningen av ordene "å" og "gjøre". Dessuten er forskjellene mellom språk slik at varianter av en lyd på ett språk kan svare til forskjellige fonemer på et annet; for eksempel er "l" og "r" forskjellige på engelsk, mens de på andre språk er variasjoner av samme fonem (som det engelske "t", uttales aspirert og unaspirated). Det enorme vokabularet til ethvert naturlig språk er en samling kombinasjoner av et mye mindre antall fonemer. På engelsk, for eksempel, brukes bare 40 fonemer til å uttale og skrive omtrent en million ord.

Lydene til et språk representerer et systematisk organisert sett med funksjoner. I 1920-1930-årene, etter Saussure, identifiserte Jacobson og N.S. Trubetskoy de "særeegenskapene" til fonemer. Disse funksjonene er basert på strukturen til taleorganene - tunge, tenner, stemmebånd - Saussure bemerker dette i Course of General Linguistics, og Harris kaller det "fysiologisk fonetikk" (en tidligere oversettelse av Baskin bruker begrepet "fonologi" ) - de er koblet til "noder » Durg mot en venn for å lage lyder. Si, på engelsk, er forskjellen mellom "t" og "d" tilstedeværelsen eller fraværet av "stemme" (spenningen i stemmebåndene), og stemmenivået som skiller ett fonem fra et annet. Dermed kan fonologi betraktes som et eksempel på den generelle språklige maksimen beskrevet av Saussure: "I språket er det bare forskjeller." Det som er viktigere er ikke engang dette: forskjellen innebærer vanligvis de nøyaktige forholdene den ligger mellom; men i språket er det bare forskjeller uten presise betingelser. Enten vi vurderer "betydelig" eller "betegnet", er det ingen begreper eller lyder i språket som eksisterte før språksystemet utviklet seg.

I en slik struktur er språklige analogier ikke definert av deres iboende kvaliteter, men av systemiske ("strukturelle") forhold.

Jeg har allerede nevnt at fonologien i sin utvikling var basert på ideene til Saussure. Til tross for det faktum at hans analyse av språkfysiologi i vår tid, ifølge Harris, "ville bli kalt "fysisk", i motsetning til "psykologisk" eller "funksjonell", formulerte han i kurset tydelig retningen og grunnleggende prinsipper for det funksjonelle. analyse av språk. Hans eneste verk publisert i løpet av hans levetid, Mémoire sur le système primitif des voyelles dans les langues indo-européennes (Notater om det originale vokalsystemet til de indoeuropeiske språkene), utgitt i 1878, var helt i tråd med den komparative historiske lingvistikken til det 19. århundre. Likevel, med dette arbeidet, som Jonathan Culler sier, viste Saussure "fruktbarheten av ideen om språk som et system av sammenhengende fenomener, selv med dens historiske rekonstruksjon." Analysere forholdet mellom fonemer, forklare vokalvekslinger i moderne språk Indoeuropeisk gruppe, foreslo Saussure at i tillegg til flere forskjellige "a"-lyder, må det være andre fonemer som beskrives formelt. "Det som er spesielt imponerende med Saussures arbeid," konkluderer Culler, "er at nesten 50 år senere, med oppdagelsen og dechiffreringen av hettittisk kileskrift, ble det funnet et fonem, skrevet som "h", som oppførte seg slik Saussure forutså. Gjennom formell analyse oppdaget han det som nå er kjent som den glottale lyden på indoeuropeiske språk.

I konseptet med den relative (diakritiske) definisjonen av tegn, både eksplisitt uttrykt og underforstått i kurset, er det en tredje nøkkelantakelse av strukturell lingvistikk, kalt av Saussure "tegnets vilkårlige natur." Det som menes med dette er at forholdet mellom lyd og mening i språket er umotivert: man kan like gjerne koble ordet «arbre» og ordet «tre» med begrepet «tre». Dessuten betyr dette at lyden også er vilkårlig: du kan definere konseptet "tre" ved tilstedeværelsen av bark (bortsett fra palmetrær) og etter størrelse (bortsett fra "lave treplanter" - busker). Fra dette bør det være klart at alle antakelsene jeg presenterer ikke er delt inn i mer eller mindre viktige: hver av dem - den systematiske naturen til tegn (mest forståelig i den "synkrone" studien av språk), deres relative (diakritiske) essens, tegnenes vilkårlige natur - kommer fra resten.

I saussureansk lingvistikk blir fenomenet som studeres således forstått som et sett av sammenligninger og kontraster av språk. Språk er både uttrykk for betydningen av ord (betegnelse) og deres resultat (kommunikasjon) – og disse to funksjonene faller aldri sammen (se Shleifers «Dekonstruksjon av språk»). Vi kan legge merke til vekslingen av form og innhold som Greimas og Courtet beskriver i den nyeste versjonen av tolkningen: språklige kontraster definerer dens strukturelle enheter, og disse enhetene samhandler på suksessive nivåer for å skape et visst meningsfullt innhold. Siden elementene i språket er tilfeldige, kan verken kontrast eller kombinasjon være grunnlaget. Dette betyr at i et språk danner særtrekk fonetisk kontrast på et annet forståelsesnivå, fonemer kombineres til kontrasterende morfemer, morfemer til ord, ord til setninger, etc. I alle fall et helt fonem, ord, setning osv. er mer enn summen av delene (akkurat som vann, i Saussures eksempel, er mer enn kombinasjonen av hydrogen og oksygen).

Tre antakelser i løpet av generell lingvistikk førte Saussure til ideen om en ny vitenskap fra det tjuende århundre, atskilt fra lingvistikk, som studerte "tegns liv i samfunnet." Saussure kalte denne vitenskapen semiologi (fra det greske "semeîon" - tegn). "Vitenskapen" om semiotikk, som utviklet seg i Øst-Europa på 1920- og 1930-tallet og i Paris på 1950- og 1960-tallet, utvidet studiet av språk og språklige strukturer til litterære funn komponert (eller formulert) ved hjelp av disse strukturene. Også sent i karrieren, parallelt med kurset i generell lingvistikk, foretok Saussure en "semiotisk" analyse av sen romersk poesi, og forsøkte å oppdage bevisst komponerte anagrammer av egennavn. Denne metoden var på mange måter det motsatte av rasjonalisme i dens språklige analyse: det var et forsøk, som Saussure skriver i en av sine 99 notatbøker, å studere i et system problemet med "sannsynlighet", som "blir grunnlaget for alt. ” Slik forskning, som Saussure selv hevder, bidrar til å fokusere på den «materielle siden» av sannsynlighet; «Nøkkelordet», et anagram som Saussure leter etter, som Jean Starobinsky hevder, «er et verktøy for dikteren, og ikke diktets kilde til liv. Diktet tjener til å snu lydene til nøkkelordet.» I følge Starobinsky, i denne analysen "graver Saussure ikke i søket etter skjulte betydninger." Tvert imot er det i verkene hans et merkbart ønske om å unngå spørsmål knyttet til bevissthet: «siden poesi ikke bare uttrykkes i ord, men også i det disse ordene genererer, går den utenfor bevissthetens kontroll og avhenger bare av lovene. av språk.»

Saussures forsøk på å studere egennavn i senromersk poesi (Tsvetan Todorov kalte det en sammentrekning av «ordet... like før det skrives») understreker en av komponentene i hans språklige analyse – tegnenes vilkårlige natur, samt den formelle essensen av saussureansk lingvistikk ("Språk," hevder han, "essensen er form, ikke fenomen"), som utelukker muligheten for å analysere mening. Todorov konkluderer med at Saussures skrifter i dag virker bemerkelsesverdig konsistente i deres motvilje mot å studere symboler [fenomener som har en klart definert betydning]. . . . Når han studerer anagrammer, legger Saussure kun hensyn til repetisjon, men ikke til tidligere varianter. . . . Ved å studere Nibelungenlied identifiserer han symboler bare for å tilordne dem til feilavlesninger: hvis de er utilsiktede, eksisterer ikke symboler. Tross alt antyder han i sine skrifter om generell lingvistikk eksistensen av en semiologi som beskriver mer enn bare lingvistiske tegn; men denne antagelsen er begrenset av det faktum at semilogi bare kan beskrive tilfeldige, vilkårlige tegn.

Hvis dette virkelig er tilfelle, er det bare fordi han ikke kunne forestille seg "intensjon" uten et objekt; han klarte ikke helt å overvinne gapet mellom form og innhold – i verkene hans ble dette til et spørsmål. I stedet appellerte han til «språklig lovlighet». Plassert mellom på den ene siden 1800-tallets begreper basert på historie og subjektiv formodning, og metodene for betinget tolkning basert på disse begrepene, og på den annen side strukturalistiske begreper, som Lévi-Strauss kalte "Kantianisme uten transcendental". agent» - utvisking av motsetningen mellom form og innhold (subjekt og objekt), mening og opphav i strukturalisme, psykoanalyse og til og med kvantemekanikk - Ferlinand de Saussures arbeider om lingvistikk og semiotikk markerer et vendepunkt i studiet av mening i språk og kultur.

Ronald Shleifer

Litteratur

1. Admoni V.G. Grunnleggende om teorien om grammatikk / V.G. Admony; USSR Academy of Sciences.-M.: Nauka, 1964.-104s.

4. Arnold I.V. Semantisk struktur av et ord på moderne engelsk og metoder for dets forskning. /I.V. Arnold – L.: Education, 1966. – 187 s.

6. Bashlykov A.M. Automatisert oversettelsessystem. / A.M. Bashlykov, A.A. Sokolov. – M.: LLC “FIMA”, 1997. – 20 s.

7. Baudouin de Courtenay: Teoretisk arv og modernitet: Sammendrag av rapporter fra den internasjonale vitenskapelige konferansen / Ed. Kondratieva. – Kazan: KSU, 1995. – 224 s.

8. Gladky A.V., Elementer i matematisk lingvistikk. / . Gladky A.V., Melchuk I.A. – M., 1969. – 198 s.

9. Golovin, B.N. Språk og statistikk. /B.N. Golovin – M., 1971. – 210 s.

10. Zvegintsev, V.A. Teoretisk og anvendt lingvistikk. / V.A. Zvegintsev – M., 1969. – 143 s.

11. Kasevich, V.B. Semantikk. Syntaks. Morfologi. // V.B. Kasevich – M., 1988. – 292 s.

12. Lekomtsev Yu.K. Introduksjon til lingvistikkens formelle språk / Yu.K. Lekomtsev. – M.: Nauka, 1983, 204 s., ill.

13. Lingvistisk arv til Baudouin de Courtenay på slutten av det tjuende århundre: Sammendrag av rapporter fra den internasjonale vitenskapelige og praktiske konferansen 15.-18. mars 2000. – Krasnoyarsk, 2000. – 125 s.

Matveeva G.G. Skjulte grammatiske betydninger og identifikasjon av den sosiale personen («portrett») til taleren / G.G. Matveeva. – Rostov, 1999. – 174 s.

14. Melchuk, I.A. Erfaring med å konstruere språklige modeller "Meaning"<-->Tekst."/ I.A. Melchuk. - M., 1974. - 145 s.

15. Nelyubin L.L. Oversettelse og anvendt lingvistikk/L.L. Nelyubin. – M.: Høyere skole, 1983. – 207 s.

16. Om eksakte metoder for språkforskning: om den såkalte "matematiske lingvistikken" / O.S. Akhmanova, I.A. Melchuk, E.V. Paducheva et al. – M., 1961. – 162 s.

17. Piotrovsky L.G. Matematisk lingvistikk: Lærebok / L.G. Piotrovsky, K.B. Bektaev, A.A. Piotrovskaya. – M.: Høyere skole, 1977. – 160 s.

18. Samme. Tekst, maskin, mann. – L., 1975. – 213 s.

19. Samme. Anvendt lingvistikk / Red. A.S. Gerda. – L., 1986. – 176 s.

20. Revzin, I.I. Modeller av språk. M., 1963. Revzin, I.I. Moderne strukturell lingvistikk. Problemer og metoder. M., 1977. – 239 s.

21. Revzin, I.I., Rosenzweig, V.Yu. Fundamentals of general and machine translation/Revzin I.I., Rosenzweig, V.Yu. – M., 1964. – 401 s.

22. Slyusareva N.A. Teorien til F. de Saussure i lys av moderne lingvistikk / N.A. Slyusareva. – M.: Nauka, 1975. – 156 s.

23. Ugle, L.Z. Analytisk lingvistikk/ L.Z. Ugle - M., 1970. - 192 s.

24. Saussure F. de. Notater om generell lingvistikk / F. de Saussure; Per. fra fr. – M.: Fremskritt, 2000. – 187 s.

25. Samme. Kurs i generell lingvistikk / Transl. fra fr. – Jekaterinburg, 1999. –426 s.

26. Talestatistikk og automatisk analyse tekst / svar. utg. R.G. Piotrovsky. L., 1980. – 223 s.

27. Stoll, P. Setter. Logikk. Aksiomatiske teorier./ R. Stoll; Per. fra engelsk – M., 1968. – 180 s.

28. Tenier, L. Fundamentals of strukturell syntaks. M., 1988.

29. Ubin I.I. Automatisering av oversettelsesaktiviteter i USSR / I.I. Ubin, L.Yu. Korostelev, B.D. Tikhomirov. – M., 1989. – 28 s.

30. Faure, R., Kofman, A., Denis-Papin, M. Moderne matematikk. M., 1966.

31. Schenk, R. Konseptuell informasjonsbehandling. M., 1980.

32. Shikhanovich, Yu.A. Introduksjon til moderne matematikk (begynnende begreper). M., 1965

33. Shcherba L.V. Russiske vokaler i kvalitative og kvantitative termer / L.V. Shcherba - L.: Nauka, 1983. - 159 s.

34. Abdulla-zade F. Verdensborger // Ogonyok - 1996. - Nr. 5. – S.13

35. V.A. Uspensky. Forord for lesere av New Literary Review til de semiotiske meldingene til Andrei Nikolaevich Kolmogorov. – Ny litteraturanmeldelse. –1997. – nr. 24. – S. 18-23

36. Perlovsky L. Bevissthet, språk og kultur. - Kunnskap er makt. –2000. nr. 4 – s. 20-33

37. Frumkina R.M. Om oss - på skrå. //Russisk tidsskrift. – 2000. – Nr. 1. – S. 12

38. Fitialov, S.Ya. Om modellering av syntaks i strukturell lingvistikk // Problemer med strukturell lingvistikk. M., 1962.

39. Samme. Om ekvivalensen av NS-grammatikk og avhengighetsgrammatikk // Problemer med strukturell lingvistikk. M., 1967.

40. Chomsky, N. Logiske grunnlag for lingvistisk teori // Nytt i lingvistikk. Vol. 4. M., 1965

41. Schleifer R. Ferdinand de Saussure // press. jhu.ru

42. www.krugosvet.ru

43. www.lenta.ru

45.trykk. jhu.ru

46.ru.wikipedia.org