Взаимодействие математики и языкознания
Введение
Глава 1. История применения математических методов в лингвистике
1.1. Становление структурной лингвистики на рубеже XIX – ХХ веков
1.2. Применение математических методов в лингвистике во второй половине ХХ века
Глава 2. Отдельные примеры использования математики в лингвистике
2.1. Машинный перевод
2.2.Статистические методы в изучении языка
2.3. Изучение языка методами формальной логики
2.4. Перспективы применения математических методов в лингвистике
Заключение
Литература
Приложение 1. Ronald Schleifer. Ferdinand de Saussure
Приложение 2. Фердинанд де Соссюр (перевод)
Введение
В ХХ веке наметилась продолжающаяся и поныне тенденция к взаимодействию и взаимопроникновению различных областей знаний. Постепенно стираются грани между отдельными науками; появляется всё больше отраслей умственной деятельности, находящихся «на стыке» гуманитарного, технического и естественнонаучного знания.
Другая очевидная особенность современности – стремление к изучению структур и составляющих их элементов. Поэтому всё большее место как в научной теории, так и на практике уделяется математике. Соприкасаясь, с одной стороны, с логикой и философией, с другой стороны, со статистикой (а, следовательно, и с общественными науками), математика всё глубже проникает в те сферы, которые на протяжении долгого времени было принято считать чисто «гуманитарными», расширяя их эвристический потенциал (ответ на вопрос «сколько» часто помоагет ответить и на вопросы «что» и «как). Исключением не стало и языкознание.
Цель моей курсовой работы – кратко осветить связь математики с такой отраслью языкознания, как лингвистика. Начиная с 50-х годов прошлого века, математика применяется в лингвистике при создании теоретического аппарата для описания строения языков (как естественных, так и искусственных). Однако следует сказать, что она не сразу нашла себе подобное практическое применение. Первоначально математические методы в лингвистике стали использоваться для того, чтобы уточнить основные понятия языкознания, однако с развитием компьютерной техники подобная теоретическая посылка стала находить применение на практике. Разрешение таких задач, как машинный перевод, машинный поиск информации, автоматическая обработка текста требовало принципиально нового подхода к языку. Перед лингвистами назрел вопрос: как научиться представлять языковые закономерности в том виде, в котором их можно подавать непосредственно на технику. Популярным в наше время термином «математическая лингвистика» называют любые лингвистические исследования, в которых применяются точные методы (а понятие точных методов в науке всегда тесно связано с математикой). Некоторые учёные прошлых лет, считают, что само выражение нельзя возводить в ранг термина, так как оно обозначает не какую-то особую «лингвистику», а лишь новое направление, ориентированное на усовершенствование, повышение точности и надёжности методов исследования языка. В лингвистике используются как количественные (алгебраические), так и неколичественные методы, что сближает её с математической логикой, а, следовательно, и с философией, и даже с психологией. Ещё Шлегель отмечал взаимодействие языка и сознания, а видный лингвист начала ХХ века Фердинанд де Соссюр (о его влиянии на становление математических методов в лингвистике расскажу позже) связывал структуру языка с его принадлежностью к народу. Современный исследователь Л. Перловский идёт дальше, отождествляя количественные характеристики языка (например, число родов, падежей) с особенностями национального менталитета (об этом в разделе 2.2, «Статистические методы в лингвистике»).
Взаимодействие математики и языкознания – тема многогранная, и в своей работе я остановлюсь не на всех, а, в первую очередь, на её прикладных аспектах.
Глава I. История применения математических методов в лингвистике
1.1 Становление структурной лингвистики на рубеже XIX – ХХ веков
Математическое описание языка основано на представлении о языке как о механизме, восходящем к известному швейцарскому лингвисту начала ХХ века Фердинанду де Соссюру.
Начальное звено его концепции – теория языка как системы, cостоящей из трёх частей (собственно язык – langue, речь – parole, и речевую деятельность – langage), в которой каждое слово (член системы) рассматривается не само по себе, а в связи с другими членами. Как впоследствии отметил другой видный лингвист, датчанин Луи Ельмслев, Соссюр «первый требовал структурного подхода к языку, то есть научного описания языка путём регистрации соотношений между единицами» .
Понимая язык как иерархическую структуру, Соссюр первым поставил проблему ценности, значимости языковых единиц. Отдельные явления и события (скажем, история происхождения отдельных индоевропейских слов) должны изучаться не сами по себе, а в системе, в которой они соотнесены с подобными же составляющими.
Структурной единицей языка Соссюр считал слово, «знак», в котором соединялись звучание и смысл. Ни один из этих элементов не существует друг без друга: поэтому носителю языка понятны различные оттенки значения многозначного слова как отдельного элемента в структурном целом, в языке.
Таким образом, в теории Ф. де Соссюра можно увидеть взаимодействие лингвистики, с одной стороны, с социологией и социальной психологией (следует отметить, что в это же время развиваются феноменология Гуссерля, психоанализ Фрейда, теория относительности Эйнштейна, происходят эксперименты над формой и содержанием в литературе, музыке и изобразительном искусстве), с другой стороны – с математикой (понятие системности соответствует алгебраической концепции языка). Подобная концепция изменила понятие языковой интерпретации как таковой: Явления стали трактоваться не относительно причин их возникновения, а относительно настоящего и будущего. Толкование перестало быть независимым от намерений человека (несмотря на то, что намерения могут быть безличными, «бессознательными» во фрейдистском понимании этого слова).
Функционирование же языкового механизма проявляется через речевую деятельность носителей языка. Результатом речи являются так называемые «правильные тексты» – последовательности речевых единиц, подчиняющиеся определённым закономерностям, многие из которых допускают математическое описание. Изучением способов математического описания правильных текстов (в первую очередь, предложений) занимается теория способов описания синтаксической структуры. В подобной структуре языковые аналогии определены не с помощью изначально присущих им качеств, а с помощью системных («структурных») отношений.
На Западе соссюровские идеи развивают младшие современники великого швейцарского лингвиста: в Дании – уже упомянутый мною Л. Ельмслев, давший начало алгебраической теории языка в своём труде «Основы лингвистической теории», в США – Э. Сепир, Л. Блумфилд, Ц. Харрис, в Чехии – русский учёный-эмигрант Н. Трубецкой.
Статистическими же закономерностями в изучении языка стал заниматься не кто иной, как основоположник генетики Георг Мендель. Только в 1968 году филологи обнаружили, что, оказывается, в последние годы жизни он был увлечен изучением лингвистических явлений с помощью методов математики. Этот метод Мендель привнёс в лингвистику из биологии; в девяностые годы девятнадцатого века лишь самые смелые лингвисты и биологи заявляли о целесообразности подобного анализа. В архиве монастыря св. Томаша в г. Брно, аббатом которого был Мендель, были найдены листки со столбцами фамилий, оканчивающимися на «mann», «bauer», «mayer», и с какими-то дробями и вычислениями. Стремясь обнаружить формальные законы происхождения фамильных имен, Мендель производит сложные подсчеты, в которых учитывает количество гласных и согласных в немецком языке, общее число рассматриваемых им слов, количество фамилий и т.д.
В нашей стране структурная лингвистика начала развиваться примерно в то же время, что и на Западе – на рубеже XIX-XX веков. Одновременно с Ф. де Соссюром понятие языка как системы разрабатывали в своих трудах профессора Казанского университета Ф.Ф. Фортунатов и И.А. Бодуэн де Куртенэ. Последний на протяжении долгого времени переписывался с де Соссюром, соответственно, женевская и казанская школы языкознания сотрудничали друг с другом. Если Соссюра можно назвать идеологом «точных» методов в лингвистике, то Бодуэн де Куртенэ заложил практические основы их применения. Он первым отделил лингвистику (как точную науку, использующую статистические методы и функциональную зависимость) от филологии (общности гуманитарных дисциплин, изучающих духовную культуру через язык и речь). Сам учёный считал, что «языкознание может принести пользу в ближайшем будущем, лишь освободившись от обязательного союза с филологией и историей литературы» . «Испытательным полигоном» для внедрения математических методов в лингвистику стала фонология – звуки как «атомы» языковой системы, обладающие ограниченным количеством легко измеримых свойств, были самым удобным материалом для формальных, строгих методов описания. Фонология отрицает наличие смысла у звука, так что в исследованиях устранялся «человеческий» фактор. В этом смысле фонемы подобны физическим или биологическим объектам.
Фонемы, как самые мелкие языковые элементы, приемлемые для восприятия, представляют собой отдельную сферу, отдельную «феноменологическую реальность». Например, в английском языке звук «т» может произноситься по-разному, но во всех случаях человек, владеющий английским, будет воспринимать его как «т». Главное, что фонема будет выполнять свою главную – смыслоразличительную – функцию. Более того – различия между языками таковы, что разновидности одного звука в одном языке могут соответствовать разным фонемам в другом; например «л» и «р» в английском различны, в то время как в других языках это разновидности одной фонемы (подобно английскому «т», произнесённому с придыханием или без). Обширный словарный запас любого естественного языка представляет собой набор сочетаний гораздо меньшего количества фонем. В английском, например, для произнесения и написания около миллиона слов используется всего 40 фонем.
Звуки языка представляют собой системно организованный набор черт. В 1920е –1930е, вслед за Соссюром, Якобсон и Н.С.Трубецкой выделили «отличительные черты» фонем. Эти черты основаны на строении органов речи – языка, зубов, голосовых связок. Скажем, в английском разница между «т» и «д» заключается в наличии или отсутствии «голоса» (напряжении голосовых связок) и в уровне голоса, отличающем одну фонему от другой. Таким образом, фонологию можно считать примером общего языкового правила, описанного Соссюром: «В языке есть только различия» . Более важно даже не это: различие обычно подразумевает точные условия, между которыми оно и находится; но в языке существуют только различия без точных условий. Рассматриваем ли мы «обозначение» или «обозначаемое» – в языке не существует ни понятий, ни звуков, которые существовали бы до того, как развилась языковая система.
Таким образом, в соссюровском языкознании изучаемый феномен понимается как свод сопоставлений и противопоставлений языка. Язык – это и выражение значения слов, и средство общения, причём эти две функции никогда не совпадают. Мы можем заметить чередование формы и содержания: языковые контрасты определяют его структурные единицы, и эти единицы взаимодействуют, чтобы создать определённое значимое содержание. Так как элементы языка случайны, ни контраст, ни сочетание не могут быть основой. Значит, в языке отличительные признаки формируют фонетический контраст на другом уровне понимания, фонемы соединяются в морфемы, морфемы – в слова, слова – в предложения и т.д. В любом случае, целая фонема, слово, предложение и т.д. представляет собой нечто большее, чем просто сумма составляющих.
Соссюр предложил идею новой науки двадцатого века, отдельно от лингвистики изучающей роль знаков в обществе. Соссюр назвал эту науку семиологией (от греческого «semeоon» - знак). «Наука» семиотики, развивавшаяся в Восточной Европе в 1920е –1930е и в Париже в 1950е – 1960е, расширила изучение языка и лингвистических структур до литературных находок, составленных (или сформулированных) с помощью этих структур. Кроме того, на закате своей карьеры, параллельно совему курсу общей лингвистики, Соссюр занялся «семиотическим» анализом поздней римской поэзии, пытаясь открыть умышленно составленные анаграммы имён собственных. Этот метод был во многом противоположен рационализму в его лингвистическом анализе: он был попыткой, изучить в системе проблему «вероятности» в языке. Такое исследование помогает сосредоточиться на «вещественной стороне» вероятности; «ключевое слово», анаграмму которого ищет Соссюр, как утверждает Жан Старобинский, «инструмент для поэта, а не источник жизни стихотворения». Стихотворение служит для того, чтобы поменять местами звуки ключевого слова. По словам Старобинского, в этом анализе «Соссюр не углубляется в поиски скрытых смыслов». Напротив, в его работах заметно желание избежать вопросов, связанных с сознанием: «так как поэзия выражается не только в словах, но и в том, что порождают эти слова, она выходит из-под контроля сознания и зависит только от законов языка» (cм. Приложение 1).
Попытка Соссюра изучить имена собственные в поздней римской поэзии подчёркивает одну из составляющих его лингвистического анализа – произвольную природу знаков, а также формальную сущность соссюровской лингвистики, что исключает возможность анализа смысла. Тодоров делает вывод, что в наши дни труды Соссюра выглядят на редкость последовательными в нежелании изучать символы явления, имеющие чётко определённое значение [Приложение 1]. Исследуя анаграммы, Соссюр обращает внимание только на повторение, но не на предшествующие варианты. . . . Изучая «Песнь о Нибелунгах», он определяет символы только для того, чтобы присвоить их ошибочным чтениям: если они неумышленны, символов не существует. В конце концов, в своих трудах по общей лингвистике он делает предположение о существовании семиологии, описывающей не только лингвистические знаки; но это предположение ограничивается тем, что семиoлогия может описывать только случайные, произвольные знаки.
Раз это действительно так, то только потому, что не мог представить «намерение» без предмета; он не мог до конца преодолеть пропасть между формой и содержанием – в его трудах это превращалось в вопрос. Вместо этого он обращался к «языковой законности». Находясь между, с одной стороны, концепциями девятнадцатого века, основанными на истории и субъективных догадках, и методах случайной интерпретации, основанных на этих концепциях, и, с другой стороны, структуралистскими концепциями, стирающими противостояние между формой и содержанием (субъектом и объектом), значением и происхождением в структурализме, психоанализе и даже квантовой механике – труды Фердинанда де Соссюра по лингвистике и семиотике обозначают поворотный момент в изучении значений в языке и культуре.
Русские учёные были представлены и на Первом международном конгрессе лингвистов в Гааге в 1928 году. С. Карцевский, Р. Якобсон и Н. Трубецкой выступили с докладом, в котором рассматривалась иерархическая структура языка – в духе самых современных для начала прошлого века представлений. Якобсон в своих трудах развивал идеи Соссюра о том, что базовые элементы языка должны изучаться, в первую очередь, в связи со своими функциями, а не с причинами их возникновения.
К сожалению, после прихода в 1924 году к власти Сталина отечественное языкознание, как и многие другие науки, отбрасывает назад. Многие талантливые учёные вынуждены были эмигрировать, были высланы из страны или погибли в лагерях. Только с середины 1950-х годов стал возможен некоторый плюрализм теорий – об этом в разделе 1.2.
1.2 Применение математических методов в лингвистике во второй половине ХХ века
К середине ХХ века сформировалось четыре мировых лингвистических школы, каждая из которых оказалась родоначальником определённого «точного» метода. Ленинградская фонологическая школа (её родоначальником был ученик Бодуэна де Куртенэ Л.В. Щерба) использовала в качестве основного критерия обобщения звука в виде фонемы психолингвистический эксперимент, основанный на анализе речи носителей языка.
Учёные Пражского лингвистического кружка, в частности – его основатель Н.С. Трубецкой, эмигрировавший из России, разработали теорию оппозиций – семантическая структура языка была описана ими как набор оппозитивно постороенных семантических единиц – сем. Эта теория применялась в изучении не только языка, но и художественной культуры.
Идеологами американского дескриптивизма были языковеды Л. Блумфилд и Э. Сепир. Язык представлялся дескриптивистам в виде совокупности речевых высказываний, которые и были главным объектом их исследования. В центре их внимания оказались правила научного описания (отсюда название) текстов: изучение организации, аранжировка и классификация их элементов. Формализация аналитических процедур в области фонологии и морфологии (разработка принципов исследования языка на разных уровнях, дистрибутивного анализа, метода непосредственно составляющих и т.д.) привела к постановке общих вопросов лингвистического моделирования. Невнимание к плану содержания языка, а также парадигматической стороне языка не позволило дескриптивистам достаточно полно интерпретировать язык как систему.
В 1960-х годах развивается теория формальных грамматик, возникшая, главным образом, благодаря работам американского философа и лингвиста Н. Хомского. Он по праву считается одним из наиболее известных современных учёных и общественных деятелей, ему посвящено множество статей, монографий и даже полнометражный документальный фильм. По имени принципиально нового способа описания синтаксической структуры, изобретённого Хомским – генеративной (порождающей) грамматики – соответствующее течение в лингвистике получило название генеративизма.
Хомский, потомок выходцев из России, с 1945 года изучал в Пенсильванском университете лингвистику, математику и философию, находясь под сильным влиянием своего учителя Зелига Хэрриса – как и Хэррис, Хомский считал и считает свои политические взгляды близкими к анархизму (до сих пор он известен как критик существующего политического строя США и как один из духовных лидеров антиглобализма).
Первая крупная научная работа Хомского, магистерская диссертация «Морфология современного иврита» (1951), так и осталась неопубликованной. Докторскую степень Хомский получил в Пенсильванском университете в 1955, однако большая часть исследований, положенных в основу диссертации (полностью опубликованной только в 1975 под названием «Логическая структура лингвистической теории») и его первой монографии «Синтаксические структуры» (Syntactic Structures, 1957, рус. пер. 1962), была выполнена в Гарвардском университете в 1951–1955. В том же 1955 ученый перешел в Массачусетский технологический институт, профессором которого он стал в 1962.
В своём развитии теория Хомского прошла несколько этапов.
В первой монографии «Синтактические структуры» учёный представил язык как механизмепорождения бесконечного множества предложений с помощью конечного набора грамматических средств. Для описания языковых свойств он предложил понятия глубинной (скрытой от непосредственного восприятия и порождаемой системой рекурсивных, т.е. могущих применяться многократно, правил) и поверхностной (непосредственно воспринимаемой) грамматических структур, а также трансформаций, описывающих переход от глубинных структур к поверхностным. Одной глубинной структуре могут соответствовать несколько поверхностных (например, пассивная конструкция Указ подписывается президентом выводится из той же глубинной структуры, что и активная конструкция Президент подписывает указ) и наоборот (так, неоднозначность Мать любит дочь описывается как результат совпадения поверхностных структур, восходящих к двум различным глубинным, в одной из которых мать – та, кто любит дочь, а в другой – та, кого любит дочь).
Стандартной теорией Хомского считается модель «Аспектов», изложенная в книге Хомского «Аспекты теории синтаксиса». В этой модели в формальную теорию впервые вводились правила семантической интерпретации, приписывающих значение глубинным структурам. В «Аспектах» языковая компетенция противопоставлена употреблению языка (performance), принята так называемая гипотеза Катца – Постала о сохранении смысла при трансформации, в связи с чем исключено понятие факультативной трансформации, а также введен аппарат синтаксических признаков, описывающих лексическую сочетаемость.
В 1970-е Хомский работает над теорией управления и связывания (GB-теория – от слов government и binding) – более общей, нежели предыдущая. В ней учёный отказался от специфических правил, описывающих синтаксические структуры конкретных языков. Все трансформации были заменены одной универсальной трансформацией перемещения. В рамках GB-теории существуют и частные модули, каждый из которых отвечает за свою часть грамматики.
Уже недавно, в 1995 году, Хомский выдвинул минималистскую программу, где человеческий язык описывается подобно машинному. Это лишь программа – не модель и не теория. В ней Хомский выделяет две главных подсистемы языкового аппарата человека: лексикон и вычислительную систему, а также два интерфейса – фонетический и логический.
Формальные грамматики Хомского стали классическими для описания не только естественных, но и искусственных языков – в частности, языков программирования. Развитие структурной лингвистики во второй половине ХХ века можно по праву считать «хомскианской революцией».
Московская фонологическая школа, представителями которой были А.А. Реформатский, В.Н. Сидоров, П.С. Кузнецов, А.М. Сухотин, Р.И. Аванесов, использовала подобную же теорию для изучения фонетики. Постепенно «точные» методы начинают применяться касаемо не только фонетики, но и синтаксиса. Структурностью языка начинают заниматься и лингвисты, и математики – как у нас, так и за рубежом. В 1950-60е в СССР начинается новый этап во взаимодействии математики и лингвистики, связанный с разработкой систем машинного перевода.
Толчком к началу этих работ в нашей стране послужили первые разработки в области машинного перевода в США (хотя первое механизированное переводное устройство П.П. Смирнова-Троянского было изобретено в CCCР ещё в 1933 году, оно, будучи примитивным, не получило распространения). В 1947 году А.Бутт и Д. Бриттен придумали код для пословного перевода с помощью ЭВМ, годом позже Р.Риченс предложил правило разбиения слов на основу и окончание при машинном переводе. В те годы довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений – новое в математике, физике и технике служило, в первую очередь, военному делу. На ранних этапах разработка МП активно поддерживалась военными, при этом (в условиях «холодной войны») в США развивалось русско-английское направление, а в СССР - англо-русское.
В январе 1954 года в Массачусетском техническом университете состоялся «Джорджтаунский эксперимент»– первая публичная демонстрация перевода с русского языка на английский на машине ИБМ-701. Реферат сообщения об удачном прохождении эксперимента, сделанный Д.Ю. Пановым, появился в РЖ «Математика», 1954, №10: «Перевод с одного языка на другой при помощи машины: отчёт о первом успешном испытании».
К работам по машинному переводу Д. Ю. Панов (в то время директор Института научной информации – ИНИ, позднее ВИНИТИ) привлёк И. К. Бельскую, которая позднее возглавит группу машинного перевода в Институте точной математики и вычислительной техники АН СССР. К концу 1955 года относится первый опыт перевода с английского языка на русский при помощи машины БЭСМ. Программы для БЭСМ составляли Н.П. Трифонов и Л.Н. Королёв, кандидатская диссертация которого была посвящена методам построения словарей для машинного перевода.
Параллельно работы по машинному переводу велись в Отделении прикладной математики Математического института АН СССР (сейчас Институт прикладной математики имени М.В. Келдыша РАН). По инициативе математика А.А. Ляпунова. К работам по переводу текстов на машине «Стрела» с французского языка на русский он привлёк аспирантку МИАН О.С. Кулагину и своих учениц Т.Д. Вентцель и Н.Н. Рикко. Представления Ляпунова и Кулагиной о возможности использования техники для перевода с одного языка на другой были опубликованы в журнале «Природа», 1955, №8. С конца 1955 года к ним присоединилась Т.Н. Молошная, затем приступившая к самостоятельной работе над алгоритмом англо-русского перевода.
Р.Фрумкина , занимавшаяся в то время алогритмом перевода с испанского, вспоминает, что на этом этапе работ сложно было делать какие-то последовательные шаги. Гораздо чаще приходилось следовать эвристическому опыту – своему или коллег.
Однако первое поколение систем машинного перевода было весьма несовершенным. Все они базировались на алгоритмах последовательного перевода «слово за словом», «фраза за фразой» – смысловые связи между словами и предложениями никак не учитывались. Для примера можно привести предложения: «John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив.)». «Pen» в данном контексте – не «ручка» (инструмент для письма), а «детский манеж» (play-pen). Знание синонимов, антониов и переносных значений сложно вводить в компьютер. Перспективным направлением становилась разработка машинных систем, ориентированных на использование человеком-переводчиком.
Со временем на смену системам прямого перевода пришли Т-системы (от английского слова «transfer» – преобразование), в которых перевод осуществлялся на уровне синтаксических структур. В алгоритмах Т-систем использовался механизм, позволяющий построить синтаксическую структуру по правилам грамматики языка входного предложения (подобно тому, как учат иностранному языку в средней школе), а затем синтезировать выходное предложение, преобразуя синтаксическую структуру и подставляя из словаря нужные слова.
Ляпунов говорил о переводе путём извлечения смысла переводимого текста и его представления на другом языке. Подход к построению систем машинного перевода, основанный на получении смыслового представления входного предложения путём его семантического анализа и синтеза входного предложения по полученному смысловому представлению, до сих пор считается наиболее совершенным. Такие системы называют И-системами (от слова «интерлингва»). Однако задача по их созданию, поставленная ещё в конце 50-х – начале 60-х, не решена полностью до сих пор, несмотря на усилия Международной федерации IFIP – мирового сообщества учёных в области обработки информации.
Учёные задумались над тем, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе. Такими представлениями традиционная лингвистика не располагала – не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозмаеняемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких составляющих элементов.
Потребность в создании теоретических основ машинного перевода и привела к формированию и развитию математической лингвистики. Ведущую роль в этом деле в СССР сыграли математики А.А. Ляпунов, О.С. Кулагина, В.А. Успенский, лингвисты В.Ю. Розенцвейг, П.С. Кузнецов, Р.М. Фрумкина, А.А. Реформатский, И.А. Мельчук, В.В. Иванов. Диссертация Кулагиной была посвящена исследованию формальной теории грамматик (одновременно с Н.Хомским в США), Кузнецов выдвинул задачу аксиоматизации лингвистики, восходящую к работам Ф.Ф. Фортунатова.
6 мая 1960 года было принято Постановление Президиума АН СССР «О развитии структурных и математических методов исследования языка», в Институте языкознания и Институте русского языка были созданы соответствующие подразделения. С 1960 года в ведущих гуманитарных вузах страны – филологическом факультете МГУ, Ленинрадском, Новосибирском университетах, МГПИИЯ – началась подготовка кадров в области автоматической обработки текста.
Однако работы по машинному переводу этого периода, называемого «классическим», представляют собой скорее теоретический, нежели практический интерес. Экономически эффективные системы машинного перевода стали создаваться только в восьмидесятые годы прошлого века. Об этом я расскажу позже, в разделе 2.1, «Машинный перевод».
К 1960-м – 70-м годам относятся глубокие теоретические разработки, использующие методы теории множеств и математической логики, такие, как теория поля и теория нечётких множеств.
Автором теории поля в лингвистике был советский поэт, переводчик и лингвист В.Г. Адмони. Свою теорию он изначально разрабатывал на основе немецкого языка. У Адмони понятие «поле» обозначает произвольное непустое множество языковых элементов (например, «лексическое поле», «семантическое поле»).
Структура поля неоднородна: оно состоит из ядра, элементы которого обладают полным набором признаков, определяющих множество, и периферии, элементы которой могут обладать как признаками данного множества (не всеми), так и соседних. Приведу пример, иллюстрирующий данное высказывание: скажем, в английском языке поле сложных слов («day-dream» – «мечтать» трудноотделимо от поля словосочетаний («tear gas» – «слезоточивый газ»).
С теорией поля тесно связана уже упомянутая выше теория нечётких множеств. В СССР её обоснованием занимались лингвисты В.Г. Адмони, И.П. Иванова, Г.Г. Поченцов, однако её родоначальником был американский математик Л.Заде, в 1965 году выпустивший статью «Fuzzy Logic». Давая математическое обоснование теории нечётких множеств, Заде рассматривал их на лингвистическом материале.
В этой теории речь идёт уже не столько о принадлежности элементов к данному множеству (АОа), сколько о степени этой принадлежности (mАОа), так как периферийные элементы могут в той или иной мере принадлежать нескольким полям. Заде (Лофти-заде) был выходцем из Азербайджана, до 12 лет имел практику общения на четырех языках - азербайджанском, русском, английском и персидском - и пользовался тремя различными алфавитами: кириллицей, латинским, арабским. Когда ученого спрашивают, что общего между теорией нечетких множеств и лингвистикой, он не отрицает этой связи, но уточняет: «Я не уверен, что изучение этих языков оказало большое влияние на мое мышление. Если это и имело место, то разве что подсознательно». В юности Заде учился в Тегеране в пресвитерианской школе, а после Второй мировой войны эмигрировал в США. «Вопрос не в том, являюсь ли я американцем, русским, азербайджанцем или кем-то еще, - сказал он
Похожие рефераты:
Язык и речь как одна из фундаментальных проблем в стилистике. Понятие фонемы и фонологического уровня. Концепция зыка как система и уровни языковой системы. Понятие морфемы и их виды. Предложение как синтаксическая единица текста. Знаки языковой системы.
ОглавлениеВведение
Глава 1. История применения математических методов в лингвистике
1.1. Становление структурной лингвистики на рубеже XIX – ХХ веков
1.2. Применение математических методов в лингвистике во второй половине ХХ века
Глава 2. Отдельные примеры использования математики в лингвистике
2.1. Машинный перевод
2.2.Статистические методы в изучении языка
2.3. Изучение языка методами формальной логики
2.4. Перспективы применения математических методов в лингвистике
Заключение
Литература
Приложение 1. Ronald Schleifer. Ferdinand de Saussure
Приложение 2. Фердинанд де Соссюр (перевод)
Введение
В ХХ веке наметилась продолжающаяся и поныне тенденция к взаимодействию и взаимопроникновению различных областей знаний. Постепенно стираются грани между отдельными науками; появляется всё больше отраслей умственной деятельности, находящихся «на стыке» гуманитарного, технического и естественнонаучного знания.
Другая очевидная особенность современности – стремление к изучению структур и составляющих их элементов. Поэтому всё большее место как в научной теории, так и на практике уделяется математике. Соприкасаясь, с одной стороны, с логикой и философией, с другой стороны, со статистикой (а, следовательно, и с общественными науками), математика всё глубже проникает в те сферы, которые на протяжении долгого времени было принято считать чисто «гуманитарными», расширяя их эвристический потенциал (ответ на вопрос «сколько» часто помоагет ответить и на вопросы «что» и «как). Исключением не стало и языкознание.
Цель моей курсовой работы – кратко осветить связь математики с такой отраслью языкознания, как лингвистика. Начиная с 50-х годов прошлого века, математика применяется в лингвистике при создании теоретического аппарата для описания строения языков (как естественных, так и искусственных). Однако следует сказать, что она не сразу нашла себе подобное практическое применение. Первоначально математические методы в лингвистике стали использоваться для того, чтобы уточнить основные понятия языкознания, однако с развитием компьютерной техники подобная теоретическая посылка стала находить применение на практике. Разрешение таких задач, как машинный перевод, машинный поиск информации, автоматическая обработка текста требовало принципиально нового подхода к языку. Перед лингвистами назрел вопрос: как научиться представлять языковые закономерности в том виде, в котором их можно подавать непосредственно на технику. Популярным в наше время термином «математическая лингвистика» называют любые лингвистические исследования, в которых применяются точные методы (а понятие точных методов в науке всегда тесно связано с математикой). Некоторые учёные прошлых лет, считают, что само выражение нельзя возводить в ранг термина, так как оно обозначает не какую-то особую «лингвистику», а лишь новое направление, ориентированное на усовершенствование, повышение точности и надёжности методов исследования языка. В лингвистике используются как количественные (алгебраические), так и неколичественные методы, что сближает её с математической логикой, а, следовательно, и с философией, и даже с психологией. Ещё Шлегель отмечал взаимодействие языка и сознания, а видный лингвист начала ХХ века Фердинанд де Соссюр (о его влиянии на становление математических методов в лингвистике расскажу позже) связывал структуру языка с его принадлежностью к народу. Современный исследователь Л. Перловский идёт дальше, отождествляя количественные характеристики языка (например, число родов, падежей) с особенностями национального менталитета (об этом в разделе 2.2, «Статистические методы в лингвистике»).
Взаимодействие математики и языкознания – тема многогранная, и в своей работе я остановлюсь не на всех, а, в первую очередь, на её прикладных аспектах.
Глава I. История применения математических методов в лингвистике
1.1 Становление структурной лингвистики на рубеже XIX – ХХ веков
Математическое описание языка основано на представлении о языке как о механизме, восходящем к известному швейцарскому лингвисту начала ХХ века Фердинанду де Соссюру.
Начальное звено его концепции – теория языка как системы, cостоящей из трёх частей (собственно язык – langue , речь – parole , и речевую деятельность – langage ), в которой каждое слово (член системы) рассматривается не само по себе, а в связи с другими членами. Как впоследствии отметил другой видный лингвист, датчанин Луи Ельмслев, Соссюр «первый требовал структурного подхода к языку, то есть научного описания языка путём регистрации соотношений между единицами» .
Понимая язык как иерархическую структуру, Соссюр первым поставил проблему ценности, значимости языковых единиц. Отдельные явления и события (скажем, история происхождения отдельных индоевропейских слов) должны изучаться не сами по себе, а в системе, в которой они соотнесены с подобными же составляющими.
Структурной единицей языка Соссюр считал слово, «знак», в котором соединялись звучание и смысл. Ни один из этих элементов не существует друг без друга: поэтому носителю языка понятны различные оттенки значения многозначного слова как отдельного элемента в структурном целом, в языке.
Таким образом, в теории Ф. де Соссюра можно увидеть взаимодействие лингвистики, с одной стороны, с социологией и социальной психологией (следует отметить, что в это же время развиваются феноменология Гуссерля, психоанализ Фрейда, теория относительности Эйнштейна, происходят эксперименты над формой и содержанием в литературе, музыке и изобразительном искусстве), с другой стороны – с математикой (понятие системности соответствует алгебраической концепции языка). Подобная концепция изменила понятие языковой интерпретации как таковой: Явления стали трактоваться не относительно причин их возникновения, а относительно настоящего и будущего. Толкование перестало быть независимым от намерений человека (несмотря на то, что намерения могут быть безличными, «бессознательными» во фрейдистском понимании этого слова).
Функционирование же языкового механизма проявляется через речевую деятельность носителей языка. Результатом речи являются так называемые «правильные тексты» – последовательности речевых единиц, подчиняющиеся определённым закономерностям, многие из которых допускают математическое описание. Изучением способов математического описания правильных текстов (в первую очередь, предложений) занимается теория способов описания синтаксической структуры. В подобной структуре языковые аналогии определены не с помощью изначально присущих им качеств, а с помощью системных («структурных») отношений.
На Западе соссюровские идеи развивают младшие современники великого швейцарского лингвиста: в Дании – уже упомянутый мною Л. Ельмслев, давший начало алгебраической теории языка в своём труде «Основы лингвистической теории», в США – Э. Сепир, Л. Блумфилд, Ц. Харрис, в Чехии – русский учёный-эмигрант Н. Трубецкой.
Статистическими же закономерностями в изучении языка стал заниматься не кто иной, как основоположник генетики Георг Мендель. Только в 1968 году филологи обнаружили, что, оказывается, в последние годы жизни он был увлечен изучением лингвистических явлений с помощью методов математики. Этот метод Мендель привнёс в лингвистику из биологии; в девяностые годы девятнадцатого века лишь самые смелые лингвисты и биологи заявляли о целесообразности подобного анализа. В архиве монастыря св. Томаша в г. Брно, аббатом которого был Мендель, были найдены листки со столбцами фамилий, оканчивающимися на «mann», «bauer», «mayer», и с какими-то дробями и вычислениями. Стремясь обнаружить формальные законы происхождения фамильных имен, Мендель производит сложные подсчеты, в которых учитывает количество гласных и согласных в немецком языке, общее число рассматриваемых им слов, количество фамилий и т.д.
В нашей стране структурная лингвистика начала развиваться примерно в то же время, что и на Западе – на рубеже XIX-XX веков. Одновременно с Ф. де Соссюром понятие языка как системы разрабатывали в своих трудах профессора Казанского университета Ф.Ф. Фортунатов и И.А. Бодуэн де Куртенэ. Последний на протяжении долгого времени переписывался с де Соссюром, соответственно, женевская и казанская школы языкознания сотрудничали друг с другом. Если Соссюра можно назвать идеологом «точных» методов в лингвистике, то Бодуэн де Куртенэ заложил практические основы их применения. Он первым отделил лингвистику (как точную науку, использующую статистические методы и функциональную зависимость) от филологии (общности гуманитарных дисциплин, изучающих духовную культуру через язык и речь). Сам учёный считал, что «языкознание может принести пользу в ближайшем будущем, лишь освободившись от обязательного союза с филологией и историей литературы» . «Испытательным полигоном» для внедрения математических методов в лингвистику стала фонология – звуки как «атомы» языковой системы, обладающие ограниченным количеством легко измеримых свойств, были самым удобным материалом для формальных, строгих методов описания. Фонология отрицает наличие смысла у звука, так что в исследованиях устранялся «человеческий» фактор. В этом смысле фонемы подобны физическим или биологическим объектам.
Фонемы, как самые мелкие языковые элементы, приемлемые для восприятия, представляют собой отдельную сферу, отдельную «феноменологическую реальность». Например, в английском языке звук «т» может произноситься по-разному, но во всех случаях человек, владеющий английским, будет воспринимать его как «т». Главное, что фонема будет выполнять свою главную – смыслоразличительную – функцию . Более того – различия между языками таковы, что разновидности одного звука в одном языке могут соответствовать разным фонемам в другом; например «л» и «р» в английском различны, в то время как в других языках это разновидности одной фонемы (подобно английскому «т», произнесённому с придыханием или без). Обширный словарный запас любого естественного языка представляет собой набор сочетаний гораздо меньшего количества фонем. В английском, например, для произнесения и написания около миллиона слов используется всего 40 фонем.
Звуки языка представляют собой системно организованный набор черт. В 1920е –1930е, вслед за Соссюром, Якобсон и Н.С.Трубецкой выделили «отличительные черты» фонем. Эти черты основаны на строении органов речи – языка, зубов, голосовых связок. Скажем, в английском разница между «т» и «д» заключается в наличии или отсутствии «голоса» (напряжении голосовых связок) и в уровне голоса, отличающем одну фонему от другой. Таким образом, фонологию можно считать примером общего языкового правила, описанного Соссюром: «В языке есть только различия» . Более важно даже не это: различие обычно подразумевает точные условия, между которыми оно и находится; но в языке существуют только различия без точных условий. Рассматриваем ли мы «обозначение» или «обозначаемое» – в языке не существует ни понятий, ни звуков, которые существовали бы до того, как развилась языковая система.
Таким образом, в соссюровском языкознании изучаемый феномен понимается как свод сопоставлений и противопоставлений языка. Язык – это и выражение значения слов, и средство общения, причём эти две функции никогда не совпадают. Мы можем заметить чередование формы и содержания: языковые контрасты определяют его структурные единицы, и эти единицы взаимодействуют, чтобы создать определённое значимое содержание. Так как элементы языка случайны, ни контраст, ни сочетание не могут быть основой. Значит, в языке отличительные признаки формируют фонетический контраст на другом уровне понимания, фонемы соединяются в морфемы, морфемы – в слова, слова – в предложения и т.д. В любом случае, целая фонема, слово, предложение и т.д. представляет собой нечто большее, чем просто сумма составляющих.
Соссюр предложил идею новой науки двадцатого века, отдельно от лингвистики изучающей роль знаков в обществе. Соссюр назвал эту науку семиологией (от греческого «semeîon» - знак). «Наука» семиотики, развивавшаяся в Восточной Европе в 1920е –1930е и в Париже в 1950е – 1960е, расширила изучение языка и лингвистических структур до литературных находок, составленных (или сформулированных) с помощью этих структур. Кроме того, на закате своей карьеры, параллельно совему курсу общей лингвистики, Соссюр занялся «семиотическим» анализом поздней римской поэзии, пытаясь открыть умышленно составленные анаграммы имён собственных. Этот метод был во многом противоположен рационализму в его лингвистическом анализе: он был попыткой, изучить в системе проблему «вероятности» в языке. Такое исследование помогает сосредоточиться на «вещественной стороне» вероятности; «ключевое слово», анаграмму которого ищет Соссюр, как утверждает Жан Старобинский, «инструмент для поэта, а не источник жизни стихотворения». Стихотворение служит для того, чтобы поменять местами звуки ключевого слова. По словам Старобинского, в этом анализе «Соссюр не углубляется в поиски скрытых смыслов». Напротив, в его работах заметно желание избежать вопросов, связанных с сознанием: «так как поэзия выражается не только в словах, но и в том, что порождают эти слова, она выходит из-под контроля сознания и зависит только от законов языка» (cм. Приложение 1).
Попытка Соссюра изучить имена собственные в поздней римской поэзии подчёркивает одну из составляющих его лингвистического анализа – произвольную природу знаков, а также формальную сущность соссюровской лингвистики, что исключает возможность анализа смысла. Тодоров делает вывод, что в наши дни труды Соссюра выглядят на редкость последовательными в нежелании изучать символы явления, имеющие чётко определённое значение [Приложение 1]. Исследуя анаграммы, Соссюр обращает внимание только на повторение, но не на предшествующие варианты. . . . Изучая «Песнь о Нибелунгах», он определяет символы только для того, чтобы присвоить их ошибочным чтениям: если они неумышленны, символов не существует. В конце концов, в своих трудах по общей лингвистике он делает предположение о существовании семиологии, описывающей не только лингвистические знаки; но это предположение ограничивается тем, что семиoлогия может описывать только случайные, произвольные знаки.
Раз это действительно так, то только потому, что не мог представить «намерение» без предмета; он не мог до конца преодолеть пропасть между формой и содержанием – в его трудах это превращалось в вопрос. Вместо этого он обращался к «языковой законности». Находясь между, с одной стороны, концепциями девятнадцатого века, основанными на истории и субъективных догадках, и методах случайной интерпретации, основанных на этих концепциях, и, с другой стороны, структуралистскими концепциями, стирающими противостояние между формой и содержанием (субъектом и объектом), значением и происхождением в структурализме, психоанализе и даже квантовой механике – труды Фердинанда де Соссюра по лингвистике и семиотике обозначают поворотный момент в изучении значений в языке и культуре.
Русские учёные были представлены и на Первом международном конгрессе лингвистов в Гааге в 1928 году. С. Карцевский, Р. Якобсон и Н. Трубецкой выступили с докладом, в котором рассматривалась иерархическая структура языка – в духе самых современных для начала прошлого века представлений. Якобсон в своих трудах развивал идеи Соссюра о том, что базовые элементы языка должны изучаться, в первую очередь, в связи со своими функциями, а не с причинами их возникновения.
К сожалению, после прихода в 1924 году к власти Сталина отечественное языкознание, как и многие другие науки, отбрасывает назад. Многие талантливые учёные вынуждены были эмигрировать, были высланы из страны или погибли в лагерях. Только с середины 1950-х годов стал возможен некоторый плюрализм теорий – об этом в разделе 1.2.
1.2 Применение математических методов в лингвистике во второй половине ХХ века
К середине ХХ века сформировалось четыре мировых лингвистических школы, каждая из которых оказалась родоначальником определённого «точного» метода. Ленинградская фонологическая школа (её родоначальником был ученик Бодуэна де Куртенэ Л.В. Щерба) использовала в качестве основного критерия обобщения звука в виде фонемы психолингвистический эксперимент, основанный на анализе речи носителей языка.
Учёные Пражского лингвистического кружка , в частности – его основатель Н.С. Трубецкой, эмигрировавший из России, разработали теорию оппозиций – семантическая структура языка была описана ими как набор оппозитивно постороенных семантических единиц – сем. Эта теория применялась в изучении не только языка, но и художественной культуры.
Идеологами американского дескриптивизма были языковеды Л. Блумфилд и Э. Сепир. Язык представлялся дескриптивистам в виде совокупности речевых высказываний, которые и были главным объектом их исследования. В центре их внимания оказались правила научного описания (отсюда название) текстов: изучение организации, аранжировка и классификация их элементов. Формализация аналитических процедур в области фонологии и морфологии (разработка принципов исследования языка на разных уровнях, дистрибутивного анализа, метода непосредственно составляющих и т.д.) привела к постановке общих вопросов лингвистического моделирования. Невнимание к плану содержания языка, а также парадигматической стороне языка не позволило дескриптивистам достаточно полно интерпретировать язык как систему.
Не подлежит сомнению, что использование в языкознании математических и логических методов ("точных методов") в значительной степени было стимулировано задачами прикладной лингвистики. Если и делались попытки приложения этих методов для решения проблем, непосредственно относящихся к области теоретического языкознания, например для разграничения явлений языка и речи * , то в перспективе (хотя, может быть, и не всегда ясной и близкой) имелись в виду все же потребности прикладной лингвистики. Между прочим, это означает, что оценка результатов подобного рода операций должна производиться с обязательным учетом целей прикладной лингвистики.
* (См.: G. Нerdan, Language as Choice and Chance, Groningen, 1956. )
Успех использования этих методов в совершенно новой области с общей точки зрения во многом обусловливается ответом на вопрос, в какой мере допустимо отождествление логически правильного языка с естественным языком, или, в другой формулировке, возможно ли сведение второго к первому * . Ответ на этот вопрос обычно дается в практической форме - посредством построения статистических, теоретико-информационных, теорети ко-множественных, теоретико-вероятностных и других математических моделей языка, не всегда, впрочем, ориентирующихся на конкретные задачи ** . При построении подобного рода моделей их авторы нередко исходят из того допущения (очевидного с их точки зрения), что любое приложение формально-логического или математического аппарата к лингвистическому описанию и исследованию автоматически способствует их совершенствованию. По этому поводу хорошо сказал Уоррен Плят в своем обзоре работ по математической лингвистике: "Если рассматривать языковые модели как абстрактные системы дискретных элементов, то к ним можно применять различные математические понятия и методы, начиная от элементарной идеи числа и кончая сложными "логическими, статистическими и теоретико-множественными операциями. Однако представление о том, что всякое привлечение чисел и математических операций для описания таких систем элементов делает утверждения более "точными" или более "научными", является абсолютно ошибочным. Нужно прежде всего показать, что новая система, полученная таким образом, является более удовлетворительной моделью" чем исходная система,- либо в том отношении, что она дает возможность формулировать более простые и более общие теоретические утверждения о некоторых аспектах моделируемой области, либо потому, что операции над моделью проливают свет на результаты соответствующих операций в моделируемой области. Одна из основных опасностей, связанных с построением математических моделей языка, в особенности количественных, состоит в том, что неразборчивое использование математического аппарата неизбежно приводит к бессмысленным и дезориентирующим результатам. Необходимо ясно понимать поэтому, что предпосылкой обогащения лингвистики с помощью математики является не только знание соответствующих областей математики, но и, кроме того, глубокое понимание сущности лингвистических проблем, на разрешение которых должны быть направлены математические методы" *** .
* (Ср. замечание Г. Карри: "То, что существует тесная связь между математикой и логикой, с одной стороны, и языком - с другой, стало очевидным уже достаточно давно, а сейчас этот факт оказался в центре внимания в более строгом омысле..." (Н. В. Curry, Some Logical Aspects of Grammatical Structure, в материалах симпозиума "Structure of Language and its Mathematical Aspects", Providence, 1961, p. 57). )
** (Весьма своевременным в этой связи представляется замечание П. Гарвина (сделанное им в рецензии на кн. У. Вar-Hillel, Language and Information: Selected Essays on Their Theory and Application, London, 1964): "Большинство работ по теории обработки информации и приложений для ее целей вычислительных машин совершенно наивно и, бесспорно, не так полезно, как это было бы желательно". Касаясь негативной позиции Бар-Хиллела относительно эффективности логико-математических методов для автоматической обработки речевой информации, П. Гарвин полагает, что в ней все же содержатся позитивные элементы, так как эта позиция "заставит по крайней мере некоторых ученых относиться менее серьезно к своим теориям" (журнал "American Documentation", New York," vol. 16, N 2, 1965, p. 127). )
*** (W. Рlath, Mathematical Linguistics. В кн.: "Trends in European and American Linguistics 1930-1960", Antwerp, 1961, pp. 22-2Э. )
С тем чтобы, по возможности, избежать указанной Уорреном Плятом опасности, необходимо не только располагать чисто эмпирическими попытками ответа на формулированный выше вопрос, но и стремиться к его общетеоретическому осмыслению. По сути дела, вопрос о сводимости естественного языка к той или иной логико-математической его модели или интерпретации есть основной вопрос теории прикладной лингвистики, необходимость создания которой ощущается все более настоятельно. При рассмотрении данного вопроса в первую очередь должна быть рассмотрена природа тех явлений, которые составляют предмет изучения, с одной стороны, логики и математики, а с другой, естественного языка, а затем также возможности тех методов, которыми работает каждая из этих наук. Уже из сопоставительного изучения этих моментов окажется возможным сделать некоторые общие выводы, которые могут быть небесполезными для всех тех, кому по необходимости приходится проводить свои исследования на пересечении перечисленных наук.
До известной степени этой цели служит симпозиум "Структура языка и его математические аспекты", проведенный Американским математическим обществом * . Но все они, как это явствует и из самого названия симпозиума, затрагивают только отдельные и в ряде случаев весьма частные аспекты интересующей нас проблемы. Хотя в своей совокупности они и создают достаточно аргументированные предпосылки для ответа на разбираемый нами вопрос, однако в них все же отсутствует четкое и недвусмысленное формулирование необходимых выводов. Во многом участники симпозиума продолжают линию эмпирических попыток разрешения вопроса, отнюдь не навязчиво предлагая свои опыты вниманию лингвистов в надежде, что они уже сами разберутся в том, насколько представленные ими гипотезы и решения окажутся пригодными для их целей.
* ("Structure of Language and its Mathematical Aspects". Proc. of the Soc. of Appl. Math., 12. Providence, 1961. )
Более подходящими поэтому в качестве отправной точки для осмысления результатов работы лингвистов, логиков и математиков в разбираемом нами плане являются две статьи, помещенные в сборнике "Естественный язык и вычислительная машина" * :М.Мэрона "Точка зрения логика на обработку лингвистических данных" и П. Гарвина и В. Кэраша "Лингвистика, обработка лингвистических данных и математика". В них излагаются рабочие возможности логики и математики, их отношение к эмпирическим наукам, способы решения задач и пр. Обратимся к рассмотрению поднятых этими статьями проблем с точки зрения того вопроса, который был сформулирован выше.
* ("Natural Language and the Computer", ed. bv P. Garvin, New York, 1963. )
2
Казалось бы, мы уже имеем абсолютно недвусмысленный ответ на наш вопрос. Так, например, Н. Д. Андреев и JI. Р. Зиндер пишут: "Математическое представление (модель) языков отнюдь не тождественно самому языку" * . Им следует и автор книги "Модели языка" И. И. Ревзин, который указывает, что в результате моделирования может явиться лишь "более или менее близкая аппроксимация данных конкретной действительности" ** . Однако сказать так - значит еще ничего не сказать, так как остается нераскрытым, почему это так и следует ли все же обращаться к методу математического и логического моделирования, а если да, то в каких пределах и для какой цели.
* (H. Д. Андреев, Л. P. Зиндер, Основные проблемы прикладной лингвистики, "Вопросы языкознания"., 1959, № 4, стр. 18. )
** (И. И. Ревзин, Модели языка, М., 1962, стр. 8. Кстати говоря, выражение "близкая аппроксимация" - прямая тавтология: близкая приближенность. )
Для разрешения всех этих вопросов в качестве исходного пункта первоначально устанавливается, к каким наукам - индуктивным или дедуктивным - относятся лингвистика, логика и математика. Что касается последних двух наук, то их положение ясно - они, бесспорно, относятся к дедуктивным наукам, опирающимся в своей исследовательской методике на умозаключение. Лингвистику же традиционно определяют как эмпирическую науку, а это предполагает, что ее главной научной целью является описание фактов. Это значит, видимо, что лингвистика должна быть отнесена к области индуктивных наук. Это значит также, что, стремясь использовать в лингвистике формальный аппарат логики и математики, пытаются применить в индуктивной науке дедуктивные методы исследования.
Впрочем, в последние годы индуктивная природа науки о языке - лингвистики стала подвергаться косвенно или прямо сомнению. В наиболее резкой форме это сделал Л. Ельмслев. Правда, используемая им терминология весьма сбивчива и, в частности, характеризуется своеобразным и очень личным пониманием терминов "дедукция" и "индукция" (фактически он истолковывает их совершенно обратным образом). Однако излагаемые им основы его лингвистической теории не оставляют никаких сомнений относительно ее методической сущности. Так, он считает допустимым использование любых исходных операционных определений, что характерно для дедуктивных наук. И сам он в следующих выражениях характеризует свою теорию: "1. Теория в нашем смысле сама по себе независима от опыта. Сама по себе она ничего не говорит ни о возможности ее применения, ни об отношении к опытным данным. Она не включает постулата о существовании. Она представляет собой то, что было названо чисто дедуктивной системой в том смысле, что она одна может быть использована для исчисления возможностей, вытекающих из ее предпосылок. 2. С другой стороны, теория включает ряд предпосылок, о которых из предшествующего опыта известно, что они удовлетворяют условиям применения к некоторым опытным данным. Эти предпосылки наиболее общи и могут поэтому удовлетворять условиям применения к большому числу экспериментальных данных" * .
* ( "Пролегомены к теории языка". Сб. "Новое в лингвистике", вып. 1, М., 1960, стр. 274-275. )
Как явствует из этого высказывания, Л. Ельмслев стремится провести идею о двойственной методической природе объектов лингвистического исследования, с преимущественным акцентом на их дедуктивные признаки. Ему следует приписать и тот довольно двусмысленный способ ("с одной стороны... но с другой стороны..."), который вообще стал характерным для рассмотрения данного вопроса (и который дает возможность повернуть в любую из сторон). Идея методической двойственности лингвистики получила в последнее время широкое хождение и даже послужила теоретической основой для формулирования принципов и самого последнего по времени своего возникновения направления в науке о языке - лингвистики универсалий (универсалиализма). В "Меморандуме относительно лингвистических универсалий" говорится по этому поводу: "Изучение лингвистических универсалий ведет к целой серии эмпирических обобщений относительно языкового поведения - как еще требующих эксперимента, так и уже установленных. Эти обобщения представляют собой потенциальный материал для построения дедуктивной структуры научных законов. Впрочем, некоторые и, может быть, большинство из них пока располагают всего лишь статусом эмпирических обобщений, которые при современном состоянии наших знаний не представляется возможным соотнести с обобщениями или дедуктивно вывести из законов более общей значимости" * . С не меньшей определенностью выражается и Дж. Гринберг в своем предисловии к сборнику, посвященному лингвистическим универсалиям. Полемизируя с известными словами Л. Блумфильда о том, что "единственно правомерными обобщениями относительно языка являются индуктивные обобщения", он пишет: "Все же, по-видимому, считается общепринятым, что научный метод должен быть не только индуктивным, но и дедуктивным. Формулирование обобщений, полученных индуктивным исследованием, приводит к теоретическим гипотезам, на основе которых путем дедукции в свою очередь могут быть выведены дальнейшие обобщения. Эти последние затем должны быть подвергнуты эмпирической проверке" ** .
* ( "Memorandum Concerning Language Universals", "Universals of Language", ed. by J. Greenberg, Cambridge, Mass., 1963, p. 262-263. )
** ("Universals of Language", p. IX. )
То обстоятельство, что история языкознания состоит не только из накопления фактов языка и их классификации, но и из смены точек зрения на сам язык, что неизбежно предполагает различие подходов к языковым фактам и даже различное их теоретическое истолкование, заставило и некоторых советских лингвистов также прийти к выводам о методической двойственности их науки. С. К. Шаумян предпочитает, правда, говорить при этом о методе гипотетико-дедуктивном и следующим образом излагает его особенности: "Гипотетико-дедуктивный метод представляет собой циклическую процедуру, которая начинается с фактов и кончается фактами. В этой процедуре различаются четыре фазы:
- фиксирование фактов, требующих объяснения;
- выдвижение гипотез для объяснения данных фактов;
- выведение из гипотез предсказаний о фактах, лежащих за пределами круга фактов, для объяснения которых были выдвинуты гипотезы;
- проверка фактов, которые предсказываются гипотезами, и определение вероятности гипотез.
Гипотетико-дедуктивный метод принципиально отличается от индуктивного метода, применяемого в таких областях знания, как, например, описательная ботаника или зоология" * . Метод С. К. Шаумяна фактически полностью повторяет метод лингвистики универсалий Дж. Гринберга. Единственное различие состоит в наименовании. Если, например, Дж. Гринберг говорит о сочетании индуктивного и дедуктивного методов, то С. К. Шаумян именует свой метод гипотетико-дедуктивным: обозначение явно непоследовательное для метода, который "начинается с фактов и кончается фактами".
* (С. К. Шаумян, Проблемы теоретической фонологии, М., 1962, стр. 18-19. Относительно гипотетико-дедуктивного метода см. также статью В. С. Швырева "Некоторые вопросы логико-методологического анализа отношения теоретического и эмпирического уровней научного знания" в сб. "Проблемы логики научного познания" (М., 1964), стр. 66-75 (3-й раздел статьи). )
Вопросом о том, куда следует отнести языкознание, задается и И. И. Ревзин. "По самой своей природе,- отвечает он на этот вопрос,- языковедение должно прежде всего пользоваться индуктивными методами, оно описывает конкретные речевые акты конкретных языков...
С другой стороны, наличие бесконечного множества речевых актов, изучаемых лингвистом, едва ли дает возможность сформулировать основные понятия науки о языке обобщением по индукции.
Отсюда следует, что лингвисты нуждаются не только в индуктивных, но и в дедуктивных методах исследования, чтобы получить систему общих знаний, помогающих осмыслить те данные, которые добываются при анализе конкретных языков...
В своей дедуктивной части языковедение, по-видимому, может быть построено так, как строится логика или математика, а именно: выделяется некоторое минимальное количество первичных, не определяемых терминов, а все остальные термины определяются через первичные. При этом должны быть четко сформулированы некоторые первичные утверждения о связи этих терминов между собой (аксиомы), и все остальные утверждения должны доказываться, т. е. сводиться к некоторым другим утверждениям" * .
* (И. И. Ревзин, Модели языка, М., 1962, стр. 7-8. )
Здесь метод дедукции, воплощающийся в логике и математике, выступает всего лишь как средство упорядочения "множества речевых актов" для целей создания "системы общих понятий". В прямом противоречии с этой задачей стоит, однако, изложение самого дедуктивного метода, рекомендуемого для использования в языкознании. Он полностью отмысливается и от актов и от фактов и за исходный момент построения системы общих лингвистических понятий принимает набор не определяемых и, по-видимому, абсолютно условных первичных терминов, через посредство которых определяются все последующие термины.
Это противоречие не случайно, оно кроется в самой природе рассматриваемых нами наук. Казалось бы, вывод, что при изучении лингвистических объектов допустимо сочетание индуктивного и дедуктивного методов, открывает двери для использования в лингвистике логических и математических методов, и конкретной реализацией этого вывода является создание многочисленных формально-логических и математических моделей языка. Но, как будет ясно из дальнейшего, такой упрощенный подход не может дать удовлетворительных результатов. Можно согласиться с тем, что в лингвистическом исследовании допустимо и даже необходимо сочетать дедуктивную и индуктивную методику. В конце концов, как писал В. Брёндаль, "индукция есть не что иное, как замаскированная дедукция, и за чистыми связями, установленными между наблюдаемыми явлениями, совершенно неизбежно предполагается реальность, специфический объект данной науки" * . Но это еще не значит, что в лингвистику следует безоговорочно и механически переносить формальный аппарат логики и математики без всякого учета "специфического объекта данной науки". Как справедливо замечает тот же И. И. Ревзин, "доказательства, полученные дедуктивным путем, сколь бы безукоризненными они ни были с логической точки зрения, еще ничего не говорят о свойствах реального языка, описываемого моделью" ** . И он для определения действенности моделей рекомендует обратиться к практике, каковую представляет машинный перевод и "другие практические приложения языкознания".
* (B. Брёндаль, Структуральная лингвистика. Цитировано по книге: В. А. 3вегинцев, История языкознания XIX и XX вв. в очеркам и извлечениях, ч. II, М., 1965, стр. 95. )
** ( И. И. Ревзин, Модели языка, М., 1962, стр. 10. )
А практика прикладной лингвистики свидетельствует, что на использование математических и логических методов при изучении явлений языка накладываются очень строгие ограничения.
3
Логика дает пример наиболее последовательного использования дедуктивного метода. Математика во многом следует за логикой в этом отношении, и поэтому они могут рассматриваться совместно.
Разумеется, и логика, и математика в отношении своих методов и интерпретации целей не представляют гомогенных систем. Так, например, применительно к логике мы можем говорить о логике диалектической, формальной, математической и, в более узком смысле, о предметной, семантической, феноменологической, трансцедентальной, или конструктивной, комбинаторной, многозначной, модальной и пр. По необходимости, однако, придется отмыслиться от всех подобных подразделений и говорить только о самых общих чертах, свойственных логике и математике в целом, и главным образом о тех, которые с наибольшей отчетливостью демонстрируют дедуктивный характер методов этих наук.
Став на эту позицию, мы, следовательно, не будем обращаться к индуктивной логике. Отметим только, что выводы в индуктивной логике не определяются предпосылками - тем самым они не являются тавтологическими. Выводы в индуктивной логике находятся в прямой зависимости от фактов, а эти последние определяются объемом наших знаний - таким образом, они устанавливаются на вероятностной основе. Вероятность является основным методическим орудием индуктивной логики.
Дедуктивную логику наиболее полным образом представляют формальная и математическая логики, имеющие много общего. Дедуктивная логика - наука, изучающая человеческое мышление или мыслительные акты со стороны их структуры или формы, отвлекаясь от их конкретного содержания. Таким образом, дедуктивная логика стремится сформулировать законы и принципы, соблюдение которых является обязательным условием для достижения истинных результатов в процессе получения выводного знания. Основным методическим орудием дедуктивной логики является импликация. Выводное знание она получает без непосредственного обращения к опыту или к практике, посредством лишь применения законов логики. В процессе дедукции предпосылка обусловливает вывод: если предпосылка истинна, то и вывод должен быть истинным. Таким образом, вывод заключается уже в предпосылке, и цель дедукции - сделать очевидным то, что в скрытом состоянии заключено уже в предпосылке. Отсюда следует, что всякий полученный посредством дедукции вывод тавтологичен, т. е. логически является пустым, хотя с иных точек зрения, например в случаях применения формально-логического аппарата для целей других наук, может быть новым, неожиданным и оригинальным.
Аналогичное положение имеет место в математике - обоснованность доводов в ней полностью покоится на дедукции. При этом в математике, как правило, приемлема любая исходная точка зрения, любой подход к решению проблемы - лишь бы они удовлетворяли условиям математической дедукции. Математика располагает богатым набором такого рода "исходных точек зрения" и "подходов", которые исследователь альтернативно может использовать для решения своей задачи. Математическая проблематика часто переводима в разные эквивалентные формы, а каждая из них предполагает использование различных областей математической теории с целью решения проблемы. Таким образом, математик обладает фактически неограниченной свободой выбора предпосылок - он выбирает те из них, которые, с его точки зрения, таят в себе самые обещающие возможности для наиболее простого, небанального, изящного решения задачи. Его талант и опыт проявляются именно в удачном выборе предпосылок, тех "допустим, что..." или "если... то", которыми пестрят математические работы. Так же как и в логике, математические предпосылки - аксиомы или постулаты - обусловливают определения еще не определенных единиц.
Свобода выбора предпосылок в математике находится в прямой зависимости от того, что она оперирует нематериальными единицами, или объектами,- ее внимание направлено на отношения между ними. Математические объекты служат в качестве символов, выражающих структуру чистых отношений. Математическую систему можно, таким образом, рассматривать как набор формальных отношений, существующих лишь в силу констатаций этих отношений. Разумеется, в частности, в прикладных целях констатации отношений могут стремиться воплотить корреспонденции с внешней реальностью, но это никак не воздействует на сами констатации отношений - скорее, наоборот. Математики исследуют не "истинность" своих аксиом, хотя и требуют между ними взаимной согласованности. Исследование внутри математической системы есть исследование и установление связей, которые позволяют доказать, что факт теории А предполагает факт теории В. Следовательно, основной вопрос в математике не "что такое А и В?", а "предполагает ли А (или обусловливает ли) В?".
Совершенно иное положение в лингвистике. Она в основном ориентируется на первый из этих вопросов, и это не дает ей возможности оторваться от реальности; она, следовательно, оперирует не абстрактными, а конкретными единицами, хотя и стремится в ряде случаев к созданию абстрагированных объектов, вроде понятия фонемы или морфемы. Такое положение характерно не только для традиционной лингвистики, но в равной степени свойственно и новейшим ее направлениям, объединившимся под знаменем структурализма. Выше уже приводился ряд высказываний, которые, пытаясь использовать в науке о языке не только индуктивные, но и дедуктивные методы (или математические и логические методы), не смогли все же обойти необходимость обращения к реальному лингвистическому факту. В дополнение к ним можно привести еще одно, которое вносит полную ясность в рассматриваемый вопрос: "Лингвистический анализ,- пишет в указанной связи П. Гарвин,- в основном индуктивный процесс в том смысле, что он стремится установить список элементов или набор констатаций, исходя из лингвистических стимулов информантов или же из изучения текста. Он основывается на предположении, что в обоих этих источниках сведений окажется возможным распознать регулярно встречающиеся элементы различных типов и порядков сложности. Классификация этих типов и констатация их условий дистрибуции, полученные в результате анализа, образуют индуктивное описание языка" * .
* (P. Garvin, A Study of Inductive Method in Syntax, "Word", vol. 18 (1962), p. 107, )
В лингвистике, конечно, также можно использовать метод предпосылок, исходя из которых затем определяются частные объекты, факты или единицы языка. Но здесь мы сталкиваемся с двумя особенностями, которые вносят существенные коррективы в использование этого метода. В отличие от логики и математики в этом случае будет искаться "истинность" полученных таким способом определений, т. е. их соответствие данным опыта. Таким образом, устанавливается взаимозависимость предпосылки и выводного знания: предпосылка определяет вывод (определение частного лингвистического объекта в терминах предпосылки), но если вывод не соответствует данным опыта, то возникает необходимость коррективы самой предпосылки. Но такого рода коррективы предпосылки не имеют ничего общего с той переводимостью в эквивалентные формы, которая, как указывалось выше, допустима в математике, так как они обусловливаются не формальными соображениями, а данными опыта. Все сказанное дает основание заключить, что само понятие предпосылки и свобода ее выбора обладают в лингвистическом анализе специфичностью, с которой нельзя не считаться при использовании в языкознании дедуктивного метода.
Лингвисты не могут пользоваться с такой свободой методом "если" или "допустим", как математики. Свобода предпосылок у них очень строго ограничена. История науки о языке знает немало смен "точек зрения", или, иными словами, исходных предпосылок, которые были подсказаны открытием новых фактов, распространением на лингвистику общенаучных идей или даже формированием оригинальных теорий. Но для лингвиста во всех подобных случаях смена "если", или исходной предпосылки, есть смена всей научной конценции. Поэтому лингвист говорит не "если", а постулирует свое понимание предпосылки, т. е. фактически понимание предмета своего исследования, и, исходя из этого понимания, дает определение частных единиц языка, проверяя "истинность" этих определений данными опыта. Последнее же обстоятельство, в силу взаимозависимости предпосылки и вывода в лингвистике, служит средством проверки и правомерности самой предпосылки, стоящей в начале дедуктивного по форме лингвистического анализа. Так, если обращаться к конкретным примерам, в прошлом язык истолковывался как естественный организм (у Шлейхера), как индивидуальная психофизиологическая деятельность (у младограмматиков) и т. д. Исследовательская практика, основывающаяся на этих концепциях, показала их недостаточность. Ныне исходной предпосылкой лингвистического анализа является постулат, что язык есть система знаков * . Он подлежит такой же проверке опытом и практикой, как и любая другая концепция в науке о языке.
* (См.: Paul Garvin, The Definitional Model of Language. В кн.: "Natural Language and the Computer", ed. by P. L. Garvin, New York, 1964. )
Уже эти предварительные и самые общие соображения показывают, что дедуктивные методы вовсе не противопоказаны лингвистике, но применение их требует соблюдения специфических условий. Именно эти специфические условия накладывают определенные ограничения на механическое перенесение методов логики и математики в область лингвистики. Однако, если мы ограничимся такой общей констатацией, многое останется все еще неясным. Именно поэтому следует углубить разбираемый нами вопрос и для подкрепления потенциальных выводов обратиться к практике прикладной лингвистики, где с наибольшей отчетливостью проявляется правомерность предпосылок и соответствие опытным данным сделанных на их основе выводов.
4
Отношения между языком и логикой носят весьма своеобразный характер. Представители эмпирических наук, к которым относится и лингвистика, изучают тот или иной предмет или явление с целью описать или объяснить его. Полученные ими результаты они формулируют на языке, который именуется языком-объектом. Логик орудует доказательствами, умозаключениями, суждениями и пр., но они доступны ему только в языковой форме. Таким образом, получается, что логик на одну ступень находится дальше от реального мира, чем представители эмпирических наук. Его анализ направляется не непосредственно на реальный объект, изучаемый эмпирическими науками, а на их язык * . Иными словами, он исследует язык и формулирует полученные результаты на языке, который именуется метаязыком.
* ("Логический анализ научного знания,- пишут в этой связи П. В. Таванец и В. С. Швырев,- есть прежде всего и непосредственно анализ языка, в котором выражается это знание". См. статью "Логика научного познания" в сб. "Проблемы логики научного познания", М., 1964, стр. 161 )
С логической точки зрения основной единицей языка является не знак и не обозначаемый им объект, а предложение, так как только в нем может развернуться логический процесс. Именно поэтому только предложение может быть истинным или ложным. А слова сами по себе не могут обладать этими качествами. Но прежде чем мы сможем установить, является ли предложение истинным или нет, нам необходимо констатировать, что оно имеет значение.
Понятия истинности и значения относятся к области семантики. Через посредство этих отношений и определяется истинность или ложность предложения: если предложение описывает объекты правильно, оно истинно, а если неправильно - нет. Но языковые выражения могут вступать в отношения иные, чем те, которые существуют между обозначаемыми ими объектами. Кроме того, предложения могут вступать в отношения с другими предложениями. Задача логика заключается в том, чтобы выяснить природу отношений между языковыми выражениями и предложениями и установить правила для определения того, выдерживается предписанная в данном случае процедура или нет. При решении последнего вопроса логик не обращается к объектам, описываемым предложением. Он интересуется лингвистической формой, а не ее содержанием, что, разумеется, не препятствует ее содержательной интерпретации, в результате чего возникает формализованный язык. Формализованный язык может быть представлен в виде абстрактной системы, например исчисления предикатов.
Итак, логик может в зависимости от задач исследования работать на двух уровнях - синтаксическом (логический синтаксис) и семантическом (логическая семантика). Рассмотрим сначала приложение первого из этих уровней к естественному языку.
Если логик, занятый изучением языковых форм и существующих между ними отношений, может оставаться в пределах синтаксического уровня, оперируя не содержательными терминами, то лингвист этого сделать не может. Все уровни естественного языка (за исключением, может быть, фонематического) содержательны и поэтому вне семантики немыслимы. И более того, естественный язык не существует вне прагматики, которая не может быть легко отслоена от него в силу той простой причины, что в речевом акте она постоянно трансполируется в семантику. Поэтому естественный язык - всегда интерпретация, и притом двуступенчатая, поскольку связана и с семантикой и с прагматикой * . И эта интерпретация не поддается пока никакой формализации.
* (Ср. замечания Нилса Бора о математическом языке, где "необходимая для объективного описания однозначность определений достигается при употреблении математических символов именно благодаря тому, что таким способом избегают ссылки на сознательный субъект, которыми пронизан повседневный язык" (Ниле Бор, Атомная физика и человеческое познание, М., 1961, стр. 96). )
Перейдем теперь ко второму уровню, когда исчислению посредством семантических правил приписывается интерпретация. И в этом случае мы получим образование, никак не сопоставимое с естественным языком. Правда, здесь мы имеем дело с содержательными терминами, но в логическом и естественном языке они строят свое отношение к "истинности" на совершенно иных основаниях. Как пишет А. Тарский, "истинное", "во всяком случае в его классической трактовке", является таковым в той мере, в какой оно "совпадает с действительностью" * . Но этот критерий "истинности" фактически применим лишь к естественным языкам, всегда ориентированным на действительность. По-иному обстоит дело в логической семантике. Семантический анализ опирается лишь на логическую интерпретацию системы и предполагает установление определенных правил, формулирующих условия истинности. Он предписывает следствие этим правилам, не отвечая на вопрос, в какой мере здесь имеет место "совпадение с действительностью". Кроме того, сама ориентированность на действительность осуществляется в естественном языке не непосредственно, а через человека, что опять-таки делает необходимым обращение к третьему уровню - прагматическому. "Переход на семантический уровень,- констатируют П. В. Таванец и В. С. Швырев,- не есть само по себе возвращение к живому языку в его конкретности, как может показаться на первый взгляд, благодаря тому, что смысловая функция языка как будто существо языка, как "непосредственной действительности мысли". На самом деле исходная схема семантики "язык - действительность" не дает еще конкретного образа языка как непосредственной действительности мысли по той простой причине, что язык связан с действительностью не сам по себе неким мистическим способом, а через человека, через его действия, его поведение. Поэтому, собственно говоря, конкретное представление о языке как носителе мысли может быть достигнуто лишь на уровне его прагматического анализа по схеме "язык - действия человека с языком и на основе языка -действительность" ** .
* (A. Tarski, Grundlegung der Wissenschaftlichen Semantik. "Actes du Congres International de Philosophie Scientique", 1936. )
* (См. статью "Логика научного познания" в сб. "Проблемы логики научного познания" (М., 1964, стр. 16). )
Но и это еще не все. Касаясь рассматриваемого вопроса, В. М. Глушков пишет: "Живой человеческий язык может рассматриваться как формальный язык лишь после того, как будет сформулирована строгая система правил, позволяющая отличить выражения, допустимые в языке, от всех прочих выражений, то есть осмысленные предложения от бессмысленных" * . Разъясняя трудности, возникающие при формализации естественного языка, он далее указывает, что "никакой фиксированный формализованный язык не может быть адекватен живому человеческому языку, поскольку последний в отличие от первого непрерывно развивается и совершенствуется. Поэтому всякая формализация любого живого человеческого языка представляет собой лишь более или менее удачный его мгновенный слепок, утрачивающий сходство с оригиналом по мере развития последнего" ** . Если бы все сводилось только к этому, то это было бы еще полбеды. В прикладной лингвистике отмысливаются от моментов развития языка, стремятся рассматривать его как совершенно стабильную систему и все же никак не удается добиться формализации естественного языка. Происходит это по весьма простой причине. Формальная система и естественный язык основывают свою действенность на полярно противоположных качествах. Всякая формальная система всегда тождественна самой себе. Именно это ее качество делает возможным выполнение ею своих функций во всех конкретных случаях ее приложения. А естественный язык - в плане своего содержания, своей семантики или, как в этих случаях принято говорить, в своем информативном плане - никогда не тождествен самому себе. Именно эта его способность делает возможным его функционирование во всех конкретных случаях своего применения. Оставаясь тем же самым языком, он в разных ситуациях всегда иной. При этом он не обладает ни эксплицитными, ни формативными правилами, ни правилами "истинности", ни трансформационными правилами для определения того, какое из потенциальных значений или оттенков значений получит данное слово в той или иной ситуации. Более того, почти любое слово естественного языка может получить значение, которое не зафиксировано никаким языком - оно может, возникнув, закрепиться в языке, но с таким же успехом, подобно беглому огоньку, вспыхнув, затеряться в лингвистическом "космосе" и погаснуть. И при всех этих качествах естественный язык оказывается изумительно совершенным орудием, которое позволяет добиться полного взаимопонимания относительно самых сложных понятий, и в любых ситуациях. Отчего это происходит?
* (В. М. Глушков, Мышление и кибернетика, "Вопросы философии", 1963, № 1, стр. 37-38. )
** ( В. М.. Глушков, Мышление и кибернетика, "Вопросы философии", 1963, № 1, стр. 38. )
Видимо, ответ на этот вопрос частично следует искать в одной мысли основоположника семиотики Ч. Пирса, которую он настойчиво повторяет во многих своих работах. Ее можно истолковать так. В современной лингвистике язык принято определять как систему знаков. Это исходная предпосылка для всего лингвистического анализа. Если это так, то язык не просто система знаков, а система взаимно интерпретирующих друг друга знаков, существующих в языке постольку, поскольку они интерпретированы в других знаках. Ч. Пирс формулирует это следующим образом: "Ни один знак не может функционировать в качестве знака, если он не интерпретирован в другом знаке. Следовательно, для знака абсолютно существенно, чтобы он воздействовал на другой знак" * . И в другом месте: "Все назначение знака состоит в том, что он будет интерпретирован в другом знаке" ** . И пожалуй, наиболее важное: "Знак не есть знак, если только он не переводит себя в другой знак, в котором он получает более полное развитие" *** .
* (Ch. Peirce, Collected Papers, Cambridge, Mass., vol. 8, §. 225. )
** (Tам ж e, §. 191. )
*** (Ch. Peirce, Collected Papers, Cambridge, Mass., vol. 5, § 594. )
Следовательно, естественный язык есть система знаков, которые посредством взаимной интерпретации получают возможность отвечать на все потребности человека в смысловом выражении. Но здесь необходима одна существенная оговорка. Ведь все потребности этого рода обусловливаются отношением человека к явлениям внешнего мира и общественной средой, в которой протекает его жизнь. В силу этого обстоятельства трансформационная семантика, если бы ее удалось создать, не может опираться лишь на правила взаимной интерпретации знаков, носить закрытый и конечный характер. Она оказывается производной от очень большого количества величин, всячески противящихся формализации * .
* ( P. Якобсон в данной связи констатирует: "Мы можем построить чисто лингвистическую семантику, если примем положение Пирса о том, что существенная особенность каждого языкового знака состоит в том, что он может быть переведен другим языковым знаком, более развернутым, более эксплицитным или, напротив, более эллиптичным знаком той же самой или другой языковой системы. Именно благодаря этой переводимости вскрываются те семантические инварианты, которые мы ищем в означающем. Таким образом, мы получаем возможность решать семантические проблемы языка также с помощью дистрибутивного анализа" (выступление на 1-м Международном симпозиуме "Знак в системе языка", Эрфурт, ГДР, 1959). Цитировано по книге: В. А. 3вегинцев, История языкознания XIX - XX веков в очерках и извлечениях, ч. 2, М., 1965, стр. 398.
В связи со сказанным важно рассмотреть особенности процедуры решения задач и само понятие решимости в логике и математике, с одной стороны, и в лингвистике - с другой.
Прежде чем в математике приступить к решению проблемы, она должна быть сформулирована в точных терминах - само это формулирование является предпосылкой успешного решения проблемы. При этом, как уже указывалось, математик может свободно трансформировать данное формулирование проблемы в эквивалентный вариант - математика располагает для этого и соответствующими средствами. Уже на этой первичной стадии исследовательской методики лингвистика существенно отличается от математики. При формулировании своих проблем лингвист располагает некоторым количеством наблюденных эмпирических данных, которым он не всегда может дать точную формулировку, но которые тем не менее он волей-неволей должен класть в основу своего исследования, уже в процессе самого этого исследования. Чтобы не идти далеко за примерами, можно сослаться на лингвистическое значение, которое составляет основу всей работы в области автоматической переработки речевой информации, но вместе с тем определяется весьма туманно и разноречиво. Именно это обстоятельство и заставляет исследователей в этой области постоянно менять свою стратегию.
Но вот исследование начато и достигнуто какое-то решение. Что это значит применительно к логике и математике и применительно к лингвистике? Логика, как указывалось выше, дает возможность эксплицитно представить заключения, имплицитно присутствующие в предпосылке, но она не располагает правилами, использование которых может гарантировать, что при этом будет добыто желаемое решение, так как она есть не средство достижения новых выводов, а всего лишь методика определения их правильности. Она - не волшебный ключ ко всем тайнам. Совершенно очевидно, что если бы логика обладала подобными правилами, то тогда бы не было и нерешенных проблем. Достаточно было бы приложить определенный набор логических правил, и мы бы автоматически получали готовый ответ на любой мучающий нас вопрос. В свете сказанного специфическое значение приобретает и понятие решимости проблемы или задачи.
В логике и в математике всякий конечный результат признается истинным, если в процессе доказательства не было нарушено никакое формальное правило. Так как при этом возможны разные пути доказательства, допустимо существование различных решений. Но все они могут быть подвержены проверке с точки зрения требования логики или математики. По-иному обстоит дело в лингвистике. Она не располагает аппаратом, с помощью которого можно проверить или доказать правильность полученных выводов. Соответственно с этим определяется и истинность достигнутых решений - она устанавливается не формальными правилами, а своим соответствием данным опыта. При этих условиях теоретически следовало бы ожидать единого конечного решения. Однако практически, как свидетельствуют об этом разноречивые лингвистические определения даже основных категорий языка, это не имеет места. Известный субъективизм оценок в этом случае всегда присутствует, и он до известной степени определяется объемом фактов (и, разумеется, их характером), находящихся в распоряжении исследователя. Отсюда следует, что "истинность" решения в лингвистике всегда дается в некотором приближении и имеет не детерминативный характер, а вероятностный.
В этих условиях очень важно правильность лингвистических определений и истолкований подвергнуть проверке на основе объективных критериев. Возможность такой проверки дает широкая область прикладной лингвистики, где естественному языку противостоит машина, представляющая в этом противопоставлении интересы логики и математики.
5
Для решения практических задач прикладной лингвистики используется цифровая вычислительная машина. Она способна воспринимать, хранить, передавать, перегруппировывать и выдавать информацию. Она интерпретирует и выполняет набор команд (программу команд), а также модицифирует их в процессе выполнения задания. Она в состоянии решать весьма сложные проблемы, но при этом весь процесс перехода от задания к решению должен быть исчерпывающе и непротиворечиво описан в терминах последовательности основных элементарных операций. Информация вводится в машину с помощью двузначного (бинарного) кода, или языка. Машина оперирует закодированными таким образом словами, соответствующими основным логическим связям или функциям исчисления высказываний или предикатов. Машина может решать сложные математические задачи именно в силу того, что сложные математические операции оказывается возможным свести к последовательности арифметических операций, а эти последние, в свою очередь к логическим операциям. Следовательно, цифровую вычислительную машину можно рассматривать как логическую машину.
Таким образом, какой бы сложности ни была задача, машина решает ее с помощью последовательности элементарных операций, программа которых должна быть сформулирована абсолютно недвусмысленно (непротиворечиво), точно, детально и исчерпывающе полно. Другими словами, она не должна выходить за те пределы, которые устанавливаются логическим исчислением высказываний, и, когда мы задаемся вопросом, может ли машина совладать с обработкой информации, заключенной в естественных языках, нам прежде всего нужно выяснить, в какой степени логическое исчисление высказываний является адекватной моделью для естественного языка.
Учитывая специфику цифровой вычислительной машины, описанную выше, первое, что необходимо сделать, чтобы машина "поняла" задание и начала обработку речевой информации в соответствии с этим заданием, заключается в переформулировке информации, содержащейся в естественном языке, на логический язык. Дело, следовательно, идет о переводе естественного языка на язык логического исчисления высказываний. При этом, как показал Бар-Хиллел * , приходится сталкиваться с такими трудностями, которые рисуют перспективы автоматической обработки в весьма мрачном свете, если не будет изменено все направление поисков решения данной проблемы. По меньшей мере придется считаться со следующими препятствиями, для преодоления которых мы пока не располагаем необходимыми средствами.
* ( Y. Вar-Hillel, A Demonstration of the Nonfeasibility of Fully Automatic High Quality Translation, "Advances in Computers:", vol. 1, New York, 1960, pp. 158-163. )
А. Логическое исчисление высказываний слишком бедно для того, чтобы можно было бы даже с далеким приближением произвести на него переформулировку естественного языка, невероятно сложного по своей семантической структуре, обладающего огромным объемом избыточных элементов и - самое главное - часто отличающегося такой неясностью и неопределенностью в выражении "смысла", что никакая двузначная логика не способна справиться с созданием искусственного двойника естественного языка * . Правда, логика, как указывалось, имеет дело лишь с лингвистической формой. Но поскольку дело идет об автоматической обработке информации, необходимо уметь различать и семантическую информацию, и если этого невозможно достичь с помощью имеющихся в нашем распоряжении логических средств, то откуда мы можем почерпнуть уверенность, что наш перевод естественного языка на логический правилен?
* ( В статье Ч. Хоккета "Грамматика для слушающего" приводится много примеров такого рода сложностей в "естественном" понимании предложения, которые разрешаются последующими и далеко уходящими шагами анализа (Сh, Hockett, Grammar for the Hearer, "Structure of Language and its Mathematical Aspects", Providence, 1961, pp. 220-236). )
Б. Машина не может учитывать того, что Бар-Хиллел называет "общими предварительными данными информации" (general background of information), которые фактически остаются за пределами естественного языка и поэтому не подлежат переводу на логический язык. Лингвисты в этих случаях говорят о вне языковом контексте (frame of reference), который неприметным для нас, но очень решительным образом корректирует или даже подвергает полному переосмыслению все наши слова. Ведь даже такая простая фраза, как "Я вернусь засветло", для точного ее понимания и определения содержащегося в ней временного указания, как минимум, требует предварительного знания того, когда, где она была произнесена и в какое время года. Только подобного рода предварительная информация часто является единственным средством для уяснения тех внутрифразовых отношений, с которыми не в состоянии справиться ни исчисление высказываний, ни исчисление предикатов. Так, беря для примера два промелькнувших в газетах предложения:
Аспирант университета из города Курска;
Заслуженный рационализатор Сибири,-
мы видим, что каждое из них может быть истолковано двояким образом. Если придерживаться лишь формально-грамматических признаков, то первое предложение с одинаковым успехом можно понять и как "Аспирант из университета, расположенного в городе Курске" и как "Аспирант университета, проживающий в городе Курске (или происходящий из города Курска)". А второе предложение может быть трактовано и как "Заслуженный рационализатор, полем деятельности которого является Сибирь" и как "Заслуженный рационализатор, являющийся жителем Сибири". И только предварительные и никак не выраженные в предложениях знания (предварительная информация), констатирующие, что в городе Курске нет университета и что "заслуженный рационализатор" есть почетное звание, присваиваемое в Советском Союзе отдельными административными округами, дают возможность правильного понимания этих предложений. Если внимательно приглядеться, то почти за каждой фразой разговорного языка стоит весьма основательная и разветвленная предварительная информация, само собой разумеющаяся для человека, но лежащая за пределами "разумения" машины, которая не знает ни рода, ни племени.
В. Машина не может делать внутритекстовые смысловые заключения, распространяющиеся на несколько предложений (а иногда даже намеренно на целый рассказ, чтобы до конца не раскрыть его персонажа или сюжетного хода). На это обстоятельство обратил внимание голландский лингвист А. Рейхлинг * , иллюстрируя свою мысль следующим примером. Допустим, что мы читаем некое повествование, которое начинается предложением: "Я играю с моим братом". Если мы на этом остановимся, то в нашем распоряжении не будет никаких данных для выяснения того, как же следует понимать эту фразу, о какой игре здесь идет речь. Ведь можно играть на деньги (в карты и пр.), на музыкальном инструменте, в театре или в кино, в игрушки, в футбол, играть для забавы, играть человеком и его судьбой и т. д. Но вот мы читаем дальше: "Я сказал это, когда Вильгельм однажды встретился мне в баре". Теперь уже с большей вероятностью мы можем заключить, что, по-видимому, речь идет об игре на деньги. Но все же существуют и другие возможности. Далее следует: "Мой брат подошел к столу, и кости были брошены". Теперь ясно, о какой игре идет речь, хотя нигде в тексте точного указания на действительный смысл слова "игра" не было дано. Мы догадались о нем по совокупности тех внешних примет, которые даны в тексте в разных предложениях. Эти приметы следуют здесь одна вслед за другой, но они в письменном повествовании могут и значительно отстоять друг от друга. Человек может выбрать их из широкого языкового контекста (в данном случае мы имеем дело с ним), сопоставить и затем уже сделать соответствующее умозаключение. Машина же лишена этой возможности.
* (На коллоквиуме, организованном в 1961 г. Stichting Studiecentrum voor Administrative Automatisering. Имеется и немецкий перевод доклада: A. Rеiсhling, Moglichkeiten und Grenzen der mechanischen Ubersetzung, aus der Sicht des Linguisten, "Beitrage zur Sprachkunde und Informationsverarbeitung", Heft 1, Wifcn, 1963. )
Но, может быть, этого и не надо ей? И действительно, при машинном переводе данных предложений на немецкий или французский особых трудностей не возникает (но трудности, конечно, возникнут при переводе других предложений). При переводе на немецкий мы можем употребить буквализм: Ich spile mit meinem Bruder. Точно так же и во французском мы можем начать: Je joue avec... Уже при переводе на английский возникают сложности грамматического порядка, так как в приведенном тексте нет никаких указаний на то, какую форму должна выбрать машина: 1. I am play ing with my brother, 2. I play with my brother или 3. I"ll play with my brother? И уж совсем скверно получается при переводе на испанский язык, так как машине придется выбирать по меньшей мере между тремя глаголами: jugar, tocar или trabajar.
Тут логический язык беспомощен.
Г. Машина фактически имеет дело с речью (или, точнее, с речевыми отрезками) - в ее письменной и устной форме. Каждая из этих форм речи имеет свою систему прагматических элементов, способных к тому же переходить в семантические (а правила такого перехода и не изучены и во многом произвольны). Так, например, устная речь обладает такой супрасегментной надстройкой, как интонация. Интонацию ныне представляется возможным классифицировать по функциональным типам и выделять вопросительную, повествовательную и прочие интонации. Однако совершенно бесспорно, что интонация существует не автономно от предложений; она, конечно, взаимодействует со смыслом, заключенным в них. В подтверждение этого утверждения достаточно сослаться на риторический вопрос, который является вопросом только по внешней своей структуре, но не является вопросом по значению: он не требует ответа со стороны слушающих. Так возникает новый вид трудностей, с которыми логический язык не имеет возможности справиться.
Д. Методика автоматической обработки речевой информации (и, в частности, машинного перевода) исходит из предположения, что любое предложение, да и язык в целом, "разбирается" на некоторое количество элементарных смысловых единиц (слов), из которых затем можно по определенным правилам "собирать" заданные предложения. Следствием этого предположения является другое, в соответствии с которым смысл предложения представляет арифметическую сумму смыслов составляющих его слов. Здесь за образец берется математика, где самые сложные операции, которые проделывает вычислительная машина, в конечном счете сводятся к предельно элементарным. Но в языке мы сталкиваемся с почти полностью противоположной картиной. Дело не только в том, что в разных языках предложения в смысловом отношении по-разному "разбираются" на части. Например:
Девушка идет. Девушка стоит. Шляпа идет девушке. Das Madchen geht. Das Madchen steht. Der Hut steht dem Madchen (буквально: Шляпа стоит девушке).Дело также и в том, что даже в пределах одного языка чаще всего не наблюдается арифметически правильных отношений между смыслом предложения и смыслами (значениями) составляющих его слов. По этому поводу Э. Бенвенист пишет: "Предложение реализуется посредством слов. Но слова-это не просто отрезки предложения. Предложение- целое, не сводящееся к сумме его частей, присущий целому смысл распределяется на всю совокупность компонентов" * . Речь при этом идет не об идиоматических выражениях (типа: "делать спустя рукава", "втирать кому-либо очки" и пр.), а о самых обычных предложениях. Возьмем элементарный пример:
Ждите! - пойду я в театр.
Можно ли утверждать, что смысл этого предложения представляет собой арифметическую сумму значений слов: ждать, пойти, театр, я, в? Исходя из такого арифметического представления, мы должны были бы ожидать, что любая комбинация этих слов, представленная в грамматически правильном предложении, сохранит тот же самый смысл - ведь от перестановки места слагаемых сумма слагаемых не изменяется. Но вот попробуем лишь слегка модифицировать данное предложение:
Я пойду в театр - ждите!
Мы видим, что по своему смыслу это второе предложение значительно отличается от первого.
* (Е. Benveniste, Les niveaux de Г analyse linguistique, "Preprints of Papers for the Ninth International Congress of Linguists", Cambridge, Mass., 1962, p. 497 )
Это - из числа предельно элементарных примеров, а если обратимся к более сложным, то бессилие любых трансформационных правил, которым должны быть подведомственны такие случаи, станет особенно очевидным. Иначе и быть не может: ведь предложение представляет собой последовательность моносем, а моносема (см. раздел "Система семантических исследований"), как синтаксическая конфигурация, больше слова. Это обстоятельство приводит к тому, что предложение, как последовательность моносем, есть последовательность взаимоопределяющихся элементов, связанных друг с другом в смысловом отношении в неразрывную цепочку, которую схематически и в сугубо обобщенном виде можно изобразить следующим образом * :
* ( См. "Приложение" в конце книги. )
Именно в силу указанных особенностей предложений между последними и словами имеется качественное различие. Если слова можно определять как знаки, то предложения, бесспорно, выходят за пределы знакового уровня.
Вопрос о "разложимости" языка и предложений упирается в более общий. Есть структуры, способные выполнять свои функции лишь в своем сложном составе. При попытке разложить их на более мелкие части или свести к более элементарным структурам они фактически распадаются, перестают существовать как таковые, утрачивают качества, свойственные им в их сложном составе. Таков язык. Это понимал В. Гумбольдт (подходя, правда, к данному вопросу несколько с иной стороны), когда писал: "Для того чтобы человек мог понять хотя бы одно-единственное слово не просто как душевное побуждение (т. е. рефлекторно.- В. З.), а как членораздельный звук, обозначающий понятие, весь язык полностью и во всех своих связях-уже должен быть заложен в нем. В языке нет ничего единичного, каждый отдельный его элемент проявляет себя лишь как часть целого" * . Переведя это суждение В. Гумбольдта на язык современной науки, мы получаем следующую формулировку, принадлежащую М. Таубе: "...нетрудно понять, что язык как система содержательных символов, устных или письменных, не есть формальная система и не может быть сведен к ней без разрушения его истинной природы... Когда язык формализован, он перестает быть языком и становится кодом" ** .
* (В. Гумбольдт, О сравнительном изучении языков применительно к различным эпохам их развития. Цитировано по книге: В. А. Звегинцев, История языкознания XIX - XX веков в очерках и извлечениях, ч. I, М., 1964, стр. 79. )
** (М. Таубе, Вычислительные машины и здравый смысл, М.* 1964, стр. 18. )
Но если даже удастся справиться с перечисленными языковыми трудностями, существуют еще препятствия собственно логического порядка - речь в данном случае идет о так называемых "правилах разрешения" (decision rules). Ведь если мы хотим быть уверенными, что машина будет действовать логически безукоризненно, мы должны снабдить ее набором правил, следуя которым она и сможет последовательно пройти путь от исходной информации к потребным выводам. Применительно к логическим исчислениям высказываний мы располагаем такими правилами, но для более сложных логик таких правил нет, и, более того, есть основания полагать, что такие правила нельзя и найти. Если же ориентироваться на те правила, которые имеются уже в нашем распоряжении, то использование их сделает процесс разрешения настолько сложным (даже при применении усовершенствованных вычислительных машин), что игра не будет стоить свеч * .
* (Чтобы показать, какую работу приходится делать вычислительной машине, работающей методом последовательных шагов, А. Л. Сэмюэль обращается к примеру игры в шашки. Он пишет: "Чтобы заставить вычислительную машину играть в шашки, мы прежде всего должны изобразить положение шашек на доске по способу, который вычислительная машина могла бы запомнить. Затем последствия каждого из имеющихся ходов должны анализироваться заглядыванием в будущее, как это в общем делал бы человек, рассматривая каждый начальный ход по очереди, затем - все возможные ответные ходы противника, затем для каждого из них - все контрответы и т. д. Даже если мысленно перенестись в будущее, к наибыстрейшей возможной машине, подчиненной лишь таким ограничениям, как размеры вселенной, молекулярная природа материи и конечная скорость света, то и такой вычислительной машине потребовались бы многие столетия, а может быть, и более длительный срок, чем даже возраст вселенной, чтобы сделать свой первый ход" (А. Л. Сэмюэль, Искусственный разум: прогресс и проблемы. Приложение к книге: М. Таубе, Вычислительные машины и здравый смысл, М., 1964* стр. 140-141). )
В таком виде рисуется проблема применения логических и математических методов в науке о языке на основании данных прикладной лингвистики. Каковы же выводы? Выводы уже формулировались выше - логический анализ допускает сочетание индуктивных методов с дедуктивными, но, когда мы говорим об использовании в лингвистике дедуктивных методов, не следует все сводить к слепому подчинению лингвистического исследования логико-математическим методам. Естественный язык восстает против такого насилия. И практика прикладной лингвистики подтверждает эти выводы, устанавливая, что между формализованным логическим языком и естественным языком такие различия, что достаточно полный (в информативном плане) перевод второго в первый невозможен. Значит ли это, что в лингвистике (и, в частности, прикладной) следует отказаться от использования логико-математических методов? Конечно, нет. Но только не следует переоценивать их возможностей. Пока они довольно скромны. И чтобы не быть тут голословными, обратимся к свидетельству математиков и логиков, которым в практике своей работы приходится применять свои знания к исследованию естественного языка.
Вот что говорит математик: "Помощь математики в изучении естественного языка еще далека от очевидности... Прежде чем мы можем думать об использовании математики для исчисления, необходимо определить границы и функции лингвистических единиц... Это - вне математическая задача, она является частью индуктивных методов в лингвистике.
Выяснилось, что математика не заменяет эмпирической методологии, хотя некоторые лингвисты и стремятся к этому. Наоборот, только после того, как единицы и отношения естественного языка будут установлены индуктивным методом и соответствующим образом подтверждены (верифицированы), будут созданы необходимые условия для реалистического применения математики к естественному языку. При этом математики либо обнаружат, что они имеют дело с новой манифестацией того, что по своей сущности уже знакомо им, либо получат стимул для математического мышления нового порядка" * .
* (P. Garvin and W. Karush, Linguistics - data Processing and Mathematics, "Natural Language and the Computer", New York, 1963, pp. 368-369. См. также в той же книге статью: W. Ksrush, The Use of Mathematics in the Behavioral Sciencess, pp. 64-83. )
А вот что говорит логик: "Перспективы автоматической обработки речевой информации очень хороши, но роль логики в этой области ограничена. Впрочем, как орудие лингвистического анализа, не как набор правил для выведения заключений, она дает реальные обещания" * . И далее он устанавливает, какая исследовательская стратегия при этом более предпочтительна: "Проблемы следует решать не посредством непреклонного следования набору правил, установленных логиком, а скорее с помощью эвристической техники ** ... Следует предпочитать эмпирический индуктивный подход к автоматической обработке речевой информации, при котором ищутся грубые правила для решения информационных проблем. Не следует пытаться переводить обычный язык на логический с целью последующей обработки его, но, скорее, искать правила эвристического типа, которые позволят совладеть с естественным языком. Следует прекратить поиски абсолютной достоверности и обратиться к приближенным методам, которые, с накоплением опыта, будут уточнены и усовершенствованы. Мы предпочитаем рассматривать апроксимации таким же образом, каким рассматривают теорию в науке, где видоизменения и усовершенствования делаются на основе данных, полученных в результате эксперимента" *** .
* (М. Maron, A Logician"s View of Language - data Processing, указанная книга, стр. 144. )
** (Достаточно ясное представление об эвристической методике дает A. Л. Сэмюэль. Противопоставляя ее формальной методике логической процедуры, он пишет, что вместо нее можно применять методику, "где несколько более или менее произвольно выбранных процедур исследуются довольно неполным образом и каждая дает некоторый ключ для ориентировки, на правильном ли мы пути* пока, наконец, через серию догадок мы не придем к формулировке удовлетворительного доказательства. В обоих приведенных случаях мы можем иногда прийти к правильному или хотя бы к очень хорошему ответу за изумительно короткий отрезок времени, но вместе с тем отсутствует уверенность в том, что мы вообще когда-либо получим решение, как и уверенность, что представляющееся нам решение наилучшее. Такой метод решения задач получил название "эвристической" процедуры в отличие от применения "алгоритма"... Эвристическое решение задач, когда оно успешно, должно, конечно, расцениваться как более высокая умственная активность, чем решение задач посредством более или менее автоматической процедуры". Цитировано по русскому переводу: A. Л. Сэмюэль, Искусственный разум: прогресс и проблемы. Приложение к книге: М. Таубе, Вычислительные машины и здравый смысл, М., 1964, стр. 136-137. )
*** (М. Мarоn, указ. соч., стр. 143-144, )
Таковы общие выводы. Они говорят о том, что в совместной работе с логиками и математиками лингвистам принадлежит ведущая роль. В обязанность лингвистов входит подготовка языкового материала таким образом, чтобы сделать его доступным обработке логико-математическими методами. Именно в этом направлении следует искать реалистического сочетания в лингвистике индуктивных методов с дедуктивными. А когда при решении задач прикладной лингвистики речь идет об эвристических гипотезах, то они в первую очередь должны исходить от лингвиста, так как он ближе к языку и по своей должности обязан лучше знать и понимать его.
Ануфриева Анастасия, Ивлев Михаил, Мирошников Всеволод, Артюх Екатерина
Работа учащихся 5 класса. Исследовательский проект: "Математическая лингвистика". Групповая работа по предметам- математика и иностранный язык.
Скачать:
Предварительный просмотр:
Главное управление образования мэрии города Новосибирска
Дворец творчества детей и учащейся молодежи «Юниор»
Открытый городской конкурс исследовательских проектов
учащихся 5-8 классов
Направление: естественно-математический проект
Математическая лингвистика
Ивлев Михаил,
Мирошников Всеволод,
Артюх Екатерина
МБОУСОШ№26, 5 класс
Калининский район г. Новосибирска
Консультанты проекта: Ясюренко Майя Дмитриевна,
Учитель математики и информатики,
Севастьянова Татьяна Сергеевна,
учитель английского языка
I квалификационной категории.
Контактные телефоны руководителей:
8-952-924-02-66 (Ясюренко М.Д.)
8-913-896-81-77 (Севастьянова Т.С.)
г. Новосибирск 2013
Проект: «Математическая лингвистика»
Участники проекта: Ануфриева Анастасия, Ивлев Михаил, Мирошников Всеволод, Артюх Екатерина.
Консультанты проекта: Ясюренко Майя Дмитриевна, учитель математики и информатики. Севастьянова Татьяна Сергеевна, учитель английского языка I
квалификационной категории.
Класс: 5А
Название, номер учебного учреждения, где выполнялся проект: МБОУСОШ№26, Калининского района, города Новосибирска
Предметная область: математика, иностранный язык.
Время работы над проектом: ноябрь 2012г. - февраль 2013г.(долгосрочный)
Цель проекта: поиск точек соприкосновения математики и лингвистики.
Задачи:
- Познакомиться с историй развития математики и становления лингвистики.
- Найти отдельные примеры применения математики в лингвистике.
- Изучить перспективы применения математических методов в лингвистике. Сделать выводы.
Тип проекта (по виду деятельности): поисковый, исследовательский
Используемые технологии: мультимедия
Форма продукта проекта: «Математическая лингвистика» (мультимедийная презентация).
Исследование:
- отбор и изучение теоретического материала по данной теме;
- обработка полученной информации;
- определение перспектив применения математических методов в лингвистике.
Область применения результата проекта: учебная (математика, иностранный язык).
Введение…………………………………………………………………………..2
Глава 1. История применения математических методов в лингвистике
1.1. История математики………………………………………………………....3
1.2. Становление лингвистики…………………………………………………...4
1.3. Математическая лингвистика……………………………………………….8
Глава 2. Отдельные примеры использования математики в лингвистике
2.1. Изучение языка методами формальной логики…………………………11
2.2. Перспективы применения математических методов в лингвистике…...13
Заключение...……………………………………………………………………14
Литература………………………………………………………………………15
Введение.
В ХХ веке наметилась тенденция к взаимодействию и взаимопроникновению различных областей знаний. Постепенно стираются грани между отдельными науками; появляется всё больше отраслей умственной деятельности, находящихся «на стыке» гуманитарного, технического и естественнонаучного знания.
Другая очевидная особенность современности – стремление к изучению структур и составляющих их элементов. Поэтому всё большее место как в научной теории, так и на практике уделяется математике. Математика всё глубже проникает в те сферы, которые на протяжении долгого времени было принято считать чисто «гуманитарными», расширяя их эвристический потенциал (ответ на вопрос «сколько» часто помогает ответить и на вопросы «что» и «как). Исключением не стало и языкознание.
Цель нашей работы – кратко осветить связь математики с такой отраслью языкознания, как лингвистика. Первоначально математические методы в лингвистике стали использоваться для того, чтобы уточнить основные понятия языкознания, однако с развитием компьютерной техники подобная теоретическая посылка стала находить применение на практике. Разрешение таких задач, как машинный перевод, машинный поиск информации, автоматическая обработка текста требовало принципиально нового подхода к языку. Перед лингвистами назрел вопрос: как научиться представлять языковые закономерности в том виде, в котором их можно подавать непосредственно на технику. Популярным в наше время термином «математическая лингвистика» называют любые лингвистические исследования, в которых применяются точные методы (а понятие точных методов в науке всегда тесно связано с математикой). В лингвистике используются как количественные (алгебраические), так и неколичественные методы, что сближает её с математической логикой, а, следовательно, и с философией, и даже с психологией. Немецкий философ, лингвист Фридрих Шлегель отмечал взаимодействие языка и сознания, а видный лингвист начала ХХ века Фердинанд де Соссюр связывал структуру языка с его принадлежностью к народу. Взаимодействие математики и языкознания – тема многогранная, и в нашей работе мы остановимся не на всех, а, в первую очередь, на её прикладных аспектах.
Глава 1. История применения математических методов в лингвистике.
1.1. История математики.
В истории математики традиционно выделяются несколько этапов развития математических знаний:
- Формирование понятия геометрической фигуры и числа как идеализации реальных объектов и множеств однородных объектов. Появление счёта и измерения, которые позволили сравнивать различные числа, длины, площади и объёмы.
- Изобретение арифметических операций. Накопление эмпирическим путём (методом проб и ошибок) знаний о свойствах арифметических действий, о способах измерения площадей и объёмов простых фигур и тел. В этом направлении далеко продвинулись шумеро вавилонские , китайские и индийские математики древности.
- Появление в древней Греции дедуктивной математической системы, показавшей, как получать новые математические истины на основе уже имеющихся. Венцом достижений древнегреческой математики стали «Начала» Евклида , игравшие роль стандарта математической строгости в течение двух тысячелетий.
- Математики стран ислама не только сохранили античные достижения, но и смогли осуществить их синтез с открытиями индийских математиков, которые в теории чисел продвинулись дальше греков.
- В XVI-XVIII веках возрождается и уходит далеко вперёд европейская математика. Её концептуальной основой в этот период являлась уверенность в том, что математические модели являются своего рода идеальным скелетом Вселенной, и поэтому открытие математических истин является одновременно открытием новых свойств реального мира. Главным успехом на этом пути стала разработка математических моделей зависимости переменных величин (функция ) и общая теория движения (анализ бесконечно малых ). Все естественные науки были перестроены на базе новооткрытых математических моделей, и это привело к колоссальному их прогрессу .
- В XIX-XX веках становится понятно, что взаимоотношение математики и реальности далеко не столь просто, как ранее казалось. Не существует общепризнанного ответа на своего рода «основной вопрос философии математики»: найти причину «непостижимой эффективности математики в естественных науках». В этом, и не только в этом, отношении математики разделились на множество дискутирующих школ. Наметилось несколько опасных тенденций: чрезмерно узкая специализация, изоляция от практических задач и др. В то же время мощь математики и её престиж, поддержанный эффективностью применения, высоки как никогда прежде.
Помимо большого исторического интереса, анализ эволюции математики представляет огромную важность для развития философии и методологии математики. Нередко знание истории способствует и прогрессу конкретных математических дисциплин; например, древняя китайская задача (теорема) об остатках сформировала целый раздел теории чисел .
Обоснование математики
К началу XIX века относительно строгое логическое (дедуктивное) обоснование имела только евклидова геометрия, хотя строгость её уже тогда справедливо считалась недостаточной. Свойства новых объектов (например, комплексных чисел , бесконечно малых и т. д.) попросту считались в целом такими же, как у объектов уже известных; если же такая экстраполяция была невозможна, свойства подбирались опытным путём.
Огюстен Луи Коши
Построение фундамента математики началось с анализа. В 1821 году Коши опубликовал «Алгебраический анализ», где чётко определил основные понятия на основе концепции предела. Всё же он сделал ряд ошибок, например, почленно интегрировал и дифференцировал ряды, не доказывая допустимость таких операций. Завершил фундамент анализа Вейерштрасс , который выяснил роль важного понятия равномерной непрерывности . Одновременно Вейерштрасс (1860-е годы) и Дедекинд (1870-е) дали обоснование теории вещественных чисел .
Подписи к слайдам:
Математическая лингвистика Авторы: Ануфриева Анастасия, Ивлев Михаил, Мирошников Всеволод, Артюх Екатерина МБОУСОШ№26, 5 класс Калининский район г. Новосибирска Консультанты проекта: Ясюренко Майя Дмитриевна, учитель математики и информатики, Севастьянова Татьяна Сергеевна, учитель английского языка I квалификационной категории.
Цель проекта: поиск точек соприкосновения математики и лингвистики.
Задачи проекта: Познакомиться с историй развития математики и становления лингвистики. Найти отдельные примеры применения математики в лингвистике. Изучить перспективы применения математических методов в лингвистике. Сделать выводы.
В ХХ веке наметилась тенденция к взаимодействию и взаимопроникновению различных областей знаний. Постепенно стираются грани между отдельными науками; появляется всё больше отраслей умственной деятельности, находящихся «на стыке» гуманитарного, технического и естественнонаучного знания.
Этапы развития математических знаний: Формирование понятия геометрической фигуры и числа как идеализации реальных объектов и множеств однородных объектов. Появление счёта и измерения, которые позволили сравнивать различные числа, длины, площади и объёмы.
Изобретение арифметических операций. Появление в древней Греции дедуктивной математической системы. Математики стран ислама не только сохранили античные достижения, но и смогли осуществить их синтез с открытиями индийских математиков, которые в теории чисел продвинулись дальше греков.
В XVI-XVIII веках возрождается и уходит далеко вперёд европейская математика. В XIX-XX веках становится понятно, что взаимоотношение математики и реальности далеко не столь просто, как ранее казалось.
Огюстен Луи Коши
История языкознания в своём развитии прошла 5 периодов. 1 период – 5-4 вв. до н.э. – XVI вв. 2 период – XVII-XVIII вв. 3 период – конец XVIII-первая половина XIX вв. 4 период – период системного изучения языка – конец XIX – первая треть XX вв. 5 период – 30-е годы XX в. по настоящее время.
Математическая лингвистика: Изучает особенности семиотического и математического моделирования естественного языка (и речи) с целью перевода информации, содержащейся в неформализованном виде в тексте, на формализованный искусственный язык (например, на некоторый информационный язык) на основе такого математического аппарата, как теория множеств и алгебра отношений, теория нечетких множеств и лингвистической переменной, теория вероятностей и математическая статистика, а так же элементов теории информации. Тесно связана с инженерной лингвистикой. Отрасль языкознания, занимающаяся изучением возможностей применения математических методов к исследованию и описанию языка.
Метаязык – это язык, используемый для выражения суждений о другом языке, языке-объекте. С помощью метаязыка изучают структуру знакосочетаний (выражений) языка-объекта, доказывают теоремы о его выразительных свойствах, об отношении его к другим языкам и т. п.
Лингвистика в современном мире стала фундаментом для развития информационных технологий. Пока информатика остаётся бурно развивающейся отраслью человеческой деятельности, союз математики и лингвистики продолжит играть свою роль в развитии науки.
В течение последнего столетия языкознание всегда приводилось как пример науки, развивавшейся стремительно и очень быстро достигшей методической зрелости. Уже в середине прошлого столетия молодая наука уверенно заняла место в кругу наук, обладавших тысячелетней традицией, а один из виднейших ее представителей - А. Шлейхер - имел смелость полагать, что своими трудами он подводит уже итоговую линию.<113> История лингвистики, однако, показала, что такое мнение было слишком поспешно и неоправданно. В конце века языкознание претерпело первое большое потрясение, связанное с критикой младограмматических принципов, за которым последовали и другие. Следует при этом отметить, что все кризисы, которые мы можем вскрыть в истории науки о языке, как правило, не расшатывали ее основ, но, наоборот, способствовали укреплению и в конечном счете приносили с собой уточнение и усовершенствование методов лингвистического исследования, расширяя вместе с тем и научную проблематику.
Но рядом с языкознанием жили и развивались также и другие науки, в том числе и большое количество новых. Особенно бурное развитие в наше время получили физические, химические и технические (так называемые «точные») науки, а над всеми ними воцарилась их теоретическая основа - математика. Точные науки не только сильно потеснили все гуманитарные науки, но в настоящее время стремятся «привести их в свою веру», подчинить своим обычаям, навязать им свои исследовательские методы. При создавшемся положении, используя японское выражение, можно сказать, что ныне языковеды-филологи оскверняют собой самый краешек циновки, где торжествующе и привольно расположились точные науки во главе с математикой.
Не целесообразнее ли с точки зрения общенаучных интересов капитулировать перед математикой, целиком отдаться во власть ее методов, к чему уже откровенно призывают некоторые голоса 5 9 , и тем самым, быть может, обрести новую силу? Чтобы ответить на эти вопросы, надо сначала посмотреть, на что претендует математика в данном случае, в какой области лингвистики находят свое применение математические методы, в какой мере они согласуются со спецификой языкового материала и способны ли они дать или даже только подсказать ответы на те вопросы, которые ставит перед собой наука о языке.
С самого начала следует отметить, что и среди энтузиастов нового, математического направления в лингви<114>стических исследованиях нет единства мнений относительно его целей и задач. Акад. А. А. Марков, первым применивший математические методы к языку, Болдрини, Юл, Мариотти рассматривают языковые элементы как подходящий иллюстративный материал для построения квантитативных методов, или для статистических теорем, совершенно не задаваясь вопросом, представляют ли интерес результаты такого исследования для лингвистов 6 0 . Росс полагает, что теория вероятностей и математическая статистика представляют инструмент или, как ныне предпочитают говорить, математическую модель для проверки и подтверждения тех лингвистических выводов, которые допускают числовую трактовку. Тем самым математические методы мыслятся лишь как вспомогательные средства лингвистического исследования 6 1 . На гораздо большее претендует Хердан, который в своей книге не только подытожил и систематизировал все попытки математического изучения языковых проблем, но и попытался дать им четкую ориентацию в отношении дальнейшей работы. Изложение всего материала своей книги он ориентирует на «понимание литературной статистики (так он называет изучение текстов методами математической статистики. -В. 3.) как неотъемлемой части лингвистики» 6 2 , а сущность и задачи этого нового раздела в языкознании формулирует в следующих словах: «Литературная статистика в качестве квантитативной философии языка применима ко всем отраслям лингвистики. По нашему мнению, литературная статистика есть структуральная лингвистика, поднятая на уровень квантитативной науки или же квантитативной философии. Таким образом, одинаково неправильно определять ее результаты как не относящиеся к области<115> лингвистики или же трактовать ее как вспомогательное средство для исследования» 6 3 .
Едва ли целесообразно вдаваться в теоретизирования относительно того, правомерно ли в данном случае говорить о возникновении новой отрасли лингвистики и решать вопрос о ее претензиях, не обратившись сначала к рассмотрению уже фактически сделанного в этой области, и к выяснению того, в каком направлении идет применение новых методов 6 4 . Это поможет нам разобраться и в разноголосице мнений.
Применение математического (или, точнее говоря, статистического) критерия для решения лингвистических вопросов является отнюдь не новым для науки о языке и в той или иной мере уже давно используется языковедами. Ведь, по сути говоря, такие традиционные понятия лингвистики, как фонетический закон (и связан<116>ное с ним - исключение из закона), продуктивность грамматических элементов (например, словообразовательных суффиксов) или даже критерии родственных отношений между языками в известной степени строятся на относительных статистических признаках. Ведь чем резче и отчетливее статистическое противопоставление наблюдаемых случаев, тем больше у нас оснований говорить о продуктивных и непродуктивных суффиксах, о фонетическом законе и исключениях из него, о наличии или отсутствии родственных отношений между языками. Но если в подобных случаях статистический принцип использовался более или менее стихийно, то в дальнейшем он стал применяться сознательно и уже с определенной целеустановкой. Так, в наше время большое распространение получили так называемые частотные словари лексики и выражений отдельных языков 6 5 или даже значений разноязычных слов с «общей направленностью на действительность» 6 6 . Данные этих словарей используются для составления учебников иностранных языков (тексты которых строятся на наиболее употребительной лексике) и словарей-минимумов. Специально лингвистическое использование статистические исчисления нашли в методе лексикостатистики или глоттохронологии М. Сводеша, где на основе статистических формул, учитывающих случаи исчезновения из языков слов основного фонда, оказывается возможным установить абсолютную хронологию расчленения языковых семейств 6 7 .
В последние годы случаи применения математических методов к языковому материалу значительно умножились и в массе подобного рода попыток наметились более или менее определенные направления. Обратимся <117> к последовательному их рассмотрению, не вдаваясь в детали.
Начнем с того направления, которому присвоено наименование стилостатистики. Речь в данном случае идет об определении и характеристике стилистических особенностей отдельных произведений или авторов через посредство количественных отношений используемых языковых элементов. В основе статистического подхода к исследованию стилистических явлений лежит понимание литературного стиля как индивидуального способа владения средствами языка. При этом исследователь совершенно отвлекается от вопроса о качественной значимости исчисляемых языковых элементов, сосредоточивая все свое внимание только на количественной стороне; смысловая сторона исследуемых языковых единиц, их эмоционально-экспрессивная нагрузка, так же как и их удельный вес в ткани художественного произведения - все это остается вне учета, относится к так называемым избыточным явлениям. Таким образом, художественное произведение выступает в виде механической совокупности, специфика построения которого находит свое выражение лишь через числовые отношения ее элементов. На все отмеченные обстоятельства представители стилостатистики не закрывают глаза, противопоставляя методам традиционной стилистики, несомненно включающим элементы субъективности, одно единственное качество математического метода, которое, по их мнению, окупает все его недостатки - объективность достигнутых результатов. «Мы стремимся, - пишет, например, В. Фукс,-...охарактеризовать стиль языкового выражения математическими средствами. Для этой цели должны быть созданы методы, результаты которых должны обладать объективностью в такой же мере, как и результаты точных наук... Это предполагает, что мы, во всяком случае первоначально, будем заниматься только формальными структурными качествами, а не смысловым содержанием языковых выражений. Таким образом мы получим систему порядковых отношений, которая в своей совокупности представит собой основу и исходный пункт математической теории стиля» 6 8 . <118>
Простейшим видом статистического подхода к изучению языка писателей или отдельных произведений является подсчет употребляемых слов, так как богатство словаря, видимо, должно определенным образом характеризовать и самого автора. Однако результаты подобных подсчетов дают несколько неожиданные в этом плане результаты и никак не способствуют эстетическому познанию и оценке литературного произведения, что не в последнюю очередь входит в число задач стилистики. Вот некоторые данные относительно общего количества слов, употребляемых в ряде произведений:
Библия (латинская) . . . . . . . . . . 5649 слов
Библия (древнееврейская) . . . . 5642 слова
Демосфен (речи) . . . . . . . . . . . . 4972 слова
Саллюстий. . . . . . . . . . . . . . . . . 3394 слова
Гораций. . . . . . . . . . . . . . . . . . . .6084 слова
Данте (Божественная комедия) 5860 слов
(сюда входит 1615 имен собственных и географич. названий)
Тассо (Неистовый Орланд) . . . . 8474 слова
Милтон. . . . . . . . . . . . . . . . . . . . .8000 слов (прибл. дан.)
Шекспир. . . . . . . . . . . . . . . . . . .15000 слов
(приблизительно, по другим данным 20 000 слов)
О. Есперсен указывает, что словарь Золя, Киплинга и Джека Лондона значительно превышает словарь Милтона, т. е. число в 8000 6 9 . Подсчет словаря речей президента США В. Вилсона установил, что он богаче, чем у Шекспира. К этому следует добавить данные психологов. Так, Терман на основе наблюдений над большим количеством случаев установил, что словарь среднего ребенка составляет около 3600 слов, а в 14 лет - уже 9000. Средний взрослый употребляет 11700 слов, а человек «повышенной интеллигентности» до 13500 7 0 . Таким образом, подобные числовые данные сами по себе не дают никаких оснований для выявления стилистических качеств произведений и только «объективно» кон<119>статируют употребление разного количества слов разными авторами, что, как показывают приведенные подсчеты, не связано с относительной художественной ценностью их произведений.
Несколько по-иному строятся подсчеты относительной частоты употребления слов у отдельных авторов. В этом случае учитывается не только общая сумма слов, но и частота употребления отдельных слов. Статистическая обработка полученного таким образом материала заключается в том, что слова с равной частотой употребления группируются по классам (или рангам), что приводит к установлению частотной дистрибуции всех употребляемых данным автором слов. Частным случаем такого рода подсчетов является определение относительной частотности специальных слов (например, романской лексики в произведениях Чосера, как это было сделано Мерсандом 7 1). Относительная частотность употребляемых авторами слов содержит такие же объективные сведения о стиле отдельных авторов, как и вышеприведенные суммарные подсчеты, с той только разницей, что в результате получаются более точные числовые данные. Но она используется и для датировки отдельных произведений одного и того же автора на основе предварительно произведенного подсчета относительной частоты употребления им слов в разные периоды его жизни (по датированным самим автором произведениям). Другим видом использования данных подобных подсчетов является установление подлинности авторства произведений, относительно которых этот вопрос представляется сомнительным 7 2 . В этом последнем случае все строится на сравнении статистических формул частоты употребления в подлинных и спорных произведениях. Нет надобности говорить об очень большой относительности и приблизительности результатов, полученных такими методами. Ведь относительная частота употребления меняется не только с возрастом автора, но и в зависимости от жанра, сюжета, а также и исторической среды действия произведения (ср., например, «Хлеб» и «Петр I» А. Толстого). <120>
Углубляя вышеописанный метод, стилостатистика в качестве стилевой характеристики стала прибегать к критерию стабильности относительной частоты наиболее употребительных слов. Применяемый в данном случае метод можно проиллюстрировать статистической обработкой рассказа Пушкина «Капитанская дочка», произведенной Есселсоном и Эпштейном в Институте славянских языков при Детройтском университете (США) 7 3 . Обследованию был подвергнут весь текст рассказа (около 30000 случаев употребления слов), а затем отрывки, содержащие около 10000 и 5000 случаев употребления. Далее, с целью определения стабильности относительной частоты употребления слов, у 102 наиболее употребительных слов (с частотой от 1160 раз до 35) было произведено сравнение расчетной относительной частоты (сделанной на основе выборочных отрывков) с действительной. Например, союз «и» во всем рассказе употреблялся 1 160 раз. В отрывке, содержащем 5 000 случаев употреблений всех слов, следует ожидать, что этот союз будет использоваться 5 000 x 1 160: 30 000, или округло 193 раза, а в отрывке, содержащем 10 000 случаев употреблений всех слов, он предположительно используется 10 000 x 1 160: 30 000, или 386 раз. Сравнение полученных с помощью подобного рода расчетов данных с фактическими показывает очень незначительное отклонение (в пределах 5%). На основе подобных расчетов было установлено, что в данном рассказе Пушкина предлог «к» используется в два раза чаще, чем «у», а местоимение «ты» в три раза чаще, чем «их» и т. д. Таким образом, несмотря на все перипетии сюжета, как на протяжении всего рассказа, так и в отдельных его частях, наблюдается стабильность относительной частоты употребления слов. То, что наблюдается в отношении некоторых (наиболее употребительных) слов, предположительно применимо и по отношению ко всем использованным в произведении словам. Отсюда следует, что стиль автора можно характеризовать определенным соотношением изменчивости средней частоты употребления слова к общей для данного языка<121> частоте его употребления. Это соотношение и рассматривается в качестве объективной квантитативной характеристики стиля автора.
Аналогичным образом исследуются и иные формальные элементы структуры языка. Так, например, В. Фукс подверг сопоставительно-статистическому рассмотрению метрические особенности произведений Гёте, Рильке, Цезаря, Саллюстия и др. 7 4
Критерий стабильности относительной частоты употребления слов, уточняя технику квантитативной характеристики стиля, ничего принципиально нового не вносит сравнительно с выше разобранными более примитивными способами. Все методы стилостатистики дают в конечном счете одинаково бесстрастные, скользящие по поверхности языка и цепляющиеся только за сугубо внешние признаки «объективные» результаты. Квантитативные методы, видимо, не способны ориентироваться на качественные различия исследуемого материала и фактически нивелируют все изучаемые объекты.
Там, где необходима максимальная конкретизация, предлагаются максимально обобщенные критерии; качественные характеристики выражаются языком количества. Здесь не только логическое противоречие, но и несогласие с природой вещей. В самом деле, что получится, если мы попытаемся получить сравнительную стилистическую (т. е., следовательно, качественную) характеристику произведений Александра Герасимова и Рембрандта на основании количественного отношения красной и черной краски на их полотнах? Видимо, абсолютная несуразица. В какой мере вполне «объективные» квантитативные сведения о физических данных человека способны дать нам представление о всем том, что характеризует человека и составляет его истинную сущность? Очевидно, ни в какой. Они могут служить лишь индивидуальным признаком, отличающим одного человека от другого, вроде отпечатка извилин на большом пальце руки. Аналогичным образом обстоит дело и с квантитативными характеристиками литературного стиля. Если внимательно разобраться, то они дают столь же скудные данные для суждения о действительных стилистических<122> качествах языка автора, как и описание извилин на пальце для изучения психологии человека.
Ко всему сказанному следует добавить, что в прошлом в так называемой формальной школе литературоведения уже делалась попытка квантитативного исследования стиля писателей, когда производились подсчеты эпитетов, метафор, ритмо-мелодических элементов стиха. Однако эта попытка не получила своего дальнейшего развития.
Другое направление применения математических методов для изучения языковых явлений можно объединить под именем лингвостатистики. Оно стремится вторгнуться в основные вопросы теории языка и таким образом получить призвание в собственно лингвистической сфере. Для ознакомления с этим направлением лучше всего обратиться к уже упоминавшейся работе Хердана, по выражению одного из ее многочисленных рецензентов, «чудовищно претенциозной книге» 7 5 , получившей, однако, широкий отклик среди языковедов 7 6 . Ввиду того, что Хердан (на что уже указывалось выше) стремился собрать в своей книге все наиболее существенное в области применения математических методов к лингвистической проблематике, в его книге мы фактически имеем дело не столько с Херданом, сколько с целым направлением. Как показывает само название книги - «Язык как выбор и вероятность», - основное ее внимание направлено на выяснение того, что в языке предоставлено свободному выбору говорящего и что обусловлено имманентной структурой языка, точно так же, как и на определение количественного соотношения элементов первого и второго порядка. Книга Хердана дает почти исчерпывающую информацию о всех работах в этой области, проведенных представителями разных специальностей<123> (философами, лингвистами, математиками, техниками), но не ограничивается этим и включает много оригинальных наблюдений, соображений и выводов самого автора. В качестве суммирующего труда она дает хорошее представление о применяемых квантитативных методах, и о достигаемых с их помощью результатах. Вопросы, которые мы условно объединяем в раздел лингвостатистики, трактуются во второй и четвертой частях книги.
Из множества случаев применения методов математической статистики к изучению лингвистических вопросов мы остановимся на наиболее общих, которые одновременно можно рассматривать и как наиболее типичные. Используя данные других авторов - Болдрини 7 7 , Матезиуса 7 8 , Мариотти 7 9 , Ципфа 8 0 , Диуэй 8 1 и др., а также приводя собственные исследования, определяющие относительную частоту распределения фонем, букв, длины слов (измеряемую количеством букв и слогов), грамматических форм и метрических элементов в латинском и греческом гекзаметре, Хердан устанавливает факт стабильности относительной частоты языковых элементов как общую характеристику всех лингвистических структур. Он выводит следующее правило: «Пропорции лингвистических элементов, принадлежащих тому или иному уровню или сфере лингвистического кодирования - фонологии, грамматике, метрике, - остаются более или менее постоянными для данного языка, в данный период его развития и в пределах достаточно обширных и беспристрастно проведенных наблюдений» 8 2 . Это правило, которое Хердан называет основным законом языка, он стремится определенным образом истолковать и расширить. «Он, - пишет Хердан об этом законе, - является выражением факта, что даже здесь, где человеческой воле и свободе выбора предоставлены<124> широчайшие рамки, где сознательный выбор и беззаботная игра живо чередуются друг с другом, в целом существует значительная стабильность... Наши исследования обнаружили еще один фактор общего порядка: далеко идущее сходство между членами одного языкового коллектива наблюдается не только в системе фонем, в словаре и в грамматике, но также и в отношении частоты употребления конкретных фонем, лексических единиц (слов) и грамматических фонем и конструкций; другими словами, сходство не только в том,чтоиспользуется, но также и в том,как частоиспользуется» 8 3 . Такое положение обусловливается понятными причинами, но это дает повод для новых выводов. При исследовании различных текстов или отрезков данного языка, например, обнаруживается, что относительные частоты использования данной конкретной фонемы (или других речевых элементов) разными людьми остаются в основном одними и теми же. Это и приводит к истолковыванию индивидуальных форм речи как некоторых колебаний постоянной вероятности употребления рассматриваемой фонемы в данном языке. Таким образом получается, что в своей речевой деятельности человек подчинен определенным законам вероятности в отношении количества используемых лингвистических элементов. А тогда, когда мы наблюдаем огромное количество лингвистических элементов в большой совокупности текстов или речевых отрезков, у нас создается впечатление причинной зависимости в том смысле, что в данном случае имеет место также детерминирование и в отношении использования определенных лингвистических элементов. Другими словами, оказывается допустимым утверждать, что то, что с интуитивной точки зрения представляется причинным отношением, в квантитативном плане является вероятностью 8 4 . При этом очевидно, что чем больше совокуп<125>ность обследываемых текстов или речевых отрезков, тем отчетливее будет проявляться стабильность относительной частоты употребления языковых элементов также и в индивидуальном использовании (закон больших чисел). Отсюда делается новый общий вывод о том, что язык есть массовое явление и должен трактоваться как таковое.
Указанные выводы, достигнутые на основании частотных исчислений фонетических элементов, слов и грамматических форм, которые в совокупности составляют язык, применяются затем к «статистической интерпретации» проводимого Соссюром разделения на «язык» (lalangue) и «речь» (laparole). По Соссюру, «язык» есть совокупность лингвистических привычек, которые делают возможным общение между членами данного языкового коллектива. Это социальная реальность, «массовое явление», обязательное для всего говорящего на данном языке народа. Хердан, как указывалось, доказывает, что члены единого языкового коллектива сходствуют друг с другом не только тем, что используют одни и те же фонемы, лексические единицы и грамматические формы, но и тем, что все эти элементы употребляются с одинаковой частотой. Таким образом, статистическое определение «языка» принимает у него следующую форму: «язык» (lalangue) есть совокупность общих лингвистических элементов плюс их относительная вероятность употребления.
Такое определение «языка» является исходным и для соответствующего статистического истолкования «речи», которая, согласно Соссюру, представляет собой индивидуальное высказывание. Противопоставляя «язык» как явление социальное «речи» как явлению индивидуальному, Соссюр писал: «Речь есть индивидуальный акт воли и понимания, в котором надлежит различать: 1. комбинации, при помощи которых говорящий субъект пользуется языковым кодексом с целью выражения своей личной мысли; 2. психофизический механизм, позволяющий ему объективировать эти комбинации» 8 5 . Поскольку «язык» в лингвостатистике рассматривается как совокупность элементов с определенной относитель<126>ной вероятностью их употребления, постольку он включает в себя в качестве существеннейшей характеристики статистическую совокупность или ансамбль (популяцию) и может рассматриваться в этом аспекте. В соответствии с этим «речь» превращается в отдельную выборку, взятую из «языка» как статистической совокупности. Вероятность в данном случае обусловливается отношением «речи» к «языку» (в их «квантитативном» понимании), а распределение относительной частоты употребления разных элементов языка истолковывается как результат коллективного «выбора» (choice) в определенный хронологический период существования языка. Понимая, что такая трактовка различий «языка» и «речи» строится все же на совершенно иных основаниях, чем у Соссюра, Хердан пишет в этой связи: «Эта, видимо, незначительная модификация концепции Соссюра имеет то важное следствие, что «язык» (lalangue) ныне приобретает существенную характеристику в виде статистической совокупности (популяции). Эта популяция характеризуется определенными относительными частотами или вероятностями колебаний, имея в виду, что каждый лингвистический элемент относится к определенному лингвистическому уровню. В этом случае «речь» (laparole) в соответствии со своим значением оказывается термином для определения статистических выборок, взятых из «языка» как статистической совокупности. Становится очевидным, что выбор (choice) выступает здесь в виде отношения «речи» к «языку», являясь отношением взятой наудачу выборки к статистической совокупности (популяции). Сам порядок распределения частоты, в качестве отложения речевой деятельности языкового коллектива в течение столетий, представляет собой элемент выбора (choice), но не индивидуального выбора, как в стиле, а коллективного выбора. Употребляя метафору, мы можем здесь говорить о выборе, сделанном духом языка, если мы понимаем под этим принципы лингвистической коммуникации, находящиеся в соответствии с комплексом психических данных членов конкретного языкового коллектива. Стабильность серий есть результат вероятности (chance)» 8 6 .
Частным случаем приложения изложенного принци<127>па является отграничение в языке нормативных явлении от «исключений» (отклонений). В лингвостатистике утверждается, что статистический метод позволяет устранить существующую в данном вопросе нечеткость и установить ясные критерии для разграничения указанных явлений. Если под нормой понимается статистическая совокупность (в вышеуказанном смысле), а исключением (или ошибкой) - отклонение от частот, показываемых статистической совокупностью, то квантитативное решение вопроса напрашивается само собой. Здесь все сводится к статистическим отношениям между «популяцией» и «отклонением». Если частоты, наблюдаемые в отдельной выборке, отклоняются от вероятностей, обусловленных статистической совокупностью, более, чем это определяется серией выборочных подсчетов, то мы имеем основание заключать, что демаркационная линия между «тем же самым» (нормой) и «не тем же самым» (исключением) оказывается нарушенной.
Квантитативные различия между «языком» и «речью» используются и для разграничения языковых элементов двух типов: грамматических и лексических. Исходным моментом для решения этой задачи, представляющей с лингвистической точки зрения часто большие трудности, является предположение, что степень величины частотности грамматических элементов иная, чем у лексических единиц. Это якобы связывается с «обобщенностью» грамматических элементов, чем они отличаются от понятий, фиксированных лексическими единицами. Кроме того, грамматические элементы якобы, как правило, значительно меньше по своему объему: в качестве самостоятельных слов (к ним причисляются местоимения, предлоги, союзы и служебные слова) они обычно состоят из малого количества фонем, а в виде «связанных форм» - из одной или двух фонем 8 7 . Чем меньше лингвистический элемент, тем менее способна его «длина» (количественный момент) служить в качестве определяющей характеристики и тем большее значение приобретает для этой цели «качество» фонем. Какие же методы предлагаются для решения рассматриваемой проблемы? Она решается посредством обращения к чисто квантитативному понятию грамматической<128> нагрузки, «Предположим, - пишет в этой связи Хердан, - что нас интересует сравнение в указанном отношении двух языков. Каким образом мы определяем с известной степенью объективности «грамматическую нагрузку», которую несет язык? Ясно, что эта нагрузка будет зависеть от положения демаркационной линии, отграничивающей грамматику от лексики. Первое соображение, которое может прийти при этом нам в голову, заключается в том, чтобы определить, насколько «сложна» грамматика данного языка. Ведь «сложность» - качественная характеристика, а понятие «грамматической нагрузки» является количественной характеристикой. Правда, нагрузка до известной степени зависит от сложности, но не целиком. Язык может быть награжден чрезвычайно сложной грамматикой, но в деятельности языка получает применение только сравнительно небольшая ее часть. Мы определяем «грамматическую нагрузку» как совокупность грамматики, которую несет язык, когда он находится в действии, что тотчас переводит нашу проблему в область структуральной лингвистики в том смысле, в каком эта дисциплина была определена Соссюром. В последующем изложении применяются квантитативные методы определения различия языков в зависимости от того, где проходит граница, разделяющая грамматику от лексики» 8 8 . Иными словами, различия языков в данном случае должны быть сведены к различиям числовых отношений между грамматическими и лексическими элементами.
Имеющиеся в нашем распоряжении материалы рисуют следующую картину. В английском языке (учитывались лишь «грамматические слова»: местоимения, или, как они также именуются, «заместители», предлоги, союзы и вспомогательные глаголы) в отрезке, включающем 78633 случая употребления всех слов (1027 различных слов), было обнаружено 53 102 случая употребления грамматических элементов, или, точнее говоря, «грамматических слов» (149 различных слов), что составляет 67,53% при 15,8% различных слов. Таковы данные Диуэй 8 9 . Другие данные показывают иное процентное<129> соотношение: 57,1% при 5,4% различных слов 9 0 . Такое значительное расхождение объясняется различием письменного и устного языка. Письменные формы языка (первые данные) используют якобы больше грамматических элементов, чем устные (второй случай). В «Божественной комедии» Данте (по итальянскому оригиналу) Мариотти установил 54,4% случаев употребления «грамматических слов».
Другой и, видимо, более совершенный способ определения грамматической нагрузки языка заключается в подсчете фонем, входящих в грамматические элементы. В данном случае учитываются не только самостоятельные грамматические слова, но и связанные формы. Здесь возможны различные варианты. Например, определение относительной частоты употребления отдельных согласных фонем в грамматических элементах и сопоставление их с частотой суммарного употребления этих же фонем (итоговые данные такого соотношения в английском языке дают пропорцию 99,9% к 100000 - суммарного употребления); или подобное же сопоставление согласных по отдельным классификационным группам (лабиальные, палатальные, велярные и прочие фонемы). Итоговое соотношение здесь принимает форму пропорции 56,47% (в грамматических элементах) к 60,25% (в суммарном употреблении); или такое же сопоставление начальных согласных фонем (в этом случае получилось соотношение 100,2% в грамматических словах к 99,95 - в суммарном употреблении). Возможны и иные более сложные статистические операции, которые, однако, в результате дают подобные же квантитативные выражения исследуемой проблемы.
Приведенные квантитативные данные служат основанием для общего вывода. Он сводится к тому, что распределение фонем в грамматических элементах обусловливает характер распределения (в числовом, конечно, выражении) фонем в языке в целом. А это в свою очередь позволяет заключить, что употребление грамматических элементов в наименьшей степени зависит от индивидуального выбора и составляет ту часть лингвистического выражения, которая контролируется вероят<130>ностью. Этот умозрительный вывод подтверждается подсчетом грамматических форм в русском языке, сделанным Есселсоном 9 1 . Исследованию было подвергнуто 46896 слов, взятых из II источников (произведения Грибоедова, Достоевского, Гончарова, Салтыкова-Щедрина, Гаршина, Белинского, Амфитеатрова, Гусева-Оренбургского, Эренбурга, Симонова и Н. Островского). Они были разделены на разговорные слова (17 756 слов, или 37,9%) и неразговорные (29140 слов, или 62,1%). Затем вся совокупность слов была подразделена на 4 группы в зависимости от их грамматического характера: в 1-ю группу вошли существительные, прилагательные, прилагательные в функции существительных, местоимения и склоняемые числительные; во 2-ю группу - глаголы; в 3-ю группу - отглагольные причастия, причастия в функции прилагательных и существительных и деепричастия; в 4-ю группу - неизменяемые формы наречия, предлоги, союзы и частицы. Суммарные результаты (приводятся также таблицы с данными по отдельным авторам) дают следующее соотношение:
1-я группа 2-я группа 3-я группа 4-я группа |
разговорн. |
неразговорн. |
Хердан следующими словами характеризует рассмотрение полученных таким образом квантитативных данных: «Они оправдывают вывод, что грамматические элементы следует рассматривать в качестве фактора, обусловливающего вероятность лингвистического выражения. Такой вывод позволяет избежать обременительной квалификации каждого употребляемого слова. Совершенно очевидно, что, поскольку грамматика и лексика не хранятся в водонепроницаемых оболочках, ни та и ни другая не являются чистым «выбором» (choice) или чистой «вероятностью» (chance). И грамматика и лексика содержат оба элемента, хотя и в значительно варьирующихся пропорциях» 9 2 . <131>
Большой раздел книги Хердана посвящен исследованию в языке двухплановости или двойственности (duality), причем само понятие двойственности основывается им на математических характеристиках.
Так, теоремы в проективной геометрии можно располагать в два ряда, так что каждая теорема одного ряда может быть получена из некоторый теоремы другого ряда посредством замены друг на друга слов точка ипрямая. Например, если дано положение: «любые различные точки принадлежат одной и только одной прямой», то мы можем из него вывести соотнесенное ему положение: «любые две различные прямые принадлежат одной и только одной точке». Другим методом определения двойственности является нанесение по оси абсцисс и оси ординат разных планов исследуемого явления. Так, как это, например, делает Юл 9 3 , по оси абсцисс отсчитываются различные частоты употребления, а по оси ординат - количество лексических единиц, у которых определяется частотность и т. д. Так трактуется понятие двойственности, якобы в равной мере применимое и к. лингвистическим исследованиям.
Под определенное таким образом понятие двойственности, которое во всех случаях фактически имеет характер бинарного кода и которое также считается самой существенной чертой языковой структуры, подводятся чрезвычайно разнокачественные явления, допускающие противоположение по двум планам: распределение употребления слов соответственно характеру лексических единиц и распределение лексических единиц соответственно частоте употребления слов; письменную и разговорную формы речи; лексические и грамматические элементы; синонимы и антонимы; фонема и ее графическое изображение; определяемое и определяющее (соссюровские signifiantиsignifiй) и т. д.
После квантитативного исследования двойственности того или иного частного, языкового явления или ограниченного «текста», как правило, делается вывод, которому приписываются качества лингвистической универсальности. Характер подобных выводов и способ их обоснования можно проследить на примере<132> исследования двойственности слова и понятия (фактически же речь идет о соотношении длины слова и объема понятия - надо иметь в виду, что чрезвычайно свободное употребление лингвистических и иных терминов в подобных работах часто весьма затрудняет понимание). Важно при этом отметить, что в качестве материала, послужившего источником наблюдений данного вида лингвистической двойственности, были использованы: международная номенклатура болезней (около 1000 названий) и общий регистр заболеваний по Англии и Уэллсу за 1949 г. В этом случае делается следующий общий вывод: «Каждое понятие, обозначающее общую идею, имеет то, что можно назвать «сферой» или «объемом». Оно позволяет через свое посредство думать о многих предметах или других понятиях, находящихся внутри его «сферы». С другой стороны, все предметы, необходимые для определения понятия, составляют то, что называется его «содержанием». Объем и содержание взаимно соотносимы - чем меньше содержание и соответственно чем более абстрактно понятие, тем больше его сфера или объем, т. е. тем больше объектов подводится под него. Это можно рассматривать как аналогию (в понятийной сфере) принципам кодирования, соответственно которым длина символа и частота употребления взаимозависимы» 9 4 .
Принцип двойственности применяется и к частным проблемам. Например, при установлении эквивалентности значений слов двух разных языков. В результате изучения англо-немецкого словаря Мюре - 3андерса с применением математического метода итераций делается вывод, что вероятность употребления английского слова с одним или больше значением в немецком переводе остается постоянной для каждой начальной буквы во всем словаре 9 5 . Рассмотрение порядка расположения слов в китайских словарях приводит к заключению, что он носит таксономический характер, так как количество черт в иероглифе указывает его место (как самостоятельного радикала или определенного подкласса, подчиняющегося радикалу). Таксономия представляет собой соподчиняющий принцип классификации, применяющийся в зоологии и ботанике. Хердан утверждает, что<133> основы китайской лексикографии также строятся на принципах таксономии 9 6 и т. д.
Делая общую оценку данного направления применения математических методов к изучению лингвистических проблем (т. е. лингвостатистики), необходимо, видимо, исходить из того положения, которое было сформулировано Эттингером: «Математика может быть эффективно использована на службе лингвистики только тогда, когда языковедам будут ясны реальные границы ее применения, так же как и возможности используемых математических моделей» 9 7 . Иными словами, о математической лингвистике речь может идти тогда, когда математические методы докажут свою пригодность для решения тех собственно лингвистических задач, которые в своей совокупности составляют науку о языке. Если же этого нет, хотя при этом, возможно, и открываются новые аспекты научного исследования, то в таком случае можно говорить о чем угодно, но только не о лингвистике - в данном случае имеются в виду не разные виды прикладной лингвистики (о ней еще будет речь ниже), а научное, или теоретическое, языкознание. Исходя из этой позиции, следует отметить, что с точки зрения лингвиста многое в лингвостатистике вызывает сомнение и даже недоумение.
Обратимся к разбору только двух примеров (чтобы не загромождать изложения), оговорившись, что весьма существенные возражения можно сделать по каждому из них. Вот перед нами квантитативное разграничение грамматических и лексических единиц. Оказывается, для того, чтобы произвести такое разграничение, необходимо уже заранее знать, что относится к области грамматики, а что - к лексике, так как «грамматическая нагрузка» языка (т. е. совокупность употребляемых в речи грамматических элементов), как указывается в приводившейся выше цитате, «зависит от демаркационной линии, отграничивающей лексику от грамматики». Не зная, где пролегает эта линия, нельзя, следовательно, и провести указанного разграничения. В чем же тогда смысл квантитативного способа разграничения лексического от грам<134>матического? Впрочем, что касается Хердана, то он особенно не задумывается над этим вопросом и смело классифицирует языковые элементы, относя к грамматическим элементам «связанные формы», под которыми, судя по изложению, следует разуметь внешнюю флексию, и «грамматические слова», куда относятся предлоги, союзы, вспомогательные глаголы и местоимения - последние в силу того, что они являются «заместителями». Но если говорить только об этом качестве местоимений и на этом основании относить их к грамматическим элементам, то тогда к ним, очевидно, следует отнести и такие слова, как «вышеупомянутый», «названный», «данный» и т. д., так как они тоже выступают в качестве заместителей. В связи с применяемым в лингвостатистике способом выделения грамматических элементов естественно возникает вопрос, как же поступать в этом случае с такими «не имеющими вида» грамматическими явлениями, как порядок слов, тоны, нулевые морфемы, парадигматические отношения (часть этих явлений, кстати говоря, находит отражение и в тех языках, которые исследуются математическими методами)? Как проводить разграничение в языках с богатой внутренней флексией (как, например, в семитских языках), где она осуществляет не только грамматическую модификацию корня (радикала), но и сообщает ему лексическое существование, так как корень без перегласовок не имеет реального существования в языке? Что следует понимать под грамматической сложностью языка, каким критерием она определяется? Если количественным моментом, который в этом случае всячески подчеркивается, то тогда одним из самых сложных в грамматическом отношении языков окажется английский, обладающий такими конструкциями, как IshallhavebeencallingилиHewouldhavebeencalling. В этих предложениях толькоcallможно отнести к лексическому, а все остальное, следовательно, надлежит считать грамматическим. Какие существуют основания связывать частотность употреблений грамматических элементов с обобщенностью или абстрактностью значений грамматических слов? Ведь совершенно очевидно, что относительно большая частота употребления грамматических элементов определяется их функцией в построении предложений, а что касается абстрактности значений, то очень просто найти большое<135> количество лексических элементов, которые легко в этом отношении могут соревноваться с грамматическими элементами, во многом уступая им в частотности (например,бытие, существование, протяженность, пространство, субстанция и т. д).
Подобного же рода несуразности встают перед нами и в случае с определением двойственности (duality) слова и понятия. Надо обладать чрезвычайно своеобразным пониманием структурной сущности языка, чтобы подвергать ее исследованию, пользуясь номенклатурой болезней и больничным регистром заболеваний, что, как указывалось выше, послужило исходным материалом для весьма ответственных лингвистических выводов. Не останавливаясь на совершенно неясном употреблении таких не имеющих лингвистического бытия терминов, как сфера, объем и содержание понятия (кстати говоря, при этом грубо путаются лексическое значение слова и обозначаемое научным термином понятие), обратимся к заключению, которое в этом случае делается. Как указывалось выше, мы имеем дело с утверждением, что «объем и содержание взаимно соотносимы». Весь ход рассуждения, который дает основание для такого вывода, так же как и способ математического оперирования языковыми фактами, отчетливо показывает, что в этом случае совершенно не учитывается одно весьма существенное качество языка, которое опрокидывает все проводимые расчеты: способность выражать одно и то же «содержание» лингвистическими единицами разного «объема», несомненно обладающими к тому же разной относительной частотой употребления. Так, одно и то же лицо мы можем обозначить как Петров, мой знакомый, он, москвич, молодой человек, сотрудник университета, брат моей жены, человек, которого мы встретили на мосту, и т. д. В свете подобных фактов сомнение вызывают не только частные выводы, которым, однако, как указывалось, придается универсальное значение, но и целесообразность применения самих квантитативных методов к подобного рода лингвистическим проблемам.
Но иногда лингвистам предлагаются выводы, справедливость которых не вызывает никакого сомнения. Таковым является «основной закон языка», заключающийся в том, что в языке наблюдается определенная стабильность его элементов и относительной частоты их упо<136>требления. Беда подобного рода открытий заключается, однако, в том, что они давно известны лингвистам. Ведь совершенно очевидно, что если бы язык не обладал известной стабильностью и каждый член данного языкового коллектива свободно варьировал элементы языка, то не было бы возможно взаимное общение и само существование языка стало бы бессмысленным. А что касается распределения относительной частоты употребления отдельных элементов языка, то она нашла свое выражение в языкознании в виде выделения категорий пассивной и активной лексики и грамматики, чему так много уделял внимания Л. В. Щерба. В данном случае статистические методы могут оказать помощь лингвистам только в распределении конкретных языковых элементов по разрядам относительной частоты их употребления, но не имеют никаких оснований претендовать на открытие каких-то новых закономерностей, представляющих ценность для теоретической лингвистики.
С другой стороны, лингвостатистика предлагает ряд действительно «оригинальных» выводов, которые чрезвычайно показательны для характера научного мышления ее адептов. Так, сложными статистическими методами исследуется «политическая лексика» в трудах Черчилля, Бенеша, Халифакса, Штреземана и других, причем в подсчетах для неанглоязычных авторов используются переводы их работ на английский язык. Результаты подсчетов представлены в виде многочисленных таблиц, математических формул и уравнений. Лингвистическая интерпретация квантитативных данных в этом случае сводится всего лишь к тому, что употребление Черчиллем «политической лексики» является наиболее типичным (?) для данной группы авторов и что использование Черчиллем слов в тех случаях, когда он касается политических вопросов, типично для английского речевого коллектива 9 8 .
В другом случае после соответствующих статистических манипуляций делается вывод, что Гитлер в словоупотреблении нацистской Германии нарушил двойственность между «языком» и «речью» в квантитативном понимании этих терминов. Частным случаем уничтожения этой двойственности является буквальное понима<137>ние метафорических оборотов (например, «сыпать соль в открытые раны»). Нацистская Германия заклеймила себя таким количеством бесчеловечных поступков, что едва ли есть надобность уличать ее и в этом лингвистическом злодействе 9 9 . К нарушению лингвистической двойственности ведет, по утверждению Хердана, и определение Марксом языка как непосредственной действительности мысли, а закон диалектики о переходе явления в свою противоположность есть, по его мнению, неправильно понятый лингвистический закон двойственности языка 1 00 . Подобного рода интерпретации говорят сами за себя.
Наконец, общим недостатком, свойственным всем приведенным случаям квантитативного способа изучения лингвистического материала и тем самым приобретающим уже методологический характер, является подход к языковым элементам как к механической совокупности абсолютно независимых друг от друга фактов, в соответствии с чем, если при этом и вскрываются какие-либо закономерности, то они относятся только к числовым отношениям распределения автономных фактов, вне их системных зависимостей. Правда, Дж. Уотмоу всячески стремится уверить, что именно математика лучше, чем любой вид лингвистического структурного анализа, способна вскрыть структурные особенности языка. «Современная математика, - пишет он, - занимается не измерением и исчислением, точность которых по самой своей природе ограничена, но в первую очередь структурой. Вот почему математика в высшей степени способствует точности изучения языка - в такой степени, на какую не способно раздельное описание, еще более ограниченное по своей природе... Так же как в физике математические элементы используются для описания физического мира, поскольку предполагается, что они соответствуют элементам физического мира, так и в математической лингвистике математические элементы предположительно должны соответствовать элементам мира речи» 1 01 . Но такая постановка вопроса отнюдь не спасает положения, так как в лучшем случае она может<138> дать анализ языка либо какфизическойструктуры, что для языка еще далеко не достаточно, и в конечном счете носит все тот же механистический характер, либо каклогико-математическойструктуры, а это переносит язык в иную и во многом чуждую ему плоскость 1 02 . Не лишне при этом отметить, что успехи математической лингвистики Уотмоу предвидит только в будущем, а что касается их реальных результатов, то он дает им оценку в следующих словах: «...почти вся работа, выполненная по настоящее время Херданом, Ципфом, Юлом, Гиро (Guiraux) и другими, находится отнюдь не за пределами критики как со стороны лингвистики, так и математики; она в значительной мере отдает любительщиной» 1 03 . Таким образом, если не пытаться предсказывать будущее математических методов в лингвистических исследованиях, а постараться по заслугам оценить то, чем мы располагаем на сегодняшний день, то по необходимости придется признать, что математика фактически пока ограничивалась в области языкознания лишь «измерением и подсчетом», а качественного анализа языка, вникающего в его структуру, не смогла дать. <139>
Постараемся все же быть максимально объективными. В известной своей части квантитативные данные, видимо, могут быть использованы лингвистикой, но лишь в качестве вспомогательныхи по преимуществу в проблемах, имеющих практическую направленность. В отношении же большей части квантитативных способов изучения отдельных лингвистических явлений, несомненно, оправдан общий вывод Р. Брауна: «Их можно рассматривать так, как их рассматривает Хердан, но каков смысл всего этого?» 1 04 . Представим себе, что мы задаем вопрос: «Что собой представляют деревья в этом саду?». И в ответ получаем: «В этом саду сто деревьев». Разве это ответ на наш вопрос и разве действительно он имеет смысл? А ведь в отношении многих лингвистических вопросов математические методы дают именно такого рода ответы.
Однако существует широкая область исследовательской деятельности, использующая по преимуществу математические методы и в то же время ориентирующая их на языковый материал, где целесообразность такого объединения не вызывает никакого сомнения. «Смысл» этой исследовательской деятельности, ее значимость обусловливается теми целями, к которым она стремится. Она уже апробирована практикой. Речь в данном случае идет о проблемах, связанных с созданием информационных машин, конструкций для машинного перевода письменных научных текстов, автоматизацией перевода устной речи с одного языка на другой и со всем тем комплексом задач, которые объединяются в лингвистических вопросах кибернетики. Всей совокупности подобных проблем обычно присваивают общее наименование прикладной лингвистики. Тем самым она отграничивается от так называемой математической лингвистики, включающей те направления работы, которые выше были обозначены как стилостатистика и лингвостатистика, хотя отнюдь не избегает статистической обработки лингвистического материала. Пожалуй, наиболее важной чертой прикладной лингвистики, отделяющей ее от математической лингвистики, как она обрисовывалась выше, является то, что первая имеет обратную направленность: не математика для лингвистики, но лингвистика<140> (формализованная математическими методами) для широкого комплекса практических задач.
Нет надобности раскрывать содержание отдельных проблем, включающихся в ныне чрезвычайно широкую область прикладной лингвистики. В противоположность математической лингвистике, эти проблемы активно обсуждаются в советской лингвистической литературе и справедливо начинают занимать все более видное место в научной проблематике исследовательских институтов 1 05 . Таким образом, они уже достаточно известны нашей лингвистической общественности. Это обстоятельство, однако, не освобождает нас от необходимости подвергнуть их осмыслению, в частности, с точки зрения принципов науки о языке. Это несомненно поможет устранению недоразумений, которые все чаще и чаще возникают между представителями весьма далеких друг от друга наук, принимающих участие в работе над проблемами прикладной лингвистики, и наметит пути их сближения, с одной стороны, и разграничения областей исследования, с другой стороны. Само собой разумеется, что нижеследующие соображения будут представлять точку зрения лингвиста, и необходимо, чтобы математики не только постарались ее усвоить, но в связи с поднимающимися вопросами дали им свою трактовку.
Лингвиста-теоретика никак не может удовлетворить то обстоятельство, что во всех случаях исследования яв<141>лений языка в тех целях, которые ставятся прикладной лингвистикой, основой их служит математическая модель. В соответствии с этим наблюдения над явлениями языка и получаемые при этом результаты выражаются в терминах и понятиях математики, т. е. посредством математических уравнений и формул. Обратимся для наглядности к примеру. Кондон 1 06 и Ципф 1 07 установили, что логарифмы частоты (f ) употребления слов в тексте большого объема располагаются почти на прямой линии, если на диаграмме соотнести их с логарифмами ранга или разряда (r ) этих слов. Уравнениеf = c: r, гдес является константой, отражает это отношение в том ограниченном смысле, чтоc: r для заданного значенияr с большой приближенностью воспроизводит наблюдаемую частоту. Отношение междуf иr, выраженное математической формулой, является моделью для отношений между наблюдаемыми значениями частоты употребления и ранга, или разряда, слов. Таков один из случаев математического моделирования.
Вся теория информации целиком базируется на математической модели процесса коммуникации, разработанной К. Шенноном 1 08 . Она определяется как «математическая дисциплина, посвященная способам вычисления и оценке количества информации, содержащейся в каких-либо данных, и исследованию процессов хранения и передачи информации» (БСЭ, т. 51, стр. 128). Соответственно и основные понятия теории информации получают математическое выражение.Информацияизмеряется бинитами или двоичными единицами (код, которому уподобляется и язык, с двумя условными равно вероятными сигналами передает одну двоичную единицу информации при передаче каждого символа).Избыточностьопределяется как «разность между теоретически возможной передающей способностью какого-либо кода и средним количеством передаваемой ин<142>формации. Избыточность выражается в процентах к общей передающей способности кода» 1 09 и пр. Точно так же и для машинного перевода необходима алгоритмическая разработка отображения элементов одного языка в другом и т. д. 1 10 . Таковы другие случаи моделирования.
Использование моделей вне всякого значения может оказать весьма существенную помощь, в частности, по всей вероятности, при решении тех задач, которые ставит перед собой прикладная лингвистика. Однако для теоретического языкознания весьма существенным является то обстоятельство, что абстрактная модель, как правило, не воспроизводит всех особенностей действительного явления, всех его функциональных качеств. Так, архитектор, перед тем как построить дом, может создать его модель, воспроизводящую во всех мельчайших деталях проектируемый дом, и это помогает ему решить ряд практических вопросов, связанных с постройкой самого дома. Но такая модель дома, какой бы она точной ни была, лишена той «функции» и того назначения, ради чего строятся вообще все дома - она не способна обеспечить человека жильем. Аналогичным образом обстоит дело и с языком, где модель не всегда способна воспроизвести все его качества. В данном же случае дело усложняется еще и тем, что для построения модели используются не собственно лингвистические, а математические мерила. «Математические модели...- пишет А. Эттингер, - играют чрезвычайно важную роль во всех областях техники, но поскольку они являются орудием синтеза, их значение для лингвистики, являющейся в первую очередь исторической и описательной дисциплиной, естественно имеет ограниченный характер» 1 11 .<143>
Математическое моделирование языка фактически применимо только к его статическому состоянию, которое для языковеда является условным и в действительности находится в прямом противоречии с основным качеством языка, самой формой существования которого является развитие. Само собой разумеется, статическое изучение языка отнюдь не исключается и из языкознания и является основой при составлении нормативных грамматик и словарей, описательных грамматик, практических грамматик и словарей, служащих пособием для практического изучения иностранных языков, и т. д. Однако во всех таких работах, имеющих по преимуществу прикладной характер, языковеды идут на сознательное ограничение поля исследования и отнюдь не закрывают глаза на другие аспекты языка 1 12 . При статическом рассмотрении языка, в частности, совершенно пропадают из поля зрения исследователя такие качества языка, связанные с его динамическим характером, как продуктивность, зависимость от форм мышления, широкое взаимодействие с культурными, социальными, политическими, историческими и прочими факторами. Только в плане синхроническом можно язык рассматривать как систему условных знаков или кодов, что, однако, оказывается совершенно неправомерным, как только мы становимся на более подходящую для языка динамическую точку зрения. Именно в процессах развития проявляются такие качества языка, как мотивированность, не имеющая стабильных границ многозначность слов, неавтономность значения слова и его звуковой оболочки, связанные с контекстом творческие потенции слова, а это все находится в резком противоречии с основными характеристиками кода или знака 1 13 . Очевидно, в прикладной лингвистике также можно отмысливаться от всех этих качеств языка и в практических целях довольствоваться, так сказать, «моментальным снимком» языка, который все же способен дать достаточно приближенное представление о механизме его функцио<144>нирования. Однако каждый такой «моментальный снимок», если его рассматривать как факт языка, а не как факт системы условных кодов, должен быть включенным в бесконечный процесс движения, в котором язык всегда пребывает 1 14 . Его нельзя изучать вне тех конкретных условий, которые характеризуют это движение, накладывающее свой отпечаток на данное состояние языка и обусловливающее потенции дальнейшего его развития. Здесь существует такая же разница, как между моментальной фотографией человека и его портретом, написанным кистью истинного художника. В произведении художника перед нами обобщающий образ человека во всем своеобразии не только его физического облика, но и внутреннего духовного содержания. По художественному портрету мы можем прочесть и прошлое запечатленного на нем человека и определить, на что он способен в своих поступках. А моментальная фотография, хотя и способна дать более точное изображение внешности оригинала, лишена этих качеств и нередко фиксирует и случайный прыщ, вскочивший на носу, и<145> совершенно нехарактерную позу или выражение, что в конечном счете приводит к искажению и оригинала.
Следует оговориться, что способ «моментальных снимков» можно, конечно, применять и к фактам развития языка. Но в этом случае мы в действительности будем иметь дело только с отдельными состояниями языка, которые при квантитативной своей характеристике оказываются связанными не в большей мере, чем сопоставительная квантитативная характеристика разных языков. Подобного рода квантитативная «динамика» ничего органического не будет заключать в себе, и связь отдельных состояний языка будет покоиться только на сопоставлении числовых отношений. Если и в этом случае прибегать к аналогии, то можно сослаться на рост ребенка. Его развитие, разумеется, можно представить в виде динамики числовых данных о его весе, росте, изменяющихся отношений объема частей его тела, но все эти данные абсолютно отрешены от всего того, что в первую очередь составляет индивидуальную сущность человека - его характера, склонностей, привычек, вкусов и т.д.
Другой негативной стороной математического «моделирования» языка является то обстоятельство, что оно не может служить тем общим принципом, на основе которого можно осуществить всестороннее и всеобъемлющее - систематическое описание языка. Только лишь математический подход к явлениям языка, например, не даст возможности ответить даже на такие коренные вопросы (без которых немыслимо само существование науки о языке), как: что такое язык, какие явления следует относить к собственно языковым, как определяется слово или предложение, каковы основные понятия и категории языка и пр. Прежде чем обратиться к математическим методам исследования языка, необходимо уже заранее располагать ответами (хотя бы и в форме рабочей гипотезы) на все эти вопросы. Нет надобности закрывать глаза на то, что во всех известных нам случаях исследования языковых явлений математическими методами все указанные понятия и категории неизбежно приходилось принимать таковыми, как они были определены традиционными или, условно говоря, качественными методами.
Эту особенность математических методов в их лингвистическом применении отметил Спанг-Ханссен, когда пи<146>сал: «Следует иметь в виду, что наблюденные факты, получающие квантитативное выражение... не имеют ценности, если они не составляют части описания, а для лингвистических целей это должно быть систематическое описание, тесно связанное с качественным лингвистическим описанием и теорией» 1 15 . В другом выступлении Спанг-Ханссена мы встречаем уточнение этой мысли: «До тех пор, пока не будет доказана возможность построения квантитативной системы, и до тех пор, пока существует общепринятая качественная система для данной области исследования, частотные подсчеты и иные числовые характеристики с лингвистической точки зрения не имеют никакого смысла» 1 16 . Подобные же идеи высказывает и Улдалль, несколько неожиданно связывая их с разработкой, общетеоретических основ глоссематики: «Когда лингвист считает или измеряет все то, что он считает и измеряет, само по себе определяется не квантитативно; например, слова, когда они подсчитываются, определяются, если они вообще определяются, в совершенно иных терминах» 1 17 . <147>
Таким образом оказывается, что как в теоретическом отношении, так и в практическом их применении, математические методы находятся в прямой зависимости от лингвистических понятий и категорий, определенных традиционными, филологическими, или, как говорилось выше, качественными методами. В плане прикладного языкознания важно осознание этой зависимости, а следовательно, и знакомство со всей совокупностью основных категорий традиционной лингвистики.
Нет, правда, никаких оснований упрекать представителей точных наук, работающих в области прикладной лингвистики, в том, что они не используют данных современной лингвистики. Это не соответствует действительному положению вещей. Они не только отлично знают, но и широко используют в своей работе установленные лингвистами системы дифференциальных признаков, свойственные разным языкам, дистрибуцию и аранжировку языковых элементов в пределах конкретных языковых систем, достижения акустической фонетики и т. д. Но в этом случае необходима весьма существенная оговорка. Фактически представители точных наук пользуются данными только одного направления в языкознании - так называемой дескриптивной лингвистики, которая сознательно отграничилась от традиционных проблем теоретического языкознания, далеко не покрывает собой всего поля лингвистического исследования, с собственно лингвистической точки зрения обладает существенными методическими недостатками, что и привело ее к вскрывшемуся в последнее время кризису 1 18 , и, кроме того, имеет сугубо практическую направленность, соответствующую интересам прикладной лингвистики. К дескриптивной лингвистике применимы все те оговорки и упреки, которые выше были сделаны в адрес статического рассмотрения языка. Подобный односторонний подход дескриптивной лингвистики может, следователь<148>но, оправдываться только теми задачами, которые ставит перед собой прикладная лингвистика, но он далеко не исчерпывает всего содержания науки о языке.
В процессе разработки вопросов прикладного языкознания могут возникнуть и фактически уже возникли новые теоретические проблемы. Некоторые из этих проблем тесно связаны с конкретными задачами прикладного языкознания и направлены на преодоление тех трудностей, которые возникают при разрешении этих задач. Другие проблемы имеют прямое отношение к теоретическому языкознанию, позволяя в новом аспекте взглянуть на традиционные представления или открывая новые области лингвистического исследования, новые понятия и теории. К числу этих последних, например, относится проблема создания «машинного» языка (или языка-посредника), которая самым тесным образом связана со сложным комплексом таких кардинальных вопросов теоретического языкознания, как взаимоотношение понятий и лексических значений, логики и грамматики, диахронии и синхронии, знаковой природы языка, сущности лингвистического значения, принципов построения искусственных языков и т.д. 1 19 . В этом случае особенно важно наладить взаимопонимание и содружество в общей работе представителей лингвистических дисциплин и точных наук. Что касается лингвистической стороны, то речь в данном случае, видимо, должна идти не о том, чтобы уже заранее ограничивать усилия, например, конструкторов переводческих машин» и пытаться установить рабочие возможности подобных машин стихами Н. Грибачева или прозой В. Кочетова 1 20 . Машина сама найдет границы своих возможностей, а рентабельность - пределы ее использования. Но языковеды в качестве своего вклада в общее дело должны внести свое знание особенностей структуры языка, ее многогранности, внутренних перекрещивающихся отношений ее элементов, а также широких и многосторонних связей языка с физическими, физиологическими, психическими и логически<149>ми явлениями, специфическими закономерностями функционирования и развития языка. Вся совокупность этих знаний необходима конструкторам соответствующих машин, чтобы не блуждать в неверных направлениях, но сделать поиски целеустремленными и четко ориентированными. Даже и тот весьма краткий обзор случаев применения математических методов к лингвистической проблематике, который был сделан в настоящем очерке, убеждает, что такие знания отнюдь не будут лишними для представителей точных наук.
На основании всех изложенных соображений можно, очевидно, прийти к некоторым общим выводам.
Итак, математическая лингвистика? Если под этим разумеется применение математических методов в качестве универсальной отмычки для решения всех лингвистических проблем, то такие претензии следует признать абсолютно неправомерными. Все, что было сделано в этом направлении, пока очень мало или даже совсем не способствовало решению традиционных проблем науки о языке. В худшем случае применение математических методов сопровождается очевидными нелепостями или же с лингвистической точки зрения является абсолютно бессмысленным. В лучшем случае математические методы могут быть использованы в качестве вспомогательных приемов лингвистического исследования, будучи поставлены на службу конкретным и ограниченным по своему характеру лингвистическим задачам. Ни о какой «квантитативной философии языка» при этом не может быть и речи. На самостоятельность науки о языке в свое время посягали и физика, и психология, и физиология, и логика, и социология, и этнология, но не смогли подчинить себе языкознания. Случилось обратное - языкознание воспользовалось достижениями этих наук и в нужной для себя мере стало пользоваться их помощью, обогатив тем самым арсенал своих исследовательских приемов. Теперь, видимо, наступила очередь математики. Следует надеяться, что это новое содружество также будет способствовать укреплению науки о языке, совершенствованию его рабочих приемов, увеличению их многообразия. О математической лингвистике, следовательно, правомерно в такой же степени говорить, как и о физической лингвистике, физиологической лингвистике, логической лингвистике, психологической лингвистике и<150> т. д. Таких лингвистик нет, есть только одна лингвистика, с пользой для себя реализующая данные других наук в качестве вспомогательных исследовательских средств. Таким образом, нет никаких оснований отступать перед натиском новой науки и с легкостью уступать ей завоеванные позиции. Здесь очень уместно вспомнить слова А. Мартине: «Быть может, это и соблазнительно -присоединиться путем использования нескольких удачно выбранных терминов к тому или иному крупному движению мысли, или заявить какой-нибудь математической формулой о строгости своего рассуждения. Однако лингвистам уже пришло время осознать самостоятельность их науки и освободиться от того комплекса неполноценности, который заставляет их связывать любое свое действие с тем или иным общенаучным принципом, в результате чего контуры действительности всегда делаются лишь более расплывчатыми, вместо того, чтобы стать более четкими» 1 21 .
Следовательно, математика сама по себе и языкознание само по себе. Это отнюдь не исключает их взаимной помощи или дружеской встречи в совместной работе над общими проблемами. Такого рода местом приложения согласных усилий двух наук и является весь широкий круг проблем, входящих в прикладное языкознание и обладающих большой народнохозяйственной значимостью. Следует пожелать только, чтобы в своей совместной работе обе науки проявили максимум взаимопонимания, что, несомненно, будет способствовать и максимальной плодотворности их сотрудничества.<151>