Курс лекций – эконометрика для заочников. Степанов в.Г

Александр Дозорцев

1. Любимая глава

Для многих любителей русской словесности, самой известной главой в культовой поэме «Москва-Петушки» является «Серп и Молот — Карачарово». Сам автор, флиртуя: «предупреждал всех девушек, что главу «Серп и Молот — Карачарово» следует пропустить, не читая, поскольку за фразой «И немедленно выпил» следуют полторы страницы чистейшего мата, что во всей этой главе нет ни единого цензурного слова за исключением фразы «И немедленно выпил». «Добросовестным уведомлением этим» — автор, Веничка Ерофеев, — «добился только того, что все читатели, в особенности девушки, сразу хватались за главу «Серп и Молот — Карачарово», даже не читая предыдущих глав, даже не прочитав фразы «и немедленно выпил».

Для других любимой главой является «Электроугли — 43-й километр», в которой автор дает рецепты приготовления различных коктейлей, как-то: «Ханаанский бальзам», «Сучий потрох», «Дух Женевы», «Слеза комсомолки», «Поцелуй тети Клавы». За поэти-ческими названиями скрываются настолько неудобоваримые сочетания ингредиентов, что можно свихнуться от одной только мысли, что и в самом деле существовали люди, которые смешивали и реально пили эти адские смеси.

Но для меня, обладателя первой степени по статистике и экономике Иерусалимского Университета и второй степени по эконометрике того же университета, однозначно самой любимой главой является «Новогиреево — Реутово». Эта глава «Поэма в Поэме», посвященная эмпирическим исследованиям и анализу данных.

2. Индивидуальные графики или «методичка» эмпирического исследования.

Итак, что-же меня так «зацепило» в этой главе? — Ну конечно «индивидуальные графики»:
«….что это были за графики? Ну, это очень просто: на веленевой бумаге, черной тушью, рисуются две оси — одна ось горизонтальная, другая вертикальная. На горизонтальной откладываются последовательно все рабочие дни истекшего месяца, а на вертикальной — количество выпитых граммов, в перерасчете на чистый алкоголь. Учитывалось, конечно, только выпитое на производстве и до него, поскольку выпитое вечером — величина для всех более или менее постоянная и для серьезного исследователя не может представить интереса».

Вопросы технологии, как-то тушь и бумага, оставим для других специалистов, а я как «серьезный исследователь» разберу методы исследования Венечки Ерофеева:

Выбор метода анализа — График! Венечка уже в 70-х годах предыдущего столетия осознавал преимущества визуального представления данных.

Определения горизонтальной оси — «все рабочие дни истекшего месяца», тем самым автор подразумевает анализ временных рядов при этом графики индивидуальные, практически возможно использование Panel Data Analysis.

Определения вертикальной оси или зависимой переменой: «количество выпитых граммов», т.е цель исследования изучение зависимости потребления алкоголя от личных характеристик и временных/сезонных факторов, как будет показано далее.

Нормализация данных— «количество выпитых граммов, в перерасчете на чистый алкоголь». Вне зависимости от вида напитка, происходит нормализация данных.

Фокусирование исследования на главной проблеме: «Учитывалось, конечно, только выпитое на производстве и до него, поскольку выпитое вечером — величина для всех более или менее постоянная и для серьезного исследователя не может представить интереса».

Процесс сбора и первичной обработки: «Итак, по истечении месяца рабочий подходит ко мне с отчетом: в такой то день выпито того то и столько то, в другой — столько то и того то. А я, черной тушью и на веленевой бумаге, изображаю все это красивою диаграммою.»

3. Индивидуальные графики или «методичка» эмпирического исследования.

Помимо самого разбора научного метода Венички, интересно посмотреть и проанализировать сами графики:
«Вот, полюбуйтесь, например, это линия комсомольца Виктора Тотошкина»

А это Алексей Блиндяев, «член КПСС с 1936 г., потрепанный старый хрен»:

А вот уж это — ваш покорный слуга, экс бригадир монтажников ПТУСа, автор поэмы «Москва — Петушки»:

Вот анализ самого автора: «Ведь правда, интересные линии? Даже для самого поверхностного взгляда — интересные? У одного — Гималаи, Тироль, бакинские промыслы или даже верх кремлевской стены, которую я, впрочем, никогда не видел. У другого — предрассветный бриз на реке Кама, тихий всплеск и бисер фонарной ряби. У третьего — биение гордого сердца, песня о буревестнике и девятый вал. И все это — если видеть только внешнюю форму линии».

Как было обещано ранее, индивидуальные графики позволяют определить личные особенности потребления алкоголя, как-то волатильность потребления, минимум и максимум. Помимо этого, временные ряды позволяют в данном случае определить сезонность потребления у всех участников данного исследования. Как можно заметить на графиках выделены 10-ое и 26-ое числа. Более того, в эти числа на всех графиках наблюдается увеличение потребления алкоголя. Априорные представления о структуре оплаты труда в Советском Союзе (аванс и получка) и увеличения потребления алкоголя в эти дни, позволяют сделать вывод, что резкое увеличение ликвидности (наличные средства) статистически увеличивает потребление алкоголя.

4. Резюме

Романтик Веничка, в своей гениальной поэме смог объяснить доступным языком «Слезы Комсомолки» и «Поцелуя тети Клавы» основные подходы эконометрических исследований. Наглядность и доходчивость его объяснений делают первую половину главы «Новогиреево — Реутово» обязательным для изучения для всякого, уважающего себя специалиста по анализу данных. В наше время Data Mining и наступающей Big Data без анализа получаемых данных не возможен ни какой бизнес или научная разработка.

КРАТКОЕ ИСТОРИЧЕСКОЕ ВВЕДЕНИЕ

Эконометрика – молодая наука, которая своим происхождение обязана развитию статистики и совершенствованию ее методов с одной стороны. С другой стороны эконометрика многим обязана в своем становлении и развитии укреплению позиций системного подхода в современной науке в целом и особенно усовершенствованию математических методов и моделей в экономике. Формирование эконометрики в качестве самостоятельной науки (а не просто раздела статистики) относится к первой трети 20 века и окончательное ее утверждение в виде важного самостоятельного направления в экономических исследованиях относят к середине 20 века.

Эконометрика рассматривает модели реальных экономических систем, которые значительно ближе к реальным рыночным процессам, чем модели экономической теории и в то же время характеризуются значительно большей целостностью (общесистемным подходом) по сравнению с старыми статистическими моделями. Последние нередко представляли эклектический набор разрозненных методов, искусственно собранных вместе и не объединенных одной интегрирующей идеей. Сами эконометрические модели – это по сути своей математические модели, а именно, уравнения (уравнения регрессии), не учитывающие упорядоченности данных во времени; математические соотношения, известные как временные ряды и фактически тоже своеобразные уравнения, описывающие процессы с дискретным временем, развитие их в хронологически упорядоченной последовательности; наконец, системы уравнений (системы эконометрических уравнений), которые успешно применяются для описания макроэкономических процессов и систем.

Несколько конкретнее эконометрика - это существенно междисциплинарная наука, возникшая на стыке экономики, высших методов статистики, математической статистики и в самое последнее время информационных технологий, эффективно реализующих интеграцию этих наук. От первых простейших попыток применения точных количественных методов математики к экономическим проблемам она довольно быстро перешла к использованию методов математической статистики для решения задач экономики и успешно развивает применение математической статистики и даже теории нечетких множеств и нечеткой логики к исследованию сложных процессов социально-экономической природы.

Еще в рамках статистики – способствуя зарождению эконометрики – ученые-экономисты и статистики занимались исследованием макроэкономических проблем на основе временных рядов таких показателей, как валютные курсы и пр. Изучался рынок труда, разрабатывались методы статистической проверки теории производительности организации труда на производстве. Приблизительно в это время (19 век) метод множественной регрессии был применен для оценки функции спроса.

Следующим важным этапом стали работы по применению основных методов математической статистики (корреляционно-регрессионного анализа, анализа временных рядов, метода множественной регрессии) для изучения социально-экономических явлений и процессов, включая оценку функции спроса. Тогда же (первая половина XX века) выполнялись исследования по циклическим процессам в экономике и выделению бизнес-циклов. Так изучение динамики временных рядов и экстраполяция подмеченных закономерностей в сочетании с использованием некоторых базовых теоретических предпосылок привело к построению экономических барометров (гарвардский барометр). Концепция экономического барометра использует следующую важную идею: в динамике различных компонентов экономического процесса имеются такие показатели, изменение которых опережает изменение других компонентов. Таким образом, показатели, изменение которых опережает в своем развитии изменение других показателей, являются в некотором роде предвестниками последних. Конкретно для гарвардского барометра имеется 5 групп показателей. Они затем сводятся в три отдельные кривые: одна характеризует фондовый рынок, другая – товарный рынок, третья кривая – денежный рынок. В основу прогноза с использованием гарвардского барометра было положено свойство каждой отдельной кривой повторять движение остальных кривых в определенной последовательности и с определенным отставанием.

Однако в конце первой трети двадцатого века эффективность подобных методов стала снижаться и их применение сошло на нет. Это связано с существенным изменением структуры мировых экономических отношений и изменением природы регулирующих факторов в экономике, в частности переходом к кейнсианской модели воздействия на экономику со стороны государства. Одновременно пытались применить методы Фурье-анализа и периодограмм к эконометрическим построениям.

Необходимость использования моделирования (в эконометрике это особенно очевидно), а не простого совершенствования вычислительных методов определяется тем, что многие объекты (или проблемы, относящиеся к этим объектам) непосредственно исследовать или вовсе невозможно, или же это исследование требует много времени и средств. Процесс моделирования включает три элемента: 1) субъект (исследователь), 2) объект исследования, 3)модель, опосредствующую отношения познающего субъекта и познаваемого объекта. Модель сначала строится – первый этап ; затем исследуется – второй этап ; после этого полученные знания аккуратно переносятся на исследуемую реальную систему – третий этап . Только после этого переходят к практической проверке и использованию полученных выводов (знаний) в реальной жизни, например, решению задачи прогноза – четвертый этап.

На этапе построения модели используются гипотезы о виде статистической зависимости и определяются неизвестные (на этом этапе) коэффициенты (параметры) моделей при помощи метода наименьших квадратов (МНК). Далее модель исследуется с применением методов математической статистики (проверки гипотез) – второй этап. На третьем этапе выполняются наиболее сложные и тонкие процессы переноса полученных знаний о модели на реальную систему – они требуют особого внимания и аккуратности. Затем наступает наиболее ответственный четвертый этап проверки полученных выводов в реальных условиях и их соответствующего применения, которые не выполняются автоматически, а требуют особого внимания к границам применимости этих выводов.

ЛЕКЦИЯ 1. ПОСТРОЕНИЕ МОДЕЛИ: ОПРЕДЕЛЕНИЕ

ПАРАМЕТРОВ МОДЕЛИ (МНК).

Вернемся к первому этапу. После формирования гипотезы о виде зависимости (функционального вида правой части уравнения регрессии) необходимо выполнить определение входящих в уравнение коэффициентов – подбор параметров зависимости - и тем самым установить окончательно модель явления. Это осуществляется методом наименьших квадратов (МНК). Получающаяся модель проверяется на значимость с помощью различных критериев, представляющих основу статистической проверки гипотез, например, если

y i = f(x i) + ε i , где f(x i)=a o + a 1 x (1.2)

то коэффициенты определяются по МНК условием обращения в минимум функции

∑(y i -a o -a 1 x) 2 →min, (1.3)

где требование минимизации квадратов отклонений приводит к системе нормальных уравнений (линейные алгебраические уравнения особого вида) для нахождения из нее коэффициентов a i .

В экономике и, следовательно, в эконометрике исследуемые явления и характеризующие их величины это сложные случайные процессы и случайные величины, параметры этих процессов. Случайные величины в процессе анализа представляются состоящими из постоянной компоненты и случайной компоненты. При этом постоянная составляющая это математическое ожидание, или среднее арифметическое (среднее) значение исходной случайной величины:

= (1.4)

Если же данные не сгруппированы, то все частоты f равны 1 и получаем формулу простого среднего:

(1.5)

Среднее случайной компоненты, или остатка равно нулю. Если бы это оказалось не так, то это ненулевое значение следовало бы включить в среднее значение исходной случайной величины и, таким образом, все свелось бы к предыдущему. Мера разброса (вариации) случайной величины, или, что то же, ее распределения, - это дисперсия.

Первоначально дисперсия определяется как среднее квадрата разности между самой случайной величиной и средним этой случайной величины:

Var(χ) = 2 =
(1.6)

В этом выражении коэффициенты ƒ не что иное как веса, или весовые коэффициенты значений величины χ . Это попросту величины, показывающие сколько раз входят те или иные значения в данное эмпирическое распределение величины χ для дискретных распределений или же в данный интервал (данную группу) для непрерывных распределений.

Часто при расчетах используют выражение для дисперсии в виде разности среднего от квадрата исходной случайной величины и квадрата среднего от нее:

σ 2 = -(1.7)

Тогда окончательно для дисперсии исходной случайной величины получаем, что она равна дисперсии остатка, поскольку вся вариация исходной случайной величины равна вариации остатка, просто по самому определению остатка.

В действительности, кроме самых простых и редких случаев, неизвестно распределение случайной величины и даже основные характеристики изучаемой генеральной совокупности. Требуется получить информацию о случайной величине, характеризующей данное явление или процесс или соответственно генеральной совокупности, из результатов наблюдений . Совокупность результатов наблюдений представляет собой выборку из генеральной совокупности и по этим данным (выборки) с применением подходящей формулы и методов оценивания (прежде всего метода наименьших квадратов) получают приближенное значение неизвестной характеристики (параметра) исследуемой случайной величины или в терминах статистики генеральной совокупности.

Эконометрика использует для изучения различных явлений и процессов признаки, характеризующие эти явления и процессы. Признаки могут быть количественными и атрибутивными, не поддающимися непосредственно количественному измерению. Эконометрика сосредоточена преимущественно на исследовании явлений и процессов, характеризующихся количественными признаками. Тем не менее, она способна исследовать и взаимосвязи между атрибутивными (не количественными) признаками . Сами количественные признаки это фактически случайные величины, которые описываются своими распределениями (совокупностью принимаемых значений и совокупностью вероятностей, с которыми эти значения принимаются). Соответственно для признаков определяются средние, а сами случайные величины могут быть представлены в виде суммы средней и остатка, характеризующего случайные флуктуации.

у = + ε, (1.8)

где средняя (первое слагаемое) может быть приближена или просто заменена некоторой функцией, например линейной:

= a o + a 1 x (1.9)

Это представление имеет глубокий смысл и будет неоднократно использоваться и обсуждаться далее. Далее помимо среднего для признака как для случайной величины определяется дисперсия, которая служит мерой вариации признака в целом (интегральная характеристика колеблемости признака).

D=σ 2 =
(1.10)

Эконометрика исследует взаимозависимости между признаками и динамику их изменения во времени. Признаки, зависящие от других называются зависимыми, или объясняющими. Признаки от которых зависят первые (зависимые) называются независимыми, или факторами, или регрессорами. Далее мы увидим, что их так называемая независимость друг от друга отнюдь не носит абсолютный характер. Тем не менее понятие независимости факторов является весьма важным и весьма полезным начальным предположением. После исследования соответствующих базовых моделей начального уровня удается строить и изучать более сложные и более совершенные модели, в которых возможно учитывать частичную зависимость факторов.

Также естественно, что в качестве начальных базовых моделей используются простейшие зависимости, например линейные. После этого рассматривают модели, которые можно преобразовать к линейным. И наконец, только после этого существенно нелинейные модели. О том, каков точный смысл этих понятий речь пойдет в следующих лекциях.

Прежде всего, необходимо определить остаток (иначе отклонения, или погрешности) для каждого конкретного наблюдения. Этот остаток после принятия гипотезы линейной зависимости определяется как разность между фактическим значением наблюденной зависимой величины у и ее расчетным значением, получаемым по значению фактора х и формуле линейной зависимости у от х.

Линия графика (линейной зависимости), или линия регрессии должна быть такова, чтобы указанные остатки являлись минимальными. Как понимать требование минимальности именно всех остатков? Ведь уменьшая одни остатки, мы всегда с необходимостью будем увеличивать другие. Наилучший способ это потребовать минимизации суммы квадратов остатков. Остатки еще называют отклонения. В этом случае говорят о минимизации суммы квадратов отклонений. Это одно и то же. Наилучшее соответствие кривой точкам наблюдений получилось бы в предельном случае абсолютно точного соответствия, когда кривая (в нашем случае прямая) пройдет точно через все точки. Но это нереально для линии регрессии, ввиду наличия случайного члена и ошибок наблюдений.

Именно описанный только что принцип минимизации квадратов остатков и его реализация называются методом наименьших квадратов (МНК) . Поскольку существует также модификация и развитие его, то говорят также о традиционном, или обычном МНК. В математике (математической статистике и теории приближенных вычислений) МНК рассматривается в качестве одного из наиболее важных и эффективных методов приближенных вычислений и методов оценивания. По существу именно ситуации, когда система алгебраических линейных уравнений не имеет точного решения, является наиболее общей и важной с практической точки зрения. И в большинстве случаев удается найти содержательные приближенные решения, дающие ответ на вопросы, поставленные в данной задаче.

Важно понимать, что в МНК переменные и коэффициенты как бы меняются местами. Из требования минимизации суммы квадратов остатков вытекает довольно простая система линейных алгебраических уравнений. Она называется нормальная система, или система нормальных уравнений . В этой системе уравнений в качестве известных величин выступают величины, получаемые в результате перемножения, возведения в квадрат и последующего суммирования наблюденных значений переменных. Надо отчетливо понимать, что, несмотря на свой нередко относительно громоздкий вид, это всего лишь известные величины, играющие теперь роль коэффициентов системы. С другой стороны сами исходные коэффициенты линейной зависимости (параметры) неизвестны. Именно их и надо определить из системы нормальных уравнений.

Для решения системы алгебраических линейных уравнений существуют различные методы от простого исключения переменных до использования определителей и обратных матриц, метод Гаусса, систематизирующий и обобщающий исключение переменных и называемый поэтому методом последовательного исключения неизвестных. Для случая двух переменных эти формулы нахождения решения системы нормальных уравнений довольно просты. Для множественной регрессии, когда рассматриваются зависимости от множества факторов такие формулы становятся более громоздкими.

Важно то, что в очень большом количестве исследуемых ситуаций выборочная дисперсия весьма близка к генеральной дисперсии и является хорошим приближением и тем самым хорошей оценкой для генеральной дисперсии, кроме отдельных специальных случаев. В то же время выборочное среднее не является достаточно хорошей оценкой, а служит всего лишь грубым первоначальным приближением к оценке генерального среднего, которое уточняется с помощью формул, использующих выборочную дисперсию.

Итак, оценки – это приближения к неизвестным величинам с некоторыми важными хорошими свойствами. Опираясь на оценки важнейших характеристик случайных величин, выявляют и исследуют связи между ними, определяют величину этих связей, исходя из важнейших показателей, характеризующих статистические зависимости между величинами и процессами. Мерой взаимосвязи между переменными является выборочная ковариация, которая для последовательности наблюдений двух переменных представляет среднее произведений разностей результатов наблюдений и их соответствующих средних. Есть другая форма вычисления ковариации, когда она представляется в виде среднего попарных произведений соответствующих результатов наблюдений этих двух переменных, из которого вычитается произведение средних этих двух переменных:

Cov(x,y)=å(x-`x)(y-`y)/n=[(∑xy)/n] – [] (1.11)

Ковариация легко вычисляется, но при всей ее простоте она вовсе не является наилучшим измерителем взаимосвязи между величинами. Более точно характеризует зависимость коэффициент корреляции. Выборочный коэффициент корреляции, или просто выборочная корреляция это просто частное от деления выборочной ковариации на произведение выборочных дисперсий соответствующих переменных. Преимущество коэффициента корреляции перед ковариацией заключается в том, что ковариация зависит от единиц, в которых измеряются переменные, коэффициент корреляции это величина безразмерная.

r=Cov(x,y)/Övar(x)var(y) (1.12)

ИНСТИТУТ ЭКОНОМИКИ
ПЕРЕХОДНОГО ПЕРИОДА

В.П. Носко

Эконометрика для начинающих

Основные понятия, элементарные методы, границы применимости,
интерпретация результатов

Институт экономики переходного периода

Основан в 1992 г.

Учредители: Академия народного хозяйства
при Правительстве РФ

Директор: Е.Т.Гайдар

Носко Владимир Петрович - кандидат физико-математических наук, старший научный сотрудник механико-математического факультета Московского государственного университета им. М.В.Ломоносова. Автор более 40 научных работ, соавтор учебного пособия “Основные понятия и задачи математической статистики”.

Преподает эконометрику с 1994 года. В настоящее время читает курсы лекций по эконометрике на механико-математическом факультете МГУ, на факультете менеджмента Международного университета (г. Москва) и в Институте экономики переходного периода.

Настоящая работа издана на средства гранта, предоставленного Институту экономики переходного периода Агентством США по международному развитию

Компьютерный дизайн: А. Астахов

ISBN 5-93255-027-9

Лицензия на издательскую деятельность Серия ИД № 02079 от 19 июня 2000 г.

103918, Москва, Газетный пер., 5

Тел. (095) 229–6413, FAX (095) 203–8816

E-MAIL – root@, WEB Site –

Предисловие 6

Часть 1. Оценивание и подбор моделей связи между
переменными без привлечения
вероятностно-статистических методов 7

1.1. Эконометрика и ее связь с экономической теорией 7

1.2. Две переменные: меры изменчивости и связи 10

1.3. Метод наименьших квадратов. Прямолинейный
характер связи между двумя экономическими
факторами 18

1.4. Свойства выборочной ковариации, выборочной
дисперсии и выборочного коэффициента
корреляции 34

1.5. «Обратная» модель прямолинейной связи 40

1.6. Пропорциональная связь между переменными 43

1.7. Примеры подбора линейных моделей связи между
двумя факторами. Фиктивная линейная связь 49

1.8. Очистка переменных. Частный
коэффициент корреляции 60

1.9. Процентное изменение факторов в линейной
модели связи 62

1.10. Нелинейная связь между переменными 66

1.11. Пример подбора моделей нелинейной связи,
сводящихся к линейной модели. 73

1.12. Линейные модели с несколькими
объясняющими переменными 80

Часть 2. Статистические выводы при стандартных
предположениях о вероятностной структуре
ошибок в линейной модели наблюдений 85

2.1. Вероятностное моделирование ошибок 85

2.2. Гауссовское (нормальное) распределение ошибок в линейной модели наблюдений 92

2.3. Числовые характеристики случайных величин
и их свойства 98

2.4. Нормальные линейные модели с несколькими
объясняющими переменными 104

2.5. Нормальная множественная регрессия: доверительные
интервалы для коэффициентов 113

2.6. Доверительные интервалы для коэффициентов:
реальные статистические данные 118

2.7. Проверка статистических гипотез
о значениях коэффициентов 126

2.8. Проверка значимости параметров линейной регрессии
и подбор модели с использованием F-критериев 136

2.9. Проверка значимости и подбор модели с
использованием коэффициентов детерминации.
Информационные критерии 147

2.10. Проверка гипотез о значениях коэффициентов:
односторонние критерии 158

2.11. Некоторые проблемы, связанные с проверкой
гипотез о значениях коэффициентов 164

2.12. Использование оцененной модели для
прогнозирования 172

Часть 3. Проверка выполнения стандартных предположений
об ошибках в линейной модели наблюдений. Коррекция
статистических выводов при нарушении стандартных
предположений об ошибках 180

3.1. Проверка адекватности подобранной модели
имеющимся статистическим данным:
графические методы 180

3.2. Проверка адекватности подобранной модели имеющимся
статистическим данным: формальные статистические
процедуры 194

3.4. Коррекция статистических выводов при наличии
гетероскедастичности (неоднородности
дисперсий ошибок) 214

3.5. Коррекция статистических выводов при
автокоррелированности ошибок 223

3.6. Коррекция статистических выводов при наличии
сезонности. Фиктивные переменные 235

Заключение 247

Список литературы 248

Алфавитный указатель 249

ПРЕДИСЛОВИЕ

Предлагаемое учебное пособие имеет своей целью обеспечить базу для изучения вводного полугодового курса эконометрики, когда в распоряжении преподавателя имеется всего порядка 12 лекций и некоторое количество часов практических занятий. При этом от читателя не требуется никаких предварительных знаний из теории вероятностей и математической статистики. Что касается математического анализа и линейной алгебры, то желательно, чтобы читатель имел хотя бы некоторое представление о производной и интеграле, а также о матрицах и операциях над ними. Соответственно, акценты в изложении смещаются в сторону разъяснения базовых понятий и основных процедур статистического анализа данных с привлечением большого количества иллюстративных примеров. В этом отношении данное учебное пособие близко по духу к имеющейся в русском переводе книге К. Доугерти «Введение в эконометрику» (1997), которая предназначена для изучения годового курса эконометрики и которую можно рекомендовать для последующего изучения вопросов, не охваченных в рамках настоящего пособия.

С целью постепенного введения студентов в круг понятий и методов эконометрики, в первой части пособия вообще не используются понятия теории вероятностей и математической статистики. И только когда дальнейшее игнорирование этих понятий в процессе анализа данных становится попросту невозможным, дается необходимый минимум сведений из этих дисциплин. Вторая часть пособия посвящена построению и статистическому анализу линейных регрессионных моделей при классических предположениях о модели наблюдений. В третьей части рассматриваются графические и формальные статистические методы выявления ряда нарушений классических предположений и методы коррекции статистических выводов при обнаружении таких нарушений.

Пособие написано на основании курса лекций, который читался автором на протяжении ряда лет в Международном университете (г. Москва), и лекций для аспирантов Института экономических проблем переходного периода.

ЧАСТЬ 1. ОЦЕНИВАНИЕ И ПОДБОР МОДЕЛЕЙ СВЯЗИ МЕЖДУ ПЕРЕМЕННЫМИ БЕЗ
ПРИВЛЕЧЕНИЯ ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКИХ МЕТОДОВ

1.1. ЭКОНОМЕТРИКА И ЕЕ СВЯЗЬ С ЭКОНОМИЧЕСКОЙ ТЕОРИЕЙ

Эконометрика (Econometrics ) - совокупность методов анализа связей между различными экономическими показателями (факторами) на основании реальных статистических данных с использованием аппарата теории вероятностей и математической статистики. При помощи этих методов можно выявлять новые, ранее не известные связи, уточнять или отвергать гипотезы о существовании определенных связей между экономическими показателями, предлагаемые экономической теорией.

Пусть, например, мы имеем данные о размерах располагаемого дохода (disposable personal income) DPI и расходов на личное потребление (personal consumption ) C для семейных хозяйств, так что и , соответственно, представляют располагаемый доход и расходы на личное потребление -го семейного хозяйства.

Простейшей моделью связи между и является линейная модель связи

где - некоторая постоянная величина , 0< < 1, характеризующая в данном круге семейных хозяйств их склонность к потреблению , связанную с традициями и привычками, а -“ автономное потребление “.

Однако, если разместить на плоскости в прямоугольной системе координат точки с абсциссами и ординатами (такое расположение точек называется диаграммой рассеяния - scatterplot ), то, как правило, эти точки вовсе не будут лежать на одной прямой вида соответствующей линейной модели связи. Вместо этого, они будут образовывать облако рассеяния , вытянутое в некотором направлении (см. Рис.1.1). В таком случае соотношение между и принимает форму

(модель наблюдений), где слагаемое

представляет отклонение реально наблюдаемых расходов на потребление от значения предсказываемого гипотетической линейной моделью связи для - го семейного хозяйства. Эти отклонения отражают совокупное влияние на конкретные значения множества дополнительных факторов, не учитываемых принятой моделью связи.

Диаграмма рассеяния на рис.1.1 соответствует данным о годовом располагаемом доходе и годовых расходах на личное потребление (в 1999 г., в условных единицах) 20 семей. Эти данные представлены в таблице 1.1.

Предложив для описания имеющихся статистических данных модель, учитывающую указанные отклонения от теоретической модели линейной связи между и (модель наблюдений ), мы неизбежно сталкиваемся с вопросом о том, каковы значения и в этой модели. И с этого момента попадаем в поле деятельности эконометрики , предлагающей различные методы оценивания параметров экономических моделей по имеющимся статистическим данным, а также методы использования оцененной модели для целей экономическогопрогнозирования и проведения рациональной экономической политики. Кроме того, методы эконометрики дают возможность подбора подходящей модели , адекватной имеющимся данным, в ситуации, когда в распоряжении исследователя нет ясной экономической теории, описывающей поведение интересующих его отдельных экономических показателей и связи между различными показателями.

1.2. ДВЕ ПЕРЕМЕННЫЕ: МЕРЫ
ИЗМЕНЧИВОСТИ И СВЯЗИ

В приводимой ниже таблице 1.2 указаны уровни безработицы (в %) среди белого и цветного населения США в период с марта 1968 г. по июль 1969 г. (месячные данные). В первом столбце расположены номера последовательных наблюдений (для марта 1968 г., =17 для июля 1969 г.), во втором столбце - значения уровня безработицы среди белого населения в -ом месяце, а в третьем - значения уровня безработицы среди цветного населения в -ом месяце.

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

КАЗАНСКИЙ ГОСУДАРСТВЕННЫЙ

ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ

Кафедра прогнозирования и статистики

КОНСПЕКТ ЛЕКЦИЙ

по курсу «ЭКОНОМЕТРИКА»

для студентов III курса дневного отделения

всех специальностей

Казань 2003

Печатается по решению кафедры прогнозирования и статистики: протокол №5 от 20.01.03.

Введение

Эконометрика – это наука, в которой на базе реальных статистических данных строятся, анализируются и совершенствуются математические модели реальных экономических явлений. Эконометрика позволяет найти количественное подтверждение либо опровержение того или иного экономического закона либо гипотезы.

Эконометрика как научная дисциплина зародилась и получила развитие на основе слияния экономической теории , математической экономики и экономической и математической статистики.

По словам Р. Фриша: «… каждая их трех отправных точек - статистика, экономическая теория и математика-необходимое, но не достаточное условие для понимания количественных соотношений в современной экономической жизни. Это - единство всех трех составляющих. И это единство образует эконометрику ».

Таким образом, эконометрика - это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.

Предметом эконометрики являются экономические явления. Однако, в отличие от экономической теории, эконометрика делает упор на количественные, а не на качественные аспекты этих явлений. Например, известно, что спрос на товар с ростом его цены падает. Однако, как быстро и по какому закону это происходит, в экономической теории не определяется. Это в каждом конкретном случае делает эконометрика. С другой стороны, математическая экономика строит и анализирует модели экономических процессов без использования реальных числовых значений. Эконометрика же изучает модели на базе эмпирических данных.

Наконец, в эконометрике широко используется аппарат математической статистики, особенно при установлении связей между экономическими показателями. В то же время в экономике невозможно проведение управляемого эксперимента, и эконометристы используют свои собственные приемы анализа, которые в математической статистике не встречаются.

Основными целями эконометрики являются:

1.Прогноз экономических и социально-экономических показателей, характеризующих состояние и развитие анализируемой системы.

2.Имитация различных возможных сценариев социально-экономического развития .

Основные задачи эконометрики:

1.Постороение эконометрических моделей, т. е. представление экономических моделей в математической форме, удобной для проведения эмпирического анализа (спецификация модели ).

2.Оценка параметров построенной модели, делающих выбранную модель наиболее адекватной реальным данным (параметризация ).

3.Проверка качества найденных параметров модели и самой модели в целом (верификация) .

4.Использование построенных моделей для объяснения поведения экономических показателей, прогнозирования и предсказания, а также для осмысленного проведения экономической политики.

Этапы эконометрического моделирования:

1.Постановочный этап : определение конечных целей моделирования, набора факторов и показателей.

2.Априорный этап : предмодельный анализ экономической сущности изучаемого явления.

3.Параметризация : собственно моделирование, т. е. выбор общего вида модели, состава и формы входящих в нее связей.

4.Информационный этап : сбор статистической информации.

5.Идентификация модели : статистический анализ модели и оценивание неизвестных параметров модели.

6.Верификация модели : сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных.

ПАРНАЯ РЕГРЕССИЯ

Спецификация модели

В зависимости от количества факторов, включенных в уравнение регрессии , принято различать простую (парную) и множественную регрессии.

Простая регрессия представляет собой регрессию между двумя переменными – y и x ,т. е. модель вида:

Любое эконометрическое исследование начинается со спецификации модели , т. е. с формулировки вида модели, исходя из соответствующей теории связи между переменными.

Из всего круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы. Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной. Например, выдвигается гипотеза о том, что величина спроса y на товар находится в обратной зависимости от цены x , т. е.

Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как закономерность лишь в среднем по совокупности наблюдений. (Например, если зависимость спроса y от цены x имеет вид:DIV_ADBLOCK41">

В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи. В каждом отдельном случае величина y складывается из двух слагаемых:

где фактическое значение результативного признака; https://pandia.ru/text/79/069/images/image008.gif" width="20" height="28">- случайная величина, характеризующая отклонение реального значения признака от найденного по уравнению регрессии.

Случайная величина называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее порождают 3 источника: спецификация модели, выборочный характер исходных данных и ошибки измерения.

Например, зависимость спроса от цены точнее следует записывать так:

В данном случае слева записано просто y , что означает фактическое значение, а не , отвечающее значению, рассчитанному по уравнению регрессии.

Ошибки спецификации . Это прежде всего неправильно выбраннае форма модели. В частности, зависимость спроса от цены может быть выражена линейно

но возможны и другие соотношения, например

Ошибки спецификации тем меньше, чем в большей мере теоретические значения признака подходят к фактическим данным y .

К ошибкам спецификации относится также недоучет в уравнении регрессии какого-либо существенного фактора, т. е. использование парной регрессии вместо множественной. Например, спрос на конкретный товар может определяться не только ценой, но и доходом на душу населения.

Ошибки выборки. Исследователь при установлении связи между признаками имеет дело с выборочными данными. При изучении экономических процессов данные в исходной совокупности часто являются неоднородными. В этом случае уравнение регрессии не имеет практического смысла. Поэтому для получения хорошего результата из выборки исключают данные с аномальными значениями исследуемых признаков.

Ошибки измерения. Представляют наибольшую опасность в практическом использовании методов регрессии. Ошибки спецификации можно уменьшить, изменяя форму модели, ошибки выборки - увеличивая объем исходных данных, ошибки измерения сводят на нет все усилия по количественной оценке связи между признаками. Например, статистическое измерение дохода на душу населения может иметь ошибку в результате наличия сокрытых доходов. Другой пример: органы государственной статистики получают балансы предприятий, достоверность которых никто не подтверждает.

В эконометрических исследованиях предполагается, что ошибки измерения сведены к минимуму. Поэтому основное внимание уделяется ошибкам спецификации модели.

В парной регрессии выбор вида математической функции (1) может быть осуществлен тремя методами: графическим, аналитическим и экпериментальным.

Графический метод достаточно нагляден. Он основан на поле корреляции. Рассмотрим типы кривых.

Используются и другие типы кривых:

; ; ;

; ; .

Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.

Пусть, например, изучается потребность предприятия в электроэнергии y в зависимости от объема выпускаемой продукции x . Все потребление электроэнергии можно подразделить на 2 части:

Не связанное с производством продукции a ;

Непосредственно связанное с объемом выпускаемой продукции, пропорционально возрастающее с увеличением объема выпуска bx ;

Тогда зависимость потребления электроэнергии от объема продукции можно выразить уравнением регрессии вида

Разделив на x , получим удельный расход электроэнергии на единицу продукции https://pandia.ru/text/79/069/images/image028_0.gif" width="97" height="59">

Это равносторонняя гипербола.

Аналогично затраты предприятия могут быть условно-переменные, изменяющиеся пропорционально изменению объема продукции (расход материала, оплата труда и др.) и условно-постоянные, не изменяющиеся с изменением объема производства (арендная плата , содержание администрации и др.). Соответствующая зависимость затрат на производство y от объема продукции x характеризуется линейной функцией.

а зависимость себестоимости единицы продукции zx от объема продукции – равносторонней гиперболой:

Экспериментальный метод используется при обработке информации на компьютере путем сравнения величины остаточной дисперсии https://pandia.ru/text/79/069/images/image032.gif" width="16" height="33">

Чем меньше , тем меньше наблюдается влияние прочих факторов, тем лучше уравнение регрессии подходит к исходным данным. При обработке данных на компьютере разные математические функции перебираются в автоматическом режиме, и из них выбирается та, для которой является наименьшей.

Если примерно одинакова для нескольких функций, то на практике выбирают более простую, так как она в большей степени поддается интерпретации и требует меньшего объема наблюдений. Результаты многих исследований подтверждают, что число наблюдений должно в 6-7 раз превышать число рассчитываемых параметров при переменной x . Это означает, что искать линейную регрессию, имея менее 7 наблюдений, вообще не имеет смысла. Если вид функции усложняется, то требуется увеличение объема наблюдений. Для рядов динамики, ограниченных по протяженности – 10, 20, 30 лет – предпочтительна модель с меньшим числом параметров при x .

Оценка параметров линейной регрессии.

Линейная регрессия сводится к нахождению уравнения вида

Первое выражение позволяет по заданным значениям фактора x рассчитать теоретические значения результативного признака, подставляя в него фактические значения фактора x . На графике теоретические значения лежат на прямой, которая представляют собой линию регрессии.

Построение линейной регрессии сводится к оценке ее параметров - а и b . Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

Для нахождения минимума надо вычислить частные производные суммы (4) по каждому из параметров - а и b - и приравнять их к нулю.

(5)

Преобразуем, получаем систему нормальных уравнений:

https://pandia.ru/text/79/069/images/image044.gif" width="245" height="76"> (7)

. (8)

Выражение (7) можно записать в другом виде:

(9)

где ковариация признаков, дисперсия фактора x .

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях.

Формально a - значение y при x =0. Если x не имеет и не может иметь нулевого значения, то такая трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду , особенно при a < 0. Интерпретировать можно лишь знак при параметре a . Если a > 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:

< при > 0, https://pandia.ru/text/79/069/images/image053.gif" width="129" height="59">

Иногда линейное уравнение парной регрессии записывают для отклонений от средних значений:

где , . При этом свободный член равен нулю, что и отражено в выражении (10). Этот факт следует из геометрических соображений: уравнению регрессии отвечает та же прямая (3), но при оценке регрессии в отклонениях начало координат перемещается в точку с координатами . При этом в выражении (8) обе суммы будут равны нулю, что и повлечет равенство нулю свободного члена.

Рассмотрим в качестве примера по группе предприятий, выпускающих один вид продукции, функцию издержек

Табл. 1.

Выпуск продукции тыс. ед.()	Затраты на производство, млн. руб.()

Система нормальных уравнений будет иметь вид:

Решая её, получаем a = -5,79, b =36,84.

Уравнение регрессии имеет вид:

Подставив в уравнение значения х , найдем теоретические значения y (последняя колонка таблицы).

Величина a не имеет экономического смысла. Если переменные x и y выразить через отклонения от средних уровней, то линия регрессии на графике пройдет через начало координат. Оценка коэффициента регрессии при этом не изменится:

, где , .

В качестве другого примера рассмотрим функцию потребления в виде:

где С- потребление, y –доход, K , L - параметры. Данное уравнение линейной регрессии обычно используется в увязке с балансовым равенством:

где I – размер инвестиций, r - сбережения.

Для простоты предположим, что доход расходуется на потребление и инвестиции. Таким образом, рассматривается система уравнений:

Наличие балансового равенства накладывает ограничения на величину коэффициента регрессии, которая не может быть больше единицы, т. е. DIV_ADBLOCK46">

Предположим, что функция потребления составила:

Коэффициент регрессии характеризует склонность к потреблению. Он показывает, что из каждой тысячи рублей дохода на потребление расходуется в среднем 650 руб., а 350 руб. инвестируется. Если рассчитать регрессию размера инвестиций от дохода, т. е. , то уравнение регрессии составит . Это уравнение можно и не определять, поскольку оно выводится из функции потребления. Коэффициенты регрессии этих двух уравнений связаны равенством:

Если коэффициент регрессии оказывается больше единицы, то , и на потребление расходуются не только доходы, но и сбережения.

Коэффициент регрессии в функции потребления используется для расчета мультипликатора :

Здесь m ≈2,86, поэтому дополнительные вложения 1 тыс. руб. на длительный срок приведут при прочих равных условиях к дополнительному доходу 2,86 тыс. руб.

При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции r :

Его значения находятся в границах: . Если b > 0, то при b < 0 . По данным примера , что означает очень тесную зависимость затрат на производство от величины объема выпускаемой продукции.

Для оценки качества подбора линейной функции рассчитывается коэффициент детерминации как квадрат линейного коэффициента корреляции r 2 . Он характеризует долю дисперсии результативного признака y , объясняемую регрессией, в общей дисперсии результативного признака:

Величина характеризует долю дисперсии y , вызванную влиянием остальных, не учтенных в модели факторов.

В примере . Уравнением регрессии объясняется 98,2 % дисперсии DIV_ADBLOCK47">

Как было сказано выше, связь между y и x в парной регрессии является не функциональной, а корреляционной. Поэтому оценки параметров a и b являются случайными величинами, свойства которых существенно зависят от свойств случайной составляющей ε. Для получения по МНК наилучших результатов необходимо выполнение следующих предпосылок относительно случайного отклонения (условия Гаусса – Маркова):

10. Математическое ожидание случайного отклонения равно нулю для всех наблюдений: .

20..gif" width="45" height="25">:

Выполнимость этого условия называется отсутствием автокорреляции .

40. Случайное отклонение должно быть независимо от объясняющих переменных.

Обычно это условие выполняется автоматически, если объясняющие переменные в данной модели не являются случайными. Кроме того, выполнимость данной предпосылки для эконометрических моделей не столь критична по сравнению с первыми тремя.

При выполнимости указанных предпосылок имеет место теорема Гаусса -Маркова : оценки (7) и (8), полученные по МНК, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок .

Таким образом, при выполнении условий Гаусса-Маркова оценки (7) и (8) являются не только несмещенными оценками коэффициентов регрессии, но и наиболее эффективными, т. е. имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин yi .

Именно понимание важности условий Гаусса-Маркова отличает компетентного исследователя, использующего регрессионный анализ, от некомпетентного. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты.

Оценка существенности параметров

линейной регрессии и корреляции

После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза о том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y .

Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений (СКО) y от среднего значения раскладывается на две части – объясненную и необъясненную:

или, соответственно:

Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена в

оздействием прочих факторов, линия регрессии параллельна оси Ох и Вариация" href="/text/category/variatciya/" rel="bookmark">вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y .Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Число степеней свободы. (df-degrees of freedom)- это число независимо варьируемых значений признака.

Для общей СКО требуется (n -1) независимых отклонений, т. к..gif" width="116" height="29">

Факторную СКО можно выразить так:

https://pandia.ru/text/79/069/images/image098.gif" width="108" height="33 src=">

Для определения воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы:

Таким образом, можем записать:

Из этого баланса определяем, что https://pandia.ru/text/79/069/images/image102.gif" width="170" height="62">

Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим - критерий для проверки нулевой гипотезы, которая в данном случае записывается как

(13)

Если справедлива, то дисперсии не отличаются друг от друга..gif" width="31" height="29 src="> и различных числах степеней свободы. Табличное значение F - критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. При нахождении табличного значения F - критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы – числителя (она равна единице) и знаменателя, равная n -2 .

Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного т. е. Fфактич>Fтабл(α;1; n -2 ). В этом случае отклоняется и делается вывод о существенности превышения D факт над D остат . ,т. е. о существенности статистической связи между y и x .

Если , то вероятность выше заданного уровня (например, 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между y и x . Уравнение регрессии считается статистически незначимым, не отклоняется.

В рассмотренном примере:

Это общая СКО.

Это факторная СКО.

Остаточная СКО.

;;https://pandia.ru/text/79/069/images/image120.gif" width="136" height="31">; .

На любом уровне значимости , и можно сделать вывод о значимости уравнения регрессии. Статистическая связь между y и x доказана.

Величина F - критерия связана с коэффициентом детерминации.

, (14)

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.

Стандартная ошибка коэффициента регрессии определяется по формуле:

, (15)

Остаточная дисперсия на одну степень свободы (то же, что и D остат ).

В рассмотренном примере

Величина стандартной ошибки совместно с https://pandia.ru/text/79/069/images/image128.gif" width="47" height="21"> степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение - критерия Стьюдента

которое затем сравнивается с табличным значением при определенном уровне значимости α и числе степеней свободы (n -2 ). Здесь проверяется нулевая гипотеза в виде Н0: b =0 , также предполагающая несущественность статистической связи между y и х , но только учитывающая значение b , а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Однако общий смысл гипотез один и тот же: проверка наличия статистической связи между y и х или её отсутствия.

Если tb > t табл (α; n -2) , то гипотеза Н0: b =0 должна быть отклонена, а статистическая связь y с х считается установленной. В случае tb < t табл(α; n -2) нулевая гипотеза не может быть отклонена, и влияние х на y признается несущественным.

В рассмотренном примере

Для двустороннего α=0,05 и n -2 =5 t табл =2,57, tb > t табл , поэтому гипотезу о несущественности b следует отклонить.

Существует связь между и :

Отсюда следует, что .

Доверительный интервал для b определяется как . 95%-ные границы в примере составят:

т. е. Это означает, что с вероятностью 0,95 истинное значение b находится в указанном интервале.

Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, Они не должны включать нуль.

Стандартная ошибка параметра определяется по формуле:

(17)

Процедура оценивания существенности a не отличается от таковой для параметра b . При этом фактическое значение t -критерия вычисляется по формуле:

Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что r как случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях |r |. В этом случае гипотеза об отсутствии корреляционной связи между y и х H 0 : r =0 проверяется на основе статистики

, (19)

которая при справедливости H 0 приблизительно распределена по закону Стьюдента с (n -2 ) степенями свободы. Если , то гипотеза H 0 отвергается с вероятностью ошибиться, не превышающей α ..gif" width="59" height="33 src=">, поэтому DIV_ADBLOCK52">

Однако при малых выборках и значениях r , близких к , следует учитывать, что распределение r как случайной величины отличается от нормального, и построение доверительных интервалов для r не может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу.

Чтобы обойти это затруднение, используется так называемое z-преобразование Фишера:

, (20)

которое дает нормально распределенную величину z , значения которой при изменении r от –1 до +1 изменяются от -∞ до +∞. Стандартная ошибка этой величины равна:

(21)

Для величины z имеются таблицы, в которых приведены её значения для соответствующих значений r .

Для z выдвигается нуль-гипотеза H 0 : z =0 , состоящая в том, что корреляция отсутствует. В этом случае значения статистики

которая распределена по закону Стьюдента с (n -2 ) степенями свободы, не превышает табличного на соответствующем уровне значимости.

Для каждого значения z можно вычислить критические значения r . Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значение r превышает по абсолютной величине табличное, то данное значение r считается существенным. В противном случае фактическое значение несущественно.

Интервалы прогноза по линейному уравнению регрессии.

Прогнозирование по уравнению регрессии представляет собой подстановку в уравнение регрессии соответственного значения х . Такой прогноз называется точечным. Он не является точным, поэтому дополняется расчетом стандартной ошибки ; получается интервальная оценка прогнозного значения :

Преобразуем уравнение регрессии:

ошибка зависит от ошибки и ошибки коэффициента регрессии т. е.

Из теории выборки известно, что

Используем в качестве оценки остаточную дисперсию на одну степень свободы https://pandia.ru/text/79/069/images/image161.gif" width="79" height="57 src=">

Ошибка коэффициента регрессии из формулы (15):

Таким образом, при получаем:

(23)

Как видно из формулы (23), величина https://pandia.ru/text/79/069/images/image166.gif" width="60 height=28" height="28"> и возрастает по мере удаления от в любом направлении.

Для нашего примера эта величина составит:

При . При

Для прогнозируемого значения https://pandia.ru/text/79/069/images/image167.gif" width="23" height="28"> определены выражением:

(24)

т. е. при или При прогнозное значение составит - это точечный прогноз.

Прогноз линии регрессии лежит в интервале:

Мы рассмотрели доверительные интервалы для среднего значения при заданном Однако фактические значения варьируются около среднего значения https://pandia.ru/text/79/069/images/image183.gif" width="32" height="28 src="> Поэтому ошибка прогноза отдельного значения должна включать не только стандартную ошибку https://pandia.ru/text/79/069/images/image180.gif" width="17" height="21 src="> составит:

https://pandia.ru/text/79/069/images/image186.gif" width="369" height="72">

Доверительный интервал прогноза индивидуальных значений https://pandia.ru/text/79/069/images/image187.gif" width="60" height="27 src="> с вероятностью 0,95 составит: или

Пусть в примере с функцией издержек выдвигается предположение, что в предстоящем году в связи со стабилизацией экономики затраты на производство 8 тыс. ед. продукции не превысят 250 млн. руб. Означает ли это изменение найденной закономерности или затраты соответствуют регрессионной модели?

Точечный прогноз:

Предполагаемое значение - 250. Средняя ошибка прогнозного индивидуального значения:

Сравним ее с предполагаемым снижением издержек производства, т. е. 250-288,93=-38,93:

Поскольку оценивается только значимость уменьшения затрат, то используется односторонний t - критерий Стьюдента. При ошибке в 5 % с , поэтому предполагаемое уменьшение затрат значимо отличается от прогнозируемого значения при 95 % - ном уровне доверия. Однако, если увеличить вероятность до 99%, при ошибке 1 % фактическое значение t – критерия оказывается ниже табличного 3,365, и различие в затратах статистически не значимо, т. е. затраты соответствуют предложенной регрессионной модели.

Нелинейная регрессия

До сих пор мы рассматривали лишь линейную модель регрессионной зависимости y от x (3). В то же время многие важные связи в экономике являются нелинейными . Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом, капиталом и т. п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары – с другой).

При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.

Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:

к которой обычный МНК можно применять без всякой предварительной линеаризации.

Рассмотрим указанную процедуру применительно к параболе второй степени:

(27)

Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т. е. трем:

(28)

Решать эту систему можно любым способом, в частности, методом определителей.

Экстремальное значение функции наблюдается при значении фактора, равном:

Если b >0, c <0 , имеет место максимум, т. е. зависимость сначала растет, а затем падает. Такого рода зависимости наблюдаются в экономике труда при изучении заработной платы работников физического труда, когда в роли фактора выступает возраст. При b <0, c >0 парабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции.

В нелинейных зависимостях, не являющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.

Зависимости гиперболического типа имеют вид:

(29)

Примером такой зависимости является кривая Филлипса, констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы . В этом случае значение параметра b будет больше нуля. Другим примером зависимости (29) являются кривые Энгеля, формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары , будет возрастать. В этом случае b <0 , а результативный признак в (29) показывает долю расходов на непродовольственные товары.

Линеаризация уравнения (29) сводится к замене фактора z =1/ x , и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z :

(30)

К такому же линейному уравнению сводится полулогарифмическая кривая:

(31)

которая может быть использована для описания кривых Энгеля. Здесь ln (x ) заменяется на z , и получается уравнение (30).

Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде:

(32)

или в виде

a в зависимости (33) получается как антилогарифм А . При логарифмировании (34) получаем линейную зависимость:

где , а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (34) получается как антилогарифм коэффициента В .

Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида:

(40)

особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х . Преобразуя (40) путем логарифмирования, получаем линейную регрессию:

(46)

Величина R находится в границах , и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака. Так обстоит дело с полулогарифмической и полиномиальной регрессий, а также с равносторонней гиперболой (29). Определив линейный коэффициент корреляции для линеаризованных уравнений, например, в пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости.

Иначе обстоит дело в случае, когда преобразование проводится также с величиной y , например, взятие обратной величины или логарифмирование. Тогда значение R , вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами в (46) будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением (46), вычисленным по исходному нелинейному уравнению.

Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R 2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R 2 для нелинейных связей называют индексом детерминации.

Оценка существенности индекса корреляции проводится так же, как и оценка надежности коэффициента корреляции.

Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F -критерию Фишера:

, (47)

где n -число наблюдений, m -число параметров при переменных х . Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, m =1, для полиномов (26) m = k , т. е. степени полинома. Величина m характеризует число степеней свободы для факторной СКО, а (n - m -1) – число степеней свободы для остаточной СКО.

Индекс детерминации R 2 можно сравнивать с коэффициентом детерминации r 2 для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем больше разница между R 2 и r 2 . Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина (R 2 - r 2 ) не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t

3. Бородич: Учебное пособие. – М.: Новое знание. 2001. – 408с.

4. , Эконометрика. Начальный курс. Учебное пособие. – М.: Дело, 1998. – 248с.

5. Доугерти К. Введение в эконометрику. – М.: ИНФРА-М, 1997. – 402с.