Пакет программ майкрософт, как эффективное средство эконометрического анализа. Оценка результатов линейной регрессии

Множественный коэффициент корреляции трех переменных – это показатель тесноты линейной связи между одним из признаков (буква индекса перед тире) и совокупностью двух других признаков (буквы индекса после тире):

; (12.7)

(12.8)

Эти формулы позволяют легко вычислить множественные коэффициенты корреляции при известных значениях коэффициентов парной корреляции r xy , r xz и r yz .

Коэффициент R не отрицателен и всегда находится в пределах от 0 до 1. При приближении R к единице степень линейной связи трех признаков увеличивается. Между коэффициентом множественной корреляции, например R y-xz , и двумя коэффициентами парной корреляции r yx и r yz существует следующее соотношение: каждый из парных коэффициентов не может превышать по абсолютной величине R y-xz .

Квадрат коэффициента множественной корреляции R 2 называется коэффициентом множественной детерминации. Он показывает долю вариации зависимой переменной под воздействием изучаемых факторов.

Значимость множественной корреляции оценивается по
F –критерию:

, (12.9)

n – объем выборки,

k – число признаков; в нашем случае k = 3.

Теоретическое значение F –критерия берут из таблицы приложений для ν 1 = k –1 и ν 2 = n–k степеней свободы и принятого уровня значимости. Нулевая гипотеза о равенстве множественного коэффициента корреляции в совокупности нулю (H 0:R = 0) принимается, если F факт. < F табл . и отвергается, если F факт. ≥ F табл .

Конец работы -

Эта тема принадлежит разделу:

Математическая статистика

Учреждение образования.. гомельский государственный университет.. имени франциска скорины ю м жученко..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Учебное пособие
для студентов вузов, обучающихся по специальности 1-31 01 01 «Биология» Гомель 2010

Предмет и метод математической статистики
Предмет математической статистики – изучение свойств массовых явлений в биологии, экономике, технике и других областях. Эти явления обычно представляются сложными, вследствие разнообразия (варьиров

Понятие случайного события
Статистическая индукция или статистические заключения, как главная составная часть метода исследования массовых явлений, имеют свои отличительные черты. Статистические заключения делают с численно

Вероятность случайного события
Числовая характеристика случайного события, обладающая тем свойством, что для любой достаточно большой серии испытаний частота события лишь незначительно отличается от этой характеристики, называет

Вычисление вероятностей
Часто возникает необходимость одновременно складывать и умножать вероятности. Например, требуется определить вероятность выпадения 5 очков при одновременном бросании 2 кубиков. Искомая сумма вероят

Понятие случайной переменной
Определив понятие вероятности и выяснив ее главные свойства, перейдем к рассмотрению одного из важнейших понятий теории вероятностей – понятия случайной переменной. Допустим, что в результ

Дискретные случайные переменные
Случайная переменная дискретна, если совокупность возможных ее значений конечна, или, по крайней мере, поддается счислению. Предположим, что случайная переменная X может принимать значения x1

Непрерывные случайные переменные
В противоположность дискретным случайным переменным, рассмотренным в предыдущем подразделе, совокупность возможных значений непрерывной случайной переменной не только не конечна, но и не поддается

Математическое ожидание и дисперсия
Часто возникает необходимость охарактеризовать распределение случайной переменной с помощью одного–двух числовых показателей, выражающих наиболее существенные свойства этого распределения. К таким

Моменты
Большое значение в математической статистике имеют так называемые моменты распределения случайной переменной. В математическом ожидании большие значения случайной величины учитываются недостаточно.

Биномиальное распределение и измерение вероятностей
В этой теме рассмотрим основные типы распределения дискретных случайных переменных. Предположим, что вероятность наступления некоторого случайного события А при единичном испытании равно

Прямоугольное (равномерное) распределение
Прямоугольное (равномерное) распределение - простейший тип непрерывных распределений. Если случайная переменная X может принимать любое действительное значение в интервале (а, b), где а и b – дейст

Нормальное распределение
Нормальное распределение играет основную роль в математической статистике. Это ни в малейшей степени не является случайным: в объективной действительности весьма часто встречаются различные признак

Логарифмически нормальное распределение
Случайная переменная Y имеет логарифмически нормальное распределение с параметрами μ и σ, если случайная переменная X = lnY имеет нормальное распределение с теми же параметрами μ и &

Средние величины
Из всех групповых свойств наибольшее теоретическое и практическое значение имеет средний уровень, измеряемый средней величиной признака. Средняя величина признака – понятие очень глубокое,

Общие свойства средних величин
Для правильного использования средних величин необходимо знать свойства этих показателей: срединное расположение, абстрактность и единство суммарного действия. По своему численному значени

Средняя арифметическая
Средняя арифметическая, обладая общими свойствами средних величин, имеет свои особенности, которые можно выразить следующими формулами:

Средний ранг (непараметрическая средняя)
Средний ранг определяется для таких признаков, для которых еще не найдены способы количественного измерения. По степени проявления таких признаков объекты могут быть ранжированы, т. е. расположены

Взвешенная средняя арифметическая
Обычно, чтобы рассчитать среднюю арифметическую, складывают все значения признака и полученную сумму делят на число вариантов. В этом случае каждое значение, входя в сумму, увеличивает ее на полную

Средняя квадратическая
Средняя квадратическая вычисляется по формуле: , (6.5) Она равна корню квадратному из суммы

Медиана
Медианой называют такое значение признака, которое разделяет всю группу на две равные части: одна часть имеет значения признака меньшее, чем медиана, а другая – большее. Например, если име

Средняя геометрическая
Чтобы получить среднюю геометрическую для группы с n данными, нужно все варианты перемножить и из полученного произведения извлечь корень n-й степени:

Средняя гармоническая
Средняя гармоническая рассчитывается по формуле. (6.14) Для пяти вариантов: 1, 4, 5, 5 сре

Число степеней свободы
Число степеней свободы равно числу элементов свободного разнообразия в группе. Оно равно числу всех имеющихся элементов изучения без числа ограничений разнообразия. Например, для исследова

Коэффициент вариации
Стандартное отклонение – величина именованная, выраженная в тех же единицах измерения, как и средняя арифметическая. Поэтому для сравнения разных признаков, выраженных в разных единицах из

Лимиты и размах
Для быстрой и примерной оценки степени разнообразия часто применяются простейшие показатели: lim = {min ¸ max} – лимиты, т. е. наименьшее и наибольшее значения признака, p =

Нормированное отклонение
Обычно степень развития признака определяется путем его измерения и выражается определенным именованным числом: 3 кг веса, 15 см длины, 20 зацепок на крыле у пчел, 4% жира в молоке, 15 кг настрига

Средняя и сигма суммарной группы
Иногда бывает необходимо определить среднюю и сигму для суммарного распределения, составленного из нескольких распределений. При этом известны не сами распределения, а только их средние и сигмы.

Скошенность (асимметрия) и крутизна (эксцесс) кривой распределения
Для больших выборок (n > 100) вычисляют еще два статистических показателя. Скошенность кривой называется асимметрией:

Вариационный ряд
По мере увеличения численности изучаемых групп все более и более проявляется та закономерность в разнообразии, которая в малочисленных группах была скрыта случайной формой своего проявления.

Гистограмма и вариационная кривая
Гистограмма – это вариационный ряд, представленный в виде диаграммы, в которой различная величина частот изображается различной высотой столбиков. Гистограмма распределения данных представлена на р

Достоверность различия распределений
Статистическая гипотеза – это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных. Проверка статистической гипотезы – это процесс принятия

Критерий по асимметрии и эксцессу
Некоторые признаки растений, животных и микроорганизмов при объединении объектов в группы дают распределения, значительно отличающиеся от нормального. В тех случаях, когда какие-нибудь при

Генеральная совокупность и выборка
Весь массив особей определенной категории называется генеральной совокупностью. Объем генеральной совокупности определяется задачами исследования. Если изучается какой-нибудь вид диких жив

Репрезентативность
Непосредственное изучение группы отобранных объектов дает, прежде всего, первичный материал и характеристику самой выборки. Все выборочные данные и сводные показатели имеют значение в каче

Ошибки репрезентативности и другие ошибки исследований
Оценка генеральных параметров по выборочным показателям имеет свои особенности. Часть никогда не может полностью охарактеризовать все целое, поэтому характеристика генеральной совокупности

Доверительные границы
Определять величину ошибок репрезентативности необходимо для того, чтобы выборочные показатели использовать еще и для нахождения возможных значений генеральных параметров. Этот процесс называется о

Общий порядок оценки
Три величины, необходимые для оценки генерального параметра, – выборочный показатель (), критерий надежности

Оценка средней арифметической
Оценка средней величины имеет целью установить величину генеральной средней для изученной категории объектов. Требуемая для этой цели ошибка репрезентативности определяется по формуле:

Оценка средней разности
В некоторых исследованиях в качестве первичных данных берется разность двух измерений. Это может быть в случае, когда каждая особь выборки изучается в двух состояниях – или в разном возрасте, или п

Недостоверная и достоверная оценка средней разности
Такие результаты выборочных исследований, по которым нельзя получить никакой определенной оценки генерального параметра (или он больше нуля, или меньше, или равен нулю), называются недостоверными.

Оценка разности генеральных средних
В биологических исследованиях особое значение имеет разность двух величин. По разности ведется сравнение разных популяций, рас, пород, сортов, линий, семейств, опытных и контрольных групп (метод гр

Критерий достоверности разности
При том большом значении, которое имеет для исследователей получение достоверных разностей, появляется необходимость овладеть методами, позволяющими определить – достоверна ли полученная, реально с

Репрезентативность при изучении качественных признаков
Качественные признаки обычно не могут иметь градаций проявления: они или имеются, или не имеются у каждой из особей, например пол, комолость, наличие или отсутствие каких-нибудь особенностей, уродс

Достоверность разности долей
Достоверность разности выборочных долей определяется так же, как и для разности средних: (10.34)

Коэффициент корреляции
Во многих исследованиях требуется изучить несколько признаков в их взаимной связи. Если вести такое исследование по отношению к двум признакам, то можно заметить, что изменчивость одного признака н

Ошибка коэффициента корреляции
Как и всякая выборочная величина, коэффициент корреляции имеет свою ошибку репрезентативности, вычисляемую для больших выборок по формуле:

Достоверность выборочного коэффициента корреляции
Критерий выборочного коэффициента корреляции определяется по формуле: (11.9) где:

Доверительные границы коэффициента корреляции
Доверительные границы генерального значения коэффициента корреляции находятся общим способом по формуле:

Достоверность разности двух коэффициентов корреляции
Достоверность разности коэффициентов корреляции определяется так же, как и достоверность разности средних, по обычной формуле

Уравнение прямолинейной регрессии
Прямолинейная корреляция отличается тем, что при этой форме связи каждому из одинаковых изменений первого признака соответствует вполне определенное и тоже одинаковое в среднем изменение другого пр

Ошибки элементов уравнения прямолинейной регрессии
В уравнении простой прямолинейной регрессии: у = а + bх возникают три ошибки репрезентативности. 1 Ошибка коэффициента регрессии:

Частный коэффициент корреляции
Частный коэффициент корреляции – это показатель, измеряющий степень сопряженности двух признаков при постоянном значении третьего. Математическая статистика позволяет установить корреляцию

Линейное уравнение множественной регрессии
Математическое уравнение для прямолинейной зависимости между тремя переменными называется множественным линейным уравнением плоскости регрессии. Оно имеет следующий общий вид:

Корреляционное отношение
Если связь между изучаемыми явлениями существенно отклоняется от линейной, что легко установить по графику, то коэффициент корреляции непригоден в качестве меры связи. Он может указать на отсутстви

Свойства корреляционного отношения
Корреляционное отношение измеряет степень корреляции при любой ее форме. Кроме того, корреляционное отношение обладает рядом других свойств, представляющих большой интерес в статистическом

Ошибка репрезентативности корреляционного отношения
Еще не разработано точной формулы ошибки репрезентативности корреляционного отношения. Обычно приводимая в учебниках формула имеет недостатки, которыми не всегда можно пренебречь. Эта формула не уч

Критерий линейности корреляции
Для определения степени приближения криволинейной зависимости к прямолинейной используется критерий F, вычисляемый по формуле:

Дисперсионный комплекс
Дисперсионный комплекс – это совокупность градаций с привлеченными для исследования данными и средними из данных по каждой градации (частные средние) и по всему комплексу (общая средняя).

Статистические влияния
Статистическое влияние – это отражение в разнообразии результативного признака того разнообразия фактора (его градаций), которое организовано в исследовании. Для оценки влияния фактора нео

Факториальное влияние
Факториальное влияние – это простое или комбинированное статистическое влияние изучаемых факторов. В однофакторных комплексах изучается простое влияние одного фактора при определенных орга

Однофакторный дисперсионный комплекс
Дисперсионный анализ разработан и введен в практику сельскохозяйственных и биологических исследований английским ученым Р. А. Фишером, который открыл закон распределения отношения средних квадратов

Многофакторный дисперсионный комплекс
Ясное представление о математической модели дисперсионного анализа облегчает понимание необходимых вычислительных операций, особенно при обработке данных многофакторных опытов, в которых больше ист

Преобразования
Правильное использование дисперсионного анализа для обработки экспериментального материала предполагает однородность дисперсий по вариантам (выборкам), нормальное или близкое к нему распределение в

Показатели силы влияний
Определение силы влияний по их результатам требуется в биологии, сельском хозяйстве, медицине для выбора наиболее эффективных средств воздействия, для дозировки физических и химических агентов – ст

Ошибка репрезентативности основного показателя силы влияния
Точная формула ошибки основного показателя силы влияния еще не найдена. В однофакторных комплексах, когда ошибка репрезентативности определяется только для одного показателя факториального

Предельные значения показателей силы влияния
Основной показатель силы влияния равен доле одного слагаемого от всей суммы слагаемых. Кроме того, этот показатель равен квадрату корреляционного отношения. По этим двум причинам показатель силы вл

Достоверность влияний
Основной показатель силы влияния, полученный в выборочном исследовании, характеризует, прежде всего, ту степень влияния, которая реально, в действительности, проявилась в группе исследованных объек

Дискриминантный анализ
Дискриминантный анализ является одним из методов многомерного статистического анализа. Цель дискриминантного анализа состоит в том, чтобы на основе измерения различных характеристик (признаков, пар

Постановка задачи, методы решения, ограничения
Предположим, имеется n объектов с m характеристиками. В результате измерений каждый объект характеризуется вектором x1 ... xm, m >1. Задача состоит в том, что

Предположения и ограничения
Дискриминантный анализ «работает» при выполнении ряда предположений. Предположение о том, что наблюдаемые величины – измеряемые характеристики объекта – имеют нормальное распределение. Это

Алгоритм дискриминантного анализа
Решение задач дискриминации (дискриминантный анализ) состоит в разбиении всего выборочного пространства (множества реализации всех рассматриваемых многомерных случайных величин) на некоторое число

Кластерный анализ
Кластерный анализ объединяет различные процедуры, используемые для проведения классификации. В результате применения этих процедур исходная совокупность объектов разделяется на кластеры или группы

Методы кластерного анализа
В практике обычно реализуются агломеративные методы кластеризации. Обычно перед началом классификации данные стандартизуются (вычитается среднее и производится деление на корень квадратный

Алгоритм кластерного анализа
Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп, &


  1. Оцените качество построенной модели. Улучшилось ли качество модели по сравнению с однофакторной моделью? Дайте оценку влияния значимых факторов на результат с помощью коэффициентов эластичности, - и -коэффициентов.
Для оценки качества выбранной множественной модели (6) , аналогично п.1.4 данной задачи, используем коэффициент детерминации R - квадрат, среднюю относительную ошибку аппроксимации и F -критерий Фишера.

Коэффициент детерминации R -квадрат возьмем из итогов «Регрессии» (таблица «Регрессионная статистика» для модели (6)).

Следовательно, вариация (изменение) цены квартиры Y на 76,77% объясняется по данному уравнению вариацией города области Х 1 , числа комнат в квартире Х 2 и жилой площади Х 4 .

Используем исходные данные Y i и найденные инструментом «Регрессия» остатки (таблица «Вывод остатка» для модели (6)). Рассчитаем относительные погрешности и найдем среднее значение
.

ВЫВОД ОСТАТКА


Наблюдение

Предсказанное Y

Остатки

Отн. погрешность

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

Среднее

101,2375

22,51770962

По столбцу относительных погрешностей найдем среднее значение =22.51% (с помощью функции СРЗНАЧ).

Сравнение показывает, что 22.51%>7%. Следовательно, точность модели неудовлетворительная.

С помощью F – критерия Фишера проверим значимость модели в целом. Для этого выпишем из итогов применения инструмента «Регрессия» (таблица «дисперсионный анализ» для модели (6)) F = 39,6702.

С помощью функции FРАСПОБР найдем значение F кр =3.252 для уровня значимости α = 5% , и чисел степеней свободы k 1 = 2 , k 2 = 37 .

F > F кр , следовательно, уравнение модели (6) является значимым, его использование целесообразно, зависимая переменная Y достаточно хорошо описывается включенными в модель (6) факторными переменными Х 1 , Х 2 . и Х 4 .

Дополнительно с помощью t –критерия Стьюдента проверим значимость отдельных коэффициентов модели.

t –статистики для коэффициентов уравнения регрессии приведены в итогах инструмента «Регрессия». Получены следующие значения для выбранной модели (6) :


Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2,27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

Критическое значение t кр найдено для уровня значимости α=5% и числа степеней свободы k =40–2–1=37 . t кр =2.026 (функция СТЬЮДРАСПОБР).

Для свободного коэффициента α =–5.643 определена статистика
, t кр , следовательно, свободный коэффициент не является значимым, его можно исключить из модели.

Для коэффициента регрессии β 1 =6.859 определена статистика
, β 1 не является значимым, его и фактор города области можно удалить из модели.

Для коэффициента регрессии β 2 =-1,985 определена статистика
, t кр , следовательно, коэффициент регрессии β 2 не является значимым, его и фактор числа комнат в квартире можно исключить из модели.

Для коэффициента регрессии β 4 =2.591 определена статистика
, >t кр, следовательно, коэффициент регрессии β 4 является значимым, его и фактор жилой площади квартиры можно сохранить в модели.

Выводы о значимости коэффициентов модели сделаны на уровне значимости α=5% . Рассматривая столбец «P-значение», отметим, что свободный коэффициент α можно считать значимым на уровне 0.64 = 64%; коэффициент регрессии β 1 – на уровне 0,46 = 46%; коэффициент регрессии β 2 – на уровне 0,8 = 80%; а коэффициент регрессии β 4 – на уровне 2,27E-06= 2,26691790951854E-06 = 0,0000002%.

При добавлении в уравнение новых факторных переменных автоматически увеличивается коэффициент детерминации R 2 и уменьшается средняя ошибка аппроксимации, хотя при этом не всегда улучшается качество модели. Поэтому для сравнения качества модели (3) и выбранной множественной модели (6) используем нормированные коэффициенты детерминации.

Таким образом, при добавлении в уравнение регрессии фактора «город области» Х 1 и фактора «число комнат в квартире» Х 2 качество модели ухудшилось, что говорит в пользу удаления факторов Х 1 и Х 2 из модели.

Проведем дальнейшие расчеты.

Средние коэффициенты эластичности в случае линейной модели определяются формулами
.

С помощью функции СРЗНАЧ найдем: S Y , при увеличении только фактора Х 4 на одно его стандартное отклонение – увеличивается на 0,914 S Y

Дельта-коэффициенты определяются формулами
.

Найдем коэффициенты парной корреляции с использованием инструмента «Корреляция» пакета «Анализ данных» в Excel.


Y

X1

X2

X4

Y

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

Коэффициент детерминации был определен ранее и равен 0.7677.

Вычислим дельта-коэффициенты:

;

Поскольку Δ 1 1 и Х 2 выбрана неудачно, и их нужно удалить из модели. Значит, по уравнению полученной линейной трехфакторной модели изменение результирующего фактора Y (цены квартиры) на 104% объясняется воздействием фактора Х 4 (жилой площадью квартиры), на 4% воздействием фактора Х 2 (число комнат), на 0,0859% воздействием фактора Х 1 (город области).

Сегодня уже все, кто хоть немного интересуется дата майнингом, наверняка слышали про простую линейную регрессию . Про нее уже писали на хабре, а также подробно рассказывал Эндрю Нг в своем известном курсе машинного обучения. Линейная регрессия является одним из базовых и самых простых методов машинного обучения, однако очень редко упоминаются методы оценки качества построенной модели. В этой статье я постараюсь немного исправить это досадное упущение на примере разбора результатов функции summary.lm() в языке R. При этом я постараюсь предоставить необходимые формулы, таким образом все вычисления можно легко запрограммировать на любом другом языке. Эта статья предназначена для тех, кто слышал о том, что можно строить линейную регрессию, но не сталкивался со статистическими процедурами для оценки ее качества.

Модель линейной регрессии

Итак, пусть есть несколько независимых случайных величин X1, X2, ..., Xn (предикторов) и зависящая от них величина Y (предполагается, что все необходимые преобразования предикторов уже сделаны). Более того, мы предполагаем, что зависимость линейная, а ошибки рапределены нормально, то есть

Где I - единичная квадратная матрица размера n x n.

Итак, у нас есть данные, состоящие из k наблюдений величин Y и Xi и мы хотим оценить коэффициенты. Стандартным методом для нахождения оценок коэффициентов является метод наименьших квадратов . И аналитическое решение, которое можно получить, применив этот метод, выглядит так:

где b с крышкой - оценка вектора коэффициентов, y - вектор значений зависимой величины, а X - матрица размера k x n+1 (n - количество предикторов, k - количество наблюдений), у которой первый столбец состоит из единиц, второй - значения первого предиктора, третий - второго и так далее, а строки соответствуют имеющимся наблюдениям.

Функция summary.lm() и оценка получившихся результатов

Теперь рассмотрим пример построения модели линейной регрессии в языке R:
> library(faraway) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) > summary(lm1) Call: lm(formula = Species ~ Area + Elevation + Nearest + Scruz + Adjacent, data = gala) Residuals: Min 1Q Median 3Q Max -111.679 -34.898 -7.862 33.460 182.584 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Adjacent -0.074805 0.017700 -4.226 0.000297 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 60.98 on 24 degrees of freedom Multiple R-squared: 0.7658, Adjusted R-squared: 0.7171 F-statistic: 15.7 on 5 and 24 DF, p-value: 6.838e-07
Таблица gala содержит некоторые данные о 30 Галапагосских островах. Мы будем рассматривать модель, где Species - количество разных видов растений на острове линейно зависит от нескольких других переменных.

Рассмотрим вывод функции summary.lm().
Сначала идет строка, которая напоминает, как строилась модель.
Затем идет информация о распределении остатков: минимум, первая квартиль, медиана, третья квартиль, максимум. В этом месте было бы полезно не только посмотреть на некоторые квантили остатков, но и проверить их на нормальность, например тестом Шапиро-Уилка.
Далее - самое интересное - информация о коэффициентах. Здесь потребуется немного теории.
Сначала выпишем следующий результат:

при этом сигма в квадрате с крышкой является несмещенной оценкой для реальной сигмы в квадрате. Здесь b - реальный вектор коэффициентов, а эпсилон с крышкой - вектор остатков, если в качестве коэффициентов взять оценки, полученные методом наименьших квадратов. То есть при предположении, что ошибки распределены нормально, вектор коэффициентов тоже будет распределен нормально вокруг реального значения, а его дисперсию можно несмещенно оценить. Это значит, что можно проверять гипотезу на равенство коэффициентов нулю, а следовательно проверять значимость предикторов, то есть действительно ли величина Xi сильно влияет на качество построенной модели.
Для проверки этой гипотезы нам понадобится следующая статистика, имеющая распределение Стьюдента в том случае, если реальное значение коэффициента bi равно 0:

где
- стандартная ошибка оценки коэффициента, а t(k-n-1) - распределение Стьюдента с k-n-1 степенями свободы.

Теперь все готово для продолжения разбора вывода функции summary.lm().
Итак, далее идут оценки коэффициентов, полученные методом наименьших квадратов, их стандартные ошибки, значения t-статистики и p-значения для нее. Обычно p-значение сравнивается с каким-нибудь достаточно малым заранее выбранным порогом, например 0.05 или 0.01. И если значение p-статистики оказывается меньше порога, то гипотеза отвергается, если же больше, ничего конкретного, к сожалению, сказать нельзя. Напомню, что в данном случае, так как распределение Стьюдента симметричное относительно 0, то p-значение будет равно 1-F(|t|)+F(-|t|), где F - функция распределения Стьюдента с k-n-1 степенями свободы. Также, R любезно обозначает звездочками значимые коэффициенты, для которых p-значение достаточно мало. То есть, те коэффициенты, которые с очень малой вероятностью равны 0. В строке Signif. codes как раз содержится расшифровка звездочек: если их три, то p-значение от 0 до 0.001, если две, то оно от 0.001 до 0.01 и так далее. Если никаких значков нет, то р-значение больше 0.1.

В нашем примере можно с большой уверенностью сказать, что предикторы Elevation и Adjacent действительно с большой вероятностью влияют на величину Species, а вот про остальные предикторы ничего определенного сказать нельзя. Обычно, в таких случаях предикторы убирают по одному и смотрят, насколько изменяются другие показатели модели, например BIC или Adjusted R-squared, который будет разобран далее.

Значение Residual standart error соответствует просто оценке сигмы с крышкой, а степени свободы вычисляются как k-n-1.

А теперь самая важные статистики, на которые в первую очередь стоит смотреть: R-squared и Adjusted R-squared:

где Yi - реальные значения Y в каждом наблюдении, Yi с крышкой - значения, предсказанные моделью, Y с чертой - среднее по всем реальным значениям Yi.

Начнем со статистики R-квадрат или, как ее иногда называют, коэффициента детерминации. Она показывает, насколько условная дисперсия модели отличается от дисперсии реальных значений Y. Если этот коэффициент близок к 1, то условная дисперсия модели достаточно мала и весьма вероятно, что модель неплохо описывает данные. Если же коэффициент R-квадрат сильно меньше, например, меньше 0.5, то, с большой долей уверенности модель не отражает реальное положение вещей.

Однако, у статистики R-квадрат есть один серьезный недостаток: при увеличении числа предикторов эта статистика может только возрастать. Поэтому, может показаться, что модель с большим количеством предикторов лучше, чем модель с меньшим, даже если все новые предикторы никак не влияют на зависимую переменную. Тут можно вспомнить про принцип бритвы Оккама . Следуя ему, по возможности, стоит избавляться от лишних предикторов в модели, поскольку она становится более простой и понятной. Для этих целей была придумана статистика скорректированный R-квадрат. Она представляет собой обычный R-квадрат, но со штрафом за большое количество предикторов. Основная идея: если новые независимые переменные дают большой вклад в качество модели, значение этой статистики растет, если нет - то наоборот уменьшается.

Для примера рассмотрим ту же модель, что и раньше, но теперь вместо пяти предикторов оставим два:
> lm2<-lm(Species~Elevation+Adjacent, data=gala) > summary(lm2) Call: lm(formula = Species ~ Elevation + Adjacent, data = gala) Residuals: Min 1Q Median 3Q Max -103.41 -34.33 -11.43 22.57 203.65 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.43287 15.02469 0.095 0.924727 Elevation 0.27657 0.03176 8.707 2.53e-09 *** Adjacent -0.06889 0.01549 -4.447 0.000134 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 60.86 on 27 degrees of freedom Multiple R-squared: 0.7376, Adjusted R-squared: 0.7181 F-statistic: 37.94 on 2 and 27 DF, p-value: 1.434e-08
Как можно увидеть, значение статистики R-квадрат снизилось, однако значение скорректированного R-квадрат даже немного возросло.

Теперь проверим гипотезу о равенстве нулю всех коэффициентов при предикторах. То есть, гипотезу о том, зависит ли вообще величина Y от величин Xi линейно. Для этого можно использовать следующую статистику, которая, если гипотеза о равенстве нулю всех коэффициентов верна, имеет

7.1. Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессионный анализ позволяет установить функциональную зависимость между некоторой случайной величиной Y и некоторыми влияющими на Y величинами X . Такая зависимость получила название уравнения регрессии. Различают простую (y=m*x+b ) и множественную (y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b ) регрессию линейного и нелинейного типа.
Для оценки степени связи между величинами используется коэффициент множественной корреляции R Пирсона (корреляционное отношение), который может принимать значения от 0 до 1. R =0, если между величинами нет никакой связи, и R =1, если между величинами имеется функциональная связь. В большинстве случаев R принимает промежуточные значения от 0 до 1. Величина R 2 называется коэффициентом детерминации .
Задачей построения регрессионной зависимости является нахождение вектора коэффициентов M модели множественной линейной регрессии, при котором коэффициент R принимает максимальное значение.
Для оценки значимости R применяется F-критерий Фишера , вычисляемый по формуле:

Где n – количество экспериментов; k – число коэффициентов модели. Если F превышает некоторое критическое значение для данных n и k и принятой доверительной вероятности, то величина R считается существенной.

7.2. Инструмент Регрессия из Пакета анализа позволяет вычислить следующие данные:

· коэффициенты линейной функции регрессии – методом наименьших квадратов; вид функции регрессии определяется структурой исходных данных;

· коэффициент детерминации и связанные с ним величины (таблица Регрессионная статистика );

· дисперсионную таблицу и критериальную статистику для проверки значимости регрессии (таблица Дисперсионный анализ );

· среднеквадратическое отклонение и другие его статистические характеристики для каждого коэффициента регрессии , позволяющие проверить значимость этого коэффициента и построить для него доверительные интервалы;

· значения функции регрессии и остатки – разности между исходными значениями переменной Y и вычисленными значениями функции регрессии (таблица Вывод остатка );

· вероятности, соответствующие упорядоченным по возрастанию значениям переменной Y (таблица Вывод вероятности ).

7.3. Вызовите инструмент создания выборки через Данные> Анализ данных> Регрессия .

7.4. В поле Входной интервал Y вводится адрес диапазона, содержащего значения зависимой переменной Y. Диапазон должен состоять из одного столбца.
В поле Входной интервал X вводится адрес диапазона, содержащего значения переменной X. Диапазон должен состоять из одного или нескольких столбцов, но не более чем из 16 столбцов. Если указанные в полях Входной интервал Y и Входной интервал X диапазоны включают заголовки столбцов, то необходимо установить флажок опции Метки – эти заголовки будут использованы в выходных таблицах, сгенерированных инструментом Регрессия .
Флажок опции Константа - ноль следует установить, если в уравнении регрессии константа b принудительно полагается равной нулю.
Опция Уровень надежности устанавливается тогда, когда необходимо построить доверительные интервалы для коэффициентов регрессии с доверительным уровнем, отличным от 0.95, который используется по умолчанию. После установки флажка опции Уровень надежности становится доступным поле ввода, в котором вводится новое значение доверительного уровня.
В области Остатки имеются четыре опции: Остатки , Стандартизованные остатки , График остатков и График подбора . Если установлена хотя бы одна из них, то в выходных результатах появится таблица Вывод остатка , в которой будут выведены значения функции регрессии и остатки – разности между исходными значениями переменной Y и вычисленными значениями функции регрессии. В области Нормальная вероятность имеется одна опция – ; ее установка порождает в выходных результатах таблицу Вывод вероятности и приводит к построению соответствующего графика.


7.5. Установите параметры в соответствии с рисунком. Проверьте, что в качестве величины Y указана первая переменная (включая ячейку с названием), и в качестве величины X указаны две остальные переменные (включая ячейки с названиями). Нажмите OK .

7.6. В таблице Регрессионная статистика приводятся следующие данные.

Множественный R – корень из коэффициента детерминации R 2 , приведенного в следующей строке. Другое название этого показателя – индекс корреляции, или множественный коэффициент корреляции.

R-квадрат – коэффициент детерминации R 2 ; вычисляется как отношение регрессионной суммы квадратов (ячейка С12) к полной сумме квадратов (ячейка С14).

Нормированный R-квадрат вычисляется по формуле

где n – количество значений переменной Y, k – количество столбцов во входном интервале переменной X.

Стандартная ошибка – корень из остаточной дисперсии (ячейка D13).

Наблюдения – количество значений переменной Y.

7.7. В Дисперсионной таблице в столбце SS приводятся суммы квадратов, в столбце df – число степеней свободы. в столбце MS – дисперсии. В строке Регрессия в столбце f вычислено значение критериальной статистики для проверки значимости регрессии. Это значение вычисляется как отношение регрессионной дисперсии к остаточной (ячейки D12 и D13). В столбце Значимость F вычисляется вероятность полученного значения критериальной статистики. Если эта вероятность меньше, например, 0.05 (заданного уровня значимости), то гипотеза о незначимости регрессии (т.е. гипотеза о том, что все коэффициенты функции регрессии равны нулю) отвергается и считается, что регрессия значима. В данном примере регрессия незначима.

7.8. В следующей таблице, в столбце Коэффициенты , записаны вычисленные значения коэффициентов функции регрессии, при этом в строке Y-пересечение записано значение свободного члена b . В столбце Стандартная ошибка вычислены среднеквадратические отклонения коэффициентов.
В столбце t-статистика записаны отношения значений коэффициентов к их среднеквадратическим отклонениям. Это значения критериальных статистик для проверки гипотез о значимости коэффициентов регрессии.
В столбце P-Значение вычисляются уровни значимости, соответствующие значениям критериальных статистик. Если вычисленный уровень значимости меньше заданного уровня значимости (например, 0.05). то принимается гипотеза о значимом отличии коэффициента от нуля; в противном случае принимается гипотеза о незначимом отличии коэффициента от нуля. В данном примере только коэффициент b значимо отличается от нуля, остальные – незначимо.
В столбцах Нижние 95% и Верхние 95% приводятся границы доверительных интервалов с доверительным уровнем 0.95. Эти границы вычисляются по формулам
Нижние 95% = Коэффициент - Стандартная ошибка * t α ;
Верхние 95% = Коэффициент + Стандартная ошибка * t α .
Здесь t α – квантиль порядка α распределения Стьюдента с (n-k-1) степенью свободы. В данном случае α = 0.95. Аналогично вычисляются границы доверительных интервалов в столбцах Нижние 90.0% и Верхние 90.0% .

7.9. Рассмотрим таблицу Вывод остатка из выходных результатов. Эта таблица появляется в выходных результатах только тогда, когда установлена хотя бы одна опция в области Остатки диалогового окна Регрессия .

В столбце Наблюдение приводятся порядковые номера значений переменной Y .
В столбце Предсказанное Y вычисляются значения функции регрессии у i = f(х i) для тех значений переменной X , которым соответствует порядковый номер i в столбце Наблюдение .
В столбце Остатки содержатся разности (остатки) ε i =Y-у i , а в столбце Стандартные остатки – нормированные остатки, которые вычисляются как отношения ε i / s ε . где s ε – среднеквадратическое отклонение остатков. Квадрат величины s ε вычисляется по формуле

где – среднее остатков. Величину можно вычислить как отношение двух значений из дисперсионной таблицы: суммы квадратов остатков (ячейка С13) и степени свободы из строки Итого (ячейка В14).

7.10. По значениям таблицы Вывод остатка строятся два типа графиков: графики остатков и графики подбора (если установлены соответствующие опции в области Остатки диалогового окна Регрессия ). Они строятся для каждого компонента переменной X в отдельности.

На графиках остатков отображаются остатки, т.е. разности между исходными значениями Y и вычисленными по функции регрессии для каждого значения компонента переменной X .

На графиках подбора отображаются как исходные значения Y, так и вычисленные значения функции регрессии для каждого значения компонента переменной X .

7.11. Последней таблицей выходных результатов является таблица Вывод вероятности . Она появляется, если в диалоговом окне Регрессия установлена опция График нормальной вероятности .
Значения в столбце Персентиль вычисляются следующим образом. Вычисляется шаг h = (1/n)*100% , первое значение равно h/2 , последнее равно 100-h/2 . Начиная со второго значения каждое последующее значение равно предыдущему, к которому прибавлен шаг h .
В столбце Y приведены значения переменной Y , упорядоченные по возрастанию. По данным этой таблицы строится так называемый график нормального распределения . Он позволяет визуально оценить степень линейности зависимости между переменными X и Y .


8. Дисперсионный анализ

8.1. Пакет анализа позволяет провести три вида дисперсионного анализа. Выбор конкретного инструмента определяется числом факторов и числом выборок в исследуемой совокупности данных.
используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности.
Двухфакторный дисперсионный анализ с повторениями представляет собой более сложный вариант однофакторного анализа, включающий более чем одну выборку для каждой группы данных.
Двухфакторный дисперсионный анализ без повторения представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Он используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки принадлежат одной и той же генеральной совокупности).

8.2. Однофакторный дисперсионный анализ

8.2.1. Подготовим данные для анализа. Создайте новый лист и скопируйте на него колонки A, B, C, D . Удалите первые две строки. Подготовленные данные можно использовать для проведения Однофакторного дисперсионного анализа.

8.2.2. Вызовите инструмент создания выборки через Данные> Анализ данных> Однофакторный дисперсионный анализ. Заполните в соответствии с рисунком. Нажмите OK .

8.2.3. Рассмотрим таблицу Итоги : Счет – число повторений, Сумма – сумма значений показателя по строкам, Дисперсия – частная дисперсия показателя.

8.2.4. Таблица Дисперсионный анализ : первая колонка Источник вариации содержит наименование дисперсий, SS – сумма квадратов отклонений, df – степень свободы, MS – средний квадрат, F-критерий фактического F распределения. P-значение – вероятность того, что дисперсия, воспроизводимая уравнением, равна дисперсии остатков. Оно устанавливает вероятность того, что полученная количественная определенность взаимосвязи между факторами и результатом может считаться случайной. F-критическое – это значение F теоретического, которое впоследствии сравнивается с F фактическим.

8.2.5. Нулевая гипотеза о равенстве математических ожиданий всех выборок принимается, если выполняется неравенство F-критерий < F-критическое . эту гипотезу следует отвергнуть. В данном случае средние значения выборок – значимо различаются.

Суть каузальных методов прогнозирования состоит в установлении математической связи между результирующей и факторными переменными.

Необходимым условием применения каузальных методов прогнозирования является наличие большого объема данных. Если связи между переменными удается описать математически корректно, то точность каузального прогноза будет достаточно высокой.
К каузальным методам прогнозирования относятся:


  • многомерные регрессионные модели,

  • имитационное моделирование.
Наиболее распространенными каузальными методами прогнозирования являются многомерные регрессионные модели.

1.4.1 Многомерные регрессионные модели

Многомерная регрессионная модель – это уравнение с несколькими независимыми переменными.

Для построения многомерной регрессионной модели могут быть использованы различные функции, наибольшее распространение получили линейная и степенная зависимости:

В линейной модели параметры (b 1 , b 2 , … b n) интерпретируются как влияние каждой из независимых переменных на прогнозируемую величину, если все другие независимые переменные равны нулю.

В степенной модели параметры являются коэффициентами эластичности. Они показывают, на сколько процентов изменится в среднем результат (y) с изменением соответствующего фактора на 1% при неизменности действия других факторов. Для расчета параметров уравнений множественной регрессии также используется метод наименьших квадратов.

При построении регрессионных моделей решающую роль играет качество данных. Сбор данных создает фундамент прогнозам, поэтому имеется ряд требований и правил, которые необходимо соблюдать при сборе данных.


  1. Во-первых, данные должны быть наблюдаемыми , т.е. получены в результате замера, а не расчета.

  1. Во-вторых, из массива данных необходимо исключить повторяющиеся и сильно отличающиеся данные . Чем больше неповторяющихся данных и чем однороднее совокупность, тем лучше будет уравнение. Под сильно отличающимися значениями понимается наблюдения исключительно не вписывающиеся в общий ряд. Например, данные о зарплате рабочих выражены четырех- и пятизначными числами (7 000, 10 000, 15 000), но обнаружено одно шестизначное число (250 000). Очевидно, что это ошибка.

  1. Третье правило (требование) – это достаточно большой объем данных . Мнения статистиков относительно того, сколько необходимо данных для построения хорошего уравнения расходятся. По мнению одних, данных необходимо в 4-6 раз больше числа факторов. Другие утверждают, что не менее чем в 10 раз больше числа факторов, тогда закон больших чисел, действуя в полную силу, обеспечивает эффективное погашение случайных отклонений от закономерного характера связи.

Построение многомерной регрессионной модели в MS Excel
В электронных таблицах Excel имеется возможность построения только лишь линейной многомерной регрессионной модели.
, (1.19)
Для этого необходимо выбрать пункт «Анализ данных», а затем в появившемся окне - инструмент «регрессия»


Рисунок 1.45 – Диалоговое окно инструмента «Регрессия»
В появившемся окне необходимо заполнить ряд полей, в том числе:


  • Входной интервал Y –диапазон данных, из одного столбца, содержащих значения результирующей переменной Y.

  • Входной интервал Х – это диапазон данных, содержащих значения факторных переменных.

Если первая строка или первый столбец входного интервала содержит заголовки, то необходимо установить флажок в поле «метки» .

По умолчанию применяется уровень надежности 95%. Если хотите установить другой уровень, установите флажок и в поле рядом введите желаемый уровень надежности.

Флажок «Константа-ноль» необходимо пометить только в том случае, если вы хотите получить уравнение регрессии без свободного члена а , так чтобы линия регрессии прошла через начала координат.
Вывод результатов расчетов может быть организован 3 способами:


  • в диапазон ячеек этого рабочего листа (для этого в поле «Выходной диапазон» определите левую верхнюю ячейку диапазона, куда будут выводиться результаты расчетов);

  • на новый рабочий лист (в поле рядом можно ввести желаемое название этого листа);

  • в новую рабочую книгу .

Установка флажков «Остатки» и «Стандартизированные остатки» заказывает их включение в выходной диапазон.
Чтобы построить график остатков для каждой независимой переменной, установите флажок «График остатков». Остатки иначе называют ошибками прогнозирования. Они определяются как разность между фактическими и прогнозируемыми значениями Y.
Интерпретация графиков остатков
В графиках остатков не должно быть закономерности. Если закономерность прослеживается, то это значит, что в модель не включен какой-то не известный нам, но закономерно действующий фактор, о которых нет данных.

При установке флажка «График подбора» будет выведена серия графиков, показывающих насколько хорошо теоретическая линия регрессии подобрана к наблюдаемым, т.е. фактическим данным.

Интерпретация графиков подбора
В Excel на графиках подбора красными точками обозначаются теоретические значения Y , синими точками - исходные данные. Если красные точки хорошо накладываются на синие точки, то это визуально свидетельствует об удачном уравнении регрессии.
Необходимым этапом прогнозирования на основе многомерных регрессионных моделей является оценка статистической значимости уравнения регрессии, т.е. пригодности построенного уравнения регрессии для использования в целях прогнозирования. Для решения этой задачи в MS Excel рассчитывается ряд коэффициентов. А именно:


  1. Множественный коэффициент корреляции

Характеризует тесноту и направленность связи между результирующей и несколькими факторными переменными. При двухфакторной зависимости множественный коэффициент корреляции рассчитывается по формуле:
, (1.20)


  1. Множественный коэффициент детерминации ( R 2 ).

R 2 – это есть доля вариации теоретической величины относительно фактических значений у, объясненная за счет включенных в модель факторов. Остальная доля теоретических значений зависит от других, не участвующих в модели факторов. R 2 может принимать значения от 0 до 1. Если , то качество модели высокое. Этот показатель особенно полезен для сравнения нескольких моделей и выбора наилучшей.


  1. Нормированный коэффициент детерминации R 2

У показателя R 2 есть недостаток, состоящий в том, что большие значения коэффициента детерминации могут достигаться благодаря малому числу наблюдений. Нормированный обеспечивает информацией о том, какое значение вы могли бы получить в другом наборе данных значительно большего объема, чем в данном случае.

Нормированный рассчитывается по формуле:

, (1.21)

где - нормированный множественный коэффициент детерминации,

Множественный коэффициент детерминации,

Объем совокупности,

Количество факторных переменных.


  1. Стандартная ошибка регрессии указывает приблизительную величину ошибки прогнозирования. Используется в качестве основной величины для измерения качества оцениваемой модели. Рассчитывается по формуле:
, (1.22)

где - сумма квадратов остатков,

Число степеней свободы остатков.
Т.е стандартная ошибка регрессии показывает величину квадрата ошибки, приходящейся на одну степень свободы.


ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0.973101

R-квадрат

0.946926

Нормированный R-квадрат

0.940682

Стандартная ошибка

0.59867

Наблюдения

20

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

2

108.7071

54.35355

151.6535

1.45E-11

Остаток

17

6.092905

0.358406

Итого

19

114.8

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95.0%

Верхние 95.0%

Y-пересечение

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

Метод дисперсионного анализа состоит в разложении общей суммы квадратов отклонений переменной у от среднего значения на две части:


  1. объясненную регрессией (или факторную),

  2. остаточную.
, (1.2 3)
Пригодность регрессионной модели для прогнозирования зависит от того, какая часть общей вариации признака y приходится на вариацию объясненную регрессией. Очевидно, что если сумма квадратов отклонений объясненная регрессией будет больше остаточной, то делают вывод о статистической значимости уравнения регрессии. Это равносильно тому, что коэффициент детерминации приближается к единице.
Обозначения в таблице «Дисперсионный анализ»:
Второй столбец таблицы называется и означает число степеней свободы. Для общей дисперсии число степеней свободы равно: , для факторной дисперсии (или дисперсии, объясненной регрессией) , для остаточной дисперсии .

где n – это кол-во наблюдений,

m – кол-во факторных переменных модели.
Третий столбец таблицы называется . В нем представлена сумма квадратов отклонений. Общая сумма квадратов отклонений определяется по формуле:

, (1.24)
Факторная сумма квадратов:

, (1.26)
Четвертый столбец называется - среднее значение квадратов отклонений. Определяется по формуле:

С помощью F-критерия Фишера определяется статистическая значимость коэффициента детерминации уравнения регрессии. Для этого выдвигается нулевая гипотеза, которая утверждает, что между результирующей и факторными переменными связь отсутствует . Это возможно лишь в том случае, когда все параметры уравнения множественной линейной регрессии и коэффициент корреляции равны нулю.

Для проверки этой гипотезы необходимо рассчитать фактическое значение F-критерия Фишера и сравнить его с табличным. Фактическое значение F-критерия рассчитывается по формуле:

, (1.28)

Выбирается из специальных статистических таблиц по:


  • заданному уровню значимости () и

  • числу степеней свободы.

В MS Excel табличное значение F-критерия может быть определено с помощью функции: =FРАСПОБР(вероятность; степени свободы1; степени свободы2)

Например: =FРАСПОБР(0,05;df1;df2)
Уровень значимости 1 выбирается на тот же, на котором вычислялись параметры регрессионной модели. По умолчанию установлено 95%.

Если , то выдвинутая гипотеза отклоняется и признается статистическая значимость уравнения регрессии. В случае особо важных прогнозов табличное значение F-критерия рекомендуется увеличить в 4 раза, то есть проверяется условие:
=151.65; = 3.59
Расчетное значение значительно превышает табличное значение. Это значит, что коэффициент детерминации значимо отличается от нуля, поэтому гипотезу об отсутствии регрессионной зависимости следует отклонить.
Теперь оценим значимость коэффициентов регрессии на основе t -критериия Стьюдента. Он позволяет определить, какие из факторных переменных (х) оказывают наибольшее влияние на результирующую переменную (y).

Стандартные ошибки обычно обозначаются . Нижний индекс обозначает параметр уравнения регрессии, для которого рассчитана эта ошибка

Рассчитывается по формуле:

, (1.29)

где - СКО для результирующей переменной,

СКО для признака ,

Коэффициент детерминации для уравнения множественной

регрессии,

Коэффициент детерминации для зависимости фактора со

всеми другими факторами уравнения.

Число степеней свободы для остаточной суммы квадратов

отклонений.
В MS Excel стандартные ошибки рассчитываются автоматически (располагаются в 3-ем столбце 3-ей таблицы).
Фактическое значение t -критерия Стьюдента в MS Excel располагается в 4-ом столбце 3-ей таблицы и называется t-статистика.
(4 столбец) = (2 столбец) / (3 столбец)

t-статистика = Коэффициенты/ Стандартная ошибка
Табличное значение t -критерия Стьюдента зависит от принятого уровня значимости (обычно ; 0,05; 0,01) и числа степеней свободы .

где n – число единиц совокупности,

m – число факторов в уравнении.
В MS Excel табличное значение критерия Стьюдента может быть определено с помощью функции:

СТЬЮДРАСПОБР(вероятность; число степеней свободы)
Например: =СТЬЮДРАСПОБР(0,05;7)
Если , то делается вывод, что коэффициент уравнения регрессии является статистически значимым (надежным) и его можно включать в модель и использовать для прогнозирования.

1.4.2 Метод имитационного моделирования Монте-Карло

Метод имитационного моделирования получил свое название в честь города Монте-Карло, расположенного в княжестве Монако, одного из самых маленьких государств мира, расположенного на берегу Средиземного моря, около границы Франции и Италии.

Метод имитационного моделирования Монте-Карло предполагает генерирование случайных значений в соответствии с заданными ограничениями. Приступая к проведению имитационного моделирования, прежде всего, необходимо разработать экономико-математическую модель (ЭММ) прогнозируемого показателя, отражающего взаимосвязь между факторными переменными, а также степень и характер их влияния на результат. Поскольку в условиях современной рыночной конъюнктуры на субъект экономических отношений оказывают одновременное воздействие множество факторов различной природы и направленности и степень их воздействия не является детерминированной, представляется необходимым разделить переменные ЭММ на две группы: стохастические и детерминированные;

Далее следует определить типы вероятностных распределений для каждой стохастической переменной и соответствующие входные параметры, выполнить имитацию значений стохастических переменных с использованием генератора случайных чисел MS Excel или иных программных средств.

Инструмент «генерация случайных чисел» доступен пользователям MS Excel 2007 после активизации надстройки Пакет анализа . Порядок активизации надстройки описан выше (см. стр.10, рис.1.5-1.8). Для выполнения имитационного моделирования в меню ДАННЫЕ необходимо выбрать пункт «Анализ данных» , в появившемся диалоговом окне из списка выбрать инструмент «Генерация случайных чисел» и щелкнуть ОК.

Рисунок 1.46 - Интерфейс меню анализа данных
В появившемся диалоговом окне необходимо для каждой стохастической переменной выбрать тип вероятностного распределения и задать соответствующие входные параметры.

Рисунок 1.47 - Диалоговое окно генератора случайных чисел
Данные этап является одним из наиболее сложных, поэтому при его выполнении необходимо использовать знания и опыт экспертов. Выбор типа вероятностного распределения также может осуществляться на основе имеющейся статистической информации. На практике чаще всего используют такие виды вероятностных распределений как нормальное, треугольное и равномерное.

Нормальное распределение (или закон Муавра-Гаусса-Лапласа) предполагает, что варианты прогнозируемого параметра тяготеют к среднему значению. Значения переменной, существенно отличающиеся от среднего, то есть находящиеся в «хвостах» распределения, имеют малую вероятность.

Треугольное распределение представляет собой производную от нормального распределения и предполагает линейно нарастающее, по мере приближения к среднему значению, распределение.

Равномерное распределение используется в том случае, когда все значения варьируемого показателя имеют одинаковую вероятность реализации.

При важности переменной и невозможности подобрать закон распределения её можно рассматривать с точки зрения дискретного распределения. Перечисленные выше виды вероятностных распределений требуют определения входных параметров, представленных в таблице1.11
Таблица 1.11 - Входные параметры основных видов вероятностных распределений


Вид вероятностного

распределения


Входные параметры

1 Нормальное распределение

  • среднее значение;

  • стандартное отклонение;

2 Треугольное распределение

  • среднее значение;


3 Равномерное распределение

  • пределы возможного диапазона значений;

4 Дискретное распределение

  • конкретные значения переменной;

  • соответствующие данным значениям вероятности.

В результате проведения серии экспериментов будет получено распределение значений стохастических переменных, на основании которых следует рассчитать значение прогнозируемого показателя.

Следующим необходимым этапом является проведение экономико-статистического анализа результатов имитационного моделирования, при котором рекомендуется рассчитывать следующие статистические характеристики:


  • среднее значение;

  • среднеквадратическое отклонение;

  • дисперсию;

  • минимальное и максимальное значение;

  • размах колебаний;

  • коэффициент асимметрии;

  • эксцесс.
Указанные выше показатели могут быть использованы для проверки гипотезы о нормальном распределении. В случае подтверждения гипотезы для составления интервального прогноза может быть использовано правило «трех сигм». Правило «трех сигм» гласит, что если случайная величина X подчинена нормальному закону распределения с параметрами и , то практически достоверно, что её значения заключены в интервале , то есть . Для повышения наглядности и упрощения интерпретации целесообразно построить гистограмму.


Рисунок 1.48 - Гистограмма значений прогнозируемого показателя

Реализация указанных этапов позволит получить вероятностную оценку значений прогнозируемого показателя (интервальный прогноз).