Дана матрица парных коэффициентов корреляции. Матрица парных коэффициентов корреляций

Для определения степени зависимости между несколькими показателями применяется множественные коэффициенты корреляции. Их затем сводят в отдельную таблицу, которая имеет название корреляционной матрицы. Наименованиями строк и столбцов такой матрицы являются названия параметров, зависимость которых друг от друга устанавливается. На пересечении строк и столбцов располагаются соответствующие коэффициенты корреляции. Давайте выясним, как можно провести подобный расчет с помощью инструментов Excel.

Принято следующим образом определять уровень взаимосвязи между различными показателями, в зависимости от коэффициента корреляции:

  • 0 – 0,3 – связь отсутствует;
  • 0,3 – 0,5 – связь слабая;
  • 0,5 – 0,7 – средняя связь;
  • 0,7 – 0,9 – высокая;
  • 0,9 – 1 – очень сильная.

Если корреляционный коэффициент отрицательный, то это значит, что связь параметров обратная.

Для того, чтобы составить корреляционную матрицу в Экселе, используется один инструмент, входящий в пакет «Анализ данных» . Он так и называется – «Корреляция» . Давайте узнаем, как с помощью него можно вычислить показатели множественной корреляции.

Этап 1: активация пакета анализа

Сразу нужно сказать, что по умолчанию пакет «Анализ данных» отключен. Поэтому, прежде чем приступить к процедуре непосредственного вычисления коэффициентов корреляции, нужно его активировать. К сожалению, далеко не каждый пользователь знает, как это делать. Поэтому мы остановимся на данном вопросе.


После указанного действия пакет инструментов «Анализ данных» будет активирован.

Этап 2: расчет коэффициента

Теперь можно переходить непосредственно к расчету множественного коэффициента корреляции. Давайте на примере представленной ниже таблицы показателей производительности труда, фондовооруженности и энерговооруженности на различных предприятиях рассчитаем множественный коэффициент корреляции указанных факторов.


Этап 3: анализ полученного результата

Теперь давайте разберемся, как понимать тот результат, который мы получили в процессе обработки данных инструментом «Корреляция» в программе Excel.

Как видим из таблицы, коэффициент корреляции фондовооруженности (Столбец 2 ) и энерговооруженности (Столбец 1 ) составляет 0,92, что соответствует очень сильной взаимосвязи. Между производительностью труда (Столбец 3 ) и энерговооруженностью (Столбец 1 ) данный показатель равен 0,72, что является высокой степенью зависимости. Коэффициент корреляции между производительностью труда (Столбец 3 ) и фондовооруженностью (Столбец 2 ) равен 0,88, что тоже соответствует высокой степени зависимости. Таким образом, можно сказать, что зависимость между всеми изучаемыми факторами прослеживается довольно сильная.

Как видим, пакет «Анализ данных» в Экселе представляет собой очень удобный и довольно легкий в обращении инструмент для определения множественного коэффициента корреляции. С его же помощью можно производить расчет и обычной корреляции между двумя факторами.

y x (1) x (2) x (3) x (4) x (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
x (1) 0.43 1.00 0.85 0.98 0.11 0.34
x (2) 0.37 0.85 1.00 0.88 0.03 0.46
x (3) 0.40 0.98 0.88 1.00 0.03 0.28
x (4) 0.58 0.11 0.03 0.03 1.00 0.57
x (5) 0.33 0.34 0.46 0.28 0.57 1.00

Анализ матрицы парных коэффициентов корреляции показывает, что результативный показатель наиболее тесно связан с показателем x (4) - количество удобрений, расходуемых на 1 га ().

В то же время связь между признаками-аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (x (1)) и числом орудий поверхностной обработки почвы .

О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции и . Учитывая тесную взаимосвязь показателей x (1) , x (2) и x (3) , в регрессионную модель урожайности может войти лишь один из них.

Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим регрессионную модель урожайности, включив в нее все исходные показатели:

F набл = 121.

В скобках указаны значения исправленных оценок среднеквадратических отклонений оценок коэффициентов уравнения .

Под уравнением регрессии представлены следующие его параметры адекватности: множественный коэффициент детерминации ; исправленная оценка остаточной дисперсии , средняя относительная ошибка аппроксимации и расчетное значение -критерия F набл = 121.

Уравнение регрессии значимо, т.к. F набл = 121 > F kp = 2,85 найденного по таблице F -распределения при a=0,05; n 1 =6 и n 2 =14.

Из этого следует, что Q¹0, т.е. и хотя бы один из коэффициентов уравнения q j (j = 0, 1, 2, ..., 5) не равен нулю.

Для проверки гипотезы о значимости отдельных коэффициентов регрессии H0: q j =0, где j =1,2,3,4,5, сравнивают критическое значение t kp = 2,14, найденное по таблице t -распределения при уровне значимости a=2Q =0,05 и числе степеней свободы n=14, с расчетным значением . Из уравнения следует, что статистически значимым является коэффициент регрессии только при x (4) , так как ½t 4 ½=2,90 > t kp =2,14.



Не поддаются экономической интерпретации отрицательные знаки коэффициентов регрессии при x (1) и x (5) . Из отрицательных значений коэффициентов следует, что повышение насыщенности сельского хозяйства колесными тракторами (x (1)) и средствами оздоровления растений (x (5)) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

Для получения уравнения регрессии со значимыми коэффициентами используем пошаговый алгоритм регрессионного анализа. Первоначально используем пошаговый алгоритм с исключением переменных.

Исключим из модели переменную x (1) , которой соответствует минимальное по абсолютной величине значение ½t 1 ½=0,01. Для оставшихся переменных вновь построим уравнение регрессии:

Полученное уравнение значимо, т.к. F набл = 155 > F kp = 2,90, найденного при уровне значимости a=0,05 и числах степеней свободы n 1 =5 и n 2 =15 по таблице F -распределения, т.е. вектор q¹0. Однако в уравнении значим только коэффициент регрессии при x (4) . Расчетные значения ½t j ½ для остальных коэффициентов меньше t кр = 2,131, найденного по таблице t -распределения при a=2Q =0,05 и n=15.

Исключив из модели переменную x (3) , которой соответствует минимальное значение t 3 =0,35 и получим уравнение регрессии:

(2.9)

В полученном уравнении статистически не значим и экономически не интерпретируем коэффициент при x (5) . Исключив x (5) получим уравнение регрессии:

(2.10)

Мы получили значимое уравнение регрессии со значимыми и интерпретируемыми коэффициентами.

Однако полученное уравнение является не единственно “хорошей” и не “самой лучшей” моделью урожайности в нашем примере.

Покажем, что в условии мультиколлинеарности пошаговый алгоритм с включением переменных является более эффективным. На первом шаге в модель урожайности y входит переменная x (4) , имеющая самый высокий коэффициент корреляции с y , объясняемой переменной -r (y , x (4))=0,58. На втором шаге, включая уравнение наряду с x (4) переменные x (1) или x (3) , мы получим модели, которые по экономическим соображениям и статистическим характеристикам превосходят (2.10):

(2.11)

(2.12)

Включение в уравнение любой из трех оставшихся переменных ухудшает его свойства. Смотри, например, уравнение (2.9).

Таким образом, мы имеем три “хороших” модели урожайности, из которых нужно выбрать по экономическим и статистическим соображениям одну.

По статистическим критериям наиболее адекватна модель (2.11). Ей соответствуют минимальные значения остаточной дисперсии =2,26 и средней относительной ошибки аппроксимации и наибольшие значения и F набл = 273.

Несколько худшие показатели адекватности имеет модель (2.12), а затем - модель (2.10).

Будем теперь выбирать наилучшую из моделей (2.11) и (2.12). Эти модели отличаются друг от друга переменными x (1) и x (3) . Однако в моделях урожайностей переменная x (1) (число колесных тракторов на 100 га) более предпочтительна, чем переменная x (3) (число орудий поверхностной обработки почвы на 100 га), которая является в некоторой степени вторичной (или производной от x (1)).

В этой связи из экономических соображений предпочтение следует отдать модели (2.12). Таким образом, после реализации алгоритма пошагового регрессионного анализа с включением переменных и учета того, что в уравнение должна войти только одна из трех связанных переменных (x (1) , x (2) или x (3)) выбираем окончательное уравнение регрессии:

Уравнение значимо при a=0,05, т.к. F набл = 266 > F kp = 3,20, найденного по таблице F -распределения при a=Q =0,05; n 1 =3 и n 2 =17. Значимы и все коэффициенты регрессии и в уравнении ½t j ½>t kp (a=2Q =0,05; n=17)=2,11. Коэффициент регрессии q 1 следует признать значимым (q 1 ¹0) из экономических соображений, при этом t 1 =2,09 лишь незначительно меньше t kp = 2,11.

Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни (при фиксированном значении x (4)) приводит к росту урожайности зерновых в среднем на 0,345 ц/га.

Приближенный расчет коэффициентов эластичности э 1 »0,068 и э 2 »0,161 показывает, что при увеличении показателей x (1) и x (4) на 1% урожайность зерновых повышается в среднем соответственно на 0,068% и 0,161%.

Множественный коэффициент детерминации свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедшими в модель показателями (x (1) и x (4)), то есть насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (x (2) , x (3) , x (5) , погодные условия и др.). Средняя относительная ошибка аппроксимации характеризует адекватность модели, так же как и величина остаточной дисперсии . При интерпретации уравнения регрессии интерес представляют значения относительных ошибок аппроксимации . Напомним, что - модельное значение результативного показателя, характеризует среднее для совокупности рассматриваемых районов значение урожайности при условии, что значения объясняющих переменных x (1) и x (4) зафиксированы на одном и том же уровне, а именно x (1) = x i (1) и x (4) = x i (4) . Тогда по значениям d i можно сопоставлять районы по урожайности. Районы, которым соответствуют значения d i >0, имеют урожайность выше среднего, а d i <0 - ниже среднего.

В нашем примере, по урожайности наиболее эффективно растениеводство ведется в районе, которому соответствует d 7 =28%, где урожайность на 28% выше средней по региону, и наименее эффективно - в районе с d 20 =-27,3%.


Задачи и упражнения

2.1. Из генеральной совокупности (y , x (1) , ..., x (p)), где y имеет нормальный закон распределения с условным математическим ожиданием и дисперсией s 2 , взята случайная выборка объемом n , и пусть (y i , x i (1) , ..., x i (p)) - результат i -го наблюдения (i =1, 2, ..., n ). Определить: а) математическое ожидание МНК-оценки вектора q ; б) ковариационную матрицу МНК-оценки вектора q ; в) математическое ожидание оценки .

2.2. По условию задачи 2.1 найти математическое ожидание суммы квадратов отклонений, обусловленных регрессией, т.е. EQ R , где

.

2.3. По условию задачи 2.1 определить математическое ожидание суммы квадратов отклонений, обусловленных остаточной вариацией относительно линий регрессии, т.е. EQ ост, где

2.4. Доказать, что при выполнении гипотезы Н 0: q=0 статистика

имеет F-распределение с числами степеней свободы n 1 =p+1 и n 2 =n-p-1.

2.5. Доказать, что при выполнении гипотезы Н 0: q j =0 статистика имеет t-распределение с числом степеней свободы n=n-p-1.

2.6. На основании данных (табл.2.3) о зависимости усушки кормового хлеба (y ) от продолжительности хранения (x ) найти точечную оценку условного математического ожидания в предположении, что генеральное уравнение регрессии - линейное.

Таблица 2.3.

Требуется: а) найти оценки и остаточной дисперсии s 2 в предположении, что генеральное уравнение регрессии имеет вид ; б) проверить при a=0,05 значимость уравнения регрессии, т.е. гипотезу Н 0: q=0; в) с надежностью g=0,9 определить интервальные оценки параметров q 0 , q 1 ; г) с надежностью g=0,95 определить интервальную оценку условного математического ожидания при х 0 =6; д) определить при g=0,95 доверительный интервал предсказания в точке х =12.

2.7. На основании данных о динамике темпов прироста курса акций за 5 месяцев, приведенных в табл. 2.4.

Таблица 2.4.

месяцы (x )
y (%)

и предположения, что генеральное уравнение регрессии имеет вид , требуется: а) определить оценки и параметров уравнения регрессии и остаточной дисперсии s 2 ; б) проверить при a=0,01 значимость коэффициента регрессии, т.е. гипотезы H 0: q 1 =0;

в) с надежностью g=0,95 найти интервальные оценки параметров q 0 и q 1 ; г) с надежностью g=0,9 установить интервальную оценку условного математического ожидания при x 0 =4; д) определить при g=0,9 доверительный интервал предсказания в точке x =5.

2.8. Результаты исследования динамики привеса молодняка приведены в табл.2.5.

Таблица 2.5.

Предполагая, что генеральное уравнение регрессии - линейное, требуется: а) определить оценки и параметров уравнения регрессии и остаточной дисперсии s 2 ; б) проверить при a=0,05 значимость уравнения регрессии, т.е. гипотезы H 0: q=0;

в) с надежностью g=0,8 найти интервальные оценки параметров q 0 и q 1 ; г) с надежностью g=0,98 определить и сравнить интервальные оценки условного математического ожидания при x 0 =3 и x 1 =6;

д) определить при g=0,98 доверительный интервал предсказания в точке x =8.

2.9. Себестоимость (y ) одного экземпляра книги в зависимости от тиража (x ) (тыс.экз.) характеризуется данными, собранными издательством (табл.2.6). Определить МНК-оценки и параметров уравнения регрессии гиперболического вида , с надежностью g=0,9 построить доверительные интервалы для параметров q 0 и q 1 , а также условного математического ожидания при x =10.

Таблица 2.6.

Определить оценки и параметров уравнения регрессии вида , проверить при a=0,05 гипотезу Н 0: q 1 =0 и построить с надежностью g=0,9 доверительные интервалы для параметров q 0 и q 1 и условного математического ожидания при x =20.

2.11. В табл. 2.8 представленные данные о темпах прироста (%) следующих макроэкономических показателей n =10 развитых стран мира за 1992г.: ВНП - x (1) , промышленного производства - x (2) , индекса цен - x (3) .

Таблица 2.8.

Страны x и параметров уравнения регрессии, оценку остаточной дисперсии; б) проверить при a=0,05 значимость коэффициента регрессии, т.е. Н 0: q 1 =0; в) с надежностью g=0,9 найти интервальные оценки q 0 и q 1 ; г) найти при g=0,95 доверительный интервал для в точке х 0 =х i , где i =5; д) сравнить статистические характеристики уравнений регрессий: 1, 2 и 3.

2.12. Задачу 2.11 решить, приняв за объясняемую величину (у ) показатель x (1) , а за объясняющую (х ) переменную x (3) .

1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики: Учебник. М., ЮНИТИ, 1998 (2-е издание 2001);

2. Айвазян С.А., Мхитарян В.С. Прикладная статистика в задачах и упражнениях: Учебник. М. ЮНИТИ – ДАНА, 2001;

3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М., Финансы и статистика, 1985, 487с.;

4. Айвазян С.А., Бухштабер В. М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерностей. М., Финансы и статисика, 1989, 607с.;

5. Джонстон Дж. Эконометрические методы, М.: Статистика, 1980, 446с.;

6. Дубров А.В., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. М., Финансы и статистика, 2000;

7. Мхитарян В.С., Трошин Л.И. Исследование зависимостей методами корреляции и регрессии. М., МЭСИ, 1995, 120с.;

8. Мхитарян В.С., Дубров А.М., Трошин Л.И. Многомерные статистические методы в экономике. М., МЭСИ, 1995, 149с.;

9. Дубров А.М., Мхитарян В.С., Трошин Л.И. Математическая статистика для бизнесменов и менеджеров. М., МЭСИ, 2000, 140с.;

10. Лукашин Ю.И. Регрессионные и адаптивные методы прогнозирования: Учебное пособие, М., МЭСИ, 1997.

11. Лукашин Ю.И. Адаптивные методы краткосрочного прогнозирования. ‑ М., Статистика, 1979.


ПРИЛОЖЕНИЯ


Приложение 1 . Варианты заданий для самостоятельных компьютерных исследований.

Матрица парных коэффициентов корреляции представляет собой матрицу, элементами которой являются парные коэффициенты корреляции. Например, для трех переменных эта матрица имеет вид:
- y x 1 x 2 x 3
y 1 r yx1 r yx2 r yx3
x 1 r x1y 1 r x1x2 r x1x3
x 2 r x2y r x2x1 1 r x2x3
x 3 r x3y r x3x1 r x3x2 1

Вставьте в поле матрицу парных коэффициентов.

Пример . По данным 154 сельскохозяйственных предприятий Кемеровской области 2003 г. изучить эффективность производства зерновых (табл. 13).

  1. Определите факторы, формирующие рентабельность зерновых в сельскохозяйственных предприятий в 2003 г.
  2. Постройте матрицу парных коэффициентов корреляции. Установите, какие факторы мультиколлинеарны.
  3. Постройте уравнение регрессии, характеризующее зависимость рентабельности зерновых от всех факторов.
  4. Оцените значимость полученного уравнения регрессии. Какие факторы значимо воздействуют на формирование рентабельности зерновых в этой модели?
  5. Оцените значение рентабельности производства зерновых в сельскохозяйственном предприятии № 3.

Решение получаем с помощью калькулятора Уравнение множественной регрессии :

1. Оценка уравнения регрессии.
Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор получается из выражения:
s = (X T X) -1 X T Y
Матрица X

1 0.43 2.02 0.29
1 0.87 1.29 0.55
1 1.01 1.09 0.7
1 0.63 1.68 0.41
1 0.52 0.3 0.37
1 0.44 1.98 0.3
1 1.52 0.87 1.03
1 2.19 0.8 1.3
1 1.8 0.81 1.17
1 1.57 0.84 1.06
1 0.94 1.16 0.64
1 0.72 1.52 0.44
1 0.73 1.47 0.46
1 0.77 1.41 0.49
1 1.21 0.97 0.88
1 1.25 0.93 0.91
1 1.31 0.91 0.94
1 0.38 2.08 0.27
1 0.41 2.05 0.28
1 0.48 1.9 0.32
1 0.58 1.73 0.38
1 0 0 0

Матрица Y
0.22
0.67
0.79
0.42
0.32
0.24
0.95
1.05
0.99
0.96
0.73
0.52
2.1
0.58
0.87
0.89
0.91
0.14
0.18
0.27
0.37
0

Матрица X T
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Умножаем матрицы, (X T X)
Находим определитель det(X T X) T = 34.35
Находим обратную матрицу (X T X) -1
0.6821 0.3795 -0.2934 -1.0118
0.3795 9.4402 -0.133 -14.4949
-0.2934 -0.133 0.1746 0.3204
-1.0118 -14.4949 0.3204 22.7272

Вектор оценок коэффициентов регрессии равен
s = (X T X) -1 X T Y =
0.1565
0.3375
0.0043
0.2986

Уравнение регрессии (оценка уравнения регрессии)
Y = 0.1565 + 0.3375X 1 + 0.0043X 2 + 0.2986X 3

Матрица парных коэффициентов корреляции

Число наблюдений n = 22. Число независимых переменных в модели ровно 3, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 5. Матрица, независимых переменных Х имеет размерность (22 х 5). Матрица Х T Х определяется непосредственным умножением или по следующим предварительно вычисленным суммам.
Матрица составленная из Y и X
1 0.22 0.43 2.02 0.29
1 0.67 0.87 1.29 0.55
1 0.79 1.01 1.09 0.7
1 0.42 0.63 1.68 0.41
1 0.32 0.52 0.3 0.37
1 0.24 0.44 1.98 0.3
1 0.95 1.52 0.87 1.03
1 1.05 2.19 0.8 1.3
1 0.99 1.8 0.81 1.17
1 0.96 1.57 0.84 1.06
1 0.73 0.94 1.16 0.64
1 0.52 0.72 1.52 0.44
1 2.1 0.73 1.47 0.46
1 0.58 0.77 1.41 0.49
1 0.87 1.21 0.97 0.88
1 0.89 1.25 0.93 0.91
1 0.91 1.31 0.91 0.94
1 0.14 0.38 2.08 0.27
1 0.18 0.41 2.05 0.28
1 0.27 0.48 1.9 0.32
1 0.37 0.58 1.73 0.38
1 0 0 0 0

Транспонированная матрица.
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.22 0.67 0.79 0.42 0.32 0.24 0.95 1.05 0.99 0.96 0.73 0.52 2.1 0.58 0.87 0.89 0.91 0.14 0.18 0.27 0.37 0
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Матрица A T A.
22 14.17 19.76 27.81 13.19
14.17 13.55 15.91 16.58 10.56
19.76 15.91 23.78 22.45 15.73
27.81 16.58 22.45 42.09 14.96
13.19 10.56 15.73 14.96 10.45

Полученная матрица имеет следующее соответствие:

Найдем парные коэффициенты корреляции.
Для y и x 1

Средние значения



Дисперсия





Коэффициент корреляции

Для y и x 2
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для y и x 3
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x 1 и x 2
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x 1 и x 3
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x 2 и x 3
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Матрица парных коэффициентов корреляции.
- y x 1 x 2 x 3
y 1 0.62 -0.24 0.61
x 1 0.62 1 -0.39 0.99
x 2 -0.24 -0.39 1 -0.41
x 3 0.61 0.99 -0.41 1

Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых r yxi < 0.5 исключают из модели.
Коллинеарность – зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:
r(x j y) > r(x k x j) ; r(x k y) > r(x k x j).
Если одно из неравенств не соблюдается, то исключается тот параметр x k или x j , связь которого с результативным показателем Y оказывается наименее тесной.
3. Анализ параметров уравнения регрессии.
Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации
Для несмещенной оценки дисперсии проделаем следующие вычисления:
Несмещенная ошибка e = Y - X*s (абсолютная ошибка аппроксимации)
-0.18
0.05
0.08
-0.08
-0.12
-0.16
-0.03
-0.24
-0.13
-0.05
0.06
-0.02
1.55
0.01
0.04
0.04
0.03
-0.23
-0.21
-0.15
-0.1
-0.16

s e 2 = (Y - X*s) T (Y - X*s)
Несмещенная оценка дисперсии равна

Оценка среднеквадратичного отклонения равна

Найдем оценку ковариационной матрицы вектора k = a*(X T X) -1
0.26 0.15 -0.11 -0.39
0.15 3.66 -0.05 -5.61
-0.11 -0.05 0.07 0.12
-0.39 -5.61 0.12 8.8

Дисперсии параметров модели определяются соотношением S 2 i = K ii , т.е. это элементы, лежащие на главной диагонали
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности , которые определяются по формуле:


Частные коэффициент эластичности E 1 < 1. Следовательно, его влияние на результативный признак Y незначительно.

Частные коэффициент эластичности E 2 < 1. Следовательно, его влияние на результативный признак Y незначительно.

Частные коэффициент эластичности E 3 < 1. Следовательно, его влияние на результативный признак Y незначительно.
Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции (от 0 до 1)

Связь между признаком Y факторами X умеренная
Коэффициент детерминации
R 2 = 0.62 2 = 0.38
т.е. в 38.0855 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
T табл (n-m-1;a) = (18;0.05) = 1.734
Поскольку Tнабл > Tтабл, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически - значим
Интервальная оценка для коэффициента корреляции (доверительный интервал)

Доверительный интервал для коэффициента корреляции
r(0.3882;0.846)
5. Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров множественного уравнения регрессии).
1) t-статистика


Статистическая значимость коэффициента регрессии b 0 не подтверждается

Статистическая значимость коэффициента регрессии b 1 не подтверждается

Статистическая значимость коэффициента регрессии b 2 не подтверждается

Статистическая значимость коэффициента регрессии b 3 не подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b i - t i S i ; b i + t i S i)
b 0: (-0.7348;1.0478)
b 1: (-2.9781;3.6531)
b 2: (-0.4466;0.4553)
b 3: (-4.8459;5.4431)

2) F-статистика. Критерий Фишера


Fkp = 2.93
Поскольку F < Fkp, то коэффициент детерминации статистически не значим и уравнение регрессии статистически ненадежно.
6. Проверка на наличие гетероскедастичности методом графического анализа остатков.
В этом случае по оси абсцисс откладываются значения объясняющей переменной X i , а по оси ординат квадраты отклонения e i 2 .

y y(x) e=y-y(x) e 2
0.22 0.4 -0.18 0.03
0.67 0.62 0.05 0
0.79 0.71 0.08 0.01
0.42 0.5 -0.08 0.01
0.32 0.44 -0.12 0.02
0.24 0.4 -0.16 0.03
0.95 0.98 -0.03 0
1.05 1.29 -0.24 0.06
0.99 1.12 -0.13 0.02
0.96 1.01 -0.05 0
0.73 0.67 0.06 0
0.52 0.54 -0.02 0
2.1 0.55 1.55 2.41
0.58 0.57 0.01 0
0.87 0.83 0.04 0
0.89 0.85 0.04 0
0.91 0.88 0.03 0
0.14 0.37 -0.23 0.05
0.18 0.39 -0.21 0.04
0.27 0.42 -0.15 0.02
0.37 0.47 -0.1 0.01
0.16 -0.16 0.02

Y X 1 X 2 X 3 X 4 X 5 X 6
Y
X 1 0,519
X 2 -0,273 0,030
X 3 0,610 0,813 -0,116
X 4 -0,572 -0,013 -0,022 -0,091
X 5 0,297 0,043 -0,461 0,120 -0,359
X 6 0,118 -0,366 -0,061 -0,329 -0,100 -0,290

Анализ межфакторных (между «иксами»!) коэффициентов корреляции показывает, что значение 0,8 превышает по абсолютной величине только коэффициент корреляции между парой факторов Х 1 –Х 3 (выделен жирным шрифтом). Факторы Х 1 –Х 3 , таким образом, признаются коллинеарными.

2. Как было показано в пункте 1, факторы Х 1 –Х 3 являются коллинеарными, а это означает, что они фактически дублируют друг друга, и их одновременное включение в модель приведет к неправильной интерпретации соответствующих коэффициентов регрессии. Видно, что фактор Х 3 имеет больший по модулю коэффициент корреляции с результатом Y , чем фактор Х 1: r y , x 1 =0,519; r y , x 3 =0,610; (см. табл. 1 ). Это свидетельствует о более сильном влиянии фактора Х 3 на изменение Y . Фактор Х 1 , таким образом, исключается из рассмотрения.

Для построения уравнения регрессии значения используемых переменных (Y , X 2 , X 3 , X 4 , X 5 , X 6) скопируем на чистый рабочий лист (прил. 3) . Уравнение регрессии строим с помощью надстройки «Анализ данных… Регрессия » (меню «Сервис» ® «Анализ данных… » ® «Регрессия »). Панель регрессионного анализа с заполненными полями изображена на рис. 2 .

Результаты регрессионного анализа приведены в прил. 4 и перенесены в табл. 2 . Уравнение регрессии имеет вид (см. «Коэффициенты» втабл. 2 ):

Уравнение регрессии признается статистически значимым, так как вероятность его случайного формирования в том виде, в котором оно получено, составляет 8,80×10 -6 (см. «Значимость F» втабл. 2 ), что существенно ниже принятого уровня значимости a=0,05.

Х 3 , Х 4 , Х 6 ниже принятого уровня значимости a=0,05 (см. «P-Значение» втабл. 2 ), что свидетельствует о статистической значимости коэффициентов и существенном влиянии этих факторов на изменение годовой прибыли Y .

Вероятность случайного формирования коэффициентов при факторах Х 2 и Х 5 превышает принятый уровень значимости a=0,05 (см. «P-Значение» втабл. 2 ), и эти коэффициенты не признаются статистически значимыми.

рис. 2. Панель регрессионного анализа модели Y (X 2 , X 3 , X 4 , X 5 , X 6)

Таблица 2

Y (X 2 , X 3 , X 4 , X 5 , X 6)

Регрессионная статистика
Множественный R 0,868
R-квадрат 0,753
Нормированный R-квадрат 0,694
Стандартная ошибка 242,3
Наблюдения
Дисперсионный анализ
df SS MS F Значимость F
Регрессия 3749838,2 749967,6 12,78 8,80E-06
Остаток 1232466,8 58688,9
Итого 4982305,0
Уравнение регрессии
Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение 487,5 641,4 0,760 0,456
X2 -0,0456 0,0373 -1,224 0,235
X3 0,1043 0,0194 5,375 0,00002
X4 -0,0965 0,0263 -3,674 0,001
X5 2,528 6,323 0,400 0,693
X6 248,2 113,0 2,197 0,039

3. По результатам проверки статистической значимости коэффициентов уравнения регрессии, проведенной в предыдущем пункте, строим новую регрессионную модель, содержащую только информативные факторы, к которым относятся:

· факторы, коэффициенты при которых статистически значимы;

· факторы, у коэффициентов которых t ‑статистика превышает по модулю единицу (другими словами, абсолютная величина коэффициента больше его стандартной ошибки).

К первой группе относятся факторы Х 3 , Х 4 , Х 6 , ко второй - фактор X 2 . Фактор X 5 исключается из рассмотрения как неинформативный, и окончательно регрессионная модель будет содержать факторы X 2 , X 3 , X 4 , X 6 .

Для построения уравнения регрессии скопируем на чистый рабочий лист значения используемых переменных (прил. 5) и проведем регрессионный анализ (рис. 3 ). Его результаты приведены в прил. 6 и перенесены в табл. 3 . Уравнение регрессии имеет вид:

(см. «Коэффициенты» втабл. 3 ).

рис. 3. Панель регрессионного анализа модели Y (X 2 , X 3 , X 4 , X 6)

Таблица 3

Результаты регрессионного анализа модели Y (X 2 , X 3 , X 4 , X 6)

Регрессионная статистика
Множественный R 0,866
R-квадрат 0,751
Нормированный R-квадрат 0,705
Стандартная ошибка 237,6
Наблюдения
Дисперсионный анализ
df SS MS F Значимость F
Регрессия 3740456,2 935114,1 16,57 2,14E-06
Остаток 1241848,7 56447,7
Итого 4982305,0
Уравнение регрессии
Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение 712,2 303,0 2,351 0,028
X2 -0,0541 0,0300 -1,806 0,085
X3 0,1032 0,0188 5,476 0,00002
X4 -0,1017 0,0223 -4,560 0,00015
X6 227,5 98,5 2,310 0,031

Уравнение регрессии статистически значимо: вероятность его случайного формирования ниже допустимого уровня значимости a=0,05 (см. «Значимость F» втабл. 3 ).

Статистически значимыми признаются и коэффициенты при факторах Х 3 , Х 4 , Х 6: вероятность их случайного формирования ниже допустимого уровня значимости a=0,05 (см. «P-Значение» втабл. 3 ). Это свидетельствует о существенном влиянии годового размера страховых сборов X 3 , годового размера страховых выплат X 4 и формы собственности X 6 на изменение годовой прибыли Y .

Коэффициент при факторе Х 2 (годовой размер страховых резервов) не является статистически значимым. Однако этот фактор все же можно считать информативным, так как t ‑статистика его коэффициента превышает по модулю единицу, хотя к дальнейшим выводам относительно фактора Х 2 следует относиться с некоторой долей осторожности.

4. Оценим качество и точность последнего уравнения регрессии, используя некоторые статистические характеристики, полученные в ходе регрессионного анализа (см. «Регрессионную статистику » в табл. 3 ):

· множественный коэффициент детерминации

показывает, что регрессионная модель объясняет 75,1 % вариации годовой прибыли Y , причем эта вариация обусловлена изменением включенных в модель регрессии факторов X 2 , X 3 , X 4 и X 6 ;

· стандартная ошибка регрессии

тыс. руб.

показывает, что предсказанные уравнением регрессии значения годовой прибыли Y отличаются от фактических значений в среднем на 237,6 тыс. руб.

Средняя относительная ошибка аппроксимации определяется по приближенной формуле:

где тыс. руб. - среднее значение годовой прибыли (определено с помощью встроенной функции «СРЗНАЧ »; прил. 1 ).

Е отн показывает, что предсказанные уравнением регрессии значения годовой прибыли Y отличаются от фактических значений в среднем на 26,7 %. Модель имеет неудовлетворительную точность (при - точность модели высокая, при - хорошая, при - удовлетворительная, при - неудовлетворительная).

5. Для экономической интерпретации коэффициентов уравнения регрессии сведем в таблицу средние значения и стандартные отклонения переменных в исходных данных (табл. 4 ) . Средние значения были определены с помощью встроенной функции «СРЗНАЧ », стандартные отклонения - с помощью встроенной функции «СТАНДОТКЛОН » (см. прил. 1 ).

1. Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х ; оценить статистическую значимость коэффициентов корреляции r (Y , X i); выбрать наиболее информативный фактор.

2. Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.

3. Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F – критерия Фишера (принять уровень значимости α=0,05).

4. С доверительной вероятностью γ=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 6). Представить графически фактические и модельные значения Y , результаты прогнозирования.

5. Методом включения построить двухфакторные модели, сохраняя в них наиболее информативный фактор; построить трехфакторную модель с полным перечнем факторов.

6. Выбрать лучшую из построенных множественных моделей. Дать экономическую интерпретацию ее коэффициентов.

7. Проверить значимость коэффициентов множественной регрессии с помощью t –критерия Стьюдента (принять уровень значимости α=0,05). Улучшилось ли качество множественной модели по сравнению с парной?

8. Дать оценку влияния факторов на результат с помощью коэффициентов эластичности, бета– и дельта– коэффициентов.

Задача 2. Моделирование одномерного временного ряда

В Приложении 7 приведены временные ряды Y(t) социально-экономических показателей по Алтайскому краю за период с 2000 г. по 2011 г. Требуется исследовать динамику показателя, соответствующего варианту задания.

Вариант Обозначение, наименование, единица измерения показателя
Y1 Потребительские расходы в среднем на душу населения (в месяц), руб.
Y2 Выбросы загрязняющих веществ в атмосферный воздух, тыс. тонн
Y3 Средние цены на вторичном рынке жилья (на конец года, за квадратный метр общей площади), руб
Y4 Объем платных услуг на душу населения, руб
Y5 Среднегодовая численность занятых в экономике, тыс. человек
Y6 Число собственных легковых автомобилей на 1000 человек населения (на конец года), штук
Y7 Среднедушевые денежные доходы (в месяц), руб
Y8 Индекс потребительских цен (декабрь к декабрю предыдущего года), %
Y9 Инвестиции в основной капитал (в фактически действовавших ценах), млн. руб
Y10 Оборот розничной торговли на душу населения (в фактически действовавших ценах), руб


Порядок выполнения работы

1. Построить линейную модель временного ряда , параметры которой оценить МНК. Пояснить смысл коэффициента регрессии.

2. Оценить адекватность построенной модели, используя свойства случайности, независимости и соответствия остаточной компоненты нормальному закону распределения.

3. Оценить точность модели на основе использования средней относительной ошибки аппроксимации.

4. Осуществить прогнозирование рассматриваемого показателя на год вперед (прогнозный интервал рассчитать при доверительной вероятности 70%).

5. Представить графически фактические значения показателя, результаты моделирования и прогнозирования.

6. Провести расчет параметров логарифмического, полиномиального (полином 2-й степени), степенного, экспоненциального и гиперболического трендов. На основании графического изображения и значения индекса детерминации выбрать наиболее подходящий вид тренда.

7. С помощью лучшей нелинейной модели осуществить точечное прогнозирование рассматриваемого показателя на год вперед. Сопоставить полученный результат с доверительным прогнозным интервалом, построенным при использовании линейной модели.

ПРИМЕР

Выполнения контрольной работы

Задача 1

Фирма занимается реализацией подержанных автомобилей. Наименования показателей и исходные данные для эконометрического моделирования представлены в таблице:

Цена реализации, тыс.у.е. (Y ) Цена нового авт., тыс.у.е. (Х1 ) Срок эксплуатации, годы (Х2 ) Левый руль - 1, правый руль - 0, (Х3 )
8,33 13,99 3,8
10,40 19,05 2,4
10,60 17,36 4,5
16,58 25,00 3,5
20,94 25,45 3,0
19,13 31,81 3,5
13,88 22,53 3,0
8,80 16,24 5,0
13,89 16,54 2,0
11,03 19,04 4,5
14,88 22,61 4,6
20,43 27,56 4,0
14,80 22,51 3,3
26,05 31,75 2,3

Требуется:

1. Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, X i); выбрать наиболее информативный фактор.

Используем Excel (Данные / Анализ данных / КОРРЕЛЯЦИЯ):

Получим матрицу коэффициентов парной корреляции между всеми имеющимися переменными:

У Х1 Х2 Х3
У
Х1 0,910987
Х2 -0,4156 -0,2603
Х3 0,190785 0,221927 -0,30308

Проанализируем коэффициенты корреляции между результирующим признаком Y и каждым из факторов X j:

> 0, следовательно, между переменными Y и Х 1 наблюдается прямая корреляционная зависимость: чем выше цена нового автомобиля, тем выше цена реализации.

> 0,7 – эта зависимость является тесной.

< 0, значит, между переменными Y и Х 2 наблюдается

обратная корреляционная зависимость: цена реализации ниже для авто-

мобилей с большим сроком эксплуатации.

– эта зависимость умеренная, ближе к слабой.

> 0, значит, между переменными Y и Х 3 наблюдается прямая корреляционная зависимость: цена реализации выше для автомобилей с левым рулем.

< 0,4 – эта зависимость слабая.

Для проверки значимости найденных коэффициентов корреляции используем критерий Стьюдента.

Для каждого коэффициента корреляции вычислим t -статистику по формуле и занесем результаты расчетов в дополнительный столбец корреляционной таблицы:

У Х1 Х2 Х3 t-статистики
У
Х1 0,910987 7,651524603
Х2 -0,4156 -0,2603 1,582847988
Х3 0,190785 0,221927 -0,30308 0,673265587

По таблице критических точек распределения Стъюдента при уровне значимости и числе степеней свободы определим критическое значение (Приложение 1, или функция СТЬЮДРАСПОБР).Y и сроком эксплуатации Х 2 достоверна.

< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Y и расположением руля Х 3 достоверна.

Таким образом, наиболее тесная и значимая зависимость наблюдается между ценой реализации Y и ценой нового автомобиля Х 1 ; фактор Х 1 является наиболее информативным.