Корреляционный и регрессионный анализ данных. Смотреть страницы где упоминается термин поле корреляции

Для экспериментального изучения зависимостей между случайными величинами х и у производят некоторое количество независимых опытов. Результат i -го опыта дает пару значений (х г, у г), i = 1, 2,..., п.

Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными. Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связь.

При функциональной зависимости двух величин значению одной -x h обязательно соответствует одно или несколько точно определенных значений другой величины -у { . Достаточно часто функциональная связь проявляется в физике, химии. В реальных ситуациях существует бесконечно большое количество свойств самого объекта и внешней среды, влияющих друг на друга, поэтому такого рода связи не существуют, иначе говоря, функциональные связи являются математическими абстракциями.

Воздействие общих факторов, наличие объективных закономерностей в поведении объектов приводят лишь к проявлению статистической зависимости. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения других (другой), и эти другие величины принимают некоторые значения с определенными вероятностями. Функциональную зависимость в таком случае следует считать частным случаем статистической: значению одного фактора соответствуют значения других факторов с вероятностью, равной единице. Более важным частным случаем статистической зависимости является корреляционная зависимость, характеризующая взаимосвязь значений одних случайных величин со средним значением других, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение - сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Термин «корреляция» впервые применил французский палеонтолог Ж. Кювье, который вывел «закон корреляции частей и органов животных» (этот закон позволяет восстанавливать по найденным частям тела облик всего животного). В статистику указанный термин ввел английский биолог и статистик Ф. Гальтон (не просто связь - relation, а «как бы связь» - corelation).

Корреляционные зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается - увеличение массы внесенных удобрений ведет к росту урожайности.

Простейшим приемом выявления связи между изучаемыми признаками является построение корреляционной таблицы; ее наглядным изображением служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения jq, по оси ординат у х. По расположению точек, их концентрации в определенном направлении можно качественно судить о наличии связи.

Рис. 7.3.

Положительная корреляция между случайными величинами, близкая к параболической функциональной, представлена на рис. 6.1, а. На рис. 6.1, б приведен пример слабой отрицательной корреляции, а на рис. 6.1, в - пример практически некоррелированных случайных величин. Корреляция высокая, если на графике зависимость «можно представить» прямой линией (с положительным или отрицательным углом наклона).

При постановке вопроса о корреляционной зависимости между двумя статистическими признаками Х и У проводят эксперимент с параллельной регистрацией их значений.

Пример 8.1.

Определить, зависит ли результат прыжка в длину с разбега (признак Х) от величины конечной скорости разбега (признак У). Для ответа на этот вопрос параллельно с регистрацией результата Х каждого прыжка спортсмена или группы спортсменов регистрируют и величину конечной скорости разбега Y . Пусть они таковы:

Таблица 5

I
xi (см)
yi (м/с) 10,7 10,5 10,1 9,8 10,1 10,5 9,1 9,6

Представим таблицу 5 в виде графика в прямоугольной системе координат, где на горизонтальной оси будем откладывать длину прыжка (Х), а на вертикальной - величину конечной скорости разбега в этом прыжке (Y).
function PlayMyFlash(cmd){ Corel_.TPlay(cmd); }

№1 !!! №2 !!! №3 !!! №4 !!! №5!!! №6 !!! №7 !!! №8!!!

Рис. 8. График корреляционного поля.

Будем называть корреляционным полем зону разброса таким образом полученных точек на графике. Визуально анализируя корреляционное поле на рисунке 8, можно заметить, что оно как бы вытянуто вдоль какой-либо прямой линии. Такая картина характерна для так называемой линейной корреляционной взаимосвязи между признаками. При этом можно в общем предположить, что с увеличением конечной скорости разбега увеличивается и длина прыжка, и наоборот. Т.е. между рассматриваемыми признаками наблюдается прямая (положительная) взаимосвязь.

Наряду с этим примером из множества других возможных корреляционных полей можно выделить следующие (рис.9-11):

На рисунке 9 тоже просматривается линейная взаимосвязь, но с увеличением значений одного признака, уменьшаются значения другого, и наоборот, т.е. связь обратная или отрицательная. Можно предположить, что на рисунке 11 точки корреляционного поля разбросаны около какой-то кривой линии. В таком случае говорят, что между признаками существует криволинейная корреляционная связь.

В отношении корреляционного поля, изображенного на рисунке 10, нельзя сказать, что точки располагаются вдоль какой-то прямой или кривой линии, оно имеет сферическую форму. В этом случае говорят, что признаки Х и Y не зависят друг от друга.

Кроме этого по корреляционному полю можно примерно судить о тесноте корреляционной связи, если эта связь существует. Здесь говорят: чем меньше точки разбросаны около воображаемой усредненной линии, тем теснее корреляционная связь между рассматриваемыми признаками.

Визуальный анализ корреляционных полей помогает разобраться в сущности корреляционной взаимосвязи, позволяет высказать предположение о наличии, направленности и тесноте связи. Но точно сказать, имеется связь между признаками или нет, линейная связь или криволинейная, тесная связь (достоверная) или слабая (недостоверная), с помощью этого метода нельзя. Наиболее точным методом выявления и оценки линейной взаимосвязи между признаками является метод определения различных корреляционных показателей по статистическим данным.

3. Коэффициенты корреляции и их свойства

Часто для определения достоверности взаимосвязи между двумя признаками(Х, У) используютнепараметрический (ранговый) коэффициент корреляции Спирмена и параметрический коэффициент корреляции Пирсона . Величина этих показателей корреляционной связи определяется по следующим формулам:

(1)

Где: dx - ранги статистических данных признака х;

dy - ранги статистических данных признака у.

(2)

Где: - статистические данные признака х,

Статистические данные признака у.

Эти коэффициенты обладают такими мощными признаками:

1. На основании коэффициентов корреляции можно судить только о прямолинейной корреляционной взаимосвязи между признаками. О криволинейной связи с их помощью ничего сказать нельзя.
2. Значения коэффициентов корреляции есть безразмерная величина, которая не может быть меньше -1 и больше +1, т.е.
3.
4. Если значения коэффициентов корреляции равны нулю, т.е. = 0 или = 0, то связь между признаками х, у отсутствует.
5. Если значения коэффициентов корреляции отрицательные, т.е. < 0 или < 0, то связь между признаками Х и Y обратная .
6. Если значения коэффициентов корреляции положительные, т.е. > 0 или y> 0 , то связь между признаками Х и Y прямая (положительная).
7. Если коэффициенты корреляции принимают значения +1 или -1, т.е. = ± 1 или = ± 1, то связь между признаками Х и Y линейная (функциональная) .
8. Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Эта достоверность еще зависит от числа степеней свободы.

Где: n - число коррелируемых пар статистических данных признаков Х и Y.

Чем больше n , тем выше достоверность связи при одном и том же коэффициенте корреляции.

Кроме перечисленных общих свойств у рассматриваемых коэффициентов корреляции имеются и различия. Главное их отличие состоит в том, что коэффициент Пирсона ( может быть использован только в случае нормальности распределения признаков Х и Y , коэффициент Спирмена () может быть использован для признаков с любым видом распределения. Если рассматриваемые признаки имеют нормальное распределение, то целесообразнее определять наличие корреляционной связи с помощью коэффициента Пирсона (), т.к. в этом случае он будет иметь меньшую погрешность, чем коэффициент Спирмена ().

Пример 8.2.

Определить с помощью рангового коэффициента корреляции Спирмена существует ли взаимосвязь между результатами прыжка в длину с разбега (X) и конечной скоростью разбега (Y) группы спортсменов (данные примера 8.1, табл. 5).

В формуле (1) dx и dy ранги статистических данных, т.е. места вариант в их ранжированной совокупности. Если в совокупности несколько одинаковых данных, то их ранги равны и определяются как среднее значение от мест, занимаемых этими вариантами. Например,

Данные xi
Ранги dx 4,5 4,5 4,5 4,5 7,5 7,5
3 + 4 + 5 + 6 7 + 8

Пользуясь этим правилом, определим ранги данных таблицы 5. Для удобства все запишем в виде таблицы 6.

Таблица 6

dx dy dx - dy
9,1 1 - 1 = 0 02 = 0
9,6 2 - 2 = 0 02 = 0
9,8 3 - 3 = 0 02 = 0
10,1 4 - 4 = 0 02 = 0
10,5 6,5 5 - 6,5 = - 1,5 (- 1,5)2 = 2,25
10,5 6,5 6 - 6,5 = - 0,5 (- 0,5)2 = 0,25
10,3 7 - 5 = 2 22 = 4
10,7 8 - 8 = 0 02 = 0
(dx-dy) = 0

В данном случае имеем 8 пар значений, т.е. 8 коррелируемых пар. Значит n = 8. Подставив полученное в формулу (1), будем иметь:

Вывод:

(0,92 > 0) , то между признаками Х и У У Х ), и наоборот - с уменьшением скорости разбега уменьшается длина прыжка. Достоверность коэффициента корреляции Спирмена определяется по таблице критических значений рангового коэффициента корреляции .

б) т.к. полученное значение коэффициента корреляции = 0,9 больше табличного значений = 0,88, соответствующего уровню b = 99%, то уверенность в правильности вывода (а) больше 99%. Такая достоверность позволяет распространить вывод (а) на всю генеральную совокупность, т.е. на всех прыгунов в длину.

Если не производится предварительной проверки рассматриваемых совокупностей на нормальность распределения, то, в случае недостоверности коэффициента корреляции Пирсона, следует проверить наличие связи еще и по коэффициенту Спирмена.

Пример 8.3.

Ранговым коэффициентом корреляции можно выявлять взаимосвязи между переменными, имеющими любые статистические распределения. Но если эти переменные имеют нормальное распределение (Гаусса), то более точно связь можно установить с помощью нормированного (Бравэ-Пирсона) коэффициента корреляции.

Предположим, что в нашем примере и - отвечают закону нормального распределения, и проверим наличие связи между результатами тестаX и Y c помощью расчета нормированного коэффициента корреляции.

Из формулы (1) видно, что для вычисления необходимо найти средние значения признаковX, Y и отклонения каждого статистического данного от его среднего . Зная эти значения, можно найти суммы по которым не сложно вычислить

По данным таблице 5 заполним таблицу 7:

Таблица 7

962 = 9216 10,7 0,6 0,62 = 0,36 96 · 0,6 = 57,6
262 = 676 10,5 0,4 0,42 = 0,16 26 · 0,4 = 10,4
10,3 0,2 0,04 5,4
- 4 9,8 - 0,3 0,09 1,2
10,1 0,00 1,0
10,5 0,4 0,16 3,2
- 92 9,1 - 1,0 1,00 9,2
- 64 9,6 - 0,5 0,25 32,0
= 23262 = 2,06 = 201

Подставив сумму столбца 7 в числитель формулы (1), а суммы столбцов 3 и 6 в знаменатель, получим:

Вывод:

а) т.к. значение коэффициента корреляции положительное (0.92>0) , то между Х и Y наблюдается прямая связь, т.е. с увеличением скорости разбега (признакY ) увеличивается длина прыжка (признак Х ) и наоборот - с уменьшением скорости разбега уменьшается длина прыжка. Очень важно знать уверенность в правильности полученного вывода.

Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака , а на оси ординат - результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. При отсутствии тесных связей имеет место беспорядочное расположение точек на графике (рис. 11.1).  


Изобразим полученную зависимость графически точками координатной плоскости (рис. 3.1). Такое изображение статистической зависимости называется полем корреляции.  

Постройте поле корреляции и сформулируйте гипотезу о форме связи.  

При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он основан на поле корреляции. Основные типы кривых, используемые при количественной оценке связей, представлены на рис. 2.1.  

Поскольку не все точки поля корреляции лежат на линии регрессии , то всегда имеет место их разброс как обусловленный влиянием фактора х, т. е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений , обусловленная регрессией, будет больше остаточной суммы квадратов , то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результату. Это равносильно тому, что коэффициент детерминации г2 будет приближаться к единице.  

Соответственно для зависимости, изображенной на полях корреляции рис. 3,5 б) и в), гетероскедастичность остатков представлена на рис. 3.9 и 3.10.  

Если же величины независимы, то "поле корреляции" или па-  

Если поле корреляции может быть аппроксимировано прямой, которая называется линией регрессии , то приступают к вычислению коэффициента парной корреляции г. Его числовые значения заключены в интервале [-1, 1]. Если г равно 1 или -1, то существует функциональная прямая или обратная связь . Когда г близок к нулю, связь между явлениями отсутствует, а при г 0,7 связь считается существенной. Коэффициент корреляции рассчитывают по формуле  

После выделения названных выше групп железнодорожных хозяйств был использован еще один приближенный прием предварительного анализа однородности совокупности по каждой группе железнодорожных хозяйств - построение полей корреляции каждого из включенных в исследование факторов с себестоимостью перевозок. Основным признаком однородности или неоднородности выбранных совокупностей служило отсутствие или наличие разрывов и скачков в расположении точек на полях корреляции.  

Для изучения были предварительно выбраны путем профессионального логического анализа все возможные факторы, данные об изменении которых по предприятиям имеются в отчетности министерства. Такими факторами следует считать общий объем перевозок, среднюю производительность вагонов и локомотивов рабочего парка, грузонапряженность, фондоемкость единицы перевозок и производительность труда и др. (всего 11 факторов). Таким образом, по четырем группам предприятий было построено 44 поля корреляции.  

После определения указанных величин получается уравнение парной зависимости, графическое изображение которого в осях координат называется теоретической линией регрессии . Если на такое поле нанести все замеры, а не только теоретическую линию регрессии , то мы получим поле корреляции.  

Исходный материал систематизируем на поле корреляции и в корреляционной таблице. В нашем примере в качестве фактора выступает стоимость машин См, а в качестве функции - среднегодовая численность рабочих Р.  

В результате разбивки на интервалы вся плоскость, на которой нанесены замеры по обоим признакам к и у, называемая полем корреляции, представит собой клетки, причем каждый замер характеризуется не точными значениями своих координат, а лишь значениями интервала, в который он отнесен.  

На рис. 16 представлено поле корреляции, на котором по оси абсцисс даны интервалы для значений аргумента Сы, а по оси ординат - интервалы для значения функции Р. Построенное таким способом поле корреляции называется вторичным.  

Для выбора интервалов может быть построено также первичное поле корреляции. Все точки на этом поле проставлены с учетом значений их координат. По густоте расположения точек и намечаются интервалы.  

Наряду с построением поля корреляции, как указано выше, составляется корреляционная таблица, в которой производятся все вычисления, связанные с определением средних, построением эмпирической линии регрессии и исходных данных для определения параметров в системе нормальных уравнений.  

В табл. 36 весь материал распределен по интервалам. Используя его, строим вторичное поле корреляции, на которое наносим все значения переменных, и определяем средние значении (/, //,. .., уп по интервалам. Соединив между собой средние значения в каждом интервале отрезками прямых линий, получаем эмпирическую линию регрессии (см. рис. 16).  

Восстанавливая из центра каждого интервала перпендикуляр к оси абсцисс, откладываем на каждом из них соответствующие значения у но интервалам г/, = 1081, 1/2 = 1774 и т. д. Полученные точки соединяем между собой отрезками прямых. Полученная ломаная линия представляет собой эмпирическую линию регрессии для зависимости между стоимостью машин См и численностью рабочих Р. По аналогии с проведенными вычислениями мы можем построить корреляционные таблицы и поля корреляции для выявления зависимости между численностью рабочих Р, объемами работ О, количеством сборных бетонных и железобетонных конструкций /Иж.б.  
Рис. 18. Корреляционная таблица и вторичное поле корреляции зависимости численности рабочих и объема применения сборных железобетонных конструкций /info/5440">Уравнения парной регрессии и выведенной в дальнейшем множественной регрессии применимы в случае, если переменные изменяются в следующих пределах численность рабочих - от 850 до 7850 чел., стоимость машин - от 0,15 до 3,15 млн. руб., объем сборных конструкций - от 10 до 230 тыс. m и откладывают по вертикальной оси, в значения независимой - по горизонтальной. Поле корреляции используется при определении формы зависимости между переменными, График дает исследователю первое  

В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора Xj остатки е,- имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастнчность. Наличие гетероскедастич-ности можно наглядно видеть из поля корреляции (рис. 3.5).  

Другая типичная исследовательская задача - оценка взаимосвязи между явлениями - решается с помощью хорошо разработанного в математической статистике аппарата теории корреляции. Для этого необходимо иметь выборки по сравниваемым явлениям, показанным на картах разной тематики (например, Д и В). Значения а и Ь, берут в одних и тех же /-х точках, т.е. строго скоординированно, и затем строят график поля корреляции.  

Системное решение проблем Лапыгин Юрий Николаевич

7.3. Поле корреляции

7.3. Поле корреляции

Логика – смирительная рубашка фантазии.

Хельмар Нар

Для установления связей между двумя переменными обычно строят графики.

Если обе переменные изменяются синхронно, это может означать, что между ними существуют связи и они влияют друг на друга. Примером может служить динамика роста доли заработной платы в структуре себестоимости продукции и динамика производительности труда. Наблюдения показывают, что при росте первой переменной растет и вторая.

Хотя следует иметь в виду, что даже если и имеется некоторая степень синхронности изменения переменных, то это еще не означает безусловного наличия между ними причинно-следственной связи (возможно, есть третья переменная, которая вызывает такой эффект).

Примеры корреляционных полей приведены на рис. 7.2.

Описание построения графика представлено ниже.

1. Выбирают для анализа две переменные: одну независимую, другую – зависимую.

2. Для каждого значения независимой переменной измеряют соответствующее значение зависимой. Эти два значения образуют пару данных, которые наносят точкой на график. Обычно следует брать не менее 30 точек, но для построения осмысленного графика число точек должно быть не менее 100.

3. Значение независимой переменной, характеризующей ожидаемую причину, откладывают по оси х , а значение зависимой, характеризующей проблему, – по оси у .

4. Полученные пары данных наносят точками на график и анализируют полученный результат. Если корреляция на схеме не проявляется, то можно попробовать построить график в логарифмическом масштабе.

Из книги Маркетинговые войны автора Райс Эл

Из книги Рекламный текст. Методика составления и оформления автора Бердышев Сергей Николаевич

5.2. Ономастическое поле А.В. Суперанская, Н.В. Подольская и другие лингвисты склонны выделять следующие классы называемых объектов и соответствующие им ономастические разряды, значимые для нейминга и коммерции в целом: наименования документов и законов – документонимы,

Из книги Этим надо воспользоваться автора Словцова Ирина

Один в поле не воин? Несколько лет я работала в районной прессе и писала о проблемах местного самоуправления. Должна сказать, что чиновничий аппарат настолько структурирован, выстроен по иерархической схеме, пронизывает все сферы нашей жизни, что одному человеку (даже

Из книги Моя жизнь в рекламе автора Хопкинс Клод

Из книги iПрезентация. Уроки убеждения от лидера Apple Стива Джобса автора Галло Кармин

«Поле искривления реальности» Скалли был свидетелем того, что вице-президент Apple Бад Триббл однажды описал как «поле искривления реальности» - способность убедить любого практически в чем угодно. Многие люди не могут противостоять этому магнетическому притяжению и

Из книги Выставочный менеджмент: стратегии управления и маркетинговые коммуникации автора Филоненко Игорь

9. Паблик рилейшнз на выставочном поле 9.1. Цели, задачи, инструменты общественных связей на выставочном поле В широком смысле паблик рилейшнз (далее - PR) определяют как «планируемые и осуществляемые усилия, направленные на установление и поддержание доброжелательных

Из книги Вдохновляющий менеджер автора Лири-Джойс Джудит

«Поле чудес» Мне лично кажется, что это отличная перспектива: о лучшем и мечтать не приходится. Собственно, именно поэтому я и написала эту книгу. Вы смотрели фильм «Поле чудес» («Field of Dreams»)? Там герой Кевина Костнера решает построить на своей кукурузной плантации

Из книги Рекламное агентство: с чего начать, как преуспеть автора Голованов Василий Анатольевич

«В поле!» В данной главе мы рассмотрим все основные вопросы, касающиеся основного этапа работы по проведению переговоров и заключению договоров на те услуги, которые вы собираетесь продавать.Все предприниматели в 80 % случаев легкодоступны для переговоров – знаю из

Из книги Apple. Феномен веры автора Васильев Юрий Николаевич

Поле измененной реальности Один из главных разработчиков первого Мака Энди Херцвильд сказал о Стиве Джобсе следующее: «Поле искажения реальности было поразительной смесью харизматического ораторского стиля, упрямства и желания вывернуть любой факт так, чтобы он

Из книги Этикет. Полный свод правил светского и делового общения. Как вести себя в привычных и нестандартных ситуациях автора Белоусова Татьяна

Из книги Что не убило компанию LEGO, а сделало ее сильнее. Кирпичик за кирпичиком автора Брин Билл

Из книги Три круга лидерства автора Сударкин Александр

Один в поле не воин. Подключаем к работе HR-специалиста Какое-то время назад, в середине 2000-х, на форумах менеджеров по персоналу активно обсуждалась тема «HR как стратегический партнер руководителя». Споры сменялись временными консенсусами, приглашенные выступить

Из книги Запуск! Быстрый старт для вашего бизнеса автора Уокер Джефф

Из книги Большая книга директора магазина 2.0. Новые технологии автора Крок Гульфира

Из книги Обнимите своих клиентов. Практика выдающегося обслуживания автора Митчелл Джек

Из книги Методические указания по организации работы епархиальной пресс-службы автора Е Жуковская Е

Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.

Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.

Регрессионный анализ в Excel

Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

Регрессия бывает:

  • линейной (у = а + bx);
  • параболической (y = a + bx + cx 2);
  • экспоненциальной (y = a * exp(bx));
  • степенной (y = a*x^b);
  • гиперболической (y = b/x + a);
  • логарифмической (y = b * 1n(x) + a);
  • показательной (y = a * b^x).

Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

Модель линейной регрессии имеет следующий вид:

У = а 0 + а 1 х 1 +…+а к х к.

Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

Активируем мощный аналитический инструмент:

После активации надстройка будет доступна на вкладке «Данные».

Теперь займемся непосредственно регрессионным анализом.



В первую очередь обращаем внимание на R-квадрат и коэффициенты.

R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.



Корреляционный анализ в Excel

Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

Ставим курсор в любую ячейку и нажимаем кнопку fx.

  1. В категории «Статистические» выбираем функцию КОРРЕЛ.
  2. Аргумент «Массив 1» - первый диапазон значений – время работы станка: А2:А14.
  3. Аргумент «Массив 2» - второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.

Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

Корреляционно-регрессионный анализ

На практике эти две методики часто применяются вместе.

Пример:


Теперь стали видны и данные регрессионного анализа.