Если коэффициент корреляции равен 1 то связь. Корреляция и коэффициент корреляции

7.3.1. Коэффициенты корреляции и детерминации. Можно количественно определить тесноту связи между факторами и ее направленность (прямую или обратную), вычислив:

1) если нужно определить носящую линейный характер взаимосвязь между двумя факторами, - парный коэффициент корреляции : в 7.3.2 и 7.3.3 рассмотрены операции вычисления парного линейного коэффициента корреляции по Бравэ–Пирсону (r ) и парного рангового коэффициента корреляции по Спирмену (r );

2) если мы хотим определить взаимосвязь между двумя факторами, но зависимость эта явно нелинейная - то корреляционное отношение ;

3) если мы хотим, определить связь между одним фактором и некоторой совокупностью других факторов - то (или, что то же самое, «коэффициент множественной корреляции»);

4) если мы хотим выявить изолированно связь одного фактора только с конкретным другим, входящим в группу факторов, воздействующих на первый, для чего приходится считать влияние всех остальных факторов неизменным - то частный (парциальный) коэффициент корреляции .

Любой коэффициент корреляции (r, r) не может по абсолютной величине превышать 1, то есть –1 < r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Знак при коэффициенте корреляции определяет направ­ленность связи: знак «+» (либо отсутствие знака) означает, что связь прямая (положительная ), знак «–» - что связь обратная (отрицательная ). К тесноте связи знак никакого отношения не имеет

Коэффициент корреляции характеризует статистическую взаимосвязь. Но часто нужно определить другого типа зависимость, а именно: каков вклад некоторого фактора в формирование другого связанного с ним фактора. Такого рода зависимость с некоторой долей условности характеризуется коэффициентом детерминации (D ), определяемым по формуле D = r 2 ´100% (где r - коэффициент корреляции по Бравэ–Пирсону, см. 7.3.2). Если измерения проводились в шкале порядка (шкале рангов) , то с некоторым ущербом для достоверности можно вместо значения r подставить в формулу значение r (коэффициента корреляции по Спирмену, см. 7.3.3).

Например, если мы получили как характеристику зависимости фактора Б от фактора А коэффициент корреляции r = 0,8 или r = –0,8, то D = 0,8 2 ´100% = 64%, то есть около 2½ 3. Следовательно, вклад фактора А и его изменений в формирование фактора Б составляет примерно 2½ 3 от суммарного вклада всех вообще факторов.

7.3.2. Коэффициент корреляции по Бравэ-Пирсону. Процедуру вычисления коэффициента корреляции по Бравэ–Пирсону (r ) можно применять только в тех случаях, когда связь рассматривается на базе выборок, имеющих нормальное распределение частот (нормальное распределение ) и полученных измерениями в шкалах интервалов или отношений. Расчетная формула этого коэффициента корреляции:



å (x i – )(y i – )

r = .

n×s x ×s y

Что показывает коэффициент корреляции? Во-первых, знак при коэффициенте корреляции показывает направленность связи, а именно: знак «–» свидетельствует о том, что связь обратная , или отрицательная (имеет место тенденция: с убыванием значений одного фактора соответствующие значения другого фактора растут, а с возрастанием - убывают), а отсутствие знака или знак «+» свидетельствуют о прямой , или положительной связи (имеет место тенденция: с увеличением значений одного фактора увеличиваются и значения другого, а с уменьшением - уменьшаются). Во-вторых, абсолютная (не зависящая от знака) величина коэффициента корреляции говорит о тесноте (силе) связи. Принято считать (в достаточной мере условно): при значениях r < 0,3 корреляция очень слабая , нередко ее просто не принимают в расчет, при 0,3 £ r < 5 корреляция слабая , при 0,5 £ r < 0,7) - средняя , при 0,7 £ r £ 0,9) - сильная и, наконец, при r > 0,9 - очень сильная. В нашем случае (r » 0,83) связь обратная (отрицательная) и сильная.

Напомним: значения коэффициента корреляции могут находиться в интервале от –1 до +1. Выход значения r за эти пределы свидетельствует о том, что в расчетах допущена ошибка . Если r = 1, то это значит, что связь не статистическая, а функциональная - чего в спорте, биологии, медицине практически не бывает. Хотя при небольшом количестве измерений случай ный подбор значений, дающий картину функциональной связи, возможен, но такой случай тем менее вероятен, чем больше объем сопоставляемых выборок (n), то есть количество пар сравниваемых измерений.

Расчетная таблица (табл. 7,1)строится соответственно формуле.

Таблица 7.1.

Расчетная таблица для вычисления по Бравэ–Пирсону

x i y i (x i – ) (x i – ) 2 (y i – ) (y i – ) 2 (x i – )(y i – )
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i =137 =13,00 åy i =56,1 =5,1 å(x i – ) 2 = =1,78 å(y i – ) 2 = = 1,015 å(x i – )(y i – )= = –1,24

Поскольку s х = ï ï = ï ï» 0,42, а

s y =ï ï» 0,32, r » –1,24ï (11´0,42´0,32)» –1,24ï 1,48 » –0,83 .

Иными словами, нужно очень твердо знать, что коэффициент корреляции не может по абсолютной величине превосходить 1,0. Это нередко позволяет избежать грубейших ошибок, точнее - найти и исправить допущенные при подсчетах ошибки.

7.3.3. Коэффициент корреляции по Спирмену . Как уже было сказано, применять коэффициент корреляции по Бравэ–Пирсону (r) можно только в тех случаях, когда анализируемые факторы по распределению частот близки к нормальному и значения вариант получены измерениями обязательно в шкале отношений или в шкале интервалов, что бывает, если они выражены физическими единицами. В остальных случаях находят коэффициент корреляции по Спирмену (r ). Впрочем, этот коэффициент можно применять и в случаях, когда разрешено (и желательно! ) применять коэффициент корреляции по Бравэ-Пирсону. Но следует иметь в виду, что процедура определения коэффициента по Бравэ-Пирсону обладает большей мощностью («разрешающей способностью »), поэтому r более информативен, чем r . Даже при большом n отклонение r может быть порядка ±10%.

Таблица 7.2 Расчетная формула коэффици-

x i y i R x R y |d R | d R 2 ента корреляции по Спирмену

13,2 4,75 8,5 3,0 5,5 30,25 r = 1 – . Вос

13,5 4,70 11,0 2,0 9,0 81,00 пользуемся нашим примером

12,7 5,10 4,5 6,5 2,0 4,00 для расчета r , но построим

12,5 5,40 3,0 9,0 6,0 36,00 иную таблицу (табл.7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Подставим значения:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Мы видим: r оказался немного

12,4 5,60 2,0 11,0 9,0 81,00 больше, чем r , но это разли-

12,3 5,50 1,0 10,0 9,0 81,00 чие не очень велико. Ведь при

12,7 5,20 4,5 8,0 3,5 12,25 таком малом n значения r и r

åd R 2 = 423 очень уж приблизительны, мало достоверны, их действительное значение может колебаться в широких пределах, поэтому различие r иr в 0,1 малосущественно. Обычно r рассматривают как аналог r , но только менее точный . Знаки при r и r показывает направленность связи.

7.3.4. Применение и проверка достоверности коэффициентов корреляции. Определение степени корреляционной зависимости между факторами необходимо для управления развитием нужного нам фактора: для этого приходится влиять на другие факторы, существенно влияющие на него, и нужно знать меру их действенности. Знать про взаимосвязь факторов нужно для разработки или выбора готовых тестов: информативность теста определяется корреляцией его результатов с проявле­ниями интересующего нас признака или свойства. Без знания корреляций невозможны любые формы отбора.

Выше было отмечено, что в спортивной и вообще педагогической, медицинской и даже экономической и социологической практике большой интерес представляет определение того вклада , который один фактор вносит в формирование другого . Это связано с тем, что помимо рассматриваемого фактора-причины на целевой (интересующий нас) фактор действуют, давая каждый тот или иной вклад в него, и другие.

Считается, что мерой вклада каждого фактора-причины может служить коэффициент детерминации D i = r 2 ´100%. Так, например, если r = 0,6, т.е. связь между факторами А и Б средняя, то D = 0,6 2 ´100% = 36%. Зная, таким образом, что вклад фактора А в формирование фактора Б приблизительно 1½ 3, можно, например уделять целенаправленному развитию этого фактора приблизительно 1½ 3 тренировочного времени. Если же коэффициент корреляции r = 0,4 , то D = r 2 100% =16%, или примерно 1½ 6 - в два с лишним раза меньше, и уделять его развитию по этой логике следует соответственно лишь 1½ 6 часть тренировочного времени.

Величины D i для разных существенных факторов дают приблизительное представление о количественном взаимоот­ношении их влияний на интересующий нас целевой фактор, ради совершенствования которого мы, собственно, и работаем над другими факторами (например, прыгун в длину с разбега работает над повышением скорости своего спринтерского бега, так как оно является тем фактором, который дает самый значительный вклад в формирование результата в прыжках).

Напомним, что определяя D можно вместо r поставить r , хотя, конечно, точность определения оказывается ниже.

На основе выборочного (рассчитанного по выборочным данным) коэффициента корреляции нельзя делать вывод о достоверности факта наличия связи между рассматриваемыми факторами вообще. Для того, чтобы сделать такой вывод с той или иной степенью обоснованности, используют стандартные критерии значимости корреляции . Их применение предполагает линейную зависимость между факторами и нормальное распределение частот в каждом из них (имея в виду не выборочное, а генеральное их представление).

Можно, например, применить t-критерии Стьюдента. Его рас-

четная формула: t p = –2 , где k - исследуемый выборочный коэффициент корреляции, a n - объем сопоставляемых выборок. Полученное расчетное значение t-критерия (t р)сравнивают с табличным при выбранном нами уровне значимости и числе степеней свободы n = n – 2. Чтобы избавиться от расчетной работы, можно воспользоваться специальной таблицей критических значений выборочных коэффициентов корреляции (см. выше), соответствующих наличию достоверной связи между факторами (с учетом n и a ).

Таблица 7.3.

Граничные значений достоверности выборочного коэффициента корреляции

Число степеней свободы при определении коэффициентов корреляции принимают равным 2 (т.е. n = 2) Указанные в табл. 7.3 значения имеют нижней границей доверительного интервала истинного коэффициента корреляции 0, то есть при таких значениях нельзя утверждать, что корреляция вообще имеет место. При значении выборочного коэффициента корреляции выше указанного в таблице можно при соответствующем уровне значимости считать, что истинный коэффициент корреляции не равен нулю.

Но ответ на вопрос, есть ли реальная связь между рассматриваемыми факторами, оставляет место для другого вопроса: в каком интервале лежит истинное значение коэффициента корреляции, каким он может быть на самом деле, при бесконечно большом n ? Этот интервал для любого конкретного значения r и n сопоставляемых факторов можно рассчитать, но удобнее пользоваться системой графиков (номограммой ), где каждая пара кривых, построенная для не которого указанного над ними n , соответствует границам интервала.

Рис. 7.4. Доверительные границы выборочного коэффициента корреляции (a = 0,05). Каждая кривая соответствует указанному над ней n .

Обратясь к номограмме на рис. 7.4, можно определить интервал значений истинного коэффициента корреляции для вычисленных значений выборочного коэффициента корреляции при a = 0,05.

7.3.5. Корреляционные отношения. Если парная корреляция нелинейна , нельзя вычислять коэффициент корреляции, определяют корреляционные отношения . Обязательное требование: признаки должны быть измерены в шкале отношений или в шкале интервалов. Можно вычислять корреляционную зависимость фактора X от фактора Y и корреляционную зависимость фактора Y от фактора X - они различаются. При небольшом объеме n рассматриваемых выборок, представляющих факторы, для вычисления корреляционных отношений можно пользоваться формулами:

корреляционное отношение h x ½ y = ;

корреляционное отношение h y ½ x = .

Здесь и - средние арифметические выборок X и Y, и - внутриклассовые средние арифметические. Tо есть - среднее арифметическое тех значений в выборке фактора Х, с которыми сопряжены одинаковые значения в выборке фактора Y (например, если в факторе X имеются значения 4, 6, и 5, с которыми в выборке фактора Y сопряжены 3 варианты с одинаковым значением 9, то = (4+6+5)½ 3 = 5). Соответственно - среднее арифметическое тех значений в выборке фактора Y, с которыми сопряжены одинаковые значения в выборке фактора Х. Приведем пример и проведем расчет:

Х: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Таблица 7.4

Расчетная таблица

х i y i x y х i – х (х i – х ) 2 х i – х y (x i x y ) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Следовательно, h y ½ x = » 0,63.

7.3.6. Частные и множественный коэффициенты корреляции. Чтобы оценить зависимость между 2-мя факторами, вычисляя коэффициенты корреляции, мы как бы по умолчанию предполагаем, что никакие другие факторы на эту зависимость никакого воздействия не оказывают. В реальности дело обстоит не так. Так, на зависимость между весом и ростом очень существенно влияют калорийность питания, величина систематической физической нагрузки, наследственность и др. Когда нужно при оценке связи между 2-мя факторами учесть существенное влияние других факторов и в то же время как бы изолироваться от них, считая их неизменными , вычисляют частные (иначе - парциальные ) коэффициенты корреляции.

Пример: нужно оценить парные зависимости между 3-мя существенно действующими факторами X, Y и Z. Обозначим r XY (Z) частный (парциальный) коэффициент корреляции между факторами X и Y (при этом величину фактора Z считаем неизменной), r ZX (Y) - частный коэффициент корреляции между факторами Z и X (при неизменном значении фактора Y), r YZ (X) - частный коэффициент корреляции между факторами Y и Z (при неизменном значении фактора X). Используя вычисленные простые парные (по Бравэ-Пирсону) коэффициенты корреляции r XY , r XZ и r YZ , м

ожно вычислить частные (парциальные) коэффициенты корреляции по формулам:

r XY – r XZ ´r YZ r XZ – r XY ´r ZY r ZY –r ZX ´r YZ

r XY (Z) = ; r XZ (Y) = ; r ZY (Х) =

Ö(1–r 2 XZ)(1–r 2 YZ) Ö(1– r 2 XY)(1–r 2 ZY) Ö(1–r 2 ZX)(1–r 2 YX)

И частные коэффициенты корреляции могут принимать значения от –1 до +1. Возведя их в квадрат, получают соответствующие частные коэффициенты детерминации , называемые также частными мерами определенности (умножив на 100, выразим в %%). Частные коэффициенты корреляции больше или меньше отличаются от простых (полных) парных коэффициентов, что зависит от силы влияния на них 3-го фактора (как бы неизменного). Нулевая гипотеза (Н 0), то есть гипотеза об отсутствии связи (зависимости) между факторами X и Y, проверяется (при общем количество признаков k ) вычислением t-критерия по формуле: t Р = r XY (Z) ´ (n –k) 1 ½ 2 ´ (1–r 2 XY (Z)) –1 ½ 2 .

Если t Р < t a n , гипотеза принимается (считаем, что зависимости нет), если же t Р ³ t a n - гипотеза опровергается, то есть считается, что зависимость действительно имеет место. t a n берется по таблице t -критерия Стьюдента, причем k - количество учитываемых факторов (в нашем примере 3), число степеней свободы n = n – 3. Другие частные коэффициенты корреляции проверяют аналогично (в формулу вместо r XY (Z) подставляют соответственно r XZ (Y) или r ZY (X)).

Таблица 7.5

Исходные данные

Ö (1 – 0,71 2)(1 – 0,71 2) Ö (1 – 0,5)(1 – 0,5)

Для оценки зависимости фактора Х от совместного действия нескольких факторов (здесь факторы Y и Z), вычисляют значения простых парных коэффициентов корреляции и, используя их, вычисляют множественный коэффициент корреляции r X (YZ) :

Ö r 2 XY + r 2 XZ – 2r XY ´ r XZ ´ r YZ

r X (YZ) = .

Ö 1 – r 2 YZ

7.2.7. Коэффициент ассоциации. Нередко требуется количественно оценить зависимость между качественными признаками, т.е. такими признаками, которые нельзя представить (охарактеризовать) количественно, которые неизмеримы . Например, стоит задача выяснить, существует ли зависимость между спортивной специализацией занимающихся и такими личностными свойствами, как интравертность (направленность личности на явления собственного субъективного мира) и экстравертность (направленность личности на мир внешних объектов). Условные обозначения представим в табл. 7.6.

Таблица 7.6.

X (лет) Y (раз) Z (раз) X (лет) Y (раз) Z (раз)
Признак 1 Признак 2 Интравертность Экстравертность
Спортивные игры а b
Гимнастика с d

Очевидно, что числами, имеющимися в нашем распоряжении, здесь могут быть только частоты распределений. В таком случае вычисляют коэффициент ассоциации (другое название «коэффициент сопряженности »). Рассмотрим простейший случай: связь между двумя парами признаков, при этом вычисленный коэффициент сопряженности называют тетрахорическим (см. табл.).

Таблица 7.7.

а =20 b = 15 a + b = 35
с =15 d = 5 c + d = 20
a + c = 35 b + d = 20 n = 55

Вычисления производим по формуле:

ad – bc 100 – 225 –123

Вычисление коэффициентов ассоциации (коэффициентов сопряжения) при большем количестве признаков связано с расчетами по аналогичной матрице соответствующего порядка.

Где x·y , x , y - средние значения выборок; σ(x), σ(y) - среднеквадратические отклонения.
Кроме того, коэффициент линейной парной корреляции Пирсона может быть определен через коэффициент регрессии b: , где σ(x)=S(x), σ(y)=S(y) - среднеквадратические отклонения, b - коэффициент перед x в уравнении регрессии y=a+bx .

Другие варианты формул:
или

К xy - корреляционный момент (коэффициент ковариации)

Для нахождения линейного коэффициента корреляции Пирсона необходимо найти выборочные средние x и y , и их среднеквадратические отклонения σ x = S(x), σ y = S(y):

Линейный коэффициент корреляции указывает на наличие связи и принимает значения от –1 до +1 (см. шкалу Чеддока). Например, при анализе тесноты линейной корреляционной связи между двумя переменными получен коэффициент парной линейной корреляции, равный –1 . Это означает, что между переменными существует точная обратная линейная зависимость.

Вычислить значение коэффициента корреляции можно по заданным средним выборки, либо непосредственно .

Xy#x #y #σ x #σ y " data-id="a;b;c;d;e" data-formul="(a-b*c)/(d*e)" data-r="r xy ">Рассчитать свое значение

Геометрический смысл коэффициента корреляции : r xy показывает, насколько различается наклон двух линий регрессии: y(x) и х(у) , насколько сильно различаются результаты минимизации отклонений по x и по y . Чем больше угол между линиями, то тем больше r xy .
Знак коэффициента корреляции совпадает со знаком коэффициента регрессии и определяет наклон линии регрессии, т.е. общую направленность зависимости (возрастание или убывание). Абсолютная величина коэффициента корреляции определяется степенью близости точек к линии регрессии.

Свойства коэффициента корреляции

  1. |r xy | ≤ 1;
  2. если X и Y независимы, то r xy =0, обратное не всегда верно;
  3. если |r xy |=1, то Y=aX+b, |r xy (X,aX+b)|=1, где a и b постоянные, а ≠ 0;
  4. |r xy (X,Y)|=|r xy (a 1 X+b 1 , a 2 X+b 2)|, где a 1 , a 2 , b 1 , b 2 – постоянные.

Поэтому для проверки направления связи выбирается проверка гипотезы при помощи коэффициента корреляции Пирсона с дальнейшей проверкой на достоверность при помощи t-критерия (пример см. ниже).

Типовые задания (см. также нелинейная регрессия)

Типовые задания
Исследуется зависимость производительности труда y от уровня механизации работ x (%) по данным 14 промышленных предприятий. Статистические данные приведены в таблице.
Требуется:
1) Найти оценки параметров линейной регрессии у на х. Построить диаграмму рассеяния и нанести прямую регрессии на диаграмму рассеяния.
2) На уровне значимости α=0.05 проверить гипотезу о согласии линейной регрессии с результатами наблюдений.
3) С надежностью γ=0.95 найти доверительные интервалы для параметров линейной регрессии.

Вместе с этим калькулятором также используют следующие:
Уравнение множественной регрессии

Пример . На основе данных, приведенных в Приложении 1 и соответствующих Вашему варианту (таблица 2), требуется:

  1. Рассчитать коэффициент линейной парной корреляции и построить уравнение линейной парной регрессии одного признака от другого. Один из признаков, соответствующих Вашему варианту, будет играть роль факторного (х), другой – результативного (y). Причинно-следственные связи между признаками установить самим на основе экономического анализа. Пояснить смысл параметров уравнения.
  2. Определить теоретический коэффициент детерминации и остаточную (необъясненную уравнением регрессии) дисперсию. Сделать вывод.
  3. Оценить статистическую значимость уравнения регрессии в целом на пятипроцентном уровне с помощью F-критерия Фишера. Сделать вывод.
  4. Выполнить прогноз ожидаемого значения признака-результата y при прогнозном значении признака-фактора х, составляющим 105% от среднего уровня х. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал с вероятностью 0,95.
Решение . Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение



Связь между признаком Y фактором X сильная и прямая (определяется по шкале Чеддока).
Уравнение регрессии

Коэффициент регрессии: k = a = 4.01
Коэффициент детерминации
R 2 = 0.99 2 = 0.97, т.е. в 97% случаев изменения х приводят к изменению y . Другими словами - точность подбора уравнения регрессии - высокая. Остаточная дисперсия: 3%.
x y x 2 y 2 x·y y(x) (y i -y ) 2 (y-y(x)) 2 (x-x p) 2
1 107 1 11449 107 103.19 333.06 14.5 30.25
2 109 4 11881 218 107.2 264.06 3.23 20.25
3 110 9 12100 330 111.21 232.56 1.47 12.25
4 113 16 12769 452 115.22 150.06 4.95 6.25
5 120 25 14400 600 119.23 27.56 0.59 2.25
6 122 36 14884 732 123.24 10.56 1.55 0.25
7 123 49 15129 861 127.26 5.06 18.11 0.25
8 128 64 16384 1024 131.27 7.56 10.67 2.25
9 136 81 18496 1224 135.28 115.56 0.52 6.25
10 140 100 19600 1400 139.29 217.56 0.51 12.25
11 145 121 21025 1595 143.3 390.06 2.9 20.25
12 150 144 22500 1800 147.31 612.56 7.25 30.25
78 1503 650 190617 10343 1503 2366.25 66.23 143

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
... ... ...

Значимость коэффициента корреляции

Выдвигаем гипотезы:
H 0: r xy = 0, нет линейной взаимосвязи между переменными;
H 1: r xy ≠ 0, есть линейная взаимосвязь между переменными;
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H 1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки):

По таблице Стьюдента находим t табл (n-m-1;α/2) = (10;0.025) = 2.228
Поскольку Tнабл > t табл, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим.
Интервальная оценка для коэффициента корреляции (доверительный интервал)


r - Δ r ≤ r ≤ r + Δ r
Δ r = ±t табл m r = ±2.228 0.0529 = 0.118
0.986 - 0.118 ≤ r ≤ 0.986 + 0.118
Доверительный интервал для коэффициента корреляции: 0.868 ≤ r ≤ 1

Анализ точности определения оценок коэффициентов регрессии





S a =0.2152

Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 7
(122.4;132.11)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии

1) t-статистика




Статистическая значимость коэффициента регрессии подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(a - t a S a ; a + t a S a)
(3.6205;4.4005)
(b - t b S b ; b + t b S b)
(96.3117;102.0519)


Коэффициенты корреляции

До сих пор мы выясняли лишь сам факт существования статистической зависимости между двумя признаками. Далее мы попробуем выяснить, какие заключения можно сделать о силе или слабости этой зависимости, а также о ее виде и направленности. Критерии количественной оценки зависимости между переменными называются коэффициентами корреляции или мерами связанности. Две переменные коррелируют между собой положительно, если между ними существует прямое, однонаправленное соотношение. При однонаправленном соотношении малые значения одной переменной соответствуют малым значениям другой переменной, большие значения - большим. Две переменные коррелируют между собой отрицательно, если между ними существует обратное, разнонаправленное соотношение. При разнонаправленном соотношении малые значения одной переменной соответствуют большим значениям другой переменной и наоборот. Значения коэффициентов корреляции всегда лежат в диапазоне от -1 до +1.

В качестве коэффициента корреляции между переменными, принадлежащими порядковой шкале применяется коэффициент Спирмена , а для переменных, принадлежащих к интервальной шкале - коэффициент корреляции Пирсона (момент произведений). При этом следует учесть, что каждую дихотомическую переменную, то есть переменную, принадлежащую к номинальной шкале и имеющую две категории, можно рассматривать как порядковую .

Для начала мы проверим существует ли корреляция между переменными sex и psyche из файла studium.sav . При этом дихотомическую переменную sex можно считать порядковой. Выполните следующие действия:

    Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

    Перенесите переменную sex в список строк, а переменную psyche - в список столбцов.

    Щелкните на кнопке Statistics ... (Статистика). В диалоге Crosstabs: Statistics установите флажок Correlations (Корреляции). Подтвердите выбор кнопкой Continue.

    В диалоге Crosstabs откажитесь от вывода таблиц, установив флажок Supress tables (Подавлять таблицы). Щелкните на кнопке ОК.

Будут вычислены коэффициенты корреляции Спирмена и Пирсона, а также проведена проверка их значимости:

Symmetric Measures (Симметричные меры)

Value (Значение) Asympt. Std. Error (а) (Асимптотическая стандартная ошибка) Approx. Т (b) (Приблиз. Т) Approx. Sig. (Приблизительная значимость)
Interval by Interval (Интервальный - интервальный) Pearson"s R
(R Пирсона)
,441 ,081 5,006 ,000 (с)
Ordinal by Ordinal (Порядковый - Порядковый) Spearman Correlation (Корреляция по Спирмену) ,439 ,083 4,987 ,000 (с)
N of Valid Cases (Кол-во допустимых случаев) 106

Так как здесь нет переменных с интервальной шкалой, мы рассмотрим коэффициент корреляции Спирмена. Он составляет 0,439 и является максимально значимым (р<0,001).

Для словесного описания величин коэффициента корреляции применяется следующая таблица:

Исходя из вышеприведенной таблицы, можно сделать следующие заключения: Между переменными sex и psyche существует слабая корреляция (заключение о силе зависимости), переменные коррелируют положительно (заключение о направлении зависимости).

В переменной psyche меньшие значения соответствуют отрицательному психическому состоянию, а большие - положительному. В переменной sex, в свою очередь, значение "1" соответствует женскому полу, а "2" - мужскому.

Следовательно, однонаправленность соотношения можно интерпретировать следующим образом: студентки оценивают свое психическое состояние более негативно, чем ".х коллеги-мужчины или, что вероятнее всего, в большей степени склонны согласиться на такую оценку при проведении анкетирования. Строя подобные интерпретации, нужно учитывать, что корреляция между двумя признаками не обязательно равнозначна их Функциональной или причинной зависимости. Подробнее об этом см. в разделе 15.3.

Теперь проверим корреляцию между переменными alter и semester. Применим методику, описанную выше. Мы получим следующие коэффициенты:

Symmetric Measures

Asympt. Std. Error (a)

Interval by Interval

Ordinal by Ordinal

Spearman Correlation

N of Valid Cases

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

э. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

с. Based on normal approximation (На основе нормальной аппроксимации).

Так как переменные alter и semester являются метрическими, мы рассмотрим коэффициент Пирсона (момент произведений). Он составляет 0,807. Между переменными alter и semester существует сильная корреляция. Переменные коррелируют положительно. Следовательно, старшие по возрасту студенты учатся на старших курсах, что, собственно, не является неожиданным выводом.

Проверим на корреляцию переменные sozial (оценку социального положения) и psyche. Мы получим следующие коэффициенты:

Symmetric Measures

Asympt. Std. Error (a)

Interval by Interval

Ordinal by Ordinal

Spearman Correlation

N of Valid Cases

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

с. Based on normal approximation (На основе нормальной аппроксимации).

В этом случае мы рассмотрим коэффициент корреляции Спирмена; он составляет -0,703. Между переменными sozial и psyche существует средняя или сильная корреляция (граничное значение 0,7). Переменные коррелируют отрицательно, то есть чем больше значения первой переменной, тем меньше значения второй и наоборот. Так как малые значения переменной sozial характеризуют позитивное состояние (1 = очень хорошее, 2 = хорошее), а большие значения psyche - отрицательное состояние (1 = крайне неустойчивое, 2 = неустойчивое), следовательно, психологические затруднения во многом обусловлены социальными проблемами.

Коэффициент корреляции – это величина, которая может варьировать в пределах от +1 до –1. В случае полной положительной корреляции этот коэффициент равен плюс 1 (говорят о том, что при увеличении значения одной переменной увеличивается значение другой переменной), а при полной отрицательной – минус 1 (свидетельствуют об обратной связи, т.е. При увеличении значений одной переменной, значения другой уменьшаются).

Пр1.:

График зависимости застенчивости и дипресивности. Как видим, точки (испытуемые) расположены не хаотично, а выстраиваются вокруг одной линии, причём, глядя на эту линию можно сказать, что чем выше у человека выражена застенчивость, тем больше депрессивность, т. е. эти явления взаимосвязаны.

Пр2.: График для Застенчивости и Общительности. Мы видим, что с увеличением застенчивости общительность уменьшается. Их коэффициент корреляции -0,43. Таким образом, коэффициент корреляции больший от 0 до 1 говорит о прямопропорциональной связи (чем больше… тем больше…), а коэффициент от -1 до 0 о обратнопропорциональной (чем больше… тем меньше…)

В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.

Корреляционная связь - это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных. Примерами корреляционной зависимости могут быть зависимости между размерами активов банка и суммой прибыли банка, ростом производительности труда и стажем работы сотрудников.

Используется две системы классификации корреляционных связей по их силе: общая и частная.

Общая классификация корреляционных связей:1) сильная, или тесная при коэффициенте корреляции r>0,70;2) средняя при 0,500,70, а не просто корреляция высокого уровня значимости.

В следующей таблице написаны названия коэффициентов корреляции для различных типов шкал.

Дихотомическая шкала (1/0) Ранговая (порядковая) шкала
Дихотомическая шкала (1/0) Коэфициент ассоциации Пирсона, коэффициент четырехклеточной сопряженности Пирсона. Бисериальная корреляция
Ранговая (порядковая) шкала Рангово-бисериальная корреляция. Ранговый коэффициент корреляции Спирмена или Кендалла.
Интервальная и абсолютная шкала Бисериальная корреляция Значения интервальной шкалы переводятся в ранги и используется ранговый коэффициент Коэффициент корреляции Пирсона (коэффициент линейной корреляции)

При r =0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общи­ми средними, а линии регрессии параллельны осям координат.

Равенство r =0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелирован­ности переменных), но не вообще об отсутствии корреляционной, а тем более, статистической зависимости.

Иногда вывод об отсутствии корреляции важнее наличия сильной корреляции. Нулевая корреляция двух переменных может свидетельствовать о том, что никакого влияния одной переменной на другую не существует, при условии, что мы доверяем результатам измерений.

В SPSS: 11.3.2 Коэффициенты корреляции

До сих пор мы выясняли лишь сам факт существования статистической зависимости между двумя признаками. Далее мы попробуем выяснить, какие заключения можно сделать о силе или слабости этой зависимости, а также о ее виде и направленности. Критерии количественной оценки зависимости между переменными называются коэффициентами корреляции или мерами связанности. Две переменные коррелируют между собой положительно, если между ними существует прямое, однонаправленное соотношение. При однонаправленном соотношении малые значения одной переменной соответствуют малым значениям другой переменной, большие значения - большим. Две переменные коррелируют между собой отрицательно, если между ними существует обратное, разнонаправленное соотношение. При разнонаправленном соотношении малые значения одной переменной соответствуют большим значениям другой переменной и наоборот. Значения коэффициентов корреляции всегда лежат в диапазоне от -1 до +1.

В качестве коэффициента корреляции между переменными, принадлежащими порядковой шкале применяется коэффициент Спирмена, а для переменных, принадлежащих к интервальной шкале - коэффициент корреляции Пирсона (момент произведений). При этом следует учесть, что каждую дихотомическую переменную, то есть переменную, принадлежащую к номинальной шкале и имеющую две категории, можно рассматривать как порядковую.

Для начала мы проверим существует ли корреляция между переменными sex и psyche из файла studium.sav. При этом мы учтем, что дихотомическую переменную sex можно считать порядковой. Выполните следующие действия:

· Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

· Перенесите переменную sex в список строк, а переменную psyche - в список столбцов.

· Щелкните на кнопке Statistics... (Статистика). В диалоге Crosstabs: Statistics установите флажок Correlations (Корреляции). Подтвердите выбор кнопкой Continue.

· В диалоге Crosstabs откажитесь от вывода таблиц, установив флажок Supress tables (Подавлять таблицы). Щелкните на кнопке ОК.

Будут вычислены коэффициенты корреляции Спирмена и Пирсона, а также проведена проверка их значимости:

/ СПСС 10

Задание № 10 Корреляционный анализ

Понятие корреляции

Корреляция или коэффициент корреляции – это статистический показательвероятностной связи между двумя переменными, измеренными по количественным шкалам. В отличие от функциональной связи, при которой каждому значению одной переменной соответствуетстрого определенное значение другой переменной,вероятностная связь характеризуется тем, что каждому значению одной переменной соответствуетмножество значений другой переменной, Примером вероятностной связи является связь между ростом и весом людей. Ясно, что один и тот же рост может быть у людей разного веса и наоборот.

Корреляция представляет собой величину, заключенную в пределах от -1 до + 1, и обозначается буквой r. Причем, если значение находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0, то слабой. Значение корреляции менее 0,2 рассматривается как слабая корреляция, свыше 0,5 – высокая. Если коэффициент корреляции отрицательный, это означает наличие обратной связи: чем выше значение одной переменной, тем ниже значение другой.

В зависимости от принимаемых значений коэффициента rможно выделить различные виды корреляции:

Строгая положительная корреляция определяется значениемr=1. Термин «строгая» означает, что значение одной переменной однозначно определяются значениями другой переменной, а термин «положительная» - что с возрастанием значений одной переменной значения другой переменной также возрастают.

Строгая корреляция является математической абстракцией и практически не встречается в реальных исследованиях.

Положительная корреляция соответствует значениям 0

Отсутствие корреляции определяется значениемr=0. Нулевой коэффициент корреляции говорит о том, что значения переменных никак не связаны между собой.

Отсутствие корреляции H o : 0 r xy =0 формулируется как отражениенулевой гипотезы в корреляционном анализе.

Отрицательная корреляция : -1

Строгая отрицательная корреляция определяется значениемr= -1. Она также, как и строгая положительная корреляция, является абстракцией и не находит выражение в практических исследованиях.

Таблица 1

Виды корреляции и их определения

Метод вычисления коэффициента корреляции зависит от вида шкалы, по которой измерены значения переменной.

Коэффициент корреляции r Пирсона является основным и может использоваться для переменных с номинальной и частично упорядоченными, интервальными шкалами, распределение значений по которым соответствует нормальному (корреляция моментов произведения). Коэффициент корреляции Пирсона дает достаточно точные результаты и в случаях анормальных распределений.

Для распределений, не являющихся нормальными, предпочтительнее пользоваться коэффициентами ранговой корреляции Спирмена и Кендалла. Ранговыми они являются потому, что программа предварительно ранжирует коррелируемые переменные.

Корреляцию rСпирмена программаSPSSвычисляет следующим образом: сначала переменные переводятся в ранги, а затем к рангам применяется формулаrПирсона.

В основе корреляции, предложенной М. Кендаллом, лежит идея о том, что о направлении связи можно судить, попарно сравнивая между собой испытуемых. Если у пары испытываемых изменение по Х совпадают по направлению с изменением по Yсовпадает, то это свидетельствует о положительной связи. Если не совпадает – то об отрицательной связи. Данный коэффициент применяется преимущественно психологами, работающими с малыми выборками. Так как социологи работают с большими массивами данных, то перебор пар, выявление разности относительных частот и инверсий всех пар испытуемых в выборке затруднителен. Наиболее распространенным является коэф. Пирсона.

Поскольку коэффициент корреляции rПирсона является основным и может использоваться (с некоторой погрешностью в зависимости от типа шкалы и уровня анормальности в распределении) для всех переменных, измеренных по количественным шкалам, рассмотрим примеры его использования и сравним полученные результаты с результатами измерений по другим коэффициентам корреляции.

Формула вычисления коэффициента r - Пирсона:

r xy = ∑ (Xi-Xср)∙(Yi-Yср) / (N-1)∙σ x ∙σ y ∙

Где: Xi, Yi- Значения двух переменных;

Xср, Yср- средние значения двух переменных;

σ x , σ y – стандартные отклонения,

N- количество наблюдений.

Парные корреляции

Например, мы хотели бы выяснить, как соотносятся ответы между различными видами традиционных ценностей в представлениях студентов об идеальном месте работы (переменные: а9.1, а9.3, а9.5, а9.7), а затем о соотношении либеральных ценностях (а9.2, а9.4. а9.6, а9.8) . Данные переменные измерены по 5 – членным упорядоченным шкалам.

Используем процедуру: «Анализ», «Корреляции»,«Парные». По умолчанию коэф. Пирсона установлен в диалоговом окне. Используем коэф. Пирсона

В окно отбора переносятся тестируемые переменные: а9.1, а9.3, а9.5, а9.7

Путем нажатия ОК получаем расчет:

Корреляции

а9.1.т. Насколько важно иметь достаточно времени для семьи и личной жизни?

Корреляция Пирсона

Знч.(2-сторон)

а9.3.т. Насколько важно не бояться потерять свою работу?

Корреляция Пирсона

Знч.(2-сторон)

а9.5.т. Насколько важно иметь такого начальника, который будет советоваться с Вами, принимая то или иное решение?

Корреляция Пирсона

Знч.(2-сторон)

а9.7.т. Насколько важно работать в слаженном коллективе, ощущать себя его частью?

Корреляция Пирсона

Знч.(2-сторон)

** Корреляция значима на уровне 0.01 (2-сторон.).

Таблица количественных значений построенной корреляционной матрицы

Частные корреляции:

Для начала построим парную корреляцию между указанными двумя переменными:

Корреляции

с8. Ощущают близость с теми, кто живет рядом с вами, соседями

Корреляция Пирсона

Знч.(2-сторон)

с12. Ощущают близость со своей семьей

Корреляция Пирсона

Знч.(2-сторон)

**. Корреляция значима на уровне 0.01 (2-сторон.).

Затем используем процедуру построения частной корреляции: «Анализ», «Корреляции»,«Частные».

Предположим, что ценность «Важно самостоятельно определять и изменять порядок своей работы» во взаимосвязи с указанными переменными окажется тем решающим фактором, под влияние которого ранее выявленная связь исчезнет, либо окажется малозначимой.

Корреляции

Исключенные переменные

с8. Ощущают близость с теми, кто живет рядом с вами, соседями

с12. Ощущают близость со своей семьей

с16. Ощущают близость с людьми, котрые имеют тот же достаток, что и вы

с8. Ощущают близость с теми, кто живет рядом с вами, соседями

Корреляция

Значимость (2-сторон.)

с12. Ощущают близость со своей семьей

Корреляция

Значимость (2-сторон.)

Как видно из таблицы под влиянием контрольной переменной связь несколько снизилась: с 0, 120 до 0, 102. Однако, это незначительно снижение не позволяет утверждать, что ране выявленная связь является отражением ложной корреляции, т.к. она остается достаточно высокой и позволяет с нулевой погрешностью опровергать нулевую гипотезу.

Коэффициент корреляции

Наиболее точный способ определения тесноты и характера корреляционной связи - нахождение коэффициента корреляции. Коэффициент корреляции есть число определяемое по формуле:


где r ху - коэффициент корреляции;

x i -значения первого признака;

у i -значения второго признака;

Средняя арифметическая значений первого признака

Средняя арифметическая значений второго признака

Для пользования формулой (32) построим таблицу, которая обеспечит необходимую последовательность в подготовке чисел для нахождения числителя и знаменателя коэффициента корреляции.

Как видно из формулы (32), последовательность действий такая: находим средние арифметические обоих признаков х и у, находим разность между значениями признака и его средней (х і - ) и у і - ), затем находим их произведение (х і - ) (у і - ) – суммa пocлeдних дает числитель коэффициента корреляции. Для нахождения его знаменателя следует разности (x i - )и (у і - ) возвести в квадрат, найти их суммы и извлечь корень квадратный из их произведения.

Так для примера 31 нахождение коэффициента корреляции в соответствии с формулой (32) можно представить следующим образом (табл. 50).

Полученное число коэффициента корреляции дает возможность установить наличие, тесноту и характер связи.

1. Если коэффициент корреляции равен нулю, связь между признаками отсутствует.

2. Если коэффициент корреляции равен единице, связь между признаками столь велика, что превращается в функциональную.

3. Абсолютная величина коэффициента корреляции не выходит за пределы интервала от нуля до единицы:

Это дает возможность ориентироваться на тесноту связи: чем величина коэффициента ближе к нулю, тем связь слабее, а чем ближе к единице, тем связь теснее.

4. Знак коэффициента корреляции «плюс» означает прямую корреляцию, знак «минус»-обратную.

Таблица50

х і у і (х і - ) (у і - ) (х і - )(у і - ) (х і - )2 (у і - )2
14,00 12,10 -1,70 -2,30 +3,91 2,89 5,29
14,20 13,80 -1,50 -0,60 +0,90 2,25 0,36
14,90 14,20 -0,80 -0,20 +0,16 0,64 0,04
15,40 13,00 -0,30 -1,40 +0,42 0,09 1,96
16,00 14,60 +0,30 +0,20 +0,06 0,09 0,04
17,20 15,90 +1,50 +2,25 2,25
18,10 17,40 +2,40 +2,00 +4,80 5,76 4,00
109,80 101,00 12,50 13,97 13,94


Таким образом, вычисленный в примере 31 коэффициент корреляции r xy = +0,9. позволяет сделать такие выводы: существует корреляционная связь между величиной мышечной силы правой и левой кистей у исследуемых школьников (коэффициент r xy =+0,9 отличен от нуля), связь очень тесная (коэффициент r xy =+0,9 близок к единице), корреляция прямая (коэффициент r xy = +0,9 положителен), т. е. с увеличением мышечной силы одной из кистей увеличивается сила другой кисти.

При вычислении коэффициента корреляции и пользовании его свойствами следует учесть, что выводы дают корректные результаты в том случае, когда признаки распределены нормально и когда рассматривается взаимосвязь между большим количеством значений обоих признаков.

В рассмотренном примере 31 анализированы только 7 значений обоих признаков, что, конечно, недостаточно для подобных исследований. Напоминаем здесь еще раз, что примеры, в данной книге вообще и в этой главе в частности, носят характер иллюстрации методов, а не подробного изложения каких-либо научных экспериментов. Вследствие этого рассмотрено небольшое число значений признаков, измерения округлены - все это делается для того, чтобы громоздкими вычислениями не затемнять идею метода.

Особое внимание следует обратить на существо рассматриваемой взаимосвязи. Коэффициент корреляции не может привести к верным результатам исследования, если анализ взаимосвязи между признаками проводится формально. Возвратимся еще раз к примеру 31. Оба рассмотренных признака представляли собой значения мышечной силы правой и левой кистей. Представим себе, что под признаком x i в примере 31 (14,0; 14,2; 14,9... ...18,1) мы понимает длину случайно пойманных рыб в сантиметрах, а под признаком у і (12,1; 13,8; 14,2... ...17,4) -вес приборов в лаборатории в килограммах. Формально воспользовавшись аппаратом вычислений для нахождения коэффициента корреляции и получив в этом случае также r xy =+0>9, мы должны были заключить, что между длиной рыб и весом приборов существует тесная связь прямого характера. Бессмысленность такого вывода очевидна.

Чтобы избежать формального подхода к пользованию коэффициентом корреляции, следует любым другим методом - математическим, логическим, экспериментальным, теоретическим - выявить возможность существования корреляционной связи между признаками, то есть обнаружить органическое единство признаков. Только после этого можно приступать к пользованию корреляционным анализом и устанавливать величину и характер взаимосвязи.

В математической статистике существует еще понятие множественной корреляции - взаимосвязи между тремя и более признаками. В этих случаях пользуются коэффициентом множественной корреляции, состоящим из парных коэффициентов корреляции, описанных выше.

Например, коэффициент корреляции трех признаков-х і , у і , z і - есть:

где R xyz -коэффициент множественной корреляции, выражающий, как признак х i зависит от признаков у і и z i ;

r xy -коэффициент корреляции между признаками x i и y i ;

r xz -коэффициент корреляции между признаками Xi и Zi;

r yz - коэффициент корреляции между признаками y i , z i

Корреляционный анализ это:

Корреляционный анализ

Корреля́ция - статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.

Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи - например, для независимых случайных величин). Отрицательная корреляция - корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция - корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен.

Автокорреляция - статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса - со сдвигом по времени.

Метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции) между переменными, называется корреляционным анализом .

Коэффициент корреляции

Коэффицие́нт корреля́ции или парный коэффицие́нт корреля́ции в теории вероятностей и статистике - это показатель характера изменения двух случайных величин. Коэффициент корреляции обозначается латинской буквой R и может принимать значения между -1 и +1. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи (при коэффициенте корреляции равном единице говорят о функциональной связи), а если ближе к 0, то слабой.

Коэффициент корреляции Пирсона

Для метрических величин применяется коэффициент корреляции Пирсона, точная формула которого была введена Фрэнсисом Гальтоном:

Пусть X ,Y - две случайные величины, определённые на одном вероятностном пространстве. Тогда их коэффициент корреляции задаётся формулой:

,

где cov обозначает ковариацию, а D - дисперсию, или, что то же самое,

,

где символ обозначает математическое ожидание.

Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена).

Коэффициент корреляции Кенделла

Используется для измерения взаимной неупорядоченности.

Коэффициент корреляции Спирмена

Свойства коэффициента корреляции

  • Неравенство Коши - Буняковского:
если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши - Буняковского будет: . , где . Более того в этом случае знаки и k совпадают: .

Корреляционный анализ

Корреляционный анализ - метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции ) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют . В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная , если одна переменная растёт, а вторая уменьшается, корреляция отрицательная .

Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = s i n (x ) и B = c o s (x ), то он будет близок к нулю, т. е. зависимость между величинами отсутствует. Между тем, величины A и B очевидно связаны функционально по закону s i n 2(x ) + c o s 2(x ) = 1.

Ограничения корреляционного анализа



Графики распределений пар (x,y) с соответствующими коэффициентами корреляций x и y для каждого из них. Обратите внимание, что коэффициент корреляции отражает линейную зависимость (верхняя строка), но не описывает кривую зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка).
  1. Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений.
  2. Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных . Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость нелинейна (выражена, например, в виде параболы).
  3. Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора.

Область применения

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Ложная корреляция

Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.

В современной количественной методологии социальных наук, фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.

См. также

  • Автокорреляционная функция
  • Взаимнокорреляционная функция
  • Ковариация
  • Коэффициент детерминации
  • Регрессионный анализ

Wikimedia Foundation. 2010.

Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой переменной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют предсказать значение зависимой переменной и определить точность этого предсказания.

Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или графической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом.

Эта характеристика называется коэффициентом корреляции, обычно ее обозначают буквой г. Коэффициент корреляции мо-

жет принимать значения от -1 до +1. Знак коэффициента корреляции показывает направление связи (прямая или обратная), а абсолютная величина - тесноту связи. Коэффициент, равный -1, определяет столь же жесткую связь, что и равный 1. В отсутствие связи коэффициент корреляции равен нулю.

На рис. 8.10 приведены примеры зависимостей и соответствующие им значения г. Мы рассмотрим два коэффициента корреляции.

Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регресси
онный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции», почти всегда имеют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать.

Коэффициент ранговой корреляции Спирмена можно использовать, когда связь нелинейна-и не только для количественных, но и для порядковых признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения.

О количественных, качественных и порядковых признаках мы уже говорили в гл. 5. Количественные признаки - это обычные числовые данные, такие, как рост, вес, температура. Значения количественного признака можно сравнить между собой и сказать, какое из них больше, на сколько и во сколько раз. Например, если один марсианин весит 15 г, а другой 10, то первый тяжелее второго и в полтора раза и на 5 г. Значения порядкового признака тоже можно сравнить, сказав, какое из них больше, но нельзя сказать, ни на сколько, ни во сколько раз. В медицине порядковые признаки встречаются довольно часто. Например, результаты исследования влагалищного мазка по Папаниколау оценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3) умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И количественные, и порядковые признаки можно расположить по порядку - на этом общем свойстве основана большая группа непараметрических критериев, к которым относится и коэффициент ранговой корреляции Спирмена. С другими непараметрическими критериями мы познакомимся в гл. 10.

Коэффициент корреляции Пирсона

И все же, почему для описания тесноты связи нельзя воспользоваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклонение. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и другие показатели регрессионного анализа, будет иным.

Взглянем на рис. 8.11. По известной нам выборке из 10 марсиан построены две линии регрессии. В одном случае вес - зависимая переменная, во втором - независимая. Линии регрессии заметно разли-



20

Если поменять местами х и у, уравнение регрессии получится другим, а коэф- ■ корреляции останется прежним.

чаются. Получается, что связь роста с весом одна, а веса с ростом - другая. Асимметричность регрессионного анализа - вот что мешает непосредственно использовать его для характеристики силы связи. Коэффициент корреляции, хотя его идея вытекает из регрессионного анализа, свободен от этого недостатка. Приводим формулу.

r Y(X - X)(Y - Y)

&((- X) S(y - Y)2"

где X и Y - средние значения переменных X и Y. Выражение для r «симметрично» -поменяв местами Xи Y, мы получим ту же величину. Коэффициент корреляции принимает значения от -1 до +1. Чем теснее связь, тем больше абсолютная величина коэффициента корреляции. Знак показывает направление связи. При r > 0 говорят о прямой корреляции (с увеличением одной переменной другая также возрастает), при r Возьмем пример с 10 марсианами, который мы уже рассматривали с точки зрения регрессионного анализа. Вычислим коэффициент корреляции. Исходные данные и промежуточные результаты вычислений приведены в табл. 8.3. Объем выборки n = 10, средний рост

X = £ X/n = 369/10 = 36,9 и вес Y = £ Y/n = 103,8/10 = 10,38.

Находим Щ- X)(Y- Y) = 99,9, Щ- X)2 = 224,8, £(Y - Y)2 = 51,9.

Подставим полученные значения в формулу для коэффициента корреляции:

224,8 х 51,9 ’ "

Величина r близка к 1, что говорит о тесной связи роста и веса. Чтобы лучше представить себе, какой коэффициент корреляции следует считать большим, а какой незначительным, взгляни-

Таблица 8.3. Вычисление коэффициента корреляции
X Y X -X Y-Y (X -X)(Y-Y) (X -X)2 (Y-Y)2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


те на табл. 8.4 - в ней приведены коэффициенты корреляции для примеров, которые мы разбирали ранее.

Связь регрессии и корреляции

Все примеры коэффициентов корреляции (табл. 8.4) мы первоначально использовали для построения линий регрессии. Действительно, между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления коэффициента корреляции, которые мы при этом получим, позволят лучше понять смысл этого показателя.

Вспомним, что уравнение регрессии строится так, чтобы минимизировать сумму квадратов отклонений от линии регрессии.


Обозначим эту минимальную сумму квадратов S (эту величину называют остаточной суммой квадратов). Сумму квадратов отклонений значений зависимой переменной Y от ее среднего Y обозначим S^. Тогда:

Величина г2 называется коэффициентом детерминации - это просто квадрат коэффициента корреляции. Коэффициент детерминации показывает силу связи, но не ее направленность.

Из приведенной формулы видно, что если значения зависимой переменной лежат на прямой регрессии, то S = 0, и тем самым r = +1 или r = -1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то Soci = SofSisi Тогда r = 0.

Видно также, что коэффициент детерминации равен той доле общей дисперсии S^, которая обусловлена или, как говорят, объясняется линейной регрессией.

Остаточная сумма квадратов S связана с остаточной дисперсией s2y\x соотношением Socj = (п - 2) s^, а общая сумма квадратов S^ с дисперсией s2 соотношением S^ = (п - 1)s2 . В таком случае

r2 = 1 _ n _ 2 sy\x п _1 sy

Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии

six/s2y Чем эта доля меньше, тем больше (по абсолютной величине) коэффициент корреляции, и наоборот.

Мы убедились, что коэффициент корреляции отражает тесноту линейной связи переменных. Однако если речь идет о предсказании значения одной переменной по значению другой, на
коэффициент корреляции не следует слишком полагаться. Например, данным на рис. 8.7 соответствует весьма высокий коэффициент корреляции (г = 0,92), однако ширина доверительной области значений показывает, что неопределенность предсказания довольно значительна. Поэтому даже при большом коэффициенте корреляции обязательно вычислите доверительную область значений.


И под конец приведем соотношение коэффициента корреляции и коэффициента наклона прямой регрессии b:

где b - коэффициент наклона прямой регрессии, sx и sY - стандартные отклонения переменных.

Если не брать во внимание случай sx = 0, то коэффициент корреляции равен нулю тогда и только тогда, когда b = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции.

Статистическая значимость корреляции

Поскольку из b = 0 следует г = 0, гипотеза об отсутствии корреляции равнозначна гипотезе о нулевом наклоне прямой регрессии. Поэтому для оценки статистической значимости корреляции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия b от нуля:

Здесь число степеней свободы v = n - 2. Однако если коэффициент корреляции уже вычислен, удобнее воспользоваться формулой:

Число степеней свободы здесь также v = п - 2.

При внешнем несходстве двух формул для t, они тождественны. Действительно, из того, что


r 2 _ 1 - n_ 2 Sy]x_

Подставив значение sy^x в формулу для стандартной ошибки

Животный жир и рак молочной железы

В опытах на лабораторных животных показано, что высокое содержание животного жира в рационе повышает риск рака молочной железы. Наблюдается ли эта зависимость у людей? К. Кэррол собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молочной железы оказался равен 0,90. Оценим статистическую значимость корреляции.

0,90 1 - 0,902 39 - 2

Критическое значение t при числе степеней свободы v = 39 - 2 = 37 равно 3,574, то Єсть меньше полученного нами. Таким образом, при уровне значимости 0,001 можно утверждать, что существует корреляция между потреблением животных жиров и смертностью от рака молочной железы.

Теперь проверим, связана ли смертность с потреблением растительных жиров? Соответствующие данные приведены на рис. 8.12Б. Коэффициент корреляции равен 0,15. Тогда

1 - 0,152 39 - 2

Даже при уровне значимости 0,10 вычисленное значение t меньше критического. Корреляция статистически не значима.