Jeżeli współczynnik korelacji wynosi 1, wówczas istnieje połączenie. Korelacja i współczynnik korelacji

7.3.1. Współczynniki korelacji i determinacji. Można określić ilościowo bliskość komunikacji pomiędzy czynnikami i jego centrum(bezpośrednie lub odwrotne), obliczanie:

1) jeżeli konieczne jest określenie liniowej zależności między dwoma czynnikami, - współczynnik pary korelacje: w 7.3.2 i 7.3.3 operacje obliczania sparowanego współczynnika korelacji liniowej według Bravaisa-Pearsona ( R) i sparowany współczynnik korelacji rang Spearmana ( R);

2) jeżeli chcemy określić związek pomiędzy dwoma czynnikami, ale związek ten jest wyraźnie nieliniowy, to relacja korelacyjna ;

3) jeśli chcemy określić związek między jednym czynnikiem a pewnym zbiorem innych czynników, to (lub, co oznacza to samo, „współczynnik korelacji wielokrotnej”);

4) jeśli w izolacji chcemy zidentyfikować związek tylko jednego czynnika z konkretnym drugim, zaliczanym do grupy czynników wpływających na pierwszy, dla którego musimy uwzględnić wpływ wszystkich pozostałych czynników bez zmian – to częściowy współczynnik korelacji .

Żaden współczynnik korelacji (r, r) nie może w wartości bezwzględnej przekraczać 1, czyli –1< r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Znak współczynnika korelacji określa kierunek połączenia: znak „+” (lub brak znaku) oznacza, że ​​połączenie prosty (pozytywny), znak „–” oznacza połączenie odwracać (negatywny). Znak nie ma nic wspólnego z bliskością połączenia

Współczynnik korelacji charakteryzuje zależność statystyczną. Często jednak konieczne jest określenie innego rodzaju zależności, a mianowicie: jaki jest udział określonego czynnika w powstaniu innego, z nim związanego. Ten rodzaj zależności jest w pewnym stopniu umownie scharakteryzowany współczynnik determinacji (D ), określone wzorem D = r 2 ´100% (gdzie r jest współczynnikiem korelacji Bravaisa-Pearsona, patrz 7.3.2). Jeżeli dokonano pomiarów skala zamówień (skala rang), to przy pewnym uszkodzeniu niezawodności zamiast wartości r można do wzoru podstawić wartość r (współczynnik korelacji Spearmana, patrz 7.3.3).

Przykładowo, jeśli otrzymamy jako charakterystykę zależności czynnika B od czynnika A współczynnik korelacji r = 0,8 lub r = –0,8, to D = 0,8 · 2 ´100% = 64%, czyli około 2 ½ 3. W związku z tym udział czynnika A i jego zmian w tworzeniu czynnika B wynosi w przybliżeniu 2 ½ 3 z całkowitego udziału wszystkich czynników w ogóle.

7.3.2. Współczynnik korelacji Bravaisa-Pearsona. Procedura obliczania współczynnika korelacji Bravaisa-Pearsona ( R ) można zastosować tylko w przypadkach, gdy zależność jest rozpatrywana na podstawie próbek o normalnym rozkładzie częstotliwości ( rozkład normalny ) i uzyskiwane poprzez pomiary na skalach interwałowych lub ilorazowych. Wzór obliczeniowy tego współczynnika korelacji jest następujący:



å ( X I - )( y I - )

R = .

n×s x × y

Co pokazuje współczynnik korelacji? Po pierwsze, znak współczynnika korelacji wskazuje kierunek zależności, a mianowicie: znak „–” oznacza, że ​​zależność odwracać, Lub negatywny(istnieje tendencja: wraz ze spadkiem wartości jednego czynnika odpowiednie wartości innego czynnika rosną, a wraz ze wzrostem maleją), a brak znaku lub znaku „+” wskazuje bezpośredni, Lub pozytywny powiązania (istnieje tendencja: wraz ze wzrostem wartości jednego czynnika wzrastają wartości drugiego, a wraz ze spadkiem maleją). Po drugie, bezwzględna (niezależna od znaku) wartość współczynnika korelacji wskazuje na bliskość (siłę) połączenia. Ogólnie przyjmuje się (raczej arbitralnie): dla wartości r< 0,3 корреляция bardzo słaby, często po prostu nie jest to brane pod uwagę, przy cenie 0,3 funta r< 5 корреляция słaby, po 0,5 funta r< 0,7) - przeciętny, przy 0,7 GBP r 0,9 GBP) - mocny i wreszcie dla r > 0,9 - bardzo silny. W naszym przypadku (r » 0,83) zależność jest odwrotna (ujemna) i silna.

Przypomnijmy: wartości współczynnika korelacji mogą mieścić się w przedziale od –1 do +1. Jeśli wartość r wykracza poza te granice, oznacza to, że w obliczeniach popełniono błąd . Jeśli R= 1, oznacza to, że powiązanie nie jest statystyczne, ale funkcjonalne – co praktycznie nigdy nie zdarza się w sporcie, biologii czy medycynie. Choć przy małej liczbie pomiarów możliwy jest losowy dobór wartości dających obraz związku funkcjonalnego, to taki przypadek jest mniej prawdopodobny, im większa jest objętość porównywanych próbek (n), czyli liczba par porównywanych pomiarów.

Tabela obliczeniowa (tabela 7.1) jest skonstruowana zgodnie ze wzorem.

Tabela 7.1.

Tabela obliczeń dla obliczeń Bravaisa – Pearsona

x ja tak, ja (X I - ) (X ja – ) 2 (y I - ) (y ja – ) 2 (X I - )( y I - )
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i =137 =13,00 tak i =56,1 =5,1 å( X ja – ) 2 = =1,78 å( y ja – ) 2 = = 1,015 å( X I - )( y ja – )= = –1,24

Od S x = ï ï = ï ï» 0,42, A

S y= ï ï» 0,32, R" –1,24ï (11'0,42'0,32) » –1,24ï 1,48 » –0,83 .

Innymi słowy, musisz bardzo dokładnie wiedzieć, że współczynnik korelacji żargon przekraczać 1,0 w wartości bezwzględnej. Często pozwala to uniknąć rażących błędów, a dokładniej, znaleźć i skorygować błędy popełnione podczas obliczeń.

7.3.3. Współczynnik korelacji Spearmana. Jak już wspomniano, współczynnik korelacji Bravaisa-Pearsona (r) można zastosować tylko w przypadkach, gdy analizowane czynniki są zbliżone do normalnych w rozkładzie częstotliwości, a wartości wariantów uzyskuje się poprzez pomiary koniecznie na skali ilorazowej lub na skali interwałowej , co ma miejsce, jeśli są wyrażone w jednostkach fizycznych. W innych przypadkach znajduje się współczynnik korelacji Spearmana ( R). Jednak ten współczynnik Móc stosować w przypadkach, gdy jest to dozwolone (i pożądane). ! ) zastosuj współczynnik korelacji Bravais-Pearsona. Należy jednak pamiętać, że procedura określania współczynnika według Bravais-Pearsona ma wyższa moc („rozdzielczość umiejętność„), Dlatego R bardziej pouczające niż R. Nawet ze świetnym N odchylenie R może być rzędu ± 10%.

Tabela 7.2 Wzór obliczeniowy współczynnika

x i y i R x R y |d R | d R2 Korelacja Spearmana

13,2 4,75 8,5 3,0 5,5 30,25 R= 1 – . Wos

13,5 4,70 11,0 2,0 9,0 81,00 używamy naszego przykładu

12,7 5,10 4,5 6,5 2,0 4,00 do obliczeń R, ale zbudujemy

12,5 5,40 3,0 9,0 6,0 36,00 inny stół (tabela 7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Podstawmy wartości:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Widzimy: R okazało się, że trochę

12,4 5,60 2,0 11,0 9,0 81,00 więcej niż R, ale to jest co innego

12,3 5,50 1,0 10,0 9,0 81,00 czyli niezbyt dużo. Przecież kiedy

12,7 5,20 4,5 8,0 3,5 12,25 tak mały N wartości R I R

åd R 2 = 423 są bardzo przybliżone, mało wiarygodne, ich rzeczywista wartość może się znacznie różnić, więc różnica R I R przy 0,1 jest nieistotne. ZazwyczajRuważany za analogowyR , ale tylko mniej dokładne. Znaki kiedy R I R pokazuje kierunek połączenia.

7.3.4. Zastosowanie i weryfikacja wiarygodności współczynników korelacji. Określenie stopnia korelacji między czynnikami jest konieczne, aby kontrolować rozwój danego czynnika, czego potrzebujemy: aby to zrobić, musimy wpłynąć na inne czynniki, które w istotny sposób na niego wpływają i poznać zakres ich efektywności. Aby opracować lub wybrać gotowe testy, konieczna jest wiedza o zależnościach między czynnikami: o zawartości informacyjnej testu decyduje korelacja jego wyników z przejawami interesującej nas cechy lub właściwości. Bez znajomości korelacji jakakolwiek forma selekcji jest niemożliwa.

Zauważono powyżej, że w sporcie i ogólnie w praktyce pedagogicznej, medycznej, a nawet ekonomicznej i socjologicznej określenie czego składka , Który jeden czynnik przyczynia się do powstania drugiego. Wynika to z faktu, że oprócz rozważanego czynnika-przyczyny, cel(czynnik, który nas interesuje) działamy, dając każdemu taki czy inny wkład w to i innym.

Uważa się, że miarą wkładu każdego czynnika-przyczyny może być współczynnik determinacji Re ja = r 2 `100%. Na przykład, jeśli r = 0,6, tj. związek między czynnikami A i B jest średni, wówczas D = 0,6 2 ´100% = 36%. Wiedząc zatem, że udział czynnika A w tworzeniu czynnika B wynosi w przybliżeniu 1 ½ 3, możesz na przykład przeznaczyć około 1 na ukierunkowany rozwój tego czynnika ½ 3 razy treningowe. Jeżeli współczynnik korelacji wynosi r = 0,4, to D = r 2 100% = 16%, czyli w przybliżeniu 1 ½ 6 jest ponad dwa razy mniej i zgodnie z tą logiką, zgodnie z tą logiką tylko 1 powinien być poświęcony na jego rozwój ½ 6 część czasu szkoleniowego.

Wartości D i dla różnych znaczących czynników dają przybliżone wyobrażenie o ilościowym związku ich wpływów na interesujący nas docelowy czynnik, w celu poprawy, nad którym w rzeczywistości pracujemy nad innymi czynnikami (na przykład biegający skoczek w dal pracuje nad zwiększeniem prędkości swojego sprintu, więc jak to jest czynnik, który w największym stopniu przyczynia się do kształtowania wyników w skokach).

Przypomnij sobie to określenie D może zamiast tego R umieścić R, choć oczywiście dokładność oznaczenia okazuje się mniejsza.

Na podstawie selektywny współczynnika korelacji (obliczonego z danych próbnych), nie można wyciągać wniosków o wiarygodności faktu, że istnieje związek pomiędzy rozpatrywanymi czynnikami w ogóle. Aby wyciągnąć taki wniosek z różnym stopniem ważności, standard kryteria istotności korelacji. Ich użycie zakłada liniową zależność pomiędzy czynnikami i rozkład normalny częstotliwości w każdym z nich (czyli nie selektywna, ale ich ogólna reprezentacja).

Można na przykład skorzystać z testów t-Studenta. Jego dis-

równa formuła: t str= –2 , gdzie k jest badanym współczynnikiem korelacji próbki, a N- objętość porównywanych próbek. Otrzymaną obliczoną wartość kryterium t (t p) porównujemy z tabelą na wybranym przez nas poziomie istotności i liczbie stopni swobody n = n – 2. Aby pozbyć się pracy obliczeniowej, można skorzystać ze specjalnego tabela wartości krytyczne współczynników korelacji próbek(patrz wyżej), odpowiadający obecności niezawodnego połączenia między czynnikami (biorąc pod uwagę N I A).

Tabela 7.3.

Wartości graniczne wiarygodności współczynnika korelacji próbki

Liczbę stopni swobody przy wyznaczaniu współczynników korelacji przyjmuje się jako równą 2 (tj. N= 2) Wskazano w tabeli. Wartości 7,3 mają dolną granicę przedziału ufności PRAWDA współczynnik korelacji wynosi 0, czyli przy takich wartościach nie można twierdzić, że korelacja w ogóle występuje. Jeżeli wartość współczynnika korelacji próbki jest wyższa od wskazanej w tabeli, można na odpowiednim poziomie istotności przyjąć, że rzeczywisty współczynnik korelacji nie jest równy zero.

Jednak odpowiedź na pytanie, czy istnieje realny związek pomiędzy rozpatrywanymi czynnikami, pozostawia miejsce na inne pytanie: w jakim przedziale czasu następuje prawdziwe znaczenie współczynnik korelacji, jaki może być w rzeczywistości, dla nieskończenie dużego N? Ten przedział dla dowolnej określonej wartości R I N można obliczyć porównywalne współczynniki, ale wygodniej jest zastosować system wykresów ( nomogram), gdzie każda para krzywych jest zbudowana dla niektórych określonych powyżej N, odpowiada granicom przedziału.

Ryż. 7.4. Granice ufności współczynnika korelacji próbki (a = 0,05). Każda krzywa odpowiada tej wskazanej powyżej N.

Odnosząc się do nomogramu na ryc. 7.4 można wyznaczyć przedział wartości prawdziwego współczynnika korelacji dla obliczonych wartości przykładowego współczynnika korelacji przy a = 0,05.

7.3.5. Relacje korelacyjne. Jeśli korelacja parami nieliniowy, nie da się obliczyć współczynnika korelacji, określić relacje korelacyjne . Wymóg obowiązkowy: cechy należy mierzyć na skali ilorazowej lub skali przedziałowej. Można obliczyć zależność korelacji współczynnika X od czynnika Y oraz zależność korelacyjna czynnika Y od czynnika X- różnią się. Dla małej objętości N z rozpatrywanych próbek reprezentujących czynniki, do obliczenia zależności korelacyjnych można skorzystać ze wzorów:

współczynnik korelacji godz x½y= ;

relacja korelacji h y ½x= .

Tutaj i są średnimi arytmetycznymi próbek X i Y oraz - wewnątrzklasowe średnie arytmetyczne. Oznacza to średnią arytmetyczną tych wartości w próbce czynnika X, z którym identyczne wartości są sprzężone w próbie czynnika Y (na przykład, jeśli w czynniku X znajdują się wartości 4, 6 i 5, z którymi w próbie czynnika Y powiązane są 3 opcje o tej samej wartości 9, to = (4+ 6+5) ½ 3 = 5). Odpowiednio jest to średnia arytmetyczna tych wartości w próbie czynnika Y, które są powiązane z tymi samymi wartościami w próbie czynnika X. Podajmy przykład i przeprowadźmy obliczenia:

X: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Tabela 7.4

Tabela obliczeń

x ja tak, ja x y x i – x (x i – x) 2 x ja – x y (x jax y) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Dlatego h y ½ x= „0,63.

7.3.6. Współczynniki korelacji częściowej i wielokrotnej. Aby ocenić zależność pomiędzy 2 czynnikami, przy obliczaniu współczynników korelacji domyślnie zakładamy, że żadne inne czynniki nie mają wpływu na tę zależność. W rzeczywistości tak nie jest. Zatem na związek między wagą a wzrostem bardzo istotny wpływ ma spożycie kalorii, ilość systematycznej aktywności fizycznej, dziedziczność itp. Jeśli jest to konieczne przy ocenie związku między 2 czynnikami wziąć pod uwagę znaczący wpływ inne czynniki i jednocześnie niejako odizolować się od nich, uznając je za niezmienne, oblicz prywatny (W przeciwnym razie - częściowy ) współczynniki korelacji.

Przykład: musimy ocenić sparowane zależności pomiędzy 3 znacząco aktywnymi czynnikami X, Y i Z. Oznaczmy R XY (Z) współczynnik korelacji częściowej pomiędzy czynnikami X i Y (w tym przypadku wartość czynnika Z uważa się za niezmienną), R ZX (Y) - współczynnik korelacji częściowej pomiędzy czynnikami Z i X (przy stałej wartości współczynnika Y), R YZ (X) - częściowy współczynnik korelacji pomiędzy czynnikami Y i Z (przy stałej wartości współczynnika X). Korzystając z obliczonych współczynników korelacji prostych par (Bravais-Pearsona). R XY, R XZ i R YZ, m.in

Częściowe współczynniki korelacji można obliczyć korzystając ze wzorów:

r XY – R XZ' R YZ R XZ – R XY”. R ZY R ZY –r ZX ”. R YZ

R XY(Z) = ; R XZ (Y) = ; R ZY(X) =

Ö(1– R 2XZ)(1– R 2 YZ) Ö(1– R 2XY)(1– R 2 ZY) Ö(1– R 2ZX)(1– R 2 YX)

A częściowe współczynniki korelacji mogą przyjmować wartości od –1 do +1. Podnosząc je do kwadratu, otrzymujemy odpowiednie ilorazy współczynniki determinacji , zwany także prywatne miary pewności(pomnóż przez 100 i wyraź jako %%). Częściowe współczynniki korelacji różnią się mniej więcej od prostych (pełnych) współczynników par, co zależy od siły wpływu na nie trzeciego czynnika (jakby niezmiennego). Testowana jest hipoteza zerowa (H 0), czyli hipoteza o braku związku (zależności) między czynnikami X i Y (przy całkowitej liczbie znaków k) obliczając test t ze wzoru: T P. = R XY (Z) ´ ( N–k) 1 ½ 2 ` (1– R 2 XY (Z)) –1 ½ 2 .

Jeśli T R< T a n , hipoteza zostaje przyjęta (zakładamy, że nie ma zależności), ale jeśli TT a n - hipoteza zostaje odrzucona, to znaczy uważa się, że zależność rzeczywiście ma miejsce. T n jest pobierane z tabeli T-Test studencki i k- liczba uwzględnionych czynników (w naszym przykładzie 3), liczba stopni swobody N= n – 3. W podobny sposób sprawdza się pozostałe współczynniki korelacji cząstkowej (zamiast tego we wzorze R XY(Z) zostaje odpowiednio podstawione R XZ(Y) lub R ZY(X)).

Tabela 7.5

Dane początkowe

Ö (1 – 0,71 2)(1 – 0,71 2) Ö (1 – 0,5)(1 – 0,5)

Aby ocenić zależność czynnika X od łącznego działania kilku czynników (tutaj czynników Y i Z), oblicz wartości współczynników korelacji par prostych i korzystając z nich oblicz współczynnik korelacji wielokrotnej R X (YZ):

Ö R 2XY+ R 2XZ – 2 R XY”. R XZ' R YZ

R X(YZ) = .

Ö 1 – R 2 YZ

7.2.7. Współczynnik stowarzyszenia. Często konieczne jest ilościowe określenie zależności pomiędzy jakość znaki, tj. takie cechy, których nie można przedstawić (scharakteryzować) ilościowo, które niezmierzony. Przykładowo zadaniem jest sprawdzenie, czy istnieje związek pomiędzy specjalizacją sportową osób zaangażowanych a takimi cechami osobowości, jak introwersja (koncentracja osobowości na zjawiskach własnego subiektywnego świata) i ekstrawersja (koncentracja osobowości na świecie obiekty zewnętrzne). Symbole prezentujemy w tabeli. 7.6.

Tabela 7.6.

X (lata) Y (razy) Z (razy) X (lata) Y (razy) Z (razy)
Znak 1 Znak 2 Introwercja Ekstrawersja
Gry sportowe A B
Gimnastyka Z D

Oczywiście liczby, którymi tu dysponujemy, mogą dotyczyć jedynie częstotliwości dystrybucji. W tym przypadku oblicz współczynnik asocjacji (inna nazwa to „ współczynnik kontynuacji „). Rozważmy najprostszy przypadek: związek pomiędzy dwiema parami cech i obliczonym współczynnikiem kontyngencji nazywa się tetrachoryczny (patrz tabela).

Tabela 7.7.

a =20 b = 15 A + B = 35
s =15 d=5 C + D = 20
A + C = 35 B + D = 20 N = 55

Obliczeń dokonujemy korzystając ze wzoru:

ad – p.n.e. 100 – 225 –123

Obliczanie współczynników asocjacji (współczynników koniugacji) o większej liczbie cech polega na obliczeniach z wykorzystaniem podobnej macierzy odpowiedniego rzędu.

Gdzie x·y, x, y to średnie wartości próbek; σ(x), σ(y) – odchylenia standardowe.
Oprócz, Współczynnik korelacji par liniowych Pearsona można wyznaczyć poprzez współczynnik regresji b: , gdzie σ(x)=S(x), σ(y)=S(y) - odchylenia standardowe, b - współczynnik przed x w równaniu regresji y=a+bx.

Inne opcje formuły:
Lub

K xy - moment korelacji (współczynnik kowariancji)

Aby znaleźć współczynnik korelacji liniowej Pearsona, należy znaleźć średnie z próby x i y oraz ich odchylenia standardowe σ x = S(x), σ y = S(y):

Współczynnik korelacji liniowej wskazuje na obecność zależności i przyjmuje wartości od –1 do +1 (patrz skala Chaddocka). Przykładowo, analizując bliskość korelacji liniowej pomiędzy dwiema zmiennymi, uzyskano współczynnik korelacji liniowej dla par równy –1. Oznacza to, że pomiędzy zmiennymi istnieje dokładnie odwrotna zależność liniowa.

Wartość współczynnika korelacji można obliczyć korzystając z podanych średnich z próbek lub bezpośrednio.

Xy#x #y #σ x #σ y " data-id="a;b;c;d;e" data-formul="(a-b*c)/(d*e)" data-r="r xy ">Oblicz swoją wartość

Znaczenie geometryczne współczynnika korelacji: r xy pokazuje, jak różne jest nachylenie dwóch linii regresji: y(x) i x(y) oraz jak bardzo różnią się wyniki minimalizacji odchyleń w x i y. Im większy kąt między liniami, tym większe r xy.
Znak współczynnika korelacji pokrywa się ze znakiem współczynnika regresji i określa nachylenie linii regresji, tj. ogólny kierunek zależności (rosnący lub malejący). Wartość bezwzględna współczynnika korelacji zależy od stopnia bliskości punktów do linii regresji.

Własności współczynnika korelacji

  1. |r xy | ≤ 1;
  2. jeśli X i Y są niezależne, to r xy = 0, sytuacja odwrotna nie zawsze jest prawdą;
  3. jeśli |r xy |=1, to Y=aX+b, |r xy (X,aX+b)|=1, gdzie a i b są stałymi, a ≠ 0;
  4. |r xy (X,Y)|=|r xy (a 1 X+b 1, a 2 X+b 2)|, gdzie a 1, a 2, b 1, b 2 są stałymi.

Dlatego dla sprawdzanie kierunku komunikacji test hipotezy jest wybierany przy użyciu współczynnika korelacji Pearsona, a dalsze testowanie niezawodności odbywa się przy użyciu test t(patrz przykład poniżej).

Typowe zadania (patrz także regresja nieliniowa)

Typowe zadania
Zależność wydajności pracy y od poziomu mechanizacji pracy x (%) bada się na podstawie danych z 14 przedsiębiorstw przemysłowych. Dane statystyczne przedstawiono w tabeli.
Wymagany:
1) Znajdź oszacowania parametrów regresji liniowej y na x. Utwórz wykres rozrzutu i nanieś na niego linię regresji.
2) Na poziomie istotności α=0,05 sprawdzić hipotezę o zgodności regresji liniowej z wynikami obserwacji.
3) Przy niezawodności γ=0,95 znajdź przedziały ufności dla parametrów regresji liniowej.

W tym kalkulatorze używane są również następujące elementy:
Równanie regresji wielokrotnej

Przykład. Na podstawie danych podanych w Załączniku 1 i odpowiadających Twojej opcji (Tabela 2) wymagane jest:

  1. Oblicz współczynnik korelacji par liniowych i skonstruuj równanie regresji liniowej par jednej cechy w stosunku do drugiej. Jedna z cech odpowiadająca Twojej opcji będzie pełnić rolę czynnika (x), druga będzie pełnić rolę wypadkową (y). Samodzielnie ustalaj związki przyczynowo-skutkowe pomiędzy cechami w oparciu o analizę ekonomiczną. Wyjaśnij znaczenie parametrów równania.
  2. Wyznacz teoretyczny współczynnik determinacji i wariancję resztkową (niewyjaśnioną równaniem regresji). Wyciągnij wniosek.
  3. Oceń istotność statystyczną równania regresji jako całości na poziomie pięciu procent, korzystając z testu F Fishera. Wyciągnij wniosek.
  4. Dokonaj prognozy oczekiwanej wartości cechy wynikowej y, przy przewidywanej wartości cechy czynnika x wynoszącej 105% średniego poziomu x. Ocenić dokładność prognozy, obliczając błąd prognozy i jej przedział ufności z prawdopodobieństwem 0,95.
Rozwiązanie. Równanie to y = ax + b
Wartości średnie



Dyspersja


Odchylenie standardowe



Związek pomiędzy cechą Y i czynnikiem X jest silny i bezpośredni (określany za pomocą skali Chaddocka).
Równanie regresji

Współczynnik regresji: k = a = 4,01
Współczynnik determinacji
R 2 = 0,99 2 = 0,97, tj. w 97% przypadków zmiany x prowadzą do zmian w y. Innymi słowy, dokładność wyboru równania regresji jest wysoka. Wariancja resztowa: 3%.
Xyx 2y 2x yy(x)(y i -y) 2(y-y(x)) 2(x-x p) 2
1 107 1 11449 107 103.19 333.06 14.5 30.25
2 109 4 11881 218 107.2 264.06 3.23 20.25
3 110 9 12100 330 111.21 232.56 1.47 12.25
4 113 16 12769 452 115.22 150.06 4.95 6.25
5 120 25 14400 600 119.23 27.56 0.59 2.25
6 122 36 14884 732 123.24 10.56 1.55 0.25
7 123 49 15129 861 127.26 5.06 18.11 0.25
8 128 64 16384 1024 131.27 7.56 10.67 2.25
9 136 81 18496 1224 135.28 115.56 0.52 6.25
10 140 100 19600 1400 139.29 217.56 0.51 12.25
11 145 121 21025 1595 143.3 390.06 2.9 20.25
12 150 144 22500 1800 147.31 612.56 7.25 30.25
78 1503 650 190617 10343 1503 2366.25 66.23 143

Uwaga: wartości y(x) znajdują się w wynikowym równaniu regresji:
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

Znaczenie współczynnika korelacji

Stawiamy hipotezy:
H 0: r xy = 0, nie ma liniowej zależności pomiędzy zmiennymi;
H 1: r xy ≠ 0, istnieje liniowa zależność pomiędzy zmiennymi;
Aby przetestować hipotezę zerową na poziomie istotności α, że ogólny współczynnik korelacji normalnej dwuwymiarowej zmiennej losowej jest równy zero w ramach hipotezy konkurencyjnej H 1 ≠ 0, należy obliczyć obserwowaną wartość kryterium ( wielkość błędu losowego):

Korzystając z tabeli Studenta znajdujemy tablicę t (n-m-1;α/2) = (10;0,025) = 2,228
Ponieważ Tob > t tab, odrzucamy hipotezę, że współczynnik korelacji jest równy 0. Inaczej mówiąc, współczynnik korelacji jest istotny statystycznie.
Oszacowanie przedziałowe dla współczynnika korelacji (przedział ufności)


r - Δ r ≤ r ≤ r + Δ r
Δ r = ±t tabela m r = ±2,228 0,0529 = 0,118
0,986 - 0,118 ≤ r ≤ 0,986 + 0,118
Przedział ufności dla współczynnika korelacji: 0,868 ≤ r ≤ 1

Analiza dokładności wyznaczania oszacowań współczynników regresji





Sa =0,2152

Przedziały ufności dla zmiennej zależnej

Obliczmy granice przedziału, w którym skupi się 95% możliwych wartości Y przy nieograniczonej liczbie obserwacji i X = 7
(122.4;132.11)
Testowanie hipotez dotyczących współczynników równania regresji liniowej

1) statystyka t




Potwierdzono istotność statystyczną współczynnika regresji
Przedział ufności dla współczynników równania regresji
Wyznaczmy przedziały ufności współczynników regresji, które przy wiarygodności 95% będą wyglądały następująco:
(a - t a S a ; a + t a S a)
(3.6205;4.4005)
(b - t b S b ; b + t b S b)
(96.3117;102.0519)


Współczynniki korelacji

Do tej pory wyjaśnialiśmy jedynie fakt istnienia związku statystycznego pomiędzy dwiema cechami. Następnie spróbujemy dowiedzieć się, jakie wnioski można wyciągnąć na temat siły lub słabości tej zależności, a także jej rodzaju i kierunku. Kryteria ilościowego określania zależności między zmiennymi nazywane są współczynnikami korelacji lub miarami spójności. Dwie zmienne są dodatnio skorelowane, jeśli istnieje między nimi bezpośredni, jednokierunkowy związek. W relacji jednokierunkowej małe wartości jednej zmiennej odpowiadają małym wartościom innej zmiennej, a duże wartości odpowiadają dużym wartościom. Dwie zmienne korelują ze sobą ujemnie, jeśli istnieje między nimi odwrotna, wielokierunkowa zależność. W przypadku relacji wielokierunkowej małe wartości jednej zmiennej odpowiadają dużym wartościom innej zmiennej i odwrotnie. Wartości współczynników korelacji zawsze mieszczą się w przedziale od -1 do +1.

Jako współczynnik korelacji pomiędzy zmiennymi należącymi do porządkowy obowiązuje skala Współczynnik Spearmana oraz dla zmiennych należących do interwał skala - Współczynnik korelacji Pearsona(moment pracy). Należy wziąć pod uwagę, że każdą zmienną dychotomiczną, czyli zmienną należącą do skali nominalnej i posiadającą dwie kategorie, można uznać za porządkowy.

W pierwszej kolejności sprawdzimy, czy istnieje korelacja pomiędzy zmiennymi płci i psychiki z pliku studium.sav. W tym przypadku zmienna dychotomiczna seks można uznać za porządkowe. Wykonaj następujące kroki:

    Wybierz opcję Analizuj statystyki opisowe, tabele przestawne... z menu poleceń

    Przesuń zmienną seks do listy ciągów i zmiennej Psyche- do listy kolumn.

    Kliknij przycisk Statystyka... (Statystyki). W oknie dialogowym Tabele przestawne: Statystyka zaznacz pole wyboru Korelacje. Potwierdź swój wybór przyciskiem Kontynuuj.

    W dialogu Tabele przestawne odmówić wyświetlania tabel, zaznaczając pole wyboru Pomiń tabele. Kliknij OK.

Obliczone zostaną współczynniki korelacji Spearmana i Pearsona i zbadane zostanie ich znaczenie:

Miary symetryczne

Wartość Bezobjawowy standardowe Błąd (a) (Asymptotyczny błąd standardowy) Około. T (b) (w przybliżeniu T) Około. Syg. (Przybliżone znaczenie)
Interwał po interwale R. Pearsona
(R. Pearson)
,441 ,081 5,006 0,000 (s)
Porządkowe po porządkowych (Porządkowe - Porządkowe) Korelacja Spearmana ,439 ,083 4,987 0,000 (s)
N ważnych przypadków 106

Ponieważ nie ma tutaj zmiennych skali przedziałowej, przyjrzymy się współczynnikowi korelacji Spearmana. Wynosi ona 0,439 i jest maksymalnie istotna (s<0,001).

Do słownego opisu wartości współczynników korelacji wykorzystano poniższą tabelę:

Na podstawie powyższej tabeli można wyciągnąć następujące wnioski: Istnieje słaba korelacja pomiędzy zmiennymi płci i psychiki (wniosek o sile zależności), zmienne korelują dodatnio (wniosek o kierunku zależności).

W zmiennej psychiki mniejsze wartości odpowiadają negatywnemu stanowi psychicznemu, a większe wartości odpowiadają pozytywnemu. Z kolei w zmiennej płeć wartość „1” odpowiada płci żeńskiej, a „2” płci męskiej.

W konsekwencji jednokierunkowość zależności można interpretować w następujący sposób: studentki oceniają swój stan psychiczny bardziej negatywnie niż ich koledzy lub najprawdopodobniej przy konstruowaniu takich interpretacji są bardziej skłonne zgodzić się na taką ocenę należy wziąć pod uwagę, że korelacja między dwiema cechami niekoniecznie jest równoznaczna z ich zależnością funkcjonalną lub przyczynową. Więcej informacji na ten temat można znaleźć w sekcji 15.3.

Sprawdźmy teraz korelację pomiędzy zmiennymi alter i semestr. Zastosujmy metodę opisaną powyżej. Otrzymamy następujące współczynniki:

Miary symetryczne

Bezobjawowy standardowe Błąd(a)

Interwał po interwale

Porządek za porządkiem

Korelacja Spearmana

N ważnych przypadków

A. Nie zakładamy hipotezy zerowej.

mi. Zastosowanie asymptotycznego błędu standardowego przy założeniu hipotezy zerowej.

Z. W oparciu o przybliżenie normalne.

Ponieważ zmienne alter i semestr są metryczne, rozważymy współczynnik Pearsona (moment iloczynu). Jest to 0,807. Istnieje silna korelacja pomiędzy zmiennymi alternatywnymi i semestralnymi. Zmienne są ze sobą dodatnio skorelowane. W rezultacie starsi uczniowie uczą się w klasach starszych, co zresztą nie jest nieoczekiwanym wnioskiem.

Sprawdźmy korelację zmiennych społecznych (ocena statusu społecznego) i psychiki. Otrzymamy następujące współczynniki:

Miary symetryczne

Bezobjawowy standardowe Błąd(a)

Interwał po interwale

Porządek za porządkiem

Korelacja Spearmana

N ważnych przypadków

A. Nie zakładamy hipotezy zerowej.

B. Zastosowanie asymptotycznego błędu standardowego przy założeniu hipotezy zerowej.

Z. W oparciu o przybliżenie normalne.

W tym przypadku przyjrzymy się współczynnikowi korelacji Spearmana; wynosi -0,703. Istnieje średnia lub silna korelacja pomiędzy zmiennymi społecznymi i psychicznymi (wartość odcięcia 0,7). Zmienne korelują ujemnie, tzn. im wyższa wartość pierwszej zmiennej, tym niższa wartość drugiej i odwrotnie. Ponieważ małe wartości zmiennej społecznej charakteryzują stan pozytywny (1 = bardzo dobry, 2 = dobry), a duże wartości psychiki charakteryzują stan negatywny (1 = skrajnie niestabilny, 2 = niestabilny), dlatego trudności psychologiczne wynikają głównie z problemów społecznych.

Współczynnik korelacji to wartość, która może zmieniać się od +1 do –1. W przypadku całkowitej korelacji dodatniej współczynnik ten wynosi plus 1 (mówią, że gdy wzrasta wartość jednej zmiennej, wzrasta wartość drugiej zmiennej), a w przypadku korelacji całkowicie ujemnej wynosi minus 1 (wskazując sprzężenie zwrotne, tj. gdy wartości jednej zmiennej rosną, wartości drugiej maleją).

Przykład 1:

Wykres związku między nieśmiałością a depresją. Jak widać punkty (podmioty) nie są rozmieszczone chaotycznie, ale układają się wokół jednej linii i patrząc na tę linię można powiedzieć, że im większa jest nieśmiałość człowieka, tym większa jest depresja, czyli zjawiska te są ze sobą powiązane.

Przykład 2: Wykres nieśmiałości i towarzyskości. Widzimy, że wraz ze wzrostem nieśmiałości maleje towarzyskość. Ich współczynnik korelacji wynosi -0,43. Zatem współczynnik korelacji większy od 0 do 1 wskazuje na zależność wprost proporcjonalną (im więcej... tym więcej...), a współczynnik od -1 do 0 wskazuje na zależność odwrotnie proporcjonalną (im więcej... tym mniej. ..)

Jeżeli współczynnik korelacji wynosi 0, obie zmienne są od siebie całkowicie niezależne.

Korelacja- jest to zależność, w której wpływ poszczególnych czynników pojawia się jedynie jako trend (średnio) podczas masowej obserwacji rzeczywistych danych. Przykładami zależności korelacyjnych mogą być zależności między wielkością aktywów banku a wysokością zysku banku, wzrostem wydajności pracy i stażem pracy pracowników.

Do klasyfikacji korelacji ze względu na ich siłę stosuje się dwa systemy: ogólny i specyficzny.

Ogólna klasyfikacja korelacji: 1) silna lub bliska ze współczynnikiem korelacji r > 0,70; 2) średnia na poziomie 0,500,70, a nie tylko korelacja o wysokim poziomie istotności.

Poniższa tabela przedstawia nazwy współczynników korelacji dla różnych typów skal.

Skala dychotomiczna (1/0) Skala rang (porządkowa).
Skala dychotomiczna (1/0) Współczynnik asocjacji Pearsona, czterokomórkowy współczynnik kontyngencji Pearsona. Korelacja biserialna
Skala rang (porządkowa). Korelacja rangowo-biserialna. Współczynnik korelacji rang Spearmana lub Kendalla.
Skala przedziałowa i bezwzględna Korelacja biserialna Wartości skali przedziałowej przelicza się na rangi i stosuje się współczynnik rangi Współczynnik korelacji Pearsona (współczynnik korelacji liniowej)

Na R=0 Nie ma korelacji liniowej. W tym przypadku średnie grupowe zmiennych pokrywają się ze średnimi całkowitymi, a linie regresji są równoległe do osi współrzędnych.

Równość R=0 mówi jedynie o braku zależności korelacyjnej liniowej (zmiennych nieskorelowanych), ale nie mówi ogólnie o braku korelacji, a tym bardziej zależności statystycznej.

Czasami stwierdzenie braku korelacji jest ważniejsze niż obecność silnej korelacji. Zerowa korelacja między dwiema zmiennymi może wskazywać, że jedna zmienna nie ma wpływu na drugą, pod warunkiem, że ufamy wynikom pomiarów.

W SPSSie: 11.3.2 Współczynniki korelacji

Do tej pory wyjaśnialiśmy jedynie fakt istnienia związku statystycznego pomiędzy dwiema cechami. Następnie spróbujemy dowiedzieć się, jakie wnioski można wyciągnąć na temat siły lub słabości tej zależności, a także jej rodzaju i kierunku. Kryteria ilościowego określania zależności między zmiennymi nazywane są współczynnikami korelacji lub miarami spójności. Dwie zmienne są dodatnio skorelowane, jeśli istnieje między nimi bezpośredni, jednokierunkowy związek. W relacji jednokierunkowej małe wartości jednej zmiennej odpowiadają małym wartościom innej zmiennej, a duże wartości odpowiadają dużym wartościom. Dwie zmienne korelują ze sobą ujemnie, jeśli istnieje między nimi odwrotna, wielokierunkowa zależność. W przypadku relacji wielokierunkowej małe wartości jednej zmiennej odpowiadają dużym wartościom innej zmiennej i odwrotnie. Wartości współczynników korelacji zawsze mieszczą się w przedziale od -1 do +1.

Współczynnik Spearmana stosuje się jako współczynnik korelacji pomiędzy zmiennymi należącymi do skali porządkowej, natomiast współczynnik korelacji Pearsona (moment iloczynu) stosuje się do zmiennych należących do skali przedziałowej. Należy wziąć pod uwagę, że każdą zmienną dychotomiczną, czyli zmienną należącą do skali nominalnej i posiadającą dwie kategorie, można uznać za porządkową.

W pierwszej kolejności sprawdzimy, czy istnieje korelacja pomiędzy zmiennymi płci i psychiki z pliku studium.sav. Jednocześnie weźmiemy pod uwagę, że dychotomiczną płeć zmienną można uznać za porządkową. Wykonaj następujące kroki:

· Wybierz z menu poleceń Analizuj statystyki opisowe, tabele przestawne...

· Przenieś zmienną płeć do listy wierszy, a zmienną psychikę do listy kolumn.

· Kliknij przycisk Statystyki.... W oknie dialogowym Tabele przestawne: Statystyka zaznacz pole wyboru Korelacje. Potwierdź swój wybór przyciskiem Kontynuuj.

· W oknie dialogowym Tabele przestawne wyłącz wyświetlanie tabel, zaznaczając pole wyboru Pomiń tabele. Kliknij OK.

Obliczone zostaną współczynniki korelacji Spearmana i Pearsona i zbadane zostanie ich znaczenie:

/ SPSS 10

Zadanie nr 10 Analiza korelacji

Pojęcie korelacji

Korelacja lub współczynnik korelacji jest wskaźnikiem statystycznym probabilistyczny zależności pomiędzy dwiema zmiennymi mierzonymi w skalach ilościowych. W przeciwieństwie do relacji funkcjonalnej, w której odpowiada każda wartość jednej zmiennej ściśle określone wartość innej zmiennej, połączenie probabilistyczne charakteryzuje się tym, że każda wartość jednej zmiennej odpowiada wiele znaczeń inną zmienną Przykładem zależności probabilistycznej jest związek między wzrostem a masą ciała. Oczywiste jest, że osoby o różnej masie ciała mogą mieć ten sam wzrost i odwrotnie.

Korelacja jest wartością z zakresu od -1 do + 1 i jest oznaczona literą r. Co więcej, jeśli wartość jest bliższa 1, oznacza to obecność silnego połączenia, a jeśli jest bliższa 0, oznacza to, że jest słabe. Wartość korelacji mniejsza niż 0,2 uważana jest za słabą korelację, a wartość większa niż 0,5 za wysoką. Jeśli współczynnik korelacji jest ujemny, oznacza to, że występuje sprzężenie zwrotne: im wyższa wartość jednej zmiennej, tym niższa wartość drugiej.

W zależności od przyjętych wartości współczynnika r można wyróżnić różne rodzaje korelacji:

Ścisła dodatnia korelacja wyznaczana przez wartość r=1. Termin „ścisły” oznacza, że ​​wartość jednej zmiennej jest jednoznacznie określona przez wartości innej zmiennej, a termin „ścisły” pozytywne” –że wraz ze wzrostem wartości jednej zmiennej zwiększają się również wartości innej zmiennej.

Ścisła korelacja jest abstrakcją matematyczną i praktycznie nigdy nie występuje w prawdziwych badaniach.

Pozytywna korelacja odpowiada wartościom 0

Brak korelacji wyznaczana przez wartość r=0. Zerowy współczynnik korelacji wskazuje, że wartości zmiennych nie są ze sobą w żaden sposób powiązane.

Brak korelacji H o : 0 R xy =0 sformułowane jako refleksja nieważny hipotezy w analizie korelacji.

Korelacja ujemna: -1

Ścisła korelacja ujemna wyznaczana przez wartość r= -1. To, podobnie jak ścisła korelacja dodatnia, jest abstrakcją i nie znajduje wyrazu w badaniach praktycznych.

Tabela 1

Rodzaje korelacji i ich definicje

Sposób obliczania współczynnika korelacji zależy od rodzaju skali, w której mierzone są wartości zmiennych.

Współczynnik korelacji RPearsona jest podstawowy i może być stosowany dla zmiennych o nominalnych i częściowo uporządkowanych skalach przedziałowych, których rozkład wartości odpowiada normalnemu (korelacja momentu iloczynu). Współczynnik korelacji Pearsona daje dość dokładne wyniki w przypadku rozkładów nieprawidłowych.

W przypadku rozkładów, które nie są normalne, zaleca się stosowanie współczynników korelacji rang Spearmana i Kendalla. Są one uszeregowane, ponieważ program wstępnie szereguje skorelowane zmienne.

Program SPSS oblicza korelację Spearmana w następujący sposób: najpierw zmienne są konwertowane na rangi, a następnie do rang stosuje się wzór Pearsona.

Podstawą korelacji zaproponowanej przez M. Kendalla jest pogląd, że kierunek powiązania można ocenić poprzez porównanie badanych w parach. Jeśli dla pary osób zmiana X pokrywa się w kierunku ze zmianą Y, oznacza to dodatnie połączenie. Jeśli nie pasuje, oznacza to połączenie ujemne. Współczynnik ten jest używany głównie przez psychologów pracujących z małymi próbami. Ponieważ socjolodzy pracują z dużą ilością danych, wyliczenie par i określenie różnic we względnych częstotliwościach i inwersjach wszystkich par osób w próbie jest trudne. Najpopularniejszym jest współczynnik. Pearsona.

Ponieważ współczynnik korelacji Pearsona r ma charakter podstawowy i można go zastosować (z pewnym błędem zależnym od rodzaju skali i stopnia nieprawidłowości w rozkładzie) dla wszystkich zmiennych mierzonych w skalach ilościowych, rozważymy przykłady jego zastosowania i porównamy wyniki uzyskanych z wynikami pomiarów przy użyciu innych współczynników korelacji.

Wzór na obliczenie współczynnika R- Pearson:

r xy = ∑ (Xi-Xavg)∙(Yi-Yavg) / (N-1)∙σ x ∙σ y ∙

Gdzie: Xi, Yi – Wartości dwóch zmiennych;

Xavg, Yavg - średnie wartości dwóch zmiennych;

σ x, σ y – odchylenia standardowe,

N to liczba obserwacji.

Korelacje parami

Chcielibyśmy na przykład dowiedzieć się, jak odpowiedzi korelują pomiędzy różnymi typami tradycyjnych wartości w wyobrażeniach uczniów na temat idealnego miejsca pracy (zmienne: a9.1, a9.3, a9.5, a9.7) , a następnie o korelacji pomiędzy wartościami liberalnymi (a9.2, a9.4. a9.6, a9.8). Zmienne te mierzone są za pomocą 5-pozycyjnych skal uporządkowanych.

Stosujemy procedurę: „Analiza”,  „Korelacje”,  „Sparowane”. Domyślny współczynnik Pearson jest ustawiony w oknie dialogowym. Używamy współczynnika. Pearsona

Badane zmienne przenoszone są do okna selekcji: a9.1, a9.3, a9.5, a9.7

Klikając OK otrzymujemy obliczenie:

Korelacje

a9.1.t. Jak ważne jest, aby mieć wystarczająco dużo czasu na życie rodzinne i osobiste?

Korelacja Pearsona

Wartość (2 strony)

a9.3.t. Jak ważne jest, aby nie bać się utraty pracy?

Korelacja Pearsona

Wartość (2 strony)

a9.5.t. Jak ważne jest posiadanie szefa, który będzie się z Tobą konsultować przy podejmowaniu tej czy innej decyzji?

Korelacja Pearsona

Wartość (2 strony)

a9.7.t. Jak ważna jest praca w zgranym zespole i poczucie, że jest się jego częścią?

Korelacja Pearsona

Wartość (2 strony)

** Korelacja jest istotna na poziomie 0,01 (2-stronnie).

Tabela wartości ilościowych skonstruowanej macierzy korelacji

Częściowe korelacje:

Najpierw zbudujmy korelację parami pomiędzy tymi dwiema zmiennymi:

Korelacje

s8. Poczuj bliskość tych, którzy mieszkają obok ciebie, sąsiadów

Korelacja Pearsona

Wartość (2 strony)

s12. Poczuj bliskość swojej rodziny

Korelacja Pearsona

Wartość (2 strony)

**. Korelacja jest istotna na poziomie 0,01 (dwustronna).

Następnie stosujemy procedurę konstruowania korelacji cząstkowej: „Analiza”,  „Korelacje”,  „Częściowa”.

Załóżmy, że wartość „Ważne jest samodzielne ustalenie i zmiana kolejności swojej pracy” w odniesieniu do określonych zmiennych okaże się czynnikiem decydującym, pod wpływem którego zidentyfikowana wcześniej relacja zniknie lub okaże się nieistotny.

Korelacje

Wykluczone zmienne

s8. Poczuj bliskość tych, którzy mieszkają obok ciebie, sąsiadów

s12. Poczuj bliskość swojej rodziny

s. 16. Poczuj się blisko ludzi, którzy mają takie same dochody jak Ty

s8. Poczuj bliskość tych, którzy mieszkają obok ciebie, sąsiadów

Korelacja

Znaczenie (2-stronne)

s12. Poczuj bliskość swojej rodziny

Korelacja

Znaczenie (2-stronne)

Jak widać z tabeli, pod wpływem zmiennej kontrolnej zależność nieznacznie się zmniejszyła: z 0,120 do 0,102, jednak ten niewielki spadek nie pozwala stwierdzić, że zidentyfikowana wcześniej zależność jest odzwierciedleniem fałszywej korelacji, ponieważ pozostaje dość wysoka i pozwala odrzucić hipotezę zerową z zerowym błędem.

Współczynnik korelacji

Najdokładniejszym sposobem określenia bliskości i charakteru korelacji jest znalezienie współczynnika korelacji. Współczynnik korelacji to liczba określona wzorem:


gdzie r xy jest współczynnikiem korelacji;

x i - wartości pierwszej cechy;

y i są wartościami drugiego atrybutu;

Średnia arytmetyczna wartości pierwszej cechy

Średnia arytmetyczna wartości drugiej cechy

Aby skorzystać ze wzoru (32), zbudujemy tabelę, która zapewni niezbędną spójność w przygotowaniu liczb do znalezienia licznika i mianownika współczynnika korelacji.

Jak widać ze wzoru (32), sekwencja działań jest następująca: znajdujemy średnie arytmetyczne obu cech x i y, znajdujemy różnicę między wartościami atrybutu a jego średnią (x i - ) i y i - ), to znajdujemy ich iloczyn (x i - ) ( y i - ) – suma tych ostatnich daje licznik współczynnika korelacji. Aby znaleźć jego mianownik, różnice (x i - ) i (y i -) należy podnieść do kwadratu, znaleźć ich sumę i wyciągnąć pierwiastek kwadratowy z ich iloczynu.

I tak na przykład 31, znalezienie współczynnika korelacji zgodnie ze wzorem (32) można przedstawić w następujący sposób (tabela 50).

Otrzymana liczba współczynnika korelacji pozwala na stwierdzenie obecności, bliskości i charakteru powiązania.

1. Jeżeli współczynnik korelacji wynosi zero, pomiędzy cechami nie ma związku.

2. Jeżeli współczynnik korelacji jest równy jeden, związek między cechami jest tak duży, że zamienia się w funkcjonalny.

3. Wartość bezwzględna współczynnika korelacji nie przekracza przedziału od zera do jeden:

Pozwala to skupić się na bliskości połączenia: im współczynnik jest bliższy zeru, tym połączenie jest słabsze, a im bliżej jedności, tym połączenie jest bliższe.

4. Znak „plus” współczynnika korelacji oznacza korelację bezpośrednią, znak „minus” oznacza korelację odwrotną.

Tabela 50

x ja tak, ja (x ja - ) (u ja - ) (x i - ) (y i - ) (x i -)2 (у i -)2
14,00 12,10 -1,70 -2,30 +3,91 2,89 5,29
14,20 13,80 -1,50 -0,60 +0,90 2,25 0,36
14,90 14,20 -0,80 -0,20 +0,16 0,64 0,04
15,40 13,00 -0,30 -1,40 +0,42 0,09 1,96
16,00 14,60 +0,30 +0,20 +0,06 0,09 0,04
17,20 15,90 +1,50 +2,25 2,25
18,10 17,40 +2,40 +2,00 +4,80 5,76 4,00
109,80 101,00 12,50 13,97 13,94


Zatem współczynnik korelacji obliczony w przykładzie 31 wynosi r xy = +0,9. pozwala nam wyciągnąć następujące wnioski: istnieje korelacja między wielkością siły mięśniowej prawej i lewej ręki u badanych uczniów (współczynnik r xy =+0,9 jest różny od zera), zależność jest bardzo ścisła (współczynnik r xy =+0,9 jest bliski jedności) , korelacja jest bezpośrednia (współczynnik r xy = +0,9 jest dodatni), tj. wraz ze wzrostem siły mięśni jednej ręki wzrasta siła drugiej ręki.

Obliczając współczynnik korelacji i wykorzystując jego właściwości, należy wziąć pod uwagę, że wnioski dają prawidłowe wyniki, gdy cechy mają rozkład normalny i gdy uwzględni się związek między dużą liczbą wartości obu cech.

W rozważanym przykładzie 31 przeanalizowano jedynie 7 wartości obu cech, co oczywiście nie jest wystarczające do takich badań. Przypominamy raz jeszcze, że przykłady zawarte w tej książce w ogóle, a w tym rozdziale w szczególności, mają charakter ilustrujący metody, a nie szczegółowe przedstawienie jakichkolwiek eksperymentów naukowych. W efekcie uwzględniono niewielką liczbę wartości cech, zaokrąglono pomiary – wszystko to zrobiono tak, aby kłopotliwe obliczenia nie przysłoniły idei metody.

Szczególną uwagę należy zwrócić na istotę rozpatrywanej relacji. Współczynnik korelacji nie może prowadzić do poprawnych wyników badań, jeśli formalnie analizuje się związek między cechami. Wróćmy jeszcze raz do przykładu 31. Obydwa rozpatrywane znaki były wartościami siły mięśni prawej i lewej ręki. Wyobraźmy sobie, że znakiem x i w przykładzie 31 (14,0; 14,2; 14,9... ...18,1) mamy na myśli długość przypadkowo złowionej ryby w centymetrach, a znakiem y i (12,1; 13,8; 14,2... ... 17.4) - masa przyrządów w laboratorium w kilogramach. Po formalnym wykorzystaniu aparatu obliczeniowego do znalezienia współczynnika korelacji iw tym przypadku uzyskania również r xy =+0>9, musieliśmy stwierdzić, że istnieje ścisły, bezpośredni związek pomiędzy długością ryby a wagą instrumentów. Bezsens takiego wniosku jest oczywisty.

Aby uniknąć formalnego podejścia do stosowania współczynnika korelacji, należy zastosować dowolną inną metodę – matematyczną, logiczną, eksperymentalną, teoretyczną – w celu zidentyfikowania możliwości istnienia korelacji między cechami, czyli odkrycia organicznej jedności cech. Dopiero potem można przystąpić do analizy korelacji i ustalić wielkość oraz charakter zależności.

W statystyce matematycznej istnieje również pojęcie korelacja wielokrotna- relacje pomiędzy trzema lub większą liczbą cech. W takich przypadkach stosuje się współczynnik korelacji wielokrotnej, składający się z opisanych powyżej sparowanych współczynników korelacji.

Przykładowo współczynnik korelacji trzech cech – x i, y i, z i – wynosi:

gdzie R xyz jest współczynnikiem korelacji wielokrotnej wyrażającym zależność cechy x i od cech y i oraz z i;

r xy - współczynnik korelacji pomiędzy cechami x i oraz y i;

r xz – współczynnik korelacji pomiędzy cechami Xi i Zi;

r yz - współczynnik korelacji między cechami y i , z i

Analiza korelacji to:

Analiza korelacji

Korelacja- związek statystyczny pomiędzy dwiema lub większą liczbą zmiennych losowych (lub zmiennych, które można uznać za takie z pewnym akceptowalnym stopniem dokładności). Co więcej, zmiany jednej lub więcej z tych wielkości prowadzą do systematycznej zmiany innej lub innych wielkości. Matematyczną miarą korelacji między dwiema zmiennymi losowymi jest współczynnik korelacji.

Korelacja może być dodatnia i ujemna (możliwy jest także brak zależności statystycznej – np. dla niezależnych zmiennych losowych). Korelacja ujemna - korelacja, w której wzrost jednej zmiennej wiąże się ze spadkiem innej zmiennej, a współczynnik korelacji jest ujemny. Pozytywna korelacja - korelacja, w której wzrost jednej zmiennej wiąże się ze wzrostem innej zmiennej, a współczynnik korelacji jest dodatni.

Autokorelacja - zależność statystyczna pomiędzy zmiennymi losowymi z tego samego szeregu, ale wzięta z przesunięciem, np. dla procesu losowego - z przesunięciem czasowym.

Metoda przetwarzania danych statystycznych polegająca na badaniu współczynników (korelacji) pomiędzy zmiennymi to tzw analiza korelacji.

Współczynnik korelacji

Współczynnik korelacji Lub współczynnik korelacji par w teorii prawdopodobieństwa i statystyce jest wskaźnikiem charakteru zmiany dwóch zmiennych losowych. Współczynnik korelacji jest oznaczony łacińską literą R i może przyjmować wartości od -1 do +1. Jeśli wartość bezwzględna jest bliższa 1, to oznacza to obecność silnego powiązania (jeśli współczynnik korelacji jest równy jedności, mówimy o powiązaniu funkcjonalnym), a jeśli jest bliższy 0, to jest słabe.

Współczynnik korelacji Pearsona

Dla wielkości metrycznych stosuje się współczynnik korelacji Pearsona, którego dokładny wzór wprowadził Francis Galton:

Pozwalać X,Y- dwie zmienne losowe zdefiniowane w tej samej przestrzeni prawdopodobieństwa. Następnie ich współczynnik korelacji wyraża się wzorem:

,

gdzie cov oznacza kowariancję, a D jest wariancją lub równoważnie,

,

gdzie symbol oznacza oczekiwanie matematyczne.

Aby graficznie przedstawić taką zależność, można użyć prostokątnego układu współrzędnych z osiami odpowiadającymi obu zmiennym. Każda para wartości oznaczona jest konkretnym symbolem. Wykres ten nazywany jest „wykresem rozrzutu”.

Sposób obliczania współczynnika korelacji zależy od rodzaju skali, do której należą zmienne. Zatem do pomiaru zmiennych skalami przedziałowymi i ilościowymi konieczne jest wykorzystanie współczynnika korelacji Pearsona (korelacja momentu iloczynu). Jeżeli co najmniej jedna z dwóch zmiennych znajduje się na skali porządkowej lub nie ma rozkładu normalnego, należy zastosować korelację rang Spearmana lub τ (tau) Kendala. W przypadku, gdy jedna z dwóch zmiennych jest dychotomiczna, stosuje się korelację punktowo-biseryjną, a jeśli obie zmienne są dychotomiczne – korelację czteropolową. Obliczanie współczynnika korelacji pomiędzy dwiema zmiennymi niedychotomicznymi ma sens tylko wtedy, gdy zależność między nimi jest liniowa (jednokierunkowa).

Współczynnik korelacji Kendella

Używany do pomiaru wzajemnych nieporządków.

Współczynnik korelacji Spearmana

Własności współczynnika korelacji

  • Nierówność Cauchy'ego-Bunyakovsky'ego:
jeśli przyjmiemy kowariancję jako iloczyn skalarny dwóch zmiennych losowych, wówczas norma zmiennej losowej będzie równa , a konsekwencją nierówności Cauchy'ego-Bunyakovsky'ego będzie: . k, Gdzie . Co więcej, w tym przypadku znaki i

mecz: .

Analiza korelacji Analiza korelacji korelacje- metoda przetwarzania danych statystycznych polegająca na badaniu współczynników (

) pomiędzy zmiennymi. W tym przypadku porównuje się współczynniki korelacji pomiędzy jedną parą lub wieloma parami cech w celu ustalenia statystycznych zależności pomiędzy nimi. Cel analiza korelacji - podać informacje o jednej zmiennej, używając innej zmiennej. W przypadkach, w których osiągnięcie celu jest możliwe, mówi się, że zmienne są korelat . W najbardziej ogólnej formie przyjęcie hipotezy korelacji oznacza, że ​​zmiana wartości zmiennej A nastąpi jednocześnie z proporcjonalną zmianą wartości B: jeżeli obie zmienne wzrosną, to korelacja jest dodatnia , jeśli jedna zmienna rośnie, a druga maleje,.

korelacja jest ujemna Korelacja odzwierciedla jedynie liniową zależność wartości, ale nie odzwierciedla ich funkcjonalnej łączności. Na przykład, jeśli obliczysz współczynnik korelacji między wielkościami = SAN(X I ) I = CoS(X B SAN 2(X) + CoS 2(X) = 1.

), to będzie bliska zeru, czyli nie ma zależności pomiędzy wielkościami. Tymczasem wielkości A i B są oczywiście powiązane funkcjonalnie zgodnie z prawem



Wykresy rozkładów par (x,y) z odpowiadającymi im współczynnikami korelacji x i y dla każdej z nich. Należy zauważyć, że współczynnik korelacji odzwierciedla zależność liniową (górna linia), ale nie opisuje krzywej zależności (linia środkowa) i w ogóle nie nadaje się do opisu złożonych, nieliniowych zależności (dolna linia).
  1. Zastosowanie jest możliwe w przypadku wystarczającej liczby przypadków do badania: dla danego typu współczynnik korelacji waha się od 25 do 100 par obserwacji.
  2. Drugie ograniczenie wynika z hipotezy analizy korelacji, która obejmuje liniowa zależność zmiennych. W wielu przypadkach, gdy wiadomo, że istnieje związek, analiza korelacji może nie dać wyników po prostu dlatego, że związek jest nieliniowy (wyrażony na przykład jako parabola).
  3. Sam fakt korelacji nie daje podstaw do stwierdzenia, która ze zmiennych poprzedza lub powoduje zmiany, albo że zmienne są ze sobą na ogół powiązane przyczynowo, na przykład na skutek działania trzeciego czynnika.

Zakres zastosowania

Ta metoda przetwarzania danych statystycznych jest bardzo popularna w ekonomii i naukach społecznych (w szczególności w psychologii i socjologii), chociaż zakres zastosowań współczynników korelacji jest szeroki: kontrola jakości wyrobów przemysłowych, metalurgia, agrochemia, hydrobiologia, biometria i inne.

Popularność metody wynika z dwóch czynników: współczynniki korelacji są stosunkowo łatwe do obliczenia, a ich stosowanie nie wymaga specjalnego przeszkolenia matematycznego. W połączeniu z łatwością interpretacji, łatwość stosowania współczynnika doprowadziła do jego szerokiego zastosowania w dziedzinie analizy danych statystycznych.

Fałszywa korelacja

Często kusząca prostota badań korelacji skłania badacza do wyciągania fałszywych, intuicyjnych wniosków na temat występowania związku przyczynowo-skutkowego pomiędzy parami cech, podczas gdy współczynniki korelacji ustalają jedynie zależności statystyczne.

Współczesna ilościowa metodologia nauk społecznych faktycznie porzuciła próby ustalenia związków przyczynowo-skutkowych między obserwowanymi zmiennymi za pomocą metod empirycznych. Dlatego też, gdy badacze nauk społecznych mówią o ustaleniu zależności między badanymi zmiennymi, zakłada się albo ogólne założenie teoretyczne, albo zależność statystyczną.

Zobacz także

  • Funkcja autokorelacji
  • Funkcja korelacji krzyżowej
  • Kowariancja
  • Współczynnik determinacji
  • Analiza regresji

Fundacja Wikimedia. 2010.

Analiza regresji pozwala ocenić, jak jedna zmienna zależy od drugiej i jaki jest rozrzut wartości zmiennej zależnej wokół linii prostej wyznaczającej tę zależność. Te szacunki i odpowiadające im przedziały ufności przewidują wartość zmiennej zależnej i określają dokładność tej prognozy.

Wyniki analizy regresji można przedstawić jedynie w dość złożonej formie cyfrowej lub graficznej. Często jednak nie jesteśmy zainteresowani przewidywaniem wartości jednej zmiennej na podstawie wartości innej, ale po prostu scharakteryzowaniem bliskości (siły) powiązania między nimi, wyrażonej jedną liczbą.

Ta cecha nazywa się współczynnikiem korelacji, zwykle oznaczanym literą g. Współczynnik korelacji może

Może przyjmować wartości od -1 do +1. Znak współczynnika korelacji wskazuje kierunek połączenia (bezpośredni lub odwrotny), a wartość bezwzględna wskazuje na bliskość połączenia. Współczynnik równy -1 definiuje połączenie tak silne jak jeden równy 1. W przypadku braku połączenia współczynnik korelacji wynosi zero.

Na ryc. Rysunek 8.10 pokazuje przykłady zależności i odpowiadające im wartości r. Rozważymy dwa współczynniki korelacji.

Współczynnik korelacji Pearsona ma na celu opisanie liniowej zależności cech ilościowych; jak regresje
analiza oniczna wymaga rozkładu normalnego. Kiedy ludzie po prostu mówią o „współczynniku korelacji”, prawie zawsze mają na myśli współczynnik korelacji Pearsona i właśnie to zrobimy.

Współczynnik korelacji rang Spearmana można zastosować, gdy zależność jest nieliniowa - i to nie tylko w przypadku cech ilościowych, ale także porządkowych. Jest to metoda nieparametryczna i nie wymaga żadnego szczególnego rodzaju rozkładu.

O cechach ilościowych, jakościowych i porządkowych mówiliśmy już w rozdziale. 5. Cechami ilościowymi są zwykłe dane liczbowe, takie jak wzrost, waga, temperatura. Wartości cechy ilościowej można ze sobą porównać i stwierdzić, która z nich jest większa, o ile i ile razy. Przykładowo, jeśli jeden Marsjanin waży 15 g, a drugi 10, to pierwszy jest półtora raza cięższy od drugiego i o 5 g. Wartości cechy porządkowej można też porównać mówiąc, która z nich jest większa , ale nie da się powiedzieć, o ile i ile razy. W medycynie znaki porządkowe są dość powszechne. Na przykład wyniki wymazu z pochwy ocenia się w następującej skali: 1) prawidłowy, 2) łagodna dysplazja, 3) umiarkowana dysplazja, 4) ciężka dysplazja, 5) rak in situ. Można uporządkować zarówno cechy ilościowe, jak i porządkowe – duża grupa kryteriów nieparametrycznych opiera się na tej ogólnej właściwości, do której zalicza się współczynnik korelacji rang Spearmana. Z innymi testami nieparametrycznymi zapoznamy się w rozdz. 10.

Współczynnik korelacji Pearsona

A jednak dlaczego nie można zastosować analizy regresji do opisania bliskości powiązania? Można zastosować resztkowe odchylenie standardowe jako miarę siły związku. Jeśli jednak zamienisz zmienne zależne i niezależne, resztkowe odchylenie standardowe, podobnie jak inne wskaźniki analizy regresji, będzie inne.

Przyjrzyjmy się rys. 8.11. Na podstawie próby 10 znanych nam Marsjan skonstruowano dwie linie regresji. W jednym przypadku waga jest zmienną zależną, w drugim zmienną niezależną. Linie regresji są zauważalnie różne



20

Jeśli zamienisz x i y, równanie regresji będzie inne, ale współczynnik korelacji pozostanie taki sam.

martwią się. Okazuje się, że związek między wzrostem i wagą jest jeden, a waga i wzrost inny. Asymetria analizy regresji uniemożliwia jej bezpośrednie wykorzystanie do scharakteryzowania siły połączenia. Współczynnik korelacji, choć jego idea wywodzi się z analizy regresji, jest pozbawiony tej wady. Oto formuła.

r Y(X - X)(Y - Y)

&((- X) S(y - Y)2"

gdzie X i Y są średnimi wartościami zmiennych X i Y. Wyrażenie na r jest „symetryczne” - zamieniając X i Y, otrzymujemy tę samą wartość. Współczynnik korelacji przyjmuje wartości od -1 do +1. Im bliższe powiązanie, tym większa wartość bezwzględna współczynnika korelacji. Znak wskazuje kierunek połączenia. Gdy r > 0, mówimy o korelacji bezpośredniej (wraz ze wzrostem jednej zmiennej wzrasta także druga), gdy r Weźmy przykład z 10 Marsjanami, co już rozważaliśmy z punktu widzenia analizy regresji. Obliczmy współczynnik korelacji. Dane wyjściowe i pośrednie wyniki obliczeń podano w tabeli. 8.3. Liczebność próby n = 10, średni wzrost

X = £ X/n = 369/10 = 36,9 i waga Y = £ Y/n = 103,8/10 = 10,38.

Znajdujemy Ř- X)(Y- Y) = 99,9, Ř- X)2 = 224,8, £(Y - Y)2 = 51,9.

Podstawmy otrzymane wartości do wzoru na współczynnik korelacji:

224,8 x 51,9 cala

Wartość r jest bliska 1, co wskazuje na ścisły związek wzrostu i masy ciała. Aby lepiej zrozumieć, który współczynnik korelacji należy uznać za duży, a który za nieistotny, przyjrzyjmy się

Tabela 8.3. Obliczanie współczynnika korelacji
X Y X-X Y-Y(X-X)(Y-Y) (X-X)2 (Y-Y)2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


te na stole 8.4 - pokazuje współczynniki korelacji dla przykładów, które sprawdziliśmy wcześniej.

Związek pomiędzy regresją i korelacją

Początkowo wykorzystaliśmy wszystkie przykłady współczynników korelacji (Tabela 8.4) do skonstruowania linii regresji. Rzeczywiście istnieje ścisły związek między współczynnikiem korelacji a parametrami analizy regresji, co teraz zademonstrujemy. Różne sposoby prezentacji współczynnika korelacji, jaki uzyskamy, pozwolą nam lepiej zrozumieć znaczenie tego wskaźnika.

Przypomnijmy, że równanie regresji jest skonstruowane w taki sposób, aby zminimalizować sumę kwadratów odchyleń od prostej regresji.


Oznaczmy tę minimalną sumę kwadratów S (wielkość ta nazywana jest rezydualną sumą kwadratów). Oznaczmy sumę kwadratów odchyleń wartości zmiennej zależnej Y od jej średniej Y jako S^. Następnie:

Wielkość r2 nazywana jest współczynnikiem determinacji – jest to po prostu kwadrat współczynnika korelacji. Współczynnik determinacji pokazuje siłę połączenia, ale nie jego kierunek.

Z powyższego wzoru wynika, że ​​jeśli wartości zmiennej zależnej leżą na linii regresji, to S = 0, a zatem r = +1 lub r = -1, czyli istnieje liniowa zależność pomiędzy zmienne zależne i niezależne. Dla dowolnej wartości zmiennej niezależnej można dokładnie przewidzieć wartość zmiennej zależnej. I odwrotnie, jeśli zmienne w ogóle nie są ze sobą powiązane, to Soci = SofSisi Następnie r = 0.

Można także zauważyć, że współczynnik determinacji jest równy tej części całkowitej wariancji S^, która jest spowodowana lub, jak to się mówi, wyjaśniona przez regresję liniową.

Resztowa suma kwadratów S jest powiązana z resztową wariancją s2y\x relacją Socj = (n - 2) s^, a całkowita suma kwadratów S^ z wariancją s2 relacją S^ = (n - 1 )s2. W takim razie

r2 = 1 _ n _ 2 sy\x n _1 sy

Wzór ten pozwala ocenić zależność współczynnika korelacji od proporcji wariancji resztowej w wariancji całkowitej

sześć/s2y Im mniejszy jest ten udział, tym większy (w wartości bezwzględnej) współczynnik korelacji i odwrotnie.

Zadbaliśmy o to, aby współczynnik korelacji odzwierciedlał bliskość liniowej zależności pomiędzy zmiennymi. Jeśli jednak mówimy o przewidywaniu wartości jednej zmiennej na podstawie wartości drugiej,
Nie należy zbytnio polegać na współczynniku korelacji. Na przykład dane na ryc. Wartość 8,7 odpowiada bardzo wysokiemu współczynnikowi korelacji (r = 0,92), jednak szerokość przedziału ufności wskazuje, że niepewność predykcji jest dość znaczna. Dlatego nawet przy dużym współczynniku korelacji należy obliczyć zakres ufności.


Na koniec przedstawiamy stosunek współczynnika korelacji i współczynnika nachylenia regresji bezpośredniej b:

gdzie b jest współczynnikiem nachylenia linii regresji, sx i sY są odchyleniami standardowymi zmiennych.

Jeśli nie uwzględnimy przypadku sx = 0, to współczynnik korelacji wynosi zero wtedy i tylko wtedy, gdy b = 0. Fakt ten wykorzystamy teraz do oceny istotności statystycznej korelacji.

Istotność statystyczna korelacji

Ponieważ b = 0 implikuje r = 0, hipoteza o braku korelacji jest równoważna hipotezie o zerowym nachyleniu linii regresji. Dlatego też, aby ocenić istotność statystyczną korelacji, możemy skorzystać ze znanego już wzoru na ocenę istotności statystycznej różnicy b od zera:

Tutaj liczba stopni swobody wynosi v = n - 2. Jeśli jednak współczynnik korelacji został już obliczony, wygodniej jest skorzystać ze wzoru:

Liczba stopni swobody wynosi tutaj również v = n - 2.

Pomimo zewnętrznej odmienności dwóch wzorów na t, są one identyczne. Rzeczywiście z tego, że


r 2 _ 1 - n_ 2 Sy]x_

Podstawienie wartości sy^x do wzoru na błąd standardowy

Tłuszcz zwierzęcy i rak piersi

Doświadczenia na zwierzętach laboratoryjnych wykazały, że wysoka zawartość tłuszczów zwierzęcych w diecie zwiększa ryzyko raka piersi. Czy tę zależność obserwuje się u ludzi? K. Carroll zebrała dane dotyczące spożycia tłuszczów zwierzęcych i śmiertelności z powodu raka piersi dla 39 krajów. Wynik pokazano na ryc. 8.12A. Stwierdzono, że współczynnik korelacji pomiędzy spożyciem tłuszczu zwierzęcego a śmiertelnością z powodu raka piersi wynosi 0,90. Oceńmy istotność statystyczną tej korelacji.

0,90 1 - 0,902 39 - 2

Wartość krytyczna t dla liczby stopni swobody v = 39 - 2 = 37 wynosi 3,574, czyli mniej niż otrzymaliśmy. Zatem na poziomie istotności 0,001 można stwierdzić, że istnieje korelacja pomiędzy spożyciem tłuszczów zwierzęcych a umieralnością z powodu raka piersi.

Sprawdźmy teraz, czy śmiertelność ma związek ze spożyciem tłuszczów roślinnych? Odpowiednie dane pokazano na ryc. 8.12B. Współczynnik korelacji wynosi 0,15. Następnie

1 - 0,152 39 - 2

Nawet na poziomie istotności 0,10 obliczona wartość t jest mniejsza niż wartość krytyczna. Zależność nie jest istotna statystycznie.