Hvis korrelationskoefficienten er 1, er der en sammenhæng. Korrelation og korrelationskoefficient

7.3.1. Korrelationskoefficienter og bestemmelse. Kan kvantificeres kommunikationsnærhed mellem faktorer og dens fokus(direkte eller omvendt), beregner:

1) hvis det er nødvendigt at bestemme en lineær sammenhæng mellem to faktorer, - par koefficient sammenhænge: i 7.3.2 og 7.3.3 operationerne til at beregne den parrede lineære korrelationskoefficient ifølge Bravais-Pearson ( r) og parret Spearman rangkorrelationskoefficient ( r);

2) hvis vi vil bestemme forholdet mellem to faktorer, men dette forhold er klart ikke-lineært, så korrelationsforhold ;

3) hvis vi ønsker at bestemme forholdet mellem en faktor og et bestemt sæt af andre faktorer, så (eller, som er det samme, "multipel korrelationskoefficient");

4) hvis vi isoleret ønsker at identificere sammenhængen mellem en faktor alene med en bestemt anden, inkluderet i gruppen af ​​faktorer, der påvirker den første, for hvilken vi skal betragte indflydelsen af ​​alle andre faktorer uændret - så partiel korrelationskoefficient .

Enhver korrelationskoefficient (r, r) kan ikke overstige 1 i absolut værdi, det vil sige –1< r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Korrelationskoefficientens fortegn bestemmer retningen af ​​forholdet: "+" tegnet (eller intet tegn) betyder, at forholdet lige (positiv), betyder "–" tegnet, at forbindelsen baglæns (negativ). Skiltet har intet at gøre med forbindelsens tæthed

Korrelationskoefficienten karakteriserer den statistiske sammenhæng. Men ofte er det nødvendigt at bestemme en anden type afhængighed, nemlig: hvad er bidraget fra en bestemt faktor til dannelsen af ​​en anden faktor forbundet med den. Denne form for afhængighed er, med en vis grad af konvention, karakteriseret bestemmelseskoefficient (D ), bestemt af formlen D = r 2 ´100% (hvor r er Bravais-Pearson-korrelationskoefficienten, se 7.3.2). Hvis målinger blev udført i ordensskala (rangskala), så med en vis skade på pålideligheden kan du i stedet for værdien r erstatte værdien r (Spearman-korrelationskoefficient, se 7.3.3) i formlen.

For eksempel, hvis vi opnåede, som en karakteristik af faktor B's afhængighed af faktor A, korrelationskoefficienten r = 0,8 eller r = –0,8, så er D = 0,8 2 ´100% = 64%, det vil sige ca. ½ 3. Følgelig er bidraget fra faktor A og dens ændringer til dannelsen af ​​faktor B cirka 2 ½ 3 fra det samlede bidrag fra alle faktorer generelt.

7.3.2. Bravais-Pearson korrelationskoefficient. Proceduren til beregning af Bravais-Pearson korrelationskoefficienten ( r ) kan kun bruges i tilfælde, hvor forholdet vurderes på grundlag af prøver med en normal frekvensfordeling ( Normal fordeling ) og opnået ved målinger på interval- eller forholdsskalaer. Beregningsformlen for denne korrelationskoefficient er:



å ( x jeg – )( y jeg – )

r = .

n×s x ×s y

Hvad viser korrelationskoefficienten? For det første viser fortegnet for korrelationskoefficienten sammenhængens retning, nemlig: "–" tegnet angiver, at sammenhængen baglæns, eller negativ(der er en tendens: med et fald i værdierne af en faktor stiger de tilsvarende værdier af en anden faktor, og med en stigning falder de), og fraværet af et tegn eller "+"-tegnet indikerer lige, eller positiv forbindelser (der er en tendens: med en stigning i værdierne af en faktor stiger værdierne af en anden, og med et fald falder de). For det andet angiver den absolutte (tegn-uafhængige) værdi af korrelationskoefficienten tætheden (styrken) af forbindelsen. Det er generelt accepteret (temmelig vilkårligt): for værdier af r< 0,3 корреляция meget svag, ofte er det simpelthen ikke taget i betragtning, ved 0,3 £ r< 5 корреляция svag, til 0,5 £ r< 0,7) - gennemsnit, ved 0,7 £ r £ 0,9) - stærk og endelig for r > 0,9 - meget stærk. I vores tilfælde (r » 0,83) er forholdet omvendt (negativt) og stærkt.

Lad os minde dig om: Værdierne af korrelationskoefficienten kan være i området fra -1 til +1. Hvis værdien af ​​r går ud over disse grænser, indikerer det det i beregningerne der skete en fejl . Hvis r= 1 betyder det, at sammenhængen ikke er statistisk, men funktionel - hvilket praktisk talt aldrig sker inden for sport, biologi eller medicin. Selvom der med et lille antal målinger er et tilfældigt udvalg af værdier, der giver et billede af den funktionelle forbindelse, muligt, er et sådant tilfælde mindre sandsynligt, jo større volumen af ​​sammenlignede prøver (n), det vil sige antallet af par af sammenlignede målinger.

Beregningstabellen (tabel 7.1) er opbygget efter formlen.

Tabel 7.1.

Beregningstabel for Bravais-Pearson-beregninger

x i y i (x jeg – ) (x i – ) 2 (y jeg – ) (y i – ) 2 (x jeg – )( y jeg – )
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i =137 =13,00 åy i =56,1 =5,1 å( x i – ) 2 = = 1,78 å( y i – ) 2 = = 1,015 å( x jeg – )( y i – )= = –1,24

Fordi s x = ï ï = ï ï» 0,42, a

s y = ï ï» 0,32, r" –1,24ï (11´0.42´0.32) » –1,24ï 1,48 » –0,83 .

Med andre ord, du skal vide meget fast, at korrelationskoefficienten kan ikke overstige 1,0 i absolut værdi. Dette giver dig ofte mulighed for at undgå grove fejl, eller mere præcist, at finde og rette fejl lavet under beregninger.

7.3.3. Spearman korrelationskoefficient. Som allerede nævnt kan Bravais-Pearson korrelationskoefficienten (r) kun bruges i tilfælde, hvor de analyserede faktorer er tæt på normal i frekvensfordeling, og variantværdierne opnås ved målinger nødvendigvis på en forholdsskala eller på en intervalskala , hvilket sker, hvis de er udtrykte fysiske enheder. I andre tilfælde findes Spearman-korrelationskoefficienten ( r). Men denne koefficient Kan gælder i tilfælde, hvor det er tilladt (og ønskeligt). ! ) anvender Bravais-Pearson korrelationskoefficienten. Men det skal huskes, at proceduren til bestemmelse af koefficienten ifølge Bravais-Pearson har højere magt ("opløse evne"), Derfor r mere informativ end r. Selv med stor n afvigelse r kan være i størrelsesordenen ±10%.

Tabel 7.2 Beregningsformel for koefficient

x i y i R x R y | d R | d R 2 Spearman korrelation

13,2 4,75 8,5 3,0 5,5 30,25 r= 1 – . Vos

13,5 4,70 11,0 2,0 9,0 81,00 vi bruger vores eksempel

12,7 5,10 4,5 6,5 2,0 4,00 til beregning r, men vi bygger

12,5 5,40 3,0 9,0 6,0 36,00 et andet bord (tabel 7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Lad os erstatte værdierne:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Vi ser: r viste sig at være lidt

12,4 5,60 2,0 11,0 9,0 81,00 mere end r, men det er anderledes

12,3 5,50 1,0 10,0 9,0 81,00 hvilket ikke er særlig stort. Når alt kommer til alt

12,7 5,20 4,5 8,0 3,5 12,25 så lille n værdier r Og r

åd R 2 = 423 er meget omtrentlige, ikke særlig pålidelige, deres faktiske værdi kan variere meget, så forskellen r Og r ved 0,1 er ubetydelig. Som regelrbetragtes som en analogr , men kun mindre nøjagtig. Tegn hvornår r Og r viser forbindelsens retning.

7.3.4. Anvendelse og verifikation af pålideligheden af ​​korrelationskoefficienter. Det er nødvendigt at bestemme graden af ​​korrelation mellem faktorer for at kontrollere udviklingen af ​​den faktor, vi har brug for: For at gøre dette skal vi påvirke andre faktorer, der har væsentlig indflydelse på den, og vi skal kende omfanget af deres effektivitet. Det er nødvendigt at vide om forholdet mellem faktorer for at udvikle eller vælge færdige tests: informationsindholdet i en test bestemmes af korrelationen af ​​dens resultater med manifestationerne af den egenskab eller egenskab, der interesserer os. Uden viden om sammenhænge er enhver form for udvælgelse umulig.

Det blev bemærket ovenfor, at inden for idræt og i almindelig pædagogisk, medicinsk og endda økonomisk og sociologisk praksis, er bestemmelsen af, hvad bidrag , hvilken en faktor bidrager til dannelsen af ​​en anden. Dette skyldes, at ud over den faktor-årsag, der er under overvejelse, mål(den faktor, der interesserer os) handle, give hver et eller andet bidrag til det, og andre.

Det antages, at målet for bidraget fra hver faktor-årsag kan være bestemmelseskoefficient D i = r 2 '100%. Så for eksempel, hvis r = 0,6, dvs. forholdet mellem faktor A og B er gennemsnitligt, så er D = 0,6 2 ´100 % = 36 %. Ved derfor, at bidraget fra faktor A til dannelsen af ​​faktor B er cirka 1 ½ 3, kan du f.eks. afsætte cirka 1 til den målrettede udvikling af denne faktor ½ 3 træningstider. Hvis korrelationskoefficienten er r = 0,4, så er D = r 2 100 % = 16 %, eller cirka 1 ½ 6 er mere end to gange mindre, og ifølge denne logik, ifølge denne logik, bør kun 1 være viet til dens udvikling ½ 6. del af træningstiden.

Værdierne af D i for forskellige væsentlige faktorer giver en omtrentlig idé om det kvantitative forhold mellem deres indflydelse på målfaktoren af ​​interesse for os, for at forbedre, hvilket vi faktisk arbejder på andre faktorer (f.eks. arbejder en løbende længdespringer på at øge hastigheden i sin spurt, så hvordan er det den faktor, der bidrager mest til dannelsen af ​​resultater i spring).

Husk den definerende D måske i stedet for r sætte r, selvom nøjagtigheden af ​​bestemmelsen naturligvis viser sig at være lavere.

Baseret selektiv korrelationskoefficient (beregnet ud fra stikprøvedata), kan man ikke drage en konklusion om pålideligheden af, at der er en sammenhæng mellem de faktorer, der overvejes generelt. For at kunne lave en sådan konklusion med varierende grader af validitet, standard korrelationssignifikanskriterier. Deres brug forudsætter et lineært forhold mellem faktorer og Normal fordeling frekvenser i hver af dem (hvilket betyder ikke en selektiv, men deres generelle repræsentation).

Du kan fx bruge Students t-test. Hans dis-

selv formel: t s= –2 , hvor k er prøvekorrelationskoefficienten under undersøgelse, a n- volumen af ​​sammenlignede prøver. Den resulterende beregnede værdi af t-kriteriet (t p) sammenlignes med tabellen på det signifikansniveau, vi har valgt, og antallet af frihedsgrader n = n – 2. For at slippe af med regnearbejdet kan du bruge en speciel bord kritiske værdier af prøvekorrelationskoefficienter(se ovenfor), svarende til tilstedeværelsen af ​​en pålidelig forbindelse mellem faktorer (under hensyntagen til n Og -en).

Tabel 7.3.

Grænseværdier for pålideligheden af ​​prøvekorrelationskoefficienten

Antallet af frihedsgrader ved bestemmelse af korrelationskoefficienter tages lig med 2 (dvs. n= 2) Angivet i tabellen. 7,3 værdier har den nedre grænse for konfidensintervallet rigtigt korrelationskoefficienten er 0, det vil sige, med sådanne værdier kan det ikke argumenteres for, at korrelation overhovedet forekommer. Hvis værdien af ​​prøvekorrelationskoefficienten er højere end den, der er angivet i tabellen, kan det antages, ved det passende signifikansniveau, at den sande korrelationskoefficient ikke er lig med nul.

Men svaret på spørgsmålet om, hvorvidt der er en reel sammenhæng mellem de faktorer, der overvejes, giver plads til et andet spørgsmål: i hvilket interval sand betydning korrelationskoefficient, som den faktisk kan være, for en uendelig stor n? Dette interval for en bestemt værdi r Og n sammenlignelige faktorer kan beregnes, men det er mere bekvemt at bruge et grafsystem ( nomogram), hvor hvert par af kurver er konstrueret for nogle specificeret over dem n, svarer til grænserne for intervallet.

Ris. 7.4. Konfidensgrænser for stikprøvekorrelationskoefficienten (a = 0,05). Hver kurve svarer til den, der er angivet over den n.

Med henvisning til nomogrammet i fig. 7.4, er det muligt at bestemme intervallet af værdier for den sande korrelationskoefficient for de beregnede værdier af prøvekorrelationskoefficienten ved a = 0,05.

7.3.5. Korrelationsforhold. Hvis parvis korrelation ikke-lineær, er det umuligt at beregne korrelationskoefficienten, bestemme korrelationsforhold . Obligatorisk krav: egenskaber skal måles på en forholdsskala eller på en intervalskala. Du kan beregne korrelationsafhængigheden af ​​faktoren x fra faktor Y og korrelationsafhængighed af faktoren Y fra faktor x- de afviger. Til lille volumen n af de overvejede prøver, der repræsenterer faktorer, kan du bruge formlerne til at beregne korrelationsforhold:

korrelationsforhold h x½y= ;

korrelationsforhold h y ½ x= .

Her og er de aritmetiske middelværdier af prøverne X og Y, og - intraklasse aritmetiske gennemsnit. Det vil sige det aritmetiske middelværdi af disse værdier i stikprøven af ​​faktor X, hvormed identiske værdier er konjugerede i prøven af ​​faktor Y (for eksempel, hvis der i faktor X er værdier 4, 6 og 5, som der i prøven af ​​faktor Y er tilknyttet 3 muligheder med samme værdi 9, så = (4+ 6+5) ½ 3 = 5). Følgelig er det det aritmetiske middelværdi af de værdier i prøven af ​​faktor Y, som er forbundet med de samme værdier i prøven af ​​faktor X. Lad os give et eksempel og udføre beregningen:

X: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Tabel 7.4

Beregningstabel

x i y i x y x i – x (x i – x) 2 x i – x y (x ix y) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Derfor, h y ½ x= "0,63.

7.3.6. Partielle og multiple korrelationskoefficienter. For at vurdere afhængigheden mellem 2 faktorer, ved beregning af korrelationskoefficienter, antager vi som standard, at ingen andre faktorer har nogen indflydelse på denne afhængighed. I virkeligheden er dette ikke tilfældet. Forholdet mellem vægt og højde er således meget væsentligt påvirket af kalorieindtag, mængden af ​​systematisk fysisk aktivitet, arvelighed osv. Når det er nødvendigt ved vurdering af sammenhængen mellem 2 faktorer tage højde for den betydelige påvirkning andre faktorer og samtidig så at sige isolere dig fra dem, betragter dem som uændrede, Beregn privat (Ellers - delvis ) korrelationskoefficienter.

Eksempel: vi skal evaluere parrede afhængigheder mellem 3 signifikant aktive faktorer X, Y og Z. Lad os betegne r XY (Z) partiel korrelationskoefficient mellem faktorerne X og Y (i dette tilfælde betragtes værdien af ​​faktor Z som uændret), r ZX (Y) - partiel korrelationskoefficient mellem faktorer Z og X (med en konstant værdi af faktor Y), r YZ (X) - partiel korrelationskoefficient mellem faktorer Y og Z (med en konstant værdi af faktor X). Brug af de beregnede simple parrede (Bravais-Pearson) korrelationskoefficienter r XY, r XZ og r YZ, m

Du kan beregne partielle korrelationskoefficienter ved hjælp af formlerne:

r XY – r XZ´ r YZ r XZ – r XY´ r ZY r ZY –r ZX ´ r YZ

r XY(Z) =; r XZ(Y) =; r ZY(X) =

Ö(1– r 2 XZ)(1– r 2 YZ) Ö(1– r 2 XY)(1– r 2 ZY) Ö(1– r 2 ZX)(1– r 2 YX)

Og partielle korrelationskoefficienter kan tage værdier fra -1 til +1. Ved at kvadrere dem får vi de tilsvarende kvotienter bestemmelseskoefficienter , også kaldet private sikkerhedsforanstaltninger(gang med 100 og udtryk det som %%). Partielle korrelationskoefficienter adskiller sig mere eller mindre fra simple (fulde) parkoefficienter, som afhænger af styrken af ​​indflydelsen af ​​den 3. faktor (som uændret) på dem. Nulhypotesen (H 0), det vil sige hypotesen om fravær af en sammenhæng (afhængighed) mellem faktor X og Y, testes (med et samlet antal tegn k) ved at beregne t-testen ved hjælp af formlen: t P = r XY (Z) ´ ( n-k) 1 ½ 2´ (1– r 2 XY (Z)) –1 ½ 2 .

Hvis t R< t a n , hypotesen accepteres (vi antager, at der ikke er nogen afhængighed), men hvis t R3 t a n - hypotesen tilbagevises, det vil sige, at man mener, at afhængigheden virkelig finder sted. t et n er taget fra tabellen t-Elevprøve, og k- antallet af faktorer, der tages i betragtning (i vores eksempel 3), antallet af frihedsgrader n= n – 3. Andre partielle korrelationskoefficienter kontrolleres tilsvarende (i formlen i stedet for r XY (Z) erstattes tilsvarende r XZ(Y) eller r ZY(X)).

Tabel 7.5

Indledende data

Ö (1 – 0,71 2)(1 – 0,71 2) Ö (1 – 0,5)(1 – 0,5)

For at vurdere afhængigheden af ​​faktor X på den kombinerede virkning af flere faktorer (her faktorer Y og Z), skal du beregne værdierne af simple parkorrelationskoefficienter og ved hjælp af dem beregne multiple korrelationskoefficient r X (YZ):

Ö r 2XY+ r 2 XZ – 2 r XY´ r XZ´ r YZ

r X(YZ) = .

Ö 1 – r 2 YZ

7.2.7. Associationskoefficient. Det er ofte nødvendigt at kvantificere sammenhængen mellem kvalitet tegn, dvs. sådanne egenskaber, der ikke kan repræsenteres (karakteriseres) kvantitativt, hvilket umådelig. Opgaven er fx at finde ud af, om der er en sammenhæng mellem de involveredes idrætsspecialisering og personlige egenskaber som introversion (personlighedens fokus på fænomenerne i deres egen subjektive verden) og udadvendthed (personlighedens fokus på verden af eksterne genstande). Vi præsenterer symbolerne i tabellen. 7.6.

Tabel 7.6.

X (år) Y (gange) Z (gange) X (år) Y (gange) Z (gange)
Tegn 1 Tegn 2 Indadvendthed Udadvendthed
Sportsspil EN b
Gymnastik Med d

Det er klart, at de tal, vi har til rådighed her, kun kan være distributionsfrekvenser. Beregn i dette tilfælde associationskoefficient (andet navn" beredskabskoefficient "). Lad os overveje det enkleste tilfælde: et forhold mellem to par funktioner og den beregnede kontingenskoefficient kaldes tetrakorisk (se tabel).

Tabel 7.7.

a =20 b = 15 -en + b = 35
s = 15 d=5 c + d = 20
-en + c = 35 b + d = 20 n = 55

Vi laver beregninger ved hjælp af formlen:

ad – bc 100 – 225 –123

Beregningen af ​​associationskoefficienter (konjugationskoefficienter) med et større antal karakteristika involverer beregninger ved hjælp af en lignende matrix af passende rækkefølge.

Hvor x·y, x, y er gennemsnitsværdierne af prøverne; σ(x), σ(y) - standardafvigelser.
Udover, Pearson lineære par korrelationskoefficient kan bestemmes gennem regressionskoefficienten b: , hvor σ(x)=S(x), σ(y)=S(y) - standardafvigelser, b - koefficient før x i regressionsligningen y=a+bx.

Andre formelmuligheder:
eller

K xy - korrelationsmoment (kovarianskoefficient)

For at finde den lineære Pearson-korrelationskoefficient er det nødvendigt at finde stikprøvemidlerne x og y, og deres standardafvigelser σ x = S(x), σ y = S(y):

Den lineære korrelationskoefficient indikerer tilstedeværelsen af ​​et forhold og tager værdier fra -1 til +1 (se Chaddock-skalaen). For eksempel, når man analyserer nærheden af ​​den lineære korrelation mellem to variable, blev en parret lineær korrelationskoefficient lig med -1 opnået. Det betyder, at der er en nøjagtig omvendt lineær sammenhæng mellem variablerne.

Du kan beregne værdien af ​​korrelationskoefficienten ved hjælp af de givne stikprøvegennemsnit eller direkte.

Xy#x #y #σ x #σ y " data-id="a;b;c;d;e" data-formul="(a-b*c)/(d*e)" data-r="r xy ">Beregn din værdi

Geometrisk betydning af korrelationskoefficienten: r xy viser, hvor forskellig hældningen af ​​to regressionslinjer: y(x) og x(y) er, og hvor meget resultaterne af minimering af afvigelser i x og y er forskellige. Jo større vinkel mellem linjerne, jo større er r xy.
Korrelationskoefficientens fortegn falder sammen med fortegnet for regressionskoefficienten og bestemmer regressionslinjens hældning, dvs. generel retning af afhængighed (stigende eller faldende). Den absolutte værdi af korrelationskoefficienten bestemmes af graden af ​​nærhed af punkterne til regressionslinjen.

Korrelationskoefficientens egenskaber

  1. |r xy | ≤ 1;
  2. hvis X og Y er uafhængige, så er r xy =0, det omvendte er ikke altid sandt;
  3. hvis |rxy |=1, så Y=aX+b, |rxy (X,aX+b)|=1, hvor a og b er konstanter, a ≠ 0;
  4. |r xy (X,Y)|=|r xy (a 1 X+b 1, a 2 X+b 2)|, hvor a 1, a 2, b 1, b 2 er konstanter.

Derfor for kontrol af kommunikationsretningen en hypotesetest vælges ved hjælp af Pearson-korrelationskoefficienten med yderligere reliabilitetstest vha t-test(se eksempel nedenfor).

Typiske opgaver (se også ikke-lineær regression)

Typiske opgaver
Arbejdsproduktivitetens y afhængighed af arbejdets mekaniseringsniveau x (%) er undersøgt i henhold til data fra 14 industrivirksomheder. Statistiske data er vist i tabellen.
Påkrævet:
1) Find estimater af de lineære regressionsparametre y på x. Konstruer et scatterplot og plot regressionslinjen på scatterplotten.
2) På signifikansniveauet α=0,05 testes hypotesen om lineær regressions overensstemmelse med observationsresultaterne.
3) Med reliabilitet γ=0,95, find konfidensintervaller for lineære regressionsparametre.

Følgende bruges også med denne lommeregner:
Multipel regressionsligning

Eksempel. Baseret på dataene givet i bilag 1 og svarende til din mulighed (tabel 2), er følgende påkrævet:

  1. Beregn den lineære parkorrelationskoefficient og konstruer en ligning for lineær parregression af en karakteristik fra en anden. En af egenskaberne, der svarer til din mulighed, vil spille rollen som en faktor (x), den anden vil spille rollen som en resultant (y). Etabler selv årsag-virkningsforhold mellem karakteristika baseret på økonomisk analyse. Forklar betydningen af ​​parametrene i ligningen.
  2. Bestem den teoretiske bestemmelseskoefficient og residual (uforklaret af regressionsligningen) varians. Træk en konklusion.
  3. Vurder den statistiske signifikans af regressionsligningen som helhed på fem procent niveau ved hjælp af Fishers F test. Træk en konklusion.
  4. Lav en prognose for den forventede værdi af resultategenskaben y, hvor den forudsagte værdi af faktoregenskaben x er 105 % af det gennemsnitlige niveau x. Vurder nøjagtigheden af ​​prognosen ved at beregne prognosefejlen og dens konfidensinterval med en sandsynlighed på 0,95.
Løsning. Ligningen er y = ax + b
Gennemsnitlige værdier



Spredning


Standardafvigelse



Forbindelsen mellem egenskab Y og faktor X er stærk og direkte (bestemt af Chaddock-skalaen).
Regressionsligning

Regressionskoefficient: k = a = 4,01
Bestemmelseskoefficient
R2 = 0,992 = 0,97, dvs. i 97 % af tilfældene fører ændringer i x til ændringer i y. Med andre ord er nøjagtigheden af ​​at vælge regressionsligningen høj. Restafvigelse: 3%.
xyx 2y 2x yy(x)(y i -y) 2(y-y(x)) 2(x-x p) 2
1 107 1 11449 107 103.19 333.06 14.5 30.25
2 109 4 11881 218 107.2 264.06 3.23 20.25
3 110 9 12100 330 111.21 232.56 1.47 12.25
4 113 16 12769 452 115.22 150.06 4.95 6.25
5 120 25 14400 600 119.23 27.56 0.59 2.25
6 122 36 14884 732 123.24 10.56 1.55 0.25
7 123 49 15129 861 127.26 5.06 18.11 0.25
8 128 64 16384 1024 131.27 7.56 10.67 2.25
9 136 81 18496 1224 135.28 115.56 0.52 6.25
10 140 100 19600 1400 139.29 217.56 0.51 12.25
11 145 121 21025 1595 143.3 390.06 2.9 20.25
12 150 144 22500 1800 147.31 612.56 7.25 30.25
78 1503 650 190617 10343 1503 2366.25 66.23 143

Bemærk: Værdierne af y(x) findes fra den resulterende regressionsligning:
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

Korrelationskoefficientens betydning

Vi fremsætter hypoteser:
H 0: r xy = 0, der er ingen lineær sammenhæng mellem variablerne;
H 1: r xy ≠ 0, der er en lineær sammenhæng mellem variablerne;
For at teste nulhypotesen på signifikansniveauet α, at den generelle korrelationskoefficient for en normal todimensional stokastisk variabel er lig med nul under den konkurrerende hypotese H 1 ≠ 0, er det nødvendigt at beregne den observerede værdi af kriteriet ( tilfældig fejlværdi):

Ved at bruge Elevens tabel finder vi t-tabellen (n-m-1;α/2) = (10;0,025) = 2,228
Da Tob > t tab, afviser vi hypotesen om, at korrelationskoefficienten er lig med 0. Med andre ord er korrelationskoefficienten statistisk signifikant.
Intervalestimat for korrelationskoefficienten (konfidensinterval)


r - Δ r ≤ r ≤ r + Δ r
Δ r = ±t tabel m r = ±2,228 0,0529 = 0,118
0,986 - 0,118 ≤ r ≤ 0,986 + 0,118
Konfidensinterval for korrelationskoefficienten: 0,868 ≤ r ≤ 1

Analyse af nøjagtigheden af ​​bestemmelse af estimater af regressionskoefficienter





Sa = 0,2152

Konfidensintervaller for den afhængige variabel

Lad os beregne grænserne for intervallet, hvor 95% af de mulige værdier af Y vil være koncentreret med et ubegrænset antal observationer og X = 7
(122.4;132.11)
Test af hypoteser vedrørende koefficienterne for en lineær regressionsligning

1) t-statistik




Den statistiske signifikans af regressionskoefficienten bekræftes
Konfidensinterval for
Lad os bestemme konfidensintervallerne for regressionskoefficienterne, som med en pålidelighed på 95% vil være som følger:
(a - t a S a ; a + t a S a)
(3.6205;4.4005)
(b - t b S b ; b + t b S b)
(96.3117;102.0519)


Korrelationskoefficienter

Indtil nu har vi kun klarlagt det faktum, at der eksisterer en statistisk sammenhæng mellem to karakteristika. Dernæst vil vi forsøge at finde ud af, hvilke konklusioner der kan drages om styrken eller svagheden af ​​denne afhængighed, såvel som om dens type og retning. Kriterier for at kvantificere forholdet mellem variabler kaldes korrelationskoefficienter eller mål for tilslutning. To variable er positivt korrelerede, hvis der er en direkte, ensrettet sammenhæng mellem dem. I et ensrettet forhold svarer små værdier af en variabel til små værdier af en anden variabel, og store værdier svarer til store værdier. To variable korrelerer negativt med hinanden, hvis der er en omvendt, multidirektionel sammenhæng mellem dem. Med et multidirektional forhold svarer små værdier af en variabel til store værdier af en anden variabel og omvendt. Værdierne af korrelationskoefficienter ligger altid i området fra -1 til +1.

Som en korrelationskoefficient mellem variabler tilhørende ordinal skalaen gælder Spearman koefficient, og for variabler tilhørende interval vægt - Pearson korrelationskoefficient(arbejdets øjeblik). Det skal tages i betragtning, at hver dikotom variabel, det vil sige en variabel, der tilhører en nominel skala og har to kategorier, kan betragtes som ordinal.

Først vil vi kontrollere, om der er en sammenhæng mellem køns- og psykevariablerne fra studium.sav-filen. I dette tilfælde den dikotomiske variabel køn kan betragtes som ordinær. Følg disse trin:

    Vælg Analyser beskrivende statistiske krydstabeller... fra kommandomenuen

    Flyt variablen køn til en liste over strenge og en variabel psyke- til listen over kolonner.

    Klik på knappen Statistikker... (Statistikker). I dialogboksen Krydstabler: Statistik skal du markere afkrydsningsfeltet Korrelationer. Bekræft dit valg med knappen Fortsæt.

    I dialog Krydstabeller nægte at vise tabeller ved at markere afkrydsningsfeltet Undertryk tabeller. Klik på OK.

Spearman og Pearson korrelationskoefficienter vil blive beregnet og deres signifikans testet:

Symmetriske mål

Værdi Asymptomatisk Std. Fejl (a) (Asymptotisk standardfejl) Ca. T (b) (ca. T) Ca. Sig. (Omtrentlig betydning)
Interval for Interval Pearsons R
(R Pearson)
,441 ,081 5,006 .000 (s)
Ordinal efter Ordinal (Ordinal - Ordinal) Spearman Korrelation ,439 ,083 4,987 .000 (s)
N af gyldige sager 106

Da der ikke er nogen intervalskalavariable her, vil vi se på Spearman-korrelationskoefficienten. Den er 0,439 og er maksimal signifikant (s<0,001).

Til en verbal beskrivelse af korrelationskoefficientværdierne anvendes følgende tabel:

Ud fra ovenstående tabel kan vi drage følgende konklusioner: Der er en svag sammenhæng mellem køns- og psykevariablerne (konklusion om afhængighedens styrke), variablerne korrelerer positivt (konklusion om afhængighedens retning).

I psykevariablen svarer mindre værdier til en negativ mental tilstand, og større værdier svarer til en positiv. I kønsvariablen svarer værdien "1" til det kvindelige køn og "2" til det mandlige køn.

Følgelig kan forholdets ensrettede karakter fortolkes som følger: kvindelige studerende vurderer deres mentale tilstand mere negativt end deres mandlige kolleger eller er højst sandsynligt mere tilbøjelige til at gå med til en sådan vurdering, når de udfører en undersøgelse. Når de konstruerer sådanne fortolkninger, er nødvendigt at tage i betragtning, at en korrelation mellem to træk ikke nødvendigvis er lig med deres funktionelle eller kausale afhængighed. Se afsnit 15.3 for mere om dette.

Lad os nu tjekke sammenhængen mellem alter- og semestervariablerne. Lad os anvende metoden beskrevet ovenfor. Vi får følgende koefficienter:

Symmetriske mål

Asymptomatisk Std. Fejl(a)

Interval for Interval

Ordinal for Ordinal

Spearman Korrelation

N af gyldige sager

en. Uden at antage nulhypotesen.

e. Brug af den asymptotiske standardfejl under antagelse af nulhypotesen.

Med. Baseret på normal tilnærmelse.

Da variablerne alter og semester er metriske, vil vi overveje Pearson-koefficienten (produktmoment). Det er 0,807. Der er en stærk sammenhæng mellem alter- og semestervariablerne. Variablerne er positivt korrelerede. Derfor studerer ældre studerende i seniorår, hvilket faktisk ikke er en uventet konklusion.

Lad os tjekke variablerne sozial (vurdering af social status) og psyke for korrelation. Vi får følgende koefficienter:

Symmetriske mål

Asymptomatisk Std. Fejl(a)

Interval for Interval

Ordinal for Ordinal

Spearman Korrelation

N af gyldige sager

en. Uden at antage nulhypotesen.

b. Brug af den asymptotiske standardfejl under antagelse af nulhypotesen.

Med. Baseret på normal tilnærmelse.

I dette tilfælde vil vi se på Spearman-korrelationskoefficienten; det er -0,703. Der er en middel til stærk korrelation mellem de soziale og psyke variable (cutoff-værdi 0,7). Variablerne korrelerer negativt, det vil sige, jo højere værdien af ​​den første variabel er, jo lavere er værdien af ​​den anden og omvendt. Da små værdier af den soziale variabel karakteriserer en positiv tilstand (1 = meget god, 2 = god), og store psykeværdier karakteriserer en negativ tilstand (1 = ekstremt ustabil, 2 = ustabil), er det derfor psykiske vanskeligheder. skyldes i høj grad sociale problemer.

Korrelationskoefficient er en værdi, der kan variere fra +1 til –1. I tilfælde af en fuldstændig positiv korrelation er denne koefficient lig med plus 1 (de siger, at når værdien af ​​en variabel stiger, stiger værdien af ​​en anden variabel), og i tilfælde af en fuldstændig negativ korrelation er den minus 1 (angiver feedback, dvs. når værdierne af en variabel stiger, falder værdierne af den anden).

Eks.1:

Graf over forholdet mellem generthed og depression. Som du kan se, er punkterne (emnerne) ikke placeret kaotisk, men opstilles omkring en linje, og ser vi på denne linje, kan vi sige, at jo højere en persons generthed er, jo større er depressionen, dvs. disse fænomener er indbyrdes forbundne.

Ex2: Diagram for generthed og selskabelighed. Vi ser, at efterhånden som genertheden øges, falder selskabeligheden. Deres korrelationskoefficient er -0,43. En korrelationskoefficient større end 0 til 1 indikerer således en direkte proportional sammenhæng (jo mere... jo mere...), og en koefficient fra -1 til 0 indikerer en omvendt proportional sammenhæng (jo mere... jo mindre. ..)

Hvis korrelationskoefficienten er 0, er begge variabler fuldstændig uafhængige af hinanden.

Korrelation- dette er et forhold, hvor virkningen af ​​individuelle faktorer kun vises som en tendens (i gennemsnit) under masseobservation af faktiske data. Eksempler på korrelationsafhængigheder kan være afhængighederne mellem størrelsen af ​​bankens aktiver og størrelsen af ​​bankens overskud, væksten i arbejdsproduktiviteten og medarbejdernes anciennitet.

To systemer bruges til at klassificere korrelationer efter deres styrke: generelle og specifikke.

Generel klassificering af korrelationer: 1) stærk eller tæt med en korrelationskoefficient r>0,70; 2) gennemsnit med 0,500,70 og ikke kun en korrelation med et højt signifikansniveau.

Følgende tabel viser navnene på korrelationskoefficienterne for forskellige typer skalaer.

Dikotom skala (1/0) Rang (ordinær) skala
Dikotom skala (1/0) Pearsons associationskoefficient, Pearsons fire-cellede kontingenskoefficient. Biseriel korrelation
Rang (ordinær) skala Rang-biseriel korrelation. Spearman eller Kendall rang korrelationskoefficient.
Interval og absolut skala Biseriel korrelation Værdierne af intervalskalaen konverteres til rækker, og rangkoefficienten bruges Pearson korrelationskoefficient (lineær korrelationskoefficient)

r=0 Der er ingen lineær sammenhæng. I dette tilfælde falder gruppemiddelværdierne for variablerne sammen med deres overordnede middelværdier, og regressionslinjerne er parallelle med koordinatakserne.

Lighed r=0 taler kun om fraværet af en lineær korrelationsafhængighed (ukorrelerede variabler), men ikke generelt om fraværet af en korrelation, og endnu mere en statistisk afhængighed.

Nogle gange er en konstatering af ingen korrelation vigtigere end tilstedeværelsen af ​​en stærk korrelation. En nulkorrelation mellem to variable kan indikere, at der ikke er nogen indflydelse af den ene variabel på den anden, forudsat at vi stoler på måleresultaterne.

I SPSS: 11.3.2 Korrelationskoefficienter

Indtil nu har vi kun klarlagt det faktum, at der eksisterer en statistisk sammenhæng mellem to karakteristika. Dernæst vil vi forsøge at finde ud af, hvilke konklusioner der kan drages om styrken eller svagheden af ​​denne afhængighed, såvel som om dens type og retning. Kriterier for at kvantificere forholdet mellem variabler kaldes korrelationskoefficienter eller mål for tilslutning. To variable er positivt korrelerede, hvis der er en direkte, ensrettet sammenhæng mellem dem. I et ensrettet forhold svarer små værdier af en variabel til små værdier af en anden variabel, og store værdier svarer til store værdier. To variable korrelerer negativt med hinanden, hvis der er en omvendt, multidirektionel sammenhæng mellem dem. Med et multidirektional forhold svarer små værdier af en variabel til store værdier af en anden variabel og omvendt. Værdierne af korrelationskoefficienter ligger altid i området fra -1 til +1.

Spearman-koefficienten bruges som en korrelationskoefficient mellem variabler, der tilhører en ordinalskala, og Pearson-korrelationskoefficienten (moment of products) bruges til variabler, der tilhører en intervalskala. Det skal tages i betragtning, at hver dikotom variabel, det vil sige en variabel, der tilhører en nominel skala og har to kategorier, kan betragtes som ordinal.

Først vil vi kontrollere, om der er en sammenhæng mellem køns- og psykevariablerne fra studium.sav-filen. Samtidig vil vi tage højde for, at den dikotomiske variabel køn kan betragtes som ordinal. Følg disse trin:

· Vælg fra kommandomenuen Analyser beskrivende statistik krydstabeller...

· Flyt variablen køn til listen over rækker og variablen psyke til listen over kolonner.

· Klik på knappen Statistik.... I dialogboksen Krydstabler: Statistik skal du markere afkrydsningsfeltet Korrelationer. Bekræft dit valg med knappen Fortsæt.

· I dialogboksen Krydstabler skal du deaktivere visningen af ​​tabeller ved at markere afkrydsningsfeltet Undertryk tabeller. Klik på OK.

Spearman og Pearson korrelationskoefficienter vil blive beregnet og deres signifikans testet:

/ SPSS 10

Opgave nr. 10 Korrelationsanalyse

Begrebet korrelation

Korrelation eller korrelationskoefficient er en statistisk indikator probabilistisk sammenhænge mellem to variable målt på kvantitative skalaer. I modsætning til et funktionelt forhold, hvor hver værdi af en variabel svarer strengt defineret værdien af ​​en anden variabel, probabilistisk sammenhæng kendetegnet ved, at hver værdi af en variabel svarer flere betydninger en anden variabel Et eksempel på et sandsynlighedsforhold er forholdet mellem personers højde og vægt. Det er klart, at mennesker med forskellig vægt kan have samme højde og omvendt.

Korrelation er en værdi, der går fra -1 til + 1 og er angivet med bogstavet r. Desuden, hvis værdien er tættere på 1, betyder det tilstedeværelsen af ​​en stærk forbindelse, og hvis den er tættere på 0, så er den svag. En korrelationsværdi på mindre end 0,2 betragtes som en svag korrelation, og en værdi større end 0,5 betragtes som en høj korrelation. Hvis korrelationskoefficienten er negativ, betyder det, at der er feedback: Jo højere værdien af ​​den ene variabel er, jo lavere værdien af ​​den anden.

Afhængigt af de accepterede værdier af koefficienten r kan der skelnes mellem forskellige typer korrelation:

Streng positiv korrelation bestemt af værdien r=1. Udtrykket "streng" betyder, at værdien af ​​en variabel er unikt bestemt af værdierne af en anden variabel, og udtrykket " positiv" - at når værdierne af en variabel stiger, stiger værdierne af en anden variabel også.

Streng korrelation er en matematisk abstraktion og forekommer praktisk talt aldrig i virkelig forskning.

Positiv sammenhæng svarer til værdier 0

Ingen sammenhæng bestemt af værdien r=0. En nulkorrelationskoefficient indikerer, at værdierne af variablerne på ingen måde er relateret til hinanden.

Ingen sammenhæng H o : 0 r xy =0 formuleret som en refleksion nul hypoteser i korrelationsanalyse.

Negativ sammenhæng: -1

Streng negativ korrelation bestemt af værdien r= -1. Det er ligesom en streng positiv sammenhæng en abstraktion og kommer ikke til udtryk i praktisk forskning.

tabel 1

Typer af korrelation og deres definitioner

Metoden til beregning af korrelationskoefficienten afhænger af den type skala, hvorpå de variable værdier måles.

Korrelationskoefficient rPearson er grundlæggende og kan bruges til variable med nominelle og delvist ordnede intervalskalaer, hvor fordelingen af ​​værdier svarer til normalen (produktmomentkorrelation). Pearson-korrelationskoefficienten giver også ret nøjagtige resultater i tilfælde af unormale fordelinger.

For fordelinger, der ikke er normale, er det at foretrække at bruge Spearman og Kendall rangkorrelationskoefficienter. De er rangeret, fordi programmet forudrangerer de korrelerede variable.

SPSS-programmet beregner Spearmans korrelation som følger: først konverteres variablerne til rækker, og derefter anvendes Pearsons formel på rækkerne.

Grundlaget for korrelationen foreslået af M. Kendall er ideen om, at retningen af ​​forbindelsen kan bedømmes ved at sammenligne forsøgspersoner i par. Hvis ændringen i X for et par emner falder sammen i retning med ændringen i Y, så indikerer dette en positiv sammenhæng. Hvis det ikke passer, så er der en negativ forbindelse. Denne koefficient bruges primært af psykologer, der arbejder med små prøver. Da sociologer arbejder med store mængder data, er det vanskeligt at optælle par og identificere forskellen i relative frekvenser og inversioner af alle par af forsøgspersoner i prøven. Den mest almindelige er koefficienten. Pearson.

Da Pearson-korrelationskoefficienten r er grundlæggende og kan bruges (med en vis fejl afhængig af skalatypen og niveauet af abnormitet i fordelingen) for alle variable målt på kvantitative skalaer, vil vi overveje eksempler på dens anvendelse og sammenligne resultaterne opnået med resultaterne af målinger ved brug af andre korrelationskoefficienter.

Formel til beregning af koefficienten r- Pearson:

r xy = ∑ (Xi-Xavg)∙(Yi-Yavg) / (N-1)∙σ x ∙σ y ∙

Hvor: Xi, Yi - Værdier af to variable;

Xavg, Yavg - gennemsnitlige værdier af to variable;

σ x, σ y – standardafvigelser,

N er antallet af observationer.

Parvise korrelationer

For eksempel vil vi gerne finde ud af, hvordan svarene hænger sammen mellem forskellige typer af traditionelle værdier i elevernes ideer om et ideelt sted at arbejde (variabler: a9.1, a9.3, a9.5, a9.7) , og så om sammenhængen mellem liberale værdier (a9 .2, a9.4, a9.6, a9.8) . Disse variabler måles på 5-elements ordnede skalaer.

Vi bruger proceduren: "Analyse",  "Korrelationer",  "Parret". Standardkoefficient Pearson er indstillet i dialogboksen. Vi bruger koefficienten. Pearson

De testede variable overføres til valgvinduet: a9.1, a9.3, a9.5, a9.7

Ved at klikke OK får vi udregningen:

Korrelationer

a9.1.t. Hvor vigtigt er det at have tid nok til familie og privatliv?

Pearson korrelation

Værdi (2 sider)

a9.3.t. Hvor vigtigt er det ikke at være bange for at miste sit job?

Pearson korrelation

Værdi (2 sider)

a9.5.t. Hvor vigtigt er det at have en chef, der vil rådføre sig med dig, når du træffer denne eller hin beslutning?

Pearson korrelation

Værdi (2 sider)

a9.7.t. Hvor vigtigt er det at arbejde i et velkoordineret team og føle sig som en del af det?

Pearson korrelation

Værdi (2 sider)

** Korrelation er signifikant på 0,01-niveauet (2-sidet).

Tabel over kvantitative værdier af den konstruerede korrelationsmatrix

Delvise sammenhænge:

Lad os først bygge en parvis korrelation mellem disse to variable:

Korrelationer

s8. Føl dig tæt på dem, der bor ved siden af ​​jer, naboer

Pearson korrelation

Værdi (2 sider)

s12. Føler sig tæt på deres familie

Pearson korrelation

Værdi (2 sider)

**. Korrelationen er signifikant på 0,01-niveauet (2-sidet).

Derefter bruger vi proceduren til at konstruere en partiel korrelation: "Analyse",  "Korrelationer",  "Delvis".

Lad os antage, at værdien "Det er vigtigt selvstændigt at bestemme og ændre rækkefølgen af ​​dit arbejde" i forhold til de specificerede variabler viser sig at være den afgørende faktor, hvorunder det tidligere identificerede forhold vil forsvinde eller vise sig at være ubetydelig.

Korrelationer

Ekskluderede variabler

s8. Føl dig tæt på dem, der bor ved siden af ​​jer, naboer

s12. Føler sig tæt på deres familie

s16. Føl dig tæt på mennesker, der har samme indkomst som dig

s8. Føl dig tæt på dem, der bor ved siden af ​​jer, naboer

Korrelation

Betydning (2-sidet)

s12. Føler sig tæt på deres familie

Korrelation

Betydning (2-sidet)

Som det kan ses af tabellen, faldt forholdet under påvirkning af kontrolvariablen en smule: fra 0,120 til 0,102. Dette lille fald tillader os dog ikke at fastslå, at det tidligere identificerede forhold er en afspejling af en falsk korrelation. fordi den forbliver ret høj og giver os mulighed for at forkaste nulhypotesen med nul fejl.

Korrelationskoefficient

Den mest nøjagtige måde at bestemme nærhed og karakter af korrelationen er at finde korrelationskoefficienten. Korrelationskoefficienten er et tal bestemt af formlen:


hvor r xy er korrelationskoefficienten;

x i - værdier af den første karakteristik;

y i er værdierne af den anden attribut;

Aritmetisk middelværdi af værdierne af den første karakteristik

Aritmetisk middelværdi af værdierne af den anden karakteristik

For at bruge formel (32), vil vi bygge en tabel, der vil give den nødvendige konsistens i forberedelsen af ​​tal for at finde tælleren og nævneren af ​​korrelationskoefficienten.

Som det kan ses af formel (32), er rækkefølgen af ​​handlinger som følger: vi finder de aritmetiske gennemsnit af både karakteristika x og y, vi finder forskellen mellem værdierne af attributten og dens gennemsnit (x i - ) og y i - ), så finder vi deres produkt (x i - ) ( y i - ) – summen af ​​sidstnævnte giver tælleren for korrelationskoefficienten. For at finde dens nævner skal forskellene (x i - ) og (y i - ) kvadreres, deres summer skal findes, og kvadratroden af ​​deres produkt skal tages.

Så for eksempel 31, at finde korrelationskoefficienten i overensstemmelse med formel (32) kan repræsenteres som følger (tabel 50).

Det resulterende nummer af korrelationskoefficienten gør det muligt at fastslå tilstedeværelsen, nærheden og arten af ​​forbindelsen.

1. Hvis korrelationskoefficienten er nul, er der ingen sammenhæng mellem egenskaberne.

2. Hvis korrelationskoefficienten er lig med én, er sammenhængen mellem karakteristikaene så stor, at den bliver til en funktionel.

3. Den absolutte værdi af korrelationskoefficienten går ikke ud over intervallet fra nul til en:

Dette gør det muligt at fokusere på forbindelsens nærhed: Jo tættere koefficienten er på nul, jo svagere forbindelse, og jo tættere på enhed, jo tættere er forbindelsen.

4. Korrelationskoefficientens "plus"-tegnet betyder direkte korrelation, "minus"-tegnet betyder invers korrelation.

Bord 50

x i y i (x i - ) (у i - ) (x i - )(y i - ) (x i - )2 (у i - )2
14,00 12,10 -1,70 -2,30 +3,91 2,89 5,29
14,20 13,80 -1,50 -0,60 +0,90 2,25 0,36
14,90 14,20 -0,80 -0,20 +0,16 0,64 0,04
15,40 13,00 -0,30 -1,40 +0,42 0,09 1,96
16,00 14,60 +0,30 +0,20 +0,06 0,09 0,04
17,20 15,90 +1,50 +2,25 2,25
18,10 17,40 +2,40 +2,00 +4,80 5,76 4,00
109,80 101,00 12,50 13,97 13,94


Korrelationskoefficienten beregnet i eksempel 31 er således r xy = +0,9. giver os mulighed for at drage følgende konklusioner: der er en sammenhæng mellem størrelsen af ​​muskelstyrken af ​​højre og venstre hånd hos de undersøgte skolebørn (koefficient r xy =+0,9 er forskellig fra nul), forholdet er meget tæt (koefficient r xy =+0,9 er tæt på én) , korrelationen er direkte (koefficient r xy = +0,9 er positiv), dvs. med en stigning i muskelstyrken på en af ​​hænderne, øges styrken af ​​den anden hånd.

Når man beregner korrelationskoefficienten og bruger dens egenskaber, skal det tages i betragtning, at konklusionerne giver korrekte resultater, når egenskaberne er normalfordelte, og når forholdet mellem et stort antal værdier af begge karakteristika overvejes.

I det betragtede eksempel 31 blev kun 7 værdier af begge egenskaber analyseret, hvilket naturligvis ikke er nok til sådanne undersøgelser. Vi minder dig her endnu en gang om, at eksemplerne i denne bog generelt og i dette kapitel i særdeleshed har karakter af at illustrere metoder, og ikke en detaljeret præsentation af eventuelle videnskabelige eksperimenter. Som et resultat blev et lille antal funktionsværdier overvejet, målinger blev afrundet - alt dette blev gjort, så besværlige beregninger ikke slørede ideen om metoden.

Der bør lægges særlig vægt på essensen af ​​det forhold, der overvejes. Korrelationskoefficienten kan ikke føre til korrekte forskningsresultater, hvis sammenhængen mellem karakteristika analyseres formelt. Lad os vende tilbage til eksempel 31. Begge betragtede tegn var værdierne for muskelstyrke i højre og venstre hånd. Lad os forestille os, at vi ved fortegn x i i eksempel 31 (14,0; 14,2; 14,9... ...18,1) mener længden af ​​tilfældigt fangede fisk i centimeter, og med fortegn y i (12,1 ; 13,8; 14,2... ... 17.4) - vægten af ​​instrumenterne i laboratoriet i kilogram. Efter formelt at have brugt beregningsapparatet til at finde korrelationskoefficienten og i dette tilfælde også opnået r xy =+0>9, måtte vi konkludere, at der er en tæt direkte sammenhæng mellem fiskens længde og vægten af ​​instrumenterne. Meningsløsheden af ​​en sådan konklusion er indlysende.

For at undgå en formel tilgang til at bruge korrelationskoefficienten, bør man bruge enhver anden metode - matematisk, logisk, eksperimentel, teoretisk - til at identificere muligheden for eksistensen af ​​en korrelation mellem karakteristika, det vil sige at opdage den organiske enhed af karakteristika. Først herefter kan man begynde at bruge korrelationsanalyse og fastslå sammenhængens størrelse og karakter.

I matematisk statistik er der også begrebet multipel korrelation- forhold mellem tre eller flere karakteristika. I disse tilfælde anvendes en multipel korrelationskoefficient, bestående af de parrede korrelationskoefficienter beskrevet ovenfor.

For eksempel er korrelationskoefficienten for tre karakteristika - x i, y i, z i -:

hvor R xyz er den multiple korrelationskoefficient, der udtrykker, hvordan træk x i afhænger af træk y i og z i;

r xy - korrelationskoefficient mellem karakteristika xi og yi;

r xz - korrelationskoefficient mellem karakteristika Xi og Zi;

r yz - korrelationskoefficient mellem træk y i, z i

Korrelationsanalyse er:

Korrelationsanalyse

Korrelation- statistisk sammenhæng mellem to eller flere tilfældige variable (eller variabler, der kan betragtes som sådanne med en acceptabel grad af nøjagtighed). Desuden fører ændringer i en eller flere af disse mængder til en systematisk ændring af en anden eller andre mængder. Et matematisk mål for korrelationen mellem to stokastiske variable er korrelationskoefficienten.

Korrelationen kan være positiv og negativ (det er også muligt, at der ikke er nogen statistisk sammenhæng - f.eks. for uafhængige stokastiske variable). Negativ sammenhæng - korrelation, hvor en stigning i en variabel er forbundet med et fald i en anden variabel, og korrelationskoefficienten er negativ. Positiv sammenhæng - korrelation, hvor en stigning i en variabel er forbundet med en stigning i en anden variabel, og korrelationskoefficienten er positiv.

Autokorrelation - statistisk sammenhæng mellem stokastiske variable fra samme serie, men taget med et skift, for eksempel for en tilfældig proces - med et tidsskift.

Metoden til behandling af statistiske data, som består i at studere koefficienterne (korrelationen) mellem variabler, kaldes korrelationsanalyse.

Korrelationskoefficient

Korrelationskoefficient eller par korrelationskoefficient i sandsynlighedsteori og statistik er det en indikator for arten af ​​ændringen i to stokastiske variable. Korrelationskoefficienten er angivet med det latinske bogstav R og kan tage værdier mellem -1 og +1. Hvis den absolutte værdi er tættere på 1, betyder det tilstedeværelsen af ​​en stærk forbindelse (hvis korrelationskoefficienten er lig med en, taler vi om en funktionel forbindelse), og hvis den er tættere på 0, så er den svag.

Pearson korrelationskoefficient

For metriske størrelser bruges Pearson-korrelationskoefficienten, hvis nøjagtige formel blev introduceret af Francis Galton:

Lade x,Y- to stokastiske variable defineret på samme sandsynlighedsrum. Så er deres korrelationskoefficient givet ved formlen:

,

hvor cov angiver kovarians og D er varians eller tilsvarende,

,

hvor symbolet angiver den matematiske forventning.

For grafisk at repræsentere et sådant forhold kan man bruge et rektangulært koordinatsystem med akser, der svarer til begge variable. Hvert par værdier er markeret med et specifikt symbol. Denne graf kaldes et "scatterplot".

Metoden til beregning af korrelationskoefficienten afhænger af hvilken type skala, som variablerne tilhører. For at måle variabler med interval og kvantitative skalaer er det således nødvendigt at bruge Pearson-korrelationskoefficienten (produktmomentkorrelation). Hvis mindst en af ​​de to variable er på en ordinalskala eller ikke er normalfordelt, skal Spearmans rangkorrelation eller Kendals τ (tau) bruges. I det tilfælde, hvor en af ​​de to variable er dikotom, anvendes en punkt-biseriel korrelation, og hvis begge variable er dikotom: en firefeltskorrelation. Beregning af korrelationskoefficienten mellem to ikke-dikotome variable giver kun mening, når forholdet mellem dem er lineært (envejs).

Kendell korrelationskoefficient

Bruges til at måle gensidig uorden.

Spearman korrelationskoefficient

Korrelationskoefficientens egenskaber

  • Cauchy-Bunyakovsky ulighed:
hvis vi tager kovarians som skalarproduktet af to stokastiske variable, så vil normen for den stokastiske variabel være lig med , og konsekvensen af ​​Cauchy-Bunyakovsky uligheden vil være: . , Hvor . Desuden i dette tilfælde tegnene og k matche: .

Korrelationsanalyse

Korrelationsanalyse- metode til behandling af statistiske data, som består i at studere koefficienter ( sammenhænge) mellem variabler. I dette tilfælde sammenlignes korrelationskoefficienter mellem et par eller mange par af karakteristika for at etablere statistiske sammenhænge mellem dem.

Mål korrelationsanalyse- give nogle oplysninger om en variabel ved hjælp af en anden variabel. I de tilfælde, hvor det er muligt at opnå et mål, siges variablerne at være korrelere. I sin mest generelle form betyder accept af hypotesen om en korrelation, at en ændring i værdien af ​​variabel A vil ske samtidig med en proportional ændring i værdien af ​​B: hvis begge variable stiger, så sammenhængen er positiv hvis en variabel stiger og den anden falder, korrelationen er negativ.

Korrelation afspejler kun den lineære afhængighed af værdier, men afspejler ikke deres funktionelle forbindelse. For eksempel hvis man beregner korrelationskoefficienten mellem størrelserne EN = sjegn(x) Og B = cos(x), så vil den være tæt på nul, dvs. der er ingen afhængighed mellem mængderne. I mellemtiden er mængderne A og B åbenbart forbundet funktionelt ifølge loven sjegn 2(x) + cos 2(x) = 1.

Begrænsninger af korrelationsanalyse



Grafer over fordelinger af par (x,y) med de tilsvarende korrelationskoefficienter x og y for hver af dem. Bemærk, at korrelationskoefficienten afspejler en lineær sammenhæng (øverste linje), men ikke beskriver en sammenhængskurve (midterlinje), og slet ikke er egnet til at beskrive komplekse, ikke-lineære sammenhænge (nederste linje).
  1. Anvendelse er mulig, hvis der er et tilstrækkeligt antal tilfælde til undersøgelse: for en bestemt type varierer korrelationskoefficienten fra 25 til 100 par observationer.
  2. Den anden begrænsning følger af korrelationsanalysehypotesen, som bl.a lineær afhængighed af variable. I mange tilfælde, når det er pålideligt kendt, at der eksisterer en sammenhæng, giver korrelationsanalyse muligvis ikke resultater, blot fordi forholdet er ikke-lineært (udtrykt f.eks. som en parabel).
  3. Den blotte kendsgerning af korrelation giver ikke grundlag for at hævde, hvilken af ​​variablerne der går forud for eller forårsager ændringer, eller at variablerne generelt er kausalt relateret til hinanden, for eksempel på grund af en tredje faktors virkning.

Anvendelsesområde

Denne metode til behandling af statistiske data er meget populær i økonomi og samfundsvidenskab (især i psykologi og sociologi), selvom anvendelsesområdet for korrelationskoefficienter er omfattende: kvalitetskontrol af industrielle produkter, metallurgi, agrokemi, hydrobiologi, biometri og andre.

Metodens popularitet skyldes to faktorer: Korrelationskoefficienter er relativt lette at beregne, og deres anvendelse kræver ikke særlig matematisk træning. Kombineret med dens lette fortolkning har koefficientens lette anvendelse ført til dens udbredte brug inden for statistisk dataanalyse.

Falsk sammenhæng

Ofte tilskynder den fristende enkelhed af korrelationsforskning forskeren til at drage falske intuitive konklusioner om tilstedeværelsen af ​​en årsag-virkning-sammenhæng mellem par af karakteristika, mens korrelationskoefficienter kun etablerer statistiske sammenhænge.

Moderne kvantitativ samfundsvidenskabelig metodologi har faktisk opgivet forsøg på at etablere årsag-og-virkning-forhold mellem observerede variabler ved hjælp af empiriske metoder. Når forskere i samfundsvidenskaberne taler om at etablere sammenhænge mellem de variabler, der undersøges, antydes der derfor enten en generel teoretisk antagelse eller en statistisk afhængighed.

se også

  • Autokorrelationsfunktion
  • Krydskorrelationsfunktion
  • Kovarians
  • Bestemmelseskoefficient
  • Regressions analyse

Wikimedia Foundation. 2010.

Regressionsanalyse giver dig mulighed for at evaluere, hvordan en variabel afhænger af en anden, og hvad er spredningen af ​​værdier af den afhængige variabel omkring den lige linje, der definerer afhængigheden. Disse estimater og tilsvarende konfidensintervaller forudsiger værdien af ​​den afhængige variabel og bestemmer nøjagtigheden af ​​denne forudsigelse.

Resultaterne af regressionsanalyse kan kun præsenteres i en ret kompleks digital eller grafisk form. Vi er dog ofte ikke interesserede i at forudsige værdien af ​​en variabel baseret på værdien af ​​en anden, men blot i at karakterisere tætheden (styrken) af forbindelsen mellem dem, udtrykt i ét tal.

Denne karakteristik kaldes korrelationskoefficienten, normalt betegnet med bogstavet g. Korrelationskoefficienten kan

Kan tage værdier fra -1 til +1. Korrelationskoefficientens tegn viser retningen af ​​forbindelsen (direkte eller omvendt), og den absolutte værdi angiver forbindelsens nærhed. En koefficient lig med -1 definerer en forbindelse så stærk som en lig med 1. I mangel af en forbindelse er korrelationskoefficienten nul.

I fig. Figur 8.10 viser eksempler på afhængigheder og de tilsvarende værdier af r. Vi vil overveje to korrelationskoefficienter.

Pearson-korrelationskoefficienten er beregnet til at beskrive det lineære forhold mellem kvantitative egenskaber; som regressioner
onic analyse kræver det normalfordeling. Når folk blot taler om "korrelationskoefficienten", mener de næsten altid Pearson korrelationskoefficienten, hvilket er præcis, hvad vi vil gøre.

Spearmans rangkorrelationskoefficient kan bruges, når forholdet er ikke-lineært – og ikke kun for kvantitative, men også for ordinale karakteristika. Dette er en ikke-parametrisk metode og kræver ikke nogen særlig type distribution.

Vi har allerede talt om kvantitative, kvalitative og ordinale egenskaber i kapitel. 5. Kvantitative karakteristika er almindelige numeriske data, såsom højde, vægt, temperatur. Værdierne af en kvantitativ egenskab kan sammenlignes med hinanden, og det kan siges, hvilken af ​​dem der er størst, hvor meget og hvor mange gange. For eksempel, hvis den ene marsboer vejer 15 g og den anden 10, så er den første halvanden gang tungere end den anden og med 5 g. Værdierne af det ordinære træk kan også sammenlignes ved at sige, hvilken der er større, men det er umuligt at sige med hvor meget eller hvor mange gange. I medicin er ordenstegn ret almindelige. For eksempel vurderes resultaterne af et vaginalt Pap-smear på følgende skala: 1) normal, 2) mild dysplasi, 3) moderat dysplasi, 4) svær dysplasi, 5) cancer in situ. Både kvantitative og ordinære karakteristika kan arrangeres i rækkefølge - en stor gruppe af ikke-parametriske kriterier er baseret på denne generelle egenskab, som inkluderer Spearman-rangkorrelationskoefficienten. Vi vil stifte bekendtskab med andre ikke-parametriske tests i Kap. 10.

Pearson korrelationskoefficient

Og alligevel, hvorfor kan regressionsanalyse ikke bruges til at beskrive tætheden af ​​forbindelsen? Man kunne bruge den resterende standardafvigelse som et mål for styrken af ​​sammenhængen. Men hvis du bytter de afhængige og uafhængige variable, vil den resterende standardafvigelse, ligesom andre indikatorer for regressionsanalyse, være anderledes.

Lad os tage et kig på fig. 8.11. Baseret på stikprøven af ​​10 marsboere kendt af os, blev to regressionslinjer konstrueret. I det ene tilfælde er vægt en afhængig variabel, i det andet er det en uafhængig variabel. Regressionslinjerne er mærkbart forskellige



20

Hvis du bytter x og y, vil regressionsligningen være anderledes, men korrelationskoefficienten forbliver den samme.

er bekymrede. Det viser sig, at forholdet mellem højde og vægt er ét, og vægt og højde er et andet. Asymmetrien i regressionsanalyse er det, der forhindrer den i at blive direkte brugt til at karakterisere styrken af ​​en forbindelse. Korrelationskoefficienten er, selv om dens idé stammer fra regressionsanalyse, fri for denne ulempe. Her er formlen.

r Y(X - X)(Y - Y)

&((- X) S(y - Y)2"

hvor X og Y er gennemsnitsværdierne af variablerne X og Y. Udtrykket for r er "symmetrisk" - ved at bytte X og Y får vi den samme værdi. Korrelationskoefficienten tager værdier fra -1 til +1. Jo tættere forbindelsen er, jo større er den absolutte værdi af korrelationskoefficienten. Skiltet viser retningen af ​​forbindelsen. Når r > 0, taler vi om en direkte korrelation (med en stigning i den ene variabel stiger den anden også), når r Lad os tage eksemplet med 10 marsboere, som vi allerede har overvejet ud fra et regressionsanalysesynspunkt. Lad os beregne korrelationskoefficienten. De indledende data og mellemresultater af beregninger er angivet i tabel. 8.3. Prøvestørrelse n = 10, gennemsnitlig højde

X = £ X/n = 369/10 = 36,9 og vægt Y = £ Y/n = 103,8/10 = 10,38.

Vi finder Ø- X)(Y-Y) = 99,9, Ø- X)2 = 224,8, £(Y - Y)2 = 51,9.

Lad os erstatte de opnåede værdier i formlen for korrelationskoefficienten:

224,8 x 51,9""

Værdien af ​​r er tæt på 1, hvilket indikerer en tæt sammenhæng mellem højde og vægt. For bedre at forstå, hvilken korrelationskoefficient der bør betragtes som stor og hvilken ubetydelig, skal du tage et kig på

Tabel 8.3. Beregning af korrelationskoefficienten
x Y X-X Y-Y(X-X)(Y-Y) (X-X)2 (Å-Å)2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


dem på bordet 8.4 - den viser korrelationskoefficienterne for de eksempler, vi undersøgte tidligere.

Sammenhæng mellem regression og korrelation

Vi brugte indledningsvis alle eksempler på korrelationskoefficienter (tabel 8.4) til at konstruere regressionslinjer. Faktisk er der en tæt sammenhæng mellem korrelationskoefficienten og parametrene for regressionsanalyse, som vi nu vil demonstrere. De forskellige måder at præsentere den korrelationskoefficient, som vi vil opnå, vil give os mulighed for bedre at forstå betydningen af ​​denne indikator.

Husk, at regressionsligningen er konstrueret på en sådan måde, at summen af ​​kvadrerede afvigelser fra regressionslinjen minimeres.


Lad os betegne denne minimumsum af kvadrater S (denne størrelse kaldes restsummen af ​​kvadrater). Lad os betegne summen af ​​kvadrerede afvigelser af værdierne af den afhængige variabel Y fra dens middelværdi Y som S^. Derefter:

Størrelsen r2 kaldes bestemmelseskoefficienten - den er simpelthen kvadratet af korrelationskoefficienten. Bestemmelseskoefficienten viser styrken af ​​forbindelsen, men ikke dens retning.

Fra ovenstående formel er det klart, at hvis værdierne af den afhængige variabel ligger på regressionslinjen, så er S = 0, og dermed r = +1 eller r = -1, det vil sige, at der er en lineær sammenhæng mellem afhængige og uafhængige variable. For enhver værdi af den uafhængige variabel kan du præcist forudsige værdien af ​​den afhængige variabel. Tværtimod, hvis variablerne slet ikke er relateret til hinanden, så er Soci = SofSisi Så er r = 0.

Det kan også ses, at bestemmelseskoefficienten er lig med den del af den totale varians S^, der er forårsaget eller, som de siger, forklaret ved lineær regression.

Restsummen af ​​kvadrater S er relateret til restvariansen s2y\x ved relationen Socj = (n - 2) s^, og den samlede sum af kvadrater S^ med variansen s2 ved relationen S^ = (n - 1 )s2. I dette tilfælde

r2 = 1 _ n _ 2 sy\x n _1 sy

Denne formel giver os mulighed for at bedømme afhængigheden af ​​korrelationskoefficienten af ​​andelen af ​​resterende varians i den totale varians

seks/s2år Jo mindre denne andel er, jo større (i absolut værdi) er korrelationskoefficienten og omvendt.

Vi sikrede os, at korrelationskoefficienten afspejler tætheden af ​​den lineære sammenhæng mellem variablerne. Men hvis vi taler om at forudsige værdien af ​​en variabel ud fra værdien af ​​en anden,
Korrelationskoefficienten bør ikke stoles for meget på. For eksempel kan dataene i fig. 8,7 svarer til en meget høj korrelationskoefficient (r = 0,92), dog viser bredden af ​​konfidensområdet, at forudsigelsesusikkerheden er ret betydelig. Derfor, selv med en stor korrelationskoefficient, skal du sørge for at beregne konfidensintervallet.


Og endelig præsenterer vi forholdet mellem korrelationskoefficienten og hældningskoefficienten for den direkte regression b:

hvor b er hældningskoefficienten for regressionslinjen, sx og sY er standardafvigelserne for variablerne.

Hvis vi ikke tager højde for tilfældet sx = 0, så er korrelationskoefficienten nul, hvis og kun hvis b = 0. Vi vil nu bruge dette faktum til at vurdere den statistiske signifikans af korrelationen.

Statistisk signifikans af korrelation

Da b = 0 indebærer r = 0, er hypotesen om ingen korrelation ækvivalent med hypotesen om en nulhældning af regressionslinjen. For at vurdere den statistiske signifikans af korrelationen kan vi derfor bruge den formel, vi allerede kender til at vurdere den statistiske signifikans af forskellen b fra nul:

Her er antallet af frihedsgrader v = n - 2. Men hvis korrelationskoefficienten allerede er beregnet, er det mere praktisk at bruge formlen:

Antallet af frihedsgrader her er også v = n - 2.

På trods af den ydre ulighed mellem to formler for t, er de identiske. Faktisk ud fra det faktum, at


r 2 _ 1 - n_ 2 Sy]x_

Erstatning af værdien af ​​sy^x i formlen for standardfejlen

Animalsk fedt og brystkræft

Forsøg på forsøgsdyr har vist, at et højt indhold af animalsk fedt i kosten øger risikoen for brystkræft. Er denne afhængighed observeret hos mennesker? K. Carroll indsamlede data om animalsk fedtforbrug og brystkræftdødelighed for 39 lande. Resultatet er vist i fig. 8.12A. Korrelationskoefficienten mellem animalsk fedtforbrug og brystkræftdødelighed blev fundet at være 0,90. Lad os vurdere den statistiske signifikans af korrelationen.

0,90 1 - 0,902 39 - 2

Den kritiske værdi af t for antallet af frihedsgrader v = 39 - 2 = 37 er lig med 3,574, hvilket er mindre end det, vi opnåede. Ved et signifikansniveau på 0,001 kan det således konstateres, at der er en sammenhæng mellem forbruget af animalsk fedt og dødeligheden af ​​brystkræft.

Lad os nu tjekke, om dødelighed er forbundet med forbruget af vegetabilsk fedt? De tilsvarende data er vist i fig. 8.12B. Korrelationskoefficienten er 0,15. Derefter

1 - 0,152 39 - 2

Selv ved et signifikansniveau på 0,10 er den beregnede t-værdi mindre end den kritiske værdi. Korrelationen er ikke statistisk signifikant.