Spearman korrelationsberegninger. Spearman og Kendal rangordner korrelationskoefficienter

Spearman rang korrelation(rangkorrelation). Spearmans rangkorrelation er den enkleste måde at bestemme graden af ​​sammenhæng mellem faktorer på. Navnet på metoden angiver, at forholdet er bestemt mellem rækker, det vil sige rækker af opnåede kvantitative værdier, rangeret i faldende eller stigende rækkefølge. Man skal huske på, at for det første anbefales rangkorrelation ikke, hvis forbindelsen mellem par er mindre end fire og mere end tyve; for det andet gør rangkorrelation det muligt at bestemme forholdet i et andet tilfælde, hvis værdierne er semikvantitative, det vil sige, at de ikke har et numerisk udtryk og afspejler en klar rækkefølge af forekomst af disse værdier; for det tredje er det tilrådeligt at bruge rangkorrelation i tilfælde, hvor det er tilstrækkeligt at opnå omtrentlige data. Et eksempel på beregning af rangkorrelationskoefficienten for at bestemme spørgsmålet: Spørgeskemaet måler X og Y lignende personlige egenskaber hos forsøgspersonerne. Ved at bruge to spørgeskemaer (X og Y), som kræver alternative svar "ja" eller "nej", blev de primære resultater opnået - svarene fra 15 forsøgspersoner (N = 10). Resultaterne blev præsenteret som summen af ​​bekræftende svar separat for spørgeskema X og for spørgeskema B. Disse resultater er opsummeret i tabel. 5.19.

Tabel 5.19. Tabulering af primære resultater for at beregne Spearman-rangkorrelationskoefficienten (p) *

Analyse af den sammenfattende korrelationsmatrix. Metode til korrelationsgalakser.

Eksempel. I tabel Figur 6.18 viser fortolkninger af elleve variable, der testes ved hjælp af Wechsler-metoden. Data blev opnået fra en homogen prøve i alderen 18 til 25 år (n = 800).

Før stratificering er det tilrådeligt at rangere korrelationsmatricen. For at gøre dette beregnes gennemsnitsværdierne af korrelationskoefficienterne for hver variabel med alle de andre i den oprindelige matrix.

Så ifølge tabellen. 5.20 bestemme de acceptable niveauer af stratificering af korrelationsmatricen med en given konfidenssandsynlighed på 0,95 og n - mængder

Tabel 6.20. Stigende korrelationsmatrix

Variabler 1 2 3 4 ville 0 7 8 0 10 11 M(rij) Rang
1 1 0,637 0,488 0,623 0,282 0,647 0,371 0,485 0,371 0,365 0,336 0,454 1
2 1 0,810 0,557 0,291 0,508 0,173 0,486 0,371 0,273 0,273 0,363 4
3 1 0,346 0,291 0,406 0,360 0,818 0,346 0,291 0,282 0,336 7
4 1 0,273 0,572 0,318 0,442 0,310 0,318 0,291 0,414 3
5 1 0,354 0,254 0,216 0,236 0,207 0,149 0,264 11
6 1 0,365 0,405 0,336 0,345 0,282 0,430 2
7 1 0,310 0,388 0,264 0,266 0,310 9
8 1 0,897 0,363 0,388 0,363 5
9 1 0,388 0,430 0,846 6
10 1 0,336 0,310 8
11 1 0,300 10

Betegnelser: 1 - generel bevidsthed; 2 - konceptualitet; 3 - opmærksomhed; 4 - vdataness K af generalisering; b - direkte memorering (i tal) 6 - niveau af beherskelse af modersmålet; 7 - hastighed til at mestre sansemotoriske færdigheder (symbolkodning) 8 - observation; 9 - kombinatoriske evner (til analyse og syntese) 10 - evne til at organisere dele til en meningsfuld helhed; 11 - evne til heuristisk syntese; M (rij) - gennemsnitsværdien af ​​variablens korrelationskoefficienter med andre observationsvariable (i vores tilfælde n = 800): r (0) - værdien af ​​nul "Dissecting"-planet - den minimale signifikante absolutte værdi af korrelationskoefficient (n - 120, r (0) = 0,236; n = 40, r (0) = 0,407) | Δr | - tilladt stratificeringstrin (n = 40, | Δr | = 0,558) i - tilladt antal stratificeringsniveauer (n = 40, s = 1; n = 120, s = 2); r (1), r (2), ..., r (9) - absolut værdi af skæreplanet (n = 40, r (1) = 0,965).

For n = 800 finder vi værdien af ​​gtype og grænser gi, hvorefter vi stratificerer korrelationsmatricen, fremhæver korrelationsgalakserne i lagene eller separate dele af korrelationsmatricen, og tegner associationer af korrelationsgalakser for de overliggende lag (fig. 5.5).

En meningsfuld analyse af de resulterende galakser går ud over grænserne for matematisk statistik. Det skal bemærkes, at der er to formelle indikatorer, der hjælper med den meningsfulde fortolkning af Plejaderne. En væsentlig indikator er graden af ​​et toppunkt, det vil sige antallet af kanter, der støder op til et toppunkt. Variablen med det største antal kanter er galaksens "kerne" og kan betragtes som en indikator for de resterende variable i denne galakse. En anden væsentlig indikator er kommunikationstæthed. En variabel kan have færre forbindelser i én galakse, men tættere, og flere forbindelser i en anden galakse, men mindre tæt på.

Forudsigelser og skøn. Ligningen y = b1x + b0 kaldes linjens generelle ligning. Det angiver, at par af punkter (x, y), som

Ris. 5.5. Korrelationsgalakser opnået ved matrix lagdeling

ligge på en bestemt linje, forbundet på en sådan måde, at for enhver værdi x kan værdien b parret med den findes ved at gange x med et bestemt tal b1 og dernæst lægge tallet b0 til dette produkt.

Regressionskoefficienten giver dig mulighed for at bestemme graden af ​​ændring i undersøgelsesfaktoren, når årsagsfaktoren ændres med en enhed. Absolutte værdier karakteriserer forholdet mellem variable faktorer ved deres absolutte værdier. Regressionskoefficienten beregnes ved hjælp af formlen:

Design og analyse af eksperimenter. Design og analyse af eksperimenter er den tredje vigtige gren af ​​statistiske metoder udviklet til at finde og teste årsagssammenhænge mellem variable.

For at studere multifaktorielle afhængigheder er metoder til matematisk eksperimentel design for nylig blevet brugt i stigende grad.

Evnen til at variere alle faktorer samtidigt giver dig mulighed for at: a) reducere antallet af eksperimenter;

b) reducere eksperimentel fejl til et minimum;

c) forenkle behandlingen af ​​modtagne data;

d) sikre klarhed og nem sammenligning af resultater.

Hver faktor kan erhverve et vist tilsvarende antal forskellige værdier, som kaldes niveauer og betegnes -1, 0 og 1. Et fast sæt faktorniveauer bestemmer betingelserne for et af de mulige eksperimenter.

Helheden af ​​alle mulige kombinationer beregnes ved hjælp af formlen:

Et komplet faktoreksperiment er et eksperiment, hvor alle mulige kombinationer af faktorniveauer er implementeret. Fuld faktorielle eksperimenter kan have egenskaben ortogonalitet. Ved ortogonal planlægning er faktorerne i forsøget ukorrelerede, de regressionskoefficienter, der i sidste ende beregnes, bestemmes uafhængigt af hinanden.

En vigtig fordel ved metoden til matematisk eksperimentel planlægning er dens alsidighed og egnethed inden for mange forskningsområder.

Lad os overveje et eksempel på at sammenligne indflydelsen af ​​nogle faktorer på dannelsen af ​​niveauet af mental stress i farve-tv-controllere.

Forsøget er baseret på en ortogonal Design 2-tre (tre faktorer ændrer sig på to niveauer).

Forsøget blev udført med en komplet del 2 + 3 med tre gentagelser.

Ortogonal planlægning er baseret på konstruktionen af ​​en regressionsligning. For tre faktorer ser det sådan ud:

Behandling af resultaterne i dette eksempel omfatter:

a) konstruktion af en ortogonal plan 2 +3 tabel til beregning;

b) beregning af regressionskoefficienter;

c) kontrol af deres betydning;

d) fortolkning af de opnåede data.

For regressionskoefficienterne for den nævnte ligning var det nødvendigt at sætte N = 2 3 = 8 muligheder for at kunne vurdere betydningen af ​​koefficienterne, hvor antallet af gentagelser K var 3.

Matrixen til planlægning af eksperimentet så således ud:

I de tilfælde, hvor målingerne af de undersøgte egenskaber udføres på en ordensskala, eller formen af ​​sammenhængen adskiller sig fra lineær, udføres undersøgelsen af ​​sammenhængen mellem to stokastiske variable ved hjælp af rangkorrelationskoefficienter. Overvej Spearman rangkorrelationskoefficienten. Når du beregner det, er det nødvendigt at rangere (ordre) prøvemulighederne. Rangordning er grupperingen af ​​eksperimentelle data i en bestemt rækkefølge, enten stigende eller faldende.

Rangeringsoperationen udføres i henhold til følgende algoritme:

1. En lavere værdi tildeles en lavere rang. Den højeste værdi tildeles en rang, der svarer til antallet af rangerede værdier. Den mindste værdi tildeles en rang på 1. For eksempel, hvis n=7, vil den største værdi få en rang på 7, undtagen i tilfælde, der er fastsat i den anden regel.

2. Hvis flere værdier er ens, så tildeles de en rang, der er gennemsnittet af de rangeringer, de ville modtage, hvis de ikke var ens. Som et eksempel kan du overveje en stigende-ordnet prøve bestående af 7 elementer: 22, 23, 25, 25, 25, 28, 30. Værdierne 22 og 23 vises én gang hver, så deres rækker er henholdsvis R22=1, og R23=2. Værdien 25 vises 3 gange. Hvis disse værdier ikke blev gentaget, så ville deres rækker være 3, 4, 5. Derfor er deres R25-rangering lig med det aritmetiske middelværdi af 3, 4 og 5: . Værdierne 28 og 30 gentages ikke, så deres rækker er henholdsvis R28=6 og R30=7. Endelig har vi følgende korrespondance:

3. Den samlede sum af rækker skal falde sammen med den beregnede, som bestemmes af formlen:

hvor n er det samlede antal rangordnede værdier.

En uoverensstemmelse mellem de faktiske og de beregnede rangsummer vil indikere en fejl, der er begået ved beregning af rang eller opsummering af rang. I dette tilfælde skal du finde og rette fejlen.

Spearmans rangkorrelationskoefficient er en metode, der gør det muligt at bestemme styrken og retningen af ​​forholdet mellem to træk eller to hierarkier af træk. Brugen af ​​rangkorrelationskoefficienten har en række begrænsninger:

  • a) Den forudsatte korrelationsafhængighed skal være monoton.
  • b) Volumenet af hver prøve skal være større end eller lig med 5. For at bestemme den øvre grænse for prøven skal du bruge tabeller med kritiske værdier (Tabel 3 i tillægget). Den maksimale værdi af n i tabellen er 40.
  • c) Under analysen er det sandsynligt, at der kan opstå et stort antal identiske rækker. I dette tilfælde skal der foretages en ændring. Det mest gunstige tilfælde er, når begge prøver under undersøgelse repræsenterer to sekvenser af divergerende værdier.

For at udføre en korrelationsanalyse skal forskeren have to prøver, der kan rangeres, for eksempel:

  • - to karakteristika målt i samme gruppe af forsøgspersoner;
  • - to individuelle hierarkier af træk identificeret i to forsøgspersoner ved brug af det samme sæt træk;
  • - to gruppehierarkier af karakteristika;
  • - individuelle og gruppehierarkier af karakteristika.

Vi begynder beregningen ved at rangere de undersøgte indikatorer separat for hver af egenskaberne.

Lad os analysere et tilfælde med to tegn målt i samme gruppe af forsøgspersoner. Først rangeres de individuelle værdier opnået af forskellige fag i henhold til den første egenskab, og derefter rangeres de individuelle værdier efter den anden karakteristik. Hvis lavere rækker af en indikator svarer til lavere rækker af en anden indikator, og højere rækker af en indikator svarer til større rækker af en anden indikator, så er de to karakteristika positivt relaterede. Hvis højere rækker af en indikator svarer til lavere rækker af en anden indikator, er de to karakteristika negativt relaterede. For at finde r'er bestemmer vi forskellene mellem rækkerne (d) for hvert emne. Jo mindre forskellen er mellem rækkerne, desto tættere vil rangkorrelationskoefficienten rs være på "+1". Hvis der ikke er nogen sammenhæng, vil der ikke være nogen overensstemmelse mellem dem, derfor vil rs være tæt på nul. Jo større forskellen er mellem rækkerne af forsøgspersoner på to variable, jo tættere på "-1" vil værdien af ​​rs-koefficienten være. Således er Spearman rangkorrelationskoefficienten et mål for ethvert monotont forhold mellem de to karakteristika, der undersøges.

Lad os overveje tilfældet med to individuelle hierarkier af træk identificeret i to emner ved hjælp af det samme sæt træk. I denne situation er de individuelle værdier opnået af hvert af de to emner rangeret i henhold til et bestemt sæt af karakteristika. Funktionen med den laveste værdi skal tildeles den første rang; karakteristikken med en højere værdi er den anden rang osv. Der bør udvises særlig omhu for at sikre, at alle attributter måles i de samme enheder. For eksempel er det umuligt at rangere indikatorer, hvis de er udtrykt i forskellige "pris"-punkter, da det er umuligt at bestemme, hvilken af ​​faktorerne der vil tage førstepladsen med hensyn til sværhedsgrad, indtil alle værdier er bragt til en enkelt skala. Hvis træk, der har lav rang i et af fagene, også har lav rang i et andet, og omvendt, så hænger de enkelte hierarkier positivt sammen.

I tilfælde af to gruppehierarkier af karakteristika rangeres de gennemsnitlige gruppeværdier opnået i to grupper af emner i henhold til det samme sæt karakteristika for de undersøgte grupper. Dernæst følger vi algoritmen givet i tidligere tilfælde.

Lad os analysere en sag med et individuelt og gruppehierarki af karakteristika. De begynder med at rangordne de individuelle værdier for emnet og de gennemsnitlige gruppeværdier i henhold til det samme sæt af karakteristika, som blev opnået, ekskluderet emnet, der ikke deltager i det gennemsnitlige gruppehierarki, da hans individuelle hierarki vil være sammenlignet med det. Rangkorrelation giver os mulighed for at vurdere graden af ​​konsistens af individuelle og gruppehierarki af karaktertræk.

Lad os overveje, hvordan betydningen af ​​korrelationskoefficienten bestemmes i de ovenfor anførte tilfælde. I tilfælde af to karakteristika vil det blive bestemt af stikprøvestørrelsen. I tilfælde af to individuelle trækhierarkier afhænger betydningen af ​​antallet af træk, der indgår i hierarkiet. I de sidste to tilfælde er signifikans bestemt af antallet af karakteristika, der undersøges, og ikke af antallet af grupper. Således er betydningen af ​​rs i alle tilfælde bestemt af antallet af rangordnede værdier n.

Når du kontrollerer den statistiske signifikans af rs, bruges tabeller med kritiske værdier af rangkorrelationskoefficienten, kompileret for forskellige antal rangerede værdier og forskellige signifikansniveauer. Hvis den absolutte værdi af rs når eller overstiger en kritisk værdi, så er korrelationen pålidelig.

Når man overvejer den første mulighed (et tilfælde med to tegn målt i samme gruppe af forsøgspersoner), er følgende hypoteser mulige.

H0: Korrelationen mellem variablene x og y er ikke forskellig fra nul.

H1: Korrelationen mellem variablene x og y er signifikant forskellig fra nul.

Hvis vi arbejder med nogen af ​​de tre resterende tilfælde, så er det nødvendigt at fremsætte endnu et par hypoteser:

H0: Korrelationen mellem hierarkierne x og y er ikke forskellig fra nul.

H1: Korrelationen mellem hierarkierne x og y er signifikant forskellig fra nul.

Rækkefølgen af ​​handlinger ved beregning af Spearman-rangkorrelationskoefficienten rs er som følger.

  • - Bestem hvilke to træk eller to hierarkier af træk der vil deltage i sammenligningen som variable x og y.
  • - Rangér værdierne for variablen x, og tildel rang 1 til den mindste værdi i overensstemmelse med rangordningsreglerne. Placer rækkerne i den første kolonne i tabellen i rækkefølge efter testpersoner eller karakteristika.
  • - Rangér værdierne af variablen y. Placer rækkerne i den anden kolonne i tabellen i rækkefølge efter testpersoner eller karakteristika.
  • - Beregn forskellene d mellem rækkerne x og y for hver række i tabellen. Placer resultaterne i den næste kolonne i tabellen.
  • - Beregn de kvadratiske forskelle (d2). Placer de resulterende værdier i den fjerde kolonne i tabellen.
  • - Beregn summen af ​​kvadratforskelle? d2.
  • - Hvis der forekommer identiske rækker, beregnes korrektionerne:

hvor tx er volumenet af hver gruppe af identiske rækker i prøve x;

ty er volumenet af hver gruppe af identiske rækker i prøve y.

Beregn rangkorrelationskoefficienten afhængigt af tilstedeværelsen eller fraværet af identiske rækker. Hvis der ikke er identiske rækker, beregnes rangkorrelationskoefficienten rs ved hjælp af formlen:

Hvis der er identiske rækker, beregnes rangkorrelationskoefficienten rs ved hjælp af formlen:

hvor?d2 er summen af ​​kvadrerede forskelle mellem rækker;

Tx og Ty - korrektioner for lige rang;

n er antallet af emner eller funktioner, der deltager i rangeringen.

Bestem de kritiske værdier for rs fra bilagstabel 3 for et givet antal emner n. En signifikant forskel fra nul af korrelationskoefficienten vil blive observeret, forudsat at rs ikke er mindre end den kritiske værdi.

En psykologistuderende (sociolog, leder, leder osv.) er ofte interesseret i, hvordan to eller flere variable er relateret til hinanden i en eller flere grupper, der undersøges.

I matematik, for at beskrive sammenhængene mellem variable størrelser, bruges begrebet en funktion F, som forbinder hver specifik værdi af den uafhængige variabel X med en specifik værdi af den afhængige variabel Y. Den resulterende afhængighed betegnes som Y=F( X).

Samtidig kan typerne af korrelationer mellem de målte karakteristika være forskellige: For eksempel kan korrelationen være lineær og ikke-lineær, positiv og negativ. Den er lineær - hvis den ene variabel X stiger eller falder, stiger eller falder den anden variabel Y i gennemsnit også. Det er ikke-lineært, hvis arten af ​​ændringen i den anden, med en stigning i én størrelse, ikke er lineær, men er beskrevet af andre love.

Korrelationen vil være positiv, hvis variablen Y i gennemsnit stiger med en stigning i variablen X, og hvis variablen Y ved en stigning i X har en tendens til at falde i gennemsnit, så taler vi om tilstedeværelsen af ​​en negativ korrelation. Det er muligt, at det er umuligt at etablere nogen sammenhæng mellem variabler. I dette tilfælde siger de, at der ikke er nogen sammenhæng.

Opgaven med korrelationsanalyse kommer ned til at etablere retningen (positiv eller negativ) og form (lineær, ikke-lineær) af forholdet mellem varierende karakteristika, måling af dens nærhed og endelig kontrol af signifikansniveauet af de opnåede korrelationskoefficienter.

Rangkorrelationskoefficienten, foreslået af K. Spearman, henviser til et ikke-parametrisk mål for forholdet mellem variable målt på en rangskala. Ved beregning af denne koefficient kræves der ingen antagelser om karakteren af ​​fordelingen af ​​karakteristika i populationen. Denne koefficient bestemmer graden af ​​tæthed af forbindelse mellem ordinære karakteristika, som i dette tilfælde repræsenterer rækkerne af de sammenlignede mængder.

Spearmans lineære korrelationskoefficient beregnes ved hjælp af formlen:

hvor n er antallet af rangerede funktioner (indikatorer, emner);
D er forskellen mellem rækkerne for to variable for hvert emne;
D2 er summen af ​​kvadrerede forskelle i rækker.

De kritiske værdier af Spearman-rangkorrelationskoefficienten er præsenteret nedenfor:

Værdien af ​​Spearmans lineære korrelationskoefficient ligger i området +1 og -1. Spearmans lineære korrelationskoefficient kan være positiv eller negativ, hvilket karakteriserer retningen af ​​forholdet mellem to egenskaber målt på en rangskala.

Hvis korrelationskoefficienten i absolut værdi er tæt på 1, så svarer dette til en høj grad af sammenhæng mellem variablerne. Så især, når en variabel er korreleret med sig selv, vil værdien af ​​korrelationskoefficienten være lig med +1. Et sådant forhold karakteriserer en direkte proportional afhængighed. Hvis værdierne af X-variablen er arrangeret i stigende rækkefølge, og de samme værdier (nu betegnet som Y-variablen) er arrangeret i faldende rækkefølge, så vil korrelationen mellem X- og Y-variablerne i dette tilfælde være nøjagtigt -1. Denne værdi af korrelationskoefficienten karakteriserer et omvendt proportionalt forhold.

Korrelationskoefficientens tegn er meget vigtigt for fortolkningen af ​​det resulterende forhold. Hvis tegnet for den lineære korrelationskoefficient er plus, så er forholdet mellem de korrelerende træk sådan, at en større værdi af et træk (variabel) svarer til en større værdi af et andet træk (en anden variabel). Med andre ord, hvis en indikator (variabel) stiger, så stiger den anden indikator (variabel) tilsvarende. Denne afhængighed kaldes en direkte proportional afhængighed.

Hvis der modtages et minustegn, svarer en større værdi af en karakteristik til en mindre værdi af en anden. Med andre ord, hvis der er et minustegn, svarer en stigning i én variabel (tegn, værdi) til et fald i en anden variabel. Denne afhængighed kaldes omvendt proportional afhængighed. I dette tilfælde er valget af den variabel, som karakteren (tendensen) til stigning er tildelt vilkårligt. Det kan enten være variabel X eller variabel Y. Men hvis variabel X anses for at stige, vil variabel Y tilsvarende falde, og omvendt.

Lad os se på eksemplet med Spearman-korrelation.

Psykologen finder ud af, hvordan individuelle indikatorer for skoleparathed, opnået før skolestart blandt 11 førsteklasser, hænger sammen med hinanden og deres gennemsnitlige præstation ved skoleårets afslutning.

For at løse dette problem rangerede vi for det første værdierne af indikatorer for skoleberedskab opnået ved optagelse i skolen, og for det andet de endelige indikatorer for akademisk præstation ved årets udgang for disse samme elever i gennemsnit. Vi præsenterer resultaterne i tabellen:

Vi erstatter de opnåede data i ovenstående formel og udfører beregningen. Vi får:

For at finde signifikansniveauet henviser vi til tabellen "Kritiske værdier af Spearman-rangkorrelationskoefficienten", som viser de kritiske værdier for rangkorrelationskoefficienterne.

Vi konstruerer den tilsvarende "betydningsakse":

Den resulterende korrelationskoefficient faldt sammen med den kritiske værdi for signifikansniveauet på 1 %. Derfor kan man argumentere for, at indikatorerne for skoleparathed og de endelige karakterer for 1.g'ere er forbundet med en positiv sammenhæng - med andre ord, jo højere indikatoren for skoleparathed er, desto bedre studier i 1. klasse. Med hensyn til statistiske hypoteser skal psykologen forkaste nulhypotesen (H0) om lighed og acceptere alternativet (H1) af forskelle, hvilket tyder på, at forholdet mellem indikatorer for skoleparathed og gennemsnitlig akademisk præstation er forskellig fra nul.

Spearman korrelation. Korrelationsanalyse ved hjælp af Spearman-metoden. Spearman rangerer. Spearman korrelationskoefficient. Spearman rang korrelation

Lommeregneren nedenfor beregner Spearman-rangkorrelationskoefficienten mellem to stokastiske variable. Den teoretiske del, for ikke at blive distraheret fra lommeregneren, er traditionelt placeret under den.

tilføje import Eksport mode_edit slette

Ændringer i tilfældige variable

arrow_upwardarrow_downward xarrow_upwardarrow_downward Y
Sidestørrelse: 5 10 20 50 100 chevron_venstre chevron_right

Ændringer i tilfældige variable

Importer data Importfejl

Du kan bruge et af disse symboler til at adskille felter: Tab, ";" eller "," Eksempel: -50.5;-50.5

Import tilbage Annuller

Metoden til beregning af Spearman-rangkorrelationskoefficienten er faktisk beskrevet meget enkelt. Dette er den samme Pearson-korrelationskoefficient, kun beregnet ikke for resultaterne af målinger af tilfældige variabler selv, men for deres rangværdier.

Det er,

Det eneste, der er tilbage, er at finde ud af, hvad rangværdier er, og hvorfor alt dette er nødvendigt.

Hvis elementerne i en variationsserie er arrangeret i stigende eller faldende rækkefølge, så rang element vil være dets nummer i denne ordnede serie.

Lad os for eksempel have en variationsserie (17,26,5,14,21). Lad os sortere dets elementer i faldende rækkefølge (26,21,17,14,5). 26 har plads 1, 21 har plads 2 osv. Variationsrækken af ​​rangværdier vil se sådan ud (3,1,5,4,2).

Det vil sige, at når man beregner Spearman-koefficienten, omdannes de oprindelige variationsrækker til variationsrækker af rangværdier, hvorefter Pearson-formlen anvendes på dem.

Der er en subtilitet - rangen af ​​gentagne værdier tages som gennemsnittet af rækkerne. Det vil sige, for serien (17, 15, 14, 15) vil rækken af ​​rangværdier se ud som (1, 2,5, 4, 2,5), da det første element lig med 15 har rang 2, og det andet element har rang 3, og .

Hvis der ikke er nogen gentagne værdier, det vil sige, at alle værdier i rangserien er tal fra området fra 1 til n, kan Pearson-formlen forenkles til

Nå, forresten, er denne formel oftest givet som en formel til beregning af Spearman-koefficienten.

Hvad er essensen af ​​overgangen fra værdierne selv til deres rangværdier?
Pointen er, at man ved at studere korrelationen af ​​rangværdier kan bestemme, hvor godt afhængigheden af ​​to variable er beskrevet af en monoton funktion.

Koefficientens fortegn angiver retningen af ​​forholdet mellem variablerne. Hvis tegnet er positivt, så har Y-værdier en tendens til at stige, når X-værdier stiger; hvis tegnet er negativt, så har Y-værdierne en tendens til at falde, når X-værdierne stiger. Hvis koefficienten er 0, er der ingen tendens. Hvis koefficienten er 1 eller -1, så har forholdet mellem X og Y form af en monoton funktion - det vil sige, når X stiger, øges Y også, eller omvendt, når X stiger, falder Y.

Det vil sige, at i modsætning til Pearson-korrelationskoefficienten, som kun kan afsløre en lineær afhængighed af en variabel af en anden, kan Spearman-korrelationskoefficienten afsløre en monoton afhængighed, hvor en direkte lineær sammenhæng ikke detekteres.

Lad mig forklare med et eksempel. Lad os antage, at vi undersøger funktionen y=10/x.
Vi har følgende X- og Y-mål
{{1,10}, {5,2}, {10,1}, {20,0.5}, {100,0.1}}
For disse data er Pearson-korrelationskoefficienten -0,4686, det vil sige, at forholdet er svagt eller fraværende. Men Spearman-korrelationskoefficienten er strengt taget lig med -1, hvilket synes at antyde for forskeren, at Y har en streng negativ monoton afhængighed af X.