Analyse av varianter. Multivariat variansanalyse

Analyse av varianter(fra latin Dispersio - dispersion / på engelsk Analysis Of Variance - ANOVA) brukes til å studere innflytelsen av en eller flere kvalitative variabler (faktorer) på én avhengig kvantitativ variabel (respons).

Grunnlaget for variansanalysen er antakelsen om at noen variabler kan betraktes som årsaker (faktorer, uavhengige variabler): , og andre som konsekvenser (avhengige variabler). Uavhengige variabler kalles noen ganger justerbare faktorer nettopp fordi forskeren i et eksperiment har mulighet til å variere dem og analysere resultatet.

Hovedmålet Analyse av varianter(ANOVA) er studiet av betydningen av forskjeller mellom middelverdier ved å bruke en sammenligning (analyse) av varianser. Ved å dele den totale variansen i flere kilder kan variansen på grunn av forskjeller mellom grupper sammenlignes med variansen på grunn av varians innen gruppe. Hvis nullhypotesen (at middelverdiene er like i flere grupper av observasjoner valgt fra populasjonen) er sann, bør estimatet av variansen assosiert med variabilitet innenfor gruppe være nær estimatet for varians mellom grupper. Hvis du ganske enkelt sammenligner midler i to utvalg, vil ANOVA gi samme resultat som en ordinær uavhengig t-test (hvis du sammenligner to uavhengige grupper av individer eller observasjoner) eller en avhengig t-test (hvis du sammenligner to variabler på samme og det samme settet med objekter eller observasjoner).

Essensen av variansanalyse er å dele den totale variansen til egenskapen som studeres i individuelle komponenter bestemt av påvirkningen av spesifikke faktorer, og å teste hypoteser om betydningen av påvirkningen av disse faktorene på egenskapen som studeres. Ved å sammenligne varianskomponentene med hverandre ved å bruke Fishers F-test, er det mulig å bestemme hvilken andel av den totale variabiliteten til den resulterende attributten som skyldes virkningen av kontrollerte faktorer.

Kildematerialet for variansanalyse er data fra en studie av tre eller flere prøver: , som enten kan være like eller ulikt i antall, både sammenhengende og usammenhengende. I henhold til antall identifiserte regulerte faktorer, kan variansanalyse være en-faktor(i dette tilfellet studeres påvirkningen av en faktor på resultatene av eksperimentet), to-faktor(når man studerer påvirkningen av to faktorer) og multifaktoriell(lar deg evaluere ikke bare påvirkningen av hver faktor separat, men også deres interaksjon).

Variansanalyse tilhører gruppen av parametriske metoder og bør derfor kun brukes når det er bevist at fordelingen er normal.

Variansanalyse brukes dersom den avhengige variabelen måles på en forholds-, intervall- eller rekkefølgeskala, og de påvirkende variablene er av ikke-numerisk karakter (navneskala).

Prøveproblemer

I problemer som løses ved variansanalyse er det en respons av numerisk karakter, som påvirkes av flere variabler som er av nominell karakter. For eksempel flere typer husdyroppfetningsrasjoner eller to oppbevaringsmåter osv.

Eksempel 1: Det var flere apotekkiosker på tre forskjellige steder gjennom uken. I fremtiden kan vi bare forlate én. Det er nødvendig å avgjøre om det er en statistisk signifikant forskjell mellom volumene av narkotikasalg i kiosker. Hvis ja, vil vi velge kiosken med høyest gjennomsnittlig daglig salgsvolum. Hvis forskjellen i salgsvolum viser seg å være statistisk ubetydelig, bør grunnlaget for valg av kiosk være andre indikatorer.

Eksempel 2: Sammenligning av gruppemiddelkontraster. De syv politiske tilknytningene er sortert fra ekstremt liberale til ekstremt konservative, og en lineær kontrast brukes til å teste om det er en tendens til forskjell fra null for at gruppemidler øker - det vil si om det er en signifikant lineær økning i gjennomsnittsalder når man vurderer grupper som er ordnet. i retning fra liberal til konservativ.

Eksempel 3: To-faktor variansanalyse. Antall salg av et produkt, i tillegg til størrelsen på butikken, påvirkes ofte av plasseringen av hyllene med produktet. Dette eksemplet inneholder ukentlige salgstall for fire hylleoppsett og tre butikkstørrelser. Resultatene av analysen viser at begge faktorene – plasseringen av hyller med varer og størrelsen på butikken – påvirker antall salg, men deres samspill er ikke signifikant.

Eksempel 4: Univariat ANOVA: Randomisert fullblokkdesign med to behandlinger. Effekten av alle mulige kombinasjoner av tre fettstoffer og tre deighevemidler på baking av brød undersøkes. Fire melprøver tatt fra fire forskjellige kilder tjente som blokkfaktorer. Betydningen av fett-ripper-interaksjonen må bestemmes. Etter dette identifiserer du ulike muligheter for å velge kontraster som lar deg finne ut hvilke kombinasjoner av faktornivåer som er forskjellige.

Eksempel 5: Hierarkisk (gruppert) designmodell med blandede effekter. Effekten av fire tilfeldig utvalgte hoder montert på en maskin på deformasjonen av produserte glasskatodeholdere studeres. (Hodene er innebygd i maskinen, så det samme hodet kan ikke brukes på forskjellige maskiner.) Hodeeffekten behandles som en tilfeldig faktor. ANOVA-statistikk indikerer at det ikke er signifikante forskjeller mellom maskiner, men det er indikasjoner på at hoder kan variere. Forskjellen mellom alle maskiner er ikke signifikant, men for to av dem er forskjellen mellom hodetyper betydelig.

Eksempel 6: Univariat analyse av gjentatte mål ved bruk av et delt plottdesign. Dette eksperimentet ble utført for å bestemme effekten av individuelle angstvurderinger på eksamensprestasjoner over fire påfølgende forsøk. Dataene er organisert slik at de kan sees som grupper av delsett av hele datasettet ("hele plott"). Effekten av angst var ubetydelig, men effekten av forsøk var signifikant.

Liste over metoder

  • Faktorielle eksperimentmodeller. Eksempler: faktorer som påvirker suksessen til å løse matematiske problemer; faktorer som påvirker salgsvolumet.

Dataene består av flere serier av observasjoner (prosesser), som betraktes som realiseringer av utvalg uavhengig av hverandre. Utgangshypotesen sier at det ikke er noen forskjell i behandlinger, dvs. det antas at alle observasjoner kan betraktes som ett utvalg fra den totale populasjonen:

  • En-faktor parametrisk modell: Scheffes metode.
  • En-faktor ikke-parametrisk modell [Lagutin M.B., 237]: Kruskal-Wallis-test [Hollender M., Wolf D.A., 131], Jonckheere-kriterium [Lagutin M.B., 245].
  • Det generelle tilfellet av en modell med konstante faktorer, Cochrans teorem [Afifi A., Eisen S., 234].

Data representerer dupliserte observasjoner:

  • To-faktor ikke-parametrisk modell: Friedman-kriterium [Lapach, 203], Sidekriterium [Lagutin M.B., 263]. Eksempler: sammenligning av effektiviteten til produksjonsmetoder, landbrukspraksis.
  • To-faktor ikke-parametrisk modell for ufullstendige data

Historie

Hvor kom navnet fra Analyse av varianter? Det kan virke rart at prosedyren for å sammenligne middel kalles variansanalyse. I virkeligheten er dette fordi når vi undersøker den statistiske signifikansen av en forskjell mellom middelverdiene til to (eller flere) grupper, sammenligner (analyserer) vi faktisk utvalgsvarianser. Det grunnleggende konseptet for variansanalyse er foreslått Fischer i 1920. Det mer naturlige begrepet vil kanskje være analyse av kvadratsum eller analyse av variasjon, men på grunn av tradisjon brukes begrepet variansanalyse. I utgangspunktet ble variansanalyse utviklet for å behandle data innhentet under spesialdesignede eksperimenter, og ble ansett som den eneste metoden som korrekt undersøkte årsakssammenhenger. Metoden er brukt for å evaluere forsøk i planteproduksjon. Deretter ble den generelle vitenskapelige betydningen av variansanalyse for eksperimenter innen psykologi, pedagogikk, medisin osv. tydelig.

Litteratur

  1. Sheffe G. Analyse av varianter. - M., 1980.
  2. Ahrens H. Leuter Yu. Multivariat variansanalyse.
  3. Kobzar A.I. Anvendt matematisk statistikk. - M.: Fizmatlit, 2006.
  4. Lapach S.N., Chubenko A.V., Babich P.N. Statistikk i vitenskap og næringsliv. - Kiev: Morion, 2002.
  5. Lagutin M.B. Visuell matematisk statistikk. I to bind. - M.: P-senteret, 2003.
  6. Afifi A., Eisen S. Statistisk analyse: Datatilnærming.
  7. Hollender M., Wolf D.A. Ikke-parametriske metoder for statistikk.

Lenker

  • Variansanalyse - Elektronisk lærebok StatSoft.

Variansanalyse er en statistisk metode designet for å vurdere påvirkningen av ulike faktorer på resultatet av et eksperiment, samt for påfølgende planlegging av lignende eksperimenter.

Opprinnelig (1918) ble variansanalyse utviklet av den engelske matematikeren og statistikeren R.A. Fischer å behandle resultatene av agronomiske eksperimenter for å identifisere betingelsene for å oppnå maksimalt utbytte av ulike varianter av landbruksvekster.

Når du setter opp et eksperiment, må følgende betingelser være oppfylt:

    Hver variant av forsøket må utføres på flere observasjonsenheter (dyregrupper, feltseksjoner osv.)

    Fordelingen av observasjonsenheter mellom eksperimentelle varianter bør være tilfeldig og ikke bevisst.

ANOVA bruker F-kriterium(R.A. Fisher-kriterium), som representerer forholdet mellom to varianser:

hvor d faktum, d residual er henholdsvis faktorielle (intergruppe) og residuale (intragruppe) varianser per frihetsgrad.

Faktor- og restavvik er estimater av populasjonsvarians, beregnet fra utvalgsdata som tar hensyn til antall frihetsgrader.

Faktoriell (intergruppe) spredning forklarer variasjonen av den effektive karakteristikken under påvirkning av faktoren som studeres.

Residuell (innenfor gruppe) varians forklarer variasjonen i den effektive karakteristikken på grunn av påvirkningen fra andre faktorer (bortsett fra påvirkningen av faktoren som studeres).

I sum gir faktor- og gjenværende varians den totale variansen, og uttrykker påvirkningen av alle faktorkarakteristikker på den resulterende.

Prosedyre for å utføre variansanalyse:

1. Eksperimentelle data legges inn i en beregningstabell og mengder og gjennomsnittsverdier i hver gruppe av befolkningen som studeres bestemmes, samt totalmengde og gjennomsnittsverdi for hele populasjonen (tabell 1).

Tabell 1

Verdien av den resulterende karakteristikken for den i-te enheten

i den j-te gruppen, x ij

Antall observasjoner, f j

Gjennomsnitt (gruppe og totalt), x j

x 11, x 12, …, x 1 n

x 21, x 22, …, x 2 n

x m 1, x m 2, …, x mn

Totalt antall observasjoner n beregnes som summen av antall observasjoner f j i hver gruppe:

Hvis alle grupper har samme antall elementer, er det totale gjennomsnittet er funnet fra gruppemidler som et enkelt aritmetisk gjennomsnitt:

Hvis antall elementer i grupper er forskjellig, er det totale gjennomsnittet beregnet ved å bruke den vektede aritmetiske gjennomsnittsformelen:

2. Den totale variansen bestemmes D som regel som summen av kvadrerte avvik av individuelle verdier av den resulterende karakteristikken fra det totale gjennomsnittet :

3. Faktoriell (intergruppe) varians beregnes D faktum som summen av kvadrerte avvik av gruppemidler fra det totale gjennomsnittet , multiplisert med antall observasjoner:

4. Verdien av den gjenværende (intragruppe) variansen bestemmes D ost som differansen mellom totalen D som regel og faktoriell D faktum avvik:

5. Regn ut antall frihetsgrader for faktoren
varians som forskjellen mellom antall grupper m og enhet:

6. Antall frihetsgrader for restdispersjonen bestemmes
som forskjellen mellom antall individuelle verdier for en egenskap n og antall grupper m:

7. Verdien av faktorspredning per en frihetsgrad beregnes d faktum som faktorvariasjonsforhold D faktum til antall grader av frihet for faktorspredning
:

8. Verdien av restspredningen per en frihetsgrad bestemmes d ost som gjenværende variansforhold D ost til antall frihetsgrader for restdispersjonen
:

9. Den beregnede verdien av F-kriteriet bestemmes F-beregning som forholdet mellom faktorvarians per frihetsgrad d faktum til gjenværende varians per frihetsgrad d ost :

10. Ved å bruke Fisher F-testtabellen, tatt i betraktning signifikansnivået vedtatt i studien, samt å ta hensyn til frihetsgradene for faktor- og restavvik, finner man den teoretiske verdien F bord .

Et 5 % signifikansnivå tilsvarer et 95 % sannsynlighetsnivå, og et 1 % signifikansnivå tilsvarer et 99 % sannsynlighetsnivå. I de fleste tilfeller brukes et signifikansnivå på 5 %.

Teoretisk verdi F bord på et gitt signifikansnivå bestemmes fra tabeller i skjæringspunktet mellom en rad og en kolonne, tilsvarende to frihetsgrader for variansene:

etter linje – gjenværende;

etter kolonne – faktoriell.

11. Beregningsresultatene er presentert i en tabell (tabell 2).

Analyse av varianter

Kurs i faget: "Systemanalyse"

Utøverstudent gr. 99 ISE-2 Zhbanov V.V.

Orenburg statsuniversitet

Fakultet for informasjonsteknologi

Institutt for anvendt informatikk

Orenburg-2003

Introduksjon

Hensikt med arbeidet: å gjøre seg kjent med en slik statistisk metode som variansanalyse.

Dispersjonsanalyse (fra latin Dispersio - dispersion) er en statistisk metode som lar deg analysere påvirkningen av ulike faktorer på variabelen som studeres. Metoden ble utviklet av biologen R. Fischer i 1925 og ble opprinnelig brukt til å evaluere eksperimenter innen planteproduksjon. Deretter ble den generelle vitenskapelige betydningen av variansanalyse for eksperimenter innen psykologi, pedagogikk, medisin osv. tydelig.

Hensikten med variansanalyse er å teste betydningen av forskjeller mellom middel ved å sammenligne varianser. Variansen til den målte karakteristikken dekomponeres i uavhengige termer, som hver karakteriserer påvirkningen av en bestemt faktor eller deres interaksjon. Påfølgende sammenligning av slike termer lar oss vurdere betydningen av hver faktor som studeres, så vel som deres kombinasjon /1/.

Hvis nullhypotesen (at middelverdiene er like i flere grupper av observasjoner valgt fra populasjonen) er sann, bør estimatet av variansen assosiert med variabilitet innenfor gruppe være nær estimatet for varians mellom grupper.

Når du utfører markedsundersøkelser, dukker ofte spørsmålet om sammenlignbarhet av resultater opp. For eksempel, når du gjennomfører undersøkelser om forbruket av et produkt i forskjellige regioner i landet, er det nødvendig å trekke konklusjoner i hvilken grad undersøkelsesdataene er forskjellige eller ikke avviker fra hverandre. Det gir ingen mening å sammenligne individuelle indikatorer, og derfor utføres sammenligningen og den påfølgende vurderingsprosedyren ved å bruke noen gjennomsnittsverdier og avvik fra denne gjennomsnittsvurderingen. Variasjon av egenskapen studeres. Spredning kan tas som et mål på variasjon. Dispersjon σ 2 er et mål på variasjon, definert som gjennomsnittet av avvikene til en karakteristikk i kvadrat.

I praksis oppstår ofte problemer av mer generell karakter – problemet med å kontrollere betydningen av forskjeller i gjennomsnittene til flere utvalgspopulasjoner. For eksempel er det nødvendig å evaluere påvirkningen av ulike råvarer på kvaliteten på produserte produkter, for å løse problemet med påvirkningen av mengden gjødsel på utbyttet av landbruksprodukter.

Noen ganger brukes variansanalyse for å etablere homogeniteten til flere populasjoner (variansene til disse populasjonene er de samme ved antagelse; hvis variansanalysen viser at de matematiske forventningene er de samme, så er populasjonene i denne forstand homogene). Homogene populasjoner kan kombineres til én og derved få mer fullstendig informasjon om den, og derfor mer pålitelige konklusjoner /2/.

1 Variansanalyse

1.1 Grunnleggende begreper for variansanalyse

I prosessen med å observere objektet som studeres, endres kvalitative faktorer vilkårlig eller på en gitt måte. Den spesifikke implementeringen av en faktor (for eksempel et bestemt temperaturregime, valgt utstyr eller materiale) kalles faktornivået eller prosesseringsmetoden. En variansanalysemodell med faste nivåer av faktorer kalles modell I, en modell med tilfeldige faktorer kalles modell II. Ved å variere faktoren er det mulig å studere dens innflytelse på størrelsen på responsen. For tiden er den generelle teorien om variansanalyse utviklet for modeller I.

Avhengig av antall faktorer som bestemmer variasjonen av den resulterende karakteristikken, er variansanalyse delt inn i enkeltfaktor og multifaktor.

Hovedordningene for å organisere kildedata med to eller flere faktorer er:

Kryssklassifisering, karakteristisk for modeller I, der hvert nivå av en faktor kombineres når du planlegger et eksperiment med hver gradering av en annen faktor;

Hierarkisk (klynge) klassifisering, karakteristisk for modell II, der hver tilfeldig, tilfeldig valgt verdi av en faktor tilsvarer sin egen undergruppe av verdier av den andre faktoren.

Dersom responsens avhengighet av kvalitative og kvantitative faktorer studeres samtidig, dvs. faktorer av blandet karakter, så brukes kovariansanalyse /3/.

Dermed skiller disse modellene seg fra hverandre i måten de velger faktornivåer på, noe som åpenbart først og fremst påvirker muligheten for å generalisere de oppnådde eksperimentelle resultatene. For variansanalyse i enkeltfaktoreksperimenter er ikke forskjellen mellom disse to modellene så signifikant, men i multivariat variansanalyse kan den være ganske viktig.

Når du utfører variansanalyse, må følgende statistiske forutsetninger oppfylles: uavhengig av nivået på faktoren har responsverdiene en normal (gaussisk) distribusjonslov og samme varians. Denne varianslikheten kalles homogenitet. Dermed påvirker en endring i prosesseringsmetoden bare posisjonen til den tilfeldige responsvariabelen, som er preget av gjennomsnittsverdien eller medianen. Derfor tilhører alle responsobservasjoner skiftfamilien av normalfordelinger.

ANOVA-teknikken sies å være "robust". Dette begrepet, brukt av statistikere, betyr at gitte forutsetninger kan bli krenket til en viss grad, men teknikken kan fortsatt brukes.

Når loven om distribusjon av responsverdier er ukjent, brukes ikke-parametriske (oftest rangerte) analysemetoder.

Analyse av varians er basert på å dele varians i deler eller komponenter. Variasjonen på grunn av påvirkningen av faktoren som ligger til grunn for grupperingen er preget av intergruppespredning σ 2 . Det er et mål på variasjonen av partielle gjennomsnitt for grupper rundt det generelle gjennomsnittet og bestemmes av formelen:

,

hvor k er antall grupper;

n j - antall enheter i den j-te gruppen;

Delvis gjennomsnitt for j-te gruppe;

Samlet gjennomsnitt for en populasjon av enheter.

Variasjonen på grunn av påvirkning av andre faktorer karakteriseres i hver gruppe av intragruppevariansen σ j 2 .

.

Det er en sammenheng mellom den totale variansen σ 0 2, intragruppevariansen σ 2 og intergruppevariansen:

σ 0 2 = + σ 2 .

Intragruppespredning forklarer påvirkningen av faktorer som ikke er tatt i betraktning ved gruppering, og intergruppespredning forklarer innflytelsen av grupperingsfaktorer på gruppegjennomsnittet /2/.

1.2 Enveis variansanalyse

Enfaktorvariansmodellen har formen:

x ij = μ + F j + ε ij , (1)

hvor x ij er verdien av variabelen som studeres oppnådd på det i-te nivået av faktoren (i=1,2,...,t) med det j-te serienummeret (j=1,2,.. .,n);

F i – effekt forårsaket av påvirkning av faktorens i-te nivå;

ε ij – tilfeldig komponent, eller forstyrrelse forårsaket av påvirkning av ukontrollerbare faktorer, dvs. variasjon innenfor et bestemt nivå.

Grunnleggende forutsetninger for variansanalyse:

Den matematiske forventningen til forstyrrelsen ε ij er lik null for enhver i, dvs.

M(e ij) = 0; (2)

Forstyrrelsene ε ij er gjensidig uavhengige;

Variansen til variabelen x ij (eller forstyrrelse ε ij) er konstant for

noen i, j, dvs.

D(ε ij) = σ2; (3)

Variabelen x ij (eller forstyrrelsen ε ij) har en normallov

fordeling N(0;σ 2).

Påvirkningen av faktornivåer kan enten være fast eller systematisk (modell I) eller tilfeldig (modell II).

Anta for eksempel at det er nødvendig å finne ut om det er betydelige forskjeller mellom partier av produkter når det gjelder en eller annen kvalitetsindikator, dvs. sjekk innflytelsen på kvaliteten til en faktor - et parti med produkter. Hvis vi inkluderer alle partier av råvarer i studien, er påvirkningen av nivået til en slik faktor systematisk (modell I), og konklusjonene som er oppnådd gjelder bare for de individuelle partiene som var involvert i studien. Hvis vi bare inkluderer en tilfeldig valgt del av partene, så er påvirkningen av faktoren tilfeldig (modell II). I multifaktorkomplekser er en blandet modell III mulig, der noen faktorer har tilfeldige nivåer, mens andre har faste nivåer.

La det være m partier med produkter. Fra hver batch ble det valgt henholdsvis n 1, n 2, ..., n m produkter (for enkelhets skyld antas det at n 1 =n 2 =...=n m =n). Kvalitetsindikatorverdiene til disse produktene er presentert i observasjonsmatrisen:

x 11 x 12 … x 1n

x 21 x 22 … x 2n

………………… = (x ij), (i = 1,2, …, m; j = 1,2, …, n).

x m 1 x m 2 … x min

Det er nødvendig å kontrollere betydningen av påvirkningen av produktpartier på kvaliteten.

Hvis vi antar at elementene i radene i observasjonsmatrisen er numeriske verdier av tilfeldige variabler X 1, X 2,..., X m, som uttrykker kvaliteten på produkter og har en normalfordelingslov med matematiske forventninger, henholdsvis , a 1, a 2,..., a m og like varianser σ 2, så kommer denne oppgaven til å teste nullhypotesen H 0: a 1 =a 2 =...= a m, utført i variansanalyse.

Gjennomsnitt av en hvilken som helst indeks er indikert med en stjerne (eller prikk) i stedet for en indeks, så vil den gjennomsnittlige kvalitetsindikatoren for produktene i den i-te batchen, eller gruppegjennomsnittet for det i-te faktornivået, ha formen:

hvor i * – gjennomsnittsverdi på tvers av kolonner;

Ij – element i observasjonsmatrisen;

n – prøvestørrelse.

Og det totale gjennomsnittet:

. (5)

Summen av kvadrerte avvik av observasjoner x ij fra det totale gjennomsnittet ** ser slik ut:

2 = 2 + 2 +

2 2 . (6)

Q = Q 1 + Q 2 + Q 3.

Siste ledd er null

siden summen av avvikene til verdiene til en variabel fra gjennomsnittet er lik null, dvs.

2 =0.

Den første termen kan skrives som:

Resultatet er en identitet:

Q = Q 1 + Q 2 , (8)

Hvor - total, eller total sum av kvadrerte avvik;

- summen av kvadrerte avvik av gruppegjennomsnitt fra det totale gjennomsnittet, eller intergruppe (faktoriell) sum av kvadrerte avvik;

- summen av kvadrerte avvik av observasjoner fra gruppemidler, eller intragruppe (residual) summen av kvadrerte avvik.

Utvidelse (8) inneholder hovedideen til variansanalyse. I forhold til problemet under vurdering, viser likhet (8) at den totale variasjonen av kvalitetsindikatoren, målt ved summen Q, består av to komponenter - Q 1 og Q 2, som karakteriserer variasjonen til denne indikatoren mellom batcher (Q 1 ) og variasjon innen batcher (Q 2), som karakteriserer den samme variasjonen for alle batcher under påvirkning av urapporterte faktorer.

I variansanalyse er det ikke summene av kvadrerte avvik i seg selv som analyseres, men de såkalte middelkvadratene, som er upartiske estimater av de tilsvarende variansene, som oppnås ved å dividere summene av kvadrerte avvik med tilsvarende antall grader av frihet.

Antall frihetsgrader er definert som det totale antallet observasjoner minus antall ligninger som forbinder dem. Derfor, for middelkvadraten s 1 2, som er et objektivt estimat av spredningen mellom grupper, antall frihetsgrader k 1 =m-1, siden det i beregningen brukes m gruppemidler, sammenkoblet med en ligning (5) . Og for middelkvadraten s22, som er et objektivt estimat av intragruppevariansen, antall frihetsgrader k2=mn-m, fordi når den beregnes, brukes alle mn-observasjoner, sammenkoblet med m-ligninger (4).

Dermed:

Hvis vi finner de matematiske forventningene til de gjennomsnittlige kvadratene og , og erstatter uttrykket xij (1) i deres formler gjennom modellparametrene, får vi:

(9)

fordi tar hensyn til egenskapene til matematisk forventning

EN

(10)

For modell I med faste nivåer av faktor F i (i=1,2,...,m) er ikke-tilfeldige verdier, derfor

M(S) = 2 /(m-1) +σ 2.

Hypotese H 0 vil ha formen F i = F * (i = 1,2,...,m), dvs. påvirkningen av alle nivåer av faktoren er den samme. Hvis denne hypotesen er sann

M(S)= M(S)= σ2.

For tilfeldig modell II er begrepet Fi i uttrykk (1) en tilfeldig størrelse. Kaller det varians

vi får fra (9)

(11)

og som i modell I

Tabell 1.1 viser en generell oversikt over beregning av verdier ved bruk av variansanalyse.

Tabell 1.1 – Grunnleggende tabell over variansanalyse

Varianskomponenter

Summen av kvadrater

Antall frihetsgrader

Midtfirkant

Forventning av gjennomsnittlig kvadrat

Intergruppe

Intragruppe

Hypotese H 0 vil ha formen σ F 2 =0. Hvis denne hypotesen er sann

M(S)= M(S)= σ2.

Når det gjelder et enfaktorkompleks for både modell I og modell II, er middelkvadratene S 2 og S 2 objektive og uavhengige estimater av samme varians σ 2 .

Følgelig ble testing av nullhypotesen H0 redusert til å teste signifikansen av forskjellen mellom de objektive prøveestimatene S og S for variansen σ2.

Hypotese H 0 forkastes dersom den faktisk beregnede verdien av statistikken F = S/S er større enn den kritiske verdien F α: K 1: K 2, bestemt på signifikansnivået α med antall frihetsgrader k 1 =m -1 og k 2 =mn-m, og akseptert hvis F< F α: K 1: K 2 .

Fisher F-fordelingen (for x > 0) har følgende tetthetsfunksjon (for = 1, 2, ...; = 1, 2, ...):

hvor er grader av frihet;

G - gammafunksjon.

I forhold til dette problemet betyr tilbakevisning av hypotesen H 0 tilstedeværelsen av betydelige forskjeller i kvaliteten på produktene fra forskjellige partier på det betraktede betydningsnivået.

For å beregne summene av kvadratene Q 1 , Q 2 , Q er det ofte praktisk å bruke følgende formler:

(12)

(13)

(14)

de. Generelt sett er det ikke nødvendig å finne gjennomsnittene selv.

Prosedyren for enveisvariansanalyse består således av å teste hypotesen H 0 om at det er én gruppe homogene eksperimentelle data mot alternativet at det er mer enn én slik gruppe. Homogenitet refererer til likheten mellom midler og varianser i enhver delmengde av data. I dette tilfellet kan avvik enten være kjent eller ukjent på forhånd. Hvis det er grunn til å tro at den kjente eller ukjente variansen av målinger er den samme over hele datasettet, reduseres oppgaven med enveis variansanalyse til å studere betydningen av forskjellen i gjennomsnitt i grupper av data /1 /.

1.3 Multivariat varians analyse

Det skal umiddelbart bemerkes at det ikke er noen grunnleggende forskjell mellom multivariat og enveis variansanalyse. Multivariat analyse endrer ikke den generelle logikken til variansanalyse, men kompliserer den bare noe, siden i tillegg til å ta hensyn til påvirkningen av hver faktor på den avhengige variabelen separat, bør deres felles effekt også vurderes. Hva ny multivariat variansanalyse bringer med seg til dataanalyse, gjelder derfor hovedsakelig evnen til å vurdere interfaktorinteraksjon. Det er imidlertid fortsatt mulig å vurdere påvirkningen av hver faktor separat. I denne forstand er prosedyren for multivariat variansanalyse (i versjonen av datamaskinbruken) utvilsomt mer økonomisk, siden den i bare en kjøring løser to problemer samtidig: påvirkningen av hver faktor og deres interaksjon vurderes /3/ .

Det generelle opplegget for et tofaktoreksperiment, hvis data behandles ved variansanalyse, har formen:



Figur 1.1 – Skjema for et tofaktoreksperiment

Data som er gjenstand for multivariat variansanalyse merkes ofte i henhold til antall faktorer og deres nivåer.

Forutsatt at i problemet under vurdering om kvaliteten på forskjellige m partier av produkter, ble de produsert på forskjellige t maskiner, og det er nødvendig å finne ut om det er betydelige forskjeller i kvaliteten på produktene for hver faktor:

A - parti med produkter;

B - maskin.

Resultatet er en overgang til problemet med tofaktoranalyse av varians.

Alle data er presentert i tabell 1.2, der radene er nivåene A i av faktor A, kolonnene er nivåene B j av faktor B, og i de tilsvarende cellene i tabellen er verdiene til produktkvalitetsindikatoren x ijk (i=1,2,...,m; j=1,2,...,l;

Tabell 1.2 – Produktkvalitetsindikatorer

x 11l,...,x 11k

x 12l,...,x 12k

x 1jl ,…,x 1jk

x 1ll ,…,x 1lk

x 2 1l ,…,x 2 1k

x 22l,...,x 22k

x 2jl ,…,x 2jk

x 2ll ,…,x 2lk

x i1l ,…,x i1k

x i2l ,…,x i2k

x ijl ,…,x ijk

x jll ,…,x jlk

x m1l,...,x m1k

x m2l ,...,x m2k

x mjl ,…,x mjk

x ml ,..., x mlk

To-faktor variansmodellen har formen:

x ijk =μ+F i +G j +I ij +ε ijk , (15)

hvor x ijk er observasjonsverdien i celle ij med nummer k;

μ - samlet gjennomsnitt;

F i - effekt forårsaket av påvirkningen av det i-te nivået av faktor A;

G j - effekt forårsaket av påvirkningen av det jte nivået av faktor B;

I ij - effekt forårsaket av samspillet mellom to faktorer, dvs. avvik fra observasjonsgjennomsnittet i celle ij fra summen av de tre første leddene i modell (15);

ε ijk er en forstyrrelse forårsaket av variasjonen av en variabel i en enkelt celle.

Det antas at ε ijk har en normalfordelingslov N(0; c 2), og alle matematiske forventninger F *, G *, I i *, I * j er lik null.

Gruppegjennomsnitt er funnet ved å bruke formlene:

I cellen:

etter linje:

etter kolonne:

totalt gjennomsnitt:

Tabell 1.3 viser en generell oversikt over beregning av verdier ved bruk av variansanalyse.

Tabell 1.3 – Grunnleggende tabell over variansanalyse

Varianskomponenter

Summen av kvadrater

Antall frihetsgrader

Gjennomsnittlige firkanter

Intergruppe (faktor A)

Intergruppe (faktor B)

Interaksjon

Rest

Testing av nullhypotesene HA, HB, HAB om fravær av påvirkning på variabelen under vurdering av faktorene A, B og deres interaksjon AB utføres ved å sammenligne forholdstallene , , (for modell I med faste nivåer av faktorer) eller forhold , , (for tilfeldig modell II) med tilsvarende tabellverdier F – Fisher-Snedecor test. For blandet modell III utføres testing av hypoteser om faktorer med faste nivåer på samme måte som i modell II, og for faktorer med tilfeldige nivåer - som i modell I.

Hvis n=1, dvs. med én observasjon i en celle, kan ikke alle nullhypoteser testes siden Q3-komponenten faller ut av den totale summen av kvadrerte avvik, og med den middelkvadraten, siden det i dette tilfellet ikke kan være snakk om samspillet mellom faktorer .

Fra beregningsteknologiens synspunkt, for å finne summene av kvadratene Q 1, Q 2, Q 3, Q 4, Q, er det mer hensiktsmessig å bruke formlene:

Q 3 = Q – Q 1 – Q 2 – Q 4.

Avvik fra de grunnleggende premissene for variansanalyse - normalitet for distribusjon av variabelen som studeres og varianslikhet i celler (hvis den ikke er overdreven) - påvirker ikke resultatene av variansanalysen med like mange observasjoner i celler signifikant. , men kan være svært følsomme hvis antallet er ulikt. I tillegg, med et ulikt antall observasjoner i celler, øker kompleksiteten til variansanalyseapparatet kraftig. Derfor anbefales det å planlegge et design med like mange observasjoner i cellene, og hvis det mangler data, erstatt dem med gjennomsnittsverdiene til de andre observasjonene i cellene. I dette tilfellet bør imidlertid kunstig introduserte manglende data ikke tas i betraktning ved beregning av antall frihetsgrader /1/.

2 Anvendelse av variansanalyse i ulike prosesser og studier

2.1 Bruk av variansanalyse i studiet av migrasjonsprosesser

Migrasjon er et komplekst sosialt fenomen som i stor grad bestemmer de økonomiske og politiske aspektene ved samfunnet. Studiet av migrasjonsprosesser er assosiert med å identifisere faktorer av interesse, tilfredshet med arbeidsforhold og å vurdere påvirkningen av de resulterende faktorene på bevegelsen mellom grupper av befolkningen.

λ ij =c i q ij a j ,

hvor λ ij er intensiteten av overganger fra den opprinnelige gruppen i (utgang) til den nye gruppen j (inngang);

c i – mulighet og evne til å forlate gruppe i (c i ≥0);

q ij – attraktiviteten til den nye gruppen sammenlignet med den opprinnelige (0≤q ij ≤1);

a j – tilgjengelighet av gruppe j (a j ≥0).

ν ij ≈ n i λ ij =n i c i q ij a j . (16)

I praksis, for et individ, er sannsynligheten p for å flytte til en annen gruppe liten, og størrelsen på den aktuelle gruppen n er stor. I dette tilfellet gjelder loven om sjeldne hendelser, det vil si at grensen ν ij er Poisson-fordelingen med parameteren μ=np:

.

Når μ øker, nærmer fordelingen seg normal. Den transformerte verdien √ν ij kan betraktes som normalfordelt.

Hvis vi tar logaritmen til uttrykk (16) og gjør de nødvendige substitusjonene av variabler, kan vi få en variansanalysemodell:

ln√ν ij =½lnν ij =½(lnn i +lnc i +lnq ij +lna j)+ε ij ,

X i,j =2ln√ν ij -lnn i -lnq ij ,

Xi,j =Ci +Aj +ε.

Verdiene til C i og A j lar oss oppnå en toveis ANOVA-modell med én observasjon per celle. Den inverse transformasjonen fra C i og A j beregner koeffisientene c i og a j.

Når du utfører variansanalyse, bør følgende verdier tas som verdiene til den resulterende karakteristikken Y:

X=(X 1,1 +X 1,2 +:+X mi,mj)/mimj,

hvor mimj er estimatet av den matematiske forventningen til X i,j;

X mi og X mj er antall utgangs- og inngangsgrupper, henholdsvis.

Nivåene til faktor I vil være mi utgangsgrupper, nivåene til faktor J vil være mj inngangsgrupper. Det antas mi=mj=m. Oppgaven går ut på å teste hypotesene H I og H J om likheten mellom matematiske forventninger til verdien Y på nivåene I i og på nivåene J j, i,j=1,...,m. Testing av hypotesen H I er basert på å sammenligne verdiene til objektive estimater av spredningen s I 2 og s o 2. Hvis hypotesen H I er riktig, så har verdien F (I) = s I 2 /s o 2 en Fisher-fordeling med frihetsgrader k 1 =m-1 og k 2 =(m-1)(m-1). For et gitt signifikansnivå α finnes det høyre kritiske punktet x pr, α cr. Hvis den numeriske verdien F (I) nummeret til mengden faller inn i intervallet (x pr, α cr, +∞), så forkastes hypotesen H I og det anses at faktor I påvirker den effektive attributten. Graden av denne påvirkningen basert på resultatene av observasjoner måles ved prøvebestemmelseskoeffisienten, som viser hvilken andel av variansen til den effektive karakteristikken i prøven som skyldes påvirkningen av faktor I på den. er nummer

2.2 Prinsipper for matematisk og statistisk analyse av biomedisinske forskningsdata

Avhengig av oppgaven, volumet og arten av materialet, typen data og deres forbindelser, bestemmes valget av metoder for matematisk prosessering på stadiene av begge foreløpige (for å vurdere arten av fordelingen i utvalget under studie) og sluttanalyse i samsvar med målene for studien. Et ekstremt viktig aspekt er å kontrollere homogeniteten til de utvalgte observasjonsgruppene, inkludert kontrollgruppene, som kan gjøres enten ved ekspertanalyse eller ved multivariate statistiske metoder (for eksempel ved bruk av klyngeanalyse). Men det første trinnet er utarbeidelsen av et spørreskjema, som gir en standardisert beskrivelse av egenskapene. Spesielt når man utfører epidemiologiske studier, der det er behov for enhet i forståelsen og beskrivelsen av de samme symptomene av forskjellige leger, inkludert å ta hensyn til omfanget av deres endringer (alvorlighetsgrad). I tilfelle av betydelige forskjeller i registreringen av innledende data (subjektiv vurdering av arten av patologiske manifestasjoner av forskjellige spesialister) og umuligheten av å bringe dem til en enkelt form på tidspunktet for innsamling av informasjon, kan den såkalte korreksjonen av kovariater da gjennomføres, som innebærer normalisering av variabler, dvs. eliminere abnormiteter av indikatorer i datamatrisen. "Koordinering av meninger" utføres under hensyntagen til legers spesialitet og erfaring, som deretter lar dem sammenligne undersøkelsesresultatene de mottar med hverandre. Multivariat variansanalyse og regresjonsanalyser kan brukes til dette formålet.

Skiltene kan enten være av samme type, som er sjelden, eller forskjellige typer. Dette begrepet refererer til deres forskjellige metrologiske vurdering. Kvantitative eller numeriske egenskaper er de som måles på en bestemt skala og på skalaer av intervaller og forhold (I gruppe av egenskaper). Kvalitativ, rangering eller skåring brukes til å uttrykke medisinske termer og begreper som ikke har numeriske betydninger (for eksempel alvorlighetsgraden av en tilstand) og måles på en rekkefølgeskala (gruppe II av tegn). Klassifisering eller nominell (for eksempel yrke, blodtype) måles i en skala av navn (III gruppe av tegn).

I mange tilfeller forsøkes det å analysere et ekstremt stort antall funksjoner, noe som bør bidra til å øke informasjonsinnholdet i den presenterte prøven. Imidlertid er valg av nyttig informasjon, det vil si valg av funksjoner, en helt nødvendig operasjon, siden for å løse et klassifiseringsproblem, må informasjon som inneholder informasjon som er nyttig for en gitt oppgave velges. Dersom dette av en eller annen grunn ikke utføres av forskeren selvstendig eller det ikke finnes tilstrekkelig begrunnede kriterier for å redusere dimensjonen av funksjonsrommet av materielle årsaker, gjennomføres kampen mot informasjonsredundans ved hjelp av formelle metoder ved å vurdere informasjonsinnholdet.

Analyse av varians lar deg bestemme påvirkningen av forskjellige faktorer (forhold) på karakteristikken (fenomenet) som studeres, som oppnås ved å dekomponere den totale variabiliteten (variansen uttrykt som summen av kvadrerte avvik fra det generelle gjennomsnittet) i individuelle komponenter forårsaket ved påvirkning av ulike kilder til variasjon.

Ved hjelp av variansanalyse undersøkes sykdomstrusler i nærvær av risikofaktorer. Konseptet relativ risiko tar for seg forholdet mellom pasienter med en bestemt sykdom og de uten den. Verdien av den relative risikoen gjør det mulig å bestemme hvor mange ganger sannsynligheten for å bli syk øker hvis den er til stede, noe som kan estimeres ved hjelp av følgende forenklede formel:

hvor a er tilstedeværelsen av karakteristikken i studiegruppen;

b - fravær av et tegn i studiegruppen;

c - tilstedeværelse av karakteristikken i sammenligningsgruppen (kontroll);

d - fravær av et tegn i sammenligningsgruppen (kontroll).

Den henførbare risikoindikatoren (rA) brukes til å vurdere andelen sykelighet knyttet til en gitt risikofaktor:

,

der Q er frekvensen av en risikomarkerende egenskap i befolkningen;

r" - relativ risiko.

Identifikasjon av faktorer som bidrar til forekomsten (manifestasjonen) av sykdommen, dvs. risikofaktorer kan utføres på ulike måter, for eksempel ved å vurdere informasjonsinnholdet med påfølgende rangering av tegn, som imidlertid ikke indikerer den kumulative effekten av de valgte parameterne, i motsetning til bruk av regresjon, faktoranalyser, metoder for mønstergjenkjenningsteori, som gjør det mulig å oppnå "symptomkomplekser" av risikofaktorer. I tillegg gjør mer komplekse metoder det mulig å analysere indirekte sammenhenger mellom risikofaktorer og sykdommer /5/.

2.3 Jordbiotesting

Ulike forurensninger som kommer inn i agrocenose, kan gjennomgå forskjellige transformasjoner i den, og dermed øke deres giftige effekt. Av denne grunn viste det seg å være nødvendig med metoder for integrert vurdering av kvaliteten på agrocenosekomponenter. Forskningen ble utført på grunnlag av multivariat variansanalyse i en 11-felts korn-gress-rad vekstskifte. Forsøket studerte påvirkningen av følgende faktorer: jordfruktbarhet (A), gjødselsystem (B), plantevernsystem (C). Jordfruktbarhet, gjødselsystem og plantevernsystem ble studert ved dosene 0, 1, 2 og 3. De grunnleggende alternativene ble presentert i følgende kombinasjoner:

000 - innledende fruktbarhetsnivå, uten bruk av gjødsel og plantevernmidler fra skadedyr, sykdommer og ugress;

111 - gjennomsnittlig nivå av jordfruktbarhet, minimumsdose gjødsel, biologisk beskyttelse av planter mot skadedyr og sykdommer;

222 - innledende nivå av jordfruktbarhet, gjennomsnittlig dose gjødsel, kjemisk beskyttelse av planter mot ugress;

333 - høyt nivå av jordfruktbarhet, høy dose gjødsel, kjemisk beskyttelse av planter mot skadedyr og sykdommer.

Vi studerte alternativer der bare én faktor ble presentert:

200 – fruktbarhet:

020 - gjødsel;

002 - plantevernmidler.

Og også alternativer med forskjellige kombinasjoner av faktorer - 111, 131, 133, 022, 220, 202, 331, 313, 311.

Hensikten med studien var å studere inhiberingen av kloroplaster og den momentane vekstkoeffisienten, som indikatorer på jordforurensning, i ulike varianter av et multifaktorielt eksperiment.

Inhiberingen av fototaksis av andematkloroplaster ble studert i forskjellige jordhorisonter: 0-20, 20-40 cm. Analyse av variabiliteten til fototaksis i forskjellige eksperimentelle varianter viste en betydelig påvirkning av hver faktor (jordfruktbarhet, gjødselsystem og plantevernsystem. ). Andelen av den totale variansen av jordfruktbarhet var 39,7 %, gjødselsystemer - 30,7 %, plantevernsystemer - 30,7 %.

For å studere den kombinerte påvirkningen av faktorer på hemming av kloroplastfototaksis, ble forskjellige kombinasjoner av eksperimentelle alternativer brukt: i det første tilfellet - 000, 002, 022, 222, 220, 200, 202, 020, i det andre tilfellet - 111, 333, 331, 313, 133, 311, 131.

Resultatene av en tofaktor variansanalyse indikerer en signifikant påvirkning av det samvirkende gjødselsystemet og plantevernsystemet på forskjeller i fototaksis for det første tilfellet (andelen i den totale variansen var 10,3 %). For det andre tilfellet ble det funnet en betydelig påvirkning av det interagerende jordfruktbarhets- og gjødselsystemet (53,2%).

Tre-faktor variansanalyse viste i det første tilfellet en signifikant påvirkning av samspillet mellom alle tre faktorene. Andelen av totalavviket var 47,9 %.

Den øyeblikkelige vekstkoeffisienten ble studert i forskjellige eksperimentelle varianter: 000, 111, 222, 333, 002, 200, 220. Den første fasen av testingen var før påføring av ugressmidler på høsthveteavlinger (april), den andre fasen var etter påføring av ugressmidler (mai) og siste etappe var tidspunktet for rengjøring (juli). Forgjengere - solsikke og mais for korn.

Utseendet til nye blader ble observert etter en kort etterslepfase med en periode med total dobling av frisk vekt på 2 - 4 dager.

I kontrollen og i hver variant, basert på de oppnådde resultatene, ble koeffisienten for øyeblikkelig populasjonsvekst r beregnet og deretter ble tidspunktet for dobling av antall blader (tdb) beregnet.

t dobbel =ln2/r.

Beregningen av disse indikatorene ble utført i dynamikk med analyse av jordprøver. Dataanalyse viste at doblingstiden for andematbestanden før jordarbeiding var kortest sammenlignet med dataene etter behandling og ved høsting. I dynamikken til observasjoner er responsen til jorda etter påføring av ugressmiddelet og på høstingstidspunktet av større interesse. Først av alt, samspillet med gjødsel og fruktbarhetsnivåer.

Noen ganger kan det å få en direkte respons på påføring av kjemikalier være komplisert av interaksjonen av stoffet med gjødsel, både organisk og mineral. Dataene som ble oppnådd gjorde det mulig å spore dynamikken i responsen til de påførte legemidlene, i alle varianter med kjemiske beskyttelsesmidler, der det ble observert et stopp i veksten av indikatoren.

Data fra enveis variansanalyse viste en signifikant påvirkning av hver indikator på veksthastigheten til andemat i det første stadiet. På det andre trinnet var effekten av forskjeller i jordfruktbarhet 65,0%, i gjødselsystemet og plantevernsystemet - 65,0% hver. Faktorene viste signifikante forskjeller i gjennomsnittlig øyeblikkelig vekstkoeffisient for alternativ 222 og opsjoner 000, 111, 333. På det tredje trinnet var andelen av den totale variansen av jordfruktbarhet 42,9 %, gjødselsystemer og plantevernsystemer – 42,9 % hver . En betydelig forskjell ble notert i gjennomsnittsverdiene for opsjoner 000 og 111, opsjoner 333 og 222.

De studerte jordprøvene fra feltovervåkingsalternativer skiller seg fra hverandre når det gjelder fototaksishemming. Påvirkningen av fruktbarhetsfaktorer, gjødselsystemet og plantevernmidler ble notert med andeler på 30,7 og 39,7 % i enfaktoranalyse i tofaktor- og trefaktoranalyse, ble fellespåvirkning av faktorer registrert.

Analyse av de eksperimentelle resultatene viste mindre forskjeller mellom jordhorisonter når det gjelder fototaksishemming. Forskjeller er notert basert på gjennomsnittsverdiene.

I alle varianter hvor plantevernmidler er tilgjengelig, observeres endringer i posisjonen til kloroplaster og stopp i veksten av andemat /6/.

2.4 Influensa forårsaker økt histaminproduksjon

Forskere fra barnesykehuset i Pittsburgh (USA) har fått de første bevisene på at histaminnivåene øker ved akutte luftveisvirusinfeksjoner. Til tross for at det tidligere ble antatt at histamin spiller en rolle i forekomsten av symptomer på akutte luftveisinfeksjoner i øvre luftveier.

Forskere var interessert i hvorfor mange bruker antihistaminer til selvmedisinering av forkjølelse og rennende nese, som i mange land er inkludert i OTC-kategorien, dvs. tilgjengelig uten resept fra lege.

Hensikten med denne studien var å finne ut om histaminproduksjonen økes under eksperimentell influensa A-virusinfeksjon.

15 friske frivillige ble injisert intranasalt med influensa A-virus og deretter overvåket for utvikling av infeksjon. Hver dag under sykdommen ble en morgenurinprøve tatt fra frivillige, og deretter ble histamin og dets metabolitter bestemt og den totale mengden histamin og dets metabolitter som ble utskilt per dag ble beregnet.

Sykdommen utviklet seg hos alle 15 frivillige. Variansanalyse bekreftet et betydelig høyere nivå av histamin i urinen på dag 2-5 med virusinfeksjon (p.<0,02) - период, когда симптомы «простуды» наиболее выражены. Парный анализ показал, что наиболее значительно уровень гистамина повышается на 2 день заболевания. Кроме этого, оказалось, что суточное количество гистамина и его метаболитов в моче при гриппе примерно такое же, как и при обострении аллергического заболевания.

Resultatene av denne studien gir det første direkte beviset på at histaminnivået øker ved akutte luftveisinfeksjoner /7/.

Dispersjonsanalyse i kjemi

Dispersjonsanalyse er et sett med metoder for å bestemme dispersitet, dvs. egenskapene til partikkelstørrelser i disperse systemer. Dispersjonsanalyse inkluderer forskjellige metoder for å bestemme størrelsen på frie partikler i flytende og gassformige medier, størrelsen på porekanaler i finporøse legemer (i dette tilfellet, i stedet for begrepet dispersjon, brukes det ekvivalente begrepet porøsitet), som samt det spesifikke overflatearealet. Noen dispersjonsanalysemetoder gjør det mulig å få et fullstendig bilde av partikkelstørrelses(volum)fordelingen, mens andre kun gir en gjennomsnittlig karakteristikk av dispersjon (porøsitet).

Den første gruppen inkluderer for eksempel metoder for å bestemme størrelsen på individuelle partikler ved direkte måling (silanalyse, optisk og elektronmikroskopi) eller ved indirekte data: sedimentasjonshastigheten til partikler i et viskøst medium (sedimentasjonsanalyse i et gravitasjonsfelt og i sentrifuger), størrelsen på elektriske strømpulser, som oppstår når partikler passerer gjennom et hull i en ikke-ledende partisjon (konduktometrisk metode).

Den andre gruppen av metoder kombinerer vurderingen av den gjennomsnittlige størrelsen på frie partikler og bestemmelsen av det spesifikke overflatearealet til pulver og porøse kropper. Den gjennomsnittlige partikkelstørrelsen bestemmes av intensiteten av spredt lys (nefelometri), ved bruk av et ultramikroskop, diffusjonsmetoder, etc., det spesifikke overflatearealet bestemmes av adsorpsjonen av gasser (damper) eller oppløste stoffer, av gasspermeabilitet, oppløsningshastighet og andre metoder. Nedenfor er bruksgrensene for ulike ANOVA-metoder (partikkelstørrelser i meter):

Silanalyse – 10 -2 -10 -4

Sedimentasjonsanalyse i et gravitasjonsfelt – 10 -4 -10 -6

Konduktometrisk metode – 10 -4 -10 -6

Mikroskopi – 10 -4 -10 -7

Filtreringsmetode – 10 -5 -10 -7

Sentrifugering – 10 -6 -10 -8

Ultrasentrifugering – 10 -7 -10 -9

Ultramikroskopi – 10 -7 -10 -9

Nefelometri – 10 -7 -10 -9

Elektronmikroskopi – 10 -7 -10 -9

Diffusjonsmetode – 10 -7 -10 -10

Dispersjonsanalyse er mye brukt i ulike felt av vitenskap og industriell produksjon for å vurdere spredningen av systemer (suspensjoner, emulsjoner, soler, pulvere, adsorbenter, etc.) med partikkelstørrelser fra flere millimeter (10 -3 m) til flere nanometer (10) -9 m) /8/.

2.6 Bruk av direkte bevisst forslag i våken tilstand i metoden for å trene fysiske egenskaper

Fysisk trening er et grunnleggende aspekt ved idrettstrening, siden den i større grad enn andre aspekter ved trening er preget av fysisk aktivitet som påvirker kroppens morfofunksjonelle egenskaper. Nivået av fysisk form bestemmer suksessen til teknisk trening, innholdet i utøverens taktikk og implementeringen av personlige egenskaper under trening og konkurranser.

En av hovedoppgavene til fysisk trening er utvikling av fysiske egenskaper. I denne forbindelse er det behov for å utvikle pedagogiske verktøy og metoder som tar hensyn til de aldersrelaterte egenskapene til unge idrettsutøvere, bevarer deres helse, ikke krever ekstra tid, og som samtidig stimulerer veksten av fysiske egenskaper og, som et resultat, sportsånd. Bruken av verbal heteropåvirkning i opplæringsprosessen i innledende treningsgrupper er et av de lovende forskningsområdene på dette problemet.

Analyse av teorien og praksisen for å implementere suggestiv verbal heteropåvirkning avslørte hovedmotsetningene:

Bevis på effektiv bruk av spesifikke metoder for verbal heteropåvirkning i treningsprosessen og den praktiske umuligheten av å bruke dem av treneren;

Anerkjennelse av direkte tilsiktet forslag (heretter referert til som DSS) i våken tilstand som en av hovedmetodene for verbal heteropåvirkning i de pedagogiske aktivitetene til en trener og mangelen på teoretisk begrunnelse for de metodiske trekk ved bruken av det i idrettstrening, og spesielt i prosessen med å utdanne fysiske egenskaper.

I forbindelse med de identifiserte motsetningene og utilstrekkelig utvikling, forutbestemte problemet med å bruke et system med metoder for verbal heteropåvirkning i prosessen med å utdanne de fysiske egenskapene til idrettsutøvere målet med studien - å utvikle rasjonelle, målrettede metoder for PPV i våken tilstand , som bidrar til å forbedre prosessen med å utdanne fysiske kvaliteter basert på en vurdering av den mentale tilstanden, manifestasjonen og dynamikken til fysiske kvaliteter judoister av innledende treningsgrupper.

For å teste og bestemme effektiviteten til eksperimentelle PPV-metoder for å utvikle de fysiske egenskapene til judokaer, ble det utført et sammenlignende pedagogisk eksperiment, der fire grupper deltok - tre eksperimentelle og en kontroll. I den første eksperimentelle gruppen (EG) ble PPV M1-teknikken brukt, i den andre - PPV M2-teknikken, i den tredje - PPV M3-teknikken. I kontrollgruppen (CG) ble ikke PPV-teknikker brukt.

For å bestemme effektiviteten av den pedagogiske effekten av PPV-teknikker i prosessen med å utdanne judokas fysiske kvaliteter, ble det utført en en-faktor variansanalyse.

Graden av påvirkning av PPV M1-teknikken i utdanningsprosessen:

Utholdenhet:

a) etter den tredje måneden var 11,1 %;

Hastighetsevner:

a) etter den første måneden - 16,4%;

b) etter den andre - 26,5%;

c) etter den tredje - 34,8%;

a) etter den andre måneden - 26,7%;

b) etter den tredje - 35,3%;

Fleksibilitet:

a) etter den tredje måneden - 20,8%;

a) etter den andre måneden av det pedagogiske hovedeksperimentet var graden av påvirkning av metodikken 6,4 %;

b) etter den tredje - 10,2%.

Følgelig ble det funnet betydelige endringer i indikatorer på utviklingsnivået av fysiske kvaliteter ved bruk av PPV M1-teknikken i hastighetsevner og styrke, graden av påvirkning av teknikken i dette tilfellet er størst. Den minste grad av påvirkning av teknikken ble funnet i prosessen med å trene utholdenhet, fleksibilitet og koordinasjonsevner, noe som gir grunnlag for å snakke om den utilstrekkelige effektiviteten av å bruke PPV M1-teknikken til å trene disse egenskapene.

Graden av påvirkning av PPV M2-teknikken i utdanningsprosessen:

Utholdenhet

a) etter den første måneden av eksperimentet - 12,6%;

b) etter den andre - 17,8%;

c) etter den tredje - 20,3%.

Hastighetsevner:

a) etter den tredje måneden med treningsøkter - 28%.

a) etter den andre måneden - 27,9%;

b) etter den tredje - 35,9%.

Fleksibilitet:

a) etter den tredje måneden med treningsøkter - 14,9 %;

Koordinasjonsevner - 13,1%.

Det oppnådde resultatet av en enveis variansanalyse for denne EG lar oss konkludere med at PPV M2-teknikken er mest effektiv for å utvikle utholdenhet og styrke. Det er mindre effektivt i prosessen med å utvikle fleksibilitet, hurtighet og koordinasjonsevner.

Graden av påvirkning av PPV M3-teknikken i utdanningsprosessen:

Utholdenhet:

a) etter den første måneden av eksperimentet 16,8 %;

b) etter den andre - 29,5%;

c) etter den tredje - 37,6%.

Hastighetsevner:

a) etter den første måneden - 26,3%;

b) etter den andre - 31,3%;

c) etter den tredje - 40,9%.

a) etter den første måneden - 18,7%;

b) etter den andre - 26,7%;

c) etter den tredje - 32,3%.

Fleksibilitet:

a) etter den første - det er ingen endringer;

b) etter den andre - 16,9%;

c) etter den tredje - 23,5%.

Koordinasjonsevner:

a) etter den første måneden er det ingen endringer;

b) etter den andre - 23,8%;

c) etter den tredje - 91%.

Således viste en-faktor variansanalyse at bruken av PPV M3-teknikken i forberedelsesperioden er mest effektiv i prosessen med å utvikle fysiske kvaliteter, siden det er en økning i graden av dens innflytelse etter hver måned av det pedagogiske eksperimentet /9/.

2.7 Lindring av akutte psykotiske symptomer hos pasienter med schizofreni med et atypisk antipsykotikum

Formålet med studien var å studere muligheten for å bruke rispolept for lindring av akutt psykose hos pasienter diagnostisert med schizofreni (paranoid type i henhold til ICD-10) og schizoaffektiv lidelse. I dette tilfellet ble indikatoren for varigheten av vedvarende psykotiske symptomer under farmakoterapi med rispolept (hovedgruppe) og klassiske nevroleptika brukt som hovedkriteriet som ble studert.

Hovedmålene med studien var å bestemme varigheten av psykose (den såkalte nettopsykosen), som ble forstått som vedvarende produktive psykotiske symptomer fra det øyeblikket bruken av antipsykotika begynte, uttrykt i dager. Denne indikatoren ble beregnet separat for gruppen som tok risperidon og separat for gruppen som tok klassiske antipsykotika.

Sammen med dette ble oppgaven satt til å bestemme andelen reduksjon i produktive symptomer under påvirkning av risperidon sammenlignet med klassiske antipsykotika ved ulike behandlingsperioder.

Totalt ble 89 pasienter (42 menn og 47 kvinner) med akutte psykotiske symptomer innenfor den paranoide formen schizofreni (49 pasienter) og schizoaffektiv lidelse (40 pasienter) studert.

Den første episoden og sykdomsvarigheten på opptil 1 år ble registrert hos 43 pasienter, mens i de resterende tilfellene, på studietidspunktet, ble påfølgende episoder av schizofreni notert med en sykdomsvarighet på mer enn 1 år.

29 personer fikk behandling med rispolept, inkludert 15 pasienter med den såkalte første episoden. 60 personer fikk terapi med klassiske antipsykotika, inkludert 28 personer med den første episoden. Dosen av rispolept varierte i området fra 1 til 6 mg per dag og var i gjennomsnitt 4±0,4 mg/dag. Risperidon ble utelukkende tatt oralt etter måltider en gang daglig om kvelden.

Behandling med klassiske antipsykotika inkluderte bruk av trifluoperazin (triftazin) i en daglig dose på opptil 30 mg intramuskulært, haloperidol i en daglig dose på opptil 20 mg intramuskulært, og triperidol i en daglig dose på opptil 10 mg oralt. De aller fleste pasienter tok klassiske antipsykotika som monoterapi i løpet av de to første ukene, hvoretter de om nødvendig byttet (mens vrangforestillinger, hallusinatoriske eller andre produktive symptomer vedvarte) til en kombinasjon av flere klassiske antipsykotika. Samtidig forble et nevroleptika med en uttalt elektiv antidelusional og antihallucinatorisk effekt (for eksempel haloperidol eller triftazin) som hovedmedisin om kvelden, et medikament med en distinkt hypnoserende effekt ble tilsatt (aminazin, tizercin, klorprotiksen i doser; opptil 50-100 mg/dag).

I gruppen som tok klassiske antipsykotika, ble det foreskrevet å ta antikolinerge korrektorer (Parcopan, Cyclodol) i doser på opptil 10-12 mg/dag. Korrektorer ble foreskrevet ved forekomst av tydelige ekstrapyramidale bivirkninger i form av akutt dystoni, legemiddelindusert parkinsonisme og akatisi.

Tabell 2.1 viser data om varigheten av psykose under behandling med rispolept og klassiske antipsykotika.

Tabell 2.1 – Varighet av psykose ("netto psykose") under behandling med rispolept og klassiske antipsykotika

Som det følger av dataene i tabellen, når man sammenligner varigheten av psykose under terapi med klassiske nevroleptika og risperidon, observeres en nesten to ganger reduksjon i varigheten av psykotiske symptomer under påvirkning av risperidon. Det er betydelig at denne verdien av varigheten av psykosen ikke ble påvirket av verken faktorene til det ordinære antallet angrep eller arten av bildet av det ledende syndromet. Psykosens varighet ble med andre ord utelukkende bestemt av terapifaktoren, dvs. avhenger av typen medikament som ble brukt, uavhengig av serienummeret på angrepet, varigheten av sykdommen og arten av det ledende psykopatologiske syndromet.

For å bekrefte de oppnådde mønstrene ble det utført en to-faktor variansanalyse. I dette tilfellet ble interaksjonen mellom terapifaktoren og serienummeret til angrepet (1. stadium) og interaksjonen av terapifaktoren og arten av det ledende syndromet (2. stadium) tatt i betraktning. Resultatene av variansanalysen bekreftet påvirkningen av terapifaktoren på varigheten av psykose (F=18,8) i fravær av påvirkningen av faktoren for antall angrep (F=2,5) og faktoren til typen av psykopatologisk syndrom (F=1,7). Det er viktig at den felles påvirkningen av terapifaktoren og antallet angrep på varigheten av psykosen også var fraværende, samt felles påvirkning av terapifaktoren og den psykopatologiske syndromfaktoren.

Dermed bekreftet resultatene av variansanalysen påvirkningen av bare faktoren til antipsykotikaet som ble brukt. Rispolept førte klart til en reduksjon i varigheten av psykotiske symptomer sammenlignet med tradisjonelle antipsykotika med omtrent 2 ganger. Det er viktig at denne effekten ble oppnådd til tross for oral administrering av rispolept, mens klassiske antipsykotika ble brukt parenteralt hos de fleste pasienter /10/.

2.8 Vridning av fancy garn med roving-effekt

En ny struktur av en formet tråd med variable geometriske parametere er utviklet ved Kostroma State Technological University. I denne forbindelse oppstår problemet med å behandle fancy garn i forberedende produksjon. Denne studien ble viet vridningsprosessen på følgende spørsmål: valg av type strekkanordning som gir en minimumsspredning av strekk og utjevning av strekk, gjenger med forskjellige lineære tettheter langs bredden av vridningsakselen.

Formålet med studien er linformet tråd av fire varianter med lineær tetthet fra 140 til 205 tex. Driften av tre typer strekkanordninger ble studert: porselensvasker, to-sone NS-1P og en-sone NS-1P. En eksperimentell studie av spenningen til vridningstråder ble utført på en vridningsmaskin SP-140-3L. Vridningshastigheten og vekten til bremseskivene tilsvarte de teknologiske parametrene for garnvridning.

For å studere avhengigheten av spenningen til den formede tråden på de geometriske parameterne under vridning, ble det utført en analyse for to faktorer: X 1 - effektdiameter, X 2 - effektlengde. Utgangsparametrene er spenning Y 1 og spenningsfluktuasjon Y 2 .

De oppnådde regresjonsligningene er tilstrekkelige til de eksperimentelle dataene ved et signifikansnivå på 0,95, siden det beregnede Fisher-kriteriet for alle ligninger er mindre enn det tabellformede.

For å bestemme graden av påvirkning av faktorene X 1 og X 2 på parameterne Y 1 og Y 2 ble det utført en variansanalyse som viste at effektens diameter har større innflytelse på spenningsnivået og fluktuasjonen.

En komparativ analyse av de oppnådde tensogrammene viste at minimumsspredningen av spenning ved vring av dette garnet tilveiebringes av to-soners spenningsanordning NS-1P.

Det er fastslått at med en økning i lineær tetthet fra 105 til 205 tex, gir NS-1P-anordningen en økning i spenningsnivået med kun 23%, mens porselensvaskeren - med 37%, og enkeltsonen NS- 1P med 53 %.

Ved forming av vridningsaksler som inkluderer formede og "glatte" tråder, er det nødvendig å justere strekkanordningen individuelt ved å bruke den tradisjonelle metoden /11/.

2.9 Samtidig patologi med fullstendig tap av tenner hos eldre og senile mennesker

Fullstendig tap av tenner og samtidig patologi hos den eldre befolkningen som bor på sykehjem i Chuvashia ble studert epidemiologisk. Undersøkelsen ble utført gjennom en tannundersøkelse og utfylling av statistiske poster på 784 personer. Resultatene av analysen viste en høy prosentandel av fullstendig tanntap, forverret av kroppens generelle patologi. Dette karakteriserer den undersøkte kategorien av befolkningen som en gruppe med økt tannlegerisiko og krever en revisjon av hele tannpleiesystemet for dem.

Hos eldre er forekomsten to ganger høyere, og i alderdommen er den seks ganger høyere sammenlignet med forekomsten for yngre.

De viktigste sykdommene hos eldre og senile mennesker er sykdommer i sirkulasjonssystemet, nervesystemet og sensoriske organer, luftveisorganer, fordøyelsesorganer, bein og bevegelsesorganer, neoplasmer og skader.

Formålet med studien er å utvikle og innhente informasjon om samtidige sykdommer, effektiviteten av proteser og behov for ortopedisk behandling av eldre og senile personer med fullstendig tap av tenner.

Totalt ble 784 personer i alderen 45 til 90 år undersøkt. Forholdet mellom kvinner og menn er 2,8:1.

Evaluering av den statistiske sammenhengen ved bruk av Pearson-rangkorrelasjonskoeffisienten gjorde det mulig å etablere den gjensidige påvirkningen av manglende tenner på samtidig sykelighet med et reliabilitetsnivå på p = 0,0005. Eldre pasienter med fullstendig tap av tenner lider av sykdommer som er karakteristiske for alderdom, nemlig cerebral aterosklerose og hypertensjon.

Variansanalyse viste at under de studerte forholdene spiller spesifisiteten til sykdommen en avgjørende rolle. Rollen til nosologiske former i forskjellige aldersperioder varierer fra 52-60%. Den største statistisk signifikante innvirkningen på fravær av tenner er forårsaket av sykdommer i fordøyelsessystemet og diabetes mellitus.

Generelt var pasientgruppen i alderen 75-89 år preget av et stort antall patologiske sykdommer.

Denne studien gjennomførte en komparativ studie av forekomsten av samtidig patologi blant eldre og senile pasienter med fullstendig tap av tenner som bor på sykehjem. En høy prosentandel av manglende tenner ble avslørt blant personer i denne alderskategorien. Hos pasienter med fullstendig edentia observeres samtidig patologi som er karakteristisk for denne alderen. De vanligste symptomene blant de undersøkte personene var aterosklerose og hypertensjon. Påvirkningen av sykdommer som gastrointestinale sykdommer og diabetes mellitus på tilstanden til munnhulen var statistisk signifikant andelen av andre nosoologiske former var i området 52-60 %. Bruken av variansanalyse bekreftet ikke den signifikante rollen til kjønn og bosted på indikatorer for oral helse.

Avslutningsvis bør det derfor bemerkes at en analyse av fordelingen av samtidige sykdommer hos personer med fullstendig fravær av tenner i gammel og senil alder viste at denne kategorien borgere tilhører en spesiell gruppe av befolkningen som bør motta tilstrekkelig tannbehandling innenfor rammen av eksisterende tannlegesystemer /12/ .

3 Variansanalyse i sammenheng med statistiske metoder

Statistiske analysemetoder er en metodikk for å måle resultatene av menneskelig aktivitet, det vil si å oversette kvalitative egenskaper til kvantitative.

De viktigste stadiene når du utfører statistisk analyse:

Utarbeide en plan for innsamling av innledende data - verdier av inngangsvariabler (X 1,...,X p), antall observasjoner n. Dette trinnet utføres under aktiv eksperimentell planlegging.

Innhente innledende data og legge dem inn i datamaskinen. På dette stadiet dannes arrays av tall (x 1i,..., x pi; y 1i,..., y qi), i=1,..., n, hvor n er prøvestørrelsen.

Primær statistisk databehandling. På dette stadiet dannes en statistisk beskrivelse av parametrene som vurderes:

a) konstruksjon og analyse av statistiske avhengigheter;

b) korrelasjonsanalyse er ment å vurdere betydningen av påvirkningen av faktorer (X 1 ,...,X p) på responsen Y;

c) variansanalyse brukes til å vurdere påvirkningen av ikke-kvantitative faktorer (X 1,...,X p) på responsen Y for å velge den viktigste blant dem;

d) regresjonsanalyse er ment å bestemme den analytiske avhengigheten av respons Y på kvantitative faktorer X;

Tolking av resultater i forhold til oppgavesettet /13/.

Tabell 3.1 viser de statistiske metodene som brukes for å løse analytiske problemer. De tilsvarende cellene i tabellen inneholder frekvensene for anvendelse av statistiske metoder:

Merk "-" - metoden brukes ikke;

Merk "+" - metoden brukes;

Etikett "++" - metoden er mye brukt;

Etikett “+++” - bruk av metoden er av spesiell interesse /14/.

Analyse av varians, som Students t-test, lar deg evaluere forskjeller mellom utvalgsmidler; I motsetning til t-testen er det imidlertid ingen begrensning på antall middel som kan sammenlignes. I stedet for å spørre om to utvalgsmidler er forskjellige, kan man derfor vurdere om to, tre, fire, fem eller k gjennomsnitt er forskjellige.

Variansanalyse lar deg håndtere to eller flere uavhengige variabler (tegn, faktorer) samtidig, og vurderer ikke bare effekten av hver av dem separat, men også effekten av interaksjon mellom dem /15/.


Tabell 3.1 – Anvendelse av statistiske metoder ved løsning av analytiske problemer

Analytiske problemer som oppstår innen virksomhet, økonomi og ledelse

Deskriptive statistikkmetoder

Metoder for testing av statistiske hypoteser

Metoder for regresjonsanalyse

Metoder for variansanalyse

Multivariate analysemetoder

Diskriminerende analysemetoder

klynge

Analysemetoder

overlevelsesrate

Analysemetoder

og prognose

tidsserier

Oppgaver med horisontal (tidslig) analyse

Oppgaver med vertikal (strukturell) analyse

Oppgaver med trendanalyse og prognose

Oppgaver med å analysere relative indikatorer

Oppgaver med komparativ (romlig) analyse

Problemer med faktoranalyse

Pareto-prinsippet gjelder for de fleste komplekse systemer, hvor 20 % av faktorene bestemmer 80 % av systemets egenskaper. Derfor er den primære oppgaven til simuleringsmodellforskeren å filtrere ut uviktige faktorer, noe som gjør det mulig å redusere dimensjonen til modelloptimeringsproblemet.

Analyse av varians evaluerer avviket til observasjoner fra det totale gjennomsnittet. Variasjonen brytes deretter ned i deler, hver med sin egen årsak. Den gjenværende delen av variasjonen som ikke kan assosieres med de eksperimentelle forholdene regnes som dens tilfeldige feil. For å bekrefte signifikans brukes en spesiell test - F-statistikk.

Variansanalyse avgjør om det er en effekt. Regresjonsanalyse lar deg forutsi responsen (verdien av objektivfunksjonen) på et tidspunkt i parameterrommet. Den umiddelbare oppgaven med regresjonsanalyse er å estimere regresjonskoeffisientene /16/.

Prøvestørrelser som er for store gjør statistiske analyser vanskelige, så det er fornuftig å redusere prøvestørrelsen.

Ved å bruke variansanalyse kan du identifisere betydningen av ulike faktorers innflytelse på variabelen som studeres. Hvis påvirkningen av en faktor viser seg å være ubetydelig, kan denne faktoren utelukkes fra videre behandling.

Makroøkonometrer må være i stand til å løse fire logisk distinkte problemer:

Beskrivelse av data;

Makroøkonomisk prognose;

Strukturell slutning;

Politisk analyse.

Databeskrivelse betyr å beskrive egenskapene til en eller flere tidsserier og formidle disse egenskapene til et bredt spekter av økonomer. Makroøkonomiske prognoser betyr å forutsi forløpet av økonomien, vanligvis to til tre år eller mindre (hovedsakelig fordi prognoser over lengre horisonter er for vanskelig). Strukturell slutning betyr å teste om makroøkonomiske data passer til en bestemt økonomisk teori. Makroøkonometrisk politikkanalyse skjer i flere retninger: på den ene siden vurderes virkningen på økonomien av en hypotetisk endring i virkemiddelapparatet (for eksempel skattesatsen eller kortsiktig rente), på den andre siden vurderes virkningen av en endring i politiske regler (for eksempel en overgang til et nytt pengepolitisk regime) vurderes. Et empirisk makroøkonomisk forskningsprosjekt kan involvere ett eller flere av disse fire målene. Hvert problem må løses på en slik måte at det tas hensyn til korrelasjoner mellom tidsserier.

På 1970-tallet ble disse problemene løst ved hjelp av en rekke metoder som, vurdert ut fra dagens perspektiv, var utilstrekkelige av flere grunner. For å beskrive dynamikken til en enkelt serie, var det nok å bare bruke endimensjonale modeller av tidsserier, og å beskrive fellesdynamikken til to serier - spektralanalyse. Imidlertid var det ikke noe generelt akseptert språk som var egnet for systematisk å beskrive de felles dynamiske egenskapene til flere tidsserier. Økonomiske prognoser ble laget ved å bruke enten forenklede autoregressive moving average (ARMA)-modeller eller de store strukturelle økonometriske modellene som var populære på den tiden. Strukturell slutning var basert enten på små enkeltlikningsmodeller eller på store modeller der identifikasjon ble oppnådd gjennom dårlig begrunnede utelukkelsesrestriksjoner og som typisk ikke inkluderte forventninger. Politisk analyse basert på strukturelle modeller var avhengig av disse identifiserende forutsetningene.

Til slutt ble prisøkningene på 1970-tallet av mange sett på som en stor fiasko for de store modellene som da ble brukt til å komme med politiske anbefalinger. Det vil si at det var et passende tidspunkt for et nytt makroøkonometrisk rammeverk som kunne løse disse mange problemene.

I 1980 ble et slikt design laget - vektor autoregresjoner (VAR). Ved første øyekast er VAR ikke noe mer enn en generalisering av univariat autoregresjon til det multivariate tilfellet, og hver ligning i VAR er ikke noe mer enn en vanlig minste kvadraters regresjon av en variabel på de etterskrevne verdiene av seg selv og de andre variablene i VAR. Men dette tilsynelatende enkle verktøyet gjorde det mulig å systematisk og internt sammenhengende fange den rike dynamikken til multivariate tidsserier, og de statistiske verktøyene som fulgte med VAR var praktiske og, veldig viktig, enkle å tolke.

Det er tre forskjellige VAR-modeller:

Redusert form for VAR;

Rekursiv VAR;

Strukturell VAR.

Alle tre er dynamiske lineære modeller som relaterer nåværende og tidligere verdier av vektoren Y t til en n-dimensjonal tidsserie. Redusert form og rekursive VAR-er er statistiske modeller som ikke bruker andre økonomiske hensyn enn variabelseleksjon. Disse VAR-ene brukes til å beskrive dataene og lage en prognose. Strukturell VAR inneholder begrensninger avledet fra makroøkonomisk teori, og denne VAR brukes til strukturelle slutninger og policyanalyse.

Den reduserte formen for VAR uttrykker Y t som et distribuert etterslep av tidligere verdier pluss et serielt ukorrelert feilledd, det vil si at den generaliserer univariat autoregresjon til tilfellet med vektorer. Den matematisk reduserte formen av VAR-modellen er et system av n ligninger, som kan skrives i matriseform som følger:

hvor  er n l vektor av konstanter;

A 1 , A 2 , ..., A p er n n matrisen av koeffisienter;

t, er en nl vektor av serielt ukorrelerte feil som antas å ha et gjennomsnitt på null og en kovariansmatrise.

Feil  t i (17) er uventet dynamikk i Y t som gjenstår etter å ha tatt i betraktning den lineært distribuerte forsinkelsen til tidligere verdier.

Det er lett å estimere parametrene til den reduserte formen VAR. Hver av likningene inneholder de samme regressorene (Y t–1 ,...,Y t–p), og det er ingen gjensidige begrensninger mellom likningene. Dermed er den effektive estimeringen (maksimal sannsynlighet med full informasjon) forenklet til vanlig OLS brukt på hver av ligningene. Feilkovariansmatrisen kan meningsfullt estimeres av prøven kovariansmatrisen av residualene hentet fra OLS.

Det eneste trikset er å bestemme ettersleplengden p, men dette kan gjøres ved å bruke et informasjonskriterium som AIC eller BIC.

På matriseligningsnivået ser rekursiv og strukturell VAR like ut. Disse to VAR-modellene tar eksplisitt i betraktning samtidige interaksjoner mellom elementer av Y t , noe som utgjør å legge til et samtidig ledd til høyre side av ligningen (17). Følgelig er både rekursiv og strukturell VAR representert i følgende generelle form:

hvor  er en vektor av konstanter;

Bo,..., Bp-matriser;

 t - feil.

Tilstedeværelsen av matrise B 0 i ligningen betyr muligheten for samtidig interaksjon mellom n variabler; det vil si at B 0 lar disse variablene knyttet til samme tidspunkt bestemmes i fellesskap.

Rekursiv VAR kan estimeres på to måter. Den rekursive strukturen produserer et sett med rekursive ligninger som kan estimeres ved hjelp av OLS. En ekvivalent estimeringsmetode er at de reduserte formlikningene (17), sett på som et system, multipliseres til venstre med en lavere trekantmatrise.

Metoden for å estimere den strukturelle VAR avhenger av hvordan B 0 identifiseres. Den delvise informasjonstilnærmingen innebærer bruk av som to-trinns minste kvadrater. Den fullstendige informasjonstilnærmingen innebærer bruk av estimeringsmetoder med flere ligninger som tre-trinns minste kvadrater.

Det er viktig å huske at det finnes mange forskjellige typer VAR. Den gitte formen for VAR er unik. En gitt rekkefølge av variabler i Y t tilsvarer en enkelt rekursiv VAR, men det er n totalt! slike bestillinger, dvs. n! ulike rekursive VAR-er. Antall strukturelle VAR-er – det vil si sett med antakelser som identifiserer samtidige forhold mellom variabler – begrenses bare av forskerens oppfinnsomhet.

Siden matrisene til estimerte VAR-koeffisienter er vanskelige å tolke direkte, er resultatene av VAR-estimering vanligvis representert av noen funksjoner til disse matrisene. Slik statistikk brukes til å dekomponere prognosefeilen.

Prberegnes hovedsakelig for rekursive eller strukturelle systemer. Denne variansdekomponeringen viser hvor viktig feilen i den jth ligningen er for å forklare uventede endringer i den ith variabelen. Når VAR-feilene er ukorrelert på tvers av ligningene, kan variansen av prognosefeilen h perioder fremover skrives som summen av komponentene som er et resultat av hver av disse feilene /17/.

3.2 Faktoranalyse

I moderne statistikk forstås faktoranalyse som et sett med metoder som, basert på virkelige sammenhenger mellom egenskaper (eller objekter), gjør det mulig å identifisere latente generelle egenskaper ved organisasjonsstrukturen og utviklingsmekanismen til fenomenene og prosessene studert.

Begrepet latens i definisjonen er nøkkelen. Det betyr implisitten av egenskaper avslørt ved bruk av faktoranalysemetoder. Først tar vi for oss et sett med elementære trekk X j deres interaksjon forutsetter tilstedeværelsen av visse årsaker, spesielle forhold, dvs. eksistensen av noen skjulte faktorer. Sistnevnte er etablert som et resultat av generalisering av elementære trekk og fungerer som integrerte kjennetegn, eller trekk, men på et høyere nivå. Naturligvis kan ikke bare trivielle trekk X j korrelere, men også de observerte objektene N i selv, derfor er søket etter latente faktorer teoretisk mulig ved å bruke både trekk- og objektdata.

Hvis objekter er preget av et tilstrekkelig stort antall elementære trekk (m > 3), så er en annen antakelse logisk - om eksistensen av tette klynger av punkter (trekk) i rommet til n objekter. I dette tilfellet generaliserer de nye aksene ikke lenger funksjonene X j, men objektene n i, henholdsvis, og de latente faktorene F r vil bli gjenkjent av sammensetningen av de observerte objektene:

F r = c 1 n 1 + c 2 n 2 + ... + c N n N ,

hvor c i er vekten av objektet n i i faktoren F r.

Avhengig av hvilken av typene korrelasjoner diskutert ovenfor - elementære egenskaper eller observerte objekter - som studeres i faktoranalyse, skilles R og Q - tekniske metoder for databehandling.

Navnet på R-teknikken er volumetrisk dataanalyse for m funksjoner, som et resultat av at r lineære kombinasjoner (grupper) av funksjoner oppnås: F r =f(X j), (r=1..m). Analyse basert på data om nærhet (forbindelse) av n observerte objekter kalles Q-teknikk og lar deg bestemme r lineære kombinasjoner (grupper) av objekter: F=f(n i), (i = l .. N).

For tiden løses i praksis mer enn 90 % av problemene ved hjelp av R-teknologi.

Utvalget av faktoranalysemetoder er for tiden ganske stort og inkluderer dusinvis av forskjellige tilnærminger og databehandlingsteknikker. For å fokusere på riktig valg av metoder i forskning, er det nødvendig å forstå funksjonene deres. La oss dele alle metodene for faktoranalyse inn i flere klassifiseringsgrupper:

Hovedkomponentmetode. Det er strengt tatt ikke klassifisert som faktoranalyse, selv om det har mye til felles med det. Det som er spesifikt er for det første at under beregningsprosedyrene oppnås alle hovedkomponentene samtidig og antallet er i utgangspunktet lik antallet elementære funksjoner. For det andre postuleres muligheten for en fullstendig dekomponering av variansen av elementære egenskaper, med andre ord dens fullstendige forklaring gjennom latente faktorer (generaliserte egenskaper).

Metoder for faktoranalyse. Spredningen av elementære egenskaper er ikke fullstendig forklart her, det erkjennes at en del av spredningen forblir ukjent som karakteristisk. Faktorer identifiseres vanligvis sekvensielt: den første, som forklarer den største andelen variasjon i elementære egenskaper, deretter den andre, som forklarer en mindre del av variansen, den andre etter den første latente faktoren, den tredje, osv. Prosessen med å identifisere faktorer kan avbrytes på ethvert trinn hvis det tas en avgjørelse om tilstrekkeligheten av andelen forklart variasjon av elementære egenskaper eller tar hensyn til tolkningen av latente faktorer.

Det er tilrådelig å dele faktoranalysemetoder ytterligere inn i to klasser: forenklede og moderne tilnærmingsmetoder.

Enkle faktoranalysemetoder er hovedsakelig assosiert med innledende teoretiske utviklinger. De har begrenset evne til å identifisere latente faktorer og tilnærme faktorløsninger. Disse inkluderer:

En-faktor modell. Den lar oss identifisere bare én generell latent og én karakteristisk faktor. For eventuelt eksisterende andre latente faktorer gjøres det en antagelse om deres ubetydelighet;

Bifaktormodell. Tillater innflytelse av ikke én, men flere latente faktorer (vanligvis to) og én karakteristisk faktor på variasjonen av elementære egenskaper;

Centroid metode. I den betraktes korrelasjoner mellom variabler som en bunt av vektorer, og den latente faktoren er geometrisk representert som en balanserende vektor som går gjennom midten av denne bunten. : Metoden lar deg identifisere flere latente og karakteristiske faktorer, for første gang blir det mulig å korrelere faktorløsningen med originaldata, dvs. løse tilnærmingsproblemet i sin enkleste form.

Moderne tilnærmingsmetoder forutsetter ofte at den første, omtrentlige løsningen allerede er funnet med en eller annen metode i påfølgende trinn, denne løsningen er optimalisert. Metodene er forskjellige i kompleksiteten til beregningene. Disse metodene inkluderer:

Gruppemetode. Løsningen er basert på grupper av elementære funksjoner som er forhåndsvalgt på en eller annen måte;

Metode for hovedfaktorer. Det er nærmest hovedkomponentmetoden, forskjellen ligger i antagelsen om eksistensen av egenskaper;

Maksimal sannsynlighet, minimumsrester, a-faktoranalyse, kanonisk faktoranalyse, alt optimalisering.

Disse metodene gjør det mulig å konsekvent forbedre tidligere funnet løsninger basert på bruk av statistiske teknikker for å estimere en tilfeldig variabel eller statistiske kriterier de krever en stor mengde arbeidskrevende beregninger. Metoden for maksimal sannsynlighet er anerkjent som den mest lovende og praktiske for å jobbe i denne gruppen.

Hovedoppgaven, som løses ved forskjellige metoder for faktoranalyse, inkludert metoden for hovedkomponenter, er komprimering av informasjon, overgangen fra et sett med verdier for m elementære egenskaper med et volum av informasjon n x m til et begrenset sett av elementer i faktorkartleggingsmatrisen (m x r) eller matrise av latente verdier faktorer for hvert observert objekt med dimensjon n x r, og vanligvis r< m.

Faktoranalysemetoder gjør det også mulig å visualisere strukturen til fenomenene og prosessene som studeres, noe som betyr å bestemme deres tilstand og forutsi deres utvikling. Til slutt gir faktoranalysedata grunnlag for å identifisere objektet, dvs. løse problemet med bildegjenkjenning.

Faktoranalysemetoder har egenskaper som er svært attraktive for bruk som del av andre statistiske metoder, oftest i korrelasjons- og regresjonsanalyse, klyngeanalyse, flerdimensjonal skalering etc. /18/.

3.3 Paret regresjon. Probabilistisk karakter av regresjonsmodeller.

Hvis vi vurderer problemet med å analysere matkostnader i grupper med samme inntekt, for eksempel $10 000(x), så er dette en deterministisk verdi. Men Y - andelen av disse pengene brukt på mat - er tilfeldig og kan endres fra år til år. Derfor, for hver i-te person:

hvor ε i er en tilfeldig feil;

α og β er konstanter (teoretisk), selv om de kan variere fra modell til modell.

Forutsetninger for parvis regresjon:

X og Y er lineært beslektet;

X er en ikke-tilfeldig variabel med faste verdier;

- ε - feil er normalfordelt N(0,σ 2);

- .

Figur 3.1 viser den parvise regresjonsmodellen.

Figur 3.1 – Paret regresjonsmodell

Disse forutsetningene beskriver en klassisk lineær regresjonsmodell.

Hvis feilen har et gjennomsnitt som ikke er null, vil den opprinnelige modellen tilsvare den nye modellen og et annet dummyledd, men med nullmiddelverdi for feilen.

Hvis premissene er oppfylt, er OLS-estimatorer effektive lineære objektive estimatorer

Hvis vi utpeker:

da vil den matematiske forventningen og variansen til koeffisientene være som følger:

Kovarians av koeffisienter:

Hvis da er de også normalfordelt:

Det følger at:

Variasjonen av β er fullstendig bestemt av variasjonen av ε;

Jo høyere variansen til X er, desto bedre er estimatet av β.

Den totale variansen bestemmes av formelen:

Variansen av avvik i denne formen er et objektivt estimat og kalles standardfeilen for regresjon. N-2 - kan tolkes som antall frihetsgrader.

Å analysere avvikene fra regresjonslinjen kan gi et nyttig mål på hvor godt den estimerte regresjonen reflekterer de faktiske dataene. En god regresjon er en som forklarer en betydelig del av variansen i Y, og omvendt sporer ikke en dårlig regresjon de fleste fluktuasjonene i de opprinnelige dataene. Det er intuitivt klart at eventuell tilleggsinformasjon vil forbedre modellen, det vil si redusere den uforklarlige andelen variasjon i Y. For å analysere regresjonsmodellen dekomponeres variansen i komponenter og bestemmelseskoeffisienten R 2 bestemmes.

Forholdet mellom to varianser er fordelt etter F-fordelingen, det vil si at hvis du sjekker for statistisk signifikans av forskjellen mellom modellens varians og variansen til residualene, kan du konkludere med at R2 er signifikant.

Tester hypotesen om varianslikheten til disse to prøvene:

Dersom hypotesen H 0 (om varianslikhet for flere utvalg) er sann, har t en F-fordeling med (m 1 ,m 2)=(n 1 -1,n 2 -1) frihetsgrader.

Ved å beregne F - forholdet som forholdet mellom to varianser og sammenligne det med tabellverdien, kan vi konkludere med at R 2 /2/, /19/ er statistisk signifikant.

Konklusjon

Moderne anvendelser av variansanalyse dekker et bredt spekter av problemer innen økonomi, biologi og teknologi og tolkes vanligvis i form av den statistiske teorien om å identifisere systematiske forskjeller mellom resultatene av direkte målinger gjort under visse skiftende forhold.

Takket være automatiseringen av variansanalyse kan en forsker utføre ulike statistiske studier ved hjelp av en datamaskin, samtidig som de bruker mindre tid og krefter på databeregninger. For tiden er det mange applikasjonsprogramvarepakker som implementerer dispersjonsanalyseapparatet. De vanligste programvareproduktene er:

De fleste statistiske metoder er implementert i moderne statistiske programvareprodukter. Med utviklingen av algoritmiske programmeringsspråk ble det mulig å lage flere blokker for behandling av statistiske data.

Variansanalyse er en kraftig moderne statistisk metode for å behandle og analysere eksperimentelle data innen psykologi, biologi, medisin og andre vitenskaper. Det er veldig nært knyttet til den spesifikke metodikken for utforming og gjennomføring av eksperimentell forskning.

Variansanalyse brukes på alle områder av vitenskapelig forskning der det er nødvendig å analysere påvirkningen av ulike faktorer på variabelen som studeres.

Bibliografi

1 Kremer N.Sh. Sannsynlighetsteori og matematisk statistikk. M.: Unity - Dana, 2002.-343 s.

2 Gmurman V.E. Sannsynlighetsteori og matematisk statistikk. – M.: Videregående skole, 2003.-523 s.

4 www.conf.mitme.ru

5 www.pedklin.ru

6 www.webcenter.ru

7 www.infecties.ru

8 www.encycl.yandex.ru

9 www.infosport.ru

10 www.medtrust.ru

11 www.flax.net.ru

12 www.jdc.org.il

13 www.big.spb.ru

14 www.bizcom.ru

15 Gusev A.N. Variansanalyse i eksperimentell psykologi. – M.: Pedagogisk og metodisk samler “Psykologi”, 2000.-136 s.

17 www.econometrics.exponenta.ru

18 www.optimizer.by.ru

Som allerede nevnt er spredningsmetoden nært knyttet til statistiske grupperinger og forutsetter at befolkningen som studeres er delt inn i grupper etter faktorkarakteristikker, hvis påvirkning bør studeres.

Basert på variansanalyse produseres følgende:

1. vurdering av påliteligheten til forskjeller i gruppemidler for en eller flere faktorkarakteristikker;

2. vurdere påliteligheten til faktorinteraksjoner;

3. vurdering av partielle forskjeller mellom middelpar.

Anvendelsen av variansanalyse er basert på loven om dekomponering av varianser (variasjoner) av en karakteristikk til komponenter.

Den totale variasjonen D o av den resulterende karakteristikken under gruppering kan dekomponeres i følgende komponenter:

1. til intergruppe D m assosiert med en grupperingskarakteristikk;

2. for gjenværende(intra-gruppe) D B ikke relatert til grupperingsegenskapen.

Forholdet mellom disse indikatorene er uttrykt som følger:

D o = D m + D in. (1.30)

La oss se på bruken av variansanalyse med et eksempel.

La oss si at du vil bevise om sådatoer påvirker hveteavlingene. De innledende eksperimentelle dataene for variansanalyse er presentert i tabell. 8.

Tabell 8

I dette eksemplet er N = 32, K = 4, l = 8.

La oss bestemme den totale totale variasjonen i utbytte, som er summen av kvadrerte avvik av individuelle verdier av en egenskap fra det totale gjennomsnittet:

hvor N er antall befolkningsenheter; Y i – individuelle avkastningsverdier; Y o er den samlede gjennomsnittlige avkastningen for hele befolkningen.

For å bestemme den totale variasjonen mellom grupper, som bestemmer variasjonen av den effektive karakteristikken på grunn av faktoren som studeres, er det nødvendig å kjenne gjennomsnittsverdiene til den effektive karakteristikken for hver gruppe. Denne totale variasjonen er lik summen av kvadrerte avvik av gruppegjennomsnitt fra den totale gjennomsnittsverdien av egenskapen, vektet med antall befolkningsenheter i hver gruppe:

Total variasjon innen gruppe er lik summen av kvadrerte avvik av individuelle verdier av en egenskap fra gruppegjennomsnitt for hver gruppe, summert over alle grupper i populasjonen.

Påvirkningen av en faktor på den resulterende karakteristikken manifesteres i forholdet mellom Dm og Dv: jo sterkere faktorens innflytelse på verdien av karakteristikken som studeres, jo større Dm og jo mindre Dv.

For å utføre variansanalyse er det nødvendig å etablere kildene til variasjon i en egenskap, volumet av variasjon etter kilde, og bestemme antall frihetsgrader for hver variasjonskomponent.

Mengden av variasjon er allerede etablert; Antall frihetsgrader er antall uavhengige avvik av individuelle verdier for en karakteristikk fra gjennomsnittsverdien. Det totale antallet frihetsgrader, tilsvarende den totale summen av kvadrerte avvik i ANOVA, dekomponeres i variasjonskomponenter. Dermed tilsvarer den totale summen av kvadrerte avvik D o antall variasjonsfrihetsgrader lik N – 1 = 31. Gruppevariasjonen D m ​​tilsvarer antall variasjonsfrihetsgrader lik K – 1 = 3. Den interne restvariasjonen tilsvarer antall variasjonsfrihetsgrader lik N – K = 28.


Når vi nå kjenner summen av kvadrerte avvik og antall frihetsgrader, kan vi bestemme variansene for hver komponent. La oss betegne disse variansene: d m - gruppe og d i - intragruppe.

Etter å ha beregnet disse variansene, vil vi fortsette å fastslå betydningen av faktorens innflytelse på den resulterende attributten. For å gjøre dette finner vi forholdet: d M / d B = F f,

Mengden F f, kalt Fisher-kriterium , sammenlignet med tabellen, F-tabell. Som allerede nevnt, hvis F f > F-tabellen, er påvirkningen av faktoren på den effektive attributten bevist. Hvis F f< F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Den teoretiske verdien er assosiert med sannsynlighet, og i tabellen er verdien gitt ved et visst sannsynlighetsnivå for dommen. Vedlegget inneholder en tabell som lar deg sette den mulige F-verdien for sannsynligheten for vurdering, den mest brukte: sannsynlighetsnivået for "nullhypotesen" er 0,05. I stedet for "nullhypotesen"-sannsynlighetene, kan tabellen kalles tabellen for sannsynligheten 0,95 for betydningen av faktorens påvirkning. Å øke sannsynlighetsnivået krever en høyere F-verdi i tabellen for sammenligning.

Verdien av F-tabellen avhenger også av antall frihetsgrader for de to dispersjonene som sammenlignes. Hvis antallet frihetsgrader har en tendens til uendelig, vil F-tabellen ha en tendens til enhet.

Tabellen med F-tabellverdier er konstruert som følger: kolonnene i tabellen indikerer graden av variasjonsfrihet for den større spredningen, og radene indikerer frihetsgradene for den mindre (innen-gruppen) spredningen. Verdien av F finnes i skjæringspunktet mellom kolonnen og raden med de tilsvarende variasjonsfrihetsgradene.

Så i vårt eksempel er F f = 21,3/3,8 = 5,6. Den tabellerte verdien av F-tabellen for en sannsynlighet på 0,95 og frihetsgrader, henholdsvis lik 3 og 28, F-tabellen = 2,95.

Verdien av F f oppnådd eksperimentelt overskrider den teoretiske verdien selv for en sannsynlighet på 0,99. Følgelig beviser erfaringen med en sannsynlighet på mer enn 0,99 påvirkningen av den studerte faktoren på utbyttet, det vil si at erfaringen kan betraktes som pålitelig, bevist, og derfor har såingstiden en betydelig innvirkning på utbyttet av hvete. Den optimale såperioden bør betraktes som perioden fra 10. til 15. mai, siden det var i denne såperioden de beste avlingsresultatene ble oppnådd.

Vi undersøkte metoden for variansanalyse når vi grupperte etter en karakteristikk og tilfeldig fordelte replikater i gruppen. Imidlertid skjer det ofte at forsøksområdet har noen forskjeller i jordfruktbarhet osv. Derfor kan det oppstå en situasjon at et større antall tomter av et av alternativene vil falle på den beste delen, og indikatorene vil bli overvurdert, og av det andre alternativet - av det verste, og resultatene i dette tilfellet vil naturligvis være dårligere, det vil si undervurdert.

For å utelukke variasjon som er forårsaket av årsaker som ikke er relatert til eksperimentet, er det nødvendig å isolere variansen beregnet fra replikater (blokker) fra variansen innen gruppe (rest).

Den totale summen av kvadrerte avvik er i dette tilfellet delt inn i 3 komponenter:

D o = D m + D gjenta + D hvile. (1,33)

For vårt eksempel vil summen av kvadrerte avvik forårsaket av repetisjoner være lik:

Derfor vil den faktiske tilfeldige summen av kvadrerte avvik være lik:

D hvile = D inn – D gjenta; D hvile = 106 – 44 = 62.

For restdispersjonen vil antall frihetsgrader være lik 28 – 7 = 21. Resultatene av variansanalysen er presentert i tabell. 9.

Tabell 9

Siden de faktiske verdiene av F-kriteriet for en sannsynlighet på 0,95 overstiger de som er angitt i tabeller, bør påvirkningen av sådatoer og repetisjoner på hveteutbytte anses som betydelig. Den vurderte metoden for å konstruere et eksperiment, når stedet er foreløpig delt inn i blokker med relativt justerte forhold, og de testede alternativene er fordelt innenfor blokken i en tilfeldig rekkefølge, kalles metoden for randomiserte blokker.

Ved å bruke variansanalyse kan du studere påvirkningen av ikke bare én faktor på resultatet, men to eller flere. Variansanalyse i dette tilfellet vil bli kalt multivariat variansanalyse .

Toveis ANOVA skiller seg fra to enkeltfaktorer ved at den kan svare på følgende spørsmål:

1. 1 hva er effekten av begge faktorene sammen?

2. Hva er rollen til kombinasjonen av disse faktorene?

La oss vurdere en variansanalyse av eksperimentet, der det er nødvendig å identifisere påvirkningen av ikke bare såingsdatoer, men også varianter på hveteutbyttet (tabell 10).

Tabell 10. Forsøksdata om påvirkning av sådatoer og sorter på hveteavling

er summen av kvadrerte avvik av individuelle verdier fra det totale gjennomsnittet.

Variasjon i felles påvirkning av såtid og variasjon

er summen av de kvadrerte avvikene til undergruppens gjennomsnitt fra det totale gjennomsnittet, vektet med antall replikasjoner, dvs. med 4.

Beregning av variasjon kun basert på påvirkning av sådatoer:

Residuell variasjon er definert som forskjellen mellom den totale variasjonen og variasjonen i felles påvirkning av de studerte faktorene:

D hvile = D o – D ps = 170 – 96 = 74.

Alle beregninger kan presenteres i form av en tabell (tabell 11).

Tabell 11. Resultater av variansanalyse

Resultatene av variansanalysen viser at påvirkningen av de studerte faktorene, det vil si såtid og variasjon, på hveteavlingen er betydelig, siden de faktiske F-kriteriene for hver av faktorene betydelig overstiger de tabellerte funnet for tilsvarende grader. av frihet, og samtidig med en ganske høy sannsynlighet (p = 0,99). Påvirkningen av en kombinasjon av faktorer i dette tilfellet er fraværende, siden faktorene er uavhengige av hverandre.

Analysen av tre faktorers innflytelse på resultatet utføres etter samme prinsipp som for to faktorer, bare i dette tilfellet vil det være tre varianser for faktorene og fire varianser for kombinasjonen av faktorer. Med en økning i antall faktorer øker volumet av beregningsarbeidet kraftig, og i tillegg blir det vanskelig å ordne den første informasjonen i en kombinasjonstabell. Derfor er det neppe tilrådelig å studere innflytelsen av mange faktorer på resultatet ved hjelp av variansanalyse; det er bedre å ta et mindre antall, men velg de viktigste faktorene fra synspunktet til økonomisk analyse.

Ofte må forskeren forholde seg til såkalte uforholdsmessige dispersjonskomplekser, dvs. de hvor proporsjonaliteten til antall varianter ikke er observert.

I slike komplekser er ikke variasjonen i den totale effekten av faktorer lik summen av variasjonen mellom faktorer og variasjonen i kombinasjonen av faktorer. Det er forskjellig med et beløp avhengig av graden av sammenhenger mellom individuelle faktorer som oppstår som følge av brudd på proporsjonaliteten.

I dette tilfellet oppstår det vanskeligheter med å bestemme graden av påvirkning av hver faktor, siden summen av individuelle påvirkninger ikke er lik den totale påvirkningen.

En av måtene å redusere et uforholdsmessig kompleks til en enkelt struktur er å erstatte det med et proporsjonalt kompleks, der frekvensene er gjennomsnittlig over grupper. Når en slik erstatning gjøres, løses problemet i henhold til prinsippene for proporsjonale komplekser.

Variansanalyse er et sett med statistiske metoder designet for å teste hypoteser om sammenhengen mellom visse egenskaper og studerte faktorer som ikke har en kvantitativ beskrivelse, samt å fastslå graden av påvirkning av faktorer og deres interaksjon. I den spesialiserte litteraturen kalles det ofte ANOVA (fra det engelske navnet Analysis of Variations). Denne metoden ble først utviklet av R. Fischer i 1925.

Typer og kriterier for variansanalyse

Denne metoden brukes til å studere sammenhengen mellom kvalitative (nominelle) egenskaper og en kvantitativ (kontinuerlig) variabel. I hovedsak tester den hypotesen om likheten mellom de aritmetiske middelverdiene til flere prøver. Dermed kan det betraktes som et parametrisk kriterium for å sammenligne sentrene til flere prøver samtidig. Hvis denne metoden brukes for to prøver, vil resultatene av variansanalysen være identiske med resultatene fra Studentens t-test. Men i motsetning til andre kriterier lar denne studien oss studere problemet mer detaljert.

Spredningsanalyse i statistikk er basert på loven: summen av kvadrerte avvik i det kombinerte utvalget er lik summen av kvadrerte intragruppeavvik og summen av kvadrerte intergruppeavvik. Studien bruker Fishers test for å fastslå betydningen av forskjellen mellom intergruppevarianser og interngruppevarianser. Imidlertid er de nødvendige forutsetningene for dette normalitet i distribusjon og homoskedastisitet (equality of varians) av prøver. Det er univariat (én-faktor) variansanalyse og multivariat (multifaktoriell). Den første vurderer avhengigheten av verdien som studeres på en egenskap, den andre - på mange på en gang, og lar oss også identifisere forbindelsen mellom dem.

Faktorer

Faktorer er kontrollerte omstendigheter som påvirker det endelige resultatet. Nivået eller behandlingsmetoden er en verdi som karakteriserer en spesifikk manifestasjon av denne tilstanden. Disse tallene presenteres vanligvis på en nominell eller ordinær måleskala. Ofte måles utgangsverdier på kvantitative eller ordinære skalaer. Da oppstår problemet med å gruppere utdata i en rekke observasjoner som tilsvarer omtrent de samme tallverdiene. Hvis antallet grupper anses å være for stort, kan antallet observasjoner i dem være utilstrekkelig til å oppnå pålitelige resultater. Hvis du tar tallet for lite, kan dette føre til tap av betydelige trekk ved innflytelsen på systemet. Den spesifikke måten å gruppere data på avhenger av mengden og arten av variasjoner i verdier. Antall og størrelse på intervaller i univariat analyse bestemmes oftest av prinsippet om like intervaller eller prinsippet om like frekvenser.

Analyse av variansproblemer

Så det er tilfeller når du trenger å sammenligne to eller flere prøver. Det er da det er tilrådelig å bruke variansanalyse. Navnet på metoden indikerer at konklusjoner trekkes basert på studiet av varianskomponenter. Essensen av studien er at den samlede endringen i indikatoren er delt inn i komponentdeler som tilsvarer handlingen til hver enkelt faktor. La oss vurdere en rekke problemer som løses ved typisk variansanalyse.

Eksempel 1

Verkstedet har en rekke automatiske maskiner som produserer en bestemt del. Størrelsen på hver del er en tilfeldig variabel som avhenger av oppsettet til hver maskin og de tilfeldige avvikene som oppstår under produksjonsprosessen av delene. Det er nødvendig å bestemme, basert på måledata for dimensjonene til delene, om maskinene er konfigurert på samme måte.

Eksempel 2

Under produksjon av en elektrisk enhet brukes ulike typer isolasjonspapir: kondensator, elektrisk osv. Apparatet kan impregneres med ulike stoffer: epoksyharpiks, lakk, ML-2 harpiks osv. Lekkasjer kan elimineres under vakuum kl. forhøyet trykk, med oppvarming. Impregnering kan gjøres ved nedsenking i lakk, under en kontinuerlig strøm av lakk osv. Det elektriske apparatet som helhet er fylt med en viss blanding, som det er flere alternativer av. Kvalitetsindikatorer er den elektriske styrken til isolasjonen, overopphetingstemperaturen til viklingen i driftsmodus og en rekke andre. Under utviklingen av den teknologiske prosessen med å produsere enheter, er det nødvendig å bestemme hvordan hver av de oppførte faktorene påvirker ytelsen til enheten.

Eksempel 3

Trolleybussdepotet betjener flere trolleybussruter. De driver med trolleybusser av ulike typer, og 125 kontrollører samler inn takster. Depotledelsen er interessert i spørsmålet: hvordan sammenligne de økonomiske indikatorene for hver kontroller (inntekt) med hensyn til forskjellige ruter og forskjellige typer trolleybusser? Hvordan bestemme den økonomiske gjennomførbarheten av å produsere trolleybusser av en bestemt type på en bestemt rute? Hvordan etablere rimelige krav til hvor mye inntekt en konduktør innbringer på hver rute i ulike typer trolleybusser?

Oppgaven med å velge en metode er hvordan man oppnår maksimal informasjon om påvirkningen av hver faktor på det endelige resultatet, bestemmer de numeriske egenskapene til en slik påvirkning, deres pålitelighet til minimale kostnader og på kortest mulig tid. Metoder for variansanalyse gjør det mulig å løse slike problemer.

Univariat analyse

Formålet med studien er å vurdere omfanget av påvirkningen av en bestemt sak på den analyserte oversikten. Et annet formål med univariat analyse kan være å sammenligne to eller flere omstendigheter med hverandre for å bestemme forskjellen i deres innvirkning på tilbakekalling. Hvis nullhypotesen forkastes, er neste trinn å kvantifisere og konstruere konfidensintervaller for de oppnådde egenskapene. I tilfellet hvor nullhypotesen ikke kan forkastes, aksepteres den vanligvis og det trekkes en konklusjon om påvirkningens art.

Enveis variansanalyse kan bli en ikke-parametrisk analog av Kruskal-Wallis-rangeringsmetoden. Det ble utviklet av den amerikanske matematikeren William Kruskal og økonomen Wilson Wallis i 1952. Dette kriteriet er utformet for å teste nullhypotesen om likheten mellom effekter på de studerte prøvene med ukjente, men like gjennomsnittsverdier. I dette tilfellet må antallet prøver være mer enn to.

Jonckheere-Terpstra-kriteriet ble foreslått uavhengig av den nederlandske matematikeren T. J. Terpstra i 1952 og den britiske psykologen E. R. Jonckheere i 1954. Det brukes når det er kjent på forhånd at de eksisterende gruppene av resultater er ordnet etter veksten av påvirkningen fra faktor under studie, som måles på en ordinær skala.

M - Bartletts test, foreslått av den britiske statistikeren Maurice Stevenson Bartlett i 1937, brukes til å teste nullhypotesen om varianslikheten til flere normale populasjoner som prøvene som studeres er tatt fra, vanligvis med forskjellige størrelser (antallet av hver prøven må være minst fire).

G - Cochrans test, som ble oppdaget av amerikaneren William Gemmell Cochran i 1941. Den brukes til å teste nullhypotesen om likheten av varianser av normale populasjoner i uavhengige prøver av lik størrelse.

Den ikke-parametriske Levene-testen, foreslått av den amerikanske matematikeren Howard Levene i 1960, er et alternativ til Bartlett-testen under forhold der det ikke er noen tillit til at prøvene som studeres er gjenstand for en normalfordeling.

I 1974 foreslo amerikanske statistikere Morton B. Brown og Alan B. Forsythe en test (Brown-Forsyth test) som er litt forskjellig fra Levenes test.

Tofaktoranalyse

Toveis variansanalyse brukes for relaterte normalfordelte prøver. I praksis brukes ofte komplekse tabeller for denne metoden, spesielt de der hver celle inneholder et sett med data (gjentatte målinger) som tilsvarer faste nivåverdier. Hvis forutsetningene som kreves for å anvende toveis variansanalyse ikke er oppfylt, så bruk den ikke-parametriske Friedman rangtesten (Friedman, Kendall og Smith), utviklet av den amerikanske økonomen Milton Friedman sent i 1930. Denne testen er ikke avhengig av typen. av distribusjon.

Det antas bare at fordelingen av verdier er identisk og kontinuerlig, og at de selv er uavhengige av hverandre. Når du tester nullhypotesen, presenteres utdataene i form av en rektangulær matrise, der radene tilsvarer nivåene til faktor B, og kolonnene tilsvarer nivåene til A. Hver celle i tabellen (blokken) kan være resultatet av målinger av parametere på ett objekt eller på en gruppe objekter med konstante verdier av nivåene til begge faktorene. I dette tilfellet presenteres de tilsvarende dataene som gjennomsnittsverdiene for en bestemt parameter for alle dimensjoner eller objekter i prøven som studeres. For å bruke utgangskriteriet er det nødvendig å gå fra de direkte resultatene av målinger til deres rangering. Rangering utføres for hver rad separat, det vil si at verdiene er bestilt for hver fast verdi.

Pages test (L-test), foreslått av den amerikanske statistikeren E. B. Page i 1963, er designet for å teste nullhypotesen. For store prøver brukes Pages tilnærming. De, underlagt realiteten til de tilsvarende nullhypotesene, adlyder standard normalfordelingen. I tilfellet hvor radene i kildetabellen har samme verdier, er det nødvendig å bruke gjennomsnittlige rangeringer. I dette tilfellet vil nøyaktigheten av konklusjonene være dårligere, jo større antall slike treff.

Q - Cochrans kriterium, foreslått av W. Cochran i 1937. Det brukes i tilfeller der grupper av homogene subjekter blir utsatt for påvirkninger, hvor antallet overstiger to og hvor to alternativer for tilbakemelding er mulige - betinget negativ (0) og betinget positiv (1) . Nullhypotesen består av likestilling av behandlingseffekter. Toveis variansanalyse gjør det mulig å fastslå eksistensen av behandlingseffekter, men gjør det ikke mulig å fastslå for hvilke spesifikke kolonner denne effekten eksisterer. For å løse dette problemet brukes metoden til flere Scheffe-ligninger for relaterte prøver.

Multivariat analyse

Problemet med multivariat variansanalyse oppstår når du skal bestemme effekten av to eller flere forhold på en bestemt tilfeldig variabel. Studien involverer tilstedeværelsen av én avhengig tilfeldig variabel, målt på en forskjells- eller forholdsskala, og flere uavhengige variabler, som hver er uttrykt på en navne- eller rangeringsskala. Variansanalyse av data er en ganske utviklet del av matematisk statistikk, som har mange alternativer. Forskningskonseptet er felles for både enfaktor og multifaktor. Dens essens ligger i det faktum at den totale variansen er delt inn i komponenter, som tilsvarer en viss gruppering av data. Hver datagruppering har sin egen modell. Her vil vi kun vurdere de grunnleggende bestemmelsene som er nødvendige for å forstå og praktisk bruk av de mest brukte alternativene.

Variansanalyse av faktorer krever en ganske nøye holdning til innsamling og presentasjon av inputdata, og spesielt til tolkning av resultatene. I motsetning til en en-faktor-test, hvis resultater kan betinget plasseres i en viss sekvens, krever resultatene av en to-faktor-test en mer kompleks presentasjon. Situasjonen blir enda mer komplisert når det er tre, fire eller flere forhold. På grunn av dette er det ganske sjelden å inkludere mer enn tre (fire) forhold i en modell. Et eksempel vil være forekomsten av resonans ved en viss verdi av kapasitans og induktans til en elektrisk sirkel; manifestasjonen av en kjemisk reaksjon med et visst sett med elementer som systemet er bygget fra; forekomsten av uregelmessige effekter i komplekse systemer under et visst sammentreff av omstendigheter. Tilstedeværelsen av interaksjon kan radikalt endre systemets modell og noen ganger føre til en nytenkning av naturen til fenomenene som eksperimentatoren har å gjøre med.

Multivariat variansanalyse med gjentatte eksperimenter

Måledata kan ofte grupperes ikke etter to, men etter et større antall faktorer. Derfor, hvis vi vurderer spredningsanalysen av levetiden til trolleybusshjuldekk under hensyntagen til omstendighetene (produksjonsanlegget og ruten som dekkene drives på), kan vi skille ut som en separat tilstand sesongen der dekk betjenes (nemlig: vinter- og sommerdrift). Som et resultat vil vi få et problem med trefaktormetoden.

Hvis det er flere forhold, er tilnærmingen den samme som i tofaktoranalyse. I alle tilfeller prøver de å forenkle modellen. Fenomenet med interaksjon av to faktorer vises ikke så ofte, og trippel interaksjon forekommer bare i unntakstilfeller. Ta med de interaksjonene som det er tidligere informasjon om og gode grunner til å ta hensyn til i modellen. Prosessen med å identifisere individuelle faktorer og ta dem i betraktning er relativt enkel. Derfor er det ofte et ønske om å synliggjøre flere forhold. Du bør ikke la deg rive med av dette. Jo flere forhold, jo mindre pålitelig blir modellen og jo større er sannsynligheten for feil. Selve modellen, som inkluderer et stort antall uavhengige variabler, blir ganske kompleks å tolke og upraktisk for praktisk bruk.

Generell idé om variansanalyse

Variansanalyse i statistikk er en metode for å oppnå observasjonsresultater avhengig av ulike samtidige omstendigheter og vurdere deres innflytelse. En kontrollert variabel som tilsvarer metoden for å påvirke studieobjektet og får en viss verdi over en viss tidsperiode kalles en faktor. De kan være kvalitative og kvantitative. Nivåer av kvantitative forhold får en viss betydning på en numerisk skala. Eksempler er temperatur, pressetrykk, mengde stoff. Kvalitative faktorer er forskjellige stoffer, forskjellige teknologiske metoder, enheter, fyllstoffer. Nivåene deres tilsvarer en navneskala.

Kvalitet kan også inkludere type emballasjemateriale og oppbevaringsbetingelser for doseringsformen. Det er også rasjonelt å inkludere malingsgrad av råvarer, brøksammensetningen av granulat, som har kvantitativ betydning, men som er vanskelig å regulere dersom en kvantitativ skala benyttes. Antallet kvalitative faktorer avhenger av typen doseringsform, samt de fysiske og teknologiske egenskapene til medisinske stoffer. For eksempel kan tabletter oppnås fra krystallinske stoffer ved direkte komprimering. I dette tilfellet er det nok å velge glide- og smørestoffer.

Eksempler på kvalitetsfaktorer for ulike typer doseringsformer

  • Tinkturer. Ekstraksjonsmiddelsammensetning, ekstraktortype, råvarefremstillingsmetode, produksjonsmetode, filtreringsmetode.
  • Ekstrakter (flytende, tykke, tørr). Ekstraksjonsmiddelets sammensetning, ekstraksjonsmetode, installasjonstype, metode for å fjerne ekstraksjonsmidlet og ballaststoffer.
  • Piller. Sammensetning av hjelpestoffer, fyllstoffer, desintegreringsmidler, bindemidler, smøremidler og smøremidler. Metode for å skaffe nettbrett, type teknologisk utstyr. Type skall og dets komponenter, filmdannere, pigmenter, fargestoffer, myknere, løsemidler.
  • Injeksjonsløsninger. Type løsemiddel, filtreringsmetode, arten av stabilisatorer og konserveringsmidler, steriliseringsforhold, metode for fylling av ampuller.
  • Stikkpiller. Sammensetning av stikkpillebasen, metode for å produsere stikkpiller, fyllstoffer, emballasje.
  • Salver. Sammensetning av basen, strukturelle komponenter, metode for å tilberede salven, type utstyr, emballasje.
  • Kapsler. Type skallmateriale, metode for å produsere kapsler, type mykner, konserveringsmiddel, fargestoff.
  • Linimenter. Fremgangsmåte, sammensetning, type utstyr, type emulgator.
  • Suspensjoner. Type løsemiddel, type stabilisator, dispersjonsmetode.

Eksempler på kvalitetsfaktorer og deres nivåer studert under nettbrettets produksjonsprosess

  • Bakepulver. Potetstivelse, hvit leire, en blanding av natriumbikarbonat med sitronsyre, basisk magnesiumkarbonat.
  • Bindende løsning. Vann, stivelsespasta, sukkersirup, metylcelluloseløsning, hydroksypropylmetylcelluloseløsning, polyvinylpyrrolidonløsning, polyvinylalkoholløsning.
  • Glidende stoff. Aerosil, stivelse, talkum.
  • Filler. Sukker, glukose, laktose, natriumklorid, kalsiumfosfat.
  • Smøremiddel. Stearinsyre, polyetylenglykol, parafin.

Modeller for variansanalyse i studiet av nivået på statens konkurranseevne

Et av de viktigste kriteriene for å vurdere tilstanden til en stat, hvor nivået på dens velvære og sosioøkonomiske utvikling vurderes, er konkurranseevne, det vil si et sett av egenskaper som er iboende i nasjonaløkonomien som bestemmer statens evne til å konkurrere med andre land. Etter å ha bestemt statens plass og rolle i verdensmarkedet, er det mulig å etablere en klar strategi for å sikre økonomisk sikkerhet på internasjonal skala, fordi det er nøkkelen til positive forhold mellom Russland og alle aktører i verdensmarkedet: investorer , kreditorer og myndigheter.

For å sammenligne nivået av konkurranseevne til stater, rangeres landene ved å bruke komplekse indekser som inkluderer ulike vektede indikatorer. Disse indeksene er basert på nøkkelfaktorer som påvirker den økonomiske, politiske osv. situasjonen. Et sett med modeller for å studere statlig konkurranseevne innebærer bruk av multivariate statistiske analysemetoder (spesielt variansanalyse (statistikk), økonometrisk modellering, beslutningstaking) og inkluderer følgende hovedstadier:

  1. Dannelse av et system av indikatorer.
  2. Vurdering og prognoser av statlige konkurranseevneindikatorer.
  3. Sammenligning av indikatorer på staters konkurranseevne.

La oss nå se på innholdet i modellene til hvert av stadiene i dette komplekset.

På det første stadiet ved hjelp av ekspertstudiemetoder dannes et velbegrunnet sett med økonomiske indikatorer for å vurdere statens konkurranseevne, som tar hensyn til spesifikasjonene ved utviklingen basert på internasjonale rangeringer og data fra statistiske avdelinger, som gjenspeiler tilstanden til systemet som helhet. og dens prosesser. Valget av disse indikatorene er begrunnet med behovet for å velge de som mest fullstendig, fra et praktisk synspunkt, lar oss bestemme nivået på staten, dens investeringsattraktivitet og muligheten for relativ lokalisering av eksisterende potensielle og faktiske trusler.

Hovedindikatorene for internasjonale ratingsystemer er indekser:

  1. Global konkurranseevne (GC).
  2. Økonomisk frihet (IES).
  3. Menneskelig utvikling (HDI).
  4. Oppfatninger om korrupsjon (CPC).
  5. Interne og eksterne trusler (IVTH).
  6. International Influence Potential (IPIP).

Andre fase sørger for vurdering og prognoser av statlige konkurranseevneindikatorer i henhold til internasjonale rangeringer for de 139 landene i verden som studeres.

Tredje trinn sørger for en sammenligning av betingelsene for konkurranseevne til stater ved å bruke metoder for korrelasjon og regresjonsanalyse.

Ved å bruke resultatene av studien er det mulig å bestemme karakteren av prosessene generelt og for individuelle komponenter av statens konkurranseevne; teste hypotesen om påvirkning av faktorer og deres sammenhenger på passende nivå av betydning.

Implementeringen av det foreslåtte settet med modeller vil tillate ikke bare å vurdere den nåværende situasjonen for konkurranseevnen og investeringsattraktiviteten til statene, men også å analysere ledelsesmangler, forhindre feil ved feil beslutninger og forhindre utviklingen av en krise i stat.