Grundlæggende om testteori. Karakteristika for kontroltest i idrætsundervisning

En måling eller test udført for at bestemme en atlets tilstand eller evne kaldes prøve. Ikke alle målinger kan bruges som test, men kun dem, der opfylder særlige krav: standardisering, tilstedeværelsen af ​​et ratingsystem, pålidelighed, informationsindhold, objektivitet. Der kaldes tests, der opfylder kravene til pålidelighed, informationsindhold og objektivitet solid.

Testprocessen kaldes afprøvning, og de resulterende numeriske værdier er testresultat.

Tests baseret på motoriske opgaver kaldes motor eller motor. Afhængigt af den opgave, som forsøgspersonen står overfor, skelnes der mellem tre grupper af motoriske tests.

Typer af motortest

Test navn

Opgave til atleten

Testresultat

Kontrol øvelse

Motoriske præstationer

1500m løbetid

Standard funktionstest

Ens for alle, doseret: 1) efter mængden af ​​udført arbejde; 2) af størrelsen af ​​fysiologiske ændringer

Fysiologiske eller biokemiske indikatorer under standardarbejde Motoriske indikatorer under en standardmængde af fysiologiske ændringer

Pulsregistrering under standardarbejde 1000 kgm/min Løbehastighed ved puls 160 slag/min.

Maksimal funktionstest

Vis maksimalt resultat

Fysiologiske eller biokemiske indikatorer

Bestemmelse af maksimal iltgæld eller maksimalt iltforbrug

Nogle gange bruges ikke én, men flere test, der har et fælles slutmål. Denne gruppe af tests kaldes batteri af tests.

Det er kendt, at selv med den mest stringente standardisering og præcise udstyr varierer testresultaterne altid noget. Derfor er en af ​​de vigtige betingelser for at vælge gode tests deres pålidelighed.

Testens pålidelighed er graden af ​​overensstemmelse mellem resultater, når de samme personer testes gentagne gange under de samme forhold. Der er fire hovedårsager, der forårsager intra-individuel eller intra-gruppe variation i testresultater:

    ændring i forsøgspersonernes tilstand (træthed, ændring i motivation osv.); ukontrollerede ændringer i eksterne forhold og udstyr;

    ændring i tilstanden for den person, der udfører eller evaluerer testen (velbefindende, skift af eksperimentator osv.);

    testens ufuldkommenhed (f.eks. åbenlyst uperfekte og upålidelige tests - frikast i en basketballkurv før den første miss osv.).

Reliabilitetskriteriet for testen kan være pålidelighedsfaktor, beregnet som forholdet mellem den sande spredning og spredningen registreret i eksperimentet: r = sand s 2 / registreret s 2, hvor den sande værdi forstås som spredningen opnået fra et uendeligt stort antal observationer under de samme forhold; den registrerede varians er afledt af eksperimentelle undersøgelser. Med andre ord er reliabilitetskoefficienten simpelthen andelen af ​​sand variation i variationen, der registreres i eksperimentet.

Ud over denne koefficient bruger de også pålidelighedsindeks, som betragtes som en teoretisk korrelationskoefficient eller forhold mellem de registrerede og sande værdier af den samme test. Denne metode er mest almindelig som et kriterium for vurdering af kvaliteten (reliabiliteten) af en test.

Et af kendetegnene ved testpålidelighed er dens ækvivalens, som afspejler graden af ​​overensstemmelse mellem resultaterne af test af samme kvalitet (f.eks. fysisk) ved forskellige test. Holdningen til testækvivalens afhænger af den konkrete opgave. På den ene side, hvis to eller flere test er ækvivalente, øger deres kombinerede anvendelse estimaternes pålidelighed; på den anden side synes det muligt kun at bruge én tilsvarende test, hvilket vil forenkle testningen.

Hvis alle test inkluderet i et batteri af tests er meget ækvivalente, kaldes de homogen(for at vurdere kvaliteten af ​​springevnen må det f.eks. antages, at længdespring, højdespring og trespring vil være homogene). Tværtimod, hvis der ikke er tilsvarende tests i komplekset (såsom til vurdering af generel fysisk kondition), så måler alle de test, der er inkluderet i det, forskellige egenskaber, dvs. i det væsentlige er komplekset heterogen.

Pålideligheden af ​​tests kan øges til en vis grad ved at:

    strengere standardisering af testning;

    øge antallet af forsøg;

    øge antallet af evaluatorer og øge sammenhængen i deres udtalelser;

    øge antallet af tilsvarende tests;

    bedre motivation af fag.

Test objektivitet der er et særligt tilfælde af pålidelighed, dvs. uafhængighed af testresultater fra den person, der udfører testen.

Testens informationsindhold– dette er graden af ​​nøjagtighed, hvormed den måler den egenskab (atletens kvalitet), som den bruges til at evaluere. I forskellige tilfælde kan de samme test have forskelligt informationsindhold. Spørgsmålet om testens informativitet opdeles i to specifikke spørgsmål:

Hvad ændrer denne test? Hvordan måler det præcist?

Er det for eksempel muligt at bruge en indikator som MPC til at bedømme langdistanceløbernes beredskab, og i så fald med hvilken grad af nøjagtighed? Kan denne test bruges i kontrolprocessen?

Hvis testen bruges til at bestemme atletens tilstand på undersøgelsestidspunktet, så taler de om diagnostisk testens informationsindhold. Hvis de på baggrund af testresultaterne ønsker at drage en konklusion om atletens mulige fremtidige præstationer, taler de om prognostisk informationsindhold. En test kan være diagnostisk informativ, men ikke prognostisk og omvendt.

Graden af ​​informationsindhold kan karakteriseres kvantitativt - baseret på eksperimentelle data (de såkaldte empirisk informationsindhold) og kvalitativt - baseret på en meningsfuld analyse af situationen ( logisk informationsindhold). Selvom i praktisk arbejde, bør logisk eller meningsfuld analyse altid gå forud for matematisk analyse. En indikator for en tests informativitet er korrelationskoefficienten beregnet for kriteriets afhængighed af resultatet i testen og omvendt (kriteriet anses for at være en indikator, der tydeligvis afspejler den egenskab, der skal måles vha. testen).

I tilfælde, hvor informationsindholdet i en test er utilstrækkeligt, anvendes et batteri af tests. Sidstnævnte, selv med høje separate informationsindholdskriterier (bedømt ud fra korrelationskoefficienterne), tillader os imidlertid ikke at opnå et enkelt tal. Her kan en mere kompleks metode til matematisk statistik komme til undsætning - faktoranalyse. Hvilket giver dig mulighed for at bestemme, hvor mange og hvilke tests der arbejder sammen om en separat faktor, og hvad er graden af ​​deres bidrag til hver faktor. Det er så nemt at udvælge tests (eller kombinationer heraf), der mest præcist vurderer individuelle faktorer.

1 Hvad kaldes en test?

2 Hvad er test?

Kvantificering af en atlets kvalitet eller tilstand En måling eller test udført for at bestemme en atlets tilstand eller evne Testproces, der kvantitativt evaluerer en atlets kvalitet eller tilstand Ingen definition nødvendig

3 Hvad kaldes testresultatet?

Kvantificering af en atlets kvalitet eller tilstand En måling eller test udført for at bestemme en atlets tilstand eller evne Testproces, der kvantitativt evaluerer en atlets kvalitet eller tilstand Ingen definition nødvendig

4 Hvilken type test er dette? 100m løb?

5 Hvilken type test er dette? hånddynamometri?

Kontroløvelse Funktionstest Maksimal funktionstest

6 Hvilken type test tilhører prøven? IPC?

Kontroløvelse Funktionstest Maksimal funktionstest

7 Hvilken type test er dette? tre minutters løb med en metronom?

Kontroløvelse Funktionstest Maksimal funktionstest

8 Hvilken type test er dette? maksimalt antal pull-ups på stangen?

Kontroløvelse Funktionstest Maksimal funktionstest

9 I hvilke tilfælde anses en test for at være informativ?

10 Hvornår anses en test for pålidelig?

Testens evne til at være reproducerbar, når den testes igen Testens evne til at måle atletens kvalitet af interesse Testresultaternes uafhængighed af den person, der administrerer testen

11 I hvilket tilfælde anses testen for at være objektiv?

Testens evne til at være reproducerbar, når den testes igen Testens evne til at måle atletens kvalitet af interesse Testresultaternes uafhængighed af den person, der administrerer testen

12 Hvilket kriterium er nødvendigt ved evaluering af en test for informationsindhold?

13 Hvilket kriterium er nødvendigt ved evaluering af en pålidelighedstest?

Elevens T-test Fishers F-test Korrelationskoefficient Bestemmelseskoefficient Spredning

14 Hvilket kriterium er nødvendigt ved evaluering af en objektivitetstest?

Elevens T-test Fishers F-test Korrelationskoefficient Bestemmelseskoefficient Spredning

15 Hvad kaldes informationsindholdet i en test, hvis den bruges til at vurdere en atlets konditionsgrad?

16 Hvilket informationsindhold af kontroløvelser er træneren vejledt af, når han udvælger børn til sin idrætssektion?

Logisk prædiktiv empirisk diagnostik

17 Er korrelationsanalyse nødvendig for at vurdere informationsindholdet i test?

18 Er faktoranalyse nødvendig for at vurdere informationsindholdet i test?

19 Er det muligt at vurdere reliabiliteten af ​​en test ved hjælp af korrelationsanalyse?

20 Er det muligt at vurdere objektiviteten af ​​en test ved hjælp af korrelationsanalyse?

21 Vil test designet til at vurdere generel fysisk form være ækvivalent?

22 Ved måling af samme kvalitet med forskellige test, bruges test...

Designet til at måle den samme kvalitet At have en høj korrelation mellem hinanden At have en lav korrelation mellem hinanden

GRUNDLÆGGENDE FOR VÆRDIDERINGSTEORI

For at evaluere sportsresultater bruges ofte specielle pointtabeller. Formålet med sådanne tabeller er at konvertere det viste sportsresultat (udtrykt i objektive mål) til betingede point. Loven om at konvertere sportsresultater til point kaldes vurderingsskala. Skalaen kan angives som et matematisk udtryk, tabel eller graf. Der er 4 hovedtyper af skalaer, der bruges i sport og idræt.

Proportionale skalaer

Regresserende skalaer

Progressive skalaer.

Proportionale skalaer foreslå tildeling af det samme antal point for en lige stor stigning i resultaterne (for hver 0,1 s forbedring af resultatet i 100 m løb, gives der f.eks. 20 point). Sådanne skalaer bruges i moderne femkamp, ​​hurtigløb på skøjter, skiløb, nordisk kombineret, skiskydning og andre sportsgrene.

Regresserende skalaer foreslår, at der for den samme stigning i resultater, som sportslige præstationer stiger, tildeles et stadigt mindre antal point (for eksempel for en forbedring af resultatet på 100 m løbet fra 15,0 til 14,9 sek. tilføjes 20 point, og for 0,1 s i intervallet 10,0-9,9 s – kun 15 point).

Progressive skalaer. Her, jo højere det atletiske resultat er, desto større er stigningen i point for dets forbedring (for eksempel for en forbedring i løbetid fra 15,0 til 14,9 s tilføjes 10 point og fra 10,0 til 9,9 s - 100 point). Progressive skalaer bruges i svømning, visse typer atletik og vægtløftning.

Sigmoid skæl bruges sjældent i sport, men bruges i vid udstrækning til at vurdere fysisk kondition (det er f.eks. sådan skalaen af ​​fysiske konditionsstandarder for den amerikanske befolkning ser ud). I disse skalaer bliver forbedringer i resultater i zonen med meget lave og meget høje præstationer sparsomt belønnet; Stigningen i resultater i den midterste præstationszone giver flest point.

De vigtigste mål med vurderingen er:

    sammenligne forskellige præstationer i den samme opgave;

    sammenligne resultater i forskellige opgaver;

    definere standarder.

Normen i sportsmetrologi kaldes grænseværdien for resultatet, hvilket tjener som grundlag for at tildele en atlet til en af ​​klassifikationsgrupperne. Der er tre typer normer: komparative, individuelle, pga.

Sammenlignende standarder er baseret på en sammenligning af personer, der tilhører samme befolkning. For eksempel inddeling af mennesker i undergrupper efter graden af ​​modstand (høj, middel, lav) eller reaktivitet (hyperreaktiv, normoreaktiv, hyporeaktiv) over for hypoxi.

Forskellige gradueringer af vurderinger og normer

Procentdel af fag

Normer i skalaer

Verbal

i point

Percentil

Meget lav

Under M - 2

Fra M - 2 til M - 1

Under middel

Fra M-1 til M–0,5

Fra M–0,5 til M+0,5

Over gennemsnit

Fra M+0,5 til M+1

Fra M+1 til M+2

Meget høj

Over M+2

Disse normer karakteriserer kun forsøgspersoners komparative succeser i en given population, men siger ikke noget om befolkningen som helhed (eller i gennemsnit). Derfor skal komparative normer sammenlignes med data indhentet fra andre populationer og anvendes i kombination med individuelle og passende normer.

Individuelle normer er baseret på at sammenligne den samme atlets præstation under forskellige forhold. For eksempel er der i mange sportsgrene ingen sammenhæng mellem ens egen kropsvægt og atletisk præstation. Hver atlet har en individuelt optimal vægt svarende til deres atletiske konditionstilstand. Denne norm kan kontrolleres på forskellige stadier af sportstræning.

Behørige standarder er baseret på en analyse af, hvad et menneske skal kunne for at kunne klare de opgaver, livet lægger op til. Et eksempel på dette kan være standarderne for individuelle fysiske træningskomplekser, de korrekte værdier af vital kapacitet, basal stofskifte, kropsvægt og højde osv.

1 Er det muligt direkte at måle kvaliteten af ​​udholdenhed?

2 Er det muligt direkte at måle kvaliteten af ​​hastigheden?

3 Er det muligt direkte at måle kvaliteten af ​​fingerfærdighed?

4 Er det muligt direkte at måle kvaliteten af ​​fleksibilitet?

5 Er det muligt direkte at måle styrken af ​​individuelle muskler?

6 Kan vurderingen udtrykkes i en kvalitativ karakteristik (god, tilfredsstillende, dårlig, bestået osv.)?

7 Er der forskel på en måleskala og en vurderingsskala?

8 Hvad er en vurderingsskala?

System til måling af sportsresultater Loven om at konvertere sportsresultater til point System til evaluering af normer

9 Skalaen forudsætter tildeling af det samme antal point for en lige stor stigning i resultater. Det her …

10 For den samme stigning i resultater gives der færre og færre point, efterhånden som sportslige præstationer stiger. Det her …

Progressiv skala Regressiv skala Proportional skala Sigmoid skala

11 Jo højere idrætsresultatet er, jo større stigning i point, forbedringen vurderes. Det her …

Progressiv skala Regressiv skala Proportional skala Sigmoid skala

12 Forbedring af præstationer i de meget lave og meget høje præstationszoner belønnes sparsomt; Stigningen i resultater i den midterste præstationszone giver flest point. Det her …

Progressiv skala Regressiv skala Proportional skala Sigmoid skala

13 normer baseret på sammenligning af mennesker, der tilhører samme befolkning, kaldes...

14 normer baseret på sammenligning af den samme atlets præstation under forskellige forhold kaldes ...

Individuelle standarder Due standards Sammenlignende standarder

15 Normer baseret på en analyse af, hvad en person skal kunne for at klare de opgaver, han har fået tildelt, kaldes ...

Individuelle standarder Due standards Sammenlignende standarder

GRUNDLÆGGENDE KONCEPT FOR KVALIMETRI

Kvalimetri(latinsk qualitas - kvalitet, metron - mål) studerer og udvikler kvantitative metoder til vurdering af kvalitative egenskaber.

Kvalimetri er baseret på flere udgangspunkter:

Enhver kvalitet kan måles;

Kvalitet afhænger af en række egenskaber, der danner "kvalitetstræet" (for eksempel består kvalitetstræet for træningspræstation i kunstskøjteløb af tre niveauer - højeste, mellemste, laveste);

Hver egenskab bestemmes af to tal: relativ indikator og vægt; summen af ​​ejendomsvægtene på hvert niveau er lig med én (eller 100%).

Metodiske teknikker til kvalimetri er opdelt i to grupper:

Heuristisk (intuitiv), baseret på ekspertvurderinger og spørgeskemaer;

Medvirkende.

Ekspert er en vurdering opnået ved at indhente udtalelser fra eksperter. Typiske eksempler på ekspertise: bedømmelse i gymnastik og kunstskøjteløb, konkurrence om det bedste videnskabelige arbejde mv.

Udførelse af en undersøgelse omfatter følgende hovedfaser: udformning af dens formål, udvælgelse af eksperter, valg af metode, gennemførelse af en undersøgelse og behandling af de modtagne oplysninger, herunder vurdering af sammenhængen i individuelle ekspertvurderinger. Under undersøgelsen er graden af ​​konsistens af ekspertudtalelser, vurderet ud fra værdien, af stor betydning rangkorrelationskoefficient(i tilfælde af flere eksperter). Det skal bemærkes, at rangkorrelation ligger til grund for løsningen af ​​mange kvalimetriproblemer, da den tillader matematiske beregninger med kvalitative karakteristika.

I praksis er en indikator for en eksperts kvalifikationer ofte afvigelsen af ​​hans vurderinger fra en ekspertgruppes gennemsnitlige vurderinger.

Spørgeskema er en metode til at indsamle meninger ved at udfylde spørgeskemaer. Spørgeskemaer er sammen med interviews og samtaler undersøgelsesmetoder. I modsætning til interviews og samtaler involverer spørgsmål skriftlige svar fra den person, der udfylder spørgeskemaet - respondenten - til et system af standardiserede spørgsmål. Det giver dig mulighed for at studere adfærdsmotiver, hensigter, meninger osv.

Ved hjælp af spørgeskemaer kan du løse mange praktiske problemer i sport: vurdering af en atlets psykologiske status; hans holdning til karakteren og retningen af ​​træningssessioner; interpersonelle relationer i teamet; egen vurdering af teknisk og taktisk beredskab; kostvurdering og mange andre.

1 Hvad studerer kvalimetri?

Undersøgelse af kvaliteten af ​​tests Undersøgelse af en egenskabs kvalitative egenskaber Undersøgelse og udvikling af kvantitative metoder til vurdering af kvalitet

2 Matematiske metoder brugt i kvalimetri?

Parkorrelation Rangkorrelation Variansanalyse

3 Hvilke metoder bruges til at vurdere præstationsniveauet?

4 Hvilke metoder bruges til at evaluere mangfoldigheden af ​​tekniske elementer?

Spørgeskemametode Ekspertvurderingsmetode Metode ikke specificeret

5 Hvilke metoder bruges til at vurdere kompleksiteten af ​​tekniske elementer?

Spørgeskemametode Ekspertvurderingsmetode Metode ikke specificeret

6 Hvilke metoder bruges til at vurdere en atlets psykologiske tilstand?

Spørgeskemametode Ekspertvurderingsmetode Metode ikke specificeret

Den første komponent, testteori, indeholder en beskrivelse af statistiske modeller til behandling af diagnostiske data. Den indeholder modeller til analyse af besvarelser i testopgaver og modeller til beregning af samlede testresultater. Mullenberg (1980, 1990) kaldte dette "psykometri". Klassisk testteori, moderne testteori (eller Item Response Analysis model - IRT), og


vareprøver udgør de tre vigtigste typer af testteoretiske modeller. Emnet for overvejelse af psykodiagnostik er de to første modeller.

Klassisk testteori. De fleste intellektuelle og personlighedstests er udviklet på baggrund af denne teori. Det centrale begreb i denne teori er begrebet "pålidelighed". Reliabilitet refererer til konsistensen af ​​resultater på tværs af gentagne vurderinger. I opslagsbøger præsenteres dette begreb normalt meget kort, og derefter gives en detaljeret beskrivelse af matematisk statistiks apparat. I dette indledende kapitel vil vi præsentere en kortfattet beskrivelse af den grundlæggende betydning af det nævnte begreb. I klassisk testteori refererer pålidelighed til repeterbarheden af ​​resultaterne af flere måleprocedurer (hovedsageligt målinger ved hjælp af test). Begrebet pålidelighed involverer beregning af målefejl. Resultaterne opnået under testprocessen kan præsenteres som summen af ​​det sande resultat og målefejl:

Xi = Ti+ Ej

Hvor Xi er en vurdering af de opnåede resultater, Ti er det sande resultat, og Ej- målefejl.

Vurderingen af ​​de opnåede resultater er som udgangspunkt antallet af rigtige svar på testopgaverne. Et sandt resultat kan opfattes som en sand evaluering i platonisk forstand (Gulliksen, 1950). Begrebet forventede resultater er udbredt, dvs. ideer om score, der kan opnås som et resultat af et stort antal gentagelser af måleprocedurer (Herre & Novich, 1968). Men det er ikke muligt at udføre den samme vurderingsprocedure med én person. Derfor er det nødvendigt at lede efter andre muligheder for at løse problemet (Witlman, 1988).

Dette koncept gør visse antagelser om sande resultater og målefejl. Sidstnævnte tages som en uafhængig faktor, hvilket naturligvis er en fuldstændig rimelig antagelse, da tilfældige udsving i resultaterne ikke giver kovarianser: r EE = 0.

Det antages, at der ikke er nogen sammenhæng mellem sande scores og målefejl: rEE = 0.


Den samlede fejl er 0, fordi Det aritmetiske gennemsnit tages som det sande skøn:

Disse antagelser fører os i sidste ende til den velkendte definition af pålidelighed som forholdet mellem det sande resultat og den totale varians eller udtrykket: 1 minus forholdet, hvis tæller er målefejlen, og nævneren er den totale varians:


, ELLER

Fra denne formel til bestemmelse af pålidelighed får vi den fejlvarians S 2 (E) lig med den samlede varians i antallet af tilfælde (1 – r XX "); standardmålefejlen bestemmes således af formlen:

Efter en teoretisk begrundelse for pålidelighed og dens derivater er det nødvendigt at bestemme pålidelighedsindekset for en bestemt test. Der er praktiske procedurer til vurdering af testpålidelighed, såsom brug af udskiftelige formularer (parallelle test), opdeling af elementer i to dele, gentestning og måling af intern konsistens. Hver opslagsbog indeholder indekser for konsistens af testresultater:

r XX ’ =r(x 1, x 2)

Hvor r XX ' - stabilitetskoefficient, og x 1 Og x 2 - resultater af to målinger.

Begrebet pålidelighed af udskiftelige former blev introduceret og udviklet af Gulliksen (1950). Denne procedure er ret arbejdskrævende, da den er forbundet med behovet for at oprette en parallel serie af opgaver

r XX ’ =r(x 1, x 2)

Hvor r XX ' - ækvivalens koefficient, og x 1 Og x 2 - to parallelle test.

Den næste procedure - at dele hoveddejen i to dele A og B - er nemmere at bruge. De opnåede resultater fra begge dele af testen er korrelerede. Ved hjælp af Spearman-Brown-formlen vurderes reliabiliteten af ​​testen som helhed:

hvor A og B er to parallelle dele af testen.

Den næste metode er at bestemme den interne konsistens af testopgaver. Denne metode er baseret på at bestemme kovarianserne for individuelle opgaver. Sg er variansen af ​​en tilfældigt udvalgt opgave, og Sgh er kovariansen af ​​to tilfældigt udvalgte opgaver. Den mest almindeligt anvendte koefficient til at bestemme indre konsistens er Cronbachs alfa. Formlen bruges også KR20 og A-2(lambda-2).

Det klassiske begreb om pålidelighed definerer målefejl, der opstår både under test og under observationer. Kilderne til disse fejl er forskellige: Det kan være personlige karakteristika, karakteristika ved testbetingelserne og selve testopgaverne. Der er specifikke metoder til beregning af fejl. Vi ved, at vores observationer kan vise sig at være fejlagtige, vores metodiske værktøjer er uperfekte, ligesom mennesker selv er uperfekte. (Hvordan man ikke husker Shakespeare: "Upålidelig er du, hvis navn er mand"). Det faktum, at i klassisk testteori bliver målefejl ekspliciteret og forklaret, er en vigtig positiv pointe.

Klassisk testteori har en række væsentlige træk, der også kan betragtes som dens ulemper. Nogle af disse karakteristika er noteret i opslagsbøger, men deres betydning (fra et dagligdags synspunkt) fremhæves ikke ofte, og det bemærkes heller ikke, at de ud fra et teoretisk eller metodisk synspunkt skal betragtes som mangler.

Først. Klassisk testteori og begrebet reliabilitet er fokuseret på at beregne samlede testresultater, som er resultatet af at sammenlægge de opnåede scores i individuelle opgaver. Ja, når du arbejder


Anden. Reliabilitetskoefficienten involverer vurdering af spredningsmængden af ​​de målte indikatorer. Det følger heraf, at reliabilitetskoefficienten vil være lavere, hvis (andre indikatorer er lige) prøven er mere homogen. Der er ingen enkelt koefficient for intern konsistens af testelementer; denne koefficient er altid "kontekstuel". Crocker og Algina (1986) foreslår for eksempel en speciel "homogen prøvekorrektion"-formel designet til de højeste og laveste score opnået af testpersoner. Det er vigtigt for diagnostikeren at kende karakteristikaene for variation i prøvepopulationen, ellers vil han ikke være i stand til at bruge de interne konsistenskoefficienter specificeret i manualen til denne test.

Tredje. Fænomenet reduktion til et aritmetisk gennemsnit er en logisk konsekvens af det klassiske pålidelighedsbegreb. Hvis testresultatet svinger (dvs. det er ikke pålideligt nok), så er det muligt, at når proceduren gentages, vil forsøgspersoner med lave scorer få højere score, og omvendt vil forsøgspersoner med høje scorer score lave. Denne artefakt af måleproceduren bør ikke forveksles med ægte forandring eller manifestation af udviklingsprocesser. Men samtidig er det ikke nemt at skelne mellem dem, fordi... muligheden for forandring under udviklingen kan aldrig udelukkes. For at være helt sikker er en sammenligning med en kontrolgruppe nødvendig.

Det fjerde kendetegn ved test udviklet i overensstemmelse med principperne for klassisk teori er tilstedeværelsen af ​​normative data. Kendskab til testnormer gør det muligt for forskeren at fortolke testtagernes resultater tilstrækkeligt. Uden for normer er testresultater meningsløse. Udvikling af teststandarder er en ret dyr opgave, da psykologen skal indhente testresultater fra en repræsentativ prøve.

2 Ya ter Laak

Hvis vi taler om manglerne ved det klassiske pålidelighedsbegreb, så er det passende at citere Siytsmas udsagn (1992, s. 123-125). Han bemærker, at den første og vigtigste antagelse af klassisk testteori er, at testresultater følger intervalprincippet. Der er dog ingen undersøgelser, der understøtter denne antagelse. I bund og grund er det "måling i henhold til en vilkårligt fastlagt regel." Denne funktion stiller klassisk testteori i en ulempe sammenlignet med attitudemålingsskalaer og selvfølgelig sammenlignet med moderne testteori. Mange metoder til dataanalyse (variansanalyse, regressionsanalyse, korrelations- og faktoranalyse) er baseret på antagelsen om eksistensen af ​​en intervalskala. Det har dog ikke et solidt grundlag. At betragte skalaen af ​​sande resultater som en skala af værdier af psykologiske karakteristika (for eksempel aritmetiske evner, intelligens, neuroticisme) kan kun antages.

Den anden bemærkning vedrører den kendsgerning, at testresultaterne ikke er absolutte indikatorer for den ene eller anden psykologiske egenskab hos den testede person; de skal kun betragtes som resultaterne af den ene eller anden test. To tests kan foregive at undersøge de samme psykologiske karakteristika (f.eks. intelligens, verbal evne, ekstraversion), men det betyder ikke, at de to test er ækvivalente eller har de samme evner. At sammenligne ydeevnen for to testede personer med forskellige test er forkert. Det samme gælder for den samme testdeltager, der gennemfører to forskellige tests. Det tredje punkt vedrører antagelsen om, at standardmålefejlen er den samme for ethvert niveau af individuel evne, der måles. Der er dog ingen empirisk test af denne antagelse. For eksempel er der ingen garanti for, at en testperson med gode matematikkundskaber scorer højt på en forholdsvis simpel regneprøve. I dette tilfælde er en person med lave eller gennemsnitlige evner mere tilbøjelige til at modtage en høj vurdering.

Inden for rammerne af moderne testteori eller teorien om svaranalyse indeholder testemner en beskrivelse af en stor


antal modeller af mulige svar fra respondenter. Disse modeller adskiller sig i de forudsætninger, der ligger til grund for dem, samt i kravene til de indhentede data. Rasch-modellen anses ofte for at være synonym med teorier om emneresponsanalyse (1RT). Faktisk er dette kun en af ​​modellerne. Formlen præsenteret i den til beskrivelse af den karakteristiske kurve for g-opgaven er som følger:

Hvor g- separat testopgave; eksp- eksponentiel funktion (ikke-lineær afhængighed); δ ("delta") - prøvens sværhedsgrad.

Andre testgenstande, f.eks. h, også få deres egne karakteristiske kurver. Betingelsen opfyldt δ h >δ g (g betyder at h- en sværere opgave. Derfor for enhver værdi af indikatoren Θ ("theta" - latente egenskaber ved testtageres evner) sandsynlighed for vellykket gennemførelse af opgaven h mindre. Denne model kaldes streng, fordi det er indlysende, at med en lav grad af karaktertræksudtryk er sandsynligheden for at gennemføre opgaven tæt på nul. Der er ikke plads til at gætte eller gætte i denne model. For multiple-choice opgaver er der ingen grund til at lave antagelser om sandsynligheden for succes. Derudover er denne model streng i den forstand, at alle testelementer skal have samme diskriminerende evne (høj diskriminationsevne afspejles i kurvens stejlhed; her er det muligt at konstruere Guttman-skalaen, hvorefter der ved hvert punkt af karakteristisk kurve, sandsynligheden for at udføre opgaven varierer fra O til 1). På grund af denne tilstand kan ikke alle genstande indgå i test baseret på Rasch-modellen.

Der er flere varianter af denne model (f.eks. Birnbaura, 1968; Se Lord & Novik). Det tillader eksistensen af ​​opgaver med forskellige diskriminerende

evne.

Den hollandske forsker Mokken (1971) udviklede to modeller til at analysere testemnesvar, der er mindre stringente end Rasch-modellen og derfor måske mere realistiske. Som grundbetingelse

Via Mokken fremsætter forslag om, at en opgaves karakteristiske kurve skal følge monotont, uden pauser. Alle testopgaver er rettet mod at studere den samme psykologiske egenskab, som bør måles V. Enhver form for denne afhængighed er tilladt, indtil den afbrydes. Derfor er formen af ​​den karakteristiske kurve ikke bestemt af nogen specifik funktion. Denne "frihed" giver dig mulighed for at bruge flere testelementer, og vurderingsniveauet er ikke højere end normalt.

Metoden for elementresponsmønstre (IRT) adskiller sig fra de fleste eksperimentelle og korrelationsstudier. Den matematiske model er designet til at studere adfærdsmæssige, kognitive, følelsesmæssige karakteristika såvel som udviklingsfænomener. Disse pågældende fænomener er ofte begrænset til emnesvar, hvilket får Mellenberg (1990) til at kalde IRT en "mini-adfærdsteori". Undersøgelsens resultater kan i et vist omfang præsenteres som konsistenskurver, især i tilfælde hvor der mangler teoretisk forståelse af de karakteristika, der undersøges. Indtil nu har vi kun til rådighed nogle få intelligens-, egnetheds- og personlighedstests, der er lavet på basis af talrige modeller af IRT-teori. Varianter af Rasch-modellen bruges oftere i udviklingen af ​​præstationstests (Verhelst, 1993), mens Mokken-modeller er mere velegnede til udviklingsfænomener (se også kapitel 6).

Testtagerens svar på testelementer er den grundlæggende enhed i IRT-modeller. Typen af ​​respons bestemmes af graden af ​​udtryk for den karakteristik, der studeres hos en person. En sådan karakteristik kunne for eksempel være aritmetiske eller rumlige evner. I de fleste tilfælde er dette et eller andet aspekt af intelligens, karakteristika ved præstationer eller personlighedstræk. Det antages, at der er et ikke-lineært forhold mellem en given persons position i et bestemt område af de karakteristika, der undersøges, og sandsynligheden for at fuldføre en bestemt opgave. Ulineariteten af ​​denne afhængighed er i en vis forstand intuitiv. Berømte sætninger "Enhver begyndelse er svær" (langsom ikke-


lineær start) og "At blive en helgen er ikke så let" betyder, at yderligere forbedring efter at have nået et vist niveau er vanskelig. Kurven nærmer sig langsomt, men når næsten aldrig en succesrate på 100%.

Nogle modeller modsiger snarere vores intuitive forståelse. Lad os tage dette eksempel. En person med et frivilligt karakteristisk intensitetsindeks på 1,5 har 60 procents sandsynlighed for at lykkes med at udføre opgaven. Dette modsiger vores intuitive forståelse af sådan en situation, fordi du enten kan klare opgaven med succes eller slet ikke klare den. Lad os tage dette eksempel: en person forsøger 100 gange at nå en højde på 1m 50 cm. Succes ledsager ham 60 gange, dvs. det har en succesrate på 60 procent.

For at vurdere sværhedsgraden af ​​en karakteristik kræves der mindst to opgaver. Rasch-modellen involverer bestemmelse af karakteristikas sværhedsgrad uanset opgavens sværhedsgrad. Dette strider også imod vores intuition: antag at en person har 80 % chance for at springe over 1,30 m. Hvis dette er tilfældet, så har han ifølge opgavens karakteristiske kurve 60 % chance for at springe over 1,50 m og 40 % chance af spring over 1,50 m. sandsynlighed for at springe over 1,70 m. Derfor er det, uanset værdien af ​​den uafhængige variabel (højde), muligt at estimere en persons evne til at hoppe højt.

Der er omkring 50 IRT-modeller (Goldstein & Wood, 1989) Der er mange ikke-lineære funktioner, der beskriver (forklarer) sandsynligheden for succes med at udføre en opgave eller gruppe af opgaver. Disse modellers krav og begrænsninger er forskellige, og disse forskelle kan afsløres ved at sammenligne Rasch-modellen og Mokken-skalaen. Kravene til disse modeller omfatter:

1) behovet for at bestemme karakteristikken under undersøgelse og vurdere personens position inden for rækkevidden af ​​denne egenskab;

2) vurdering af rækkefølgen af ​​opgaver;

3) kontrol af specifikke modeller. Inden for psykometri er der udviklet mange procedurer til at teste modellen.

Nogle opslagsbøger diskuterer IRT-teori som en form for testemneanalyse (se f.eks.

Croker & Algina, J 986). Man kan dog argumentere for, at IRT er en "mini-teori om mini-adfærd." Tilhængere af IRT-teorien bemærker, at hvis begreber (modeller) på mellemniveau er ufuldkomne, hvad kan man så sige om mere komplekse konstruktioner i psykologien?

Klassiske og moderne testteorier. Folk kan ikke lade være med at sammenligne ting, der ser næsten ens ud. (Måske består den daglige ækvivalent af psykometri hovedsageligt i at sammenligne mennesker på væsentlige egenskaber og vælge mellem dem.) Hver af de præsenterede teorier – teorien om måling af estimeringsfejl og den matematiske model for testsvar – har sine tilhængere (Goldstein & Wood, 1986).

IRT-modeller er ikke blevet beskyldt for at være "regelbaserede vurderinger" som klassisk testteori. IRT-modellen er fokuseret på analysen af ​​de egenskaber, der vurderes. Personlighedskarakteristika og opgavekarakteristika vurderes ved hjælp af skalaer (ordinal eller interval). Desuden er det muligt at sammenligne udførelsen af ​​forskellige tests med det formål at studere lignende egenskaber. Endelig er reliabiliteten ikke den samme for hver værdi på en skala, og gennemsnitlige score er generelt mere pålidelige end score i begyndelsen og slutningen af ​​skalaen. Således ser IRT-modeller ud til at være mere teoretisk overlegne. Der er også forskelle i den praktiske anvendelse af moderne testteori og klassisk teori (Sijstma, 1992, s. 127-130). Moderne testteori er mere kompleks sammenlignet med den klassiske, så den bruges sjældnere af ikke-specialister. Desuden har IRT specifikke opgavekrav. Det betyder, at genstande skal udelukkes fra testen, hvis de ikke opfylder modellens krav. Denne regel gælder yderligere for de opgaver, der var en del af udbredte test bygget på principperne for klassisk teori. Testen bliver kortere, og derfor falder dens pålidelighed.

IRT leverer matematiske modeller til at studere fænomener i den virkelige verden. Modeller skal hjælpe os med at forstå nøgleaspekter af disse fænomener. Men her ligger det teoretiske hovedspørgsmål. Modeller kan overvejes


som en tilgang til at studere den komplekse virkelighed, vi lever i. Men model og virkelighed er ikke det samme. Ifølge den pessimistiske opfattelse er det muligt kun at modellere isolerede (og ikke de mest interessante) typer adfærd. Man kan også støde på udsagnet om, at virkeligheden slet ikke kan modelleres, pga den adlyder mere end blot årsag-og-virkning-love. I bedste fald er det muligt at modellere individuelle (ideelle) adfærdsfænomener. Der er et andet, mere optimistisk syn på mulighederne for modellering. Ovenstående position blokerer muligheden for dyb forståelse af arten af ​​fænomenerne menneskelig adfærd. Anvendelsen af ​​den ene eller anden model rejser nogle generelle, grundlæggende spørgsmål. Efter vores mening er der ingen tvivl om, at IRT er et begreb teoretisk og teknisk overlegent klassisk testteori.

Det praktiske formål med tests, uanset på hvilket teoretisk grundlag de er skabt, er at bestemme væsentlige kriterier og på grundlag heraf fastlægge karakteristika ved visse psykologiske konstruktioner. Har IRT-modellen også fordele i denne henseende? Det er muligt, at test baseret på denne model ikke forudsiger mere præcist end test baseret på klassisk teori, og det er muligt, at deres bidrag til udviklingen af ​​psykologiske konstruktioner ikke er mere signifikant. Diagnostikere foretrækker kriterier, der er direkte relevante for individet, institutionen eller samfundet. En model, der er mere videnskabeligt avanceret "ipso facto"* definerer ikke et mere passende kriterium og er til en vis grad begrænset til at forklare videnskabelige konstruktioner. Det er indlysende, at udviklingen af ​​test baseret på klassisk teori vil fortsætte, men samtidig vil der blive skabt nye IRT-modeller, der strækker sig til studiet af et større antal psykologiske fænomener.

I klassisk testteori skelnes der mellem begreberne "reliabilitet" og "validitet". Testresultater skal være pålidelige, dvs. resultaterne af den indledende og gentestning bør være konsistente. Udover,

* ipso facto(lak) - af sig selv (ca. oversættelse).

resultaterne bør (så vidt muligt) være fri for estimeringsfejl. Validitet er et af kravene til de opnåede resultater. I dette tilfælde anses reliabilitet som en nødvendig, men endnu ikke tilstrækkelig betingelse for testens validitet.

Validitetsbegrebet antyder, at resultaterne relaterer sig til noget vigtigt i praktisk eller teoretisk henseende. Konklusioner fra testresultater skal være gyldige. Oftest taler de om to typer validitet: prædiktiv (kriterium) og konstruktiv. Der findes også andre former for validitet (se kapitel 3). Derudover kan validitet bestemmes i tilfælde af kvasi-eksperimenter (Cook & Campbell, 1976, Cook & Shadish, 1994). Hovedtypen af ​​validitet er dog stadig prædiktiv validitet, hvilket forstås som evnen til at forudsige noget væsentligt om fremtidig adfærd ud fra et testresultat, samt muligheden for en dybere forståelse af en bestemt psykologisk egenskab eller kvalitet.

De præsenterede validitetstyper diskuteres i hver opslagsbog og er ledsaget af en beskrivelse af metoder til analyse af testvaliditet. Faktoranalyse er mere passende til at bestemme konstruktionsvaliditet, og lineære regressionsligninger bruges til at analysere prædiktiv validitet. Visse karakteristika (akademisk præstation, effektivitet af terapi) kan forudsiges på basis af en eller flere indikatorer opnået, når man arbejder med intellektuelle eller personlighedstests. Databehandlingsteknikker såsom korrelation, regression, variansanalyse, analyse af partielle korrelationer og varianser bruges til at bestemme den prædiktive validitet af en test.

Indholdsvaliditet beskrives også ofte. Det forudsættes, at alle testens opgaver og opgaver skal tilhøre et bestemt område (psykiske egenskaber, adfærd mv.). Begrebet indholdsvaliditet karakteriserer korrespondancen af ​​hvert testelement til det målte domæne. Indholdsvaliditet ses nogle gange som en del af pålidelighed eller "generaliserbarhed" (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Men hvornår


Ved valg af opgaver til præstationstest inden for et bestemt fagområde er det også vigtigt at være opmærksom på reglerne for inddragelse af opgaver i testen.

I klassisk testteori behandles reliabilitet og validitet relativt uafhængigt af hinanden. Men der er en anden forståelse af forholdet mellem disse begreber. Moderne testteori er baseret på brug af modeller. Parametrene er estimeret inden for en bestemt model. Hvis en opgave ikke opfylder modellens krav, anses den inden for rammerne af denne model for at være ugyldig. Konstruktionsvalidering er en del af verifikationen af ​​selve modellen. Denne validering refererer primært til at teste eksistensen af ​​et endimensionelt latent træk af interesse med kendte skalaegenskaber. Skala-score kan bestemt bruges til at bestemme passende mål, og de kan korreleres med mål for andre konstruktioner for at indsamle information om den konvergerende og divergerende validitet af konstruktionen.

Psykodiagnostik ligner sprog, beskrevet som enheden af ​​fire komponenter præsenteret på tre niveauer. Den første komponent, testteori, er analog med syntaks, et sprogs grammatik. Generativ grammatik er på den ene side en genial model, og på den anden side et system, der adlyder regler. Ved hjælp af disse regler opbygges komplekse sætninger på basis af simple bekræftende sætninger. Samtidig efterlader denne model dog en beskrivelse af, hvordan kommunikationsprocessen er organiseret (hvad der transmitteres, og hvad der opfattes), og til hvilke formål den udføres. Forståelse af dette kræver yderligere viden. Det samme kan siges om testteori: det er nødvendigt i psykodiagnostik, men det er ikke i stand til at forklare, hvad en psykodiagnostiker gør, og hvad hans mål er.

1.3.2. Psykologiske teorier og psykologiske konstruktioner

Psykodiagnostik er altid en diagnose af noget bestemt: personlige egenskaber, adfærd, tænkning, følelser. Testene er designet til at vurdere individuelle forskelle. Der er flere begreber

individuelle forskelle, som hver har sine egne særpræg. Hvis det anerkendes, at psykodiagnostik ikke kun er begrænset til vurdering af individuelle forskelle, så bliver andre teorier væsentlige for psykodiagnostik. Et eksempel er vurderingen af ​​forskelle i mentale udviklingsprocesser og forskelle i det sociale miljø. Selvom vurderingen af ​​individuelle forskelle ikke er en uundværlig egenskab ved psykodiagnostik, er der ikke desto mindre visse traditioner for forskning på dette område. Psykodiagnostik begyndte med vurderingen af ​​forskelle i intelligens. Hovedformålet med testene var "at bestemme den arvelige overførsel af genialitet" (Gallon) eller udvælgelsen af ​​børn til træning (Binet, Simon). Målingen af ​​IQ modtog teoretisk forståelse og praktisk udvikling i værker af Spearman (Storbritannien) og Thurstone (USA). Raymond B. Cattell gjorde en lignende ting for at vurdere personlighedsegenskaber. Psykodiagnostik bliver uløseligt forbundet med teorier og ideer om individuelle forskelle i præstationer (vurdering af maksimale evner) og adfærdsformer (typisk funktionsniveau). Denne tradition fortsætter med at være effektiv i dag. I lærebøger om psykodiagnostik vurderes forskelle i det sociale miljø meget sjældnere sammenlignet med hensyntagen til egenskaberne ved selve udviklingsprocesserne. Der er ingen rimelig forklaring på dette. På den ene side er diagnostik ikke begrænset til bestemte teorier og begreber. På den anden side har den brug for teorier, da det er i dem, at indholdet, der diagnosticeres, bestemmes (dvs. "hvad" der diagnosticeres). For eksempel kan intelligens både betragtes som en generel egenskab og som grundlag for mange evner uafhængige af hinanden. Hvis psykodiagnostik forsøger at "undslippe" denne eller hin teori, så bliver grundlaget for den psykodiagnostiske proces ideer om sund fornuft. Forskning anvender forskellige metoder til dataanalyse, og forskningens generelle logik bestemmer valget af en eller anden matematisk model og bestemmer strukturen af ​​de psykologiske begreber, der anvendes. Sådanne metoder til matematisk statistik


ki, såsom variansanalyse, regressionsanalyse, faktoranalyse og beregning af korrelationer, antager eksistensen af ​​lineære afhængigheder. Hvis disse metoder bruges forkert, "introducerer" de deres struktur i de opnåede data og de anvendte konstruktioner.

Idéer om forskelle i det sociale miljø og personlighedsudvikling havde næsten ingen indflydelse på psykodiagnostik. Lærebøger (se f.eks. Murphy & Davidshofer, 1988) undersøger klassisk testteori og diskuterer relevante metoder til statistisk bearbejdning, beskriver velkendte tests og diskuterer brugen af ​​psykodiagnostik i praksis: i ledelsespsykologi, i personaleudvælgelse, ved vurdering menneskelige psykologiske egenskaber.

Teorier om individuelle forskelle (såvel som ideer om forskelle mellem sociale miljøer og mental udvikling) er analoge med studiet af sprogets semantik. Dette er studiet af essens, indhold og mening. Betydninger er struktureret på en bestemt måde (svarende til psykologiske konstruktioner), for eksempel ved lighed eller kontrast (analogi, konvergens, divergens).

1.3.3. Psykologiske tests og andre metodiske værktøjer

Den tredje komponent i den foreslåede ordning er tests, procedurer og metodiske midler, ved hjælp af hvilke oplysninger om personlighedskarakteristika indsamles. Drene og Sijtsma (1990, s. 31) definerer test som følger: ”En psykologisk test betragtes som en klassifikation i henhold til et bestemt system eller som en måleprocedure, der gør det muligt at foretage en bestemt bedømmelse om en eller flere empirisk isolerede eller teoretiske. baserede karakteristika for et specifikt aspekt af menneskelig adfærd (til inden for testsituationen). I dette tilfælde undersøges respondenternes respons på et vist antal nøje udvalgte stimuli, og de opnåede svar sammenlignes med testnormer.”

Diagnostik kræver tests og teknikker til at indsamle pålidelige, nøjagtige og gyldige oplysninger om funktioner

og karakteristiske personlighedstræk, om menneskelig tænkning, følelser og adfærd. Udover udvikling af testprocedurer indeholder denne komponent også følgende spørgsmål: hvordan tests oprettes, hvordan opgaver formuleres og udvælges, hvordan testprocessen forløber, hvad er kravene til testbetingelser, hvordan tages højde for målefejl. , hvordan testresultater beregnes og fortolkes.

Testudviklingsprocessen skelner mellem rationelle og empiriske strategier. Anvendelsen af ​​en rationel strategi begynder med at definere grundlæggende begreber (for eksempel begrebet intelligens, ekstraversion), og testopgaver formuleres i overensstemmelse med disse begreber. Et eksempel på en sådan strategi er begrebet aspektanalyse (facetteorien) af Guttman (1957, 1968, 1978). Først fastlægges forskellige aspekter af hovedkonstruktionerne, derefter udvælges opgaver og opgaver på en sådan måde, at der tages hensyn til hvert af disse aspekter. Den anden strategi er, at opgaver udvælges på et empirisk grundlag. For eksempel, hvis en forsker forsøgte at lave en erhvervsmæssig interessetest, der kunne differentiere læger fra ingeniører, ville dette være proceduren. Begge grupper af respondenter skal besvare alle testemner, og de poster, hvor der findes statistisk signifikante forskelle, indgår i den afsluttende test. Hvis der for eksempel er forskelle mellem grupper i svar på udsagnet "Jeg kan godt lide at fiske", så bliver det udsagn et element i testen. Den centrale forudsætning for denne bog er, at testen er knyttet til en begrebsmæssig eller taksonomisk teori, der definerer disse karakteristika.

Formålet med testen er normalt defineret i brugsanvisningen. Testen skal standardiseres, så den kan vurdere forskelle mellem individer frem for mellem testbetingelser. Der er dog afvigelser fra standardisering i procedurer kaldet "testing the limits" og "learning potential tests". Under disse forhold bistås respondenten i processen


teste og derefter evaluere effekten af ​​en sådan procedure på resultatet. Scoring for besvarelser af opgaver er objektiv, dvs. udføres i overensstemmelse med standardproceduren. Fortolkningen af ​​de opnåede resultater er også nøje defineret og udført på basis af teststandarder.

Den tredje komponent af psykodiagnostik - psykologiske tests, instrumenter, procedurer - indeholder visse opgaver, der er de mindste enheder af psykodiagnostik, og i denne forstand ligner opgaverne et sprogs fonemer. Antallet af mulige kombinationer af fonemer er begrænset. Kun visse fonemiske strukturer kan danne ord og sætninger, der sikrer, at information formidles til lytteren. Også Og testopgaver: kun i en bestemt kombination med hinanden kan de blive et effektivt middel til at vurdere den tilsvarende konstruktion.

Hvad er test

I overensstemmelse med IEEE Std 829-1983 Afprøvning er en proces med softwareanalyse rettet mod at identificere forskelle mellem dens faktiske og påkrævede egenskaber (defekt) og på at vurdere softwarens egenskaber.

Ifølge GOST R ISO IEC 12207-99 definerer softwarens livscyklus blandt andet hjælpeprocesser til verifikation, certificering, fælles analyse og revision. Verifikationsprocessen er processen med at fastslå, at softwareprodukter fungerer i fuld overensstemmelse med de krav eller betingelser, der er implementeret i tidligere arbejde. Denne proces kan omfatte analyse, verifikation og test (test). Certificeringsprocessen er processen med at bestemme fuldstændigheden af ​​overholdelse af de etablerede krav, det oprettede system eller softwareprodukt med deres funktionelle formål. Den fælles evalueringsproces er processen med at vurdere tilstandene og om nødvendigt resultaterne af projektets arbejde (produkter). Revisionsprocessen er processen med at fastslå overholdelse af krav, planer og kontraktvilkår. Tilsammen udgør disse processer det, man normalt kalder test.

Testning er baseret på testprocedurer med specifikke input, startbetingelser og forventede resultater, designet til et specifikt formål, såsom verificering af et bestemt program eller verifikation af overensstemmelse med et specifikt krav. Testprocedurer kan teste forskellige aspekter af et programs funktion, fra den korrekte funktion af en bestemt funktion til den tilstrækkelige opfyldelse af forretningskrav.

Ved udførelse af et projekt er det nødvendigt at overveje i overensstemmelse med hvilke standarder og krav produktet vil blive testet. Hvilke værktøjer (hvis nogen) vil blive brugt til at finde og dokumentere fundne defekter. Hvis du husker test fra starten af ​​projektet, vil test af produktet under udvikling ikke bringe ubehagelige overraskelser. Det betyder, at kvaliteten af ​​produktet højst sandsynligt vil være ret høj.

Produktets livscyklus og test

I stigende grad i dag anvendes iterative softwareudviklingsprocesser, især teknologi RUP - Rational Unified Process(fig. 1). Med denne tilgang ophører test med at være en "off-the-cuff"-proces, der finder sted, efter at programmører har skrevet al den nødvendige kode. Arbejdet med test begynder allerede fra den indledende fase med at identificere krav til et fremtidigt produkt og er tæt integreret med aktuelle opgaver. Og det stiller nye krav til testerne. Deres rolle er ikke begrænset til blot at identificere fejl så fuldstændigt og så tidligt som muligt. De skal deltage i den overordnede proces med at identificere og adressere de væsentligste projektrisici. For at gøre dette bestemmes testmålet og metoderne til at opnå det for hver iteration. Og ved afslutningen af ​​hver iteration fastlægges det, i hvilket omfang dette mål er nået, om der er behov for yderligere tests, og om principperne og værktøjerne til at gennemføre test skal ændres. Til gengæld skal hver opdaget defekt gennemgå sin egen livscyklus.

Ris. 1. Produktets livscyklus ifølge RUP

Test udføres normalt i cyklusser, som hver har en specifik liste over opgaver og mål. Testcyklussen kan falde sammen med en iteration eller svare til en specifik del af den. Typisk udføres en testcyklus for en specifik systemopbygning.

Et softwareprodukts livscyklus består af en række relativt korte iterationer (figur 2). En iteration er en komplet udviklingscyklus, der fører til frigivelsen af ​​et endeligt produkt eller en forkortet version af det, som udvides fra iteration til iteration for til sidst at blive et komplet system.

Hver iteration omfatter normalt opgaver med arbejdsplanlægning, analyse, design, implementering, test og evaluering af opnåede resultater. Forholdet mellem disse opgaver kan dog ændre sig væsentligt. I overensstemmelse med forholdet mellem forskellige opgaver i en iteration, grupperes de i faser. Den første fase, Begyndelse, fokuserer på analyseopgaverne. Den anden fase iterationer, Udvikling, fokuserer på at designe og teste centrale designløsninger. I tredje fase - Byggeri - den største andel af udviklings- og testopgaver. Og i sidste fase - Overdragelse - løses opgaverne med at teste og overføre systemet til Kunden i videst omfang.

Ris. 2. Gentagelser af softwareproduktets livscyklus

Hver fase har sine egne specifikke mål i produktets livscyklus og betragtes som afsluttet, når disse mål er nået. Alle iterationer, undtagen måske begyndelsesfasens iterationer, ender med skabelsen af ​​en fungerende version af systemet, der udvikles.

Test kategorier

Tests varierer betydeligt i de problemer, de løser, og den teknologi, de bruger.

Test kategorier Kategoribeskrivelse Typer af test
Nuværende test Et sæt test udført for at bestemme funktionaliteten af ​​nye systemfunktioner tilføjet.
  • Stresstestning;
  • test af konjunkturcykler;
  • stresstest.
Regressionstest Formålet med regressionstest er at verificere, at tilføjelser til systemet ikke reducerer dets muligheder, dvs. test udføres i henhold til krav, der allerede er opfyldt, før der tilføjes nye funktioner.
  • Stresstestning;
  • test af konjunkturcykler;
  • stresstest.

Test af underkategorier

Test af underkategorier Beskrivelse af typen af ​​test Undertyper af test
Stresstest Bruges til at teste alle applikationsfunktioner uden undtagelse. I dette tilfælde er rækkefølgen af ​​test af funktionerne ligegyldig.
  • funktionel testning;
  • interface test;
  • database test
Konjunkturtest Bruges til at teste applikationsfunktioner i den rækkefølge, de kaldes af brugeren. For eksempel simulering af alle handlinger fra en revisor for 1. kvartal.
  • enhedsprøvning (enhedstestning);
  • funktionel testning;
  • interface test;
  • database test.
Stresstest

Bruges til test

Applikationsydelse. Formålet med denne test er at bestemme omfanget af stabil drift af applikationen. Under denne test kaldes alle tilgængelige funktioner.

  • enhedsprøvning (enhedstestning);
  • funktionel testning;
  • interface test;
  • database test.

Typer af test

Enhedstest (enhedstest) - denne type involverer test af individuelle applikationsmoduler. For at opnå maksimale resultater udføres test samtidig med udvikling af moduler.

Funktionstest - Formålet med denne test er at sikre, at testelementet fungerer korrekt. Korrektheden af ​​navigation gennem objektet testes, såvel som input, behandling og output af data.

Database test - kontrol af databasens funktionalitet under normal applikationsdrift, under overbelastning og i flerbrugertilstand.

Enhedstest

For OOP er den sædvanlige måde at organisere enhedstest på at teste metoderne for hver klasse, derefter klassen for hver pakke, og så videre. Vi går gradvist over til at teste hele projektet, og de tidligere tests er af regressionstypen.

Outputdokumentationen for disse test inkluderer testprocedurer, inputdata, kode, der udfører testen og outputdata. Følgende er typen af ​​outputdokumentation.

Funktionstest

Funktionstestning af testemnet planlægges og udføres ud fra de testkrav, der er specificeret i kravdefinitionsfasen. Kravene omfatter forretningsregler, use-case diagrammer, forretningsfunktioner og, hvis de er tilgængelige, aktivitetsdiagrammer. Formålet med funktionstest er at verificere, at de udviklede grafiske komponenter opfylder de specificerede krav.

Denne type test kan ikke automatiseres fuldt ud. Derfor er det opdelt i:

  • Automatiseret test (vil blive brugt i det tilfælde, hvor det er muligt at kontrollere outputoplysningerne).

Formål: at teste datainput, -behandling og -output;

  • Manuel test (i andre tilfælde).

Formål: Tester om brugerkravene er opfyldt korrekt.

Det er nødvendigt at udføre (afspille) hver af use-cases med både korrekte værdier og åbenlyst fejlagtige værdier for at bekræfte korrekt funktion i henhold til følgende kriterier:

  • produktet reagerer tilstrækkeligt på alle inputdata (forventede resultater udlæses som svar på korrekt indtastede data);
  • produktet reagerer tilstrækkeligt på forkert indtastede data (tilsvarende fejlmeddelelser vises).

Database test

Formålet med denne test er at sikre pålideligheden af ​​databaseadgangsmetoder, deres korrekte udførelse uden at krænke dataintegriteten.

Det er nødvendigt at bruge så mange databasekald som muligt sekventielt. Der anvendes en tilgang, hvor testen er designet på en sådan måde, at den "indlæser" databasen med en sekvens af både korrekte værdier og åbenlyst fejlagtige. Databasens reaktion på datainput bestemmes, og tidsintervallerne for deres behandling estimeres.

KAPITEL 3. STATISTISK BEHANDLING AF TESTRESULTATER

Statistisk bearbejdning af testresultater giver på den ene side mulighed for objektivt at bestemme forsøgspersonernes resultater, på den anden side at vurdere kvaliteten af ​​selve testen, testopgaver, især for at vurdere dens pålidelighed. Problemet med pålidelighed har fået meget opmærksomhed i klassisk testteori. Denne teori har ikke mistet sin relevans i dag. På trods af fremkomsten af ​​mere moderne teorier, fortsætter den klassiske teori med at fastholde sin position.

3.1. GRUNDLÆGGENDE BESTEMMELSER I KLASSISK TESTTEORI

3.2. TESTRESULTATER MATRIX

3.3. GRAFISK REPRÆSENTATION AF TESTSCORE

3.4. MÅL AF CENTRAL TENDENS

3.5. NORMAL FORDELING

3.6. VARIATION AF TESTRESULTATER AF EMNE

3.7. KORELATIONSMATRIX

3.8. TEST PÅLIDELIGHED

3.9. TESTVALIDITET

LITTERATUR

GRUNDLÆGGENDE BESTEMMELSER I KLASSISK TESTTEORI

Skaberen af ​​den klassiske teori om mentale tests er den berømte britiske psykolog, forfatter til faktoranalyse, Charles Edward Spearman (1863-1945) 1. Han blev født den 10. september 1863 og gjorde tjeneste i den britiske hær i en fjerdedel af sit liv. Af denne grund modtog han først sin ph.d.-grad i en alder af 41 2. Charles Spearman udførte sin afhandlingsforskning ved Leipzig Laboratory of Experimental Psychology under ledelse af Wilhelm Wundt. På det tidspunkt var Charles Spearman stærkt påvirket af Francis Galtons arbejde med at teste menneskelig intelligens. Charles Spearmans elever var R. Cattell og D. Wechsler. Blandt hans tilhængere er A. Anastasi, J. P. Guilford, P. Vernon, C. Burt, A. Jensen.

Lewis Guttman (1916-1987) ydede et stort bidrag til udviklingen af ​​klassisk testteori.

Den klassiske testteori blev først præsenteret omfattende og fuldstændigt i det grundlæggende arbejde af Harold Gulliksen (Gulliksen H., 1950) 4 . Siden da er teorien blevet noget modificeret, især det matematiske apparat er blevet forbedret. Klassisk testteori i en moderne præsentation er givet i bogen Crocker L., Aligna J. (1986) 5. Blandt indenlandske forskere var V. Avanesov (1989) 6 den første til at beskrive denne teori. I arbejdet med Chelyshkova M.B. (2002) 7 giver oplysninger om den statistiske begrundelse for testens kvalitet.

Klassisk testteori er baseret på følgende fem grundprincipper.

1. Det empirisk opnåede måleresultat (X) er summen af ​​det sande måleresultat (T) og målefejlen (E) 8:

X = T + E (3.1.1)

Værdierne af T og E er normalt ukendte.

2. Det sande måleresultat kan udtrykkes som den matematiske forventning E(X):

3. Korrelationen af ​​sande og falske komponenter på tværs af sættet af emner er nul, det vil sige ρ TE = 0.

4. De fejlagtige komponenter i to tests korrelerer ikke:

5. De fejlagtige komponenter i en test korrelerer ikke med de sande komponenter i nogen anden test:

Derudover er grundlaget for klassisk testteori dannet af to definitioner - parallelle og ækvivalente test.

PARALLEL-tests skal opfylde kravene (1-5), de sande komponenter i den ene test (T 1) skal være lig med de sande komponenter i den anden test (T 2) i hver prøve af emner, der besvarer begge tests. Det antages, at T 1 =T 2 og derudover er lig med variansen s 1 2 = s 2 2.

Ækvivalente test skal opfylde alle kravene til parallelle test med én undtagelse: de sande komponenter af en test behøver ikke at være lig med de sande komponenter i en anden parallel test, men de skal afvige med den samme konstant Med.

Betingelsen for ækvivalens af to prøver er skrevet som følger:

hvor c 12 er konstanten mellem resultaterne af den første og anden test.

På baggrund af ovenstående bestemmelser er der konstrueret en teori om testpålidelighed 9,10.

det vil sige, at variansen af ​​de resulterende testresultater er lig med summen af ​​varianserne af sand- og fejlkomponenterne.

Lad os omskrive dette udtryk som følger:

(3.1.3)

Den højre side af denne lighed repræsenterer testens pålidelighed ( r). Testens pålidelighed kan således skrives som:

Baseret på denne formel blev der efterfølgende foreslået forskellige udtryk for at finde testens reliabilitetskoefficient. Testens pålidelighed er dens vigtigste egenskab. Hvis pålideligheden er ukendt, kan testresultaterne ikke fortolkes. En tests pålidelighed karakteriserer dens nøjagtighed som et måleinstrument. Høj pålidelighed betyder høj repeterbarhed af testresultater under de samme forhold.

I klassisk testteori er det vigtigste problem at bestemme emnets sande testscore (T). Den empiriske testscore (X) afhænger af mange forhold - opgavernes sværhedsgrad, testdeltagernes beredskabsniveau, antal opgaver, testforhold mv. I en gruppe af stærke, velforberedte forsøgspersoner vil testresultater normalt være bedre. end i en gruppe af dårligt uddannede fag. I denne henseende er spørgsmålet fortsat åbent om størrelsen af ​​målingen af ​​opgavevanskeligheder for den generelle population af fag. Problemet er, at reelle empiriske data opnås fra helt tilfældige prøver af forsøgspersoner. Som regel er der tale om studiegrupper, der repræsenterer et væld af studerende, som interagerer ret stærkt med hinanden i læringsprocessen og studerer under forhold, der ofte ikke gentages for andre grupper.

Vi finder s E fra ligning (3.1.4)

Her er målenøjagtighedens afhængighed af standardafvigelsen eksplicit vist s X og om testens pålidelighed r.

Applikationerne, målene og målene for softwaretestning er varierede, så test evalueres og forklares på forskellige måder. Nogle gange er det svært for testerne selv at forklare, hvad "som den er" softwaretest er. Forvirring opstår.

For at løse denne forvirring indleder Alexey Barantsev (praktiserende læge, træner og konsulent i softwaretestning; hjemmehørende fra Institut for Systemprogrammering ved Det Russiske Videnskabsakademi) sine testtræninger med en introduktionsvideo om testets vigtigste bestemmelser.

Det forekommer mig, at underviseren i denne rapport var i stand til mest fyldestgørende og afbalanceret at forklare "hvad test er" fra en videnskabsmands og programmørs synspunkt. Det er mærkeligt, at denne tekst endnu ikke er dukket op på Habré.

Jeg giver her en fortættet genfortælling af denne rapport. Sidst i teksten er der links til den fulde version, samt til den nævnte video.

Grundlæggende test

Kære kollegaer,

Lad os først prøve at forstå, hvad test IKKE er.

Test er ikke udvikling,

Selvom testere ved, hvordan man programmerer, inklusive test (automatiseringstest = programmering), kan de udvikle nogle hjælpeprogrammer (til sig selv).

Test er dog ikke en softwareudviklingsaktivitet.

Test er ikke analyse,

Og ikke aktiviteten med at indsamle og analysere krav.

Selvom du under testprocessen nogle gange skal afklare kravene, og nogle gange skal du analysere dem. Men denne aktivitet er ikke den vigtigste, den skal snarere udføres af nødvendighed.

Test er ikke ledelse,

På trods af det faktum, at der i mange organisationer er en sådan rolle som "testleder". Selvfølgelig skal testere administreres. Men test i sig selv er ikke ledelse.

Test er ikke teknisk skrivning,

Testere skal dog dokumentere deres test og deres arbejde.

Testning kan ikke betragtes som en af ​​disse aktiviteter, blot fordi under udviklingsprocessen (eller analysere krav eller skrive dokumentation til deres tests), udfører testere alt dette arbejde for mig selv, og ikke for en anden.

En aktivitet er kun vigtig, når den er efterspurgt, det vil sige, testere skal producere noget "til eksport." Hvad gør de "til eksport"?

Fejl, fejlbeskrivelser eller testrapporter? Dette er til dels rigtigt.

Men dette er ikke hele sandheden.

Testernes vigtigste aktiviteter

er, at de giver deltagere i et softwareudviklingsprojekt negativ feedback om kvaliteten af ​​softwareproduktet.

"Negativ feedback" har ikke nogen negativ konnotation og betyder ikke, at testerne gør noget dårligt, eller at de gør noget dårligt. Det er bare et teknisk udtryk, der betyder en ret simpel ting.

Men denne ting er meget vigtig, og sandsynligvis den mest betydningsfulde komponent i testernes aktiviteter.

Der er en videnskab - "systemteori". Det definerer begrebet "feedback".

"Feedback" er nogle data, der går tilbage til input fra output, eller en del af data, der går tilbage til input fra output. Denne feedback kan være positiv eller negativ.

Begge typer feedback er lige vigtige.

Inden for udvikling af softwaresystemer er positiv feedback naturligvis en form for information, vi modtager fra slutbrugere. Dette er anmodninger om noget ny funktionalitet, dette er en stigning i salget (hvis vi frigiver et kvalitetsprodukt).

Negativ feedback kan også komme fra slutbrugere i form af nogle negative anmeldelser. Eller det kan komme fra testere.

Jo hurtigere negativ feedback gives, desto mindre energi er der brug for til at ændre dette signal. Derfor skal test starte så tidligt som muligt, i de tidligste stadier af projektet, og give denne feedback både på designstadiet og måske endnu tidligere på stadiet med indsamling og analyse af krav.

Det er i øvrigt her, der vokser forståelsen af, at testere ikke er ansvarlige for kvaliteten. De hjælper dem, der er ansvarlige for det.

Synonymer for begrebet "testning"

Fra det synspunkt, at test er levering af negativ feedback, er den verdensberømte forkortelse QA (Quality Assurance) bestemt IKKE synonymt med udtrykket "test".

Blot at give negativ feedback kan ikke betragtes som kvalitetssikring, fordi Assurance er nogle positive mål. Det er underforstået, at vi i dette tilfælde sikrer kvalitet og træffer rettidige foranstaltninger for at sikre, at kvaliteten af ​​softwareudvikling forbedres.

Men "kvalitetskontrol" - Kvalitetskontrol, kan i bred forstand betragtes som et synonym for begrebet "test", fordi kvalitetskontrol er levering af feedback i dens mest forskellige varianter på forskellige stadier af et softwareprojekt.

Nogle gange er test ment som en separat form for kvalitetskontrol.

Forvirringen kommer fra historien om testudvikling. På forskellige tidspunkter betød udtrykket "testning" forskellige handlinger, der kan opdeles i 2 store klasser: eksterne og interne.

Eksterne definitioner

De definitioner, som Myers, Beiser og Kaner gav på forskellige tidspunkter, beskriver testning netop ud fra dets EKSTERNE betydning. Det vil sige, fra deres synspunkt er test en aktivitet, der er beregnet til noget, og ikke består af noget. Alle disse tre definitioner kan opsummeres som at give negativ feedback.

Interne definitioner

Disse er definitioner, der er indeholdt i en standard for terminologi, der bruges i softwareudvikling, såsom en de facto standard kaldet SWEBOK.

Sådanne definitioner forklarer konstruktivt HVAD testaktiviteten er, men giver ikke den mindste idé om, HVORFOR der er behov for testning, hvortil alle resultater opnået ved at kontrollere overensstemmelsen mellem programmets faktiske opførsel og dets forventede adfærd vil blive brugt. .

test er

  • kontrollere programmets overensstemmelse med kravene,
  • udføres ved at observere dets arbejde
  • i særlige, kunstigt skabte situationer, valgt på en bestemt måde.
Herfra vil vi betragte dette som arbejdsdefinitionen af ​​"test".

Den generelle testordning er omtrent som følger:

  1. Testeren modtager programmet og/eller kravene ved indgangen.
  2. Han gør noget med dem, observerer programmets arbejde i visse situationer, der er kunstigt skabt af ham.
  3. Ved udgangen modtager den information om kampe og ikke-matches.
  4. Disse oplysninger bruges derefter til at forbedre det eksisterende program. Eller for at ændre kravene til et program, der stadig er under udvikling.

Hvad er en test

  • Dette er en speciel, kunstigt skabt situation, valgt på en bestemt måde,
  • og en beskrivelse af, hvilke observationer der skal gøres om programmets drift
  • for at kontrollere, om den opfylder nogle krav.
Der er ingen grund til at antage, at situationen er noget øjeblikkelig. Testen kan være ret lang, for eksempel ved test af ydeevne, kan denne kunstigt skabte situation være en belastning på systemet, der fortsætter i ret lang tid. Og de observationer, der skal foretages, er et sæt forskellige grafer eller metrikker, som vi måler under udførelsen af ​​denne test.

Testudvikleren er engageret i at vælge et begrænset sæt fra et enormt, potentielt uendeligt sæt af tests.

Nå, så kan vi konkludere, at testeren gør to ting under testen.

1.For det første styrer det programmets udførelse og skaber disse meget kunstige situationer, hvor vi skal kontrollere programmets opførsel.

2. Og for det andet observerer han programmets opførsel og sammenligner det, han ser, med det, der forventes.

Hvis en tester automatiserer test, så observerer han ikke selv programmets opførsel - han uddelegerer denne opgave til et specielt værktøj eller et specielt program, som han selv har skrevet. Det er hende, der observerer, hun sammenligner den observerede adfærd med den forventede, og giver kun testeren et endeligt resultat - uanset om den observerede adfærd falder sammen med den forventede eller ikke er sammenfaldende.

Ethvert program er en mekanisme til behandling af information. Input er information i én form, output er information i en anden form. Samtidig kan et program have mange input og output, de kan være forskellige, det vil sige, at et program kan have flere forskellige grænseflader, og disse grænseflader kan have forskellige typer:

  • Brugergrænseflade (UI)
  • Application Programming Interface (API)
  • Netværksprotokol
  • Filsystem
  • Miljøtilstand
  • Begivenheder
De mest almindelige grænseflader er
  • brugerdefinerede,
  • grafisk,
  • tekst,
  • udkraget,
  • og tale.
Ved at bruge alle disse grænseflader, testeren:
  • på en eller anden måde skaber kunstige situationer,
  • og kontrollerer, hvordan programmet opfører sig i disse situationer.

Dette er afprøvning.

Andre klassifikationer af testtyper

Den mest brugte opdeling i tre niveauer er
  1. enhedstest,
  2. integrationstest,
  3. system test.
Enhedstest betyder normalt test på et ret lavt niveau, det vil sige test af individuelle operationer, metoder og funktioner.

Systemtest refererer til test på brugergrænsefladeniveau.

Nogle andre termer bruges nogle gange, såsom "komponenttest", men jeg foretrækker at fremhæve disse tre, da den teknologiske opdeling mellem enheds- og systemtest ikke giver særlig mening. De samme værktøjer og de samme teknikker kan bruges på forskellige niveauer. Opdelingen er betinget.

Praksis viser, at værktøjer, der er positioneret af producenten som enhedstestværktøjer, kan bruges med lige stor succes på niveau med test af hele applikationen som helhed.

Og værktøjer, der tester hele applikationen på brugergrænsefladeniveau, ønsker nogle gange at kigge, for eksempel i databasen eller kalde en separat lagret procedure der.

Det vil sige, at opdelingen i system- og enhedstest generelt set er rent betinget, rent teknisk set.

De samme værktøjer bruges, og det er normalt, de samme teknikker bruges, på hvert niveau kan vi tale om test af en anden type.

Vi kombinerer:

Det vil sige, at vi kan tale om enhedstest af funktionalitet.

Vi kan tale om systemtest af funktionalitet.

Vi kan tale om enhedstest, for eksempel effektivitet.

Vi kan tale om systemeffektivitetstest.

Enten overvejer vi effektiviteten af ​​en enkelt algoritme, eller også overvejer vi effektiviteten af ​​hele systemet som helhed. Det vil sige, at den teknologiske opdeling i enheds- og systemtest ikke giver meget mening. Fordi de samme værktøjer, kan de samme teknikker bruges på forskellige niveauer.

Til sidst kontrollerer vi under integrationstest, om moduler i et system interagerer korrekt med hinanden. Det vil sige, at vi faktisk udfører de samme tests som under systemtest, blot er vi yderligere opmærksomme på, hvordan modulerne præcist interagerer med hinanden. Vi udfører nogle yderligere kontroller. Det er den eneste forskel.

Lad os endnu en gang prøve at forstå forskellen mellem system- og enhedstestning. Da denne opdeling forekommer ret ofte, burde denne forskel eksistere.

Og denne forskel manifesterer sig, når vi ikke udfører en teknologisk klassifikation, men en klassifikation efter formål afprøvning.

Klassificering efter mål kan bekvemt udføres ved hjælp af den "magiske firkant", som oprindeligt blev opfundet af Brian Marik og derefter forbedret af Ari Tennen.

I denne magiske firkant er alle typer test placeret i fire kvadranter, alt efter hvad testene er mere opmærksomme på.

Lodret - jo højere typen af ​​test er, jo mere opmærksomhed lægges der på nogle eksterne manifestationer af programmets adfærd; jo lavere den er, jo mere opmærksomhed lægger vi vægt på dets interne teknologiske struktur af programmet.

Horisontalt - jo længere til venstre vores test er, jo mere opmærksomhed lægger vi vægt på deres programmering, jo længere til højre er de, jo mere opmærksomhed lægger vi vægt på manuel test og menneskelig forskning af programmet.

Især termer som accepttest, accepttest og enhedstest kan nemt indtastes i dette felt i den betydning, som det oftest bruges i litteraturen. Dette er test på lavt niveau med en stor, overvældende andel af programmering. Det vil sige, at alle tests programmeres, udføres helt automatisk, og opmærksomheden rettes primært mod programmets interne struktur, netop til dets teknologiske funktioner.

I øverste højre hjørne vil vi have manuelle tests rettet mod en vis ekstern opførsel af programmet, især brugervenlighedstest, og i nederste højre hjørne vil vi højst sandsynligt have test af forskellige ikke-funktionelle egenskaber: ydeevne, sikkerhed og så på.

Så baseret på klassificeringen efter formål er enhedstest i den nederste venstre kvadrant, og alle andre kvadranter er systemtest.

Tak for din opmærksomhed.