Præsentation af grundlaget for teorien om prøver i idræt. Testteori og test af elevernes fysiske form

RAPPORT

elev 137 gr. Ivanova I.

om at teste effektiviteten af ​​træningsmetoder
ved hjælp af metoder til matematisk statistik

Sektioner af rapporten er udarbejdet i overensstemmelse med eksemplerne givet i denne manual i slutningen af ​​hver fase af spillet. De udfyldte rapporter opbevares på Institut for Biomekanik indtil konsultation inden eksamen. Studerende, der ikke har meldt sig for det udførte arbejde og ikke har afleveret notesbogen med rapporten til læreren, må ikke tage idrætsmetrologisk eksamen.


Fase I af business-spillet
Kontrol og måling i sport

Mål:

1. Sæt dig ind i det teoretiske grundlag for kontrol og måling i idræt og idræt.

2. Tilegne sig færdigheder i at måle hastighedspræstationsindikatorer hos atleter.

1. Fysisk kontrol
uddannelse og sport

Fysisk træning og idrætstræning er ikke en spontan, men en kontrolleret proces. På hvert tidspunkt er en person i en bestemt fysisk tilstand, som hovedsageligt bestemmes af sundhed (overholdelse af vitale tegn med normen, graden af ​​kroppens modstand mod uønskede pludselige påvirkninger), fysik og tilstanden af ​​fysiske funktioner .

Det er tilrådeligt at styre en persons fysiske tilstand ved at ændre den i den rigtige retning. Denne styring udføres ved hjælp af idræt og sport, som især omfatter fysiske øvelser.

Det ser kun ud til, at læreren (eller træneren) styrer den fysiske tilstand, hvilket påvirker atletens adfærd, dvs. at tilbyde visse fysiske øvelser, samt overvåge rigtigheden af ​​deres gennemførelse og de opnåede resultater. I virkeligheden styres atletens adfærd ikke af træneren, men af ​​atleten selv. Under sportstræning påvirkes det selvstyrende system (menneskekroppen). Individuelle forskelle i atleternes tilstand giver ikke tillid til, at den samme påvirkning vil forårsage den samme reaktion. Derfor er spørgsmålet om feedback relevant: information om atletens tilstand modtaget af træneren under kontrol af træningsprocessen.

Kontrol i idræt og sport er baseret på måling af indikatorer, udvælgelse af de mest betydningsfulde og deres matematiske behandling.

Styring af uddannelses- og træningsprocessen omfatter tre faser:

1) indsamling af information;

2) dets analyse;

3) beslutningstagning (planlægning).

Informationsindsamling udføres normalt under omfattende kontrol, hvis formål er:

1) konkurrencedygtig aktivitet;

2) træningsbelastninger;

3) atletens tilstand.



Der er (V.A. Zaporozhanov) tre typer atletens tilstande afhængigt af varigheden af ​​det interval, der kræves for overgangen fra en stat til en anden.

1. Iscenesat(permanent) tilstand. Gemt relativt lang - uger eller måneder. En kompleks karakteristik af en atlets iscenesatte tilstand, der afspejler hans evne til at demonstrere sportslige præstationer, kaldes beredskab, og tilstanden af ​​optimal (bedst for en given træningscyklus) beredskab kaldes sportsuniform. Det er klart, at en konditionstilstand ikke kan opnås eller tabes inden for en eller flere dage.

2. Nuværende stat. Ændringer under indflydelse af en eller flere klasser. Ofte trækker konsekvenserne af deltagelse i konkurrencer eller træningsarbejde udført i en af ​​klasserne ud i flere dage. I dette tilfælde bemærker atleten normalt fænomener af både ugunstig karakter (for eksempel muskelsmerter) og positive (for eksempel en tilstand af øget ydeevne). Sådanne ændringer kaldes forsinket træningseffekt.

Atletens aktuelle tilstand bestemmer arten af ​​de næste træningssessioner og størrelsen af ​​belastningerne i dem. Et særligt tilfælde af den nuværende tilstand, karakteriseret ved parathed til at udføre en konkurrenceøvelse i de kommende dage med et resultat tæt på det maksimale, kaldes nuværende beredskab.

3. Operationel stat. Ændringer under indflydelse engangsudførelse fysisk træning og er midlertidig (f.eks. træthed forårsaget af at løbe en distance én gang; en midlertidig forøgelse af præstationen efter opvarmning). Atletens operationelle tilstand ændrer sig under træningssessionen og bør tages i betragtning, når der planlægges hvileintervaller mellem tilgange, gentagne løb, ved beslutning om tilrådeligheden af ​​yderligere opvarmning osv. Et særligt tilfælde af en operationel tilstand, karakteriseret ved øjeblikkelig parathed til at udføre en konkurrenceøvelse med et resultat tæt på det maksimale, kaldes operationelt beredskab.

I overensstemmelse med ovenstående klassifikation er der tre hovedtyper af overvågning af atletens tilstand:

1) scenekontrol. Dens formål er at vurdere atletens scenetilstand (beredskab);

2) nuværende kontrol. Dens hovedopgave er at bestemme daglige (nuværende) udsving i atletens tilstand;

3) driftskontrol. Dens formål er en hurtig vurdering af atletens tilstand i øjeblikket.

En måling eller test udført for at bestemme en atlets tilstand eller evne kaldes prøve. Målingen eller testproceduren kaldes test.

Enhver test involverer måling. Men ikke hver måling tjener som en test. Kun dem, der opfylder følgende metrologiske krav, kan bruges som test: krav:

2) standardisering;

3) tilstedeværelsen af ​​et ratingsystem;

4) pålidelighed og informationsindhold (kvalitetsfaktor) af tests;

5) type kontrol (trinvis, aktuel eller operationel).

En test baseret på motoriske opgaver kaldes motorisk. Der er tre grupper af motoriske tests:

1. Kontroløvelser, hvor atleten har til opgave at vise maksimale resultater. Testresultatet er en motorisk præstation. For eksempel den tid det tager en atlet at løbe en distance på 100 m.

2. Standard funktionstest, hvor opgaven, ens for alle, doseres enten i henhold til mængden af ​​udført arbejde eller i henhold til størrelsen af ​​fysiologiske ændringer. Testresultatet er fysiologiske eller biokemiske indikatorer under standard arbejde eller motoriske præstationer med en standardmængde af fysiologiske ændringer. For eksempel den procentvise stigning i pulsen efter 20 squats eller den hastighed, som en atlet løber med en fast puls på 160 slag i minuttet.

3. Maksimal funktionstest, hvor atleten skal vise maksimale resultater. Testresultatet er fysiologiske eller biokemiske indikatorer ved maksimalt arbejde. Eksempelvis maksimalt iltforbrug eller maksimal iltgæld.

Test af høj kvalitet kræver viden om måleteori.


Nøglespørgsmål: Test som måleværktøj. Grundlæggende testteorier. Funktioner, muligheder og begrænsninger ved test. Anvendelse af test i personalevurdering. Fordele og ulemper ved at bruge test. Former og typer af testopgaver. Opgave byggeteknologi. Vurdering af testkvalitet. Reliabilitet og validitet. Test udviklingssoftware. 2




Test som måleværktøj Grundbegreber i testologi: måling, test, opgavers indhold og form, reliabilitet og validitet af måleresultater. Derudover bruger testologi sådanne begreber inden for statistisk videnskab som stikprøve og generel befolkning, gennemsnitsindikatorer, variation, korrelation, regression osv. 4




En testopgave er en didaktisk og teknologisk effektiv enhed af kontrolmateriale, en del af testen, der opfylder kravene til indholdsmæssig renhed (eller endimensionalitet), indholdsmæssig og logisk korrekthed, formkorrekthed og accept af det geometriske billede af opgaven. 6




Den traditionelle test er en standardiseret metode til diagnosticering af beredskabsniveau og struktur. I en sådan test besvarer alle forsøgspersoner de samme opgaver, på samme tid, under de samme betingelser og med de samme regler for vurdering af besvarelser. For at opnå et testmål kan der laves utallige tests, og alle kan være relevante for at nå målet. 8


Professionogram (fra latin: Professio specialty + Gramma record) er et system af karakteristika, der beskriver en bestemt profession, og inkluderer også en liste over normer og krav, som denne profession eller specialitet pålægger en medarbejder. Et professionogram kan især indeholde en liste over psykologiske karakteristika, som repræsentanter for bestemte faggrupper skal opfylde. 9


Grundlæggende testteorier De første videnskabelige værker om testteori dukkede op i begyndelsen af ​​det tyvende århundrede, i skæringspunktet mellem psykologi, sociologi, pædagogik og andre såkaldte adfærdsvidenskaber. Udenlandske psykologer kalder denne videnskab psykometri (Psychometrika), og lærere kalder det pædagogisk måling (Educational measurement). Uoverskygget af ideologi og politik er fortolkningen af ​​navnet "testologi" enkel og gennemsigtig: videnskaben om test. 10


Det første stadie er forhistorien – fra oldtiden til slutningen af ​​1800-tallet, hvor førvidenskabelige former for kontrol med viden og evner var udbredt; den anden periode, klassisk, varede fra begyndelsen af ​​20'erne til slutningen af ​​60'erne, hvor den klassiske testteori blev skabt; den tredje periode - teknologisk - begyndte i 70'erne - tidspunktet for udvikling af metoder til adaptiv testning og træning, metodologi til effektiv udvikling af test og testelementer til parametrisk vurdering af emner i henhold til den målte latente kvalitet. elleve


Funktioner, muligheder og begrænsninger ved test Testene, der anvendes ved udvælgelsen, er designet til at opnå et psykologisk portræt af kandidaten, vurdere dennes evner samt faglig viden og færdigheder. Test giver dig mulighed for at sammenligne kandidater med hinanden eller med standarder, det vil sige den ideelle kandidat. Test bruges til at måle de kvaliteter, en person har brug for for at udføre et job effektivt. Nogle tests er designet således, at arbejdsgiveren administrerer testen og beregner resultaterne. Andre kræver hjælp fra erfarne konsulenter for at sikre korrekt anvendelse. 12


Begrænsninger i brugen af ​​test er relateret til deres dyre administration; - med egnethed til at vurdere menneskelige evner; - tests er mere vellykkede til at forudsige succes i arbejde, der indeholder kortsigtede faglige opgaver, og er ikke særlig bekvemme i tilfælde, hvor opgaver løst på arbejdet tager flere dage eller uger. 13








2. Den anvendte terminologi bør være skræddersyet til den specifikke målgruppe. Det er også nødvendigt at udelukke overflødige artikler eller artikler, der indeholder to eller flere spørgsmål, da de nogle gange forvirrer respondenten og gør fortolkningen vanskelig. 17


3. For at opfylde alle disse krav bør du gennemgå hele spørgsmålsbanken artikel for artikel og analysere, hvilket formål hver enkelt tjener. Hvis der for eksempel udvikles en test til at måle analytiske evner hos revisorer, er det værd at overveje, hvad "analytisk evne" betyder i dette tilfælde. 18




5. Når spørgsmål og scoringsformater er blevet udvalgt, bør de konverteres til et brugervenligt format med tydeligt skrevne instruktioner og eksempelspørgsmål; så kandidater, der tager testen, fuldt ud forstår, hvad der kræves af dem. 20


6. Meget ofte på dette udviklingstrin indgår flere spørgsmål i testen end nødvendigt. Efter nogle skøn tre gange så meget, som der vil være tilbage i det endelige test- eller målesystem. Den første foranstaltning ville så være at teste testen, der udvikles, på et relativt bredt udvalg af eksisterende arbejdere for at sikre, at alle spørgsmål er lette at forstå. 21


7. Videnstest starter normalt med simple spørgsmål, der gradvist bliver sværere mod slutningen. Når test er beregnet til at måle sociale holdninger og personlighedskarakteristika, kan det være nyttigt at veksle negativt og positivt formulerede emner for at undgå uigennemtænkte svar. 22


8. Det sidste trin involverer at administrere testen til en bredt repræsentativ prøve for at etablere standarder for ydeevne, pålidelighed og validitet, før den bruges som et udvælgelsesværktøj. Derudover er det nødvendigt at bestemme testens validitet for at sikre, at den ikke diskriminerer nogen undergrupper af befolkningen (f.eks. etniske forskelle). 23


Vurdering af testens kvalitet For at udvælgelsesmetoder skal være tilstrækkeligt effektive, skal de være pålidelige, valide og pålidelige. Pålideligheden af ​​en udvælgelsesmetode er karakteriseret ved dens immunitet over for systematiske fejl i måling, det vil sige dens konsistens under forskellige forhold. 24


I praksis opnås pålidelighed i bedømmelsen ved at sammenligne resultaterne af to eller flere lignende test udført på forskellige dage. En anden måde at øge pålideligheden på er at sammenligne resultaterne af flere alternative udvælgelsesmetoder (f.eks. en test og et interview). Hvis resultaterne er ens eller ens, kan de betragtes som korrekte. 25


Pålidelighed betyder, at de udførte målinger vil give samme resultat som de tidligere, det vil sige, at vurderingsresultaterne ikke er påvirket af tredjepartsfaktorer. Validitet betyder, at metoden måler præcis, hvad den er beregnet til at måle. Den maksimalt mulige nøjagtighed af information opnået ved specialudviklede metoder i videnskabelig forskning er begrænset af tekniske faktorer og overstiger ikke 0,8. 26


I praksis med personaleudvælgelse bemærkes, at pålideligheden af ​​forskellige vurderingsmetoder ligger i intervallerne: 0,1 – 0,2 – traditionel samtale; 0,2 – 0,3 – anbefalinger; 0,3 – 0,5 – professionelle tests; 0,5 – 0,6 – struktureret interview, kompetencebaseret samtale; 0,5 – 0,7 – kognitive og personlighedstests; 0,6 – 0,7 – kompetencebaseret tilgang (vurderingscenter). 27


Validitet refererer til i hvilken grad et givet resultat, metode eller kriterium "forudsiger" den fremtidige præstation for den person, der testes. Metodernes gyldighed refererer til konklusionerne fra en bestemt procedure, ikke til selve proceduren. Det vil sige, at selve udvælgelsesmetoden kan være pålidelig, men den svarer muligvis ikke til en specifik opgave: den kan ikke måle, hvad der kræves i dette tilfælde. 28


Software til testudvikling I den hjemlige praksis præsenteres forskellige omfattende programmer med modulet "Psykodiagnostik", for eksempel programmet "1 C: Løn- og personalestyring 8.0" med modulet "Psykodiagnostik", udviklet i fællesskab med en gruppe lærere fra Institut for personlighedspsykologi og generel psykologi ved Det Psykologiske Fakultet Moscow State University opkaldt efter M.V. Lomonosov under vejledning af doktor i psykiatri. videnskab, prof. A.N. Guseva. En træningssimulator til udvikling af personalevurderingssystemer og tilpasning af testmetoder på TSU's Psykologiske Fakultet, også udviklet på basis af "1 C: Enterprise 8.2" af Personnel Soft. 29


Litteratur: Udvælgelse og rekruttering: test- og vurderingsteknologier / Dominic Cooper, Ivan T. Robertson, Gordon Tinline. – M., forlag “Vershina”, – 156 s. Psykologisk støtte til professionel aktivitet: teori og praksis / Red. Prof. G.S. Nikiforova. – Sankt Petersborg: Tale, – 816 s. tredive

Applikationerne, målene og målene for softwaretestning er varierede, så test evalueres og forklares på forskellige måder. Nogle gange er det svært for testerne selv at forklare, hvad "som den er" softwaretest er. Forvirring opstår.

For at løse denne forvirring indleder Alexey Barantsev (praktiserende læge, træner og konsulent i softwaretestning; hjemmehørende fra Institut for Systemprogrammering ved Det Russiske Videnskabsakademi) sine testtræninger med en introduktionsvideo om testets vigtigste bestemmelser.

Det forekommer mig, at underviseren i denne rapport var i stand til mest fyldestgørende og afbalanceret at forklare "hvad test er" fra en videnskabsmands og programmørs synspunkt. Det er mærkeligt, at denne tekst endnu ikke er dukket op på Habré.

Jeg giver her en fortættet genfortælling af denne rapport. Sidst i teksten er der links til den fulde version, samt til den nævnte video.

Grundlæggende test

Kære kollegaer,

Lad os først prøve at forstå, hvad test IKKE er.

Test er ikke udvikling,

Selvom testere ved, hvordan man programmerer, inklusive test (automatiseringstest = programmering), kan de udvikle nogle hjælpeprogrammer (til sig selv).

Test er dog ikke en softwareudviklingsaktivitet.

Test er ikke analyse,

Og ikke aktiviteten med at indsamle og analysere krav.

Selvom du under testprocessen nogle gange skal afklare kravene, og nogle gange skal du analysere dem. Men denne aktivitet er ikke den vigtigste, den skal snarere udføres af nødvendighed.

Test er ikke ledelse,

På trods af det faktum, at der i mange organisationer er en sådan rolle som "testleder". Selvfølgelig skal testere administreres. Men test i sig selv er ikke ledelse.

Test er ikke teknisk skrivning,

Testere skal dog dokumentere deres test og deres arbejde.

Testning kan ikke betragtes som en af ​​disse aktiviteter, blot fordi under udviklingsprocessen (eller analysere krav eller skrive dokumentation til deres test), udfører testere alt dette arbejde for mig selv, og ikke for en anden.

En aktivitet er kun vigtig, når den er efterspurgt, det vil sige, testere skal producere noget "til eksport." Hvad gør de "til eksport"?

Fejl, fejlbeskrivelser eller testrapporter? Dette er til dels rigtigt.

Men dette er ikke hele sandheden.

Testernes hovedaktiviteter

er, at de giver deltagere i et softwareudviklingsprojekt negativ feedback om kvaliteten af ​​softwareproduktet.

"Negativ feedback" har ikke nogen negativ konnotation og betyder ikke, at testerne gør noget dårligt, eller at de gør noget dårligt. Det er bare et teknisk udtryk, der betyder en ret simpel ting.

Men denne ting er meget vigtig, og sandsynligvis den mest betydningsfulde komponent i testernes aktiviteter.

Der er en videnskab - "systemteori". Det definerer begrebet "feedback".

"Feedback" er nogle data, der går tilbage til input fra output, eller en del af data, der går tilbage til input fra output. Denne feedback kan være positiv eller negativ.

Begge typer feedback er lige vigtige.

Inden for udvikling af softwaresystemer er positiv feedback naturligvis en form for information, vi modtager fra slutbrugere. Dette er anmodninger om noget ny funktionalitet, dette er en stigning i salget (hvis vi frigiver et kvalitetsprodukt).

Negativ feedback kan også komme fra slutbrugere i form af nogle negative anmeldelser. Eller det kan komme fra testere.

Jo hurtigere negativ feedback gives, desto mindre energi er der brug for til at ændre dette signal. Derfor skal test starte så tidligt som muligt, i de tidligste stadier af projektet, og give denne feedback både på designstadiet og måske endnu tidligere på stadiet med indsamling og analyse af krav.

Det er i øvrigt her, der vokser forståelsen af, at testere ikke er ansvarlige for kvaliteten. De hjælper dem, der er ansvarlige for det.

Synonymer for begrebet "testning"

Fra det synspunkt, at test er levering af negativ feedback, er den verdensberømte forkortelse QA (Quality Assurance) bestemt IKKE synonymt med udtrykket "test".

Blot at give negativ feedback kan ikke betragtes som kvalitetssikring, fordi Assurance er nogle positive mål. Det er underforstået, at vi i dette tilfælde sikrer kvalitet og træffer rettidige foranstaltninger for at sikre, at kvaliteten af ​​softwareudvikling forbedres.

Men "kvalitetskontrol" - Kvalitetskontrol, kan i bred forstand betragtes som et synonym for begrebet "test", fordi kvalitetskontrol er levering af feedback i dens mest forskellige varianter på forskellige stadier af et softwareprojekt.

Nogle gange er test ment som en separat form for kvalitetskontrol.

Forvirringen kommer fra historien om testudvikling. På forskellige tidspunkter betød udtrykket "testning" forskellige handlinger, der kan opdeles i 2 store klasser: eksterne og interne.

Eksterne definitioner

De definitioner, som Myers, Beiser og Kaner gav på forskellige tidspunkter, beskriver testning netop ud fra dets EKSTERNE betydning. Det vil sige, fra deres synspunkt er test en aktivitet, der er beregnet til noget, og ikke består af noget. Alle disse tre definitioner kan opsummeres som at give negativ feedback.

Interne definitioner

Disse er definitioner, der er indeholdt i en standard for terminologi, der bruges i softwareudvikling, såsom en de facto standard kaldet SWEBOK.

Sådanne definitioner forklarer konstruktivt HVAD testaktiviteten er, men giver ikke den mindste idé om, HVORFOR der er behov for testning, hvortil alle resultater opnået ved at kontrollere overensstemmelsen mellem programmets faktiske opførsel og dets forventede adfærd vil blive brugt. .

test er

  • kontrollere programmets overensstemmelse med kravene,
  • udføres ved at observere dets arbejde
  • i særlige, kunstigt skabte situationer, valgt på en bestemt måde.
Herfra vil vi betragte dette som arbejdsdefinitionen af ​​"test".

Den generelle testordning er omtrent som følger:

  1. Testeren modtager programmet og/eller kravene ved indgangen.
  2. Han gør noget med dem, observerer programmets arbejde i visse situationer, der er kunstigt skabt af ham.
  3. Ved udgangen modtager den information om kampe og ikke-matches.
  4. Disse oplysninger bruges derefter til at forbedre det eksisterende program. Eller for at ændre kravene til et program, der stadig er under udvikling.

Hvad er en test

  • Dette er en speciel, kunstigt skabt situation, valgt på en bestemt måde,
  • og en beskrivelse af, hvilke observationer der skal gøres om programmets drift
  • for at kontrollere, om den opfylder nogle krav.
Der er ingen grund til at antage, at situationen er noget øjeblikkelig. Testen kan være ret lang, for eksempel ved test af ydeevne, kan denne kunstigt skabte situation være en belastning på systemet, der fortsætter i ret lang tid. Og de observationer, der skal foretages, er et sæt forskellige grafer eller metrikker, som vi måler under udførelsen af ​​denne test.

Testudvikleren er engageret i at vælge et begrænset sæt fra et enormt, potentielt uendeligt sæt af tests.

Nå, så kan vi konkludere, at testeren gør to ting under testen.

1.For det første styrer det programmets udførelse og skaber disse meget kunstige situationer, hvor vi skal kontrollere programmets opførsel.

2. Og for det andet observerer han programmets opførsel og sammenligner det, han ser, med det, der forventes.

Hvis en tester automatiserer test, så observerer han ikke selv programmets opførsel - han uddelegerer denne opgave til et specielt værktøj eller et specielt program, som han selv har skrevet. Det er hende, der observerer, hun sammenligner den observerede adfærd med den forventede, og giver kun testeren et endeligt resultat - uanset om den observerede adfærd falder sammen med den forventede eller ikke er sammenfaldende.

Ethvert program er en mekanisme til behandling af information. Input er information i én form, output er information i en anden form. Samtidig kan et program have mange input og output, de kan være forskellige, det vil sige, at et program kan have flere forskellige grænseflader, og disse grænseflader kan have forskellige typer:

  • Brugergrænseflade (UI)
  • Application Programming Interface (API)
  • Netværksprotokol
  • Filsystem
  • Miljøtilstand
  • Begivenheder
De mest almindelige grænseflader er
  • brugerdefinerede,
  • grafisk,
  • tekst,
  • udkraget,
  • og tale.
Ved at bruge alle disse grænseflader, testeren:
  • på en eller anden måde skaber kunstige situationer,
  • og kontrollerer, hvordan programmet opfører sig i disse situationer.

Dette er afprøvning.

Andre klassifikationer af testtyper

Den mest brugte opdeling i tre niveauer er
  1. enhedstest,
  2. integrationstest,
  3. system test.
Enhedstest betyder normalt test på et ret lavt niveau, det vil sige test af individuelle operationer, metoder og funktioner.

Systemtest refererer til test på brugergrænsefladeniveau.

Nogle andre termer bruges nogle gange, såsom "komponenttest", men jeg foretrækker at fremhæve disse tre, da den teknologiske opdeling mellem enheds- og systemtest ikke giver særlig mening. De samme værktøjer og de samme teknikker kan bruges på forskellige niveauer. Opdelingen er betinget.

Praksis viser, at værktøjer, der er positioneret af producenten som enhedstestværktøjer, kan bruges med lige stor succes på niveau med test af hele applikationen som helhed.

Og værktøjer, der tester hele applikationen på brugergrænsefladeniveau, ønsker nogle gange at kigge, for eksempel i databasen eller kalde en separat lagret procedure der.

Det vil sige, at opdelingen i system- og enhedstest generelt set er rent betinget, rent teknisk set.

De samme værktøjer bruges, og det er normalt, de samme teknikker bruges, på hvert niveau kan vi tale om test af en anden type.

Vi kombinerer:

Det vil sige, at vi kan tale om enhedstest af funktionalitet.

Vi kan tale om systemtest af funktionalitet.

Vi kan tale om enhedstest, for eksempel effektivitet.

Vi kan tale om systemeffektivitetstest.

Enten overvejer vi effektiviteten af ​​en enkelt algoritme, eller også overvejer vi effektiviteten af ​​hele systemet som helhed. Det vil sige, at den teknologiske opdeling i enheds- og systemtest ikke giver meget mening. Fordi de samme værktøjer, kan de samme teknikker bruges på forskellige niveauer.

Til sidst kontrollerer vi under integrationstest, om moduler i et system interagerer korrekt med hinanden. Det vil sige, at vi faktisk udfører de samme tests som under systemtest, blot er vi yderligere opmærksomme på, hvordan modulerne præcist interagerer med hinanden. Vi udfører nogle yderligere kontroller. Det er den eneste forskel.

Lad os endnu en gang prøve at forstå forskellen mellem system- og enhedstestning. Da denne opdeling forekommer ret ofte, burde denne forskel eksistere.

Og denne forskel manifesterer sig, når vi ikke udfører en teknologisk klassifikation, men en klassifikation efter formål afprøvning.

Klassificering efter mål kan bekvemt udføres ved hjælp af den "magiske firkant", som oprindeligt blev opfundet af Brian Marik og derefter forbedret af Ari Tennen.

I denne magiske firkant er alle typer test placeret i fire kvadranter, alt efter hvad testene er mere opmærksomme på.

Lodret - jo højere typen af ​​test er, jo mere opmærksomhed lægges der på nogle eksterne manifestationer af programmets adfærd; jo lavere den er, jo mere opmærksomhed lægger vi vægt på dets interne teknologiske struktur af programmet.

Horisontalt - jo længere til venstre vores test er, jo mere opmærksomhed lægger vi vægt på deres programmering, jo længere til højre er de, jo mere opmærksomhed lægger vi vægt på manuel test og menneskelig forskning af programmet.

Især termer som accepttest, accepttest og enhedstest kan nemt indtastes i dette felt i den betydning, som det oftest bruges i litteraturen. Dette er test på lavt niveau med en stor, overvældende andel af programmering. Det vil sige, at alle tests programmeres, udføres helt automatisk, og opmærksomheden rettes primært mod programmets interne struktur, netop til dets teknologiske funktioner.

I øverste højre hjørne vil vi have manuelle tests rettet mod en vis ekstern opførsel af programmet, især brugervenlighedstest, og i nederste højre hjørne vil vi højst sandsynligt have test af forskellige ikke-funktionelle egenskaber: ydeevne, sikkerhed og så på.

Så baseret på klassificeringen efter formål er enhedstest i den nederste venstre kvadrant, og alle andre kvadranter er systemtest.

Tak for din opmærksomhed.

Grundlæggende begreber i testteori.

En måling eller test taget for at bestemme en atlets tilstand eller evne kaldes en test. Enhver test involverer måling. Men ikke enhver ændring tjener som en test. Målingen eller testproceduren kaldes test.

En test baseret på motoriske opgaver kaldes motorisk. Der er tre grupper af motoriske tests:

  • 1. Kontroløvelser, hvor atleten har til opgave at vise maksimale resultater.
  • 2. Standard funktionstest, hvor opgaven, ens for alle, doseres enten i henhold til mængden af ​​udført arbejde eller i henhold til størrelsen af ​​fysiologiske ændringer.
  • 3. Maksimal funktionstest, hvor atleten skal vise maksimale resultater.

Test af høj kvalitet kræver viden om måleteori.

Grundlæggende begreber i måleteori.

Måling er identifikation af overensstemmelse mellem det fænomen, der undersøges, på den ene side og tal på den anden side.

Det grundlæggende i måleteori er tre begreber: måleskalaer, måleenheder og målenøjagtighed.

Måleskalaer.

En måleskala er en lov, hvorved en numerisk værdi tildeles et målt resultat, når det stiger eller falder. Lad os se på nogle af de skalaer, der bruges i sport.

Navneskala (nominel skala).

Dette er den enkleste af alle skalaer. I den fungerer numre som etiketter og tjener til at detektere og skelne objekter under undersøgelse (for eksempel nummereringen af ​​spillere på et fodboldhold). De tal, der udgør navneskalaen, må ændres med metaer. Der er ingen mere-mindre sammenhænge i denne skala, så nogle mener, at brugen af ​​en navneskala ikke bør betragtes som en måling. Når man bruger en skala, navne, kan kun nogle matematiske operationer udføres. For eksempel kan dets tal ikke lægges til eller trækkes fra, men du kan tælle, hvor mange gange (hvor ofte) et bestemt tal forekommer.

Bestil skala.

Der er sportsgrene, hvor atletens resultat kun bestemmes af placeringen i konkurrencen (for eksempel kampsport). Efter sådanne konkurrencer er det klart, hvem af atleterne der er stærkest, og hvem der er svagere. Men hvor meget stærkere eller svagere det er umuligt at sige. Hvis tre atleter tog henholdsvis første-, anden- og tredjepladsen, så er forskellen i deres sportsånd fortsat uklart: den anden atlet kan være næsten lig med den første eller kan være svagere end ham og være næsten identisk med den tredje. De pladser, der er optaget i ordensskalaen, kaldes ranger, og selve skalaen kaldes rang eller ikke-metrisk. I en sådan skala er dens bestanddele ordnet efter rang (dvs. besatte pladser), men intervallerne mellem dem kan ikke måles nøjagtigt. I modsætning til navneskalaen tillader rækkefølgeskalaen ikke kun at fastslå kendsgerningen om lighed eller ulighed mellem målte objekter, men også at bestemme karakteren af ​​ulighed i form af domme: "mere er mindre", "bedre er værre" osv. .

Ved hjælp af ordreskalaer kan du måle kvalitative indikatorer, der ikke har et strengt kvantitativt mål. Disse skalaer bruges særligt bredt inden for humaniora: pædagogik, psykologi, sociologi.

Et større antal matematiske operationer kan anvendes på rækkefølgen af ​​ordensskalaen end på numrene på navneskalaen.

Interval skala.

Dette er en skala, hvor numre ikke kun er ordnet efter rang, men også adskilt af bestemte intervaller. Den egenskab, der adskiller den fra forholdsskalaen beskrevet nedenfor, er, at nulpunktet er valgt vilkårligt. Eksempler inkluderer kalendertid (begyndelsen af ​​kronologi i forskellige kalendere blev indstillet af tilfældige årsager), ledvinkel (vinklen ved albueleddet med fuld forlængelse af underarmen kan tages lig med enten nul eller 180°), temperatur, potentiel energi af en løftet last, elektrisk feltpotentiale osv.

Resultaterne af målinger på en intervalskala kan bearbejdes ved alle matematiske metoder, undtagen ved beregning af forhold. Disse intervalskalaer giver et svar på spørgsmålet: "hvor meget mere", men tillader os ikke at sige, at en værdi af en målt størrelse er så mange gange større eller mindre end en anden. For eksempel, hvis temperaturen steg fra 10 til 20 C, så kan man ikke sige, at det er blevet dobbelt så varmt.

Relationsskala.

Denne skala adskiller sig kun fra intervalskalaen ved, at den nøje definerer nulpunktets position. Takket være dette pålægger forholdsskalaen ingen begrænsninger for det matematiske apparatur, der bruges til at behandle observationsresultater.

I sport måler forholdsskalaer afstand, styrke, hastighed og snesevis af andre variabler. Forholdsskalaen måler også de mængder, der er dannet som forskelle mellem tal målt på intervalskalaen. Således tælles kalendertid på en skala af intervaller, og tidsintervaller - på en forholdstalsskala. Når man bruger en forholdsskala (og kun i dette tilfælde!), reduceres målingen af ​​enhver mængde til den eksperimentelle bestemmelse af forholdet mellem denne mængde og en anden lignende, taget som en enhed. Ved at måle længden af ​​springet finder vi ud af, hvor mange gange denne længde er større end længden af ​​et andet legeme taget som en længdeenhed (en meter lineal i et bestemt tilfælde); Ved at veje en vægtstang bestemmer vi forholdet mellem dens masse og massen af ​​en anden krop - en enkelt "kilogram" vægt osv. Hvis vi kun begrænser os til brugen af ​​forholdsskalaer, så kan vi give en anden (snævrere, mere specifik) definition af måling: at måle en størrelse betyder eksperimentelt at finde dens relation til den tilsvarende måleenhed.

Måleenheder.

For at resultaterne af forskellige målinger kan sammenlignes med hinanden, skal de udtrykkes i de samme enheder. I 1960, på den internationale generalkonference om vægte og mål, blev det internationale enhedssystem vedtaget, forkortet SI (fra begyndelsesbogstaverne i ordene System International). I øjeblikket er den foretrukne anvendelse af dette system blevet etableret inden for alle områder af videnskab og teknologi, i den nationale økonomi såvel som i undervisningen.

SI omfatter i øjeblikket syv grundlæggende enheder uafhængige af hinanden (se tabel 2.1.)

Tabel 1.1.

Fra de angivne grundenheder udledes enhederne for andre fysiske størrelser som afledte. Afledte enheder bestemmes ud fra formler, der relaterer fysiske størrelser til hinanden. For eksempel er længdeenheden (meter) og tidsenheden (sekund) grundlæggende enheder, og hastighedsenheden (meter pr. sekund) er en afledt.

Ud over de grundlæggende skelner SI to yderligere enheder: radianen, en enhed for plan vinkel, og steradianen, en enhed for rumvinkel (vinkel i rummet).

Nøjagtighed af målinger.

Ingen måling kan foretages helt nøjagtigt. Måleresultatet indeholder uundgåeligt en fejl, hvis størrelse er mindre, jo mere nøjagtig målemetoden og måleanordningen er. For eksempel ved hjælp af en almindelig lineal med millimeterinddelinger er det umuligt at måle længde med en nøjagtighed på 0,01 mm.

Grundlæggende og yderligere fejl.

Grundfejl er fejlen i en målemetode eller et måleinstrument, der opstår under normale brugsforhold.

Yderligere fejl er fejlen i en måleanordning forårsaget af afvigelse af dens driftsbetingelser fra normale. Det er klart, at instrumenter designet til at fungere ved stuetemperatur ikke vil give nøjagtige aflæsninger, hvis de bruges om sommeren på et stadion under den brændende sol eller om vinteren i kulden. Målefejl kan opstå, når spændingen i det elektriske netværk eller batteristrømforsyning er lavere end normalt eller ikke er konstant i værdi.

Absolutte og relative fejl.

Værdien E = A--Ao, lig med forskellen mellem aflæsningen af ​​måleanordningen (A) og den sande værdi af den målte størrelse (Ao), kaldes den absolutte målefejl. Det måles i de samme enheder som selve den målte størrelse.

I praksis er det ofte praktisk ikke at bruge den absolutte, men den relative fejl. Den relative målefejl er af to typer - reel og reduceret. Den faktiske relative fejl er forholdet mellem den absolutte fejl og den sande værdi af den målte størrelse:

A D =---------* 100 %

Den givne relative fejl er forholdet mellem den absolutte fejl og den maksimalt mulige værdi af den målte størrelse:

Op =----------* 100 %

Systematiske og tilfældige fejl.

Systematisk er en fejl, hvis værdi ikke ændres fra måling til måling. På grund af denne funktion kan systematiske fejl ofte forudsiges på forhånd eller i ekstreme tilfælde opdages og elimineres ved slutningen af ​​måleprocessen.

Metoden til at eliminere systematisk fejl afhænger primært af dens natur. Systematiske målefejl kan opdeles i tre grupper:

fejl af kendt oprindelse og kendt størrelse;

fejl af kendt oprindelse, men ukendt størrelse;

fejl af ukendt oprindelse og ukendt størrelse. De mest harmløse er fejlene i den første gruppe. De fjernes nemt

ved at indføre passende rettelser til måleresultatet.

Den anden gruppe omfatter først og fremmest fejl forbundet med ufuldkommenhed af målemetoden og måleudstyret. For eksempel fejlen ved måling af fysisk præstation ved hjælp af en maske til opsamling af udåndingsluft: Masken besværliggør vejrtrækningen, og atleten demonstrerer naturligvis en fysisk præstation, der er undervurderet i forhold til den sande målt uden maske. Størrelsen af ​​denne fejl kan ikke forudsiges på forhånd: den afhænger af atletens individuelle evner og hans helbredstilstand på tidspunktet for undersøgelsen.

Et andet eksempel på en systematisk fejl i denne gruppe er en fejl forbundet med ufuldkomment udstyr, når en måleanordning bevidst overvurderer eller undervurderer den sande værdi af den målte værdi, men størrelsen af ​​fejlen er ukendt.

Fejl i den tredje gruppe er de farligste; deres forekomst er forbundet både med målemetodens ufuldkommenhed og med egenskaberne af måleobjektet - atleten.

Tilfældige fejl opstår under indflydelse af forskellige faktorer, som ikke kan forudsiges på forhånd eller nøjagtigt tages i betragtning. Tilfældige fejl kan i princippet ikke elimineres. Men ved hjælp af metoderne til matematisk statistik er det muligt at estimere størrelsen af ​​den tilfældige fejl og tage den i betragtning ved fortolkning af måleresultaterne. Uden statistisk bearbejdning kan måleresultater ikke anses for pålidelige.

Grundlæggende om testteori 1. Grundlæggende begreber om testteori 2. Test reliabilitet og måder at bestemme den på

Testspørgsmål 1. Hvad hedder testen? 2. Hvad er kravene til testen? 3. Hvilke tests kaldes autentiske? 4. Hvad er pålideligheden af ​​en test? 5. Angiv årsagerne, der forårsager variation i resultater under gentagne tests. 6. Hvordan adskiller intraklassevariation sig fra interklassevariation? 7. Hvordan bestemmer man i praksis en tests pålidelighed? 8. Hvad er forskellen mellem testkonsistens og stabilitet? 9. Hvad er ækvivalensen af ​​tests? 10. Hvad er et homogent sæt af tests? 11. Hvad er et heterogent sæt af tests? 12. Måder at forbedre pålideligheden af ​​tests.

En test er en måling eller test udført for at bestemme en persons tilstand eller evne. Ikke alle målinger kan bruges som test, men kun dem der opfylder særlige krav. Disse omfatter: 1. standardisering (prøvningsproceduren og -betingelserne skal være de samme i alle tilfælde af brug af testen); 2. pålidelighed; 3. informationsindhold; 4. Tilgængelighed af et ratingsystem.

Testkrav: n Informationsindhold - graden af ​​nøjagtighed, hvormed den måler den egenskab (kvalitet, evne, egenskab), som den bruges til at evaluere. n Pålidelighed er den grad, hvori resultaterne er konsistente, når de samme personer testes gentagne gange under de samme forhold. Konsistens - (forskellige mennesker, men de samme enheder og de samme forhold). n n Standarditet af betingelser - (samme betingelser for gentagne målinger). n Tilgængelighed af et karaktersystem - (oversættelse til et karaktersystem. Som i skolen 5 -4 -3...).

Tests, der opfylder kravene til pålidelighed og informationsindhold, kaldes lyde eller autentiske (græsk authentiko - på en pålidelig måde)

Testprocessen kaldes test; den resulterende numeriske værdi opnået som resultat af målingen er testresultatet (eller testresultatet). For eksempel er 100 m løbetur en test, proceduren for at gennemføre løb og timing er test, og løbets tidspunkt er testresultatet.

Test baseret på motoriske opgaver kaldes motoriske eller motoriske test. Deres resultater kan være enten motoriske præstationer (tid til at gennemføre distancen, antal gentagelser, tilbagelagt distance osv.) eller fysiologiske og biokemiske indikatorer.

Nogle gange bruges der ikke én, men flere tests, der har et enkelt endeligt mål (for eksempel at vurdere atletens tilstand i løbet af den konkurrencemæssige træningsperiode). En sådan gruppe af tests kaldes et sæt eller et batteri af tests.

Den samme test, anvendt på de samme forsøgspersoner, bør give identiske resultater under de samme betingelser (medmindre forsøgspersonerne selv har ændret sig). Men selv med den mest stringente standardisering og præcise udstyr varierer testresultaterne altid noget. For eksempel viser en forsøgsperson, der lige har vist et resultat på 215 kg i dødløftdynamometritesten, ved gentagelse kun 190 kg.

Tests pålidelighed og måder at bestemme den på. En tests pålidelighed er graden af ​​overensstemmelse mellem resultaterne ved gentagen testning af de samme personer (eller andre objekter) under de samme forhold.

Variation i test-gentestresultater kaldes inden for-individ, eller inden for gruppe eller inden for-klassen. Fire hovedårsager forårsager denne variation: 1. Ændring i forsøgspersonernes tilstand (træthed, træning, "læring", ændring i motivation, koncentration osv.). 2. Ukontrollerede ændringer i ydre forhold og udstyr (temperatur, vind, fugtighed, spænding i det elektriske netværk, tilstedeværelsen af ​​uautoriserede personer osv.), dvs. alt, der er forenet med udtrykket "tilfældig målefejl".

Fire hovedårsager forårsager denne variation: 3. En ændring i tilstanden for den person, der administrerer eller scorer testen (og selvfølgelig udskiftning af en eksperimentator eller dommer med en anden). 4. Testens ufuldkommenhed (der er tests, der åbenlyst er upålidelige. For eksempel, hvis forsøgspersonerne laver frikast i en basketballkurv, så kan selv en basketballspiller med en høj procentdel af slag ved et uheld lave en fejl ved de første kast ).

Konceptet med et sandt testresultat er en abstraktion (det kan ikke måles eksperimentelt). Derfor er vi nødt til at bruge indirekte metoder. Den mest foretrukne metode til at vurdere pålidelighed er variansanalyse efterfulgt af beregning af intraklasse-korrelationskoefficienter. Variansanalyse gør det muligt at dekomponere den eksperimentelt registrerede variation i testresultater i komponenter bestemt af individuelle faktorers indflydelse.

Hvis vi registrerer resultaterne af forsøgspersonerne i en test, gentager denne test på forskellige dage og gør adskillige forsøg hver dag, periodisk skiftende forsøgspersoner, så vil der forekomme variationer: a) fra emne til emne; n b) fra dag til dag; n c) fra forsøgsleder til forsøgsleder; n d) fra forsøg til forsøg. Variansanalyse gør det muligt at isolere og evaluere disse variationer. n

For at vurdere testens praktiske reliabilitet er det således nødvendigt n for det første at udføre en variansanalyse, n for det andet at beregne intraklassens korrelationskoefficient (reliabilitetskoefficient).

Når vi taler om pålideligheden af ​​tests, er det nødvendigt at skelne mellem deres stabilitet (reproducerbarhed), konsistens og ækvivalens. n n Teststabilitet refererer til reproducerbarheden af ​​resultater, når de gentages efter en vis tid under de samme forhold. Gentagen test kaldes normalt en gentest. Testkonsistens er karakteriseret ved testresultaternes uafhængighed af de personlige egenskaber hos den person, der administrerer eller evaluerer testen.

Hvis alle de test, der indgår i et testsæt, er meget ækvivalente, kaldes det homogent. Hele dette kompleks måler én egenskab ved menneskelige motoriske færdigheder (for eksempel et kompleks bestående af lange, opadgående og tredobbelte hop; niveauet for udvikling af fart-styrke-kvaliteter vurderes). Hvis der ikke er ækvivalente test i komplekset, det vil sige, at de test, der er inkluderet i det, måler forskellige egenskaber, så kaldes det heterogent (for eksempel et kompleks bestående af dødløftdynamometri, Abalakov-spring, 100 m løb).

Testpålidelighed kan forbedres til en vis grad ved: n n n a) strengere standardisering af testning; b) øge antallet af forsøg; c) at øge antallet af evaluatorer (dommere, eksperimenter) og øge sammenhængen i deres udtalelser; d) øge antallet af ækvivalente tests; e) bedre motivation af fagene.