Teoretyczne podstawy testowania.

Zastosowania, cele i zadania testowania oprogramowania są zróżnicowane, dlatego testowanie jest oceniane i wyjaśniane na różne sposoby. Czasami samym testerom trudno jest wyjaśnić, czym jest testowanie oprogramowania „tak jak jest”. Następuje zamieszanie.

Aby rozwikłać to zamieszanie, Aleksiej Barantsev (praktyk, trener i konsultant ds. testowania oprogramowania; pochodzący z Instytutu Programowania Systemów Rosyjskiej Akademii Nauk) poprzedza swoje szkolenia z testowania filmem wprowadzającym na temat głównych założeń testowania.

Wydaje mi się, że w tym raporcie wykładowca potrafił najdokładniej i najtrafniej wyjaśnić, „czym jest testowanie” z punktu widzenia naukowca i programisty. Aż dziwne, że ten tekst nie pojawił się jeszcze na Habré.

Poniżej przedstawiam skróconą wersję tego raportu. Na końcu tekstu znajdują się linki do pełnej wersji, a także do wspomnianego filmu.

Podstawy testowania

Drodzy koledzy,

Najpierw spróbujmy zrozumieć, czym testowanie NIE jest.

Testowanie to nie rozwój,

Nawet jeśli testerzy wiedzą, jak programować, w tym także przeprowadzać testy (testowanie automatyczne = programowanie), mogą opracować (dla siebie) pewne programy pomocnicze.

Jednakże testowanie nie jest działalnością polegającą na tworzeniu oprogramowania.

Testowanie to nie analiza,

A nie czynność polegająca na zbieraniu i analizowaniu wymagań.

Chociaż podczas procesu testowania czasami trzeba doprecyzować wymagania, a czasami trzeba je przeanalizować. Ale ta czynność nie jest najważniejsza; należy ją raczej wykonać po prostu z konieczności.

Testowanie to nie zarządzanie,

Pomimo tego, że w wielu organizacjach istnieje taka rola jak „menedżer testów”. Oczywiście testerami trzeba zarządzać. Ale testowanie samo w sobie nie jest zarządzaniem.

Testowanie to nie pisanie o charakterze technicznym,

Testerzy muszą jednak dokumentować swoje testy i swoją pracę.

Testowania nie można uznać za jedno z tych działań tylko dlatego, że podczas procesu programowania (lub analizy wymagań lub pisania dokumentacji do testów) całą tę pracę wykonują testerzy dla siebie, a nie dla kogoś innego.

Działalność ma znaczenie tylko wtedy, gdy jest na nią popyt, czyli testerzy muszą wyprodukować coś „na eksport”. Co robią „na eksport”?

Wady, opisy usterek czy raporty z testów? Jest to częściowo prawda.

Ale to nie jest cała prawda.

Główne działania testerów

polega na tym, że dostarczają uczestnikom projektu tworzenia oprogramowania negatywną opinię na temat jakości oprogramowania.

„Negatywny feedback” nie ma żadnej negatywnej konotacji i nie oznacza, że ​​testerzy robią coś złego lub że robią coś złego. To tylko termin techniczny, który oznacza dość prostą rzecz.

Ale ta rzecz jest bardzo istotna i prawdopodobnie najważniejszy element działań testerów.

Istnieje nauka - „teoria systemów”. Definiuje pojęcie „informacji zwrotnej”.

„Sprzężenie zwrotne” to pewne dane, które wracają na wejście z wyjścia lub pewna część danych, która wraca z powrotem na wejście z wyjścia. Ta informacja zwrotna może być pozytywna lub negatywna.

Obydwa rodzaje informacji zwrotnej są równie ważne.

W rozwoju systemów oprogramowania pozytywny feedback to oczywiście pewnego rodzaju informacja, którą otrzymujemy od użytkowników końcowych. Są to prośby o jakąś nową funkcjonalność, jest to wzrost sprzedaży (jeśli wypuścimy produkt wysokiej jakości).

Negatywne opinie mogą również pochodzić od użytkowników końcowych w formie negatywnych recenzji. Lub może pochodzić od testerów.

Im szybciej zostanie zapewnione ujemne sprzężenie zwrotne, tym mniej energii potrzeba do modyfikacji tego sygnału. Dlatego testowanie należy rozpocząć jak najwcześniej, na najwcześniejszych etapach projektu i przekazać tę informację zwrotną zarówno na etapie projektowania, jak i być może nawet wcześniej, na etapie zbierania i analizowania wymagań.

Swoją drogą, tu właśnie rośnie zrozumienie, że testerzy nie odpowiadają za jakość. Pomagają tym, którzy są za to odpowiedzialni.

Synonimy do słowa „testowanie”

Z punktu widzenia, że ​​testowanie polega na przekazywaniu negatywnej informacji zwrotnej, znany na całym świecie skrót QA (Quality Assurance) zdecydowanie NIE jest synonimem terminu „testowanie”.

Samo przekazywanie negatywnej opinii nie może być uważane za zapewnienie jakości, ponieważ zapewnienie to pozytywne środki. Rozumie się, że w tym przypadku zapewniamy jakość i podejmujemy terminowe działania w celu zapewnienia poprawy jakości tworzenia oprogramowania.

Jednak „kontrolę jakości” – kontrolę jakości, można uznać w szerokim znaczeniu za synonim terminu „testowanie”, ponieważ kontrola jakości to dostarczanie informacji zwrotnej w jej najróżniejszych odmianach, na różnych etapach projektu oprogramowania.

Czasami testowanie rozumie się jako odrębną formę kontroli jakości.

Zamieszanie wynika z historii rozwoju testów. W różnych momentach termin „testowanie” oznaczał różne działania, które można podzielić na 2 duże klasy: zewnętrzną i wewnętrzną.

Definicje zewnętrzne

Definicje podawane w różnym czasie przez Myersa, Beisera i Kanera opisują testowanie dokładnie z punktu widzenia jego ZEWNĘTRZNEGO znaczenia. Oznacza to, że z ich punktu widzenia testowanie jest działaniem przeznaczonym na coś i z czegoś się nie składa. Wszystkie trzy definicje można podsumować jako dostarczające negatywnego sprzężenia zwrotnego.

Definicje wewnętrzne

Są to definicje zawarte w standardzie terminologii stosowanej w inżynierii oprogramowania, takim jak de facto standard o nazwie SWEBOK.

Takie definicje konstruktywnie wyjaśniają CZYM jest działanie testowe, ale nie dają zielonego pojęcia DLACZEGO potrzebne jest testowanie, do którego zostaną następnie wykorzystane wszystkie wyniki uzyskane ze sprawdzenia zgodności pomiędzy rzeczywistym zachowaniem programu a jego oczekiwanym zachowaniem .

testowanie jest

  • sprawdzenie zgodności programu z wymaganiami,
  • przeprowadzić poprzez obserwację jego pracy
  • w sytuacjach szczególnych, sztucznie stworzonych, wybranych w określony sposób.
Od tej chwili będziemy uważać to za roboczą definicję „testowania”.

Ogólny schemat testowania jest w przybliżeniu następujący:

  1. Tester otrzymuje na wejściu program i/lub wymagania.
  2. Coś z nimi robi, obserwuje działanie programu w określonych, sztucznie przez siebie stworzonych sytuacjach.
  3. Na wyjściu otrzymuje informację o dopasowaniach i niedopasowaniach.
  4. Informacje te są następnie wykorzystywane do udoskonalania istniejącego programu. Lub w celu zmiany wymagań dla programu, który jest wciąż rozwijany.

Co to jest test

  • Jest to sytuacja szczególna, sztucznie stworzona, wybrana w określony sposób,
  • oraz opis uwag, jakie należy poczynić na temat działania programu
  • aby sprawdzić, czy spełnia jakieś wymagania.
Nie ma potrzeby zakładać, że sytuacja jest chwilowa. Test może trwać dość długo, np. podczas testowania wydajności ta sztucznie stworzona sytuacja może stanowić obciążenie systemu, które będzie trwało dość długo. Obserwacje, które należy poczynić, to zestaw różnych wykresów lub wskaźników, które mierzymy podczas wykonywania tego testu.

Twórca testów zajmuje się wyborem ograniczonego zestawu z ogromnego, potencjalnie nieskończonego zestawu testów.

Cóż, możemy zatem stwierdzić, że tester podczas testowania robi dwie rzeczy.

1. Po pierwsze kontroluje wykonanie programu i tworzy te bardzo sztuczne sytuacje, w których będziemy sprawdzać zachowanie programu.

2. Po drugie, obserwuje zachowanie programu i porównuje to, co widzi, z tym, czego się oczekuje.

Jeśli tester automatyzuje testy, to sam nie obserwuje zachowania programu - deleguje to zadanie specjalnemu narzędziu lub specjalnemu programowi, który sam napisał. To ona obserwuje, porównuje zaobserwowane zachowanie z oczekiwanym i daje testerowi jedynie ostateczny wynik – czy zaobserwowane zachowanie pokrywa się z oczekiwanym, czy też nie.

Każdy program jest mechanizmem przetwarzania informacji. Dane wejściowe to informacja w jednej formie, wyjście to informacja w innej formie. Jednocześnie program może mieć wiele wejść i wyjść, mogą być one różne, to znaczy program może mieć kilka różnych interfejsów, a interfejsy te mogą mieć różne typy:

  • Interfejs użytkownika
  • Interfejs programowania aplikacji (API)
  • Protokół sieciowy
  • System plików
  • Stan środowiska
  • Wydarzenia
Najpopularniejsze interfejsy to
  • zwyczaj,
  • graficzny,
  • tekst,
  • wspornikowy,
  • i mowa.
Korzystając ze wszystkich tych interfejsów, tester:
  • w jakiś sposób stwarza sztuczne sytuacje,
  • i sprawdza, jak program zachowuje się w takich sytuacjach.

To jest testowanie.

Inne klasyfikacje typów testów

Najczęściej stosowanym podziałem na trzy poziomy jest
  1. testów jednostkowych,
  2. testy integracyjne,
  3. testowanie systemu.
Testowanie jednostkowe zwykle oznacza testowanie na dość niskim poziomie, czyli testowanie poszczególnych operacji, metod i funkcji.

Testowanie systemu odnosi się do testowania na poziomie interfejsu użytkownika.

Czasem używa się też innych terminów, np. „testowanie komponentowe”, ale ja wolę wyróżnić te trzy, gdyż technologiczny podział na testowanie jednostkowe i systemowe nie ma większego sensu. Te same narzędzia i te same techniki można stosować na różnych poziomach. Podział jest warunkowy.

Praktyka pokazuje, że narzędzia pozycjonowane przez producenta jako narzędzia do testów jednostkowych, z równym powodzeniem można wykorzystać na poziomie testowania całej aplikacji jako całości.

A narzędzia testujące całą aplikację na poziomie interfejsu użytkownika czasami chcą zajrzeć na przykład do bazy danych lub wywołać tam jakąś osobną procedurę składowaną.

Oznacza to, że podział na testy systemowe i jednostkowe jest ogólnie rzecz biorąc czysto warunkowy, mówiąc z technicznego punktu widzenia.

Używane są te same narzędzia i jest to normalne, stosowane są te same techniki, na każdym poziomie możemy mówić o testowaniu innego typu.

Łączymy:

Oznacza to, że możemy mówić o jednostkowych testach funkcjonalności.

Możemy mówić o systemowych testach funkcjonalności.

Możemy mówić o testach jednostkowych, na przykład wydajnościowych.

Można mówić o testowaniu efektywności systemu.

Albo bierzemy pod uwagę skuteczność pojedynczego algorytmu, albo rozważamy skuteczność całego systemu jako całości. Czyli technologiczny podział na testy jednostkowe i systemowe nie ma większego sensu. Ponieważ te same narzędzia i te same techniki mogą być stosowane na różnych poziomach.

Na koniec podczas testów integracyjnych sprawdzamy, czy moduły w systemie poprawnie współdziałają ze sobą. Oznacza to, że właściwie wykonujemy te same testy, co podczas testów systemu, tylko dodatkowo zwracamy uwagę na to, jak dokładnie moduły ze sobą współdziałają. Przeprowadzamy dodatkowe kontrole. To jedyna różnica.

Spróbujmy jeszcze raz zrozumieć różnicę pomiędzy testowaniem systemowym a testowaniem jednostkowym. Ponieważ podział ten występuje dość często, różnica ta powinna istnieć.

I ta różnica objawia się, gdy nie dokonujemy klasyfikacji technologicznej, ale klasyfikację według celu testowanie.

Klasyfikację według bramek można wygodnie przeprowadzić za pomocą „magicznego kwadratu”, który został pierwotnie wynaleziony przez Briana Marika, a następnie ulepszony przez Ariego Tennena.

W tym magicznym kwadracie wszystkie rodzaje testów są umieszczone w czterech ćwiartkach, w zależności od tego, na co testy zwracają większą uwagę.

Pionowo – im wyższy rodzaj testów, tym więcej uwagi poświęcamy niektórym zewnętrznym przejawom zachowania programu, im jest on niższy, tym większą uwagę poświęcamy jego wewnętrznej strukturze technologicznej programu.

Poziomo – im dalej na lewo są nasze testy, tym większą uwagę poświęcamy ich programowaniu, im dalej na prawo, tym więcej uwagi poświęcamy testowaniu ręcznemu i badaniom programu przez ludzi.

W szczególności terminy takie jak testowanie akceptacyjne, testowanie akceptacyjne i testowanie jednostkowe można łatwo wpisać w to pole w znaczeniu, w jakim jest ono najczęściej używane w literaturze. Jest to testowanie niskiego poziomu z dużą, przytłaczającą częścią programowania. Oznacza to, że wszystkie testy są programowane, przeprowadzane całkowicie automatycznie, a uwagę zwraca się przede wszystkim na wewnętrzną strukturę programu, a dokładnie na jego cechy technologiczne.

W prawym górnym rogu będziemy mieli testy ręczne mające na celu pewne zewnętrzne zachowanie programu, w szczególności testy użyteczności, a w prawym dolnym rogu najprawdopodobniej będziemy mieli testy różnych właściwości niefunkcjonalnych: wydajności, bezpieczeństwa i tak dalej NA.

Zatem w oparciu o klasyfikację według celu testy jednostkowe znajdują się w lewym dolnym kwadrancie, a wszystkie pozostałe ćwiartki to testy systemowe.

Dziękuję za uwagę.

Wyślij swoją dobrą pracę do bazy wiedzy jest prosta. Skorzystaj z poniższego formularza

Studenci, doktoranci, młodzi naukowcy, którzy wykorzystują bazę wiedzy w swoich studiach i pracy, będą Państwu bardzo wdzięczni.

Wysłany dnia http://www.allbest.ru/

1. PODSTAWOWE POJĘCIA

Test to pomiar lub test przeprowadzany w celu określenia kondycji lub zdolności sportowca. Proces testowania nazywa się testowaniem: uzyskana wartość liczbowa jest wynikiem testowania (lub wyniku testu). Na przykład bieg na 100 m jest testem, procedura prowadzenia wyścigów i pomiaru czasu jest testem, czas biegu jest wynikiem testu.

Testy oparte na zadaniach motorycznych nazywane są testami motorycznymi (lub motorycznymi). W testach tych wynikami mogą być albo osiągnięcia motoryczne (czas pokonania dystansu, liczba powtórzeń, przebyty dystans itp.), albo wskaźniki fizjologiczne i biochemiczne. W zależności od tego, a także od zadania stojącego przed podmiotem, wyróżnia się trzy grupy badań motorycznych (tab. A).

Tabela A. Rodzaje badań silnika.

Nazwa testu

Zadanie dla sportowca

Wyniki testu

Ćwiczenia testowe

Osiągnięcie motoryczne

Czas biegu na 1500 m

Standardowe testy funkcjonalne

Dla wszystkich takie same, dawkowane albo: a) według ilości wykonanej pracy, albo: b) według wielkości zmian fizjologicznych

Wskaźniki fizjologiczne lub biochemiczne podczas standardowej pracy Wskaźniki motoryczne podczas standardowej ilości zmian fizjologicznych

Rejestracja tętna podczas pracy standardowej 1000 km/min Prędkość biegu przy tętnie 160 uderzeń/min, próbka PCV (170)

Maksymalne testy funkcjonalne

Pokaż maksymalny wynik

Wskaźniki fizjologiczne lub biochemiczne

Określenie maksymalnego długu tlenowego lub maksymalnego zużycia tlenu

Czasami stosuje się nie jeden, ale kilka testów, które mają jeden ostateczny cel (na przykład ocena kondycji sportowca w okresie treningu wyczynowego). Taka grupa nazywana jest kompleksem lub baterią testów. Nie wszystkie pomiary można wykorzystać jako testy. Aby to zrobić, muszą spełniać specjalne wymagania. Należą do nich: 1) niezawodność testów; 2) treść informacyjna testu; 3) obecność systemu ocen (patrz następny rozdział); 4) standaryzacja – procedura i warunki badania muszą być takie same we wszystkich przypadkach stosowania testu. Testy spełniające wymagania wiarygodności i zawartości informacyjnej nazywane są testami dobrymi lub autentycznymi.

2. NIEZAWODNOŚĆ TESTU

2.1 Pojęcie wiarygodności testu

fizyczne testy na bieżni

Wiarygodność testu to stopień zgodności wyników przy wielokrotnym testowaniu tych samych osób (lub innych obiektów) w tych samych warunkach. W idealnym przypadku ten sam test przeprowadzony na tych samych osobach w tych samych warunkach powinien dać takie same wyniki. Jednak nawet przy najbardziej rygorystycznej standaryzacji testów i precyzyjnym sprzęcie wyniki testów zawsze się nieco różnią. Na przykład sportowiec, który właśnie wycisnął na ławce 55 kg na dynamometrze nadgarstkowym, w ciągu kilku minut pokaże jedynie 50 kg. Zróżnicowanie takie nazywa się zmiennością wewnątrzjednostkową lub (używając bardziej ogólnej terminologii statystyki matematycznej) zmiennością wewnątrzklasową. Jest to spowodowane czterema głównymi przyczynami:

zmiana stanu badanych (zmęczenie, trening, nauka, zmiana motywacji, koncentracji itp.);

niekontrolowane zmiany warunków zewnętrznych i urządzeń (temperatura i wilgotność, napięcie zasilania, obecność osób nieupoważnionych, wiatr itp.);

zmiana stanu osoby przeprowadzającej lub oceniającej test, zastąpienie jednego eksperymentatora lub sędziego innym;

niedoskonałość testu (istnieją testy, które są oczywiście niewiarygodne, np. rzuty wolne do kosza do koszykówki przed pierwszym chybieniem; nawet zawodnik z dużym procentem trafień może przypadkowo popełnić błąd przy pierwszych rzutach).

Poniższy uproszczony przykład pomoże zrozumieć ideę metod stosowanych do oceny wiarygodności testów. Załóżmy, że chcą porównać wyniki dwóch zawodników w skoku w dal z miejsca na podstawie dwóch wykonanych prób. Jeśli chcesz wyciągnąć trafne wnioski, nie możesz ograniczyć się do rejestrowania tylko najlepszych wyników. Załóżmy, że wyniki każdego z zawodników różnią się w granicach ± ​​10 cm od wartości średniej i wynoszą odpowiednio 220 ± 10 cm (tj. 210 i 230 cm) oraz 320 ± 10 cm (tj. 310 i 330 cm). W tym przypadku wniosek będzie oczywiście całkowicie jednoznaczny: drugi sportowiec jest lepszy od pierwszego. Różnica pomiędzy wynikami (320 cm - 220 cm = 100 cm) jest wyraźnie większa niż wahania losowe (±10 cm). Będzie to dużo mniej pewne

Ryż. 1. Stosunek zmienności międzyklasowej i wewnątrzklasowej przy wysokiej (górnej) i niskiej (dolnej) niezawodności.

Krótkie pociągnięcia pionowe – dane z prób indywidualnych, X i A” 2, X 3 – średnie wyniki trzech osób

wniosek, jeśli przy tej samej zmienności wewnątrzklasowej (równej ± 10 cm) różnica między obiektami (zmienność międzyklasowa) będzie niewielka. Załóżmy, że średnie wartości wyniosą 220 cm (w jednej próbie 210 cm, w drugiej 230 cm) i 222 (212 i 232 cm). Wtedy może się zdarzyć np., że w pierwszej próbie pierwszy zawodnik skacze na odległość 230 cm, a drugi tylko 212 i będzie można odnieść wrażenie, że ten pierwszy jest znacznie silniejszy od drugiego.

Przykład pokazuje, że główne znaczenie nie ma samej zmienności wewnątrzklasowej, ale jej związku z różnicami międzyklasowymi. Ta sama zmienność wewnątrzklasowa daje różną rzetelność przy różnych różnicach między klasami (w konkretnym przypadku przedmiotów, ryc. 1).

Teoria rzetelności testu opiera się na fakcie, że wynik dowolnego pomiaru przeprowadzonego na osobie – X ( – jest sumą dwóch wielkości:

X^Hoo + Heh, (1)

gdzie X x to tzw. prawdziwy wynik, który chcą zarejestrować;

X e - błąd spowodowany niekontrolowaną zmianą stanu przedmiotu, wprowadzonym przez urządzenie pomiarowe itp.

Z definicji przez wynik prawdziwy rozumie się średnią wartość X^ dla nieskończenie dużej liczby obserwacji w identycznych warunkach (dlatego znak nieskończoności oo stawia się w miejscu X).

Jeżeli błędy są losowe (ich suma wynosi zero i przy różnych próbach nie są od siebie zależne), to ze statystyki matematycznej wynika:

O/ = Ooo T<З е,

tj. rozrzut wyników zarejestrowanych w doświadczeniu (st/2) jest równy sumie rozrzutów wyników prawdziwych ((Xm 2) i błędów (0 e 2).

Ooo 2 charakteryzuje wyidealizowaną (tj. pozbawioną błędów) zmienność międzyklasową, a e 2 charakteryzuje zmienność wewnątrzklasową. Wpływ o e 2 zmienia rozkład wyników badań (rys. 2).

Z definicji współczynnik rzetelności (Hz) jest równy stosunkowi prawdziwej wariancji do wariancji zarejestrowanej w eksperymencie:

Innymi słowy, r p jest po prostu proporcją prawdziwej zmienności w zmienności zarejestrowanej w doświadczeniu.

Oprócz współczynnika niezawodności stosuje się również wskaźnik niezawodności:

co jest uważane za teoretyczny współczynnik korelacji pomiędzy zarejestrowanymi wartościami testowymi a wartościami rzeczywistymi. Stosują także koncepcję błędu standardowego rzetelności, rozumianego jako odchylenie standardowe zarejestrowanych wyników badań (X () od linii regresji łączącej wartość X g z wynikami prawdziwymi (X”) – rys. 3.

2.2 Ocena niezawodności na podstawie danych doświadczalnych

Pojęcie prawdziwego wyniku testu jest abstrakcją. Hoe nie da się zmierzyć eksperymentalnie (w końcu nie da się w rzeczywistości przeprowadzić nieskończenie dużej liczby obserwacji w identycznych warunkach). Dlatego musimy zastosować metody pośrednie.

Najbardziej preferowaną metodą oceny wiarygodności jest analiza wariancji, a następnie obliczenie tzw. współczynników korelacji wewnątrzklasowej.

Jak wiadomo, analiza wariancji umożliwia rozłożenie zarejestrowanej eksperymentalnie zmienności wyników badań na składowe wynikające z wpływu poszczególnych czynników. Na przykład, jeśli zarejestrujemy wyniki osób badanych w jakimkolwiek teście, powtarzając ten test w różne dni i podejmując kilka prób każdego dnia, okresowo zmieniając eksperymentatorów, wówczas wystąpi różnica:

a) z przedmiotu na temat (zmienność międzyosobnicza),

b) z dnia na dzień,

c) od eksperymentatora do eksperymentatora,

d) od próby do próby.

Analiza wariancji umożliwia wyizolowanie i ocenę zmienności powodowanej przez te czynniki.

Uproszczony przykład pokazuje, jak to się robi. Załóżmy, że wyniki dwóch prób mierzono u 5 osób (k = 5, n = 2)

Wyniki analizy wariancji (patrz kurs statystyki matematycznej oraz załącznik 1 do pierwszej części książki) podano w tradycyjnej formie w tabeli. 2.

Tabela 2

Rzetelność ocenia się za pomocą tzw. współczynnika korelacji wewnątrzklasowej:

gdzie r „i jest współczynnikiem korelacji wewnątrzklasowej (współczynnikiem rzetelności, który w celu odróżnienia go od zwykłego współczynnika korelacji (r) jest oznaczony dodatkową liczbą pierwszą (r”)\

n -- liczba prób wykorzystanych w teście;

n” – liczba prób, dla których przeprowadzana jest ocena niezawodności.

Przykładowo, jeśli chcą oszacować wiarygodność średniej z dwóch prób na podstawie danych podanych w przykładzie, to

Jeśli ograniczymy się tylko do jednej próby, to niezawodność będzie równa:

a jeśli zwiększysz liczbę prób do czterech, współczynnik niezawodności również nieznacznie wzrośnie:

Zatem, aby ocenić rzetelność, należy po pierwsze przeprowadzić analizę wariancji, a po drugie obliczyć współczynnik korelacji wewnątrzklasowej (współczynnik rzetelności).

Pewne trudności pojawiają się, gdy występuje tzw. trend, czyli systematyczny wzrost lub spadek wyników od próby do próby (ryc. 4). W tym przypadku stosuje się bardziej złożone metody oceny niezawodności (nie są one opisane w tej książce).

W przypadku dwóch prób i braku trendu wartości współczynnika korelacji wewnątrzklasowej praktycznie pokrywają się z wartościami zwykłego współczynnika korelacji pomiędzy wynikami pierwszej i drugiej próby. Dlatego w takich sytuacjach do oceny wiarygodności można zastosować zwykły współczynnik korelacji (ocenia on wiarygodność jednej, a nie dwóch prób). Jeśli jednak liczba ponownych prób w teście jest większa niż dwie, a zwłaszcza jeśli zastosowano złożone projekty testów,

Ryż. 4. Seria sześciu prób, z których trzy pierwsze (po lewej) lub trzy ostatnie (po prawej) podlegają trendowi

(na przykład 2 próby dziennie przez dwa dni) konieczne jest obliczenie współczynnika wewnątrzklasowego.

Współczynnik rzetelności nie jest bezwzględnym wskaźnikiem charakteryzującym test. Współczynnik ten może się różnić w zależności od populacji badanych (na przykład może być inny dla początkujących i doświadczonych sportowców), warunków badania (czy powtarzane próby są przeprowadzane jedna po drugiej, czy, powiedzmy, w odstępach tygodniowych) i innych powodów . Dlatego zawsze konieczne jest opisanie, w jaki sposób i na kim przeprowadzono badanie.

2.3 Niezawodność w praktyce testowej

Nierzetelność danych eksperymentalnych zmniejsza wielkość szacunków współczynników korelacji. Ponieważ żaden test nie może bardziej korelować z innym testem niż sam ze sobą, górna granica szacowania współczynnika korelacji nie wynosi tu już ±1,00, ale wskaźnik rzetelności

g (oo = Y~g i

Aby przejść od szacowania współczynników korelacji pomiędzy danymi empirycznymi do szacowania korelacji pomiędzy wartościami prawdziwymi, można skorzystać z wyrażenia

gdzie r xy jest korelacją między prawdziwymi wartościami X i Y;

1~xy -- korelacja pomiędzy danymi empirycznymi; HzI^ - ocena wiarygodności X i Y.

Na przykład, jeśli r xy = 0,60, r xx = 0,80 i r yy = 0,90, to korelacja między prawdziwymi wartościami wynosi 0,707.

Podany wzór (6) nazywany jest poprawką redukcyjną (lub wzorem Spearmana-Browna) i jest stale stosowany w praktyce.

Nie ma ustalonej wartości wiarygodności testu, którą można uznać za akceptowalną. Wszystko zależy od wagi wniosków wyciągniętych z zastosowania testu. A jednak w większości przypadków w sporcie można zastosować następujące przybliżone wytyczne: 0,95-0,99 --¦ doskonała niezawodność, 0,90-^0,94 - -. dobry, 0,80-0,89 - akceptowalny, 0,70-0,79 - zły, 0,60-0,69 - wątpliwy w ocenie indywidualnej, test nadaje się jedynie do scharakteryzowania grupy osób.

Można osiągnąć pewną poprawę wiarygodności testu, zwiększając liczbę ponownych prób. Oto jak na przykład w eksperymencie niezawodność testu (rzucenie granatu 350 g przy rozbiegu) wzrosła wraz ze wzrostem liczby prób: 1 próba - 0,53, 2 próby - 0,72, 3 próby - 0,78, 4 próby - 0,80, 5 prób - 0,82, 6 prób - 0,84. Przykład pokazuje, że jeśli na początku niezawodność rośnie szybko, to po 3-4 próbach wzrost znacznie spowalnia.

Przy kilku powtórzonych próbach wyniki można określić na różne sposoby: a) na podstawie najlepszej próby, b) na podstawie średniej arytmetycznej, c) na podstawie mediany, d) na podstawie średniej dwóch lub trzech najlepszych prób itp. Badania wykazały, że pokazało, że w większości przypadków najbardziej wiarygodne jest użycie średniej arytmetycznej, mediana jest nieco mniej wiarygodna, a najlepsza próba jest jeszcze mniej wiarygodna.

Mówiąc o wiarygodności testów, rozróżnia się ich stabilność (odtwarzalność), spójność i równoważność.

2.4 Testowanie stabilności

Stabilność testu odnosi się do odtwarzalności wyników przy powtarzaniu ich po pewnym czasie w tych samych warunkach. Powtarzane testowanie nazywa się zwykle ponownym testem. Schemat oceny stabilności testu wygląda następująco: 1

W tym przypadku rozróżnia się dwa przypadki. W jednym przeprowadza się powtórny test w celu uzyskania wiarygodnych danych o stanie podmiotu w całym odstępie czasu między badaniem a ponownym badaniem (na przykład w celu uzyskania wiarygodnych danych o możliwościach funkcjonalnych narciarzy w czerwcu są one mierzone dwa razy w odstępie tygodnia). W tym przypadku ważne są dokładne wyniki testów, a wiarygodność należy oceniać za pomocą analizy wariancji.

W innym przypadku istotne może okazać się jedynie zachowanie kolejności podmiotów w grupie (czy pierwszy pozostaje pierwszym, ostatni jednym z ostatnich). W tym przypadku stabilność ocenia się za pomocą współczynnika korelacji pomiędzy testem i ponownym testem.

Stabilność testu zależy od:

rodzaj testu,

kontyngent podmiotów,

odstęp czasu pomiędzy testem a ponownym testem. Na przykład cechy morfologiczne w małych rozmiarach

przedziały czasowe są bardzo stabilne; testy dokładności ruchów (na przykład rzucanie w cel) mają najmniejszą stabilność.

U dorosłych wyniki badań są bardziej stabilne niż u dzieci; wśród sportowców są one bardziej stabilne niż wśród osób nieuprawiających sportu.

Wraz ze wzrostem odstępu czasu między testem a ponownym testem stabilność testu maleje (Tabela 3).

2.5 Testuj spójność

Spójność testu charakteryzuje się niezależnością wyników testu od cech osobistych osoby przeprowadzającej lub oceniającej test.” Spójność określa stopień zgodności wyników uzyskanych na te same przedmioty przez różnych eksperymentatorów, sędziów, i eksperci W tym przypadku możliwe są dwie opcje:

Osoba przeprowadzająca test jedynie ocenia wyniki testu, nie wpływając na jego przebieg. Na przykład różni egzaminatorzy mogą różnie oceniać tę samą pracę pisemną. Oceny sędziów w gimnastyce, łyżwiarstwie figurowym, boksie, ręczne wskaźniki pomiaru czasu, oceny elektrokardiogramu lub radiogramu przez różnych lekarzy itp. często się różnią.

Osoba przeprowadzająca badanie ma wpływ na wyniki. Na przykład niektórzy eksperymentatorzy są bardziej wytrwali i wymagający niż inni i lepiej motywują osoby badane. Ma to wpływ na wyniki (które same w sobie można zmierzyć dość obiektywnie).

Spójność testu to zasadniczo wiarygodność wyników testu, gdy test przeprowadzają różne osoby.

1 Zamiast terminu „spójność” często używa się terminu „obiektywność”. Takie użycie słów jest niefortunne, ponieważ zbieżność wyników różnych eksperymentatorów lub sędziów (ekspertów) wcale nie wskazuje na ich obiektywność. Razem mogą świadomie lub nieświadomie popełniać błędy, zniekształcając obiektywną prawdę.

2.6 Równoważność testu

Często test jest wynikiem wyboru z pewnej liczby podobnych testów.

Np. rzucanie koszem do koszykówki można wykonywać z różnych punktów, sprint można wykonywać na dystansie powiedzmy 50, 60 lub 100 m, podciąganie można wykonywać na kółkach lub drążku, z chwytem górnym lub dolnym itp.

W takich przypadkach można zastosować tzw. metodę form równoległych, polegającą na tym, że badani proszeni są o wykonanie dwóch wersji tego samego testu i następnie oceniany jest stopień zgodności wyników. Schemat testowania jest następujący:

Współczynnik korelacji obliczony pomiędzy wynikami testów nazywany jest współczynnikiem równoważności. Podejście do równoważności testów zależy od konkretnej sytuacji. Z jednej strony, jeśli dwa lub więcej testów jest równoważnych, ich łączne zastosowanie zwiększa wiarygodność szacunków; z drugiej strony przydatne może być pozostawienie w baterii tylko jednego równoważnego testu - uprości to testowanie i tylko nieznacznie zmniejszy zawartość informacyjną zestawu testowego. Rozwiązanie tego problemu zależy od takich czynników, jak złożoność i uciążliwość testów, stopień wymaganej dokładności testów itp.

Jeśli wszystkie testy zawarte w zestawie testów są wysoce równoważne, nazywa się to homogenicznym. Cały ten kompleks mierzy jedną właściwość zdolności motorycznych człowieka. Załóżmy, że kompleks składający się ze skoków w dal, w pionie i potrójnych skoków z miejsca będzie prawdopodobnie jednorodny. I odwrotnie, jeśli w kompleksie nie ma testów równoważnych, to wszystkie zawarte w nim testy mierzą różne właściwości. Taki kompleks nazywa się heterogenicznym. Przykład heterogenicznej baterii testów: podciąganie na drążku, skłon do przodu (w celu sprawdzenia elastyczności), bieg na 1500 m.

2.7 Sposoby poprawy wiarygodności testów

Wiarygodność testów można w pewnym stopniu zwiększyć poprzez:

a) bardziej rygorystyczna standaryzacja badań,

b) zwiększenie liczby prób,

c) zwiększenie liczby rzeczoznawców (sędziów, ekspertów) i zwiększenie spójności ich opinii,

d) zwiększenie liczby badań równoważnych,

e) lepsza motywacja badanych.

3. TESTY INFORMACYJNE

3.1 Podstawowe pojęcia

Informacyjność testu to stopień dokładności, z jaką mierzy on właściwość (jakość, zdolność, cechę itp.), którą wykorzystuje do oceny. Informatywność często nazywana jest także ważnością (od angielskiego uaNaNu – ważność, ważność, legalność). Załóżmy, że do określenia poziomu specjalnego przygotowania siłowego sprinterów – biegaczy i pływaków – chcą oni wykorzystać następujące wskaźniki: 1) dynamometria nadgarstka, 2) siła zgięcia podeszwowego stopy, 3) siła prostowników barku staw (mięśnie te wytrzymują duże obciążenie podczas pływania), 4) siła mięśni prostowników szyi. Na podstawie tych badań proponuje się zarządzanie procesem treningowym, w szczególności odnajdywanie słabych ogniw w narządzie ruchu i celowe ich wzmacnianie. Czy wybrane testy są dobre? Czy mają charakter informacyjny? Nawet bez przeprowadzania specjalnych eksperymentów można się domyślić, że drugi test będzie prawdopodobnie pouczający dla sprinterów i biegaczy, trzeci dla pływaków, a pierwszy i czwarty prawdopodobnie nie wykażą niczego interesującego ani dla pływaków, ani dla biegaczy (choć mogą być bardzo przydatne w innych sportach, takich jak zapasy). W różnych przypadkach te same testy mogą mieć różną zawartość informacyjną.

Pytanie o informatywność testu dzieli się na 2 pytania szczegółowe:

Co mierzy ten test?

Jak on to dokładnie robi?

Przykładowo, czy można ocenić sprawność biegaczy długodystansowych na podstawie takiego wskaźnika, jak maksymalne zużycie tlenu (MOC), a jeśli tak, to z jaką dokładnością? Innymi słowy, jaka jest zawartość informacyjna Niezależnego Konsultanta wśród osób pozostających? Czy ten test można wykorzystać w procesie kontrolnym?

Jeśli test służy do określenia (zdiagnozowania) stanu sportowca w momencie badania, wówczas mówi się o informacyjności diagnostycznej. Jeżeli na podstawie wyników testu chcą wyciągnąć wnioski na temat możliwych przyszłych wyników sportowca, test musi zawierać informacje predykcyjne. Test może mieć charakter diagnostyczny, ale nie prognostyczny i odwrotnie.

Stopień zawartości informacji można scharakteryzować ilościowo – na podstawie danych eksperymentalnych (tzw. empiryczna zawartość informacji) i jakościowo – na podstawie miarodajnej analizy sytuacji (merytoryczna, czyli logiczna, treść informacyjna).

3.2 Treść informacji empirycznej (przypadek pierwszy – istnieje mierzalne kryterium)

Ideą ustalania zawartości informacji empirycznej jest to, że wyniki testu porównuje się z jakimś kryterium. W tym celu należy obliczyć współczynnik korelacji pomiędzy kryterium a testem (współczynnik ten nazywany jest współczynnikiem informacyjności i oznaczany jest r gk, gdzie I jest pierwszą literą w słowie „test”, k w słowie „kryterium”).

Za kryterium uważa się wskaźnik, który w sposób oczywisty i bezsporny odzwierciedla właściwość, która będzie mierzona za pomocą testu.

Często zdarza się, że istnieje dobrze określone kryterium, z którym można porównać proponowany test. Na przykład, oceniając specjalne przygotowanie sportowców w sporcie z obiektywnie mierzonymi wynikami, sam wynik zwykle służy jako takie kryterium: test, którego korelacja z wynikiem sportowym jest wyższa, jest bardziej pouczający. W przypadku określenia zawartości informacji prognostycznej kryterium jest wskaźnik, którego prognozę należy przeprowadzić (przykładowo, jeśli przewiduje się długość ciała dziecka, kryterium jest długość jego ciała w wieku dorosłym).

Do najczęściej spotykanych kryteriów w metrologii sportowej należą:

Wynik sportowy.

Dowolna ilościowa cecha podstawowego ćwiczenia sportowego (na przykład długość kroku w biegu, siła odbicia w skokach, skuteczność walki pod tablicą w koszykówce, serw w tenisie lub siatkówce, procent celnych długich podań w piłce nożnej).

Wyniki innego badania, którego zawartość informacyjna została udowodniona (robi się to w przypadku, gdy przeprowadzenie badania kryterialnego jest uciążliwe i trudne i można wybrać inny test, który jest równie informacyjny, ale prostszy. Na przykład zamiast wymiany gazowej określ tętno). Ten szczególny przypadek, gdy kryterium jest inny test, nazywany jest treścią informacji konkurencyjnej.

Przynależność do określonej grupy. Możesz na przykład porównać członków kadry narodowej, mistrzów sportu i pierwszorzędnych sportowców; przynależność do jednej z tych grup jest kryterium. W tym przypadku stosuje się specjalne rodzaje analizy korelacji.

Tzw. kryterium złożone, czyli np. suma punktów w wieloboju. W tym przypadku uniwersalne tabele typów i punktów mogą być albo ogólnie przyjęte, albo opracowane na nowo przez eksperymentatora (sposób kompilowania tabel można znaleźć w następnym rozdziale). Kryterium złożone stosuje się, gdy nie ma jednego kryterium (np. jeśli zadaniem jest ocena ogólnej sprawności fizycznej, umiejętności zawodnika w grach sportowych itp., żaden pojedynczy wskaźnik nie może służyć jako kryterium).

Przykład określenia zawartości informacyjnej tego samego testu – prędkość biegu 30 m w ruchu dla mężczyzn – przy różnych kryteriach podano w tabeli 4.

Kwestia wyboru kryterium jest zasadniczo najważniejsza dla określenia prawdziwego znaczenia i informatywności testu. Na przykład, jeśli zadaniem jest określenie zawartości informacyjnej takiego testu, jak skok w dal sprinterów z miejsca, możesz wybrać inne kryteria: wynik w biegu na 100 m, długość kroku, stosunek długości kroku do długości nogi lub na wysokość itp. Treść informacyjna testu ulegnie w tym przypadku zmianie (w podanym przykładzie wzrosła z 0,558 dla prędkości biegu do 0,781 dla stosunku „długość kroku/długość nogi”).

W sporcie, w którym nie da się obiektywnie zmierzyć sportowej rywalizacji, próbuje się ominąć tę trudność, wprowadzając sztuczne kryteria. Na przykład w grach zespołowych eksperci klasyfikują wszystkich graczy według ich umiejętności w określonej kolejności (tj. sporządzają listy 20, 50 lub, powiedzmy, 100 najsilniejszych graczy). Miejsce zajmowane przez sportowca (jak mówią jego ranga) jest uważane za kryterium, z którym porównuje się wyniki testów w celu określenia ich informatywności.

Powstaje pytanie: po co stosować testy, skoro kryterium jest znane? Czy nie jest na przykład łatwiej organizować zawody kontrolne i ustalać wyniki sportowe, niż ustalać osiągnięcia w ćwiczeniach kontrolnych? Stosowanie testów ma następujące zalety:

nie zawsze możliwe lub wskazane jest ustalenie wyniku sportowego (np. nie zawsze można organizować zawody w biegu maratońskim, zimą zwykle nie można zarejestrować wyniku w rzucie oszczepem, a latem w narciarstwie biegowym);

wynik sportowy zależy od wielu przyczyn (czynników), takich jak siła, wytrzymałość, technika itp. Stosowanie testów pozwala określić mocne i słabe strony sportowca oraz ocenić każdy z tych czynników z osobna

3.3 Informacyjność empiryczna (przypadek drugi – nie ma jednego kryterium; informatywność czynnikowa)

Często zdarza się, że nie ma jednego kryterium, według którego można porównać wyniki proponowanych badań. Załóżmy, że chcą znaleźć najbardziej pouczające testy, które pozwolą ocenić gotowość siłową młodych ludzi. Co wolisz: podciąganie na drążku lub pompki, przysiady ze sztangą, wiosłowanie ze sztangą, a może przejście do przysiadu z pozycji leżącej? Jakie może być kryterium wyboru odpowiedniego testu w tym przypadku?

Można zaproponować badanym dużą baterię różnych testów wytrzymałościowych, a następnie wybrać spośród nich te, które dają największą korelację z wynikami całego kompleksu (nie da się przecież systematycznie wykorzystywać całego kompleksu – jest to zbyt uciążliwe i niewygodne). Testy te będą najbardziej pouczające: dostarczą informacji o możliwych wynikach osób badanych w całym początkowym zestawie testów. Ale wyniki zestawu testów nie są wyrażone w jednej liczbie. Można oczywiście stworzyć jakieś kryterium złożone (na przykład określić ilość punktów zdobytych w jakiejś skali). Jednak znacznie skuteczniejszy jest inny sposób, oparty na idei analizy czynnikowej.

Analiza czynnikowa jest jedną z metod statystyki wieloczynnikowej (słowo „wielowymiarowy” wskazuje, że jednocześnie bada się wiele różnych wskaźników, na przykład wyniki osób w wielu testach). Jest to dość złożona metoda, dlatego w tym miejscu warto ograniczyć się do przedstawienia jedynie jej głównej idei.

Analiza czynnikowa wychodzi z faktu, że wynik dowolnego testu jest konsekwencją jednoczesnego działania szeregu czynników bezpośrednio nieobserwowalnych (inaczej zwanych ukrytymi). Przykładowo wyniki biegu na 100, 800 i 5000 m zależą od szybkości, siły, wytrzymałości itp. zawodnika. Znaczenie tych czynników dla każdego dystansu nie jest jednakowo ważne. Jeśli wybierzesz dwa testy, na które w przybliżeniu jednakowo wpływają te same czynniki, wówczas wyniki tych testów będą ze sobą silnie skorelowane (powiedzmy w biegach na dystansach 800 i 1000 m). Jeśli testy nie mają wspólnych czynników lub mają niewielki wpływ na wyniki, korelacja między tymi testami będzie niska (np. korelacja między wynikami na 100 m i 5000 m). Kiedy bierze się pod uwagę dużą liczbę różnych testów i oblicza się współczynniki korelacji między nimi, wówczas za pomocą analizy czynnikowej można określić, ile czynników współdziała na te testy i jaki jest stopień ich udziału w każdym teście. A wtedy łatwo jest wybrać testy (lub ich kombinacje), które najdokładniej oceniają poziom poszczególnych czynników. Taka jest idea silniowej zawartości informacyjnej testów. Poniższy przykład konkretnego eksperymentu pokazuje, jak to się robi.

Zadanie polegało na znalezieniu najbardziej pouczających testów pozwalających ocenić ogólną gotowość siłową uczniów-sportowców klas III i I uprawiających różne dyscypliny sportowe. W tym celu zostało to zbadane. (N.V. Averkovich, V.M. Zatsiorsky, 1966) według 15 testów, 108 osób. W wyniku analizy czynnikowej zidentyfikowano trzy czynniki: 1) siłę kończyn górnych, 2) siłę kończyn dolnych, 3) siłę mięśni brzucha i zginaczy stawu biodrowego. Najbardziej pouczające wśród badanych okazały się testy: dla pierwszego czynnika – pompki, dla drugiego – skok w dal z miejsca, dla trzeciego – unoszenie prostych nóg w zwisie oraz maksymalna liczba przejść do przysiadu z pozycji leżącej dla 1 minuta . Jeśli ograniczymy się tylko do jednego testu, to najbardziej pouczające było przerzucenie siłą na poprzeczkę (oceniona została liczba powtórzeń).

3.4 Informatyka empiryczna w praktyce

Wykorzystując w praktyce empiryczne wskaźniki informacyjności, należy mieć na uwadze, że obowiązują one jedynie w odniesieniu do tych podmiotów i warunków, dla których są obliczane. Test, który ma charakter informacyjny w grupie początkujących, może okazać się całkowicie pozbawiony informacji, jeśli spróbujesz go zastosować w grupie mistrzów sportu.

Treść informacyjna testu nie jest taka sama w różnych grupach. W szczególności w grupach o bardziej jednorodnym składzie test zwykle dostarcza mniej informacji. Jeśli zostanie określona zawartość informacyjna testu w dowolnej grupie, a następnie najsilniejsi z nich zostaną włączeni do kadry narodowej, wówczas zawartość informacyjna tego samego testu w kadrze narodowej będzie znacznie niższa. Przyczyny tego są wyraźnie widoczne na ryc. 5: selekcja zmniejsza ogólną wariancję wyników w grupie i zmniejsza wielkość współczynnika korelacji. Na przykład, jeśli określimy zawartość informacyjną takiego testu, jak MPC pływaków na 400 m, którzy mają znacznie różne wyniki (powiedzmy od 3,55 do 6,30), wówczas współczynnik treści informacyjnej będzie bardzo wysoki (Y 4th>0,90); jeśli przeprowadzimy te same pomiary w grupie pływaków z wynikami od 3,55 do 4,30, g liczba w wartości bezwzględnej nie przekroczy 0,4-0,6; jeśli wyznaczymy ten sam wskaźnik wśród najsilniejszych pływaków świata (3,53>, 5=4,00), to współczynnik treści informacyjnej w ogóle „”może być równy zeru: za pomocą samego tego testu nie będzie można rozróżnić między pływakami pływającymi powiedzmy 3,55 i 3,59, przy czym te i inne mają wartości MIC. będzie wysoka i mniej więcej taka sama.

Współczynniki informatywności w dużej mierze zależą od rzetelności testu i kryterium. Test o niskiej wiarygodności zawsze nie jest zbyt pouczający, dlatego nie ma sensu sprawdzać testów o niskiej wiarygodności pod kątem zawartości informacyjnej. Niedostateczna rzetelność kryterium prowadzi także do spadku współczynników informacyjności. Jednak w tym przypadku błędem byłoby zaniedbanie testu jako nieinformacyjnego - wszak górna granica możliwej korelacji testu to nie ±1, ale jego wskaźnik rzetelności. Dlatego też konieczne jest porównanie współczynnika zawartości informacyjnej z tym wskaźnikiem. Rzeczywistą zawartość informacyjną (skorygowaną o zawodność kryterium) oblicza się ze wzoru:

I tak, w jednej z prac, na podstawie ocen 4 ekspertów ustalono rangę zawodnika piłki wodnej (ranga była uznawana za kryterium umiejętności). Rzetelność (spójność) kryterium, określona za pomocą współczynnika korelacji wewnątrzklasowej, wyniosła 0,64. Współczynnik informacyjny wyniósł 0,56. Rzeczywisty współczynnik zawartości informacji (skorygowany o zawodność kryterium) wynosi:

Z informacyjnością i rzetelnością testu ściśle wiąże się koncepcja jego zdolności dyskryminacyjnej, rozumianej jako minimalna różnica między podmiotami diagnozowanymi za pomocą testu (pojęcie to ma podobne znaczenie do pojęcia czułości urządzenia). . Zdolność dyskryminacyjna testu zależy od:

Międzyosobnicze zróżnicowanie wyników. Na przykład test „maksymalna liczba powtarzających się rzutów piłką do koszykówki o ścianę z odległości 4 m w ciągu 10 sekund” jest dobry dla początkujących, ale nieodpowiedni dla wprawnych koszykarzy, ponieważ wszyscy dają w przybliżeniu ten sam wynik i stać się nie do odróżnienia. W wielu przypadkach zróżnicowanie międzyklasowe (zróżnicowanie międzyklasowe) można zwiększyć, zwiększając trudność testu. Na przykład, jeśli poddasz sportowcom o różnych kwalifikacjach łatwy dla nich test funkcjonalny (powiedzmy 20 przysiadów lub praca na ergometrze rowerowym o mocy 200 kgm/min), to wielkość zmian fizjologicznych u każdego będzie wynosić w przybliżeniu takie same i nie będzie można ocenić stopnia gotowości. Jeśli zaoferujesz im trudne zadanie, różnice między zawodnikami staną się duże i na podstawie wyników testów będzie można ocenić przygotowanie sportowców.

Rzetelność (tj. związek między zmiennością międzyosobniczą i wewnątrzosobniczą) testu i kryterium. Jeśli wyniki tego samego przedmiotu w skoku w dal z miejsca różnią się, powiedzmy:

Zatem w przypadkach ±10 cm, choć długość skoku można określić z dokładnością do ±1 cm, nie da się z całą pewnością rozróżnić osób, których „prawdziwe” wyniki wynoszą 315 i 316 cm.

Nie ma ustalonej wartości informacyjnej testu, po której można uznać test za odpowiedni. Wiele zależy od konkretnej sytuacji: pożądanej dokładności prognozy, konieczności uzyskania przynajmniej kilku dodatkowych informacji o sportowcu itp W praktyce do diagnostyki wykorzystuje się testy, których zawartość informacyjna jest nie mniejsza niż 0,3. Do prognozy z reguły potrzebna jest większa zawartość informacyjna - co najmniej 0,6.

Zawartość informacyjna zestawu testów jest oczywiście wyższa niż zawartość informacyjna jednego testu. Często zdarza się, że zawartość informacyjna jednego pojedynczego testu jest zbyt mała, aby zastosować ten test. Zawartość informacyjna zestawu testów może być wystarczająca.

Nie zawsze można określić zawartość informacyjną testu na podstawie eksperymentu i matematycznego przetwarzania jego wyników. Przykładowo, jeśli zadaniem jest opracowanie kart na egzaminy lub tematów do prac dyplomowych (jest to również rodzaj testu), należy wybrać pytania, które niosą ze sobą najwięcej informacji, dzięki którym najdokładniej można ocenić wiedzę absolwentów i ich przygotowanie do pracy praktycznej. Na razie w takich przypadkach opierają się jedynie na logicznej, merytorycznej analizie sytuacji.

Czasami zdarza się, że treść informacyjna testu jest jasna bez żadnych eksperymentów, zwłaszcza gdy test jest po prostu częścią działań, które sportowiec wykonuje na zawodach. Nie potrzeba eksperymentów, aby wykazać informatywność takich wskaźników, jak czas potrzebny na wykonanie zwrotów w pływaniu, prędkość w ostatnich krokach rozbiegu w skoku w dal, procent rzutów wolnych w koszykówce, jakość służyć w tenisie lub siatkówce.

Jednak nie wszystkie takie testy są równie pouczające. Na przykład rzut z autu w piłce nożnej, mimo że jest elementem gry, trudno uznać za jeden z najważniejszych wskaźników umiejętności piłkarzy. Jeśli jest wiele takich testów i musisz wybrać te najbardziej pouczające, nie możesz obejść się bez matematycznych metod teorii testów.

Analiza treści informacyjnych testu oraz jego uzasadnienie doświadczalne i matematyczne powinny się uzupełniać. Żadne z tych podejść stosowane samodzielnie nie jest wystarczające. W szczególności, jeżeli w wyniku eksperymentu zostanie ustalony wysoki współczynnik zawartości informacyjnej testu, należy sprawdzić, czy nie jest to konsekwencja tzw. fałszywej korelacji. Wiadomo, że fałszywe korelacje pojawiają się, gdy na wyniki obu skorelowanych cech wpływa jakiś trzeci wskaźnik, który sam w sobie nie reprezentuje

odsetki. Przykładowo wśród uczniów szkół średnich można zaobserwować istotną korelację pomiędzy wynikiem w biegu na 100 m a znajomością geometrii, gdyż oni w porównaniu do uczniów szkół podstawowych będą średnio wykazywać się wyższymi wynikami zarówno w bieganiu, jak i znajomości geometrii. Trzecią, zewnętrzną cechą, która spowodowała pojawienie się korelacji, był wiek badanych. Oczywiście badacz, który tego nie zauważył i zalecał egzamin z geometrii jako sprawdzian dla biegaczy na 100 m, popełniłby błąd. Aby uniknąć takich błędów, należy przeanalizować związki przyczynowo-skutkowe, które spowodowały korelacja pomiędzy kryterium a testem. W szczególności przydatne jest wyobrażenie sobie, co by się stało, gdyby wyniki testów uległy poprawie. Czy przełoży się to na wzrost wyników kryterialnych? W podanym przykładzie oznacza to: czy uczeń lepiej znający geometrię będzie szybszy w biegu na 100 m? Oczywista odpowiedź negatywna prowadzi do naturalnego wniosku: znajomość geometrii nie może być sprawdzianem dla sprinterów. Stwierdzona korelacja jest fałszywa. Oczywiście sytuacje z życia codziennego są znacznie bardziej złożone niż ten celowo głupi przykład.

Szczególnym przypadkiem znaczącej informatywności testów jest informatywność z definicji. W tym przypadku po prostu zgadzają się co do tego, jakie znaczenie należy nadać temu lub innemu słowu (terminowi). Mówią na przykład: „skok wzwyż z miejsca charakteryzuje się zdolnością do skakania”. Bardziej trafne byłoby stwierdzenie: „zgódźmy się, że zdolnością do skakania będziemy nazywać to, co mierzy się efektem wyskoczenia z miejsca”. Taka wzajemna zgoda jest konieczna, bo pozwala uniknąć niepotrzebnych nieporozumień (w końcu ktoś może zrozumieć, że umiejętność skakania daje dziesięciokrotny skok na jednej nodze, a skok wzwyż z miejsca uznać za, powiedzmy, próbę „wybuchowej” siły nóg ).

56.0 Standaryzacja testów

Standaryzację testów sprawności fizycznej mających na celu ocenę wydolności tlenowej człowieka osiąga się poprzez przestrzeganie poniższych zasad.

Metodologia badań musi umożliwiać bezpośredni pomiar lub pośrednie obliczenie maksymalnego zużycia tlenu przez organizm (wydajności tlenowej), gdyż ten fizjologiczny wskaźnik sprawności fizycznej człowieka jest najważniejszy. Będzie ona oznaczona symbolem gpax1ggsht U 0g i wyrażona w mililitrach na kilogram masy ciała pacjenta na minutę (ml/kg-min.).

Generalnie metodologia badań powinna być taka sama zarówno dla pomiarów laboratoryjnych, jak i terenowych, jednakże:

1. W warunkach laboratoryjnych (w laboratoriach stacjonarnych i mobilnych) wydolność tlenową człowieka można bezpośrednio określić przy użyciu dość skomplikowanego sprzętu i dużej liczby pomiarów.

2. W terenie wydolność tlenową ocenia się pośrednio na podstawie ograniczonej liczby pomiarów fizjologicznych.

Metodologia badań powinna umożliwiać porównanie ich wyników.

Badanie należy przeprowadzić w ciągu jednego dnia i najlepiej bez przerw. Umożliwi to celowe rozłożenie czasu, sprzętu i wysiłku podczas testów wstępnych i ponownych.

Metodologia badania musi być na tyle elastyczna, aby umożliwić badanie grup osób o różnych zdolnościach fizycznych, różnym wieku, płci, różnym poziomie aktywności itp.

57,0. Wybór sprzętu

Wszystkie powyższe zasady badań fizjologicznych można przestrzegać przede wszystkim pod warunkiem prawidłowego doboru następujących środków technicznych:

bieżnia,

ergometr rowerowy,

krokergometr,

niezbędny sprzęt pomocniczy, który można wykorzystać w dowolnym typie testu.

57.1. Bieżnia może być wykorzystywana w różnorodnych badaniach. Jednak to urządzenie jest najdroższe. Nawet najmniejsza wersja jest zbyt nieporęczna, aby można ją było powszechnie stosować w terenie. Bieżnia powinna umożliwiać prędkość od 3 do (co najmniej) 8 km/h (2-5 mil/h) i nachylenie od 0 do 30%. Nachylenie bieżni definiuje się jako procent wzniesienia w pionie w stosunku do przebytej odległości w poziomie.

Odległość i wzniesienie muszą być wyrażone w metrach, prędkość w metrach na sekundę (m/s) lub kilometrach na godzinę (km/h).

57.2. Ergometr rowerowy. Urządzenie to jest łatwe w obsłudze zarówno w warunkach laboratoryjnych jak i terenowych. Jest dość wszechstronny, można go używać do wykonywania prac o różnej intensywności - od poziomu minimalnego do maksymalnego.

Ergometr rowerowy posiada mechaniczny lub elektryczny układ hamulcowy. Elektryczny układ hamulcowy może być zasilany albo ze źródła zewnętrznego, albo z generatora umieszczonego na ergometrze.

Regulowany opór mechaniczny wyrażany jest w kilogramach na minutę (kgm/min) i watach. Kilometry na minutę przelicza się na waty, korzystając ze wzoru:

1 wat = 6 kgm/min. 2

Ergometr rowerowy musi posiadać ruchome siedzisko, tak aby wysokość jego położenia mogła być dostosowana indywidualnie do każdej osoby. Podczas testów fotelik jest zamontowany w taki sposób, aby osoba na nim siedząca mogła dosięgnąć dolnego pedału z prawie całkowicie wyprostowaną nogą. Średnio odległość siedziska od pedału w pozycji maksymalnie opuszczonej powinna wynosić 109% długości nogi osoby badanej.

Istnieją różne konstrukcje ergometrów rowerowych. Jednakże rodzaj ergometru nie ma wpływu na wyniki eksperymentu, jeśli podany opór w watach lub kilogramach na minutę dokładnie odpowiada całkowitemu obciążeniu zewnętrznemu.

Krokergometr. Jest to stosunkowo niedrogie urządzenie z możliwością regulacji wysokości stopnia od 0 do 50 cm. Podobnie jak ergometr rowerowy, z łatwością można go stosować zarówno w laboratorium, jak i w terenie.

Porównanie trzech opcji testowania. Każdy z tych instrumentów ma swoje zalety i wady (w zależności od tego, czy jest używany w laboratoriach, czy w terenie). Zwykle podczas pracy na bieżni wartość max1ggsht U07 jest nieco większa niż podczas pracy na ergometrze rowerowym; z kolei odczyty na ergometrze rowerowym przewyższają odczyty na stepergometrze.

Poziom wydatku energetycznego osób w spoczynku lub wykonujących zadanie pokonania grawitacji jest wprost proporcjonalny do ich masy ciała. Dlatego też ćwiczenia na bieżni i stepergometrze stwarzają dla wszystkich osób taki sam względny wysiłek związany z podnoszeniem (ciała) na daną wysokość: przy danej prędkości i nachyleniu bieżni, częstotliwości kroków i wysokości kroków na bieżni. krokergometr, wysokość ciała zostanie podniesiona - jest taka sama (ale wykonywana praca jest inna. - wyd.). Z kolei ergometr rowerowy przy stałej wartości danego obciążenia wymaga niemal takiego samego wydatku energetycznego, niezależnie od płci i wieku badanego.

58.0, Ogólne uwagi dotyczące procedur testowych

Aby zastosować testy na dużych grupach ludzi, potrzebne są proste i oszczędzające czas metody testowania. Jednak w celu bardziej szczegółowego zbadania cech fizjologicznych podmiotu potrzebne są bardziej dogłębne i pracochłonne testy. Aby uzyskać większą wartość z testów i bardziej elastycznie z nich korzystać, konieczne jest znalezienie optymalnego kompromisu pomiędzy tymi dwoma wymaganiami.

58.1. Intensywność pracy. Testowanie należy rozpocząć od małych obciążeń, z którymi poradzi sobie najsłabszy z badanych. Ocenę zdolności adaptacyjnych układu sercowo-naczyniowego i oddechowego należy przeprowadzać podczas pracy ze stopniowo wzrastającymi obciążeniami. Dlatego też granice funkcjonalne muszą być ustalone z wystarczającą precyzją. Względy praktyczne sugerują przyjęcie wyjściowego tempa metabolizmu (tj. spoczynkowego tempa metabolizmu) jako jednostki miary ilości energii wymaganej do wykonania danej czynności. Obciążenie początkowe i jego kolejne etapy wyrażone są w Meta, wielokrotnościach tempa metabolizmu człowieka w stanie całkowitego spoczynku. Fizjologiczne wskaźniki leżące u podstaw Meta to ilość tlenu (w mililitrach na minutę) zużywanego przez osobę w spoczynku lub jego kaloryczny odpowiednik (w kilokaloriach na minutę).

Aby monitorować obciążenia w jednostkach Met lub równoważne wartości zużycia tlenu bezpośrednio podczas testów, wymagany jest skomplikowany elektroniczny sprzęt obliczeniowy, który obecnie jest wciąż stosunkowo niedostępny. Dlatego też przy określaniu ilości tlenu potrzebnej organizmowi do wykonania obciążeń określonego rodzaju i intensywności praktycznie wygodnie jest posługiwać się wzorami empirycznymi. Przewidywane (na podstawie wzorów empirycznych – red.) wartości zużycia tlenu podczas pracy na bieżni – według prędkości i nachylenia, podczas próby schodkowej – według wysokości i częstotliwości kroków są dobrze zgodne z wynikami pomiarów bezpośrednich i może być stosowany jako fizjologiczny odpowiednik wysiłku fizycznego, z którym korelowane są wszystkie wskaźniki fizjologiczne uzyskane podczas badania.

58.2. Czas trwania testów. Chęć skrócenia procesu testowania nie powinna odbywać się ze szkodą dla celów i założeń testu. Zbyt krótkie testy nie dadzą wystarczająco rozróżnialnych wyników, a ich zdolność różnicująca będzie niewielka; Zbyt długie testy w większym stopniu aktywują mechanizmy termoregulacyjne, co utrudnia osiągnięcie maksymalnej wydajności tlenowej. W zalecanej procedurze testowej każdy poziom obciążenia utrzymuje się przez 2 minuty. Średni czas testu wynosi od 10 do 16 minut.

58.3. Wskazania do przerwania badania. Badanie należy przerwać, chyba że:

ciśnienie tętna stale spada pomimo zwiększonego obciążenia pracą;

skurczowe ciśnienie krwi przekracza 240–250 mmHg. Sztuka.;

rozkurczowe ciśnienie krwi wzrasta powyżej 125 mm Hg. Sztuka.;

pojawiają się objawy złego samopoczucia, takie jak nasilający się ból w klatce piersiowej, silna duszność, chromanie przestankowe;

pojawiają się kliniczne objawy niedotlenienia: bladość lub sinica twarzy, zawroty głowy, zjawiska psychotyczne, brak reakcji na podrażnienia;

Odczyty elektrokardiogramu wskazują na napadowe nadkomorowe lub komorowe zaburzenia rytmu, pojawienie się komorowych zespołów pozaskurczowych występujących przed końcem załamka T, zaburzenia przewodzenia z wyjątkiem łagodnej blokady L-V, zmniejszenie typu poziomego lub zstępującego /?-5G o więcej niż 0,3 mV. .;";, -

58,4. Środki ostrożności.

Zdrowie podmiotu. Przed badaniem podmiot musi przejść badania lekarskie i otrzymać zaświadczenie stwierdzające, że jest zdrowy. Zdecydowanie wskazane jest wykonanie elektrokardiogramu (przynajmniej jednego odprowadzenia piersiowego). W przypadku mężczyzn powyżej 40. roku życia obowiązkowe jest wykonanie elektrokardiogramu. Regularnie powtarzane pomiary ciśnienia krwi powinny stanowić integralną część całej procedury badawczej. Na zakończenie badania należy poinformować uczestników o środkach zapobiegających niebezpiecznemu gromadzeniu się krwi w kończynach dolnych.

Przeciwwskazania. Przedmiot nie jest dopuszczony do egzaminu w następujących przypadkach:

brak zgody lekarza na udział w badaniach z maksymalnymi obciążeniami;

temperatura w jamie ustnej przekracza 37,5°C;

tętno po długim odpoczynku przekracza 100 uderzeń/min;

wyraźny spadek czynności serca;

przypadek zawału lub zapalenia mięśnia sercowego w ciągu ostatnich 3 miesięcy; objawy i odczyty elektrokardiogramu wskazujące na obecność tych chorób; objawy dławicy piersiowej;

choroby zakaźne, w tym przeziębienia.

Miesiączka nie jest przeciwwskazaniem do udziału w badaniach. Jednak w niektórych przypadkach wskazana jest zmiana harmonogramu ich gospodarstwa.

B. TESTY STANDARDOWE

59,0. Opis głównej metodologii prowadzenia standardu

We wszystkich trzech rodzajach ćwiczeń i niezależnie od tego, czy badanie przeprowadzane jest przy obciążeniu maksymalnym, czy submaksymalnym, podstawowa procedura badania jest taka sama.

Badany przychodzi do laboratorium w lekkim stroju sportowym i miękkim obuwiu. W ciągu 2 godzin. Przed rozpoczęciem badania nie powinien jeść, pić kawy i palić.

Odpoczynek. Badanie poprzedzone jest 15-minutową przerwą na odpoczynek. W tym czasie, gdy instalowane są fizjologiczne przyrządy pomiarowe, osoba badana siedzi wygodnie na krześle.

Okres zakwaterowania. Już pierwsze badanie dowolnego przedmiotu, jak wszystkie powtarzane, da dość wiarygodne wyniki, jeśli główny test zostanie poprzedzony krótkim okresem ćwiczeń z małym obciążeniem - okresem akomodacji. Trwa 3 minuty. i służy następującym celom:

zapoznać podmiot ze sprzętem i rodzajem pracy, jaką musi wykonywać;

wstępne badanie reakcji fizjologicznej pacjenta na obciążenie o wartości około 4 Meta, co odpowiada częstości akcji serca około 100 uderzeń/min;

przyspieszyć adaptację organizmu do samego testu.

Odpoczynek. Po okresie zakwaterowania następuje krótki (2 min.) okres odpoczynku; osoba badana siedzi wygodnie na krześle, podczas gdy eksperymentator dokonuje niezbędnych przygotowań technicznych.

Test. Na początku egzaminu ustala się obciążenie równe obciążeniu okresu akomodacyjnego, a osoba badana wykonuje ćwiczenia bez przerwy aż do zakończenia testu. Co 2 minuty obciążenie pracą wzrasta o 1 metr.

Testowanie zostaje zatrzymane, gdy wystąpi jeden z następujących warunków:

podmiot nie jest w stanie kontynuować wykonywania zadania;

występują oznaki dekompensacji fizjologicznej (patrz 58.3);

dane uzyskane na ostatnim etapie obciążenia pozwalają na ekstrapolację maksymalnej wydolności tlenowej na podstawie kolejnych pomiarów fizjologicznych (wykonywanych podczas badań. - przyp. red.).

59,5. Pomiary. Maksymalne zużycie tlenu w mililitrach na kilogram na minutę mierzy się bezpośrednio lub oblicza. Metody określania zużycia tlenu są bardzo zróżnicowane, podobnie jak dodatkowe techniki stosowane do analizy możliwości fizjologicznych każdego osobnika. Zostanie to omówione bardziej szczegółowo później.

59,6. Powrót do zdrowia. Po zakończeniu doświadczenia obserwację fizjologiczną kontynuuje się przez co najmniej 3 minuty. Badany ponownie spoczywa na krześle, lekko unosząc nogi.

Notatka. Opisana technika badania dostarcza porównywalnych danych fizjologicznych uzyskanych przy tej samej sekwencji zwiększania obciążenia na bieżni, ergometrze rowerowym i stepergometrze. Poniżej metodologia badań została opisana oddzielnie dla każdego z trzech urządzeń.

60,0. Test na bieżni

Sprzęt. Bieżnia i niezbędny sprzęt pomocniczy.

Opis. Podstawowe procedury testowe opisane w 59.0 są dokładnie przestrzegane.

Prędkość bieżni, na której porusza się pacjent, wynosi 80 m/min (4,8 km/h lub 3 mil/h). Przy tej prędkości energia potrzebna do poruszania się w poziomie wynosi około 3 Meta; Każde 2,5% zwiększenie nachylenia dodaje jedną jednostkę początkowego tempa metabolizmu, tj. 1 Met, do wydatku energetycznego. Pod koniec pierwszych 2 min. nachylenie bieżni szybko wzrasta do 5%, pod koniec kolejnych 2 minut - do 7,5%, następnie do 10%, 12,5% itd. Kompletny schemat podano w tabeli. 1.

Podobne dokumenty

    Przeprowadzanie badań kontrolnych z wykorzystaniem ćwiczeń kontrolnych lub testów sprawdzających gotowość do wysiłku fizycznego. Problem standaryzacji testów. Trafność zewnętrzna i wewnętrzna testów. Prowadzenie protokołu badania kontrolnego.

    streszczenie, dodano 11.12.2009

    Charakterystyka zdolności motorycznych oraz metody kształtowania gibkości, wytrzymałości, zwinności, siły i szybkości. Badanie zdolności motorycznych uczniów na lekcjach wychowania fizycznego. Zastosowanie testów motorycznych w ćwiczeniach praktycznych.

    teza, dodana 25.02.2011

    Ocena dynamiki zmian danych antropometrycznych u uczniów systematycznie trenujących lekkoatletykę oraz uczniów nieuczestniczących w sekcjach sportowych. Opracowanie testów określających ogólną sprawność fizyczną; analiza wyników.

    praca magisterska, dodana 07.07.2015

    Główne kierunki stosowania testów, ich klasyfikacja. Testy selekcji w zapasach. Metody oceny osiągnięć sportowych. Testowanie specjalnej wytrzymałości zapaśnika. Związek między wskaźnikami testowymi a umiejętnościami technicznymi zapaśników freestyle.

    praca magisterska, dodana 03.03.2012

    Ocena wytrzymałości specjalnej pływaka za pomocą ćwiczeń kontrolnych. Adaptowalność podstawowych reakcji układów fizjologicznych w środowisku wodnym. Opracowanie zasad oceny wskaźników medycznych i biologicznych stosowanych podczas badania pływaka.

    artykuł, dodano 08.03.2009

    Uznanie zdrowej energii za podstawową podstawę zdrowia. Zapoznanie z cechami ćwiczeń gimnastycznych według systemu qigong. Dobór zestawu ćwiczeń do ćwiczeń domowych. Sporządzanie testów w celu wyciągnięcia wniosków na temat wykonanej pracy.

    praca magisterska, dodana 07.07.2015

    Metrologia sportowa to nauka o wielkościach fizycznych w wychowaniu fizycznym i sporcie. Podstawy pomiaru, teoria testów, oceny i normy. Metody pozyskiwania informacji na temat ilościowej oceny jakości wskaźników; jakość Elementy statystyki matematycznej.

    prezentacja, dodano 12.02.2012

    Istota i znaczenie kontroli w wychowaniu fizycznym oraz jej rodzaje. Sprawdzanie i ocena umiejętności motorycznych nabytych na lekcjach wychowania fizycznego. Badanie poziomu sprawności fizycznej. Monitorowanie stanu funkcjonalnego uczniów.

    praca na kursie, dodano 06.06.2014

    Obliczanie bezwzględnych i względnych błędów pomiarowych. Przeliczanie wyników testów na wyniki przy użyciu skali regresywnej i proporcjonalnej. Ranking wyników testów. Zmiany w rozmieszczeniu grup w porównaniu do poprzednich ocen.

    test, dodano 11.02.2013

    Tryb aktywności ruchowej. Rola czynników determinujących wydolność fizyczną piłkarzy na różnych etapach długotrwałego treningu. Rodzaje pomocy ergogenicznych. Metodologia przeprowadzania testów w celu określenia poziomu wydolności fizycznej.

ROZDZIAŁ 3. STATYSTYCZNE PRZETWARZANIE WYNIKÓW BADAŃ

Statystyczne przetwarzanie wyników testów pozwala z jednej strony obiektywnie określić wyniki osób badanych, z drugiej strony ocenić jakość samego testu, zadań testowych, w szczególności ocenić jego rzetelność. Zagadnieniu niezawodności poświęcono wiele uwagi w klasycznej teorii testów. Teoria ta nie straciła dziś na aktualności. Pomimo pojawienia się bardziej nowoczesnych teorii, teoria klasyczna nadal utrzymuje swoją pozycję.

3.1. PODSTAWOWE ZAPISY KLASYCZNEJ TEORII TESTÓW

3.2. MATRYCA WYNIKÓW BADAŃ

3.3. GRAFICZNE PRZEDSTAWIENIE WYNIKU TESTU

3.4. MIARY TENDENCJI CENTRALNEJ

3.5. NORMALNA DYSTRYBUCJA

3.6. ZMIANA WYNIKÓW TESTÓW PRZEDMIOTÓW

3.7. MACIERZ KORELACJI

3.8. NIEZAWODNOŚĆ TESTU

3.9. WAŻNOŚĆ TESTU

LITERATURA

PODSTAWOWE ZAPISY KLASYCZNEJ TEORII TESTU

Twórcą Klasycznej Teorii testów psychicznych jest słynny brytyjski psycholog, autor analizy czynnikowej, Charles Edward Spearman (1863-1945) 1. Urodził się 10 września 1863 roku i przez ćwierć życia służył w armii brytyjskiej. Z tego powodu stopień doktora uzyskał dopiero w wieku 41 lat 2. Badania do swojej rozprawy doktorskiej Charles Spearman prowadził w Lipskim Laboratorium Psychologii Eksperymentalnej pod kierunkiem Wilhelma Wundta. W tamtym czasie na Charlesa Spearmana duży wpływ miały prace Francisa Galtona dotyczące testowania ludzkiej inteligencji. Uczniami Charlesa Spearmana byli R. Cattell i D. Wechsler. Do jego zwolenników zaliczają się A. Anastasi, J. P. Guilford, P. Vernon, C. Burt, A. Jensen.

Lewis Guttman (1916-1987) wniósł znaczący wkład w rozwój klasycznej teorii testów.

Klasyczna teoria testu została po raz pierwszy kompleksowo i całkowicie przedstawiona w fundamentalnej pracy Harolda Gulliksena (Gulliksen H., 1950) 4 . Od tego czasu teoria została nieco zmodyfikowana, w szczególności udoskonalono aparat matematyczny. Klasyczną teorię testów we współczesnym wydaniu podano w książce Crocker L., Aligna J. (1986) 5. Wśród badaczy krajowych pierwszym, który opisał tę teorię, był V. Avanesov (1989) 6. W pracy Chelyshkovej M.B. (2002) 7 dostarcza informacji na temat statystycznego uzasadnienia jakości testu.

Klasyczna teoria testów opiera się na pięciu podstawowych zasadach.

1. Otrzymany empirycznie wynik pomiaru (X) jest sumą prawdziwego wyniku pomiaru (T) i błędu pomiaru (E) 8:

X = T + E (3.1.1)

Wartości T i E są zwykle nieznane.

2. Prawdziwy wynik pomiaru można wyrazić jako oczekiwanie matematyczne E(X):

3. Korelacja składowych prawdziwych i fałszywych w zbiorze badanych jest równa zeru, czyli ρ TE = 0.

4. Błędne elementy dowolnych dwóch testów nie są ze sobą powiązane:

5. Błędne elementy jednego testu nie korelują z prawdziwymi składnikami żadnego innego testu:

Ponadto podstawę klasycznej teorii testów tworzą dwie definicje - testy równoległe i równoważne.

Testy RÓWNOLEGŁE muszą spełniać wymagania (1-5), prawdziwe składniki jednego testu (T 1) muszą być równe rzeczywistym składnikom drugiego testu (T 2) w każdej próbie osób, które odpowiedziały na oba testy. Zakłada się, że T 1 = T 2 i dodatkowo są równe wariancji s 1 2 = s 2 2.

Testy równoważne muszą spełniać wszystkie wymagania testów równoległych z jednym wyjątkiem: prawdziwe składniki jednego testu nie muszą być równe prawdziwymi składnikami innego testu równoległego, ale muszą różnić się tą samą stałą Z.

Warunek równoważności dwóch testów zapisuje się w następujący sposób:

gdzie c 12 jest stałą między wynikami pierwszego i drugiego testu.

Na podstawie powyższych zapisów skonstruowano teorię wiarygodności testu 9,10.

oznacza to, że wariancja uzyskanych wyników testu jest równa sumie wariancji składników prawdziwych i błędów.

Przepiszmy to wyrażenie w następujący sposób:

(3.1.3)

Prawa strona tej równości reprezentuje rzetelność testu ( R). Zatem rzetelność testu można zapisać jako:

Na podstawie tego wzoru zaproponowano następnie różne wyrażenia służące do znalezienia współczynnika rzetelności testu. Rzetelność testu jest jego najważniejszą cechą. Jeśli wiarygodność nie jest znana, wyników testu nie można interpretować. Rzetelność testu charakteryzuje jego dokładność jako przyrządu pomiarowego. Wysoka niezawodność oznacza wysoką powtarzalność wyników badań w tych samych warunkach.

W klasycznej teorii testu najważniejszym problemem jest określenie prawdziwego wyniku testu osoby badanej (T). Wynik testu empirycznego (X) zależy od wielu warunków – poziomu trudności zadań, poziomu przygotowania zdających, liczby zadań, warunków testowania itp. W grupie silnych, dobrze przygotowanych przedmiotów wyniki testów będą zazwyczaj lepsze. niż w grupie słabo przeszkolonych przedmiotów. W związku z tym otwarte pozostaje pytanie o wielkość miary trudności zadania dla ogólnej populacji badanych. Problem w tym, że prawdziwe dane empiryczne uzyskuje się z całkowicie losowych próbek osób. Z reguły są to grupy studyjne, które reprezentują wielość studentów, którzy dość silnie współdziałają ze sobą w procesie uczenia się i studiują w warunkach często nie powtarzających się dla innych grup.

Znajdziemy z E z równania (3.1.4)

Tutaj wyraźnie pokazano zależność dokładności pomiaru od odchylenia standardowego s X oraz na wiarygodność testu R.

Część pierwsza, teoria testów, zawiera opis modeli statystycznych służących do przetwarzania danych diagnostycznych. Zawiera modele do analizy odpowiedzi w zadaniach testowych oraz modele do obliczania całkowitych wyników testów. Mullenberg (1980, 1990) nazwał to „psychometrią”. Klasyczna teoria testów, współczesna teoria testów (lub model Item Response Analysis – IRT) oraz


próbki pozycji stanowią trzy najważniejsze typy modeli teorii testów. Przedmiotem rozważań psychodiagnostyki są dwa pierwsze modele.

Klasyczna teoria testu. Na podstawie tej teorii opracowano większość testów intelektualnych i osobowości. Centralnym pojęciem tej teorii jest pojęcie „niezawodności”. Rzetelność odnosi się do spójności wyników w powtarzanych ocenach. W podręcznikach pojęcie to jest zwykle przedstawiane bardzo skrótowo, a następnie podany jest szczegółowy opis aparatu statystyki matematycznej. W tym rozdziale wprowadzającym przedstawimy zwięzły opis podstawowego znaczenia omawianego pojęcia. W klasycznej teorii testów niezawodność odnosi się do powtarzalności wyników kilku procedur pomiarowych (głównie pomiarów z wykorzystaniem testów). Pojęcie niezawodności wiąże się z obliczeniem błędu pomiaru. Wyniki uzyskane podczas procesu badawczego można przedstawić jako sumę wyniku rzeczywistego i błędu pomiaru:

Xi = Ti+ Ej

Gdzie Xi jest oceną uzyskanych wyników, Ti jest wynikiem prawdziwym, oraz Ej- błąd pomiaru.

Oceną uzyskanych wyników jest z reguły liczba poprawnych odpowiedzi na zadania testowe. Prawdziwy wynik można uważać za prawdziwą ocenę w sensie platońskim (Gulliksen, 1950). Koncepcja oczekiwanych rezultatów jest szeroko rozpowszechniona, tj. pomysły na wyniki, które można uzyskać w wyniku dużej liczby powtórzeń procedur pomiarowych (Pan & Nowicz, 1968). Jednak przeprowadzenie tej samej procedury oceny przez jedną osobę nie jest możliwe. Należy zatem szukać innych możliwości rozwiązania problemu (Witlman, 1988).

Koncepcja ta przyjmuje pewne założenia dotyczące prawdziwych wyników i błędów pomiaru. Te ostatnie są traktowane jako niezależny czynnik, co oczywiście jest całkowicie rozsądnym założeniem, ponieważ losowe wahania wyników nie dają kowariancji: rEE =0.

Zakłada się, że nie ma korelacji między wynikami rzeczywistymi a błędami pomiaru: reEE =0.


Całkowity błąd wynosi 0, ponieważ Za prawdziwe oszacowanie przyjmuje się średnią arytmetyczną:

Założenia te ostatecznie prowadzą nas do dobrze znanej definicji niezawodności jako stosunku prawdziwego wyniku do całkowitej wariancji lub wyrażenia: 1 minus stosunek, którego licznikiem jest błąd pomiaru, a mianownikiem jest całkowita wariancja:


, LUB

Ze wzoru na określenie niezawodności otrzymujemy wariancję błędu S2 (E) równy całkowitej wariancji liczby przypadków (1 – r XX „); zatem błąd standardowy pomiaru określa się wzorem:

Po teoretycznym uzasadnieniu niezawodności i jej pochodnych należy wyznaczyć wskaźnik niezawodności konkretnego testu. Istnieją praktyczne procedury oceny wiarygodności testów, takie jak stosowanie wymiennych form (testy równoległe), dzielenie elementów na dwie części, ponowne testowanie i pomiar spójności wewnętrznej. W każdym podręczniku znajdują się wskaźniki zgodności wyników badań:

r XX’ =r(x 1 , x 2)

Gdzie r XX ' - współczynnik stabilności, oraz x 1 I x 2 - wyniki dwóch pomiarów.

Koncepcję niezawodności form wymiennych wprowadził i rozwinął Gulliksen (1950). Procedura ta jest dość pracochłonna, ponieważ wiąże się z koniecznością stworzenia równoległej serii zadań

r XX’ =r(x 1 , x 2)

Gdzie r XX ' - współczynnik równoważności oraz x 1 I x 2 - dwa równoległe testy.

Kolejna procedura - podzielenie głównego ciasta na dwie części A i B - jest łatwiejsza w wykonaniu. Wyniki uzyskane z obu części testu są ze sobą skorelowane. Stosując wzór Spearmana-Browna ocenia się rzetelność testu jako całości:

gdzie A i B to dwie równoległe części testu.

Kolejną metodą jest określenie wewnętrznej spójności zadań testowych. Metoda ta opiera się na wyznaczaniu kowariancji poszczególnych zadań. Sg to wariancja losowo wybranego zadania, a Sgh to kowariancja dwóch losowo wybranych zadań. Najczęściej stosowanym współczynnikiem do określenia spójności wewnętrznej jest alfa Cronbacha. Formuła jest również stosowana KR20 i λ-2(lamda-2).

Klasyczna koncepcja niezawodności definiuje błędy pomiarowe powstające zarówno podczas badań, jak i podczas obserwacji. Źródła tych błędów są różne: mogą to być cechy osobiste, cechy warunków testowania i same zadania testowe. Istnieją specjalne metody obliczania błędów. Wiemy, że nasze obserwacje mogą okazać się błędne, nasze narzędzia metodologiczne są niedoskonałe, tak jak niedoskonali są sami ludzie. (Jak nie pamiętać Szekspira: „Niegodny zaufania jesteś ty, który masz na imię człowiek”). Fakt, że w klasycznej teorii testów błędy pomiarowe są wyraźnie widoczne i wyjaśniane, jest ważnym pozytywnym punktem.

Klasyczna teoria testu ma wiele istotnych cech, które można również uznać za jej wady. Niektóre z tych cech są odnotowane w podręcznikach, ale rzadko podkreśla się ich znaczenie (z codziennego punktu widzenia) ani nie zauważa się, że z teoretycznego lub metodologicznego punktu widzenia należy je uważać za wady.

Pierwszy. Klasyczna teoria testów i koncepcja niezawodności skupiają się na obliczaniu całkowitych wyników testów, które są wynikiem zsumowania wyników uzyskanych w poszczególnych zadaniach. Tak, podczas pracy


Drugi. Współczynnik rzetelności polega na ocenie wielkości rozproszenia mierzonych wskaźników. Wynika z tego, że współczynnik rzetelności będzie niższy, jeśli (przy pozostałych wskaźnikach niezmienionych) próba będzie bardziej jednorodna. Nie ma jednego współczynnika wewnętrznej spójności pozycji testowych; współczynnik ten jest zawsze „kontekstowy”. Na przykład Crocker i Algina (1986) proponują specjalną formułę „korekty próbki jednorodnej”, zaprojektowaną dla najwyższych i najniższych wyników uzyskanych przez osoby badane. Ważne jest, aby diagnosta znał charakterystykę zmienności populacji próby, w przeciwnym razie nie będzie mógł zastosować do tego badania określonych w instrukcji współczynników zgodności.

Trzeci. Zjawisko redukcji do średniej arytmetycznej jest logiczną konsekwencją klasycznej koncepcji niezawodności. Jeśli wynik testu ulega wahaniom (tzn. nie jest wystarczająco wiarygodny), możliwe jest, że po powtórzeniu procedury osoby z niskimi wynikami otrzymają wyższe wyniki i odwrotnie, osoby z wysokimi wynikami otrzymają niski wynik. Tego artefaktu procedury pomiarowej nie należy mylić z prawdziwą zmianą lub przejawem procesów rozwojowych. Ale jednocześnie nie jest łatwo je rozróżnić, bo... Nigdy nie można wykluczyć możliwości zmian w trakcie rozwoju. Dla całkowitej pewności konieczne jest porównanie z grupą kontrolną.

Czwartą cechą testów opracowanych zgodnie z zasadami teorii klasycznej jest obecność danych normatywnych. Znajomość norm testowych pozwala badaczowi na odpowiednią interpretację wyników osób zdających. Poza normami wyniki testów są bez znaczenia. Opracowanie standardów testów jest przedsięwzięciem dość kosztownym, gdyż psycholog musi uzyskać wyniki testów z reprezentatywnej próby.

2 Ya ter Laak

Jeżeli mówimy o mankamentach klasycznej koncepcji niezawodności, to warto przytoczyć wypowiedź Siytsmy (1992, s. 123-125). Zauważa, że ​​pierwszym i głównym założeniem klasycznej teorii testów jest to, że wyniki testów są zgodne z zasadą przedziału. Nie ma jednak badań potwierdzających to założenie. W istocie jest to „pomiar według arbitralnie ustalonej reguły”. Ta cecha stawia klasyczną teorię testu w niekorzystnej sytuacji w porównaniu ze skalami pomiaru postawy i, oczywiście, w porównaniu z współczesną teorią testu. Wiele metod analizy danych (analiza wariancji, analiza regresji, analiza korelacji i czynnikowa) opiera się na założeniu istnienia skali przedziałowej. Nie ma jednak solidnych podstaw. Można jedynie przypuszczać, że skala prawdziwych wyników jest skalą wartości cech psychologicznych (na przykład zdolności arytmetycznych, inteligencji, neurotyczności).

Druga uwaga dotyczy faktu, że wyniki testu nie są absolutnymi wskaźnikami tej czy innej cechy psychologicznej badanej osoby; należy je traktować jedynie jako wyniki tego czy innego testu. Dwa testy mogą mieć na celu zbadanie tych samych cech psychologicznych (np. inteligencji, zdolności werbalnych, ekstrawersji), ale nie oznacza to, że te dwa testy są równoważne lub mają te same możliwości. Porównywanie wyników dwóch osób badanych różnymi testami jest nieprawidłowe. To samo dotyczy sytuacji, gdy ten sam zdający zdaje dwa różne testy. Trzeci punkt dotyczy założenia, że ​​błąd standardowy pomiaru jest taki sam dla każdego poziomu mierzonych indywidualnych zdolności. Nie ma jednak empirycznego sprawdzenia tego założenia. Na przykład nie ma gwarancji, że osoba zdająca posiadająca dobre umiejętności matematyczne uzyska wysoki wynik w stosunkowo prostym teście arytmetycznym. W takim przypadku osoba o niskich lub średnich zdolnościach ma większe szanse na otrzymanie wysokiej oceny.

W ramach współczesnej teorii testów lub teorii analizy odpowiedzi pozycje testowe zawierają opis dużego


liczba modeli możliwych odpowiedzi respondentów. Modele te różnią się założeniami, na których opierają się, a także wymaganiami dotyczącymi uzyskiwanych danych. Model Rascha jest często uważany za synonim teorii analizy odpowiedzi na pozycje (1RT). Tak naprawdę jest to tylko jeden z modeli. Przedstawiony w nim wzór na opis krzywej charakterystycznej zadania g jest następujący:

Gdzie G- osobne zadanie testowe; do potęgi- funkcja wykładnicza (zależność nieliniowa); δ („delta”) - poziom trudności testu.

Inne elementy testowe, np. H, uzyskują także własne krzywe charakterystyczne. Warunek spełniony δ godz > δ g (np Oznacza to, że H- trudniejsze zadanie. Dlatego dla dowolnej wartości wskaźnika Θ („theta” – ukryte właściwości umiejętności zdających) prawdopodobieństwo pomyślnego wykonania zadania H mniej. Model ten nazywa się ścisłym, gdyż jest oczywiste, że przy niskim stopniu ekspresji cechy prawdopodobieństwo wykonania zadania jest bliskie zeru. W tym modelu nie ma miejsca na domysły i domysły. W przypadku zadań wielokrotnego wyboru nie ma potrzeby przyjmowania założeń dotyczących prawdopodobieństwa powodzenia. Dodatkowo model ten jest rygorystyczny w tym sensie, że wszystkie pozycje testowe muszą posiadać tę samą zdolność dyskryminacyjną (wysoka dyskryminacyjność znajduje odzwierciedlenie w stromości krzywej; można tu skonstruować skalę Guttmana, według której w każdym punkcie krzywej charakterystycznej prawdopodobieństwo wykonania zadania waha się od O do 1). Z tego powodu nie wszystkie pozycje można uwzględnić w testach opartych na modelu Rascha.

Istnieje kilka wariantów tego modelu (np. Birnbaura, 1968; zob. Lord i Novik). Pozwala na istnienie zadań o różnej dyskryminacji

umiejętność.

Holenderski badacz Mokken (1971) opracował dwa modele analizy odpowiedzi elementów testowych, które są mniej rygorystyczne niż model Rascha, a zatem być może bardziej realistyczne. Jako warunek podstawowy

Via Mokken wysuwa tezę, że krzywa charakterystyczna zadania powinna przebiegać jednostajnie, bez przerw. Wszystkie zadania testowe mają na celu zbadanie tej samej cechy psychologicznej, którą należy zmierzyć V. Dopuszczalna jest jakakolwiek forma tej zależności, dopóki nie zostanie przerwana. Zatem o kształcie krzywej charakterystycznej nie decyduje żadna konkretna funkcja. Ta „swoboda” pozwala na wykorzystanie większej liczby pozycji testowych, a poziom oceny nie jest wyższy niż zwykle.

Metodologia wzorców odpowiedzi na pozycje (IRT) różni się od metodologii większości badań eksperymentalnych i korelacyjnych. Model matematyczny przeznaczony jest do badania cech behawioralnych, poznawczych, emocjonalnych, a także zjawisk rozwojowych. Zjawiska te często ograniczają się do odpowiedzi na pytania, co skłoniło Mellenberga (1990) do nazwania IRT „teorią mini-zachowania”. Wyniki badania można w pewnym stopniu przedstawić w postaci krzywych spójności, szczególnie w przypadkach, gdy brakuje teoretycznego zrozumienia badanych cech. Do tej pory dysponujemy jedynie kilkoma testami inteligencji, uzdolnień i osobowości stworzonymi w oparciu o liczne modele teorii IRT. Przy opracowywaniu testów osiągnięć częściej wykorzystuje się warianty modelu Rascha (Verhelst, 1993), natomiast modele Mokkena bardziej nadają się do zjawisk rozwojowych (patrz także rozdział 6).

Reakcja osoby badanej na elementy testowe jest podstawową jednostką modeli IRT. Rodzaj reakcji zależy od stopnia ekspresji badanej cechy u danej osoby. Cechą taką mogą być na przykład zdolności arytmetyczne czy przestrzenne. W większości przypadków jest to ten lub inny aspekt inteligencji, charakterystyka osiągnięć lub cechy osobowości. Zakłada się, że istnieje nieliniowa zależność pomiędzy pozycją danej osoby w pewnym zakresie badanych cech a prawdopodobieństwem pomyślnego wykonania danego zadania. Nieliniowość tej zależności jest w pewnym sensie intuicyjna. Słynne frazy „Każdy początek jest trudny” (powolne nie-


start liniowy) i „Nie jest łatwo zostać świętym” oznaczają, że dalszy rozwój po osiągnięciu pewnego poziomu jest trudny. Krzywa powoli się zbliża, ale prawie nigdy nie osiąga 100% wskaźnika sukcesu.

Niektóre modele raczej zaprzeczają naszemu intuicyjnemu zrozumieniu. Weźmy ten przykład. Osoba o dobrowolnym wskaźniku intensywności charakterystycznej wynoszącym 1,5 ma 60% prawdopodobieństwa powodzenia w wykonaniu zadania. Kłóci się to z naszym intuicyjnym rozumieniem takiej sytuacji, gdyż albo zadanie można sobie skutecznie poradzić, albo nie można sobie z nim poradzić wcale. Weźmy taki przykład: osoba próbuje 100 razy osiągnąć wysokość 1m 50 cm. Sukces towarzyszy mu 60 razy, tj. ma 60-procentową skuteczność.

Aby ocenić nasilenie cechy, wymagane są co najmniej dwa zadania. Model Rascha polega na określeniu nasilenia cech niezależnie od trudności zadania. To też kłóci się z naszą intuicją: załóżmy, że dana osoba ma 80% szans na skok powyżej 1,30 m. Jeśli tak jest, to według krzywej charakterystyki zadania ma 60% szans na skok powyżej 1,50 m i 40%. skoku powyżej 1,50 m. Prawdopodobieństwo skoku powyżej 1,70 m. Zatem niezależnie od wartości zmiennej niezależnej (wzrost) można oszacować zdolność danej osoby do wysokich skoków.

Istnieje około 50 modeli IRT (Goldstein i Wood, 1989). Istnieje wiele funkcji nieliniowych, które opisują (wyjaśniają) prawdopodobieństwo powodzenia w wykonaniu zadania lub grupy zadań. Wymagania i ograniczenia tych modeli są różne, a różnice te można ujawnić porównując model Rascha i skalę Mokkena. Wymagania tych modeli obejmują:

1) potrzebę określenia badanej cechy i oceny miejsca osoby w obrębie tej cechy;

2) ocena kolejności zadań;

3) sprawdzenie konkretnych modeli. W psychometrii opracowano wiele procedur testowania modelu.

Niektóre podręczniki omawiają teorię IRT jako formę analizy pozycji testowych (patrz na przykład

Croker i Algina, J 986). Można jednak argumentować, że IRT to „mini-teoria dotycząca mini-zachowania”. Zwolennicy teorii IRT zauważają, że jeśli koncepcje (modele) na poziomie średniozaawansowanym są niedoskonałe, to co można powiedzieć o bardziej złożonych konstruktach w psychologii?

Klasyczne i współczesne teorie testów. Ludzie nie mogą powstrzymać się od porównywania rzeczy, które wyglądają prawie tak samo. (Być może codzienny odpowiednik psychometrii polega głównie na porównywaniu ludzi pod kątem istotnych cech i wybieraniu między nimi.) Każda z zaprezentowanych teorii – teoria pomiaru błędów estymacji i model matematyczny odpowiedzi testowych – ma swoich zwolenników (Goldstein i Wood, 1986).

Modelom IRT nie zarzuca się, że są „ocenami opartymi na regułach”, jak klasyczna teoria testów. Model IRT koncentruje się na analizie ocenianych cech. Charakterystyki osobowości i charakterystyki zadań ocenia się za pomocą skal (porządkowych lub przedziałowych). Co więcej, możliwe jest porównanie wyników różnych testów mających na celu badanie podobnych cech. Wreszcie, rzetelność nie jest taka sama dla każdej wartości na skali, a średnie wyniki są na ogół bardziej wiarygodne niż wyniki na początku i na końcu skali. Zatem modele IRT wydają się teoretycznie lepsze. Istnieją także różnice w praktycznym zastosowaniu współczesnej teorii testów i teorii klasycznej (Sijstma, 1992, s. 127-130). Współczesna teoria testów jest bardziej złożona w porównaniu do klasycznej, dlatego rzadziej korzystają z niej osoby niebędące specjalistami. Ponadto IRT ma specyficzne wymagania zadaniowe. Oznacza to, że z badania należy wykluczyć pozycje, które nie spełniają wymagań modelu. Zasada ta ma ponadto zastosowanie do tych zadań, które były częścią szeroko stosowanych testów zbudowanych na zasadach teorii klasycznej. Test staje się krótszy, a przez to spada jego wiarygodność.

IRT zapewnia modele matematyczne do badania zjawisk w świecie rzeczywistym. Modele powinny pomóc nam zrozumieć kluczowe aspekty tych zjawisk. Tutaj jednak leży główne pytanie teoretyczne. Można rozważyć modele


jako podejście do badania złożonej rzeczywistości, w której żyjemy. Ale model i rzeczywistość to nie to samo. Według poglądu pesymistycznego możliwe jest modelowanie jedynie izolowanych (i nie najciekawszych) typów zachowań. Można też spotkać się ze stwierdzeniem, że rzeczywistości w ogóle nie da się modelować, bo podlega ona nie tylko prawom przyczynowo-skutkowym. W najlepszym przypadku możliwe jest modelowanie indywidualnych (idealnych) zjawisk behawioralnych. Istnieje inny, bardziej optymistyczny pogląd na możliwości modelowania. Powyższe stanowisko blokuje możliwość głębokiego zrozumienia natury zjawisk ludzkiego zachowania. Zastosowanie tego czy innego modelu rodzi pewne ogólne, fundamentalne pytania. Naszym zdaniem nie ma wątpliwości, że IRT jest koncepcją przewyższającą teoretycznie i technicznie klasyczną teorię testów.

Praktycznym celem testów, niezależnie od tego, na jakiej podstawie teoretycznej są tworzone, jest ustalenie istotnych kryteriów i ustalenie na ich podstawie cech określonych konstruktów psychologicznych. Czy model IRT ma zalety również pod tym względem? Możliwe, że testy oparte na tym modelu nie przewidują dokładniej niż testy oparte na teorii klasycznej i możliwe, że ich wkład w rozwój konstruktów psychologicznych nie jest większy. Diagnozy preferują kryteria, które są bezpośrednio istotne dla jednostki, instytucji lub społeczności. Model bardziej zaawansowany naukowo „ipso facto”* nie definiuje bardziej odpowiedniego kryterium i jest w pewnym stopniu ograniczony w wyjaśnianiu konstrukcji naukowych. Jest oczywiste, że rozwój testów opartych na teorii klasycznej będzie kontynuowany, ale jednocześnie powstaną nowe modele IRT, obejmujące badanie większej liczby zjawisk psychologicznych.

W klasycznej teorii testów rozróżnia się pojęcia „rzetelności” i „ważności”. Wyniki badań muszą być wiarygodne, tj. wyniki badania początkowego i ponownego badania powinny być spójne. Oprócz,

* tym samym(lakier) - sam w sobie (ok. tłumaczenie).

wyniki powinny być wolne (w miarę możliwości) od błędów estymacji. Trafność jest jednym z wymogów uzyskiwanych wyników. W tym przypadku niezawodność uważa się za warunek konieczny, ale jeszcze niewystarczający ważności testu.

Koncepcja trafności sugeruje, że ustalenia odnoszą się do czegoś ważnego z praktycznego lub teoretycznego punktu widzenia. Wnioski wyciągnięte z wyników testów muszą być prawidłowe. Najczęściej mówi się o dwóch rodzajach trafności: predykcyjnej (kryterium) i konstruktywnej. Istnieją także inne rodzaje ważności (patrz rozdział 3). Dodatkowo trafność można określić w przypadku quasi-eksperymentów (Cook i Campbell, 1976, Cook & Shadish, 1994). Jednak głównym rodzajem trafności jest nadal trafność predykcyjna, rozumiana jako zdolność do przewidzenia na podstawie wyniku testu czegoś istotnego dotyczącego przyszłego zachowania, a także możliwość głębszego zrozumienia określonej właściwości lub cechy psychologicznej.

Przedstawione rodzaje ważności są omówione w każdym podręczniku i towarzyszy im opis metod analizy ważności testów. Analiza czynnikowa jest bardziej odpowiednia do określenia trafności konstruktu, a równania regresji liniowej służą do analizy trafności predykcyjnej. Pewne cechy (wyniki w nauce, skuteczność terapii) można przewidzieć na podstawie jednego lub większej liczby wskaźników uzyskanych podczas pracy z testami intelektualnymi lub osobowości. Techniki przetwarzania danych, takie jak korelacja, regresja, analiza wariancji, analiza częściowych korelacji i wariancji, służą do określenia trafności predykcyjnej testu.

Często opisywana jest także ważność treści. Zakłada się, że wszystkie zadania i zadania testu muszą należeć do określonego obszaru (właściwości psychiczne, zachowanie itp.). Koncepcja ważności treści charakteryzuje zgodność każdego elementu testu z mierzoną dziedziną. Ważność treści jest czasami postrzegana jako część niezawodności lub „możliwości uogólnienia” (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Jednak kiedy


Wybierając zadania do testów osiągnięć z konkretnego obszaru tematycznego, warto zwrócić także uwagę na zasady uwzględniania zadań na teście.

W klasycznej teorii testów rzetelność i trafność są traktowane stosunkowo niezależnie od siebie. Istnieje jednak inne rozumienie związku między tymi pojęciami. Nowoczesna teoria testów opiera się na wykorzystaniu modeli. Parametry są szacowane w ramach pewnego modelu. Jeśli zadanie nie spełnia wymagań modelu, to w ramach tego modelu uważa się je za nieważne. Walidacja konstrukcji jest częścią weryfikacji samego modelu. Walidacja ta odnosi się przede wszystkim do testowania istnienia jednowymiarowej ukrytej cechy będącej przedmiotem zainteresowania o znanej charakterystyce skali. Wyniki skali z pewnością można wykorzystać do określenia odpowiednich miar i można je skorelować z miarami innych konstruktów, aby zebrać informacje o zbieżnej i rozbieżnej ważności konstruktu.

Psychodiagnostyka jest podobna do języka, opisywanego jako jedność czterech komponentów prezentowanych na trzech poziomach. Pierwszy element, teoria testu, jest analogiczny do składni, gramatyki języka. Gramatyka generatywna jest z jednej strony genialnym modelem, a z drugiej systemem przestrzegającym reguł. Za pomocą tych reguł zdania złożone buduje się na podstawie prostych zdań twierdzących. Jednocześnie jednak model ten pomija opis tego, jak zorganizowany jest proces komunikacji (co jest przekazywane i co jest postrzegane) oraz w jakim celu jest realizowany. Zrozumienie tego wymaga dodatkowej wiedzy. To samo można powiedzieć o teorii testu: jest ona konieczna w psychodiagnostyce, ale nie jest w stanie wyjaśnić, czym zajmuje się psychodiagnostyk i jakie są jego cele.

1.3.2. Teorie psychologiczne i konstrukty psychologiczne

Psychodiagnostyka jest zawsze diagnozą czegoś konkretnego: cech osobowych, zachowań, myślenia, emocji. Testy mają na celu ocenę różnic indywidualnych. Istnieje kilka koncepcji

różnice indywidualne, z których każda ma swoje własne charakterystyczne cechy. Jeżeli uzna się, że psychodiagnostyka nie ogranicza się jedynie do oceny różnic indywidualnych, wówczas istotne stają się dla psychodiagnostyki inne teorie. Przykładem jest ocena różnic w procesach rozwoju psychicznego i różnic w środowisku społecznym. Choć ocena różnic indywidualnych nie jest niezbędnym atrybutem psychodiagnostyki, istnieją jednak pewne tradycje badań w tym obszarze. Psychodiagnostyka rozpoczęła się od oceny różnic w inteligencji. Głównym celem testów było „ustalenie dziedzicznego przekazu geniuszu” (Gallon) lub selekcja dzieci do szkolenia (Binet, Simon). Pomiar IQ zyskał teoretyczne zrozumienie i praktyczne rozwinięcie w pracach Spearmana (Wielka Brytania) i Thurstone'a (USA). Raymond B. Cattell zrobił podobnie, aby ocenić cechy osobowości. Psychodiagnostyka nierozerwalnie wiąże się z teoriami i wyobrażeniami dotyczącymi różnic indywidualnych w osiągnięciach (ocena maksymalnych możliwości) i formach zachowania (poziom typowego funkcjonowania). Tradycja ta jest nadal skuteczna i dziś. W podręcznikach psychodiagnostyki znacznie rzadziej ocenia się różnice w środowisku społecznym niż uwzględnia się cechy samych procesów rozwojowych. Nie ma na to żadnego rozsądnego wytłumaczenia. Z jednej strony diagnostyka nie ogranicza się do pewnych teorii i koncepcji. Z drugiej strony potrzebuje teorii, bo to w nich ustala się diagnozowane treści (czyli „co” jest diagnozowane). Na przykład inteligencję można uważać zarówno za cechę ogólną, jak i za podstawę wielu niezależnych od siebie zdolności. Jeśli psychodiagnostyka próbuje „uciec” od tej czy innej teorii, wówczas podstawą procesu psychodiagnostycznego stają się idee zdrowego rozsądku. W badaniach wykorzystuje się różne metody analizy danych, a ogólna logika badań determinuje wybór tego czy innego modelu matematycznego i determinuje strukturę stosowanych pojęć psychologicznych. Takie metody statystyki matematycznej


ki, takie jak analiza wariancji, analiza regresji, analiza czynnikowa i obliczanie korelacji, zakładają istnienie zależności liniowych. Jeśli metody te zostaną użyte nieprawidłowo, „wprowadzają” swoją strukturę do uzyskanych danych i stosowanych konstrukcji.

Idee dotyczące różnic w środowisku społecznym i rozwoju osobowości nie miały prawie żadnego wpływu na psychodiagnostykę. Podręczniki (patrz np. Murphy i Davidshofer, 1988) badają klasyczną teorię testów i omawiają odpowiednie metody przetwarzania statystycznego, opisują dobrze znane testy i omawiają zastosowanie psychodiagnostyki w praktyce: w psychologii zarządzania, w doborze personelu, w ocenianiu cechy psychologiczne człowieka.

Teorie różnic indywidualnych (a także idee dotyczące różnic między środowiskami społecznymi i rozwojem umysłowym) są analogiczne do badania semantyki języka. Jest to badanie istoty, treści i znaczenia. Znaczenia są ustrukturyzowane w określony sposób (podobnie jak konstrukty psychologiczne), na przykład poprzez podobieństwo lub kontrast (analogia, zbieżność, rozbieżność).

1.3.3. Testy psychologiczne i inne narzędzia metodyczne

Trzecim elementem proponowanego schematu są testy, procedury i środki metodologiczne, za pomocą których zbierane są informacje o cechach osobowości. Drene i Sijtsma (1990, s. 31) definiują testy w następujący sposób: „Test psychologiczny uważa się za klasyfikację według pewnego systemu lub za procedurę pomiarową, która pozwala na dokonanie pewnego osądu na temat jednego lub większej liczby empirycznie izolowanych lub teoretycznie oparte na cechach konkretnego aspektu ludzkiego zachowania (w obrębie sytuacji testowej). W tym przypadku bada się reakcję respondentów na określoną liczbę starannie dobranych bodźców, a uzyskane odpowiedzi porównuje się z normami testowymi.”

Diagnostyka wymaga testów i technik zbierania wiarygodnych, dokładnych i ważnych informacji o funkcjach

i charakterystycznych cech osobowości, o ludzkim myśleniu, emocjach i zachowaniu. Oprócz opracowania procedur testowych, komponent ten obejmuje także następujące pytania: jak powstają testy, jak formułuje się i wybiera zadania, jak przebiega proces testowania, jakie są wymagania dotyczące warunków testowania, w jaki sposób uwzględniane są błędy pomiarowe , w jaki sposób obliczane i interpretowane są wyniki testów.

W procesie opracowywania testów rozróżnia się strategie racjonalne i empiryczne. Stosowanie racjonalnej strategii rozpoczyna się od zdefiniowania podstawowych pojęć (np. pojęcia inteligencji, ekstrawersji) i zgodnie z tymi pojęciami formułowane są zadania testowe. Przykładem takiej strategii jest koncepcja analizy aspektów (teoria aspektów) Guttmana (1957, 1968, 1978). W pierwszej kolejności określane są różne aspekty głównych konstruktów, następnie zadania i zadania dobierane są w taki sposób, aby każdy z tych aspektów został uwzględniony. Druga strategia polega na wyborze zadań na podstawie empirii. Na przykład, jeśli badacz próbowałby stworzyć test zainteresowań zawodowych, który odróżniałby lekarzy od inżynierów, byłaby to procedura. Obie grupy respondentów muszą odpowiedzieć na wszystkie pozycje testu, a te pozycje, w przypadku których stwierdzono istotne statystycznie różnice, są uwzględniane w teście końcowym. Jeżeli np. pomiędzy grupami występują różnice w odpowiedziach na stwierdzenie „Lubię łowić ryby”, to stwierdzenie to staje się elementem testu. Głównym założeniem tej książki jest to, że test jest powiązany z teorią pojęciową lub taksonomiczną, która definiuje te cechy.

Cel testu jest zwykle określony w instrukcji jego stosowania. Test musi być ujednolicony, aby mógł ocenić różnice między osobami, a nie między warunkami testowymi. Istnieją jednak odstępstwa od standaryzacji w procedurach zwanych „testowaniem granic” i „testami potencjału uczenia się”. W tych warunkach respondent otrzymuje pomoc w procesie


testowanie, a następnie ocena wpływu takiej procedury na wynik. Punktacja za odpowiedzi na zadania ma charakter obiektywny, tj. przeprowadzane zgodnie ze standardową procedurą. Interpretacja uzyskanych wyników jest również ściśle określona i prowadzona w oparciu o standardy badawcze.

Trzeci składnik psychodiagnostyki – testy, narzędzia, procedury psychologiczne – zawiera pewne zadania, które są najmniejszymi jednostkami psychodiagnostyki i w tym sensie zadania te są podobne do fonemów języka. Liczba możliwych kombinacji fonemów jest ograniczona. Tylko określone struktury fonemiczne mogą tworzyć słowa i zdania, które zapewniają przekazanie informacji słuchaczowi. Również I zadania testowe: tylko w określonej kombinacji ze sobą mogą stać się skutecznym środkiem oceny odpowiedniego konstruktu.

Opis prezentacji według poszczególnych slajdów:

1 slajd

Opis slajdu:

2 slajd

Opis slajdu:

Cechy fizyczne nazywane są zwykle wrodzonymi (dziedziczonymi genetycznie) cechami morfofunkcjonalnymi, dzięki którym możliwa jest fizyczna (materialnie wyrażająca się) aktywność człowieka, która w pełni objawia się w celowej aktywności ruchowej. Główne cechy fizyczne obejmują siłę, szybkość, wytrzymałość, elastyczność i zwinność.

3 slajd

Opis slajdu:

Zdolności motoryczne to indywidualne cechy, które określają poziom zdolności motorycznych danej osoby (V.I. Lyakh, 1996). Podstawą zdolności motorycznych człowieka są cechy fizyczne, a formą manifestacji są zdolności i umiejętności motoryczne. Zdolności motoryczne obejmują siłę, szybkość, siłę szybkościową, zdolności koordynacji ruchowej, wytrzymałość ogólną i specjalistyczną

4 slajd

Opis slajdu:

Schemat systematyzacji zdolności fizycznych (motorycznych) Zdolności fizycznych (motorycznych) Warunkowe (energia) Siła Kombinacje zdolności kondycyjnych Wytrzymałość Szybkość Elastyczność Koordynacja (informacja) CS związane z poszczególnymi grupami działań motorycznych, specjalne CS Specyficzne CS Kombinacje zdolności koordynacyjnych Kombinacje zdolności warunkowania i koordynacji

5 slajdów

Opis slajdu:

DOKŁADNE INFORMACJE O POZIOMIE ROZWOJU ZDOLNOŚCI MOTOROWYCH /wysoki, średni, niski/ MOŻNA UZYSKAĆ ​​KORZYSTAJĄC Z TESTÓW /lub ćwiczeń kontrolnych/.

6 slajdów

Opis slajdu:

Za pomocą testów kontrolnych (testów) można zidentyfikować bezwzględne (jawne) i względne (ukryte, ukryte) wskaźniki tych zdolności. Wskaźniki bezwzględne charakteryzują poziom rozwoju niektórych zdolności motorycznych, nie biorąc pod uwagę ich wzajemnego wpływu. Wskaźniki względne pozwalają ocenić przejaw zdolności motorycznych, biorąc pod uwagę ten wpływ.

7 slajdów

Opis slajdu:

Wyżej wymienione zdolności fizyczne można przedstawić jako istniejące potencjalnie, to znaczy przed rozpoczęciem jakiejkolwiek aktywności lub czynności ruchowych (można je nazwać zdolnościami potencjalnymi) oraz jako faktycznie manifestujące się na początku (m.in. podczas wykonywania prób motorycznych) oraz w proces wykonywania tych czynności (aktualne możliwości fizyczne).

8 slajdów

Opis slajdu:

Z pewną dozą konwencji możemy mówić o zdolnościach fizycznych ELEMENTARNYCH i ZŁOŻONYCH

Slajd 9

Opis slajdu:

WYNIKI BADAŃ POZWALAJĄ WYRÓŻNIĆ NASTĘPUJĄCE ZDOLNOŚCI FIZYCZNE SPECJALNE SPECJALNE OGÓLNE KS

10 slajdów

Opis slajdu:

Specjalne zdolności fizyczne odnoszą się do jednorodnych grup integralnych czynności lub czynności motorycznych: bieganie, ćwiczenia akrobatyczne i gimnastyczne na przyrządach, czynności motoryczne rzucające, gry sportowe (koszykówka, siatkówka).

11 slajdów

Opis slajdu:

O specyficznych przejawach zdolności fizycznych możemy mówić jako o składnikach tworzących ich wewnętrzną strukturę.

12 slajdów

Opis slajdu:

Zatem głównymi składnikami zdolności koordynacyjnych człowieka są: umiejętność nawigacji, utrzymywania równowagi, reagowania, różnicowania parametrów ruchu; zdolność do rytmu, zmiana układu czynności motorycznych, stabilność przedsionkowa, dobrowolne rozluźnienie mięśni. Te zdolności są specyficzne.

Slajd 13

Opis slajdu:

Za główne składniki struktury zdolności szybkościowych uważa się szybkość reakcji, prędkość pojedynczego ruchu, częstotliwość ruchów oraz prędkość przejawiającą się w integralnych działaniach motorycznych.

14 slajdów

Opis slajdu:

Przejawami zdolności siłowych są: siła statyczna (izometryczna), siła dynamiczna (izotoniczna) - siła wybuchowa, siła amortyzująca.

15 slajdów

Opis slajdu:

Struktura wytrzymałości wyróżnia się dużą złożonością: aerobowa, która do jej przejawienia wymaga tlenowych źródeł rozkładu energii; beztlenowe (glikolityczne, kreatynowe źródła energii – bez udziału tlenu); wytrzymałość różnych grup mięśni w pozycjach statycznych - wytrzymałość statyczna; wytrzymałość w ćwiczeniach dynamicznych wykonywanych z prędkością 20-90% maksymalnej.

16 slajdów

Opis slajdu:

Mniej złożone są przejawy (formy) elastyczności, gdzie wyróżnia się elastyczność aktywną i pasywną.

Slajd 17

Opis slajdu:

Przez ogólne zdolności fizyczne należy rozumieć potencjalne i zrealizowane możliwości człowieka, które decydują o jego gotowości do skutecznego wykonywania czynności motorycznych o różnym pochodzeniu i znaczeniu. Specjalne zdolności fizyczne to zdolności człowieka, które decydują o jego gotowości do skutecznego wykonywania czynności motorycznych o podobnym pochodzeniu i znaczeniu. Testy dostarczają zatem informacji przede wszystkim o stopniu ukształtowania się specjalnych i specyficznych zdolności fizycznych (szybkość, koordynacja, siła, wytrzymałość, gibkość).

18 slajdów

Opis slajdu:

Specjalne zdolności fizyczne to zdolności człowieka, które decydują o jego gotowości do skutecznego wykonywania czynności motorycznych o podobnym pochodzeniu i znaczeniu. Testy dostarczają zatem informacji przede wszystkim o stopniu ukształtowania się specjalnych i specyficznych zdolności fizycznych (szybkość, koordynacja, siła, wytrzymałość, gibkość).

Slajd 19

Opis slajdu:

Celem testów jest określenie poziomów rozwoju zdolności kondycyjnych i koordynacyjnych, ocena jakości gotowości technicznej i taktycznej. Na podstawie wyników testu można: porównać poziom przygotowania zarówno poszczególnych uczniów, jak i całych grup zamieszkujących różne regiony i kraje; przeprowadzać selekcję sportów do uprawiania tego lub innego sportu, do udziału w zawodach; sprawuje w dużej mierze obiektywną kontrolę nad edukacją (treningiem) uczniów i młodych sportowców; określić zalety i wady zastosowanych środków, metod nauczania i form organizacji zajęć; wreszcie uzasadnienie norm (wiekowych, indywidualnych) sprawności fizycznej dzieci i młodzieży.

20 slajdów

Opis slajdu:

Oprócz powyższych zadań, w praktyce różnych krajów, zadania testowe sprowadzają się do: samodzielnego uczenia uczniów określania poziomu swojej sprawności fizycznej i planowania dla siebie niezbędnych zestawów ćwiczeń fizycznych; zachęcanie uczniów do dalszej poprawy swojej kondycji fizycznej (sylwety); znać nie tyle początkowy poziom rozwoju zdolności motorycznych, ale jego zmianę w pewnym czasie; zachęcaj uczniów, którzy osiągnęli wysokie wyniki, ale nie tyle na wysoki poziom, ile na planowany wzrost wyników osobistych.

21 slajdów

Opis slajdu:

Test to pomiar lub test przeprowadzany w celu określenia zdolności lub stanu danej osoby.

22 slajd

Opis slajdu:

Jako badania można stosować wyłącznie te badania (próbki), które spełniają specjalne wymagania: należy określić cel stosowania dowolnego testu (lub testów); Należy opracować znormalizowaną metodologię pomiarów testowych i procedurę testowania; konieczne jest określenie wiarygodności i zawartości informacyjnej testów; wyniki badań mogą być prezentowane w odpowiednim systemie oceny

Slajd 23

Opis slajdu:

Test. Testowanie. Wynik testowania System stosowania testów zgodnie z zadaniem, organizacją warunków, realizacją testów przez podmioty, oceną i analizą wyników nazywa się testowaniem. Wartość liczbowa uzyskana podczas pomiarów jest wynikiem badania (testu).

24 slajdów

Opis slajdu:

Testy stosowane w wychowaniu fizycznym opierają się na czynnościach motorycznych (ćwiczenia fizyczne, zadania motoryczne). Takie testy nazywane są testami ruchowymi lub motorycznymi.

25 slajdów

Opis slajdu:

Znana jest klasyfikacja testów ze względu na ich strukturę i zgodnie z ich podstawowymi wskazaniami rozróżnia się testy pojedyncze i złożone. Pojedynczy test służy do pomiaru i oceny jednej cechy (zdolności koordynacji lub warunkowania).

26 slajdów

Opis slajdu:

Slajd 27

Opis slajdu:

Za pomocą złożonego testu ocenia się kilka oznak lub elementów o różnych lub takich samych zdolnościach. na przykład podskoczenie z miejsca (z machnięciem ramion, bez machania rękami, na określoną wysokość).

28 slajdów

Opis slajdu:

Slajd 29

Opis slajdu:

TESTY mogą mieć charakter testów kondycyjnych mających na celu ocenę zdolności siłowych w celu oceny wytrzymałości; ocenić zdolności szybkościowe; do oceny gibkości, testy koordynacyjne oceniające zdolności koordynacyjne poszczególnych niezależnych grup czynności ruchowych mierzące specjalne zdolności koordynacyjne; ocena specyficznych zdolności koordynacyjnych – zdolność utrzymywania równowagi, orientacja przestrzenna, reakcja, różnicowanie parametrów ruchu, rytm, przegrupowanie czynności motorycznych, koordynacja (komunikacja), stabilność przedsionkowa, dobrowolne rozluźnienie mięśni).

30 slajdów

Opis slajdu:

Każda klasyfikacja jest swego rodzaju wytycznymi dotyczącymi wyboru (lub tworzenia) rodzaju testów, które są bardziej spójne z zadaniami testowymi.

31 slajdów

Opis slajdu:

KRYTERIA JAKOŚCI BADAŃ SAMOCHODOWYCH Koncepcja „badania motorycznego” spełnia swoje zadanie wówczas, gdy badanie spełnia odpowiednie kryteria podstawowe: rzetelność, stabilność, równoważność, obiektywność, informatywność (ważność) oraz kryteria dodatkowe: standaryzację, porównywalność i ekonomiczność. Testy spełniające wymagania rzetelności i zawartości informacyjnej nazywane są dobrymi lub autentycznymi (rzetelnymi).

32 slajd

Opis slajdu:

Rzetelność testu oznacza stopień dokładności, z jaką ocenia on konkretną zdolność motoryczną, niezależnie od wymagań osoby oceniającej. Rzetelność to stopień, w jakim wyniki są spójne, gdy te same osoby są testowane wielokrotnie w tych samych warunkach; Jest to stabilność lub stabilność wyniku testu danej osoby, gdy ćwiczenie kontrolne jest powtarzane. Innymi słowy, dziecko w grupie przedmiotów, na podstawie wyników powtarzanych testów (na przykład wydajność skoków, czas biegu, odległość rzutu), konsekwentnie utrzymuje swoje miejsce w rankingu. Rzetelność testu określa się za pomocą analizy korelacyjno-statystycznej poprzez obliczenie współczynnika rzetelności. W tym przypadku stosuje się różne metody oceny wiarygodności testu.

Slajd 33

Opis slajdu:

Stabilność testu opiera się na relacji pomiędzy pierwszą a drugą próbą, powtórzoną po pewnym czasie w tych samych warunkach przez tego samego eksperymentatora. Metodę powtarzanego testowania w celu ustalenia wiarygodności nazywa się ponownym testem. Stabilność testu zależy od rodzaju testu, wieku i płci osób badanych oraz odstępu czasu pomiędzy testem a ponownym testem. Na przykład wyniki w testach warunkowania lub cech morfologicznych w krótkich odstępach czasu są bardziej stabilne niż wyniki w testach koordynacyjnych; u starszych dzieci wyniki są bardziej stabilne niż u młodszych. Ponowne badanie przeprowadza się zwykle nie później niż tydzień później. Przy dłuższych przerwach (np. po miesiącu) stabilność nawet takich prób jak bieg na 1000 m czy skok w dal z miejsca staje się zauważalnie niższa.

Slajd 34

Opis slajdu:

Równoważność testu Równoważność testu to korelacja wyniku testu z wynikami innych testów tego samego typu. Na przykład, gdy trzeba wybrać, który test bardziej adekwatnie odzwierciedla możliwości szybkościowe: bieg na 30, 50, 60 czy 100 m, nastawienie do testów równoważnych (jednorodnych) zależy od wielu powodów. Jeżeli zachodzi potrzeba zwiększenia wiarygodności ocen lub wniosków z badań, wskazane jest zastosowanie dwóch lub większej liczby testów równoważnych. A jeśli zadaniem jest stworzenie baterii zawierającej minimum testów, to należy zastosować tylko jeden z równoważnych testów. Jak zauważono, taka bateria jest niejednorodna, ponieważ zawarte w niej testy mierzą różne zdolności motoryczne. Przykładem heterogenicznego zestawu testów jest bieg na 30 m, podciąganie, skłon w przód i bieg na 1000 m.

35 slajdów

Opis slajdu:

Rzetelność testów określa się także poprzez porównanie średnich wyników prób parzystych i nieparzystych objętych testem. Na przykład, średnią celność strzałów na bramkę z 1, 3, 5, 7 i 9 prób porównuje się ze średnią celnością strzałów z 2, 4, 6, 8 i 10 prób. Ta metoda oceny niezawodności nazywana jest metodą podwajania lub dzielenia. Stosuje się go przede wszystkim przy ocenie zdolności koordynacyjnych oraz w przypadku, gdy liczba prób składających się na wynik testu wynosi co najmniej sześć.

36 slajdów

Opis slajdu:

W ramach obiektywności (spójności) testu Przez obiektywność (spójność) testu rozumie się stopień zgodności wyników uzyskanych na tych samych przedmiotach przez różnych eksperymentatorów (nauczycieli, sędziów, ekspertów). Aby zwiększyć obiektywność badań, należy przestrzegać standardowych warunków badania: czasu badania, miejsca, warunków pogodowych; ujednolicone wsparcie materiałowe i sprzętowe; czynniki psychofizjologiczne (objętość i intensywność obciążenia, motywacja); prezentacja informacji (dokładne ustne przedstawienie zadania testowego, wyjaśnienie i demonstracja). Jest to tak zwana obiektywność testu. Mówią także o obiektywności interpretacyjnej, która dotyczy stopnia niezależności w interpretacji wyników testów przez różnych eksperymentatorów.

Slajd 37

Opis slajdu:

Generalnie, jak zauważają eksperci, wiarygodność testów można zwiększyć na różne sposoby: bardziej rygorystyczna standaryzacja testów, zwiększenie liczby prób, lepsza motywacja osób badanych, zwiększenie liczby oceniających (sędziów, ekspertów), zwiększenie spójności swoich opinii i zwiększenie liczby równoważnych testów. Nie ma ustalonych wartości wskaźników niezawodności testów. W większości przypadków stosuje się następujące zalecenia: 0,95 - 0,99 - doskonała niezawodność; 0,90 -- 0,94 -- dobrze; 0,80 -- 0,89 -- akceptowalny; 0,70 - 0,79 - źle; 0,60 - 0,69 - wątpliwe dla ocen indywidualnych, test nadaje się jedynie do charakteryzacji grupy osób.

Slajd 38

Opis slajdu:

Ważność testu to stopień dokładności, z jaką mierzy on zdolność motoryczną lub oceniane umiejętności. W literaturze zagranicznej (i krajowej) zamiast słowa „informatywność” używa się terminu „validity” (od angielskiego valid – valid, reality, legality). Tak naprawdę, mówiąc o treści informacyjnej, badacz odpowiada na dwa pytania: co mierzy ten konkretny test (bateria testów) i jaki jest stopień dokładności pomiaru. Wyróżnia się kilka rodzajów trafności: logiczną (merytoryczną), empiryczną (opartą na danych eksperymentalnych) i predykcyjną.

Slajd 39

Opis slajdu:

Jak zauważono, ważnymi dodatkowymi kryteriami testowymi są standaryzacja, porównywalność i wydajność. Istota normalizacji polega na tym, że na podstawie wyników badań można tworzyć standardy, które mają szczególne znaczenie dla praktyki. Porównywalność testów to zdolność do porównywania wyników uzyskanych z jednego lub większej liczby form równoległych (jednorodnych) testów. W praktyce stosowanie porównywalnych testów motorycznych zmniejsza prawdopodobieństwo, że w wyniku regularnego stosowania tego samego testu oceniany będzie nie tylko stopień umiejętności, ale i poziom umiejętności. Jednocześnie porównywalne wyniki badań zwiększają wiarygodność wniosków. Istotą oszczędności jako kryterium jakości testu jest to, że przeprowadzenie testu nie wymaga długiego czasu, dużych kosztów materiałowych i udziału wielu asystentów.

40 slajdów

Opis slajdu:

ORGANIZACJA BADANIA GOTOWOŚCI DZIECI W WIEKU SZKOLNYM Drugim istotnym problemem badania zdolności motorycznych (przypomnijmy, że pierwszym jest dobór testów informacyjnych) jest organizacja ich stosowania. Nauczyciel wychowania fizycznego musi ustalić: w jakim horyzoncie czasowym jest to lepsze jak organizować sprawdziany, jak je przeprowadzać na lekcji i jak często należy je przeprowadzać. Terminy sprawdzianów są zgodne z programem szkoły, który przewiduje obowiązkowe sprawdzanie sprawności fizycznej uczniów dwa razy dziennie.

41 slajdów

Opis slajdu:

Znajomość rocznych zmian w rozwoju zdolności motorycznych dzieci pozwala nauczycielowi na dokonanie odpowiednich dostosowań w procesie wychowania fizycznego na kolejny rok szkolny. Nauczyciel musi i może jednak częściej przeprowadzać sprawdziany oraz przeprowadzać tzw. kontrolę operacyjną. Wskazane jest wykonanie tego w celu określenia np. zmian w poziomie szybkości, zdolności siłowych i wytrzymałościowych pod wpływem zajęć lekkoatletycznych w pierwszym kwartale. W tym celu nauczyciel może wykorzystać testy do oceny zdolności koordynacyjnych dzieci na początku i na końcu opanowania materiału programowego, np. podczas zabaw sportowych, w celu określenia zmian we wskaźnikach rozwoju tych umiejętności.

42 slajd

Opis slajdu:

Należy wziąć pod uwagę, że różnorodność rozwiązywanych problemów pedagogicznych nie pozwala na zapewnienie nauczycielowi jednolitej metodyki testowania, tych samych zasad przeprowadzania testów i oceniania wyników testów. Wymaga to od eksperymentatorów (nauczycieli) wykazania się niezależnością w rozwiązywaniu problemów teoretycznych, metodologicznych i organizacyjnych związanych z testowaniem. Testowanie na lekcji musi być powiązane z jej treścią. Innymi słowy, zastosowany test lub testy, pod warunkiem spełnienia odpowiednich wymagań (jako metoda badawcza), powinny zostać w sposób organiczny włączone do planowanych ćwiczeń fizycznych. Jeśli na przykład dzieci muszą określić poziom rozwoju zdolności szybkościowych lub wytrzymałości, wówczas niezbędne testy należy zaplanować w tej części lekcji, w której zostaną rozwiązane zadania rozwijania odpowiednich zdolności fizycznych.

43 slajd

Opis slajdu:

Częstotliwość badań w dużej mierze zależy od tempa rozwoju określonych zdolności fizycznych, wieku, płci i indywidualnych cech ich rozwoju. Przykładowo, aby osiągnąć znaczny wzrost szybkości, wytrzymałości czy siły, potrzeba kilku miesięcy regularnych ćwiczeń (treningów). Jednocześnie, aby uzyskać znaczny wzrost gibkości czy indywidualnych zdolności koordynacyjnych wystarczy zaledwie 4-12 treningów. Jeśli zaczniesz od zera, możesz osiągnąć poprawę jakości fizycznej w krótszym czasie. A żeby poprawić tę samą jakość, gdy dziecko ma wysoki poziom, potrzeba więcej czasu. W związku z tym nauczyciel musi głębiej przestudiować cechy rozwoju i poprawy różnych zdolności motorycznych u dzieci w różnym wieku i płci.

44 slajd

Opis slajdu:

Oceniając ogólną sprawność fizyczną dzieci, można skorzystać z szerokiej gamy baterii testowych, których wybór zależy od konkretnych celów badania i dostępności niezbędnych warunków. Ponieważ jednak uzyskane wyniki badań można ocenić jedynie poprzez porównanie, wskazane jest wybranie testów, które są szeroko reprezentowane w teorii i praktyce wychowania fizycznego dzieci. Polegaj na przykład na tych zalecanych w programie FC. Aby porównać ogólny poziom sprawności fizycznej ucznia lub grupy uczniów za pomocą zestawu testów, uciekają się do przeliczania wyników testów na punkty lub punkty. Zmiana ilości punktów podczas powtarzanych testów umożliwia ocenę postępów zarówno pojedynczego dziecka, jak i grupy dzieci.

Slajd 49

Opis slajdu:

Ważnym aspektem testowania jest problem doboru testu oceniającego konkretną sprawność fizyczną i ogólną sprawność fizyczną.

50 slajdów

Opis slajdu:

Praktyczne zalecenia i porady. WAŻNE: Określ (wybierz) baterię (lub zestaw) niezbędnych testów wraz ze szczegółowym opisem wszystkich szczegółów ich realizacji; Ustal daty testów (lepiej - 2-3 tygodnie września - 1. test, 2-3 tygodnie maja - 2. test); Zgodnie z zaleceniem należy dokładnie określić wiek dzieci w dniu badania oraz ich płeć; Opracować ujednolicone protokoły rejestracji danych (ewentualnie w oparciu o wykorzystanie technologii ICT); Określ krąg asystentów i przeprowadź samą procedurę testowania; Natychmiast wykonaj przetwarzanie matematyczne danych testowych - obliczenie podstawowych parametrów statystycznych (średnia arytmetyczna, błąd średniej arytmetycznej, odchylenie standardowe, współczynnik zmienności i ocena wiarygodności różnic między średnimi arytmetycznymi, na przykład równoległe klasy tego samego i różnych szkoły dla dzieci w określonym wieku i określonej płci); Jednym z istotnych etapów pracy może być przełożenie wyników testów na punkty lub noty. Regularne testowanie (2 razy w roku, przez kilka lat) pozwoli nauczycielowi zorientować się w postępie wyników.

51 slajdów

Opis slajdu:

Moskwa „Oświecenie” 2007 Książka zawiera najczęstsze testy motoryczne oceniające zdolności kondycyjne i koordynacyjne uczniów. Podręcznik przewiduje indywidualne podejście nauczyciela wychowania fizycznego do każdego konkretnego ucznia, biorąc pod uwagę jego wiek i budowę ciała.