Основи на теоријата на тестови. Карактеристики на контролното тестирање во физичкото образование

Мерење или тест спроведено за да се утврди состојбата или способноста на спортистот се нарекува тест. Сите мерења не можат да се користат како тестови, туку само оние кои ги исполнуваат посебните барања: стандардизација, присуство на систем за оценување, доверливост, информациска содржина, објективност. Се нарекуваат тестови кои ги исполнуваат барањата за доверливост, информациска содржина и објективност солидна.

Процесот на тестирање се нарекува тестирање, а добиените нумерички вредности се резултати од тестот.

Се нарекуваат тестови засновани на моторни задачи моторили мотор. Во зависност од задачата со која се соочува субјектот, се разликуваат три групи моторни тестови.

Видови моторни тестови

Име на тестот	Задача за спортистот	Резултати од тестот
Контролна вежба		Моторни достигнувања	Време на трчање 1500м
Стандардни функционални тестови	Исто за сите, дозирано: 1) според обемот на извршената работа; 2) според големината на физиолошките промени	Физиолошки или биохемиски индикатори за време на стандардна работа Моторни индикатори при стандардна количина на физиолошки промени	Регистрација на отчукувањата на срцето при стандардна работа 1000 kgm/min Брзина на трчање со пулс 160 отчукувања/мин
Максимални функционални тестови	Прикажи максимален резултат	Физиолошки или биохемиски индикатори	Одредување на максимален долг на кислород или максимална потрошувачка на кислород

Понекогаш се користат не еден, туку неколку тестови кои имаат заедничка конечна цел. Оваа група на тестови се нарекува батерија на тестови.

Познато е дека дури и со најстрога стандардизација и прецизна опрема, резултатите од тестот секогаш се разликуваат малку. Затоа, еден од важните услови за избор на добри тестови е нивната сигурност.

Сигурност на тестоте степенот на усогласеност помеѓу резултатите кога истите луѓе постојано се тестираат под исти услови. Постојат четири главни причини кои предизвикуваат варијации во резултатите од тестот меѓу поединецот или внатре во групата:

промена на состојбата на субјектите (замор, промена на мотивацијата и сл.); неконтролирани промени во надворешните услови и опрема;

промена на состојбата на лицето кое го спроведува или оценува тестот (благосостојба, промена на експериментатор итн.);

несовршеност на тестот (на пример, очигледно несовршени и несигурни тестови - слободни фрлања во кошаркарски кош пред првото промашување итн.).

Критериумот за доверливост за тестот може да биде фактор на доверливост,пресметано како сооднос на вистинската дисперзија со дисперзијата забележана во експериментот: r = точно s 2 / забележано s 2, каде што вистинската вредност се подразбира како дисперзија добиена од бесконечно голем број набљудувања под исти услови; забележаната варијанса е изведена од експериментални студии. Со други зборови, коефициентот на веродостојност е едноставно пропорција на вистинската варијација во варијацијата што е забележана во експериментот.

Во прилог на овој коефициент, тие исто така користат индекс на доверливост, што се смета како теоретски коефициент на корелација или врска помеѓу евидентираните и вистинските вредности на истиот тест. Овој метод е најчест како критериум за оценување на квалитетот (сигурноста) на тестот.

Една од карактеристиките на веродостојноста на тестот е нејзината еквивалентност, што го одразува степенот на усогласеност помеѓу резултатите од тестирањето на истиот квалитет (на пример, физички) со различни тестови. Односот кон еквивалентноста на тестот зависи од конкретната задача. Од една страна, ако два или повеќе тестови се еквивалентни, нивната комбинирана употреба ја зголемува веродостојноста на проценките; од друга страна, се чини дека е можно да се користи само еден еквивалентен тест, што ќе го поедностави тестирањето.

Ако сите тестови вклучени во батеријата на тестови се многу еквивалентни, тие се нарекуваат хомогена(на пример, за да се оцени квалитетот на способноста за скокање, мора да се претпостави дека скоковите во далечина, височините и тројните скокови ќе бидат хомогени). Напротив, ако во комплексот нема еквивалентни тестови (како за проценка на општата физичка подготвеност), тогаш сите тестови вклучени во него мерат различни својства, т.е. во суштина комплексот е хетерогени.

Веродостојноста на тестовите може да се зголеми до одреден степен со:

построга стандардизација на тестирањето;

зголемување на бројот на обиди;

зголемување на бројот на оценувачи и зголемување на доследноста на нивните мислења;

зголемување на бројот на еквивалентни тестови;

подобра мотивација на предметите.

Тест на објективностпостои посебен случај на доверливост, т.е. независност на резултатите од тестот од лицето кое го спроведува тестот.

Информативна содржина на тестот– ова е степенот на точност со кој се мери имотот (квалитетот на спортистот) што се користи за оценување. Во различни случаи, истите тестови може да имаат различна информациска содржина. Прашањето за информативноста на тестот се дели на две конкретни прашања:

Што менува овој тест? Како точно се мери?

На пример, дали е можно да се користи индикатор како што е MPC за да се оцени подготвеноста на тркачите на долги патеки, и ако е така, со кој степен на точност? Дали овој тест може да се користи во контролниот процес?

Ако тестот се користи за да се утврди состојбата на спортистот за време на испитувањето, тогаш тие зборуваат за дијагностичкиинформативна содржина на тестот. Ако, врз основа на резултатите од тестот, сакаат да извлечат заклучок за можните идни перформанси на спортистот, тие зборуваат прогностичкиинформативна содржина. Тестот може да биде дијагностички информативен, но не и прогностички, и обратно.

Степенот на информациската содржина може да се карактеризира квантитативно - врз основа на експериментални податоци (т.н емпирискиинформациска содржина) и квалитативно - врз основа на смислена анализа на ситуацијата ( логичноинформативна содржина). Иако во практичната работа, логичката или смислената анализа секогаш треба да ѝ претходи на математичката анализа. Показател за информативноста на тестот е коефициентот на корелација пресметан за зависноста на критериумот од резултатот во тестот, и обратно (критериумот се зема како индикатор кој очигледно ја одразува особината што ќе се мери користејќи тестот).

Во случаи кога информациската содржина на кој било тест е недоволна, се користи батерија од тестови. Меѓутоа, второто, дури и со високи критериуми за одделна информациска содржина (судејќи според коефициентите на корелација), не ни дозволува да добиеме единствен број. Тука може да помогне покомплексен метод на математичка статистика - факторска анализа.Што ви овозможува да одредите колку и кои тестови работат заедно на посебен фактор и кој е степенот на нивниот придонес за секој фактор. Тогаш е лесно да се изберат тестови (или нивни комбинации) кои најпрецизно ги проценуваат поединечните фактори.

1 Како се нарекува тест?
2 Што е тестирање?	Квантитификација на квалитет или состојба на спортист Мерење или тест спроведено за да се одреди состојбата или способноста на спортист Процес на тестирање што квантитативно го проценува квалитетот или состојбата на спортистот Не е потребна дефиниција
3 Како се нарекува резултатот од тестот?	Квантитификација на квалитет или состојба на спортист Мерење или тест спроведено за да се одреди состојбата или способноста на спортист Процес на тестирање што квантитативно го проценува квалитетот или состојбата на спортистот Не е потребна дефиниција
4 Каков тип на тестови е ова? 100 метри трчање?
5 Каков тип на тестови е ова? динамометрија на рацете?	Контролна вежба Функционален тестМаксимален функционален тест
6 На кој тип на тестови припаѓа примерокот? IPC?	Контролна вежба Функционален тестМаксимален функционален тест
7 Каков тип на тестови е ова? триминутно трчање со метроном?	Контролна вежба Функционален тестМаксимален функционален тест
8 Каков тип на тестови е ова? максимален број на повлекувања на шипката?	Контролна вежба Функционален тестМаксимален функционален тест
9 Во кои случаи тестот се смета за информативен?
10 Кога тестот се смета за сигурен?	Способноста на тестот да се репродуцира кога повторно се тестира Способноста на тестот да го мери квалитетот на интересот на спортистот Независноста на резултатите од тестот од лицето кое го спроведува тестот
11 Во кој случај тестот се смета за објективен?	Способноста на тестот да се репродуцира кога повторно се тестира Способноста на тестот да го мери квалитетот на интересот на спортистот Независноста на резултатите од тестот од лицето кое го спроведува тестот
12 Кој критериум е неопходен при евалуација на тест за информациска содржина?
13 Кој критериум е потребен при евалуација на тест за веродостојност?	Студентски Т тест Фишер F тест Коефициент на корелација Коефициент на определување Дисперзија
14 Кој критериум е потребен при оценување на тест за објективност?	Студентски Т тест Фишер F тест Коефициент на корелација Коефициент на определување Дисперзија
15 Како се нарекува информациската содржина на тестот ако се користи за проценка на степенот на подготвеност на спортистот?
16 Од која информативна содржина на контролните вежби се води тренерот при изборот на деца за неговиот спортски дел?	Логичка предвидлива емпириска дијагностика
17 Дали е потребна корелација анализа за да се процени информациската содржина на тестовите?
18 Дали е потребна факторска анализа за да се процени информациската содржина на тестовите?
19 Дали е можно да се процени веродостојноста на тестот користејќи корелација?
20 Дали е можно да се процени објективноста на тестот користејќи корелација?
21 Дали тестовите дизајнирани да ја проценат општата физичка подготвеност ќе бидат еквивалентни?
22 При мерење на ист квалитет со различни тестови, се користат тестови...	Дизајниран да го мери истиот квалитет Имајќи висока корелација меѓу себе Имајќи ниска корелација меѓу себе

ОСНОВИ НА ТЕОРИЈАТА НА ВРЕДНУВАЊЕ

За да се проценат спортските резултати, често се користат специјални табели со бодови. Целта на ваквите табели е да го претворат прикажаниот спортски резултат (изразен во објективни мерки) во условни поени. Се нарекува законот за претворање на спортски резултати во поени скала за оценување. Скалата може да се специфицира како математички израз, табела или график. Постојат 4 главни типови на ваги кои се користат во спортот и физичкото образование.

Пропорционални ваги

Регресивни скали

Прогресивни ваги.

Пропорционални вагипредложи доделување на ист број поени за подеднакво зголемување на резултатите (на пример, за секои 0,1 s подобрување на резултатот во трчање на 100 m, се доделуваат 20 поени). Таквите ваги се користат во модерен петобој, брзо лизгање, скијачки трки, нордиско комбинирано, биатлон и други спортови.

Регресивни скалисугерираат дека за истото зголемување на резултатите како што се зголемуваат спортските достигнувања, се доделуваат сè помал број поени (на пример, за подобрување на резултатот во трчање на 100 m од 15,0 до 14,9 секунди, се додаваат 20 поени, а за 0,1 s во опсегот 10,0-9,9 s – само 15 поени).

Прогресивни ваги.Овде, колку е поголем атлетскиот резултат, толку е поголемо зголемувањето на поени за негово подобрување (на пример, за подобрување на времето на трчање од 15,0 до 14,9 секунди, се додаваат 10 поени, а од 10,0 до 9,9 с - 100 поени). Прогресивните ваги се користат во пливање, одредени видови атлетика и кревање тегови.

Сигмоидни скалиретко се користат во спортот, но широко се користат при проценка на физичката подготвеност (на пример, вака изгледа скалата на стандардите за физичка кондиција за населението во САД). Во овие скали, подобрувањата во резултатите во зоната на многу ниски и многу високи достигнувања се малку наградени; Зголемувањето на резултатите во зоната на средно достигнување носи најмногу бодови.

Главните цели на оценувањето се:

споредуваат различни достигнувања во иста задача;

споредете ги достигнувањата во различни задачи;

дефинираат стандарди.

Нормаво спортската метрологија се нарекува граничната вредност на резултатот, што служи како основа за доделување спортист во една од класификациските групи. Постојат три вида норми: компаративни, индивидуални, поради.

Компаративни стандардисе засноваат на споредба на луѓе кои припаѓаат на иста популација. На пример, делење на луѓето во подгрупи според степенот на отпор (висок, среден, низок) или реактивност (хиперреактивна, нормореактивна, хипореактивна) на хипоксија.

Различни градации на проценки и норми

			Процент на предмети	Норми во скали
Вербална	во поени				Процентил
Многу ниско		Под М - 2
		Од M - 2 до M - 1
Под просек		Од M-1 до M-0,5
		Од M–0,5 до M+0,5
Над просечно		Од M+0,5 до M+1
		Од M+1 до M+2
Многу високо		Над М+2

Овие норми ги карактеризираат само компаративните успеси на субјектите во дадена популација, но не кажуваат ништо за населението како целина (или во просек). Затоа, споредбените норми треба да се споредуваат со податоците добиени од други популации и да се користат во комбинација со индивидуални и соодветни норми.

Индивидуални нормисе засноваат на споредување на перформансите на ист спортист во различни услови. На пример, во многу спортови нема врска помеѓу сопствената телесна тежина и атлетските перформанси. Секој спортист има индивидуално оптимална тежина што одговара на нивната атлетска кондиција. Оваа норма може да се контролира во различни фази на спортски тренинг.

Соодветни стандардисе засноваат на анализа на тоа што човекот мора да биде способен да направи за успешно да се справи со задачите што му ги поставува животот. Пример за ова може да бидат стандардите на индивидуалните комплекси за физичка обука, соодветните вредности на виталниот капацитет, основната стапка на метаболизмот, телесната тежина и висина итн.

1 Дали е можно директно да се измери квалитетот на издржливоста?
2 Дали е можно директно да се измери квалитетот на брзината?
3 Дали е можно директно да се измери квалитетот на умешноста?
4 Дали е можно директно да се измери квалитетот на флексибилноста?
5 Дали е можно директно да се измери силата на поединечни мускули?
6 Дали оценката може да се изрази во квалитативна карактеристика (добра, задоволителна, лоша, положена и сл.)?
7 Дали има разлика помеѓу мерна скала и скала за оценување?
8 Што е скала за оценување?	Систем за мерење спортски резултати Закон за претворање на спортски резултати во бодови Систем за вреднување норми
9 Скалата претпоставува доделување на ист број поени за подеднакво зголемување на резултатите. Овој…
10 За истото зголемување на резултатите, се доделуваат се помалку поени како што се зголемуваат спортските достигнувања. Овој…	Прогресивна скала Регресивна скала Пропорционална скала Сигмоидна скала
11 Колку е поголем спортскиот резултат, толку е поголемо зголемувањето на бодовите, се оценува подобрувањето. Овој…	Прогресивна скала Регресивна скала Пропорционална скала Сигмоидна скала
12 Подобрувањето на перформансите во зоните со многу ниски и многу високи достигнувања се наградува умерено; Зголемувањето на резултатите во зоната на средно достигнување носи најмногу бодови. Овој…	Прогресивна скала Регресивна скала Пропорционална скала Сигмоидна скала
13 норми засновани на споредба на луѓе кои припаѓаат на иста популација се нарекуваат...
14 норми засновани на споредување на перформансите на ист спортист во различни услови се нарекуваат ...	Индивидуални стандарди Соодветни стандарди Компаративни стандарди
15 норми засновани на анализа за тоа што треба да биде способно да направи човекот за да се справи со задачите што му се доделени се нарекуваат ...	Индивидуални стандарди Соодветни стандарди Компаративни стандарди

ОСНОВНИ ПОИМИ НА КВАЛИМЕТРИЈАТА

Квалиметрија(латински qualitas - квалитет, метрон - мерка) проучува и развива квантитативни методи за оценување на квалитативните карактеристики.

Квалиметријата се заснова на неколку појдовни точки:

Секој квалитет може да се мери;

Квалитетот зависи од голем број својства што го формираат „дрвото за квалитет“ (на пример, квалитетното дрво за изведба на вежбање во уметничко лизгање се состои од три нивоа - највисоко, средно, најниско);

Секое својство се одредува со два броја: релативен индикатор и тежина; збирот на тежините на имотот на секое ниво е еднаков на еден (или 100%).

Методолошките техники на квалиметрија се поделени во две групи:

Хеуристички (интуитивен), врз основа на стручни проценки и прашалници;

Инструментална.

Експерте оценка добиена со барање мислења од експерти. Типични примери на стручност: судење во гимнастика и уметничко лизгање, натпревар за најдобра научна работа итн.

Спроведувањето на испитувањето ги вклучува следните главни фази: формирање на неговата цел, избор на експерти, избор на методологија, спроведување на анкета и обработка на добиените информации, вклучително и проценка на доследноста на поединечните стручни проценки. При испитувањето, од големо значење е степенот на доследност на стручните мислења, оценет според вредноста коефициент на корелација на ранг(во случај на неколку експерти). Треба да се забележи дека корелацијата на ранг лежи во основата на решавањето на многу квалиметриски проблеми, бидејќи овозможува математички пресметки со квалитативни карактеристики.

Во пракса, показател за квалификациите на експертот често е отстапувањето на неговиот рејтинг од просечната оценка на група експерти.

Прашалнике метод за собирање мислења со пополнување прашалници. Прашалниците, заедно со интервјуата и разговорите, се методи на истражување. За разлика од интервјуата и разговорите, испрашувањето вклучува писмени одговори од лицето што го пополнува прашалникот - испитаникот - на систем на стандардизирани прашања. Ви овозможува да ги проучувате мотивите на однесување, намерите, мислењата итн.

Со помош на прашалници, можете да решите многу практични проблеми во спортот: проценка на психолошкиот статус на спортистот; неговиот став кон природата и насоката на сесиите за обука; меѓучовечки односи во тимот; сопствена проценка на техничко-тактичката подготвеност; проценка на исхраната и многу други.

1 Што проучува квалиметријата?	Проучување на квалитетот на тестовите Проучување на квалитативните својства на особина Проучување и развивање квантитативни методи за оценување на квалитетот
2 Математички методи кои се користат во квалиметријата?	Корелација на парови Ранг корелација Анализа на варијанса
3 Кои методи се користат за да се процени нивото на перформанси?
4 Кои методи се користат за оценување на различноста на техничките елементи?	Метод на прашалник Метод на експертска проценка Методот не е наведен
5 Кои методи се користат за проценка на сложеноста на техничките елементи?	Метод на прашалник Метод на експертска проценка Методот не е наведен
6 Кои методи се користат за проценка на психолошката состојба на спортистот?	Метод на прашалник Метод на експертска проценка Методот не е наведен

Првата компонента, теоријата на тестот, содржи опис на статистички модели за обработка на дијагностички податоци. Содржи модели за анализа на одговорите во тест задачи и модели за пресметување на вкупните резултати од тестот. Муленберг (1980, 1990) го нарече ова „психометрија“. Класична тест теорија, модерна теорија на тест (или модел за анализа на одговор на ставки - IRT), и

примероците на ставки ги сочинуваат трите најважни типови на модели на теорија на тест. Предмет на разгледување на психодијагностика се првите два модели.

Класична тест теорија. Повеќето интелектуални тестови и тестови на личноста се развиени врз основа на оваа теорија. Централниот концепт на оваа теорија е концептот на „сигурност“. Веродостојноста се однесува на конзистентноста на резултатите низ повторените проценки. Во референтните книги, овој концепт обично се прикажува многу кратко, а потоа е даден детален опис на апаратот за математичка статистика. Во ова воведно поглавје ќе презентираме концизен опис на основното значење на забележаниот концепт. Во класичната теорија на тестови, веродостојноста се однесува на повторливоста на резултатите од неколку мерни постапки (главно мерења со помош на тестови). Концептот на доверливост вклучува пресметување на мерната грешка. Резултатите добиени за време на процесот на тестирање може да се претстават како збир на вистинскиот резултат и грешка во мерењето:

Кси = Ти+ Еј

Каде Ксие проценка на добиените резултати, Ti е вистинскиот резултат и Еј- грешка при мерење.

Оценувањето на добиените резултати по правило е бројот на точни одговори на задачите од тестот. Вистинскиот исход може да се смета како вистинска евалуација во платонска смисла (Gulliksen, 1950). Концептот на очекувани резултати е широко распространет, т.е. идеи за оценките што може да се добијат како резултат на голем број повторувања на процедури за мерење (Господ & Нович, 1968). Но, спроведувањето на истата процедура за оценување со едно лице не е можно. Затоа, неопходно е да се бараат други опции за решавање на проблемот (Witlman, 1988).

Овој концепт прави одредени претпоставки за вистински резултати и грешки во мерењето. Последните се земаат како независен фактор, што, се разбира, е сосема разумна претпоставка, бидејќи случајните флуктуации во резултатите не даваат коваријанси: r EE =0.

Се претпоставува дека не постои корелација помеѓу вистинските резултати и грешките во мерењето: rEE =0.

Вкупната грешка е 0, бидејќи Аритметичката средина се зема како вистинска проценка:

Овие претпоставки на крајот нè водат до добро познатата дефиниција за веродостојност како однос на вистинскиот резултат со вкупната варијанса или изразот: 1 минус соодносот, чиј броител е грешката на мерењето, а именителот е вкупната варијанса:

, ИЛИ

Од оваа формула за одредување на веродостојноста добиваме дека варијансата на грешката S 2 (E)еднаква на вкупната варијанса во бројот на случаи (1 - r XX "); така, стандардната грешка на мерењето се одредува со формулата:

По теоретско оправдување на веродостојноста и неговите деривати, потребно е да се одреди индексот на доверливост на одреден тест. Постојат практични процедури за оценување на веродостојноста на тестот, како што се користење на заменливи форми (паралелни тестови), поделба на ставките на два дела, повторно тестирање и мерење на внатрешната конзистентност. Секоја референтна книга содржи индекси на конзистентност на резултатите од тестот:

r XX ’ =r(x 1 , x 2)

Каде r XX' - коефициент на стабилност, и x 1 И x 2 - резултати од две мерења.

Концептот на веродостојност на заменливите форми беше воведен и развиен од Гуликсен (1950). Оваа постапка е доста трудоинтензивна, бидејќи е поврзана со потребата да се создаде паралелна серија задачи

r XX ’ =r(x 1 , x 2)

Каде r XX' - коефициент на еквивалентност и x 1 И x 2 - два паралелни теста.

Следната постапка - делење на главното тесто на два дела А и Б - е полесна за употреба. Резултатите добиени од двата дела на тестот се во корелација. Користејќи ја формулата Спирман-Браун, се проценува веродостојноста на тестот како целина:

каде A и B се два паралелни делови од тестот.

Следниот метод е да се одреди внатрешната конзистентност на тест задачите. Овој метод се заснова на одредување на коваријансите на поединечните задачи. Sg е варијанса на случајно избрана задача, а Sgh е коваријанса на две случајно избрани задачи. Најчесто користен коефициент за одредување на внатрешната конзистентност е Кронбаховата алфа. Се користи и формулата KR20 и λ-2(ламбда-2).

Класичниот концепт на доверливост ги дефинира мерните грешки кои се јавуваат и за време на тестирањето и за време на набљудувањата. Изворите на овие грешки се различни: тоа може да бидат лични карактеристики, карактеристики на условите за тестирање и самите тест задачи. Постојат специфични методи за пресметување на грешки. Знаеме дека нашите набљудувања може да испаднат погрешни, нашите методолошки алатки се несовршени, исто како што и самите луѓе се несовршени. (Како да не се сеќаваме на Шекспир: „Недоверлив си ти, чие име е човек“). Фактот дека во класичната теорија на тестовите грешките во мерењето се експлицитни и објаснети е важна позитивна точка.

Теоријата на класичните тестови има голем број значајни карактеристики кои исто така може да се сметаат како нејзини недостатоци. Некои од овие карактеристики се забележани во референтните книги, но нивната важност (од секојдневна гледна точка) не е често нагласена, ниту пак се забележува дека од теоретска или методолошка гледна точка тие треба да се сметаат за недостатоци.

Прво. Теоријата на класичните тестови и концептот на веродостојност се фокусирани на пресметување на вкупните резултати од тестовите, кои се резултат на собирање на резултатите добиени во поединечни задачи. Да, кога работите

Второ. Коефициентот на доверливост вклучува проценка на количината на дисперзија на измерените индикатори. Следи дека коефициентот на доверливост ќе биде помал ако (другите индикатори се еднакви) примерокот е похомоген. Не постои единствен коефициент на внатрешна конзистентност на тестовите, овој коефициент е секогаш „контекстуален“. Крокер и Алгина (1986), на пример, предлагаат специјална формула за „хомогена корекција на примерокот“ дизајнирана за највисоките и најниските резултати добиени од испитаниците. Важно е дијагностичарот да ги знае карактеристиките на варијација во популацијата на примерокот, инаку нема да може да ги користи коефициентите на внатрешна конзистентност наведени во прирачникот за овој тест.

Трето. Феноменот на редукција на аритметичка средина е логична последица на класичниот концепт на доверливост. Ако резултатот од тестот варира (т.е. не е доволно сигурен), тогаш можно е кога постапката ќе се повтори, субјектите со ниски оценки да добијат повисоки оценки, а обратно, субјектите со високи оценки да добијат низок резултат. Овој артефакт на процедурата за мерење не треба да се смета за вистинска промена или манифестација на развојните процеси. Но, во исто време не е лесно да се направи разлика меѓу нив, бидејќи ... никогаш не може да се исклучи можноста за промена во текот на развојот. За да бидете целосно сигурни, неопходна е споредба со контролната група.

Четвртата карактеристика на тестовите развиени во согласност со принципите на класичната теорија е присуството на нормативни податоци. Познавањето на нормите на тестот му овозможува на истражувачот адекватно да ги толкува резултатите на испитаниците. Надвор од нормите, резултатите од тестовите се бесмислени. Развивањето стандарди за тестови е прилично скапа работа, бидејќи психологот мора да ги добие резултатите од тестот од репрезентативен примерок.

2 Да тер Лаак

Ако зборуваме за недостатоците на класичниот концепт на доверливост, тогаш е соодветно да се цитира изјавата на Siytsma (1992, стр. 123-125). Тој забележува дека првата и главна претпоставка на класичната теорија на тестот е дека резултатите од тестовите го следат принципот на интервал. Сепак, не постојат студии за поддршка на оваа претпоставка. Во суштина, тоа е „мерење според произволно воспоставено правило“. Оваа карактеристика ја става класичната теорија на тест во неповолна положба во споредба со скалите за мерење на ставови и, се разбира, во споредба со модерната теорија на тестови. Многу методи на анализа на податоци (варијансна анализа, регресивна анализа, корелација и факторска анализа) се засноваат на претпоставката за постоење на интервална скала. Сепак, тоа нема цврста основа. Разгледувањето на скалата на вистински резултати како скала на вредности на психолошки карактеристики (на пример, аритметички способности, интелигенција, невротичност) може само да се претпостави.

Втората забелешка се однесува на фактот дека резултатите од тестот не се апсолутни показатели за една или друга психолошка карактеристика на лицето што се тестира, тие треба да се сметаат само како резултати од еден или друг тест. Два теста може да имаат намера да ги испитаат истите психолошки карактеристики (на пример, интелигенција, вербална способност, екстраверзија), но тоа не значи дека двата теста се еквивалентни или имаат исти способности. Споредувањето на перформансите на две лица тестирани со различни тестови е неточно. Истото важи и за два различни теста кои се пополнуваат од ист предмет. Третата точка се однесува на претпоставката дека стандардната грешка во мерењето е иста за кое било ниво на индивидуална способност што се мери. Сепак, не постои емпириски тест за оваа претпоставка. На пример, не постои гаранција дека испитувачот со добри математички вештини ќе постигне високи резултати на релативно едноставен аритметички тест. Во овој случај, лице со ниски или просечни способности е поверојатно да добие висок рејтинг.

Во рамките на модерната теорија на тест или теоријата на анализа на одговорите, ставките од тестот содржат опис на голем

број на модели на можни одговори од испитаниците. Овие модели се разликуваат по претпоставките што се во основата на нив, како и по барањата за добиените податоци. Моделот Раш често се смета за синоним за теории за анализа на одговор на ставки (1RT). Всушност, ова е само еден од моделите. Формулата претставена во неа за опишување на карактеристичната крива на задачата g е следна:

Каде е- посебна тест задача; exp- експоненцијална функција (нелинеарна зависност); δ („делта“) - ниво на тежина на тестот.

Други тест предмети, на пр. ч,добиваат и свои карактеристични кривини. Исполнет услов δ h >δ g (gзначи дека ч- потешка задача. Затоа, за која било вредност на индикаторот Θ („тета“ - латентни својства на способностите на испитаниците) веројатност за успешно завршување на задачата чпомалку. Овој модел се нарекува строг бидејќи е очигледно дека со низок степен на изразување на особини, веројатноста за завршување на задачата е блиску до нула. Во овој модел нема простор за погодување или нагаѓање. За задачите со повеќекратен избор, нема потреба да се прават претпоставки за веројатноста за успех. Покрај тоа, овој модел е строг во смисла дека сите ставки за тестирање мора да имаат иста дискриминаторска способност (високата дискриминативност се рефлектира во стрмнината на кривата; овде е можно да се конструира Гутманова скала, според која во секоја точка од карактеристична крива веројатноста за завршување на задачата варира од О до 1). Поради оваа состојба, не сите ставки можат да бидат вклучени во тестовите базирани на моделот Rasch.

Постојат неколку варијации на овој модел (на пр. Birnbaura, 1968; Види Lord & Novik). Овозможува постоење на задачи со различна дискриминација

способност.

Холандскиот истражувач Мокен (1971) разви два модели за анализирање на одговорите на тест ставките кои се помалку строги од моделот Раш и затоа можеби пореални. Како основен услов

Via Mokken го поставува предлогот дека карактеристичната крива на задачата треба да следи монотоно, без прекини. Сите тест задачи се насочени кон проучување на истата психолошка карактеристика, која треба да се мери В.Секоја форма на оваа зависност е дозволена додека не се прекине. Според тоа, обликот на карактеристичната крива не се одредува со некоја специфична функција. Оваа „слобода“ ви овозможува да користите повеќе тест ставки, а нивото на оценување не е повисоко од вообичаеното.

Методологијата на моделите на одговор на ставки (IRT) се разликува од онаа на повеќето експериментални и корелациски студии. Математичкиот модел е дизајниран да ги проучува бихејвиоралните, когнитивните, емоционалните карактеристики, како и развојните феномени. Овие феномени за кои станува збор често се ограничени на одговори на ставки, што го наведува Меленберг (1990) да го нарече ИРТ „мини-теорија на однесување“. Резултатите од студијата може, до одреден степен, да се претстават како криви на конзистентност, особено во случаи кога недостасува теоретско разбирање на карактеристиките што се проучуваат. Досега ни стојат на располагање само неколку тестови за интелигенција, способност и личност создадени врз основа на бројни модели на теоријата на ИРТ. Варијантите на Rasch моделот почесто се користат во развојот на тестовите за постигања (Verhelst, 1993), додека моделите на Mokken се посоодветни за развојни феномени (види, исто така, Поглавје 6).

Одговорот на испитувачот на ставките за тестирање е основната единица на IRT моделите. Типот на одговор се одредува според степенот на изразување на карактеристиката што се изучува кај една личност. Таква карактеристика може да биде, на пример, аритметички или просторни способности. Во повеќето случаи, ова е еден или друг аспект на интелигенција, карактеристики на достигнувања или особини на личноста. Се претпоставува дека постои нелинеарна врска помеѓу положбата на дадена личност во одреден опсег на карактеристиката што се проучува и веројатноста за успешно завршување на одредена задача. Нелинеарноста на оваа зависност е во одредена смисла интуитивна. Познати фрази „Секој почеток е тежок“ (бавно не-

линеарен почеток) и „Да се стане светец не е толку лесно“ значи дека понатамошното подобрување по достигнувањето одредено ниво е тешко. Кривата полека се приближува, но речиси никогаш не достигнува 100% стапка на успех.

Некои модели прилично противречат на нашето интуитивно разбирање. Да го земеме овој пример. Лице со доброволен карактеристичен индекс на интензитет од 1,5 има 60 проценти веројатност за успех во извршувањето на задачата. Ова е во спротивност со нашето интуитивно разбирање на таквата ситуација, бидејќи можете или успешно да се справите со задачата или воопшто да не се справите со неа. Да го земеме овој пример: човек се обидува 100 пати да достигне висина од 1m 50 cm Успехот го придружува 60 пати, т.е. има стапка на успех од 60 проценти.

За да се процени сериозноста на некоја карактеристика, потребни се најмалку две задачи. Моделот Раш вклучува одредување на сериозноста на карактеристиките без оглед на тежината на задачата. Ова исто така е спротивно на нашата интуиција: да претпоставиме дека едно лице има 80% шанси да скокне над 1,30 м. на скокање над 1,50 m, веројатноста за скок над 1,70 m.

Постојат околу 50 модели на IRT (Goldstein & Wood, 1989). Барањата и ограничувањата на овие модели се различни, а овие разлики може да се откријат со споредување на моделот Rasch и скалата Mokken. Барањата на овие модели вклучуваат:

1) потребата да се одреди карактеристиката што се проучува и да се процени положбата на личноста во опсегот на оваа особина;

2) оценување на редоследот на задачите;

3) проверка на одредени модели. Во психометријата, развиени се многу процедури за тестирање на моделот.

Некои референтни книги ја дискутираат теоријата на ИРТ како форма на анализа на ставките за тестирање (види, на пример,

Крокер и Алгина, Ј 986). Сепак, може да се тврди дека IRT е „мини-теорија за мини-однесување“. Застапниците на теоријата на ИРТ забележуваат дека ако концептите (моделите) на средно ниво се несовршени, тогаш што може да се каже за посложените конструкции во психологијата?

Класични и модерни тест теории. Луѓето не можат а да не ги споредат работите кои изгледаат речиси исто. (Можеби секојдневниот еквивалент на психометријата главно се состои од споредување на луѓето за значајни карактеристики и избор меѓу нив.) Секоја од презентираните теории - теоријата за мерење на грешките во проценката и математичкиот модел на одговорите на тестот - има свои поддржувачи (Голдштајн и Вуд, 1986).

IRT моделите не се обвинети дека се „проценки засновани на правила“ како класичната теорија на тестови. IRT моделот е фокусиран на анализа на карактеристиките што се оценуваат. Карактеристиките на личноста и карактеристиките на задачата се оценуваат со помош на скали (редни или интервални). Покрај тоа, можно е да се споредат перформансите на различни тестови насочени кон проучување на слични карактеристики. Конечно, доверливоста не е иста за секоја вредност на скалата, а просечните резултати се генерално посигурни од оценките на почетокот и на крајот на скалата. Така, IRT моделите се чини дека се теоретски посупериорни. Исто така, постојат разлики во практичната употреба на модерната теорија на тест и класичната теорија (Sijstma, 1992, стр. 127-130). Модерната теорија на тестови е посложена во споредба со класичната, па затоа поретко ја користат неспецијалисти. Покрај тоа, IRT има специфични барања за задачи. Ова значи дека предметите мора да бидат исклучени од тестот доколку не ги исполнуваат барањата на моделот. Ова правило понатаму се однесува на оние задачи кои биле дел од широко користените тестови изградени врз принципите на класичната теорија. Тестот станува пократок и, според тоа, неговата сигурност се намалува.

IRT обезбедува математички модели за проучување на феномени од реалниот свет. Моделите треба да ни помогнат да ги разбереме клучните аспекти на овие феномени. Сепак, тука лежи главното теоретско прашање. Моделите може да се земат предвид

како пристап кон проучување на сложената реалност во која живееме. Но, моделот и реалноста не се иста работа. Според песимистичкото гледиште, можно е да се моделираат само изолирани (а не најинтересните) типови на однесување. Може да се сретнете и со изјавата дека реалноста воопшто не може да се моделира, бидејќи тој се покорува повеќе од само причинско-последични закони. Во најдобар случај, можно е да се моделираат индивидуалните (идеални) феномени на однесувањето. Постои уште еден, пооптимистички поглед на можностите за моделирање. Горенаведената позиција ја блокира можноста за длабоко разбирање на природата на феномените на човековото однесување. Примената на еден или друг модел покренува некои општи, фундаментални прашања. Според наше мислење, нема сомнеж дека IRT е концепт теоретски и технички супериорен во однос на класичната теорија на тестови.

Практичната цел на тестовите, без разлика на која теоретска основа се создадени, е да се утврдат значајни критериуми и врз нивна основа да се утврдат карактеристиките на одредени психолошки конструкти. Дали моделот IRT има предности и во овој поглед? Можно е тестовите засновани на овој модел да не предвидуваат попрецизно од тестовите засновани на класичната теорија и можно е нивниот придонес во развојот на психолошките конструкции да не е позначаен. Дијагностичарите претпочитаат критериуми кои се директно релевантни за поединецот, институцијата или заедницата. Моделот кој е научно понапреден „ipso facto“* не дефинира посоодветен критериум и е до одреден степен ограничен во објаснувањето на научните конструкции. Очигледно е дека ќе продолжи развојот на тестови засновани на класична теорија, но истовремено ќе се создадат нови IRT модели кои ќе се прошират на проучување на поголем број психолошки феномени.

Во класичната теорија на тестот, се разликуваат концептите на „сигурност“ и „валидност“. Резултатите од тестот мора да бидат сигурни, т.е. резултатите од првичното и повторното тестирање треба да бидат конзистентни. Освен тоа,

* ipso facto(лак) - само по себе (приближно превод.).

резултатите треба да бидат ослободени (колку што е можно) од грешки во проценката. Валидноста е еден од барањата за добиените резултати. Во овој случај, веродостојноста се смета како неопходен, но сè уште не доволен услов за валидноста на тестот.

Концептот на валидност сугерира дека наодите се однесуваат на нешто важно во практична или теоретска смисла. Заклучоците извлечени од резултатите од тестовите мора да бидат валидни. Најчесто зборуваат за два вида валидност: предвидувачка (критериум) и конструктивна. Постојат и други видови на валидност (види Поглавје 3). Покрај тоа, валидноста може да се утврди во случај на квази-експерименти (Cook & Campbell, 1976, Cook & Шадиш, 1994). Сепак, главниот тип на валидност е сепак предвидувачката валидност, која се подразбира како способност да се предвиди нешто значајно за идното однесување од резултатот од тестот, како и можност за подлабоко разбирање на одредена психолошка особина или квалитет.

Видовите на валидност презентирани се дискутирани во секоја референтна книга и се придружени со опис на методите за анализа на валидноста на тестот. Факторската анализа е посоодветна за одредување на валидноста на конструкцијата, а линеарните регресивни равенки се користат за анализа на предвидувачката валидност. Одредени карактеристики (академски перформанси, ефективност на терапијата) може да се предвидат врз основа на еден или повеќе индикатори добиени при работа со интелектуални или тестови на личноста. Техниките за обработка на податоци како што се корелација, регресија, анализа на варијанса, анализа на парцијални корелации и варијанси се користат за да се одреди предвидувачката валидност на тестот.

Исто така често се опишува валидноста на содржината. Се претпоставува дека сите задачи и задачи на тестот мора да припаѓаат на одредена област (ментални својства, однесување итн.). Концептот на валидност на содржината ја карактеризира кореспонденцијата на секој тест ставка со измерениот домен. Валидноста на содржината понекогаш се гледа како дел од веродостојноста или „генерализирањето“ (Кронбах, Глесер, Нанда & Раџаратнам, 1972). Меѓутоа, кога

При изборот на задачи за тестови за постигања во одредена предметна област, важно е да се внимава и на правилата за вклучување задачи во тестот.

Во класичната теорија на тестови, веродостојноста и валидноста се третираат релативно независно една од друга. Но, постои друго разбирање за односот помеѓу овие концепти. Модерната теорија на тестови се заснова на употреба на модели. Параметрите се проценуваат во рамките на одреден модел. Доколку некоја задача не ги исполнува барањата на моделот, тогаш во рамките на овој модел таа се смета за неважечка. Потврдувањето на конструкцијата е дел од верификацијата на самиот модел. Оваа валидација првенствено се однесува на тестирање на постоење на еднодимензионална латентна карактеристика од интерес со познати карактеристики на размер. Резултатите од скалата секако може да се користат за да се утврдат соодветните мерки и тие можат да се поврзат со мерки на други конструкции за да се соберат информации за конвергентната и дивергентната валидност на конструкцијата.

Психодијагностиката е слична на јазикот, опишана како единство на четири компоненти претставени на три нивоа. Првата компонента, теоријата на тестот, е аналогна на синтаксата, граматиката на јазикот. Генеративната граматика е, од една страна, генијален модел, а од друга, систем кој ги почитува правилата. Со помош на овие правила, сложените реченици се градат врз основа на едноставни потврдни реченици. Меѓутоа, во исто време, овој модел остава настрана опис на тоа како е организиран комуникацискиот процес (што се пренесува и што се перципира), и за кои цели се спроведува. Разбирањето на ова бара дополнително знаење. Истото може да се каже и за теоријата на тестови: таа е неопходна во психодијагностиката, но не е во состојба да објасни што прави психодијагностичарот и кои се неговите цели.

1.3.2. Психолошки теории и психолошки конструкции

Психодијагностиката е секогаш дијагноза на нешто специфично: лични карактеристики, однесување, размислување, емоции. Тестовите се дизајнирани да ги проценат индивидуалните разлики. Постојат неколку концепти

индивидуални разлики, од кои секоја има свои карактеристични карактеристики. Ако се препознае дека психодијагностиката не е ограничена само на проценка на индивидуалните разлики, тогаш другите теории стануваат суштински за психодијагностика. Пример е проценката на разликите во процесите на менталниот развој и разликите во социјалната средина. Иако проценката на индивидуалните разлики не е неопходен атрибут на психодијагностиката, сепак постојат одредени традиции на истражување во оваа област. Психодијагностиката започна со проценка на разликите во интелигенцијата. Главната цел на тестовите беше „да се утврди наследното пренесување на генијот“ (Галон) или изборот на деца за обука (Бине, Сајмон). Мерењето на коефициентот на интелигенција доби теоретско разбирање и практичен развој во делата на Спирман (Велика Британија) и Тарстон (САД). Рејмонд Б. Кател направи слична работа за да ги процени карактеристиките на личноста. Психодијагностиката станува нераскинливо поврзана со теориите и идеите за индивидуалните разлики во достигнувањата (проценка на максималните способности) и формите на однесување (ниво на типично функционирање). Оваа традиција продолжува да биде ефективна и денес. Во учебниците за психодијагностика, многу поретко се оценуваат разликите во социјалната средина во споредба со разгледувањето на карактеристиките на самите развојни процеси. Нема разумно објаснување за ова. Од една страна, дијагностиката не е ограничена на одредени теории и концепти. Од друга страна, потребни се теории, бидејќи токму во нив се одредува содржината што се дијагностицира (т.е. „што“ се дијагностицира). На пример, интелигенцијата може да се смета и како општа карактеристика и како основа за многу способности независни една од друга. Ако психодијагностиката се обиде да „избега“ од оваа или онаа теорија, тогаш основата на психодијагностичкиот процес станува идеи за здрав разум. Истражувањето користи различни методи на анализа на податоци, а општата логика на истражувањето го одредува изборот на еден или друг математички модел и ја одредува структурата на употребените психолошки концепти. Ваквите методи на математичка статистика

ki, како што се анализа на варијанса, регресивна анализа, факторска анализа и пресметка на корелации, претпоставуваат постоење на линеарни зависности. Доколку овие методи се користат погрешно, тие ја „воведуваат“ својата структура во добиените податоци и употребените конструкции.

Идеите за разликите во социјалната средина и развојот на личноста речиси и да немаа влијание врз психодијагностиката. Учебниците (види, на пример, Murphy & Davidshofer, 1988) ја испитуваат класичната теорија на тестови и дискутираат за релевантните методи на статистичка обработка, опишуваат добро познати тестови и дискутираат за употребата на психодијагностика во пракса: во психологијата на менаџментот, во изборот на персоналот, во оценувањето човечки психолошки карактеристики .

Теориите за индивидуалните разлики (како и идеите за разликите меѓу социјалните средини и менталниот развој) се аналогни на проучувањето на семантиката на јазикот. Ова е проучување на суштината, содржината и значењето. Значењата се структурирани на одреден начин (слично на психолошките конструкции), на пример, со сличност или контраст (аналогија, конвергенција, дивергенција).

1.3.3. Психолошки тестови и други методолошки алатки

Третата компонента на предложената шема се тестови, процедури и методолошки средства со помош на кои се собираат информации за карактеристиките на личноста. Дрене и Сијтсма (1990, стр. 31) ги дефинираат тестовите на следниов начин: „Психолошкиот тест се смета како класификација според одреден систем или како постапка на мерење што овозможува да се донесе одреден суд за еден или повеќе емпириски изолирани или теоретски базирани карактеристики на специфичен аспект на човековото однесување (за во рамките на тест-ситуацијата). Во овој случај, се испитува одговорот на испитаниците на одреден број внимателно избрани стимули, а добиените одговори се споредуваат со нормите на тестот.

Дијагностиката бара тестови и техники за собирање сигурни, точни и валидни информации за карактеристиките

и карактеристични особини на личноста, за човечкото размислување, емоции и однесување. Покрај развојот на процедурите за тестирање, оваа компонента ги вклучува и следните прашања: како се креираат тестовите, како се формулираат и избираат задачите, како се одвива процесот на тестирање, кои се барањата за условите за тестирање, како се земаат предвид грешките при мерењето , како се пресметуваат и толкуваат резултатите од тестот.

Процесот на развој на тестот прави разлика помеѓу рационални и емпириски стратегии. Примената на рационална стратегија започнува со дефинирање на основните концепти (на пример, концептот на интелигенција, екстраверзија), а задачите за тестирање се формулираат во согласност со овие концепти. Пример за таква стратегија е концептот на анализа на аспекти (теоријата на аспект) на Гутман (1957, 1968, 1978). Прво, се одредуваат различни аспекти на главните конструкции, потоа задачите и задачите се избираат на таков начин што секој од овие аспекти се зема предвид. Втората стратегија е дека задачите се избираат на емпириска основа. На пример, ако истражувачот се обидува да создаде тест за професионален интерес што ќе ги разликува лекарите од инженерите, ова ќе биде процедурата. Двете групи на испитаници мора да одговорат на сите ставки од тестот, а оние ставки за кои се пронајдени статистички значајни разлики се вклучени во финалниот тест. Ако, на пример, постојат разлики меѓу групите во одговорите на изјавата „Сакам да рибам“, тогаш таа изјава станува елемент на тестот. Централната премиса на оваа книга е дека тестот е поврзан со концептуална или таксономска теорија која ги дефинира овие карактеристики.

Целта на тестот обично е дефинирана во упатствата за неговата употреба. Тестот мора да биде стандардизиран за да може да ги процени разликите помеѓу поединци наместо помеѓу условите за тестирање. Меѓутоа, постојат отстапувања од стандардизацијата во постапките наречени „тестирање на границите“ и „тестови за потенцијални учење“. Во овие услови, на испитаникот му се помага во процесот

тестирање и потоа го проценува ефектот на таквата постапка врз резултатот. Објективно е бодувањето за одговорите на задачите, т.е. спроведено во согласност со стандардна процедура. Толкувањето на добиените резултати исто така е строго дефинирано и се врши врз основа на стандардите за тестирање.

Третата компонента на психодијагностиката - психолошки тестови, инструменти, процедури - содржи одредени задачи кои се најмали единици на психодијагностика и во оваа смисла задачите се слични на фонемите на еден јазик. Бројот на можни комбинации на фонеми е ограничен. Само одредени фонемски структури можат да формираат зборови и реченици кои обезбедуваат информацијата да му се пренесе на слушателот. Исто така Итест задачи: само во одредена комбинација едни со други можат да станат ефективно средство за проценка на соодветниот конструкт.

Што е тестирање

Во согласност со IEEE Std 829-1983 Тестирањее процес на софтверска анализа чија цел е да се идентификуваат разликите помеѓу неговите вистински и потребни својства (дефект) и да се проценат својствата на софтверот.

Според ГОСТ Р ISO IEC 12207-99, животниот циклус на софтверот дефинира, меѓу другото, помошни процеси на верификација, сертификација, заедничка анализа и ревизија. Процесот на верификација е процес на утврдување дека софтверските производи функционираат во целосна согласност со барањата или условите имплементирани во претходната работа. Овој процес може да вклучува анализа, верификација и тестирање (тестирање). Процесот на сертификација е процес на утврдување на комплетноста на усогласеноста на утврдените барања, креираниот систем или софтверски производ со нивната функционална намена. Процесот на заедничко разгледување е процес на оценување на состојбите и, доколку е потребно, резултатите од работата (производите) на проектот. Процесот на ревизија е процес на утврдување на усогласеноста со барањата, плановите и условите на договорот. Заедно, овие процеси го сочинуваат она што обично се нарекува тестирање.

Тестирањето се заснова на тест процедури со специфични влезови, почетни услови и очекувани резултати, дизајнирани за одредена цел, како што е проверка на одредена програма или проверка на усогласеноста со одредено барање. Тест процедурите можат да тестираат различни аспекти на функционирањето на програмата, од правилното функционирање на одредена функција до соодветно исполнување на деловните барања.

При спроведување на проект, неопходно е да се разгледа во согласност со кои стандарди и барања ќе се тестира производот. Кои алатки (ако ги има) ќе се користат за пронаоѓање и документирање на пронајдените дефекти. Ако се сеќавате на тестирањето од самиот почеток на проектот, тестирањето на производот во развој нема да предизвика непријатни изненадувања. Ова значи дека квалитетот на производот најверојатно ќе биде доста висок.

Животен циклус на производот и тестирање

Во денешно време сè повеќе се користат итеративни процеси за развој на софтвер, особено технологија RUP - Рационален унифициран процес(сл. 1). Со овој пристап, тестирањето престанува да биде процес „надвор од манжетната“ што се случува откако програмерите ќе го напишат целиот потребен код. Работата на тестовите започнува уште од почетната фаза на идентификување на барањата за иден производ и е тесно интегрирана со тековните задачи. И ова поставува нови барања за тестерите. Нивната улога не е ограничена на едноставно идентификација на грешките што е можно поцелосно и што порано. Тие мора да учествуваат во целокупниот процес на идентификување и справување со најзначајните проектни ризици. За да го направите ова, за секое повторување се одредуваат целта на тестирањето и методите за нејзино постигнување. И на крајот од секое повторување се утврдува до кој степен е постигната оваа цел, дали се потребни дополнителни тестови и дали треба да се променат принципите и алатките за спроведување на тестовите. За возврат, секој откриен дефект мора да помине низ својот животен циклус.

Ориз. 1. Животниот циклус на производот според RUP

Тестирањето обично се изведува во циклуси, од кои секој има специфичен список на задачи и цели. Циклусот на тестирање може да се совпадне со повторување или да одговара на одреден дел од него. Вообичаено, се спроведува циклус на тестирање за специфична изградба на системот.

Животниот циклус на софтверски производ се состои од серија релативно кратки повторувања (Слика 2). Итерацијата е целосен развоен циклус што води до објавување на финален производ или некоја негова скратена верзија, која се проширува од повторување до повторување за на крајот да стане целосен систем.

Секоја повторување обично вклучува задачи за планирање на работата, анализа, дизајн, имплементација, тестирање и евалуација на постигнатите резултати. Сепак, односот помеѓу овие задачи може значително да се промени. Во согласност со односот помеѓу различните задачи во една итерација, тие се групирани во фази. Првата фаза, Почеток, се фокусира на задачите за анализа. Итерациите на втората фаза, Развој, се фокусираат на дизајнирање и тестирање на клучните решенија за дизајн. Во третата фаза - Изградба - најголем дел од задачите за развој и тестирање. И во последната фаза - Пренос - задачите за тестирање и пренесување на системот на Клиентот се решени во најголема мера.

Ориз. 2. Итерации на животниот циклус на софтверски производ

Секоја фаза има свои специфични цели во животниот циклус на производот и се смета за завршена кога тие цели ќе се постигнат. Сите повторувања, освен можеби повторувањата на почетната фаза, завршуваат со создавање на функционална верзија на системот што се развива.

Тест категории

Тестовите значително се разликуваат по проблемите што ги решаваат и технологијата што ја користат.

Тест категории	Опис на категоријата	Видови на тестирање
Тековно тестирање	Збир на тестови извршени за да се одреди функционалноста на додадените нови функции на системот.	Тестирање на стрес; тестирање на деловниот циклус; стрес-тестирање.
Регресивно тестирање	Целта на регресивното тестирање е да се потврди дека дополнувањата на системот не ги намалуваат неговите можности, т.е. тестирањето се врши според барањата кои се веќе исполнети пред да се додадат нови функции.	Тестирање на стрес; тестирање на деловниот циклус; стрес-тестирање.

Тестирање подкатегории

Тестирање подкатегории	Опис на типот на тестирање	Подвидови на тестирање
Тестирање на стрес	Се користи за тестирање на сите функции на апликацијата без исклучок. Во овој случај, редоследот на тестирање на функциите не е важен.	функционално тестирање; тестирање на интерфејс; тестирање на базата на податоци
Тестирање на деловниот циклус	Се користи за тестирање на функциите на апликацијата во низата што ги повикува корисникот. На пример, симулирање на сите дејствија на сметководител за првиот квартал.	единица тестирање (единствено тестирање); функционално тестирање; тестирање на интерфејс; тестирање на базата на податоци.
Тестирање на стрес	Се користи за тестирање Перформанси на апликацијата. Целта на ова тестирање е да се одреди опсегот на стабилна работа на апликацијата. За време на ова тестирање, се повикуваат сите достапни функции.	единица тестирање (единствено тестирање); функционално тестирање; тестирање на интерфејс; тестирање на базата на податоци.

Тестирање подкатегории

Опис на типот на тестирање

Подвидови на тестирање

Тестирање на стрес

Се користи за тестирање на сите функции на апликацијата без исклучок. Во овој случај, редоследот на тестирање на функциите не е важен.

функционално тестирање;
тестирање на интерфејс;
тестирање на базата на податоци

Тестирање на деловниот циклус

Се користи за тестирање на функциите на апликацијата во низата што ги повикува корисникот. На пример, симулирање на сите дејствија на сметководител за првиот квартал.

единица тестирање (единствено тестирање);
функционално тестирање;
тестирање на интерфејс;
тестирање на базата на податоци.

Тестирање на стрес

Се користи за тестирање

Перформанси на апликацијата. Целта на ова тестирање е да се одреди опсегот на стабилна работа на апликацијата. За време на ова тестирање, се повикуваат сите достапни функции.

единица тестирање (единствено тестирање);
функционално тестирање;
тестирање на интерфејс;
тестирање на базата на податоци.

Видови на тестирање

Единица тестирање (тестирање на единицата) - овој тип вклучува тестирање на поединечни апликативни модули. За да се добијат максимални резултати, тестирањето се врши истовремено со развојот на модулите.

Функционално тестирање - Целта на ова тестирање е да се осигура дека предметот за тестирање функционира правилно. Се тестира правилната навигација низ објектот, како и внесување, обработка и излез на податоци.

Тестирање на бази на податоци - проверка на функционалноста на базата при нормално функционирање на апликацијата, при преоптоварувања и во режим на повеќе корисници.

Единица тестирање

За OOP, вообичаениот начин да се организира тестирање на единици е да се тестираат методите на секоја класа, потоа класата на секој пакет итн. Постепено преминуваме на тестирање на целиот проект, а претходните тестови се од типот на регресија.

Излезната документација на овие тестови вклучува тест процедури, влезни податоци, код за извршување на тестот и излезни податоци. Следното е типот на излезна документација.

Функционално тестирање

Функционалното тестирање на предметот за тестирање е планирано и спроведено врз основа на барањата за тестирање наведени во фазата на дефинирање на барањата. Барањата вклучуваат деловни правила, дијаграми за случаи на употреба, деловни функции и, доколку се достапни, дијаграми на активности. Целта на функционалните тестови е да се потврди дали развиените графички компоненти ги исполнуваат наведените барања.

Овој тип на тестирање не може да биде целосно автоматизиран. Затоа, таа е поделена на:

Автоматско тестирање (ќе се користи во случај кога е можно да се проверат излезните информации).

Цел: да се тестираат внесување, обработка и излез на податоци;

Рачно тестирање (во други случаи).

Цел: Тестира дали барањата на корисниците се правилно исполнети.

Потребно е да се изврши (игра) секој од случаите на употреба, користејќи и точни вредности и очигледно погрешни, за да се потврди правилното функционирање, според следниве критериуми:

производот одговара соодветно на сите влезни податоци (очекуваните резултати се излегуваат како одговор на правилно внесените податоци);
производот одговара соодветно на погрешно внесените податоци (се појавуваат соодветни пораки за грешка).

Тестирање на бази на податоци

Целта на ова тестирање е да се обезбеди веродостојност на методите за пристап до базата, нивно правилно извршување, без нарушување на интегритетот на податоците.

Потребно е последователно да се користат што повеќе повици на базата на податоци. Се користи пристап во кој тестот е дизајниран на таков начин што ќе ја „вчита“ базата на податоци со низа од точни вредности и очигледно погрешни. Се одредува реакцијата на базата на податоци на внесување податоци и се проценуваат временските интервали за нивна обработка.

ПОГЛАВЈЕ 3. СТАТИСТИЧКА ОБРАБОТКА НА РЕЗУЛТАТИТЕ ОД ТЕСТИРАЊЕТО

Статистичката обработка на резултатите од тестот овозможува, од една страна, објективно да се утврдат резултатите на субјектите, од друга страна, да се процени квалитетот на самиот тест, задачите за тестирање, особено да се процени неговата веродостојност. Проблемот на доверливост привлече големо внимание во класичната теорија на тестови. Оваа теорија не ја изгуби својата важност денес. И покрај појавата на помодерни теории, класичната теорија продолжува да ја одржува својата позиција.

3.1. ОСНОВНИ ОДРЕДБИ НА ТЕОРИЈАТА НА КЛАСИЧНИОТ ТЕСТ

3.2. МАТРИЦА НА РЕЗУЛТАТИ ОД ТЕСТОТ

3.3. ГРАФИЧКО ПРЕТСТАВУВАЊЕ НА РЕЗУЛТАТ НА ТЕСТОТ

3.4. МЕРКИ НА ЦЕНТРАЛНА ТЕНДЕНЦИЈА

3.5. НОРМАЛНА РАСПРЕДЕЛБА

3.6. ВАРИЈАЦИЈА НА ОД ТЕСТОТ НА ПРЕДМЕТИ

3.7. МАТРИЦА НА КОРЕЛАЦИЈА

3.8. СИГУРНОСТ НА ТЕСТ

3.9. ВАЖНОСТ НА ТЕСТ

ЛИТЕРАТУРА

ОСНОВНИ ОДРЕДБИ НА ТЕОРИЈАТА НА КЛАСИЧНИОТ ТЕСТ

Креатор на Класичната теорија на менталните тестови е познатиот британски психолог, автор на факторска анализа, Чарлс Едвард Спирман (1863-1945) 1. Роден е на 10 септември 1863 година и служел во британската армија четвртина од својот живот. Поради оваа причина, тој докторирал дури на 41-годишна возраст. Чарлс Спирман го спроведе своето истражување за дисертација во Лајпцишката лабораторија за експериментална психологија под раководство на Вилхелм Вунд. Во тоа време, Чарлс Спирман беше под силно влијание на работата на Френсис Галтон за тестирање на човечката интелигенција. Учениците на Чарлс Спирман биле Р. Кател и Д. Векслер. Меѓу неговите следбеници се A. Anastasi, J. P. Guilford, P. Vernon, C. Burt, A. Jensen.

Луис Гутман (1916-1987) даде голем придонес во развојот на класичната теорија на тестови.

Теоријата на класичниот тест за прв пат беше сеопфатно и целосно претставена во фундаменталното дело на Харолд Гуликсен (Gulliksen H., 1950) 4 . Оттогаш, теоријата е малку изменета, особено математичкиот апарат е подобрен. Теоријата за класичен тест во модерна презентација е дадена во книгата Crocker L., Aligna J. (1986) 5. Меѓу домашните истражувачи, V. Avanesov (1989) 6 беше првиот што ја опиша оваа теорија. Во делото на Челишкова М.Б. (2002) 7 дава информации за статистичката оправданост на квалитетот на тестот.

Теоријата на класичните тестови се заснова на следните пет основни принципи.

1. Емпириски добиениот резултат од мерењето (X) е збир на вистинскиот резултат од мерењето (T) и мерната грешка (Е) 8:

X = T + E (3.1.1)

Вредностите на Т и Е обично се непознати.

2. Вистинскиот резултат од мерењето може да се изрази како математичко очекување E(X):

3. Корелацијата на вистинити и неточни компоненти низ множеството субјекти е еднаква на нула, односно ρ TE = 0.

4. Погрешните компоненти на кои било два теста не се во корелација:

5. Погрешните компоненти на еден тест не се во корелација со вистинските компоненти на кој било друг тест:

Покрај тоа, основата на класичната теорија на тестови се формира со две дефиниции - паралелни и еквивалентни тестови.

ПАРАЛЕЛНИТЕ тестови мора да ги исполнуваат барањата (1-5), вистинските компоненти на еден тест (Т 1) мора да бидат еднакви со вистинските компоненти на другиот тест (Т 2) во секој примерок од субјекти што одговараат на двата теста. Се претпоставува дека T 1 = T 2 и, покрај тоа, се еднакви на варијансата s 1 2 = s 2 2.

Еквивалентни тестови мора да ги исполнуваат сите барања на паралелните тестови со еден исклучок: вистинските компоненти на еден тест не мора да бидат еднакви со вистинските компоненти на друг паралелен тест, но тие мора да се разликуваат за истата константа Со.

Условот за еквивалентност на два теста е запишан на следниов начин:

каде што c 12 е константа помеѓу резултатите од првиот и вториот тест.

Врз основа на горенаведените одредби, конструирана е теорија на веродостојност на тестот 9,10.

т.е.

Ајде да го преработиме овој израз на следниов начин:

(3.1.3)

Десната страна на оваа еднаквост ја претставува веродостојноста на тестот ( р). Така, веродостојноста на тестот може да се запише како:

Врз основа на оваа формула, потоа беа предложени различни изрази за пронаоѓање на коефициентот на веродостојност на тестот. Веродостојноста на тестот е неговата најважна карактеристика. Ако веродостојноста е непозната, резултатите од тестот не може да се толкуваат. Веродостојноста на тестот ја карактеризира неговата точност како мерен инструмент. Висока сигурност значи голема повторливост на резултатите од тестот под исти услови.

Во класичната теорија на тестот, најважниот проблем е одредувањето на вистинскиот резултат на тестот на предметот (Т). Резултатот од емпирискиот тест (X) зависи од многу услови - степенот на тежина на задачите, нивото на подготвеност на полагачите, бројот на задачи, условите за тестирање итн. Во група на силни, добро подготвени субјекти, резултатите од тестот обично ќе бидат подобри. отколку кај група слабо обучени субјекти. Во овој поглед, останува отворено прашањето за големината на мерката за тешкотија на задачата за општата популација на субјекти. Проблемот е што вистински емпириски податоци се добиваат од сосема случајни примероци на субјекти. По правило, тоа се студиски групи кои претставуваат мноштво студенти кои доста силно комуницираат меѓу себе во процесот на учење и учат во услови кои често не се повторуваат за другите групи.

Ќе најдеме и Еод равенката (3.1.4)

Овде е експлицитно прикажана зависноста на точноста на мерењето од стандардното отстапување s Xи за веродостојноста на тестот р.

Апликациите, целите и целите на тестирањето на софтверот се различни, така што тестирањето се оценува и објаснува на различни начини. Понекогаш им е тешко на самите тестери да објаснат што е тестирање на софтвер „како што е“. Настанува конфузија.

За да ја разреши оваа конфузија, Алексеј Баранцев (практичар, тренер и консултант за тестирање на софтвер; родум од Институтот за системско програмирање на Руската академија на науките) му претходи на неговите обуки за тестирање со воведно видео за главните одредби за тестирање.

Ми се чини дека во овој извештај предавачот можеше најадекватно и најбалансирано да објасни „што е тестирање“ од гледна точка на научник и програмер. Чудно е што овој текст сè уште не се појавил на Хабре.

Овде давам кондензирано прераскажување на овој извештај. На крајот од текстот има линкови до целосната верзија, како и до споменатото видео.

Основи за тестирање

Драги колеги,

Прво, да се обидеме да разбереме што НЕ е тестирањето.

Тестирањето не е развој,

Дури и ако тестерите знаат како да програмираат, вклучувајќи тестови (тестирање на автоматизација = програмирање), тие можат да развијат некои помошни програми (за себе).

Сепак, тестирањето не е активност за развој на софтвер.

Тестирањето не е анализа,

А не активноста на собирање и анализа на барањата.

Иако, за време на процесот на тестирање, понекогаш треба да ги разјасните барањата, а понекогаш да ги анализирате. Но, оваа активност не е главната, туку треба да се направи едноставно од потреба.

Тестирањето не е управување,

И покрај фактот дека во многу организации постои таква улога како „тест менаџер“. Се разбира, тестерите треба да се управуваат. Но, тестирањето само по себе не е управување.

Тестирањето не е техничко пишување,

Сепак, тестерите треба да ги документираат своите тестови и нивната работа.

Тестирањето не може да се смета за една од овие активности само затоа што за време на процесот на развој (или анализирање на барањата или пишување документација за нивните тестови), тестерите ја вршат целата оваа работа за мене, а не за некој друг.

Една активност е значајна само кога е на побарувачката, односно тестерите мора да произведат нешто „за извоз“. Што прават „за извоз“?

Дефекти, описи на дефекти или извештаи за тестирање? Ова е делумно точно.

Но, ова не е целата вистина.

Главните активности на тестерите

е тоа што на учесниците во софтверскиот проект им обезбедуваат негативни повратни информации за квалитетот на софтверскиот производ.

„Негативните повратни информации“ немаат никаква негативна конотација и не значи дека тестерите прават нешто лошо или дека прават нешто лошо. Тоа е само технички термин што значи прилично едноставна работа.

Но, оваа работа е многу значајна, и веројатно единствената најзначајна компонента на активностите на тестерите.

Постои наука - „теорија на системи“. Тој го дефинира концептот на „повратна информација“.

„Повратни информации“ се некои податоци што се враќаат на влезот од излезот, или некој дел од податоците што се враќаат на влезот од излезот. Овој фидбек може да биде позитивен или негативен.

И двата типа на повратни информации се подеднакво важни.

Во развојот на софтверски системи, позитивните повратни информации се, се разбира, некој вид на информации што ги добиваме од крајните корисници. Тоа се барања за некоја нова функционалност, ова е зголемување на продажбата (ако пуштиме квалитетен производ).

Негативните повратни информации можат да дојдат и од крајните корисници во форма на некои негативни критики. Или може да дојде од тестери.

Колку побрзо се обезбеди негативна повратна информација, толку помалку енергија е потребна за да се измени тој сигнал. Тоа е причината зошто тестирањето треба да започне што е можно порано, во најраните фази на проектот, и да ги обезбеди овие повратни информации и во фазата на дизајнирање и, можеби, дури и порано, во фазата на собирање и анализа на барањата.

Патем, тука расте разбирањето дека тестерите не се одговорни за квалитетот. Тие им помагаат на оние кои се одговорни за тоа.

Синоними за терминот „тестирање“

Од гледна точка дека тестирањето е обезбедување на негативни повратни информации, светски познатата кратенка QA (Quality Assurance) дефинитивно НЕ е синоним за терминот „тестирање“.

Само давање негативни повратни информации не може да се смета за обезбедување на квалитет, бидејќи гаранцијата е некои позитивни мерки. Разбирливо е дека во овој случај обезбедуваме квалитет и преземаме навремени мерки за да обезбедиме подобрување на квалитетот на развојот на софтверот.

Но, „контрола на квалитет“ - Контрола на квалитет, може да се смета во широка смисла како синоним за терминот „тестирање“, бидејќи контролата на квалитетот е обезбедување на повратни информации во нејзините најразновидни сорти, во различни фази на софтверски проект.

Понекогаш тестирањето се подразбира како посебна форма на контрола на квалитетот.

Конфузијата доаѓа од историјата на развојот на тестирањето. Во различни времиња, терминот „тестирање“ значеше различни дејства кои можат да се поделат во 2 големи класи: надворешни и внатрешни.

Надворешни дефиниции

Дефинициите кои Мајерс, Бејзер и Канер ги дадоа во различни времиња го опишуваат тестирањето токму од гледна точка на неговото НАДВОРЕШНО значење. Односно, од нивна гледна точка, тестирањето е активност која е наменета ЗА нешто, а не се состои од нешто. Сите три од овие дефиниции може да се сумираат како давање негативна повратна информација.

Внатрешни дефиниции

Ова се дефиниции кои се содржани во стандард за терминологија што се користи во софтверското инженерство, како што е де факто стандардот наречен SWEBOK.

Ваквите дефиниции конструктивно објаснуваат КАКВА е активноста за тестирање, но не даваат ни најмала идеја за тоа ЗОШТО е потребно тестирање, за што потоа ќе се користат сите резултати добиени од проверката на кореспонденцијата помеѓу вистинското однесување на програмата и нејзиното очекувано однесување. .

тестирањето е

проверка на усогласеноста на програмата со барањата,
врши со набљудување на неговата работа
во посебни, вештачки создадени ситуации, избрани на одреден начин.

Оттука натаму, ова ќе го сметаме за работна дефиниција за „тестирање“.

Општата шема за тестирање е приближно како што следува:

Тестерот ја добива програмата и/или барањата на влезот.
Тој прави нешто со нив, ја набљудува работата на програмата во одредени ситуации вештачки создадени од него.
На излезот добива информации за совпаѓања и несовпаѓања.
Овие информации потоа се користат за подобрување на постоечката програма. Или со цел да се променат барањата за програма што сè уште се развива.

Што е тест

Ова е посебна, вештачки создадена ситуација, избрана на одреден начин,
и опис на тоа какви забелешки да се направат за работата на програмата
да провери дали исполнува некои барања.

Нема потреба да се претпоставува дека ситуацијата е нешто моментално. Тестот може да биде доста долг, на пример, кога се тестираат перформансите, оваа вештачки создадена ситуација може да биде оптоварување на системот што продолжува доста долго. А набљудувањата што треба да се направат се збир од различни графикони или метрики што ги мериме за време на извршувањето на овој тест.

Развивачот на тестови е ангажиран во изборот на ограничен сет од огромен, потенцијално бесконечен сет на тестови.

Па, така можеме да заклучиме дека тестерот прави две работи во текот на процесот на тестирање.

1. Прво, го контролира извршувањето на програмата и ги создава овие многу вештачки ситуации во кои ќе го провериме однесувањето на програмата.

2. И, второ, го набљудува однесувањето на програмата и го споредува она што го гледа со она што се очекува.

Ако тестерот ги автоматизира тестовите, тогаш тој самиот не го набљудува однесувањето на програмата - тој ја делегира оваа задача на посебна алатка или специјална програма што тој самиот ја напишал. Таа е таа што набљудува, го споредува набљудуваното однесување со очекуваното, а на тестерот му дава само некој конечен резултат - дали набљудуваното однесување се совпаѓа со очекуваното или не се совпаѓа.

Секоја програма е механизам за обработка на информации. Влезот е информација во една форма, а излезот е информација во некоја друга форма. Во исто време, програмата може да има многу влезови и излези, тие можат да бидат различни, односно програмата може да има неколку различни интерфејси, а овие интерфејси можат да имаат различни типови:

Кориснички интерфејс (UI)
Програмски интерфејс за апликации (API)
Мрежен протокол
Датотечниот систем
Состојба на животната средина
Настани

Најчестите интерфејси се

обичај,
графички,
текст,
конзолен,
и говорот.

Користејќи ги сите овие интерфејси, тестерот:

некако создава вештачки ситуации,
и проверува како се однесува програмата во овие ситуации.

Ова е тестирање.

Други класификации на типови на тестирање

Најчесто користена поделба на три нивоа е

единица тестирање,
интеграциско тестирање,
системско тестирање.

Тестирањето на единици обично значи тестирање на прилично ниско ниво, односно тестирање на поединечни операции, методи и функции.

Системското тестирање се однесува на тестирање на ниво на кориснички интерфејс.

Понекогаш се користат и некои други термини, како што е „тестирање на компоненти“, но јас претпочитам да ги истакнам овие три, поради фактот што технолошката поделба помеѓу тестирањето на единицата и системот нема многу смисла. Истите алатки и истите техники може да се користат на различни нивоа. Поделбата е условена.

Практиката покажува дека алатките што се позиционирани од производителот како алатки за тестирање на единици може да се користат со еднаков успех на ниво на тестирање на целата апликација како целина.

И алатките што ја тестираат целата апликација на ниво на кориснички интерфејс понекогаш сакаат да погледнат, на пример, во базата на податоци или да повикаат некоја посебна зачувана процедура таму.

Односно, поделбата на тестирање на системот и единицата е генерално кажано чисто условно, зборувајќи од техничка гледна точка.

Се користат истите алатки, и тоа е нормално, се користат истите техники, на секое ниво можеме да зборуваме за тестирање од различен тип.

Ние комбинираме:

Односно, можеме да зборуваме за единечно тестирање на функционалноста.

Можеме да зборуваме за системско тестирање на функционалноста.

Можеме да зборуваме за тестирање на единици, на пример, ефикасност.

Можеме да зборуваме за тестирање на ефективноста на системот.

Или ја разгледуваме ефективноста на еден алгоритам, или ја разгледуваме ефективноста на целиот систем како целина. Односно, технолошката поделба на единица и системско тестирање нема многу смисла. Бидејќи истите алатки, истите техники може да се користат на различни нивоа.

Конечно, за време на тестирањето за интеграција, проверуваме дали во рамките на системот, модулите правилно комуницираат едни со други. Односно, ние всушност ги извршуваме истите тестови како за време на тестирањето на системот, само што дополнително обрнуваме внимание на тоа како точно модулите комуницираат едни со други. Вршиме дополнителни проверки. Тоа е единствената разлика.

Дозволете ни уште еднаш да се обидеме да ја разбереме разликата помеѓу тестирањето на системот и единицата. Бидејќи оваа поделба се случува доста често, оваа разлика треба да постои.

И оваа разлика се манифестира кога не вршиме технолошка класификација, туку класификација по наменатестирање.

Класификацијата по голови може лесно да се направи со помош на „волшебниот квадрат“, кој првично беше измислен од Брајан Марик, а потоа подобрен од Ари Тенен.

Во овој магичен квадрат, сите видови тестирања се сместени во четири квадранти, во зависност од тоа на што повеќе внимание посветуваат тестовите.

Вертикално - колку е повисок типот на тестирање, толку повеќе се посветува внимание на некои надворешни манифестации на однесувањето на програмата, толку е пониско, толку повеќе внимание посветуваме на нејзината внатрешна технолошка структура на програмата.

Хоризонтално - колку лево се нашите тестови, толку повеќе внимание посветуваме на нивното програмирање, толку подалеку се тие надесно, толку повеќе внимание посветуваме на рачното тестирање и човечките истражувања на програмата.

Конкретно, термините како што се тестирање за прифаќање, тестирање за прифаќање и тестирање единица може лесно да се внесат во овој квадрат во смисла во која најчесто се користи во литературата. Ова е тестирање на ниско ниво со голем, огромно учество на програмирање. Односно, сите тестови се програмирани, целосно автоматски се извршуваат и се посветува внимание пред се на внатрешната структура на програмата, токму на нејзините технолошки карактеристики.

Во горниот десен агол ќе имаме рачни тестови насочени кон некое надворешно однесување на програмата, особено, тестирање на употребливоста, а во долниот десен агол најверојатно ќе имаме тестови за различни нефункционални својства: перформанси, безбедност и сл. на.

Значи, врз основа на класификацијата по намена, тестирањето на единицата е во долниот лев квадрант, а сите други квадранти се системско тестирање.

Ви благодариме за вниманието.