Как се прави корелационен анализ в статистиката. Силни и слаби

Математически методи за анализ и прогнозиране

Корелационен анализ

Въведение

2. Регресионен анализ

3. Факторен анализ

4. Клъстерен анализ

5. Анализ на динамиката и прогнозиране на социалните и правни процеси

Заключение

Възможни са два вида зависимости между социално-икономическите явления и процеси: функционална и стохастична. At или други параметри, характеризиращи различни явления. Примери за този вид зависимост практически не се срещат в социалната среда.

При стохастична (вероятностна) зависимост определена стойност на зависимата променлива съответства на набор от стойности на обяснителната променлива. Това се дължи преди всичко на факта, че зависимата променлива се влияе от редица неотчетени фактори. В допълнение, грешките в измерването на променливите оказват влияние: поради случайното разпръскване на стойностите, техните стойности могат да бъдат посочени само с определена вероятност.

В социално-икономическата сфера трябва да се сблъскаме с много явления, които имат вероятностен характер. По този начин броят на извършените и разкрити престъпления за определен период от време, броят на пътните произшествия във всеки регион за определено време са случайни променливи.

За изследване на стохастичните връзки има специални методи, по-специално корелационен анализ („корелацията“ е връзка, връзка между съществуващи явления и процеси).

Корелационен анализ- това е използването в определена последователност на набор от статистически методи за обработка на информация, което позволява да се изследват връзките между различни характеристики.

Задачата на корелационния анализкато метод на математическата статистика е да се установи формата и посоката на връзката, както и да се измери близостта на тази връзка между изследваните случайни характеристики.

В статистиката големината на линейната връзка между две характеристики се измерва с помощта на проста (извадка) коефициент на корелация. Големината на линейната зависимост на една променлива от няколко други се измерва с множествения коефициент след елиминиране на частта от линейната зависимост, дължаща се на връзката на тези променливи с други променливи.

По форма корелационните връзки могат да бъдат линейни (праволинейни) и нелинейни (криволинейни), а по посока

Директна връзкапоказва, че с увеличаване (намаляване) на стойностите на една характеристика, стойностите на друга характеристика се увеличават (намаляват). При обратна връзкаУвеличаването (намаляването) на стойностите на една характеристика води до намаляване (увеличаване) на стойностите на друга характеристика.



Основната задача на корелационния анализ- измерване на плътността на връзката - решава се чрез изчисляване на различни коефициенти на корелация и проверка на тяхната значимост.

Коефициентът на корелация може да приема стойности от 0 до +1 за пряка връзка и от -1 до 0 за обратна връзка. При коефициенти близки до 0 се счита, че няма статистическа линейна връзка между характеристиките; с абсолютни стойности на коефициентите по-малки от 0,3, връзката е слаба; при стойности от 0,3...0,5 връзката е умерена; при 0,5...0,7 - връзката е значима; при 0,7...0,9 - връзката е силна; ако стойностите на коефициента са по-големи от 0,9, тогава връзката се счита за много силна; ако коефициентите са равни на +1 или -1, тогава говорим за функционална връзка (което практически не се среща в статистическите изследвания).

Такава опростена оценка на силата на връзката обаче не винаги е правилна, тъй като степента на увереност в наличието на статистическа връзка зависи от размера на изследваната популация. Колкото по-малък е обемът на съвкупността, толкова по-голяма трябва да е стойността на корелационния коефициент, за да се приеме хипотезата за наличие на връзка между признаците. За да се измери количествено степента на увереност в съществуването на линейна статистическа връзка между характеристиките, понятията ниво на значимостИ прагови (критични) стойностикоефициент на корелация.

Проверка на значимосттаПолученият коефициент на корелация се състои от сравняване на изчислената стойност с критичната стойност. За даден брой измервания и определено ниво на значимост се намира критична стойност и се сравнява с изчислената. Ако изчислената стойност е по-голяма от критичната, тогава връзката е значима; ако е по-малка, тогава връзката или липсва (и тази стойност на корелационния коефициент се обяснява със случайни отклонения), или извадката е малка за идентифициране то.

За определяне на съществуването и големината на линейна връзкамежду две променливи X и Y е необходимо да се извършат две процедури. Първият е да изобразите графично точките [(Xi,Yi),i=1,n] на равнината. Получената графика се нарича валидност на предположението за линейна зависимост между променливите. Ако такова предположение е приемливо, тогава е необходимо да се изрази в количествена форма величината на линейната връзка. За да направите това, се използва коефициентът на корелация на извадката:

където n е броят на измерванията, Xi,Yi са i-тата стойност, X,Y са средните стойности, sx, sy са стандартните отклонения на променливите X и Y, съответно.

В теорията на статистическия анализ корелационната връзка се определя като линейна зависимост при условия на нормално разпределение на анализираните променливи. Следователно, за правилното прилагане на корелационните методи е необходимо да се обоснове близостта на разпределението на променливите до нормалното и формата на връзката до линейната. В противен случай е необходимо да се използват по-сложни техники за анализ или други коефициенти на свързване.

Доста прост изчислително лесен начин за проверка на нормалността на емпирично разпределение е да се оцени следното съотношение:

,

където C е средното абсолютно отклонение, s е стандартното отклонение.

Ако посоченото неравенство е изпълнено, тогава можем да говорим за нормалността на емпиричните разпределения и коректността на използването на коефициента на корелация като мярка за линейна статистическа връзка между променливите.

Като цяло нивото на престъпността се влияе от много фактори. Те включват социално-икономически, географски и климатични, демографски и др., Както и признаци, характеризиращи силите и средствата, степента на организация на органа на вътрешните работи.

Въпреки това, дори ако има силна статистически значима връзка между две променливи, човек не може да бъде напълно сигурен в тяхната причинно-следствена връзка, тъй като може да има други причини (фактори), които определят съвместната им статистическа връзка. Статистическите заключения винаги трябва да бъдат подкрепени от солидна теоретична рамка.

В същото време липсата на статистически значима връзка не показва липсата на причинно-следствена връзка, а принуждава да се търсят други начини и средства за идентифицирането й, ако съществената концепция и практическият опит показват нейната възможна съществуване.

Концепцията за взаимовръзка е доста често срещана в психологическите изследвания. Психологът трябва да работи с него, когато стане необходимо да се сравнят измерванията на два или повече показателя на признаци или явления, за да се направят някакви заключения.

Характерът на връзката между изучаваните явления може да бъде недвусмислен, т.е. такива, когато определена стойност на една характеристика съответства на ясна и определена стойност на друга. Така например в подтеста за търсене на модели в тестове за умствени функции броят на получените „сурови“ точки се определя по формулата:
Xi = Stz - Soz / Stz + Spz * Sbc,
където Xi е стойността на опцията, Stz е броят на априорно определени модели (съответствия) в подтеста, Soz е броят на погрешно посочените съответствия на участниците в теста, Sz е броят на неуточнените (пропуснати) съвпадения с участници в теста, Sbс е броят на всички думи, прегледани от участниците в теста.

Тази връзка се нарича функционална: тук един показател е функция на друг, който е аргумент по отношение на първия.

Въпреки това, не винаги се намира недвусмислена, ясна връзка. По-често се сблъскваме със ситуация, при която една стойност на характеристика може да съответства на няколко стойности на друга. Тези стойности варират в повече или по-малко определени граници. Този тип връзка се нарича корелационна или корелативна.

Използват се няколко вида изразяване на корелационни връзки. По този начин, за да се изрази връзката между характеристиките, които имат количествен характер на вариране на техните стойности, се използват мерки за централна тенденция: таблица с последващо изчисляване на коефициента на корелация на двойката, коефициент на множествена и частична корелация, коефициент на множествена детерминация, съотношение на корелация.

Ако е необходимо да се изследва връзката между характеристиките, чиято вариация е от качествен характер (резултатите от проективни методи за изследване на личността, изследвания, използващи метода на семантичния диференциал, изследвания, използващи отворени скали и т.н.), тогава използвайте качествени алтернативен коефициент на корелация (тетрахоричен показател), критерият на Пиърсън х2, индикаторите за контингентност на Пиърсън и Чупров.

За определяне на качествено-количествена корелация, т.е. такава корелация, когато едната характеристика има качествена вариация, а другата - количествена. Използват се специални методи.

Коефициентът на корелация (терминът е въведен за първи път от Ф. Галтън през 1888 г.) е индикатор за силата на връзката между две сравнени варианти на извадка (извадки). Независимо от формулата, използвана за изчисляване на коефициента на корелация, неговата стойност варира от -1 до +1. В случай на напълно положителна корелация този коефициент е плюс 1, а в случай на напълно отрицателна корелация е минус 1. Обикновено това е права линия, минаваща през точките на пресичане на стойностите на всеки двойка данни.

Ако стойностите на варианта не се подреждат на права линия, а образуват „облак“, тогава коефициентът на корелация в абсолютна стойност става по-малък от единица и, тъй като „облакът“ се закръгля, се доближава до нула. Ако коефициентът на корелация е 0, и двете опции са напълно независими една от друга.

Всяка изчислена (емпирична) стойност на коефициента на корелация трябва да бъде проверена за надеждност (статистическа значимост), като се използват съответните таблици с критични стойности на коефициента на корелация. Ако емпиричната стойност е по-малка или равна на стойността в таблицата на ниво 5 процента (P = 0,05), корелацията не е значима. Ако изчислената стойност на корелационния коефициент е по-голяма от табличната стойност за P = 0,01, корелацията е статистически значима (надеждна).

В случай, че стойността на коефициента е между 0,05 > P > 0,01, на практика се говори за значимост на корелацията за P = 0,05.

Коефициентът на корелация на Bravais-Pearson (r) е параметричен индикатор, предложен през 1896 г., за чието изчисляване се сравняват средни аритметични и средни квадратни стойности. За да изчислите този коефициент, използвайте следната формула (може да изглежда различно за различните автори):
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,

където E Xi Xi1 е сумата от продуктите на стойностите на сравними по двойки опции, n е броят на сравняваните двойки, NXap, X1ap са средните аритметични на опцията Xi, Xi; съответно, Qx, Qx, са стандартните отклонения на разпределенията x и x.

Коефициентът на рангова корелация на Спирман Rs (коефициент на рангова корелация, Spearman's coefficient) е най-простата форма на корелационен коефициент и измерва връзката между ранговете (местата) на дадена опция според различни характеристики, без да отчита собствената си стойност. Това, което се изследва тук, е по-скоро качествена, отколкото количествена връзка.

Обикновено този непараметричен критерий се използва в случаите, когато е необходимо да се направят изводи не толкова за интервалите между данните, колкото за техните рангове, а също и когато кривите на разпределение са изключително асиметрични и не позволяват използването на такива параметрични критерии като коефициентът на корелация на Bravais-Pearson (в тези случаи може да се наложи количествените данни да се преобразуват в редови данни). Ако коефициентът Rs е близо до +1, това означава, че двата реда на извадката, класирани по определени признаци, практически съвпадат, а ако този коефициент е близо до -1, можем да говорим за пълна обратна връзка.

Подобно на изчислението на коефициента на корелация на Bravais-Pearson, изчисленията на коефициента Rs са по-удобно представени в таблична форма.

Регресията обобщава концепцията за функционална връзка в случай на стохастичен (вероятностен) характер на зависимостта между стойностите на варианта. Целта на решаването на категорията регресионни проблеми е да се оцени стойността на непрекъснатата променливост на изхода въз основа на стойностите на входните опции.

Корелационен анализ

Корелация- статистическа връзка между две или повече случайни променливи (или променливи, които могат да се считат за такива с някаква приемлива степен на точност). Освен това промените в една или повече от тези величини водят до систематична промяна в друга или други величини. Математически измерител на корелацията между две случайни променливи е коефициентът на корелация.

Корелацията може да бъде положителна и отрицателна (възможно е и да няма статистическа връзка – например за независими случайни променливи). Отрицателна корелация - корелация, при която увеличението на една променлива е свързано с намаляване на друга променлива, а коефициентът на корелация е отрицателен. Положителна корелация - корелация, при която увеличението на една променлива е свързано с увеличение на друга променлива и коефициентът на корелация е положителен.

Автокорелация - статистическа връзка между случайни величини от една и съща серия, но взети с изместване, например за случаен процес - с изместване във времето.

Нека X,Y- две случайни променливи, дефинирани в едно вероятностно пространство. Тогава техният коефициент на корелация се дава по формулата:

,

където cov означава ковариация, а D е дисперсия или еквивалентно,

,

където символът означава математическото очакване.

За да представите графично такава връзка, можете да използвате правоъгълна координатна система с оси, които съответстват на двете променливи. Всяка двойка стойности е маркирана със специфичен символ. Тази графика се нарича „точкова диаграма“.

Методът за изчисляване на коефициента на корелация зависи от вида на скалата, към която принадлежат променливите. По този начин, за измерване на променливи с интервални и количествени скали, е необходимо да се използва корелационният коефициент на Pearson (корелация на момента на продукта). Ако поне една от двете променливи е на порядъчна скала или не е нормално разпределена, трябва да се използва ранговата корелация на Spearman или τ (tau) на Kendal. В случай, че една от двете променливи е дихотомна, се използва точкова бисериална корелация, а ако и двете променливи са дихотомна: корелация с четири полета. Изчисляването на коефициента на корелация между две недихотомични променливи има смисъл само когато връзката между тях е линейна (еднопосочна).

Коефициент на корелация на Kendell

Използва се за измерване на взаимно разстройство.

Коефициент на корелация на Спирман

Свойства на коефициента на корелация

ако приемем ковариацията като скаларно произведение на две случайни променливи, тогава нормата на случайната променлива ще бъде равна на , а следствието от неравенството на Коши-Буняковски ще бъде: . , Къде . Освен това в този случай знаците и кмач: .

Корелационен анализ

Корелационен анализ- метод за обработка на статистически данни, който се състои в изучаване на коефициенти ( корелации) между променливи. В този случай коефициентите на корелация между една двойка или много двойки характеристики се сравняват, за да се установят статистически връзки между тях.

Цел корелационен анализ- предоставяне на информация за една променлива с помощта на друга променлива. В случаите, когато е възможно да се постигне цел, се казва, че променливите са корелират. В най-общата си форма приемането на хипотезата за корелация означава, че промяна в стойността на променлива А ще настъпи едновременно с пропорционална промяна в стойността на В: ако и двете променливи се увеличат, тогава корелацията е положителна, ако едната променлива нараства, а другата намалява, корелацията е отрицателна.

Корелацията отразява само линейната зависимост на стойностите, но не отразява функционалната им свързаност. Например, ако изчислите коефициента на корелация между количествата А = sазп(х) И б = cоs(х) , тогава тя ще бъде близка до нула, т.е. няма зависимост между количествата. Междувременно количествата A и B очевидно са свързани функционално според закона sазп 2 (х) + cоs 2 (х) = 1 .

Ограничения на корелационния анализ

Графики на разпределения на двойки (x,y) със съответните корелационни коефициенти x и y за всяка от тях. Имайте предвид, че коефициентът на корелация отразява линейна връзка (горен ред), но не описва крива на връзка (средна линия) и изобщо не е подходящ за описание на сложни, нелинейни връзки (долна линия).

  1. Прилагането е възможно, ако има достатъчен брой случаи за изследване: за определен тип коефициентът на корелация варира от 25 до 100 двойки наблюдения.
  2. Второто ограничение следва от хипотезата за корелационен анализ, която включва линейна зависимост на променливите. В много случаи, когато е надеждно известно, че съществува връзка, корелационният анализ може да не даде резултати просто защото връзката е нелинейна (изразена, например, като парабола).
  3. Самият факт на корелация не дава основание да се твърди коя от променливите предшества или причинява промени, или че променливите като цяло са причинно свързани една с друга, например поради действието на трети фактор.

Обхват на приложение

Този метод за обработка на статистически данни е много популярен в икономиката и социалните науки (по-специално в психологията и социологията), въпреки че обхватът на приложение на коефициентите на корелация е обширен: контрол на качеството на промишлени продукти, металургия, агрохимия, хидробиология, биометрия и др.

Популярността на метода се дължи на два фактора: коефициентите на корелация са сравнително лесни за изчисляване и използването им не изисква специална математическа подготовка. В комбинация с лекотата на тълкуване, лекотата на прилагане на коефициента доведе до широкото му използване в областта на статистическия анализ на данни.

Фалшива корелация

Често примамливата простота на изследването на корелацията насърчава изследователя да прави фалшиви интуитивни заключения за наличието на причинно-следствена връзка между двойки характеристики, докато коефициентите на корелация установяват само статистически връзки.

В съвременната количествена методология на социалните науки всъщност е имало изоставяне на опитите за установяване на причинно-следствени връзки между наблюдаваните променливи с помощта на емпирични методи. Следователно, когато изследователите в социалните науки говорят за установяване на връзки между изследваните променливи, се подразбира или общо теоретично предположение, или статистическа зависимост.

Вижте също

Фондация Уикимедия.

2010 г.

    Вижте КОРЕЛАЦИОНЕН АНАЛИЗ. Антинази. Енциклопедия по социология, 2009 ... Енциклопедия по социология

    Клон на математическата статистика, който съчетава практически методи за изследване на корелацията между две (или повече) случайни характеристики или фактори. Вижте Корелация (в математическата статистика)... Голям енциклопедичен речник

    КОРЕЛАЦИОНЕН АНАЛИЗ, раздел от математическата статистика, който съчетава практически методи за изследване на корелацията между две (или повече) случайни характеристики или фактори. Вижте корелация (вижте КОРЕЛАЦИЯ (взаимна връзка ... Енциклопедичен речник

    Корелационен анализ- (в икономиката) клон на математическата статистика, който изучава връзките между променящите се количества (корелацията е съотношение, от латинската дума correlatio). Връзката може да бъде пълна (т.е. функционална) и непълна,... ... Икономико-математически речник

    корелационен анализ- (в психологията) (от латински съотношение корелация) статистически метод за оценка на формата, знака и близостта на връзката между характеристиките или факторите, които се изучават. При определяне на формата на връзката се взема предвид нейната линейност или нелинейност (т.е. като средно... ... Голяма психологическа енциклопедия

    корелационен анализ- - [L.G.Sumenko. Английско-руски речник по информационни технологии. М .: Държавно предприятие ЦНИИС, 2003.] Теми информационни технологии като цяло EN корелационен анализ ... Ръководство за технически преводач

    корелационен анализ- koreliacinė analizė statusas T sritis Kūno kultūra ir sportas apibrėžtis Statistikos metodas, kuriuo įvertinami tiriamųjų asmenų, reiškinių požymiai arba veiksnių santykiai. атитикменйс: англ. корелационни изследвания вок. Analyse der Correlation, f;… … Sporto terminų žodynas

    Набор от методи, базирани на математическата теория на корелацията (виж Корелация) за откриване на корелация между две случайни характеристики или фактора. К. а. експерименталните данни включват следното...... Велика съветска енциклопедия

    Математически раздел статистика, съчетаваща практ Корелативни методи на изследване. зависимости между две (или повече) случайни характеристики или фактори. Вижте корелация... Голям енциклопедичен политехнически речник

Статията разглежда дефинициите на корелация, корелационен анализ и корелационен коефициент. Дадена е дефиниция на корелацията и нейните основни характеристики.

  • Корелационен и регресионен анализ при изследване на факторите на раждаемостта
  • Оценка на факторите на раждаемостта в Република Башкортостан

Изследователите често се интересуват от това как две или повече променливи са свързани една с друга в една или повече изследвани проби. Например, такава връзка може да се наблюдава между грешката в хардуерната обработка на експериментални данни и големината на пренапреженията на мрежовото напрежение. Друг пример е връзката между капацитета на връзката за данни и съотношението сигнал/шум.

През 1886 г. английският натуралист Франсис Галтън въвежда термина „корелация“, за да опише природата на този вид взаимодействие. По-късно неговият ученик Карл Пиърсън разработи математическа формула, която позволява да се определят количествено корелациите на чертите.

Зависимостите между величините (фактори, характеристики) се делят на два вида: функционални и статистически.

При функционалните зависимости всяка стойност на една променлива съответства на определена стойност на друга променлива. Освен това функционалната връзка на два фактора е възможна само при условие, че второто количество зависи само от първото и не зависи от никакви други количества. Ако дадено количество зависи от много фактори, функционална връзка е възможна, ако първото количество не зависи от други фактори, различни от тези, включени в определения набор.

При статистическата зависимост промяната в една от величините води до промяна в разпределението на други величини, които с определени вероятности приемат определени стойности.

Друг частен случай на статистическа зависимост представлява много по-голям интерес, когато има връзка между стойностите на едни случайни величини и средната стойност на други, с тази особеност, че във всеки отделен случай всяка от взаимосвързаните стойности може да заеме различни стойности.

Този вид зависимост между променливите се нарича корелация или корелация.

Корелационният анализ е метод, който позволява да се открие връзка между няколко случайни променливи.

Корелационният анализ решава два основни проблема:

  • Първата задача е да се определи формата на комуникация, т.е. при установяване на математическата форма, в която се изразява тази връзка. Това е много важно, тъй като крайният резултат от изследването на връзката между характеристиките зависи от правилния избор на формата на комуникация.
  • Втората задача е да се измери струпването, т.е. мерки за връзка между характеристиките, за да се установи степента на влияние на даден фактор върху резултата. Решава се математически чрез определяне на параметрите на корелационното уравнение.

След това получените резултати се оценяват и анализират с помощта на специални показатели на корелационния метод (коефициенти на детерминация, линейна и множествена корелация и др.), Както и проверка на значимостта на връзката между изследваните характеристики.

С помощта на методите на корелационен анализ се решават следните проблеми:

  1. Връзка. Има ли връзка между параметрите?
  2. Прогнозиране. Ако поведението на един параметър е известно, тогава може да се предвиди поведението на друг параметър, който корелира с първия.
  3. Класификация и идентификация на обекти. Корелационният анализ помага да се избере набор от независими характеристики за класификация.

Корелацията е статистическа връзка между две или повече случайни променливи (или стойности, които могат да се считат за такива с някаква приемлива степен на точност). Същността му се състои в това, че когато стойността на една променлива се промени, настъпва естествена промяна (намаляване или увеличаване) на друга променлива.

Коефициентът на корелация се използва, за да се определи дали има връзка между две свойства.

Коефициентът на корелация p за общата популация по правило е неизвестен, така че се оценява от експериментални данни, които са извадка от n двойки стойности (x i, y i), получени чрез съвместно измерване на две характеристики X и Y Коефициентът на корелация, определен от извадкови данни, се нарича извадков коефициент на корелация (или просто коефициент на корелация). Обикновено се обозначава със символа r.

Основните свойства на коефициента на корелация включват:

  1. Коефициентите на корелация могат да характеризират само линейни зависимости, т.е. тези, които се изразяват чрез уравнението на линейна функция. Ако има нелинейна връзка между различни характеристики, трябва да се използват други индикатори за връзка.
  2. Стойностите на коефициентите на корелация са абстрактни числа в диапазона от -1 до +1, т.е. -1< r < 1.
  3. При независимо изменение на характеристиките, когато няма връзка между тях, r = 0.
  4. При положителна или директна връзка, когато с увеличаване на стойностите на една характеристика стойностите на друга се увеличават, коефициентът на корелация придобива положителен (+) знак и варира от 0 до +1, т.е. 0< r < 1.
  5. При отрицателна или обратна връзка, когато с увеличаване на стойностите на една характеристика стойностите на друга намаляват съответно, коефициентът на корелация е придружен от отрицателен (–) знак и варира от 0 до –1, т.е. -1< r <0.
  6. Колкото по-силна е връзката между характеристиките, толкова по-близък е коефициентът на корелация до ô1ô. Ако r = ± 1, тогава корелационната връзка става функционална, т.е. Всяка стойност на атрибут X ще съответства на една или повече строго определени стойности на атрибут Y.
  7. Надеждността на корелацията между характеристиките не може да се съди единствено по величината на корелационните коефициенти. Този параметър зависи от броя на степените на свобода k = n –2, където: n е броят на корелираните двойки показатели X и Y. Колкото по-голямо е n, толкова по-висока е надеждността на връзката при същата стойност на коефициента на корелация .

Коефициентът на корелация се изчислява по следната формула:

където x е стойността на факторната характеристика; y - стойността на резултантния атрибут; n - брой двойки данни.

Корелацията се изследва на базата на експериментални данни, които са измерените стойности x i ,y i на два признака x,y. Ако има сравнително малко експериментални данни, тогава двумерното емпирично разпределение се представя като двойна серия от стойности x i, y i. В същото време корелационната зависимост между характеристиките може да бъде описана по различни начини. Съответствието между аргумент и функция може да се даде чрез таблица, формула, графика и др.

Когато се изучава корелацията между количествени признаци, чиито стойности могат да бъдат точно измерени в единици от метрични скали, много често се приема модел на двумерна нормално разпределена популация. Такъв модел показва връзката между променливите x и y графично под формата на геометрично местоположение на точки в правоъгълна координатна система. Тази графична връзка се нарича точечна диаграма или корелационно поле.

Този модел на двумерно нормално разпределение (корелационно поле) ни позволява да дадем ясна графична интерпретация на коефициента на корелация, т.к. разпределението колективно зависи от пет параметъра:

  • математически очаквания E[x], E[y] на стойностите x,y;
  • стандартни отклонения px, py на случайни променливи x,y ;
  • коефициент на корелация p, който е мярка за връзката между случайните променливи x и y. Нека дадем примери за корелационни полета.

Ако p = 0, тогава стойностите x i ,y i , получени от двумерната нормална популация, са разположени на графиката в областта, ограничена от кръга. В този случай между случайните величини x и y няма корелация и те се наричат ​​некорелирани. За двумерно нормално разпределение некорелацията означава едновременно независимост на случайните променливи x и y.

Ако p = 1 или p = -1, тогава говорим за пълна корелация, тоест съществува линейна функционална зависимост между случайните величини x и y.

Когато p = 1, стойностите на x i,y i определят точки, разположени на права линия с положителен наклон (с увеличаване на x i, стойностите на y i също се увеличават).

В междинни случаи, когато -1< p <1, определяемые значениями x i ,y i точки попадают в область, ограниченную некоторым эллипсом, причём при p>0 има положителна корелация (с увеличаване на x, стойностите на y обикновено са склонни да се увеличават), с p<0 корреляция отрицательная. Чем ближе p к ±1, тем уже эллипс и тем теснее точки, определяемые экспериментальными значениями, группируются около прямой линии.

Тук трябва да обърнете внимание на факта, че линията, по която са групирани точките, може да бъде не само права, но и друга форма: парабола, хипербола и т.н. В тези случаи се разглежда нелинейната корелация.

Корелационната зависимост между характеристиките може да бъде описана по различни начини, по-специално всяка форма на връзка може да бъде изразена чрез общо уравнение y=f(x), където характеристиката y е зависима променлива или функция на независима променлива x, наречен аргумент.

По този начин визуалният анализ на корелационното поле помага да се определи не само наличието на статистическа връзка (линейна или нелинейна) между изследваните характеристики, но и нейната близост и форма.

Когато изучавате корелационна връзка, важна област на анализ е да се оцени степента на близост на връзката. Концепцията за степента на близост на връзката между две характеристики възниква поради факта, че в действителност много фактори влияят върху промяната в получената характеристика. В този случай влиянието на един от факторите може да бъде изразено по-забележимо и ясно от влиянието на други фактори. С промяната на условията ролята на решаващия фактор може да се измести към друга характеристика.

При статистическото изследване на връзките по правило се вземат предвид само основните фактори. Също така, като се вземе предвид степента на близост на връзката, се оценява необходимостта от по-подробно изследване на тази конкретна връзка и значението на нейното практическо използване.

Като цяло познаването на количествената оценка на близостта на корелацията ни позволява да решим следната група въпроси:

  • необходимостта от задълбочено изследване на тази връзка между знаците и осъществимостта на нейното практическо приложение;
  • степента на различията в проявлението на връзката в конкретни условия (сравняване на оценката за близостта на връзката за различни условия);
  • идентифициране на основни и второстепенни фактори в дадени специфични условия чрез последователно разглеждане и сравнение на черта с различни фактори.

Индикаторите за близост на връзката трябва да отговарят на редица основни изисквания:

  • стойността на показателя за близостта на връзката трябва да бъде равна или близка до нула, ако няма връзка между изследваните характеристики (процеси, явления);
  • ако има функционална връзка между изследваните характеристики, стойността на показателя за близостта на връзката трябва да бъде равна на единица;
  • ако има корелация между характеристиките, абсолютната стойност на показателя за близостта на връзката трябва да се изрази като правилна дроб, колкото по-голяма е стойността, толкова по-тясна е връзката между изследваните характеристики (клони към единица).

Корелационната зависимост се определя от различни параметри, сред които най-широко използвани са сдвоени показатели, характеризиращи връзката на две случайни променливи: ковариационен коефициент (корелационен момент) и линеен корелационен коефициент (коефициент на корелация на Пиърсън).

Силата на връзката се определя от абсолютната стойност на показателя за плътност на връзката и не зависи от посоката на връзката.

В зависимост от абсолютната стойност на корелационния коефициент p, корелациите между характеристиките се разделят по сила, както следва:

  • силен или стегнат (при р >0,70);
  • средно (при 0,50< p <0,69);
  • умерено (на 0,30 ч< p <0,49);
  • слаб (при 0,20< p <0,29);
  • много слаб (на стр<0,19).

Формата на корелационната връзка може да бъде линейна и нелинейна.

Например връзката между нивото на обучение на ученика и окончателните сертификационни оценки може да бъде линейна. Пример за нелинейна връзка е нивото на мотивация и ефективността от изпълнението на дадена задача. (Когато мотивацията се увеличава, ефективността от изпълнението на дадена задача първо се увеличава, след това при определено ниво на мотивация се постига максимална ефективност; но по-нататъшното повишаване на мотивацията е придружено от намаляване на ефективността.)

По посока корелационната връзка може да бъде положителна (директна) и отрицателна (обратна).

При положителна линейна корелация по-високите стойности на една характеристика съответстват на по-високи стойности на друга, а по-ниските стойности на една характеристика съответстват на по-ниски стойности на друга. При отрицателна корелация връзките са обърнати.

Знакът на коефициента на корелация зависи от посоката на корелацията: при положителна корелация коефициентът на корелация има положителен знак, при отрицателна корелация има отрицателен знак.

Референции

  1. Аблеева, А. М. Формиране на фонд от инструменти за оценяване в условията на Федералния държавен образователен стандарт [Текст] / А. М. Аблеева, Г. А. Салимова // Актуални проблеми на преподаването на социални, хуманитарни, природонаучни и технически дисциплини в контекста на модернизацията на висшите образование: материали международна научна и методическа конференция, 4-5 април 2014 г. / Башкирски държавен аграрен университет, Факултет по информационни технологии и управление. - Уфа, 2014. - стр. 11-14.
  2. Ганиева, А.М. Статистически анализ на заетостта и безработицата [Текст] / A.M. Ганиева, Т.Н. Любова // Актуални проблеми на икономико-статистическите изследвания и информационните технологии: сборник статии. научен Чл.: посветен на 40-годишнината от създаването на катедра „Статистика и информационни системи в икономиката“ / Башкирски държавен аграрен университет. - Уфа, 2011. - стр. 315-316.
  3. Исмагилов, Р. Р. Творческа група - ефективна форма за организиране на научни изследвания във висшето образование [Текст] / Р. Р. Исмагилов, М. Х. Уразлин, Д. Р. Исламгулов // Научни, технически и научно-образователни комплекси на региона: проблеми и перспективи за развитие: материали от научно-практическа конференция / Академия на науките на Република Беларус, UGATU. - Уфа, 1999. - С. 105-106.
  4. Исламгулов, Д.Р. Подход към преподаването, базиран на компетентности: оценка на качеството на образованието [Текст] / D.R. Исламгулов, Т.Н. Любова, И.Р. Исламгулова // Съвременен научен бюлетин. – 2015. – Т. 7. – № 1. – С. 62-69.
  5. Исламгулов, Д. Р. Изследователската работа на студентите е най-важният елемент от обучението на специалисти в аграрния университет [Текст] / Д. Р. Исламгулов // Проблеми на практическото обучение на студенти в университета на съвременния етап и начини за тяхното решаване: сборник. материали науч.-метод. Конф., 24 април 2007 г. / Башкирски държавен аграрен университет. - Уфа, 2007. - стр. 20-22.
  6. Любова, Т.Н. Основата за прилагането на федералния държавен образователен стандарт е подходът, основан на компетентности [Текст] / T.N. Любова, Д.Р. Исламгулов, И.Р. Исламгулова// ГОЛЯМО ИЗСЛЕДВАНЕ - 2016: Материали за XII Международна научно-практическа конференция, 15-22 февруари 2016 г. - София: Бял ГРАД-БГ ООД, 2016. - Том 4 Педагогически науки. – с. 80-85.
  7. Любова, Т.Н. Нови образователни стандарти: характеристики на прилагане [Текст] / T.N. Любова, Д.Р. Исламгулов // Съвременен научен бюлетин. – 2015. – Т. 7. – № 1. – С. 79-84.
  8. Любова, Т.Н. Организация на самостоятелната работа на студентите [Текст] / T.N. Любова, Д.Р. Исламгулов // Изпълнение на образователни програми за висше образование в рамките на Федералния държавен образователен стандарт за висше образование: материали от Всеруската научна и методическа конференция в рамките на гостуващото заседание на Националния медицински съвет по управление на околната среда и водите използване на Федералната образователна институция в системата на висшето образование. / Башкирски държавен аграрен университет. - Уфа, 2016. - стр. 214-219.
  9. Любова, Т.Н. Основата за прилагането на федералния държавен образователен стандарт е подходът, основан на компетентности [Текст] / T.N. Любова, Д.Р. Исламгулов, И.Р. Исламгулова // Съвременен научен бюлетин. – 2015. – Т. 7. – № 1. – С. 85-93.
  10. Саубанова, Л.М. Ниво на демографско натоварване [Текст] / L.M. Саубанова, Т.Н. Любова // Актуални проблеми на икономико-статистическите изследвания и информационните технологии: сборник статии. научен Чл.: посветен на 40-годишнината от създаването на катедра „Статистика и информационни системи в икономиката“ / Башкирски държавен аграрен университет. - Уфа, 2011. - стр. 321-322.
  11. Фахрулина, А.Р. Статистически анализ на инфлацията в Русия [Текст] / A.R. Фахрулина, Т.Н. Любова // Актуални проблеми на икономико-статистическите изследвания и информационните технологии: сборник статии. научен Чл.: посветен на 40-годишнината от създаването на катедра „Статистика и информационни системи в икономиката“ / Башкирски държавен аграрен университет. - Уфа, 2011. - стр. 323-324.
  12. Фархутдинова, А.Т. Пазарът на труда в Република Башкортостан през 2012 г. [Електронен ресурс] / A.T. Фархутдинова, Т.Н. Любова // Студентски научен форум. Материали на V международна студентска електронна научна конференция: електронна научна конференция (електронен сборник). Руска академия на естествените науки. 2013 г.

Определение за корелационен анализ

При решаване на проблеми от икономическо естество, а именно прогнозиране, често се използва корелационен анализ. Базира се на някои стойности на случайна променлива, представена от променлива, която зависи от случая и може да приеме някои стойности с определена вероятност. В този случай съответният закон за разпределение може да покаже честотата на конкретни стойности в тяхната съвкупност. Корелационният анализ в статистиката се основава на стохастична зависимост при провеждане на изследване на връзката между определени икономически показатели.

Видове корелационен анализ

Корелационният анализ работи както с функционални (пълни), така и с изкривени от други фактори (непълни) зависимости на тази връзка. Пример за първия тип (функционална зависимост) е производството и потреблението на готова продукция в условия на дефицит. Непълна връзка може да се види например между производителността на труда и трудовия стаж на работниците. В същото време по-големият опит влияе върху неговото качество, но под въздействието на определени фактори (здраве или образование) тази зависимост се изкривява.

Използване на корелационен анализ в статистиката

Корелационният анализ се използва широко в математическата статистика.

В същото време основната му задача е да определи близостта на връзката и характера между независими (факторни) и зависими (резултатни) характеристики в процес или явление. Корелация се разкрива само при широкомащабно факторно сравнение. По този начин неговата плътност може да се определи с помощта на определен корелационен коефициент, специално изчислен и разположен в интервала [-1;+1]. Характерът на връзката между тези показатели може да се определи чрез корелационното поле. В случай, когато Y е зависим признак, X е независим признак, тогава, когато се вземе всеки случай във формата X(j), корелационното поле ще има координати (x j;y j).

Корелационен анализ в икономиката

Икономическата дейност на стопански субекти зависи от огромен брой различни фактори. В този случай е необходимо да се разгледа техният комплекс, тъй като всеки от тях поотделно не може да определи изследваното явление в неговата цялост. Следователно само набор от фактори в тяхната тясна взаимовръзка дава ясна представа за обекта, който се изследва. Многовариантният корелационен анализ може да се състои от няколко етапа. На първо място се определят онези фактори, с помощта на които се определя максималното въздействие върху изследвания показател, като най-значимите се избират за анализ. Вторият етап включва събирането и оценката на първоначалната информация, необходима за корелационния анализ. В третия се изследва характерът и се моделира връзката между крайните показатели и други фактори. С други думи, обосновава се генерираното математическо уравнение, което най-точно изразява същността на анализираната зависимост. И последният етап включва оценка на резултатите от корелационния анализ с практическото му приложение.