Jak przeprowadzić analizę korelacji w statystyce. Silny i słaby

Matematyczne metody analizy i prognozowania

Analiza korelacji

Wstęp

2. Analiza regresji

3. Analiza czynnikowa

4. Analiza skupień

5. Analiza dynamiki i prognozowanie procesów społeczno-prawnych

Wniosek

Pomiędzy zjawiskami i procesami społeczno-gospodarczymi możliwe są dwa rodzaje zależności: funkcjonalna i stochastyczna. At lub inne parametry charakteryzujące różne zjawiska. Przykładów tego rodzaju zależności praktycznie nie spotyka się w środowisku społecznym.

W przypadku zależności stochastycznej (probabilistycznej) określona wartość zmiennej zależnej odpowiada zbiorowi wartości zmiennej objaśniającej. Wynika to przede wszystkim z faktu, że na zmienną zależną wpływa szereg nieuwzględnionych czynników. Dodatkowo wpływ mają błędy w pomiarze zmiennych: ze względu na losowy rozrzut wartości ich wartości można wskazać jedynie z pewnym prawdopodobieństwem.

W sferze społeczno-gospodarczej mamy do czynienia z wieloma zjawiskami, które mają charakter probabilistyczny. Zatem liczba przestępstw popełnionych i rozwiązanych w określonym czasie oraz liczba wypadków drogowych w dowolnym regionie w określonym czasie są zmiennymi losowymi.

Do badania zależności stochastycznych służą specjalne metody, w szczególności analiza korelacji („korelacja” to relacja, związek pomiędzy istniejącymi zjawiskami i procesami).

Analiza korelacji- jest to zastosowanie w określonej kolejności zestawu statystycznych metod przetwarzania informacji, co umożliwia badanie zależności między różnymi cechami.

Zadanie analizy korelacji jako metoda statystyki matematycznej polega na ustaleniu formy i kierunku powiązania oraz zmierzeniu bliskości tego powiązania pomiędzy badanymi cechami losowymi.

W statystyce wielkość liniowej zależności między dwiema cechami mierzy się za pomocą prostego (próbki) Współczynnik korelacji. Wielkość zależności liniowej jednej zmiennej od kilku innych mierzy się współczynnikiem wielokrotnym po wyeliminowaniu części zależności liniowej wynikającej z relacji tych zmiennych z innymi zmiennymi.

W formie połączenia korelacyjne mogą być liniowe (prostoliniowe) i nieliniowe (krzywoliniowe) oraz w kierunku

Komunikacja bezpośrednia wskazuje, że wraz ze wzrostem (spadkiem) wartości jednej cechy zwiększają się (spadają) wartości innej cechy. Na informacja zwrotna Wzrost (zmniejszenie) wartości jednej cechy prowadzi do zmniejszenia (wzrostu) wartości innej cechy.



Główne zadanie analizy korelacji- pomiar szczelności połączenia - rozwiązuje się poprzez obliczenie różnych współczynników korelacji i sprawdzenie ich istotności.

Współczynnik korelacji może przyjmować wartości od 0 do +1 dla zależności bezpośredniej i od -1 do 0 dla zależności odwrotnej.Przy współczynnikach bliskich 0 uważa się, że nie ma statystycznej zależności liniowej między cechami; przy bezwzględnych wartościach współczynników mniejszych niż 0,3 związek jest słaby; przy wartościach 0,3...0,5 połączenie jest umiarkowane; przy 0,5...0,7 - zależność jest znacząca; przy 0,7...0,9 - połączenie jest mocne; jeśli wartości współczynników są większe niż 0,9, wówczas związek uważa się za bardzo silny; jeśli współczynniki są równe +1 lub -1, to mówimy o związku funkcjonalnym (co w badaniach statystycznych praktycznie nie występuje).

Jednak taka uproszczona ocena siły związku nie zawsze jest prawidłowa, ponieważ stopień pewności istnienia zależności statystycznej zależy od wielkości badanej populacji. Im mniejsza liczebność populacji, tym większa musi być wartość współczynnika korelacji, aby przyjąć hipotezę o istnieniu związku pomiędzy cechami. Aby ilościowo zmierzyć stopień pewności istnienia liniowej zależności statystycznej pomiędzy cechami, należy zastosować pojęcia poziom istotności I wartości progowe (krytyczne). Współczynnik korelacji.

Kontrola znaczenia Otrzymany współczynnik korelacji polega na porównaniu obliczonej wartości z wartością krytyczną. Dla danej liczby pomiarów i określonego poziomu istotności wyznaczana jest wartość krytyczna i porównywana z wartością obliczoną. Jeżeli obliczona wartość jest większa od krytycznej, to związek jest istotny, jeśli jest mniejszy, to związku albo nie ma (a wartość współczynnika korelacji tłumaczy się odchyleniami losowymi), albo próba jest mała do zidentyfikowania To.

Dla określenie istnienia i wielkości zależności liniowej pomiędzy dwiema zmiennymi X i Y należy przeprowadzić dwie procedury. Pierwszym z nich jest graficzne przedstawienie punktów [(Xi,Yi),i=1,n] na płaszczyźnie. Powstały wykres nazywa się zasadnością założenia liniowej zależności pomiędzy zmiennymi. Jeśli takie założenie jest dopuszczalne, konieczne jest wyrażenie w formie ilościowej wielkości zależności liniowej. W tym celu wykorzystuje się przykładowy współczynnik korelacji:

gdzie n to liczba pomiarów, Xi, Yi to i-te wartości, X, Y to wartości średnie, sx, sy to odchylenia standardowe odpowiednio zmiennych X i Y.

W teorii analizy statystycznej zależność korelacyjną definiuje się jako zależność liniową w warunkach rozkładu normalnego analizowanych zmiennych. Dlatego dla prawidłowego stosowania metod korelacyjnych konieczne jest uzasadnienie bliskości rozkładu zmiennych do normalnego i postaci zależności do liniowej. W przeciwnym razie konieczne jest zastosowanie bardziej złożonych technik analitycznych lub innych współczynników sprzężenia.

Dość prostym i prostym obliczeniowo sposobem sprawdzenia normalności rozkładu empirycznego jest oszacowanie następującego stosunku:

,

gdzie C jest średnim odchyleniem bezwzględnym, s jest odchyleniem standardowym.

Jeżeli ta nierówność jest spełniona, to można mówić o normalności rozkładów empirycznych i o poprawności stosowania współczynnika korelacji jako miary liniowej zależności statystycznej pomiędzy zmiennymi.

Ogólnie rzecz biorąc, na poziom przestępczości wpływa wiele czynników. Należą do nich społeczno-gospodarcze, geograficzne i klimatyczne, demograficzne itp., A także znaki charakteryzujące siły i środki, stopień organizacji organu spraw wewnętrznych.

Jednak nawet jeśli istnieje silna, istotna statystycznie zależność pomiędzy dwiema zmiennymi, nie można być całkowicie pewnym ich przyczynowości, gdyż mogą istnieć inne przyczyny (czynniki) determinujące ich łączny związek statystyczny. Wnioski statystyczne muszą zawsze być poparte solidnymi ramami teoretycznymi.

Jednocześnie brak statystycznie istotnego związku nie oznacza braku związku przyczynowo-skutkowego, ale zmusza do poszukiwania innych sposobów i sposobów jego identyfikacji, jeśli koncepcja merytoryczna i doświadczenie praktyczne wskazują na jego możliwą możliwość. istnienie.

Koncepcja wzajemnych powiązań jest dość powszechna w badaniach psychologicznych. Psycholog musi się tym zająć, gdy w celu wyciągnięcia jakichkolwiek wniosków konieczne staje się porównanie pomiarów dwóch lub więcej wskaźników znaków lub zjawisk.

Charakter zależności pomiędzy badanymi zjawiskami może być jednoznaczny, tj. wtedy, gdy pewna wartość jednej cechy odpowiada jasnej i określonej wartości innej. I tak np. w podteście poszukiwania wzorców w testach funkcji umysłowych liczbę uzyskanych „surowych” punktów określa wzór:
Xi = Stz - Soz / Stz + Spz * Sbc,
gdzie Xi to wartość opcji, Stz to liczba określonych a priori wzorców (korespondencji) w podteście, Soz to liczba błędnie wskazanych korespondencji do osób zdających, Sz to liczba nieokreślonych (niedopasowanych) dopasowań do zdający, Sbс to liczba wszystkich słów wyświetlonych przez zdających w teście.

Zależność tę nazywamy funkcjonalną: tutaj jeden wskaźnik jest funkcją drugiego, co stanowi argument w stosunku do pierwszego.

Jednak nie zawsze udaje się znaleźć jednoznaczną, jasną zależność. Częściej spotykamy się z sytuacją, w której jedna wartość cechy może odpowiadać kilku wartościom drugiej. Wartości te wahają się w mniej lub bardziej określonych granicach. Ten typ relacji nazywany jest korelacją lub korelacją.

Stosuje się kilka rodzajów wyrażania zależności korelacyjnych. Zatem do wyrażenia zależności pomiędzy cechami o charakterze ilościowym o zmiennej wartości stosuje się miary tendencji centralnej: zestawienie z późniejszym obliczeniem współczynnika korelacji pary, współczynnika korelacji wielokrotnej i cząstkowej, współczynnika determinacji wielokrotnej, współczynnika korelacji.

Jeżeli konieczne jest zbadanie relacji między cechami, których zmienność ma charakter jakościowy (wyniki projekcyjnych metod badań osobowości, badania metodą różnicowania semantycznego, badania z wykorzystaniem skal otwartych itp.), wówczas należy zastosować metodę jakościową alternatywny współczynnik korelacji (wskaźnik tetrachoryczny), kryterium Pearsona x2, wskaźniki kontyngencji Pearsona i Chuprova.

Aby określić korelację jakościowo-ilościową, tj. taka korelacja, gdy jedna cecha ma zmienność jakościową, a druga ilościową. Stosowane są specjalne metody.

Współczynnik korelacji (termin wprowadzony po raz pierwszy przez F. Galtona w 1888 r.) jest wskaźnikiem siły powiązania pomiędzy dwiema porównywanymi opcjami próby (próbkami). Niezależnie od wzoru zastosowanego do obliczenia współczynnika korelacji, jego wartość mieści się w przedziale od -1 do +1. W przypadku korelacji całkowicie dodatniej współczynnik ten wynosi plus 1, a w przypadku korelacji całkowicie ujemnej wynosi minus 1. Zwykle jest to linia prosta przechodząca przez punkty przecięcia wartości każdego para danych.

Jeśli wartości wariantów nie układają się na linii prostej, ale tworzą „chmurę”, wówczas współczynnik korelacji w wartości bezwzględnej staje się mniejszy niż jeden i po zaokrągleniu „chmury” zbliża się do zera. Jeżeli współczynnik korelacji wynosi 0, obie opcje są od siebie całkowicie niezależne.

Każdą obliczoną (empiryczną) wartość współczynnika korelacji należy sprawdzić pod kątem wiarygodności (istotności statystycznej) za pomocą odpowiednich tabel wartości krytycznych współczynnika korelacji. Jeśli wartość empiryczna jest mniejsza lub równa wartości tabeli na poziomie 5 procent (P = 0,05), korelacja nie jest istotna. Jeżeli obliczona wartość współczynnika korelacji jest większa od wartości tabelarycznej dla P = 0,01, korelacja jest istotna statystycznie (wiarygodna).

W przypadku, gdy wartość współczynnika mieści się w przedziale 0,05 > P > 0,01, w praktyce mówi się o istotności korelacji dla P = 0,05.

Współczynnik korelacji Bravais-Pearsona (r) jest wskaźnikiem parametrycznym zaproponowanym w 1896 r., Do obliczenia którego porównywane są średnie arytmetyczne i wartości średnie kwadratowe. Aby obliczyć ten współczynnik, należy skorzystać z poniższego wzoru (może on wyglądać inaczej u różnych autorów):
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,

gdzie E Xi Xi1 to suma iloczynów wartości opcji porównywalnych parami, n to liczba porównywanych par, NXap, X1ap to średnie arytmetyczne opcji Xi, Xi; odpowiednio Qx, Qx są odchyleniami standardowymi rozkładów x i x.

Współczynnik korelacji rang Spearmana Rs (współczynnik korelacji rang, współczynnik Spearmana) jest najprostszą formą współczynnika korelacji i mierzy zależność pomiędzy rangami (miejscami) danej opcji według różnych cech, bez uwzględnienia jej własnej wartości. Badana jest tu relacja jakościowa, a nie ilościowa.

Zwykle to kryterium nieparametryczne stosuje się w przypadkach, gdy konieczne jest wyciągnięcie wniosków nie tyle na temat odstępów między danymi, ale na temat ich rang, a także wtedy, gdy krzywe rozkładu są skrajnie asymetryczne i nie pozwalają na zastosowanie takich kryteriów parametrycznych jak współczynnik korelacji Bravais-Pearsona (w tym przypadku w niektórych przypadkach może zaistnieć konieczność przekształcenia danych ilościowych na dane porządkowe). Jeśli współczynnik Rs jest bliski +1, oznacza to, że dwa rzędy próby uszeregowanej według pewnych cech praktycznie się pokrywają, a jeśli współczynnik ten jest bliski -1, możemy mówić o całkowitej odwrotnej zależności.

Podobnie jak obliczenia współczynnika korelacji Bravais-Pearsona, obliczenia współczynnika Rs wygodniej jest przedstawić w formie tabelarycznej.

Regresja uogólnia koncepcję związku funkcjonalnego na przypadek stochastycznego (probabilistycznego) charakteru zależności między wartościami wariantu. Celem rozwiązywania kategorii problemów regresyjnych jest oszacowanie wartości ciągłej zmienności wyjścia na podstawie wartości opcji wejściowych.

Analiza korelacji

Korelacja- związek statystyczny pomiędzy dwiema lub większą liczbą zmiennych losowych (lub zmiennych, które można uznać za takie z pewnym akceptowalnym stopniem dokładności). Co więcej, zmiany jednej lub więcej z tych wielkości prowadzą do systematycznej zmiany innej lub innych wielkości. Matematyczną miarą korelacji między dwiema zmiennymi losowymi jest współczynnik korelacji.

Korelacja może być dodatnia i ujemna (możliwy jest także brak zależności statystycznej – np. dla niezależnych zmiennych losowych). Ujemna korelacja - korelacja, w której wzrost jednej zmiennej wiąże się ze spadkiem innej zmiennej, a współczynnik korelacji jest ujemny. Pozytywna korelacja - korelacja, w której wzrost jednej zmiennej wiąże się ze wzrostem innej zmiennej, a współczynnik korelacji jest dodatni.

Autokorelacja - zależność statystyczna pomiędzy zmiennymi losowymi z tego samego szeregu, ale wzięta z przesunięciem, np. dla procesu losowego - z przesunięciem czasowym.

Pozwalać X,Y- dwie zmienne losowe zdefiniowane w jednej przestrzeni prawdopodobieństwa. Następnie ich współczynnik korelacji wyraża się wzorem:

,

gdzie cov oznacza kowariancję, a D jest wariancją lub równoważnie,

,

gdzie symbol oznacza oczekiwanie matematyczne.

Aby graficznie przedstawić taką zależność, można użyć prostokątnego układu współrzędnych z osiami odpowiadającymi obu zmiennym. Każda para wartości oznaczona jest konkretnym symbolem. Wykres ten nazywany jest „wykresem rozrzutu”.

Sposób obliczania współczynnika korelacji zależy od rodzaju skali, do której należą zmienne. Zatem do pomiaru zmiennych skalami interwałowymi i ilościowymi konieczne jest wykorzystanie współczynnika korelacji Pearsona (korelacja momentu iloczynu). Jeżeli co najmniej jedna z dwóch zmiennych należy do skali porządkowej lub nie ma rozkładu normalnego, należy zastosować korelację rang Spearmana lub τ (tau) Kendala. W przypadku, gdy jedna z dwóch zmiennych jest dychotomiczna, stosuje się korelację punktowo-biseryjną, a jeśli obie zmienne są dychotomiczne – korelację czteropolową. Obliczanie współczynnika korelacji pomiędzy dwiema zmiennymi niedychotomicznymi ma sens tylko wtedy, gdy zależność między nimi jest liniowa (jednokierunkowa).

Współczynnik korelacji Kendella

Używany do pomiaru wzajemnych nieporządków.

Współczynnik korelacji Spearmana

Własności współczynnika korelacji

jeśli przyjmiemy kowariancję jako iloczyn skalarny dwóch zmiennych losowych, wówczas norma zmiennej losowej będzie równa , a konsekwencją nierówności Cauchy'ego-Bunyakovsky'ego będzie: . , Gdzie . Co więcej, w tym przypadku znaki i k dopasować: .

Analiza korelacji

Analiza korelacji- metoda przetwarzania danych statystycznych polegająca na badaniu współczynników ( korelacje) pomiędzy zmiennymi. W tym przypadku porównuje się współczynniki korelacji pomiędzy jedną parą lub wieloma parami cech w celu ustalenia statystycznych zależności pomiędzy nimi.

Cel analiza korelacji- podać informacje o jednej zmiennej, używając innej zmiennej. W przypadkach, w których osiągnięcie celu jest możliwe, mówi się, że zmienne są korelat. W najbardziej ogólnej formie przyjęcie hipotezy korelacji oznacza, że ​​zmiana wartości zmiennej A nastąpi jednocześnie z proporcjonalną zmianą wartości B: jeżeli obie zmienne wzrosną, to korelacja jest dodatnia, jeśli jedna zmienna rośnie, a druga maleje, korelacja jest ujemna.

Korelacja odzwierciedla jedynie liniową zależność wartości, ale nie odzwierciedla ich funkcjonalnej łączności. Na przykład, jeśli obliczysz współczynnik korelacji między wielkościami A = SIN(X) I B = CoS(X) , to będzie bliskie zeru, czyli nie ma zależności pomiędzy wielkościami. Tymczasem wielkości A i B są oczywiście powiązane funkcjonalnie zgodnie z prawem SIN 2 (X) + CoS 2 (X) = 1 .

Ograniczenia analizy korelacji

Wykresy rozkładów par (x,y) z odpowiadającymi im współczynnikami korelacji x i y dla każdej z nich. Należy zauważyć, że współczynnik korelacji odzwierciedla zależność liniową (górna linia), ale nie opisuje krzywej zależności (linia środkowa) i w ogóle nie nadaje się do opisu złożonych, nieliniowych zależności (dolna linia).

  1. Zastosowanie jest możliwe w przypadku wystarczającej liczby przypadków do badania: dla danego typu współczynnik korelacji waha się od 25 do 100 par obserwacji.
  2. Drugie ograniczenie wynika z hipotezy analizy korelacji, która obejmuje liniowa zależność zmiennych. W wielu przypadkach, gdy wiadomo, że istnieje związek, analiza korelacji może nie dać wyników po prostu dlatego, że związek jest nieliniowy (wyrażony na przykład jako parabola).
  3. Sam fakt korelacji nie daje podstaw do stwierdzenia, która ze zmiennych poprzedza lub powoduje zmiany, albo że zmienne są ze sobą w ogólności powiązane przyczynowo, na przykład na skutek działania trzeciego czynnika.

Obszar zastosowań

Ta metoda przetwarzania danych statystycznych jest bardzo popularna w ekonomii i naukach społecznych (w szczególności w psychologii i socjologii), chociaż zakres zastosowań współczynników korelacji jest szeroki: kontrola jakości wyrobów przemysłowych, metalurgia, agrochemia, hydrobiologia, biometria i inne.

Popularność metody wynika z dwóch czynników: współczynniki korelacji są stosunkowo łatwe do obliczenia, a ich stosowanie nie wymaga specjalnego przeszkolenia matematycznego. W połączeniu z łatwością interpretacji, łatwość stosowania współczynnika doprowadziła do jego szerokiego zastosowania w dziedzinie analizy danych statystycznych.

Fałszywa korelacja

Często kusząca prostota badań korelacji skłania badacza do wyciągania fałszywych, intuicyjnych wniosków na temat występowania związku przyczynowo-skutkowego pomiędzy parami cech, podczas gdy współczynniki korelacji ustalają jedynie zależności statystyczne.

We współczesnej ilościowej metodologii nauk społecznych faktycznie odrzucono próby ustalania związków przyczynowo-skutkowych pomiędzy obserwowanymi zmiennymi za pomocą metod empirycznych. Dlatego też, gdy badacze nauk społecznych mówią o ustaleniu zależności między badanymi zmiennymi, zakłada się albo ogólne założenie teoretyczne, albo zależność statystyczną.

Zobacz też

Fundacja Wikimedia. 2010.

Zobacz, co oznacza „Analiza korelacji” w innych słownikach:

    Zobacz ANALIZA KORELACJI. Antynaziści. Encyklopedia Socjologii, 2009... Encyklopedia socjologii

    Dział statystyki matematycznej łączący praktyczne metody badania korelacji między dwiema (lub większą liczbą) losowych cech lub czynników. Zobacz Korelacja (w statystyce matematycznej)... Wielki słownik encyklopedyczny

    ANALIZA KORELACJI, sekcja statystyki matematycznej, która łączy praktyczne metody badania korelacji między dwiema (lub większą liczbą) losowych cech lub czynników. Zobacz Korelację (patrz KORELACJA (wzajemna relacja ... słownik encyklopedyczny

    Analiza korelacji- (w ekonomii) dział statystyki matematycznej badający zależności pomiędzy zmieniającymi się wielkościami (korelacja to stosunek, od łacińskiego słowa correlatio). Relacja może być pełna (tj. funkcjonalna) i niekompletna,... ... Słownik ekonomiczny i matematyczny

    analiza korelacji- (w psychologii) (od łacińskiego współczynnika korelacji) statystyczna metoda oceny formy, znaku i bliskości związku między badanymi cechami lub czynnikami. Przy określaniu formy połączenia uwzględnia się jego liniowość lub nieliniowość (tj. jak średnio... ... Świetna encyklopedia psychologiczna

    analiza korelacji- - [L.G. Sumenko. Słownik angielsko-rosyjski dotyczący technologii informatycznych. M.: Przedsiębiorstwo Państwowe TsNIIS, 2003.] Tematyka informatyka w ogólności EN analiza korelacji... Przewodnik tłumacza technicznego

    analiza korelacji- koreliacinė analizė statusas T sritis Kūno kultūra ir sportas apibrėžtis Statistikos metodas, kuriuo įvertinami tiriamųjų asmenų, reiškinių požymiai arba veiksnių santykiai. atitikmenys: pol. badania korelacyjne vok. Analyze der Correlation, f;… … Sporto terminų žodynas

    Zestaw metod opartych na matematycznej teorii korelacji (patrz Korelacja) służących do wykrywania korelacji między dwiema losowymi cechami lub czynnikami. K.a. dane eksperymentalne obejmują następujące... ... Wielka encyklopedia radziecka

    Sekcja matematyczna statystyki, łączące praktykę Korelacyjne metody badawcze. zależności pomiędzy dwiema (lub większą liczbą) losowych cech lub czynników. Zobacz korelację... Wielki encyklopedyczny słownik politechniczny

W artykule omówiono definicje korelacji, analizę korelacji oraz współczynnik korelacji. Podano definicję korelacji i jej główne cechy.

  • Analiza korelacji i regresji w badaniu czynników płodności
  • Ocena czynników płodności w Republice Baszkortostanu

Badacze są często zainteresowani tym, jak dwie lub więcej zmiennych są ze sobą powiązane w jednej lub większej liczbie badanych próbek. Przykładowo taką zależność można zaobserwować pomiędzy błędem sprzętowego przetwarzania danych eksperymentalnych a wielkością przepięć napięcia sieciowego. Innym przykładem jest związek między przepustowością łącza danych a stosunkiem sygnału do szumu.

W 1886 roku angielski przyrodnik Francis Galton ukuł termin „korelacja”, aby opisać naturę tego rodzaju interakcji. Później jego uczeń Karl Pearson opracował wzór matematyczny, który pozwala określić ilościowo korelacje cech.

Zależności pomiędzy wielkościami (czynnikami, cechami) dzielą się na dwa typy: funkcjonalne i statystyczne.

W przypadku zależności funkcjonalnych każda wartość jednej zmiennej odpowiada określonej wartości innej zmiennej. Ponadto funkcjonalne połączenie dwóch czynników jest możliwe tylko pod warunkiem, że druga wielkość zależy tylko od pierwszej i nie zależy od żadnych innych wielkości. Jeżeli wielkość zależy od wielu czynników, połączenie funkcjonalne jest możliwe, jeżeli pierwsza wielkość nie jest zależna od innych czynników niż te zawarte w określonym zestawie.

Przy zależności statystycznej zmiana jednej z wielkości pociąga za sobą zmianę rozkładu innych wielkości, które z pewnym prawdopodobieństwem przyjmują określone wartości.

Znacznie bardziej interesujący jest inny szczególny przypadek zależności statystycznej, gdy istnieje związek między wartościami niektórych zmiennych losowych a średnią wartością innych, z tą osobliwością, że w każdym indywidualnym przypadku może przyjąć dowolna z powiązanych ze sobą wartości na różnych wartościach.

Ten rodzaj zależności między zmiennymi nazywa się korelacją lub korelacją.

Analiza korelacji jest metodą pozwalającą wykryć związek pomiędzy kilkoma zmiennymi losowymi.

Analiza korelacji rozwiązuje dwa główne problemy:

  • Pierwszym zadaniem jest określenie formy komunikacji, tj. przy ustalaniu formy matematycznej, w której ta zależność jest wyrażona. Jest to bardzo ważne, ponieważ ostateczny wynik badania zależności między cechami zależy od prawidłowego wyboru formy komunikacji.
  • Drugim zadaniem jest pomiar zatłoczenia, czyli tzw. miary powiązania cech w celu ustalenia stopnia wpływu danego czynnika na wynik. Rozwiązuje się to matematycznie poprzez określenie parametrów równania korelacji.

Następnie uzyskane wyniki są oceniane i analizowane przy użyciu specjalnych wskaźników metody korelacji (współczynniki determinacji, korelacja liniowa i wielokrotna itp.), a także sprawdzania istotności związku między badanymi cechami.

Za pomocą metod analizy korelacji rozwiązuje się następujące zadania:

  1. Relacja. Czy istnieje związek pomiędzy parametrami?
  2. Prognozowanie. Jeśli znane jest zachowanie jednego parametru, można przewidzieć zachowanie innego parametru, który jest skorelowany z pierwszym.
  3. Klasyfikacja i identyfikacja obiektów. Analiza korelacji pomaga wybrać zbiór niezależnych cech do klasyfikacji.

Korelacja to statystyczna zależność między dwiema lub większą liczbą zmiennych losowych (lub wartości, które można uznać za takie z pewnym akceptowalnym stopniem dokładności). Jego istota polega na tym, że gdy zmienia się wartość jednej zmiennej, następuje naturalna zmiana (zmniejszenie lub zwiększenie) innej zmiennej.

Współczynnik korelacji służy do określenia, czy istnieje związek między dwiema właściwościami.

Współczynnik korelacji p dla populacji ogólnej jest z reguły nieznany, dlatego szacuje się go na podstawie danych eksperymentalnych, będących próbą n par wartości (x i, y i), uzyskanych poprzez łączny pomiar dwóch cech X i Y Współczynnik korelacji określony na podstawie przykładowych danych nazywany jest współczynnikiem korelacji próbki (lub po prostu współczynnikiem korelacji). Zwykle oznacza się go symbolem r.

Do głównych właściwości współczynnika korelacji zalicza się:

  1. Współczynniki korelacji mogą charakteryzować jedynie zależności liniowe, tj. te, które są wyrażone równaniem funkcji liniowej. Jeżeli istnieje nieliniowa zależność pomiędzy różnymi charakterystykami, należy zastosować inne wskaźniki powiązania.
  2. Wartości współczynników korelacji są liczbami abstrakcyjnymi z zakresu od -1 do +1, tj. -1< r < 1.
  3. Przy niezależnej zmienności cech, gdy nie ma między nimi związku, r = 0.
  4. W przypadku relacji dodatniej lub bezpośredniej, gdy wraz ze wzrostem wartości jednej cechy zwiększają się wartości innej cechy, współczynnik korelacji zyskuje znak dodatni (+) i waha się od 0 do +1, tj. 0< r < 1.
  5. W przypadku zależności ujemnej lub odwrotnej, gdy wraz ze wzrostem wartości jednej cechy odpowiednio zmniejszają się wartości drugiej, współczynnikowi korelacji towarzyszy znak ujemny (–) i waha się od 0 do –1, tj. -1< r <0.
  6. Im silniejszy związek między cechami, tym współczynnik korelacji jest bliższy ô1ô. Jeżeli r = ± 1, to zależność korelacyjna staje się funkcjonalna, tj. Każda wartość atrybutu X będzie odpowiadać jednej lub większej liczbie ściśle określonych wartości atrybutu Y.
  7. Wiarygodności korelacji między cechami nie można oceniać wyłącznie na podstawie wielkości współczynników korelacji. Parametr ten zależy od liczby stopni swobody k = n –2, gdzie: n jest liczbą skorelowanych par wskaźników X i Y. Im większe n, tym większa wiarygodność zależności przy tej samej wartości współczynnika korelacji .

Współczynnik korelacji oblicza się według następującego wzoru:

gdzie x jest wartością cechy czynnika; y - wartość wynikowego atrybutu; n - liczba par danych.

Korelację bada się na podstawie danych doświadczalnych, którymi są zmierzone wartości x i, y i dwóch cech x, y. Jeśli danych eksperymentalnych jest stosunkowo mało, wówczas dwuwymiarowy rozkład empiryczny jest reprezentowany jako podwójny szereg wartości x i , y i . Jednocześnie zależność korelacyjną pomiędzy cechami można opisać na różne sposoby. Zgodność między argumentem a funkcją można przedstawić za pomocą tabeli, wzoru, wykresu itp.

Przy badaniu korelacji pomiędzy cechami ilościowymi, których wartości można dokładnie zmierzyć w jednostkach skali metrycznej, bardzo często przyjmuje się dwuwymiarowy model populacji o rozkładzie normalnym. Model taki przedstawia zależność pomiędzy zmiennymi x i y graficznie w postaci geometrycznego położenia punktów w prostokątnym układzie współrzędnych. Ta graficzna zależność nazywana jest wykresem rozrzutu lub polem korelacji.

Ten model dwuwymiarowego rozkładu normalnego (pola korelacji) pozwala nam podać jasną graficzną interpretację współczynnika korelacji, ponieważ Rozkład zależy łącznie od pięciu parametrów:

  • oczekiwania matematyczne E[x], E[y] wartości x,y;
  • odchylenia standardowe px, py zmiennych losowych x,y ;
  • współczynnik korelacji p, który jest miarą związku pomiędzy zmiennymi losowymi x i y. Podajmy przykłady pól korelacyjnych.

Jeżeli p = 0, to wartości x i, y i otrzymane z dwuwymiarowej populacji normalnej znajdują się na wykresie w obszarze ograniczonym okręgiem. W tym przypadku nie ma korelacji między zmiennymi losowymi x i y i nazywa się je nieskorelowanymi. W przypadku dwuwymiarowego rozkładu normalnego brak korelacji oznacza jednocześnie niezależność zmiennych losowych x i y.

Jeżeli p = 1 lub p = -1, to mówimy o korelacji całkowitej, czyli pomiędzy zmiennymi losowymi x i y istnieje liniowa zależność funkcjonalna.

Gdy p = 1, wartości x i, y i wyznaczają punkty leżące na linii prostej o dodatnim nachyleniu (wraz ze wzrostem x i wartości y i również rosną).

W przypadkach pośrednich, gdy -1< p <1, определяемые значениями x i ,y i точки попадают в область, ограниченную некоторым эллипсом, причём при p>0 występuje dodatnia korelacja (wraz ze wzrostem x wartości y na ogół mają tendencję do wzrostu), z p<0 корреляция отрицательная. Чем ближе p к ±1, тем уже эллипс и тем теснее точки, определяемые экспериментальными значениями, группируются около прямой линии.

Tutaj należy zwrócić uwagę na fakt, że linia, wzdłuż której grupowane są punkty, może być nie tylko linią prostą, ale może mieć dowolny inny kształt: parabolę, hiperbolę itp. W takich przypadkach brana jest pod uwagę korelacja nieliniowa.

Zależność korelacyjną pomiędzy cechami można opisać na różne sposoby, w szczególności dowolną formę powiązania można wyrazić ogólnym równaniem y=f(x), gdzie cecha y jest zmienną zależną lub funkcją zmiennej niezależnej x, zwany argumentem.

Zatem analiza wizualna pola korelacji pozwala określić nie tylko obecność zależności statystycznej (liniowej lub nieliniowej) pomiędzy badanymi cechami, ale także jej bliskość i kształt.

Podczas badania połączenia korelacyjnego ważnym obszarem analizy jest ocena stopnia bliskości połączenia. Pojęcie stopnia bliskości związku między dwiema cechami wynika z faktu, że w rzeczywistości na zmianę powstałej cechy wpływa wiele czynników. W takim przypadku wpływ jednego z czynników można wyrazić bardziej zauważalnie i wyraźniej niż wpływ innych czynników. W miarę zmiany warunków rola decydującego czynnika może przesunąć się na inną cechę.

Podczas statystycznego badania relacji z reguły brane są pod uwagę tylko główne czynniki. Biorąc także pod uwagę stopień bliskości połączenia, ocenia się potrzebę bardziej szczegółowego zbadania tego konkretnego połączenia i znaczenie jego praktycznego zastosowania.

Ogólnie rzecz biorąc, znajomość ilościowej oceny bliskości korelacji pozwala rozwiązać następującą grupę pytań:

  • potrzeba dogłębnego zbadania tej relacji między znakami a wykonalnością jej praktycznego zastosowania;
  • stopień różnic w przejawianiu się związku w określonych warunkach (porównanie oceny bliskości związku dla różnych warunków);
  • identyfikacja głównych i drugorzędnych czynników w danych specyficznych warunkach poprzez sekwencyjne rozpatrywanie i porównywanie cechy z różnymi czynnikami.

Wskaźniki bliskości połączenia muszą spełniać szereg podstawowych wymagań:

  • wartość wskaźnika bliskości powiązania powinna być równa lub bliska zeru, jeśli nie ma związku między badanymi cechami (procesami, zjawiskami);
  • jeżeli pomiędzy badanymi cechami istnieje powiązanie funkcjonalne, wartość wskaźnika bliskości powiązania powinna być równa jedności;
  • jeżeli pomiędzy cechami istnieje korelacja, wartość bezwzględną wskaźnika bliskości powiązania należy wyrazić jako ułamek właściwy, im większa wartość, tym bliższy związek między badanymi cechami (dąży do jedności).

Zależność korelacyjną wyznaczają różne parametry, wśród których najpowszechniej stosowane są wskaźniki sparowane charakteryzujące związek pomiędzy dwiema zmiennymi losowymi: współczynnik kowariancji (moment korelacji) i współczynnik korelacji liniowej (współczynnik korelacji Pearsona).

Wytrzymałość połączenia określana jest na podstawie wartości bezwzględnej wskaźnika szczelności połączenia i nie zależy od kierunku połączenia.

W zależności od wartości bezwzględnej współczynnika korelacji p korelacje między cechami dzieli się według siły w następujący sposób:

  • silny lub ciasny (przy p > 0,70);
  • średnia (przy 0,50< p <0,69);
  • umiarkowany (o 0.30< p <0,49);
  • słaby (przy 0,20< p <0,29);
  • bardzo słaby (na s<0,19).

Postać zależności korelacyjnej może być liniowa lub nieliniowa.

Na przykład związek między poziomem wyszkolenia studenta a końcowymi ocenami z certyfikacji może być liniowy. Przykładem zależności nieliniowej jest poziom motywacji i efektywność wykonania danego zadania. (Wraz ze wzrostem motywacji najpierw wzrasta skuteczność wykonania zadania, następnie przy pewnym poziomie motywacji osiągana jest maksymalna efektywność, ale dalszemu wzrostowi motywacji towarzyszy spadek efektywności.)

W kierunku zależność korelacji może być dodatnia (bezpośrednia) i ujemna (odwrotna).

Przy dodatniej korelacji liniowej wyższe wartości jednej cechy odpowiadają wyższym wartościom drugiej, a niższe wartości jednej cechy odpowiadają niższym wartościom drugiej. Przy korelacji ujemnej zależności ulegają odwróceniu.

Znak współczynnika korelacji zależy od kierunku korelacji: przy korelacji dodatniej współczynnik korelacji ma znak dodatni, przy korelacji ujemnej ma znak ujemny.

Bibliografia

  1. Ableeva, A. M. Utworzenie funduszu narzędzi oceny w warunkach federalnego państwowego standardu edukacyjnego [Tekst] / A. M. Ableeva, G. A. Salimova // Aktualne problemy nauczania dyscyplin społecznych, humanitarnych, przyrodniczych i technicznych w kontekście modernizacji szkół wyższych edukacja: materiały międzynarodowa konferencja naukowo-metodyczna, 4-5 kwietnia 2014 r. / Baszkirski Państwowy Uniwersytet Rolniczy, Wydział Technologii Informacyjnych i Zarządzania. - Ufa, 2014. - s. 11-14.
  2. Ganieva, A.M. Analiza statystyczna zatrudnienia i bezrobocia [Tekst] / A.M. Ganieva, T.N. Lubova // Aktualne zagadnienia badań ekonomiczno-statystycznych i technologii informacyjnych: zbiór artykułów. naukowy Art.: poświęcony 40. rocznicy utworzenia wydziału „Statystyki i systemów informacyjnych w ekonomii” / Baszkirski Państwowy Uniwersytet Rolniczy. - Ufa, 2011. - s. 315-316.
  3. Ismagilov, R. R. Grupa twórcza - efektywna forma organizacji badań naukowych w szkolnictwie wyższym [Tekst] / R. R. Ismagilov, M. Kh. Urazlin, D. R. Islamgulov // Kompleksy naukowe, techniczne i naukowo-edukacyjne regionu: problemy i perspektywy rozwoju: materiały konferencji naukowo-praktycznej / Akademia Nauk Republiki Białorusi, UGATU. - Ufa, 1999. - s. 105-106.
  4. Islamgulow, D.R. Podejście do nauczania oparte na kompetencjach: ocena jakości kształcenia [Tekst] / D.R. Islamgulow, T.N. Lubova, I.R. Islamgulova // Nowoczesny biuletyn naukowy. – 2015. – T. 7. – Nr 1. – s. 62-69.
  5. Islamgulov, D. R. Praca badawcza studentów jest najważniejszym elementem kształcenia specjalistów w uczelni rolniczej [Tekst] / D. R. Islamgulov // Problemy praktycznego kształcenia studentów na uczelni na obecnym etapie i sposoby ich rozwiązywania: zbieranie. materiały-metoda naukowa. Conf., 24 kwietnia 2007 / Baszkirski Państwowy Uniwersytet Rolniczy. - Ufa, 2007. - s. 20-22.
  6. Lubova, T.N. Podstawą wdrożenia federalnego standardu edukacyjnego jest podejście oparte na kompetencjach [Tekst] / T.N. Lubova, D.R. Islamgulov, I.R. Islamgulova // BODEST RESEARCH - 2016: Materiały na XII Międzynarodową Konferencję Naukowo-Praktyczną, 15-22 lutego 2016. - Sofia: Byal GRAD-BG OOD, 2016. - Tom 4 Nauki pedagogiczne. – s. 80-85.
  7. Lubova, T.N. Nowe standardy edukacyjne: cechy wdrożenia [Tekst] / T.N. Lubova, D.R. Islamgulov // Nowoczesny biuletyn naukowy. – 2015. – T. 7. – Nr 1. – s. 79-84.
  8. Lubova, T.N. Organizacja samodzielnej pracy studentów [Tekst] / T.N. Lubova, D.R. Islamgulov // Realizacja programów edukacyjnych szkolnictwa wyższego w ramach Federalnego Państwowego Standardu Edukacyjnego Szkolnictwa Wyższego: materiały Ogólnorosyjskiej konferencji naukowo-metodologicznej w ramach wizytującego spotkania Krajowej Rady Lekarskiej w sprawie zarządzania środowiskiem i wodą wykorzystanie Federalnej Instytucji Edukacyjnej w systemie szkolnictwa wyższego. / Baszkirski Państwowy Uniwersytet Rolniczy. - Ufa, 2016. - s. 214-219.
  9. Lubova, T.N. Podstawą wdrożenia federalnego standardu edukacyjnego jest podejście oparte na kompetencjach [Tekst] / T.N. Lubova, D.R. Islamgulov, I.R. Islamgulova // Nowoczesny biuletyn naukowy. – 2015. – T. 7. – Nr 1. – s. 85-93.
  10. Saubanova, L.M. Poziom obciążenia demograficznego [Tekst] / L.M. Saubanova, T.N. Lubova // Aktualne zagadnienia badań ekonomiczno-statystycznych i technologii informacyjnych: zbiór artykułów. naukowy Art.: poświęcony 40. rocznicy utworzenia wydziału „Statystyki i systemów informacyjnych w ekonomii” / Baszkirski Państwowy Uniwersytet Rolniczy. - Ufa, 2011. - s. 321-322.
  11. Fakhrullina, A.R. Analiza statystyczna inflacji w Rosji [Tekst] / A.R. Fakhrullina, T.N. Lubova // Aktualne zagadnienia badań ekonomiczno-statystycznych i technologii informacyjnych: zbiór artykułów. naukowy Art.: poświęcony 40. rocznicy utworzenia wydziału „Statystyki i systemów informacyjnych w ekonomii” / Baszkirski Państwowy Uniwersytet Rolniczy. - Ufa, 2011. - s. 323-324.
  12. Farkhutdinova, A.T. Rynek pracy w Republice Baszkortostanu w 2012 roku [Zasoby elektroniczne] / A.T. Farkhutdinova, T.N. Lubova // Studenckie forum naukowe. Materiały V Międzynarodowej Studenckiej Elektronicznej Konferencji Naukowej: elektroniczna konferencja naukowa (zbiór elektroniczny). Rosyjska Akademia Nauk Przyrodniczych. 2013.

Definicja analizy korelacji

Przy rozwiązywaniu problemów natury ekonomicznej, czyli prognozowaniu, często wykorzystuje się analizę korelacji. Opiera się na pewnych wartościach zmiennej losowej, reprezentowanej przez zmienną, która zależy od przypadku i może przyjmować pewne wartości z pewnym prawdopodobieństwem. W takim przypadku odpowiednie prawo dystrybucji może pokazać częstotliwość określonych wartości w całości. Analiza korelacji w statystyce opiera się na zależności stochastycznej przy prowadzeniu badań zależności pomiędzy określonymi wskaźnikami ekonomicznymi.

Rodzaje analizy korelacji

Analiza korelacji operuje zarówno funkcjonalnymi (pełnymi), jak i zniekształconymi przez inne czynniki (niepełnymi) zależnościami tej zależności. Przykładem pierwszego typu (zależność funkcjonalna) jest produkcja i konsumpcja wyrobów gotowych w warunkach niedoboru. Niepełną zależność można zaobserwować np. pomiędzy wydajnością pracy a stażem pracy pracowników. Jednocześnie większe doświadczenie wpływa na jego jakość, jednak pod wpływem pewnych czynników (zdrowie czy wykształcenie) zależność ta zostaje zniekształcona.

Wykorzystanie analizy korelacji w statystyce

Analiza korelacji jest szeroko stosowana w statystyce matematycznej.

Jednocześnie jego głównym zadaniem jest określenie bliskości powiązania i charakteru pomiędzy niezależnymi (czynnikowymi) i zależnymi (wynikowymi) cechami procesu lub zjawiska. Korelację można ujawnić dopiero w wyniku porównania czynnikowego na dużą skalę. Zatem jego szczelność można określić za pomocą pewnego współczynnika korelacji, specjalnie wyliczonego i umieszczonego w przedziale [-1;+1]. Charakter zależności między tymi wskaźnikami można określić za pomocą pola korelacji. W przypadku, gdy Y jest cechą zależną, X jest cechą niezależną, to przyjmując każdy przypadek w postaci X(j), pole korelacji będzie miało współrzędne (x j;y j).

Analiza korelacji w ekonomii

Działalność gospodarcza podmiotów gospodarczych uzależniona jest od ogromnej liczby różnorodnych czynników. W takim przypadku należy wziąć pod uwagę ich kompleks, ponieważ każdy z nich osobno nie może w całości określić badanego zjawiska. Dlatego tylko zestaw czynników w ich ścisłym powiązaniu daje jasny obraz badanego obiektu. Wieloczynnikowa analiza korelacji może składać się z kilku etapów. W pierwszej kolejności określa się te czynniki, za pomocą których określa się maksymalny wpływ na badany wskaźnik i wybiera do analizy te najbardziej istotne. Drugi etap polega na zebraniu i ocenie wstępnych informacji niezbędnych do analizy korelacji. W trzecim badany jest charakter i modelowany jest związek między końcowymi wskaźnikami a innymi czynnikami. Innymi słowy, wygenerowane równanie matematyczne jest uzasadnione, co najtrafniej wyraża istotę analizowanej zależności. Ostatni etap polega na ocenie wyników analizy korelacji z jej praktycznym zastosowaniem.