Dane do analizy regresji. Analiza regresji w programie Microsoft Excel

Główny cel analizy regresji polega na określeniu analitycznej formy komunikacji, w której zmiana charakterystyki efektywnej wynika z wpływu jednej lub większej liczby cech czynnika, a zbiór wszystkich pozostałych czynników, które również wpływają na charakterystykę efektywną, przyjmuje się jako wartości stałe i średnie.
Problemy analizy regresji:
a) Ustalenie formy zależności. Jeśli chodzi o naturę i formę relacji między zjawiskami, rozróżnia się dodatnią regresję liniową i nieliniową oraz ujemną regresję liniową i nieliniową.
b) Wyznaczenie funkcji regresji w postaci równania matematycznego tego lub innego rodzaju i ustalenie wpływu zmiennych objaśniających na zmienną zależną.
c) Oszacowanie nieznanych wartości zmiennej zależnej. Za pomocą funkcji regresji można odtworzyć wartości zmiennej zależnej w przedziale określonych wartości zmiennych objaśniających (tj. rozwiązać problem interpolacji) lub ocenić przebieg procesu poza określonym przedziałem (tj. rozwiązać problem ekstrapolacji). Wynikiem jest oszacowanie wartości zmiennej zależnej.

Regresja sparowana to równanie zależności pomiędzy dwiema zmiennymi y i x: , gdzie y jest zmienną zależną (atrybut wynikowy); x jest niezależną zmienną objaśniającą (czynnikiem-cechą).

Istnieją regresje liniowe i nieliniowe.
Regresja liniowa: y = a + bx + ε
Regresje nieliniowe dzielą się na dwie klasy: regresje nieliniowe względem zmiennych objaśniających uwzględnionych w analizie, ale liniowe względem oszacowanych parametrów oraz regresje nieliniowe względem oszacowanych parametrów.
Regresje nieliniowe w zmiennych objaśniających:

Regresje nieliniowe względem oszacowanych parametrów: Konstrukcja równania regresji sprowadza się do oszacowania jego parametrów. Do estymacji parametrów regresji liniowych wykorzystuje się metodę najmniejszych kwadratów (OLS). Metoda najmniejszych kwadratów pozwala uzyskać takie oszacowania parametrów, przy których suma kwadratów odchyleń rzeczywistych wartości charakterystyki wypadkowej y od wartości teoretycznych jest minimalna, tj.
.
Dla równań liniowych i nieliniowych dających się sprowadzić do równań liniowych, dla a i b rozwiązuje się następujący układ:

Możesz skorzystać z gotowych formuł, które wynikają z tego systemu:

Bliskość powiązania między badanymi zjawiskami ocenia się za pomocą liniowego współczynnika korelacji par dla regresji liniowej:

oraz wskaźnik korelacji – dla regresji nieliniowej:

Jakość skonstruowanego modelu będzie oceniana za pomocą współczynnika (wskaźnika) determinacji, a także średniego błędu aproksymacji.
Średni błąd aproksymacji - średnie odchylenie obliczonych wartości od rzeczywistych:
.
Dopuszczalny limit wartości wynosi nie więcej niż 8-10%.
Średni współczynnik elastyczności pokazuje, o jaki procent średnio zmieni się wynik y od wartości średniej, gdy współczynnik x zmieni się o 1% od wartości średniej:
.

Celem analizy wariancji jest analiza wariancji zmiennej zależnej:
,
gdzie jest całkowitą sumą kwadratów odchyleń;
- suma kwadratów odchyleń wynikających z regresji („wyjaśnione” lub „silnia”);
- resztowa suma kwadratów odchyleń.
Udział wariancji wyjaśniony regresją w całkowitej wariancji wynikowej cechy y charakteryzuje się współczynnikiem (indeksem) determinacji R2:

Współczynnikiem determinacji jest kwadrat współczynnika lub wskaźnika korelacji.

Test F – oceniający jakość równania regresji – polega na sprawdzeniu hipotezy nr o nieistotności statystycznej równania regresji oraz wskaźniku bliskości zależności. W tym celu dokonuje się porównania rzeczywistego faktu F z krytycznymi (tabelarycznymi) wartościami tabeli F kryterium F Fishera. Fakt F określa się na podstawie stosunku wartości współczynnika i wariancji resztowych obliczonych na stopień swobody:
,
gdzie n jest liczbą jednostek populacji; m jest liczbą parametrów zmiennych x.
Tabela F to maksymalna możliwa wartość kryterium pod wpływem czynników losowych przy danych stopniach swobody i poziomie istotności a. Poziom istotności a to prawdopodobieństwo odrzucenia prawidłowej hipotezy, pod warunkiem, że jest ona prawdziwa. Zwykle przyjmuje się, że a jest równe 0,05 lub 0,01.
Jeśli tabela F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Faktem jest, że hipoteza Ho nie jest odrzucana i uznaje się statystyczną nieistotność i zawodność równania regresji.
Aby ocenić istotność statystyczną współczynników regresji i korelacji, dla każdego wskaźnika oblicza się test t-Studenta i przedziały ufności. Postawiono hipotezę o losowym charakterze wskaźników, tj. o ich nieistotnej różnicy od zera. Ocena istotności współczynników regresji i korelacji za pomocą testu t-Studenta odbywa się poprzez porównanie ich wartości z wielkością błędu losowego:
; ; .
Błędy losowe parametrów regresji liniowej i współczynnika korelacji wyznaczają wzory:



Porównując rzeczywiste i krytyczne (tabelaryczne) wartości statystyki t - tabela t i fakt t - akceptujemy lub odrzucamy hipotezę Ho.
Związek między testem F Fishera a statystyką t-Studenta wyraża się równością

Jeśli t stół< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t jest faktem, że hipoteza Ho nie jest odrzucana i uznaje się losowy charakter powstawania a, b lub.
Aby obliczyć przedział ufności, wyznaczamy maksymalny błąd D dla każdego wskaźnika:
, .
Wzory na obliczanie przedziałów ufności są następujące:
; ;
; ;
Jeśli zero mieści się w przedziale ufności, tj. Jeżeli dolna granica jest ujemna, a górna jest dodatnia, wówczas szacowany parametr przyjmuje się za zero, ponieważ nie może on jednocześnie przyjmować wartości dodatniej i ujemnej.
Wartość prognozowaną wyznacza się poprzez podstawienie odpowiedniej wartości (prognozy) do równania regresji. Obliczany jest średni błąd standardowy prognozy:
,
Gdzie
i konstruuje się przedział ufności dla prognozy:
; ;
Gdzie .

Przykładowe rozwiązanie

Zadanie nr 1. Dla siedmiu terytoriów Uralu w 199X roku znane są wartości dwóch cech.
Tabela 1.
Wymagany: 1. Aby scharakteryzować zależność y od x, oblicz parametry następujących funkcji:
a) liniowy;
b) potęga (należy najpierw wykonać procedurę linearyzacji zmiennych, biorąc logarytm obu części);
c) demonstracyjny;
d) hiperbola równoboczna (trzeba także dowiedzieć się, jak wstępnie zlinearyzować ten model).
2. Ocenić każdy model wykorzystując średni błąd aproksymacji i test F Fishera.

Rozwiązanie (opcja nr 1)

Aby obliczyć parametry a i b regresji liniowej (obliczenia można dokonać za pomocą kalkulatora).
rozwiązać układ równań normalnych dla A I B:
Na podstawie danych początkowych obliczamy :
y X yx x 2 y 2 A ja
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Całkowity 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Poślubić. oznaczający (Razem/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
S 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Równanie regresji: y = 76,88 - 0,35X. Wraz ze wzrostem przeciętnego dziennego wynagrodzenia o 1 rub. udział wydatków na zakup artykułów spożywczych spada średnio o 0,35 punktu procentowego.
Obliczmy współczynnik korelacji par liniowych:

Połączenie jest umiarkowane, odwrotne.
Wyznaczmy współczynnik determinacji:

Zmienność wyniku wynoszącą 12,7% można wytłumaczyć zmianą współczynnika x. Podstawienie rzeczywistych wartości do równania regresji X, ustalmy wartości teoretyczne (obliczone). . Znajdźmy wartość średniego błędu aproksymacji:

Obliczone wartości odbiegają średnio od rzeczywistych o 8,1%.
Obliczmy kryterium F:

od 1< F < ¥ , powinien być wzięty pod uwagę F -1 .
Otrzymana wartość wskazuje na konieczność przyjęcia hipotezy Ale och losowy charakter zidentyfikowanej zależności oraz statystyczna nieistotność parametrów równania i wskaźnika bliskości powiązania.
1b. Konstrukcję modelu potęgowego poprzedza procedura linearyzacji zmiennych. W przykładzie linearyzacja odbywa się poprzez logarytmy obu stron równania:


GdzieY=lg(y), X=lg(x), C=lg(a).

Do obliczeń wykorzystujemy dane zawarte w tabeli. 1.3.

Tabela 1.3

Y X YX Y2 X2 A ja
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Całkowity 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Średnia wartość 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Obliczmy C i b:


Otrzymujemy równanie liniowe: .
Po wykonaniu jego wzmocnienia otrzymujemy:

Podstawiając rzeczywiste wartości do tego równania X, otrzymujemy teoretyczne wartości wyniku. Wykorzystując je obliczymy wskaźniki: szczelności połączenia – wskaźnik korelacji oraz średni błąd aproksymacji

Charakterystyka modelu potęgowego wskazuje, że opisuje on zależność nieco lepiej niż funkcja liniowa.

1c. Konstruowanie równania krzywej wykładniczej

poprzedzone procedurą linearyzacji zmiennych poprzez logarytmy obu stron równania:

Do obliczeń wykorzystujemy dane tabelaryczne.

Y X Yx Y2 x 2 A ja
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Całkowity 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Poślubić. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Wartości parametrów regresji A i W wyniósł:


Wynikowe równanie liniowe to: . Wzmocnijmy powstałe równanie i zapiszmy je w zwykłej formie:

Bliskość połączenia ocenimy poprzez wskaźnik korelacji:

Metoda analizy regresji służy do wyznaczania parametrów techniczno-ekonomicznych produktów należących do określonego szeregu parametrycznego w celu budowania i wyrównywania relacji wartości. Metodę tę stosuje się do analizy i uzasadnienia poziomu i relacji cen produktów charakteryzujących się obecnością jednego lub większej liczby parametrów technicznych i ekonomicznych, które odzwierciedlają główne właściwości konsumenckie. Analiza regresji pozwala znaleźć wzór empiryczny opisujący zależność ceny od parametrów techniczno-ekonomicznych produktów:

P=f(X1X2,...,Xn),

gdzie P jest wartością ceny jednostkowej produktu, rub.; (X1, X2, ... Xn) - parametry techniczne i ekonomiczne wyrobów.

Metoda analizy regresji – najbardziej zaawansowana ze stosowanych metod normatywno-parametrycznych – jest skuteczna przy przeprowadzaniu obliczeń w oparciu o wykorzystanie nowoczesnych technologii i systemów informatycznych. Jego zastosowanie obejmuje następujące główne kroki:

  • określenie klasyfikacji parametrycznych grup wyrobów;
  • dobór parametrów mających największy wpływ na cenę produktu;
  • wybór i uzasadnienie formy powiązania zmian cen przy zmianie parametrów;
  • konstrukcja układu równań normalnych i obliczanie współczynników regresji.

Główną grupą kwalifikacyjną wyrobów, których cena podlega wyrównaniu, jest seria parametryczna, w ramach której produkty można grupować w różne konstrukcje w zależności od ich zastosowania, warunków pracy i wymagań itp. Przy tworzeniu serii parametrycznych stosuje się automatyczne metody klasyfikacji można zastosować, które pozwalają na odróżnienie grup jednorodnych od całkowitej masy produktów. Doboru parametrów techniczno-ekonomicznych dokonuje się w oparciu o następujące podstawowe wymagania:

  • wybrane parametry obejmują parametry zapisane w normach i specyfikacjach technicznych; oprócz parametrów technicznych (moc, nośność, prędkość itp.) stosowane są wskaźniki serializacji produktu, współczynniki złożoności, unifikacja itp.;
  • zestaw wybranych parametrów powinien w sposób wystarczający w pełni charakteryzować konstrukcję, właściwości technologiczne i użytkowe wyrobów wchodzących w skład serii oraz mieć w miarę ścisły związek z ceną;
  • parametry nie powinny być współzależne.

W celu wybrania parametrów techniczno-ekonomicznych mających istotny wpływ na cenę obliczana jest macierz współczynników korelacji par. Na podstawie wielkości współczynników korelacji pomiędzy parametrami można ocenić stopień ich powiązania. Jednocześnie korelacja bliska zeru wskazuje na niewielki wpływ parametru na cenę. Ostateczny dobór parametrów techniczno-ekonomicznych odbywa się w procesie krok po kroku analizy regresji z wykorzystaniem technologii komputerowej i odpowiednich programów standardowych.

W praktyce cenowej wykorzystuje się następujący zestaw funkcji:

liniowy

P = ao + alXl + ... + antXn,

moc liniowa

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

odwrotny logarytm

P = a0 + a1: In X1 + ... + an: In Xn,

moc

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

orientacyjny

P = e^(a1+a1X1+...+anXn)

hiperboliczny

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

gdzie P jest wyrównaniem cen; X1 X2,..., Xn - wartość parametrów techniczno-ekonomicznych wyrobów serii; a0, a1 ..., an - obliczone współczynniki równania regresji.

W praktycznych pracach nad cenami, w zależności od postaci zależności między cenami a parametrami techniczno-ekonomicznymi, można stosować inne równania regresji. Rodzaj funkcji powiązania ceny ze zbiorem parametrów techniczno-ekonomicznych może być zadany lub wybrany automatycznie podczas przetwarzania komputerowego. Dokładność korelacji ceny ze zbiorem parametrów ocenia się za pomocą wartości współczynnika korelacji wielokrotnej. Jego bliskość do jednego wskazuje na bliskie połączenie. Za pomocą równania regresji uzyskuje się wyrównane (obliczone) wartości cen produktów danego szeregu parametrycznego. Aby ocenić wyniki wyrównania, obliczane są względne wartości odchylenia obliczonych wartości cen od rzeczywistych:

Tsr = Rf - Rr: R x 100

gdzie Рф, Рр - ceny rzeczywiste i obliczone.

Wartość CR nie powinna przekraczać 8-10%. W przypadku znacznych odchyleń obliczonych wartości od rzeczywistych należy zbadać:

  • poprawność tworzenia serii parametrycznej, ponieważ może zawierać produkty, które swoimi parametrami znacznie różnią się od innych produktów w serii. Należy je wykluczyć;
  • właściwy dobór parametrów techniczno-ekonomicznych. Możliwy jest zestaw parametrów słabo skorelowanych z ceną. W takim przypadku należy kontynuować wyszukiwanie i dobór parametrów.

Procedura i metodyka przeprowadzenia analizy regresji, znalezienia nieznanych parametrów równania i oceny ekonomicznej uzyskanych wyników są przeprowadzane zgodnie z wymogami statystyki matematycznej.

W swoich pracach sięgających 1908 r. Opisał to na przykładzie pracy agenta sprzedającego nieruchomości. Specjalista ds. sprzedaży domów w swoich dokumentach rejestrował szeroki zakres danych wejściowych dla każdego konkretnego budynku. Na podstawie wyników aukcji określono, który czynnik ma największy wpływ na cenę transakcyjną.

Analiza dużej liczby transakcji dała ciekawe wyniki. Na ostateczną cenę wpływało wiele czynników, czasami prowadząc do paradoksalnych wniosków, a nawet oczywistych „odstających” wartości, gdy dom o wysokim potencjale wyjściowym był sprzedawany po obniżonej cenie.

Drugim przykładem zastosowania takiej analizy jest praca, której powierzono ustalenie wynagrodzenia pracowników. Złożoność zadania polegała na tym, że nie wymagało ono rozdysponowania dla wszystkich ustalonej kwoty, ale jej ścisłego powiązania z konkretną wykonywaną pracą. Pojawienie się wielu problemów o praktycznie podobnych rozwiązaniach wymagało bardziej szczegółowego ich zbadania na poziomie matematycznym.

Znaczące miejsce poświęcono rozdziałowi „analiza regresji”, w którym zestawiono praktyczne metody stosowane do badania zależności mieszczących się w pojęciu regresji. Zależności te obserwuje się pomiędzy danymi uzyskanymi z badań statystycznych.

Wśród wielu zadań do rozwiązania główne cele to trzy: wyznaczenie ogólnego równania regresji; konstruowanie oszacowań parametrów, które są niewiadomymi, wchodzącymi w skład równania regresji; testowanie hipotez regresji statystycznej. Badając zależność powstającą pomiędzy parą wielkości otrzymanych w wyniku obserwacji doświadczalnych, tworzących szereg (zbiór) typu (x1, y1), ..., (xn, yn), opierają się na założeń teorii regresji i założyć, że dla jednej wielkości Y istnieje określony rozkład prawdopodobieństwa, natomiast dla drugiej wielkości X pozostaje stały.

Wynik Y zależy od wartości zmiennej X, zależność tę można wyznaczyć różnymi wzorami, natomiast na dokładność uzyskanych wyników wpływa charakter obserwacji i cel analizy. Model eksperymentalny opiera się na pewnych założeniach, które są uproszczone, ale prawdopodobne. Głównym warunkiem jest to, aby parametr X był wielkością kontrolowaną. Jego wartości ustala się przed rozpoczęciem eksperymentu.

Jeżeli w eksperymencie wykorzystana zostanie para zmiennych niekontrolowanych XY, wówczas analizę regresji przeprowadza się w ten sam sposób, z tym że stosuje się metody interpretacji wyników, podczas których bada się związek badanych zmiennych losowych.Metody statystyki matematycznej nie są tematem abstrakcyjnym. Znajdują zastosowanie w życiu w różnych sferach działalności człowieka.

W literaturze naukowej na określenie powyższej metody powszechnie używany jest termin analiza regresji liniowej. W przypadku zmiennej X używany jest termin regresor lub predyktor, a zmienne zależne Y nazywane są także zmiennymi kryterialnymi. Terminologia ta odzwierciedla jedynie matematyczną zależność zmiennych, ale nie związek przyczynowo-skutkowy.

Analiza regresji jest najpowszechniejszą metodą stosowaną do przetwarzania wyników szerokiej gamy obserwacji. Metodą tą bada się zależności fizyczne i biologiczne, ma ona zastosowanie zarówno w ekonomii, jak i technologii. Wiele innych dziedzin wykorzystuje modele analizy regresji. Analiza wariancji i wieloczynnikowa analiza statystyczna ściśle współpracują z tą metodą badań.

Jeśli istnieje korelacja między współczynnikiem a charakterystyką działania, lekarze często muszą ustalić, o ile wartość jednej cechy może się zmienić, gdy druga zmieni się na ogólnie przyjętą jednostkę miary lub ustaloną przez samego badacza.

Na przykład, jak zmieni się masa ciała uczniów I klasy (dziewczynek lub chłopców), jeśli ich wzrost wzrośnie o 1 cm? W tym celu wykorzystuje się metodę analizy regresji.

Najczęściej metoda analizy regresji wykorzystywana jest do opracowywania normatywnych skal i standardów rozwoju fizycznego.

  1. Definicja regresji. Regresja to funkcja, która pozwala na podstawie średniej wartości jednej cechy wyznaczyć średnią wartość innej cechy, która jest skorelowana z pierwszą.

    W tym celu wykorzystuje się współczynnik regresji i szereg innych parametrów. Można na przykład obliczyć średnią liczbę przeziębień przy określonych wartościach średniej miesięcznej temperatury powietrza w okresie jesienno-zimowym.

  2. Wyznaczanie współczynnika regresji. Współczynnik regresji to wartość bezwzględna, o którą średnio zmienia się wartość jednej cechy, gdy inna powiązana cecha zmienia się o określoną jednostkę miary.
  3. Wzór na współczynnik regresji. R y/x = r xy x (σ y / σ x)
    gdzie R у/х - współczynnik regresji;
    r xy – współczynnik korelacji pomiędzy cechami x i y;
    (σ y i σ x) - odchylenia standardowe cech x i y.

    W naszym przykładzie;
    σ x = 4,6 (odchylenie standardowe temperatury powietrza w okresie jesienno-zimowym;
    σ y = 8,65 (odchylenie standardowe liczby chorób zakaźnych i przeziębieniowych).
    Zatem R y/x jest współczynnikiem regresji.
    R у/х = -0,96 x (4,6 / 8,65) = 1,8, tj. Gdy średnia miesięczna temperatura powietrza (x) spadnie o 1 stopień, średnia liczba chorób zakaźnych i przeziębieniowych (y) w okresie jesienno-zimowym zmieni się o 1,8 przypadku.

  4. Równanie regresji. y = M y + R y/x (x - M x)
    gdzie y jest wartością średnią cechy, którą należy wyznaczyć w przypadku zmiany wartości średniej innej cechy (x);
    x jest znaną średnią wartością innej cechy;
    R y/x – współczynnik regresji;
    M x, M y - znane średnie wartości cech x i y.

    Na przykład średnią liczbę chorób zakaźnych i przeziębieniowych (y) można określić bez specjalnych pomiarów przy dowolnej średniej wartości średniej miesięcznej temperatury powietrza (x). Zatem jeśli x = - 9°, R y/x = 1,8 chorób, M x = -7°, M y = 20 chorób, to y = 20 + 1,8 x (9-7) = 20 + 3,6 = 23,6 choroby.
    Równanie to stosuje się w przypadku liniowej zależności pomiędzy dwiema charakterystykami (x i y).

  5. Cel równania regresji. Równanie regresji służy do konstruowania linii regresji. Ta ostatnia umożliwia, bez konieczności wykonywania specjalnych pomiarów, wyznaczenie dowolnej wartości średniej (y) jednej cechy w przypadku zmiany wartości (x) innej cechy. Na podstawie tych danych tworzony jest wykres - linia regresji, za pomocą którego można wyznaczyć średnią liczbę przeziębień przy dowolnej wartości średniej miesięcznej temperatury w przedziale pomiędzy obliczonymi wartościami liczby przeziębień.
  6. Regresja Sigma (wzór).
    gdzie σ Rу/х – sigma (odchylenie standardowe) regresji;
    σ y – odchylenie standardowe cechy y;
    r xy - współczynnik korelacji pomiędzy cechami x i y.

    Zatem jeśli σ y - odchylenie standardowe liczby przeziębień = 8,65; r xy – współczynnik korelacji pomiędzy liczbą przeziębień (y) a średnią miesięczną temperaturą powietrza w okresie jesienno-zimowym (x) wynosi – 0,96, wówczas

  7. Przypisanie sigma regresji. Podaje opis miary różnorodności wynikowej cechy (y).

    Charakteryzuje np. zróżnicowanie liczby przeziębień przy określonej wartości średniej miesięcznej temperatury powietrza w okresie jesienno-zimowym. Zatem średnia liczba przeziębień przy temperaturze powietrza x 1 = -6° może wynosić od 15,78 do 20,62 chorób.
    Przy x 2 = -9° średnia liczba przeziębień może wahać się od 21,18 chorób do 26,02 chorób itd.

    Sigma regresji służy do skonstruowania skali regresji, która odzwierciedla odchylenie wartości wynikowej cechy od jej średniej wartości wykreślonej na linii regresji.

  8. Dane wymagane do obliczenia i wykreślenia skali regresji
    • współczynnik regresji - R у/х;
    • równanie regresji - y = M y + R y/x (x-M x);
    • regresja sigma - σ Rx/y
  9. Kolejność obliczeń i graficzne przedstawienie skali regresji.
    • określić współczynnik regresji za pomocą wzoru (patrz ust. 3). Na przykład należy określić, o ile średnio zmieni się masa ciała (w określonym wieku w zależności od płci), jeśli średni wzrost zmieni się o 1 cm.
    • korzystając ze wzoru na równanie regresji (patrz punkt 4), określ, jaka będzie np. średnia masa ciała (y, y 2, y 3 ...) * dla określonej wartości wzrostu (x, x 2, x 3 ). ..) .
      ________________
      *Wartość „y” należy obliczyć dla co najmniej trzech znanych wartości „x”.

      Jednocześnie znane są średnie wartości masy ciała i wzrostu (M x i M y) dla określonego wieku i płci

    • obliczyć sigma regresji, znając odpowiednie wartości σ y i r xy i podstawiając ich wartości do wzoru (patrz akapit 6).
    • w oparciu o znane wartości x 1, x 2, x 3 i odpowiadające im wartości średnie y 1, y 2 y 3, a także najmniejsze (y - σ rу/х) i największe (y + σ rу /х) wartości (y) konstruują skalę regresji.

      Aby graficznie przedstawić skalę regresji, najpierw na wykresie zaznacza się wartości x, x2, x3 (oś rzędnych), tj. konstruowana jest linia regresji, na przykład zależność masy ciała (y) od wzrostu (x).

      Następnie w odpowiednich punktach 1, y 2, y 3 odnotowuje się wartości liczbowe sigma regresji, tj. na wykresie znajdź najmniejsze i największe wartości 1, y 2, y 3.

  10. Praktyczne wykorzystanie skali regresji. Opracowywane są skale i standardy normatywne, w szczególności dotyczące rozwoju fizycznego. Za pomocą standardowej skali można dokonać indywidualnej oceny rozwoju dzieci. W tym przypadku rozwój fizyczny ocenia się jako harmonijny, jeżeli np. przy pewnym wzroście masa ciała dziecka mieści się w granicach jednej sigma regresji do średnio obliczonej jednostki masy ciała – (y) dla danego wzrostu (x) ( y ± 1 σ Ry/x).

    Rozwój fizyczny uznaje się za dysharmonijny pod względem masy ciała, jeżeli masa ciała dziecka dla określonego wzrostu mieści się w granicach drugiej sigma regresji: (y ± 2 σ Ry/x)

    Rozwój fizyczny będzie mocno dysharmonijny ze względu zarówno na nadmiar, jak i niedostateczną masę ciała, jeśli masa ciała dla określonego wzrostu będzie mieścić się w trzeciej sigma regresji (y ± 3 σ Ry/x).

Z wyników badań statystycznych rozwoju fizycznego 5-letnich chłopców wynika, że ​​ich średni wzrost (x) wynosi 109 cm, a średnia masa ciała (y) to 19 kg. Współczynnik korelacji wzrostu z masą ciała wynosi +0,9, odchylenia standardowe przedstawiono w tabeli.

Wymagany:

  • obliczyć współczynnik regresji;
  • korzystając z równania regresji, określ, jaka będzie oczekiwana masa ciała 5-letnich chłopców przy wzroście równym x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • obliczyć sigma regresji, skonstruować skalę regresji i przedstawić graficznie wyniki jej rozwiązania;
  • wyciągnąć odpowiednie wnioski.

Uwarunkowania problemu i wyniki jego rozwiązania przedstawiono w tabeli zbiorczej.

Tabela 1

Warunki problemu Wyniki rozwiązania problemu
równanie regresji sigma regresji skala regresji (przewidywana masa ciała (w kg))
M σ r xy R y/x X U σ Rx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Wysokość (x) 109cm ± 4,4 cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Masa ciała (y) 19 kg ± 0,8 kg 110cm 19,16 kg 18,81 kg 19,51 kg
120cm 20,76 kg 20,41 kg 21,11 kg

Rozwiązanie.

Wniosek. Tym samym skala regresji w granicach wyliczonych wartości masy ciała umożliwia jej wyznaczenie przy dowolnej innej wartości wzrostu lub ocenę indywidualnego rozwoju dziecka. Aby to zrobić, przywróć prostopadłość do linii regresji.

  1. Własow V.V. Epidemiologia. - M.: GEOTAR-MED, 2004. - 464 s.
  2. Lisitsyn Yu.P. Zdrowie publiczne i opieka zdrowotna. Podręcznik dla uniwersytetów. - M.: GEOTAR-MED, 2007. - 512 s.
  3. Medyk V.A., Yuryev V.K. Cykl wykładów na temat zdrowia publicznego i opieki zdrowotnej: Część 1. Zdrowie publiczne. - M.: Medycyna, 2003. - 368 s.
  4. Minyaev V.A., Vishnyakov N.I. i inne Medycyna społeczna i organizacja opieki zdrowotnej (Podręcznik w 2 tomach). - Petersburg, 1998. -528 s.
  5. Kucherenko V.Z., Agarkov N.M. i inne Organizacja higieny społecznej i opieki zdrowotnej (Poradnik) - Moskwa, 2000. - 432 s.
  6. S. Glanza. Statystyka medyczna i biologiczna. Tłumaczenie z języka angielskiego - M., Praktika, 1998. - 459 s.

Po tym, jak analiza korelacji ujawniła istnienie zależności statystycznych pomiędzy zmiennymi i oceniła stopień ich bliskości, zwykle przystępujemy do matematycznego opisu określonego rodzaju zależności za pomocą analizy regresji. W tym celu wybiera się klasę funkcji, która łączy wynikowy wskaźnik y i argumenty x 1, x 2, ..., x k, wybierane są argumenty najbardziej informatywne, estymaty nieznanych wartości parametrów obliczane są równania komunikacji i analizowane są właściwości powstałego równania.

Funkcja f(x 1, x 2,..., x k) opisująca zależność średniej wartości wynikowej cechy y od podanych wartości argumentów nazywana jest funkcją regresji (równaniem). Termin „regresja” (łac. regresja – wycofanie się, powrót do czegoś) został wprowadzony przez angielskiego psychologa i antropologa F. Galtona i kojarzy się wyłącznie ze specyfiką jednego z pierwszych konkretnych przykładów użycia tego pojęcia. I tak przetwarzając dane statystyczne w związku z analizą dziedziczności wzrostu, F. Galton stwierdził, że jeśli ojcowie odbiegają od średniego wzrostu wszystkich ojców o x cale, to ich synowie odbiegają od średniego wzrostu wszystkich synów o mniej niż x cale. Zidentyfikowany trend nazwano „regresją do średniej”. Od tego czasu w literaturze statystycznej powszechnie używa się terminu „regresja”, choć w wielu przypadkach nie charakteryzuje on trafnie pojęcia zależności statystycznej.

Aby dokładnie opisać równanie regresji, konieczna jest znajomość prawa rozkładu efektywnego wskaźnika y. W praktyce statystycznej zazwyczaj trzeba ograniczyć się do poszukiwania odpowiednich przybliżeń dla nieznanej prawdziwej funkcji regresji, gdyż badacz nie posiada dokładnej wiedzy na temat prawa rozkładu prawdopodobieństwa warunkowego analizowanego wskaźnika wypadkowego y dla zadanych wartości argument x.

Rozważmy związek pomiędzy prawdą f(x) = M(y1x), regresją modelu? i oszacowanie regresji y. Niech efektywny wskaźnik y zostanie powiązany z argumentem x zależnością:

gdzie jest zmienną losową mającą rozkład normalny, a Me = 0 i D e = y 2. Prawdziwa funkcja regresji ma w tym przypadku postać: f (x) = M(y/x) = 2x 1,5.

Załóżmy, że nie znamy dokładnej postaci prawdziwego równania regresji, ale mamy dziewięć obserwacji dwuwymiarowej zmiennej losowej powiązanej zależnością yi = 2x1,5 + e i przedstawionych na rys. 1

Rysunek 1 - Względne położenie prawdy f (x) i teoretycznej? modele regresji

Położenie punktów na rys. 1 pozwala nam ograniczyć się do klasy liniowych zależności postaci? = w 0 + w 1 x. Metodą najmniejszych kwadratów znajdujemy oszacowanie równania regresji y = b 0 + b 1 x. Dla porównania na ryc. 1 pokazuje wykresy prawdziwej funkcji regresji y = 2x 1,5, teoretyczna aproksymująca funkcja regresji? = w 0 + w 1 x .

Ponieważ popełniliśmy błąd w wyborze klasy funkcji regresji, a jest to dość powszechne w praktyce badań statystycznych, nasze wnioski i szacunki statystyczne okażą się błędne. I niezależnie od tego, jak bardzo zwiększymy wolumen obserwacji, nasze oszacowanie próbki y nie będzie bliskie prawdziwej funkcji regresji f(x). Gdybyśmy poprawnie wybrali klasę funkcji regresji, to czy niedokładność w opisie f(x) za pomocą? można wyjaśnić jedynie ograniczeniami próby.

Aby jak najlepiej odtworzyć z pierwotnych danych statystycznych wartość warunkową efektywnego wskaźnika y(x) i nieznaną funkcję regresji f(x) = M(y/x), najczęściej stosuje się następujące kryteria adekwatności (funkcje straty) często używany.

Metoda najmniejszych kwadratów. Zgodnie z nim kwadrat odchylenia zaobserwowanych wartości efektywnego wskaźnika y, (i = 1,2,..., n) od wartości modelu,? = f(x i), gdzie x i jest wartością wektora argumentu w i-tej obserwacji: ?(y i - f(x i) 2 > min. Wynikową regresję nazywamy średnim kwadratem.

Metoda najmniejszych modułów. Zgodnie z nim suma bezwzględnych odchyleń obserwowanych wartości efektywnego wskaźnika od wartości modułowych jest zminimalizowana. I otrzymujemy,? = f(x i), średnia regresja mediany bezwzględnej? |y i - f(x i)| >min.

Analiza regresji jest metodą statystycznej analizy zależności zmiennej losowej y od zmiennych x j = (j = 1,2,..., k), uznawanych w analizie regresji za zmienne nielosowe, niezależnie od prawdziwego prawa rozkładu z x j.

Zwykle zakłada się, że zmienna losowa y ma rozkład normalny z warunkowym oczekiwaniem y, które jest funkcją argumentów x/ (/ = 1, 2,..., k) i stałą wariancją y 2 niezależną od argumenty.

Ogólnie model analizy regresji liniowej ma postać:

Y = Y k j=0 V J ts J(X 1 , X 2 . . .. ,X k)+E

gdzie q j jest jakąś funkcją jego zmiennych - x 1, x 2. . .. ,x k, E jest zmienną losową o zerowym oczekiwaniu matematycznym i wariancji y 2.

W analizie regresji rodzaj równania regresji dobiera się na podstawie fizycznej natury badanego zjawiska i wyników obserwacji.

Oszacowania nieznanych parametrów równania regresji zwykle wyznacza się metodą najmniejszych kwadratów. Poniżej omówimy ten problem bardziej szczegółowo.

Dwuwymiarowe równanie regresji liniowej. Załóżmy na podstawie analizy badanego zjawiska, że ​​na „średnim” y jest funkcją liniową x, czyli istnieje równanie regresji

y=M(y/x)=w 0 + w 1 x)

gdzie M(y1x) jest warunkowym oczekiwaniem matematycznym zmiennej losowej y dla danego x; przy 0 i przy 1 - nieznane parametry populacji ogólnej, które należy oszacować na podstawie wyników obserwacji próbnych.

Załóżmy, że w celu oszacowania parametrów przy 0 i przy 1 pobierana jest próbka o wielkości n z dwuwymiarowej populacji (x, y), gdzie (x, y) jest wynikiem i-tej obserwacji (i = 1 , 2,..., n) . W tym przypadku model analizy regresji ma postać:

y jot = w 0 + w 1 x+e jot .

gdzie e j są niezależnymi zmiennymi losowymi o rozkładzie normalnym z zerowymi oczekiwaniami matematycznymi i wariancją y 2, tj. M e j. = 0;

Re mi jot .= y 2 dla wszystkich i = 1, 2,..., n.

Zgodnie z metodą najmniejszych kwadratów, jako estymaty nieznanych parametrów przy 0 i przy 1, należy przyjmować takie wartości charakterystyk próbki b 0 i b 1, które minimalizują sumę kwadratów odchyleń wartości wynikowej charakterystyczne dla i z warunkowego oczekiwania matematycznego? I

Rozważymy metodologię określania wpływu cech marketingowych na zysk przedsiębiorstwa na przykładzie siedemnastu typowych przedsiębiorstw o ​​średniej wielkości i wskaźnikach działalności gospodarczej.

Przy rozwiązywaniu problemu wzięto pod uwagę następujące cechy, które w wyniku badania ankietowego uznano za najważniejsze (ważne):

* działalność innowacyjna przedsiębiorstwa;

* planowanie asortymentu produkowanych wyrobów;

* kształtowanie polityki cenowej;

* public relations;

* system sprzedaży;

* system motywacyjny dla pracowników.

Na podstawie systemu porównań czynnikowych skonstruowano kwadratowe macierze sąsiedztwa, w których obliczono wartości względnych priorytetów dla każdego czynnika: działalności innowacyjnej przedsiębiorstwa, planowania asortymentu produktów, kształtowania polityki cenowej, reklamy , public relations, system sprzedaży, system motywacyjny dla pracowników.

Szacunki priorytetów dla czynnika „relacje ze społeczeństwem” uzyskano w wyniku ankiety przeprowadzonej wśród specjalistów ds. przedsiębiorczości. Akceptowane są następujące oznaczenia: > (lepiej), > (lepiej lub tak samo), = (tak samo),< (хуже или одинаково), <

Następnie rozwiązano problem kompleksowej oceny poziomu marketingowego przedsiębiorstwa. Przy obliczaniu wskaźnika określono istotność (wagę) rozpatrywanych cech cząstkowych i rozwiązano problem liniowego splotu wskaźników cząstkowych. Przetwarzanie danych odbywało się przy pomocy specjalnie opracowanych programów.

Następnie obliczana jest kompleksowa ocena poziomu marketingowego przedsiębiorstwa – współczynnik marketingowy, który wpisuje się w tabeli 1. Dodatkowo w tabeli uwzględniono wskaźniki charakteryzujące przedsiębiorstwo jako całość. Dane w tabeli zostaną wykorzystane do przeprowadzenia analizy regresji. Wynikowym atrybutem jest zysk. Oprócz współczynnika marketingowego jako charakterystykę czynnikową wykorzystano następujące wskaźniki: wielkość produkcji brutto, koszt środków trwałych, liczbę pracowników, współczynnik specjalizacji.

Tabela 1 – Wstępne dane do analizy regresji


Na podstawie danych tabelarycznych oraz na podstawie czynników o najistotniejszych wartościach współczynników korelacji skonstruowano funkcje regresji zależności zysku od czynników.

Równanie regresji w naszym przypadku będzie miało postać:

Ilościowy wpływ omówionych powyżej czynników na wielkość zysku obrazują współczynniki równania regresji. Pokazują, o ile tysięcy rubli zmienia się jego wartość, gdy charakterystyka czynnika zmienia się o jedną jednostkę. Jak wynika z równania, zwiększenie współczynnika marketingu mix o jedną jednostkę daje wzrost zysku o 1547,7 tys. Rubli. Sugeruje to, że doskonalenie działań marketingowych ma ogromny potencjał poprawy wyników ekonomicznych przedsiębiorstw.

Przy badaniu efektywności marketingu najciekawszym i najważniejszym czynnikiem jest współczynnik X5 – współczynnik marketingowy. Zgodnie z teorią statystyki zaletą istniejącego równania regresji wielokrotnej jest możliwość oceny izolowanego wpływu każdego czynnika, w tym czynnika marketingowego.

Wyniki analizy regresji mają szersze zastosowanie niż do obliczania parametrów równania. Kryterium klasyfikacji przedsiębiorstw (Kef) jako stosunkowo lepszych lub stosunkowo gorszych opiera się na względnym wskaźniku wyniku:

gdzie Y facti to rzeczywista wartość i-tego przedsiębiorstwa, w tysiącach rubli;

Y obliczony – wysokość zysku i-tego przedsiębiorstwa, uzyskana poprzez obliczenia z wykorzystaniem równania regresji

W odniesieniu do rozwiązywanego problemu wartość tę nazywa się „współczynnikiem efektywności”. Działalność przedsiębiorstwa można uznać za efektywną w przypadkach, gdy wartość współczynnika jest większa od jedności. Oznacza to, że rzeczywisty zysk jest większy niż średni zysk w próbie.

Rzeczywiste i szacunkowe wartości zysku przedstawiono w tabeli. 2.

Tabela 2 – Analiza otrzymanej charakterystyki w modelu regresji

Z analizy tabeli wynika, że ​​w naszym przypadku działalność przedsiębiorstw nr 3, 5, 7, 9, 12, 14, 15, 17 w badanym okresie można uznać za udaną.