Przybliżone dane eksperymentalne metodą najmniejszych kwadratów. Gdzie stosowana jest metoda najmniejszych kwadratów?

Przybliżmy funkcję wielomianem stopnia 2. Aby to zrobić, obliczamy współczynniki normalnego układu równań:

, ,

Stwórzmy normalny system najmniejszych kwadratów, który ma postać:

Rozwiązanie układu jest łatwe do znalezienia:, , .

W ten sposób znaleziono wielomian drugiego stopnia: .

Informacje teoretyczne

Wróć do strony<Введение в вычислительную математику. Примеры>

Przykład 2. Znajdowanie optymalnego stopnia wielomianu.

Wróć do strony<Введение в вычислительную математику. Примеры>

Przykład 3. Wyprowadzenie układu równań normalnych do znalezienia parametrów zależności empirycznej.

Wyprowadźmy układ równań w celu wyznaczenia współczynników i funkcji , który wykonuje przybliżenie średniokwadratowe danej funkcji punktami. Utwórzmy funkcję i zapisz niezbędny warunek ekstremalny:

Wtedy normalny system przyjmie postać:

Otrzymaliśmy liniowy układ równań dla nieznanych parametrów, który można łatwo rozwiązać.

Informacje teoretyczne

Wróć do strony<Введение в вычислительную математику. Примеры>

Przykład.

Dane eksperymentalne dotyczące wartości zmiennych X I Na podano w tabeli.

W wyniku ich wyrównania uzyskuje się funkcję

Za pomocą metoda najmniejszych kwadratów, aproksymuj te dane za pomocą zależności liniowej y=topór+b(znajdź parametry A I B). Dowiedz się, która z dwóch linii lepiej (w sensie metody najmniejszych kwadratów) wyrównuje dane eksperymentalne. Narysuj coś.

Istota metody najmniejszych kwadratów (LSM).

Zadanie polega na znalezieniu współczynników zależności liniowej, przy której funkcjonuje funkcja dwóch zmiennych A I Bprzyjmuje najmniejszą wartość. To znaczy, dane A I B suma kwadratów odchyleń danych eksperymentalnych od znalezionej prostej będzie najmniejsza. Na tym polega cały sens metody najmniejszych kwadratów.

Rozwiązanie przykładu sprowadza się zatem do znalezienia ekstremum funkcji dwóch zmiennych.

Wyprowadzanie wzorów na znalezienie współczynników.

Układ dwóch równań z dwiema niewiadomymi jest kompilowany i rozwiązywany. Znajdowanie pochodnych cząstkowych funkcji przez zmienne A I B, przyrównujemy te pochodne do zera.

Powstały układ równań rozwiązujemy dowolną metodą (np metodą podstawieniową lub metoda Cramera) i otrzymać wzory na znalezienie współczynników metodą najmniejszych kwadratów (LSM).

Dany A I B funkcjonować przyjmuje najmniejszą wartość. Dowód tego faktu przytoczono poniżej w tekście na końcu strony.

To cała metoda najmniejszych kwadratów. Wzór na znalezienie parametru A zawiera sumy , , i parametr N— ilość danych eksperymentalnych. Zalecamy oddzielne obliczanie wartości tych kwot.

Współczynnik B znalezione po obliczeniach A.

Czas przypomnieć sobie oryginalny przykład.

Rozwiązanie.

W naszym przykładzie n=5. Wypełniamy tabelę dla wygody obliczenia kwot uwzględnionych we wzorach wymaganych współczynników.

Wartości w czwartym wierszu tabeli uzyskuje się poprzez pomnożenie wartości drugiego wiersza przez wartości trzeciego wiersza dla każdej liczby I.

Wartości w piątym wierszu tabeli uzyskuje się przez podniesienie do kwadratu wartości w drugim wierszu dla każdej liczby I.

Wartości w ostatniej kolumnie tabeli są sumami wartości w wierszach.

Do znalezienia współczynników używamy wzorów metody najmniejszych kwadratów A I B. Podstawiamy do nich odpowiednie wartości z ostatniej kolumny tabeli:

Stąd, y = 0,165x+2,184— żądaną przybliżoną linię prostą.

Pozostaje dowiedzieć się, która z linii y = 0,165x+2,184 Lub lepiej przybliża oryginalne dane, czyli dokonuje oszacowania metodą najmniejszych kwadratów.

Estymacja błędu metodą najmniejszych kwadratów.

Aby to zrobić, musisz obliczyć sumę kwadratów odchyleń oryginalnych danych od tych linii I , mniejsza wartość odpowiada linii, która lepiej przybliża oryginalne dane w sensie metody najmniejszych kwadratów.

Od , potem prosto y = 0,165x+2,184 lepiej przybliża oryginalne dane.

Graficzna ilustracja metody najmniejszych kwadratów (LS).

Wszystko doskonale widać na wykresach. Czerwona linia to znaleziona linia prosta y = 0,165x+2,184, niebieska linia to , różowe kropki to dane oryginalne.

Dlaczego jest to potrzebne, po co te wszystkie przybliżenia?

Osobiście używam go do rozwiązywania problemów związanych z wygładzaniem danych, interpolacją i ekstrapolacją (w oryginalnym przykładzie można zostać poproszony o znalezienie wartości obserwowanej wartości y Na x=3 albo kiedy x=6 metodą najmniejszych kwadratów). Ale porozmawiamy o tym więcej później w innej części witryny.

Na górze strony

Dowód.

Tak więc, gdy zostanie znaleziony A I B funkcja przyjmuje najmniejszą wartość, konieczne jest, aby w tym miejscu macierz postaci kwadratowej różniczki drugiego rzędu dla funkcji był dodatnio określony. Pokażmy to.

Różniczka drugiego rzędu ma postać:

To jest

Zatem macierz postaci kwadratowej ma postać

a wartości elementów nie zależą od A I B.

Pokażmy, że macierz jest dodatnio określona. Aby to zrobić, nieletni kątowe muszą być dodatnie.

Moll kątowy pierwszego rzędu . Nierówność jest ścisła, ponieważ punkty nie pokrywają się. W dalszej części będziemy to sugerować.

Moll kątowy drugiego rzędu

Udowodnijmy to metodą indukcji matematycznej.

Wniosek: znalezione wartości A I B odpowiadają najmniejszej wartości funkcji są zatem wymaganymi parametrami metody najmniejszych kwadratów.

Nie masz czasu, żeby to przemyśleć?
Zamów rozwiązanie

Na górze strony

Opracowanie prognozy metodą najmniejszych kwadratów. Przykład rozwiązania problemu

Ekstrapolacja to metoda badań naukowych, która opiera się na rozpowszechnianiu przeszłych i obecnych trendów, wzorców i powiązań z przyszłym rozwojem obiektu prognozy. Metody ekstrapolacji obejmują metoda średniej ruchomej, metoda wygładzania wykładniczego, metoda najmniejszych kwadratów.

Istota metoda najmniejszych kwadratów polega na minimalizowaniu sumy kwadratów odchyleń pomiędzy wartościami obserwowanymi i obliczonymi. Obliczone wartości znajdują się za pomocą wybranego równania - równania regresji. Im mniejsza odległość pomiędzy wartościami rzeczywistymi i obliczonymi, tym dokładniejsza jest prognoza oparta na równaniu regresji.

Podstawą wyboru krzywej jest teoretyczna analiza istoty badanego zjawiska, którego zmiana znajduje odzwierciedlenie w szeregu czasowym. Czasami brane są pod uwagę rozważania dotyczące charakteru wzrostu poziomów szeregu. Jeżeli zatem oczekuje się wzrostu produkcji w postępie arytmetycznym, to wygładzanie przeprowadza się w linii prostej. Jeśli okaże się, że wzrost przebiega w postępie geometrycznym, wówczas należy przeprowadzić wygładzanie za pomocą funkcji wykładniczej.

Roboczy wzór na metodę najmniejszych kwadratów : Yt+1 = a*X + b, gdzie t + 1 – okres prognozy; Уt+1 – przewidywany wskaźnik; aib są współczynnikami; X jest symbolem czasu.

Obliczenia współczynników a i b przeprowadza się za pomocą następujących wzorów:

gdzie, Uf – wartości rzeczywiste szeregu dynamiki; n – liczba poziomów szeregów czasowych;

Wygładzanie szeregów czasowych metodą najmniejszych kwadratów służy odzwierciedleniu schematu rozwoju badanego zjawiska. W analitycznym wyrażeniu trendu czas jest uważany za zmienną niezależną, a poziomy szeregu działają jako funkcja tej zmiennej niezależnej.

Rozwój zjawiska nie zależy od tego, ile lat minęło od punktu wyjścia, ale od tego, jakie czynniki wpłynęły na jego rozwój, w jakim kierunku i z jaką intensywnością. Stąd jasno wynika, że ​​rozwój zjawiska w czasie jest wynikiem działania tych czynników.

Prawidłowe ustalenie rodzaju krzywej, rodzaju zależności analitycznej od czasu jest jednym z najtrudniejszych zadań analizy predykcyjnej .

Wybór rodzaju funkcji opisującej trend, której parametry wyznaczane są metodą najmniejszych kwadratów, w większości przypadków odbywa się empirycznie, konstruując szereg funkcji i porównując je ze sobą według wartości błąd średniokwadratowy, obliczany ze wzoru:

gdzie UV są rzeczywistymi wartościami szeregu dynamiki; Ur – obliczone (wygładzone) wartości szeregu dynamiki; n – liczba poziomów szeregów czasowych; p – liczba parametrów zdefiniowanych we wzorach opisujących trend (trend rozwoju).

Wady metody najmniejszych kwadratów :

  • próbując opisać badane zjawisko gospodarcze za pomocą równania matematycznego, prognoza będzie dokładna przez krótki okres czasu, a równanie regresji należy przeliczyć w miarę pojawiania się nowych informacji;
  • złożoność wyboru równania regresji, które można rozwiązać przy użyciu standardowych programów komputerowych.

Przykład zastosowania metody najmniejszych kwadratów do opracowania prognozy

Zadanie . Istnieją dane charakteryzujące stopę bezrobocia w województwie, proc.

  • Skonstruuj prognozę stopy bezrobocia w województwie na listopad, grudzień, styczeń, korzystając z metod: średniej kroczącej, wygładzania wykładniczego, najmniejszych kwadratów.
  • Oblicz błędy w otrzymanych prognozach, stosując każdą metodę.
  • Porównaj wyniki i wyciągnij wnioski.

Rozwiązanie metodą najmniejszych kwadratów

Aby rozwiązać ten problem, sporządzimy tabelę, w której dokonamy niezbędnych obliczeń:

ε = 28,63/10 = 2,86% dokładność prognozy wysoki.

Wniosek : Porównanie wyników uzyskanych z obliczeń metoda średniej ruchomej , metoda wygładzania wykładniczego oraz metodą najmniejszych kwadratów można powiedzieć, że średni błąd względny przy obliczeniach metodą wygładzania wykładniczego mieści się w przedziale 20-50%. Oznacza to, że trafność prognozy w tym przypadku jest jedynie zadowalająca.

W pierwszym i trzecim przypadku dokładność prognozy jest wysoka, ponieważ średni błąd względny jest mniejszy niż 10%. Jednak metoda średniej ruchomej pozwoliła uzyskać bardziej wiarygodne wyniki (prognoza na listopad - 1,52%, prognoza na grudzień - 1,53%, prognoza na styczeń - 1,49%), ponieważ średni błąd względny przy stosowaniu tej metody jest najmniejszy - 1 ,13%.

Metoda najmniejszych kwadratów

Inne artykuły na ten temat:

Lista wykorzystanych źródeł

  1. Zalecenia naukowo-metodologiczne dotyczące diagnozowania ryzyk społecznych oraz prognozowania wyzwań, zagrożeń i konsekwencji społecznych. Rosyjski Państwowy Uniwersytet Społeczny. Moskwa. 2010;
  2. Władimirowa L.P. Prognozowanie i planowanie w warunkach rynkowych: Podręcznik. dodatek. M.: Wydawnictwo „Dashkov i Spółka”, 2001;
  3. Novikova N.V., Pozdeeva O.G. Prognozowanie gospodarki narodowej: Podręcznik edukacyjno-metodyczny. Jekaterynburg: Wydawnictwo Ural. państwo ekonomia. Uniwersytet, 2007;
  4. Slutskin L.N. Kurs MBA z zakresu prognozowania biznesowego. M.: Alpina Business Books, 2006.

programu MNC

Wprowadzanie danych

Dane i aproksymacja y = a + bx

I- numer punktu doświadczalnego;
x ja- wartość stałego parametru w punkcie I;
tak, ja- wartość mierzonego parametru w punkcie I;
ω ja- pomiar masy w punkcie I;
tak, oblicz.- różnica pomiędzy wartością zmierzoną i obliczoną metodą regresji y w tym punkcie I;
S x i (x i)- oszacowanie błędu x ja podczas pomiaru y w tym punkcie I.

Dane i aproksymacja y = kx

I x ja tak, ja ω ja tak, oblicz. Δy ja S x i (x i)

Kliknij na wykres

Instrukcja obsługi programu online MNC.

W polu danych wpisz w każdej osobnej linii wartości `x` i `y` w jednym punkcie doświadczalnym. Wartości muszą być oddzielone znakiem odstępu (spacją lub tabulatorem).

Trzecią wartością może być waga punktu „w”. Jeśli waga punktu nie jest określona, ​​jest ona równa jeden. W zdecydowanej większości przypadków wagi punktów doświadczalnych są nieznane lub nie obliczone, tj. wszystkie dane eksperymentalne uważa się za równoważne. Czasami wagi w badanym zakresie wartości absolutnie nie są równoważne i można je nawet obliczyć teoretycznie. Na przykład w spektrofotometrii masy można obliczyć za pomocą prostych wzorów, chociaż jest to najczęściej zaniedbywane w celu zmniejszenia kosztów pracy.

Dane można wkleić za pomocą schowka z arkusza kalkulacyjnego w pakiecie biurowym takim jak Excel z pakietu Microsoft Office lub Calc z pakietu Open Office. Aby to zrobić, w arkuszu kalkulacyjnym zaznacz zakres danych do skopiowania, skopiuj do schowka i wklej dane w polu danych na tej stronie.

Aby dokonać obliczeń metodą najmniejszych kwadratów, potrzebne są co najmniej dwa punkty, aby wyznaczyć dwa współczynniki `b` - tangens kąta nachylenia prostej oraz `a` - wartość przecinana przez prostą na osi `y`.

Aby oszacować błąd obliczonych współczynników regresji, należy ustawić liczbę punktów eksperymentalnych na więcej niż dwa.

Metoda najmniejszych kwadratów (LSM).

Im większa liczba punktów doświadczalnych, tym dokładniejsza ocena statystyczna współczynników (ze względu na zmniejszenie współczynnika Studenta) i tym bliższe oszacowaniu próby ogólnej.

Uzyskanie wartości w każdym punkcie doświadczalnym często wiąże się ze znacznymi kosztami pracy, dlatego często przeprowadza się kompromisową liczbę eksperymentów, która daje możliwy do opanowania szacunek i nie prowadzi do nadmiernych kosztów pracy. Z reguły liczbę punktów eksperymentalnych dla liniowej zależności metodą najmniejszych kwadratów z dwoma współczynnikami wybiera się w zakresie 5-7 punktów.

Krótka teoria najmniejszych kwadratów dla relacji liniowych

Załóżmy, że mamy zbiór danych eksperymentalnych w postaci par wartości [`y_i`, `x_i`], gdzie `i` to numer jednego pomiaru eksperymentalnego od 1 do `n`; `y_i` - wartość wielkości mierzonej w punkcie `i`; `x_i` - wartość parametru, którą ustawiamy w punkcie `i`.

Rozważmy na przykład działanie prawa Ohma. Zmieniając napięcie (różnicę potencjałów) pomiędzy odcinkami obwodu elektrycznego, mierzymy ilość prądu przepływającego przez ten odcinek. Fizyka podaje nam zależność stwierdzoną eksperymentalnie:

`I = U/R`,
gdzie „I” to aktualna siła; `R` - opór; „U” - napięcie.

W tym przypadku „y_i” to mierzona wartość prądu, a „x_i” to wartość napięcia.

Jako inny przykład rozważmy absorpcję światła przez roztwór substancji w roztworze. Chemia podaje nam wzór:

`A = ε l C`,
gdzie „A” oznacza gęstość optyczną roztworu; `ε` - transmitancja substancji rozpuszczonej; `l` - długość drogi, po której światło przechodzi przez kuwetę z roztworem; „C” oznacza stężenie rozpuszczonej substancji.

W tym przypadku „y_i” to zmierzona wartość gęstości optycznej „A”, a „x_i” to wartość stężenia określonej przez nas substancji.

Rozważymy przypadek, gdy błąd względny w przypisaniu `x_i` jest znacznie mniejszy niż błąd względny w pomiarze `y_i`. Założymy również, że wszystkie zmierzone wartości `y_i` są losowe i mają rozkład normalny, tj. przestrzegać prawa dystrybucji normalnej.

W przypadku liniowej zależności `y` od `x` możemy napisać zależność teoretyczną:
`y = a + b x`.

Z geometrycznego punktu widzenia współczynnik „b” oznacza tangens kąta nachylenia linii do osi „x”, a współczynnik „a” – wartość „y” w punkcie przecięcia linii z osią „y” (w punkcie „x = 0”).

Znajdowanie parametrów linii regresji.

W eksperymencie zmierzone wartości „y_i” nie mogą dokładnie leżeć na teoretycznej linii prostej z powodu błędów pomiarowych, które zawsze są nieodłączne w prawdziwym życiu. Dlatego równanie liniowe musi być reprezentowane przez układ równań:
`y_i = a + b x_i + ε_i` (1),
gdzie „ε_i” to nieznany błąd pomiaru „y” w „i”-tym eksperymencie.

Zależność (1) jest również nazywana regresja, tj. zależność dwóch wielkości od siebie o znaczeniu statystycznym.

Zadaniem przywrócenia zależności jest znalezienie współczynników `a` i `b` z punktów doświadczalnych [`y_i`, `x_i`).

Aby znaleźć współczynniki „a” i „b”, zwykle używa się go metoda najmniejszych kwadratów(MNC). Jest to szczególny przypadek zasady największej wiarygodności.

Zapiszmy (1) w postaci `ε_i = y_i - a - b x_i`.

Wtedy będzie suma kwadratów błędów
`Φ = suma_(i=1)^(n) ε_i^2 = suma_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Zasada najmniejszych kwadratów (najmniejszych kwadratów) polega na minimalizowaniu sumy (2) w odniesieniu do parametrów „a” i „b”.

Minimum osiąga się, gdy pochodne cząstkowe sumy (2) względem współczynników „a” i „b” są równe zeru:
`frac(częściowe Φ)(częściowe a) = frac(suma częściowa_(i=1)^(n) (y_i - a - b x_i)^2)(częściowe a) = 0`
`frac(częściowe Φ)(częściowe b) = frac(częściowe suma_(i=1)^(n) (y_i - a - b x_i)^2)(częściowe b) = 0`

Rozwijając pochodne otrzymujemy układ dwóch równań z dwiema niewiadomymi:
`suma_(i=1)^(n) (2a + 2bx_i — 2y_i) = suma_(i=1)^(n) (a + bx_i — y_i) = 0`
`suma_(i=1)^(n) (2bx_i^2 + 2ax_i — 2x_iy_i) = suma_(i=1)^(n) (bx_i^2 + ax_i — x_iy_i) = 0`

Otwieramy nawiasy i przenosimy sumy niezależne od wymaganych współczynników na drugą połowę, otrzymujemy układ równań liniowych:
`suma_(i=1)^(n) y_i = a n + b suma_(i=1)^(n) bx_i`
`suma_(i=1)^(n) x_iy_i = a suma_(i=1)^(n) x_i + b suma_(i=1)^(n) x_i^2`

Rozwiązując powstały układ, znajdujemy wzory na współczynniki „a” i „b”:

`a = frac(suma_(i=1)^(n) y_i suma_(i=1)^(n) x_i^2 — suma_(i=1)^(n) x_i suma_(i=1)^(n ) x_iy_i) (n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n suma_(i=1)^(n) x_iy_i — suma_(i=1)^(n) x_i suma_(i=1)^(n) y_i) (n suma_(i=1)^ (n) x_i^2 — (suma_(i=1)^(n) x_i)^2)` (3.2)

Wzory te mają rozwiązania, gdy `n > 1` (prostą można zbudować korzystając z co najmniej 2 punktów) oraz gdy wyznacznik `D = n suma_(i=1)^(n) x_i^2 - (suma_(i= 1 )^(n) x_i)^2 != 0`, tj. gdy punkty `x_i` w eksperymencie są różne (tj. gdy linia nie jest pionowa).

Estymacja błędów współczynników linii regresji

Dla dokładniejszej oceny błędu w obliczaniu współczynników „a” i „b” pożądana jest duża liczba punktów doświadczalnych. Gdy `n = 2` nie da się oszacować błędu współczynników, ponieważ linia aproksymacji będzie jednoznacznie przechodzić przez dwa punkty.

Błąd zmiennej losowej „V” jest określony przez prawo akumulacji błędów
`S_V^2 = suma_(i=1)^p (frac(częściowa f)(częściowa z_i))^2 S_(z_i)^2`,
gdzie `p` to liczba parametrów `z_i` z błędem `S_(z_i)`, które wpływają na błąd `S_V`;
`f` jest funkcją zależności `V` od `z_i`.

Zapiszmy prawo kumulacji błędów dla błędu współczynników „a” i „b”.
`S_a^2 = suma_(i=1)^(n)(frac(częściowa a)(częściowa y_i))^2 S_(y_i)^2 + suma_(i=1)^(n)(frac(częściowa a )(częściowe x_i))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(częściowe a)(częściowe y_i))^2 `,
`S_b^2 = suma_(i=1)^(n)(frac(częściowa b)(częściowa y_i))^2 S_(y_i)^2 + suma_(i=1)^(n)(frac(częściowa b )(częściowe x_i))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(częściowe b)(częściowe y_i))^2 `,
ponieważ `S_(x_i)^2 = 0` (wcześniej zastrzegaliśmy, że błąd `x` jest pomijalny).

`S_y^2 = S_(y_i)^2` - błąd (wariancja, kwadrat odchylenia standardowego) pomiaru `y` przy założeniu, że błąd jest jednakowy dla wszystkich wartości `y`.

Podstawiając wzory do obliczania „a” i „b” do otrzymanych wyrażeń, otrzymujemy

`S_a^2 = S_y^2 frac(suma_(i=1)^(n) (suma_(i=1)^(n) x_i^2 — x_i suma_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2) suma_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(suma_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(suma_(i=1)^(n) (n x_i — suma_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

W większości rzeczywistych eksperymentów nie mierzy się wartości „Sy”. W tym celu konieczne jest przeprowadzenie kilku równoległych pomiarów (eksperymentów) w jednym lub kilku punktach planu, co wydłuża czas (i ewentualnie koszt) eksperymentu. Dlatego zwykle przyjmuje się, że odchylenie „y” od linii regresji można uznać za losowe. Estymację wariancji „y” w tym przypadku oblicza się ze wzoru.

`S_y^2 = S_(y, reszta)^2 = frac(suma_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Dzielnik „n-2” pojawia się, ponieważ liczba stopni swobody zmniejszyła się w wyniku obliczenia dwóch współczynników przy użyciu tej samej próbki danych eksperymentalnych.

Oszacowanie to nazywane jest także wariancją resztową względem linii regresji „S_(y, reszta)^2”.

Istotność współczynników ocenia się za pomocą testu t-Studenta

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Jeżeli obliczone kryteria „t_a”, „t_b” są mniejsze niż kryteria tabelaryczne „t(P, n-2)”, wówczas uważa się, że odpowiadający im współczynnik nie różni się istotnie od zera przy danym prawdopodobieństwie „P”.

Aby ocenić jakość opisu zależności liniowej, można porównać „S_(y, reszta)^2” i „S_(słupek y)” w odniesieniu do średniej, stosując kryterium Fishera.

`S_(bar y) = frac(suma_(i=1)^n (y_i — słupek y)^2) (n-1) = frac(suma_(i=1)^n (y_i — (suma_(i= 1)^n y_i) /n)^2) (n-1)` - przykładowe oszacowanie wariancji `y` względem średniej.

Aby ocenić skuteczność równania regresji do opisu zależności, oblicza się współczynnik Fishera
`F = S_(takt y) / S_(y, reszta)^2`,
który porównuje się z tabelarycznym współczynnikiem Fishera „F(p, n-1, n-2)”.

Jeżeli `F > F(P, n-1, n-2)`, różnicę pomiędzy opisem zależności `y = f(x)` za pomocą równania regresji a opisem za pomocą średniej uważa się za istotną statystycznie z prawdopodobieństwem `P`. Te. regresja opisuje zależność lepiej niż rozpiętość „y” wokół średniej.

Kliknij na wykres
aby dodać wartości do tabeli

Metoda najmniejszych kwadratów. Metoda najmniejszych kwadratów oznacza wyznaczenie nieznanych parametrów a, b, c, przyjętej zależności funkcjonalnej

Metoda najmniejszych kwadratów polega na wyznaczaniu nieznanych parametrów a, b, c,… akceptowana zależność funkcjonalna

y = f(x,a,b,c,…),

co zapewniłoby minimum średniego kwadratu (wariancji) błędu

, (24)

gdzie x i, y i jest zbiorem par liczb uzyskanych z eksperymentu.

Ponieważ warunkiem ekstremum funkcji kilku zmiennych jest warunek, że jej pochodne cząstkowe są równe zeru, to parametry a, b, c,… wyznaczane są z układu równań:

; ; ; … (25)

Należy pamiętać, że do doboru parametrów po typie funkcji stosuje się metodę najmniejszych kwadratów y = f(x) zdefiniowany

Jeżeli z rozważań teoretycznych nie można wyciągnąć żadnych wniosków co do tego, jaki powinien być wzór empiryczny, wówczas należy kierować się przedstawieniami wizualnymi, przede wszystkim graficznymi przedstawieniami obserwowanych danych.

W praktyce najczęściej ograniczają się one do następujących typów funkcji:

1) liniowy ;

2) kwadratowy a.

Aproksymacja danych eksperymentalnych to metoda polegająca na zastąpieniu danych uzyskanych eksperymentalnie funkcją analityczną, która najbardziej przechodzi lub pokrywa się w punktach węzłowych z wartościami pierwotnymi (dane uzyskane podczas eksperymentu lub eksperymentu). Obecnie istnieją dwa sposoby definiowania funkcji analitycznej:

Konstruując n-stopniowy wielomian interpolacyjny, który przechodzi bezpośrednio przez wszystkie punkty daną tablicę danych. W tym przypadku funkcję aproksymującą przedstawia się w postaci: wielomianu interpolacyjnego w postaci Lagrange'a lub wielomianu interpolacyjnego w postaci Newtona.

Konstruując n-stopniowy wielomian aproksymujący, który przechodzi w bezpośrednim sąsiedztwie punktów z danej tablicy danych. W ten sposób funkcja aproksymująca wygładza wszystkie losowe szumy (lub błędy), które mogą pojawić się podczas eksperymentu: zmierzone wartości podczas eksperymentu zależą od czynników losowych, które zmieniają się zgodnie z ich własnymi losowymi prawami (błędy pomiaru lub instrumentu, niedokładność lub eksperyment błędy). W tym przypadku funkcję aproksymującą wyznacza się metodą najmniejszych kwadratów.

Metoda najmniejszych kwadratów(w literaturze angielskiej Ordinary Least Squares, OLS) to metoda matematyczna polegająca na wyznaczeniu funkcji aproksymującej, która jest konstruowana w najbliższej odległości od punktów z danego układu danych eksperymentalnych. Zbliżenie funkcji pierwotnej i aproksymującej F(x) wyznacza się za pomocą miary numerycznej, a mianowicie: suma kwadratów odchyleń danych eksperymentalnych od krzywej aproksymującej F(x) powinna być najmniejsza.

Krzywa przybliżająca zbudowana metodą najmniejszych kwadratów

Stosuje się metodę najmniejszych kwadratów:

Rozwiązywanie nadokreślonych układów równań, gdy liczba równań przekracza liczbę niewiadomych;

Znalezienie rozwiązania w przypadku zwyczajnych (nie nadokreślonych) nieliniowych układów równań;

Aby przybliżyć wartości punktowe za pomocą pewnej funkcji aproksymującej.

Funkcję aproksymującą metodą najmniejszych kwadratów wyznacza się z warunku minimalnej sumy kwadratów odchyleń obliczonej funkcji aproksymującej z zadanego układu danych eksperymentalnych. To kryterium metody najmniejszych kwadratów zapisuje się jako następujące wyrażenie:

Wartości obliczonej funkcji aproksymującej w punktach węzłowych,

Dana tablica danych eksperymentalnych w punktach węzłowych.

Kryterium kwadratowe ma wiele „dobrych” właściwości, takich jak różniczkowalność, zapewniając unikalne rozwiązanie problemu aproksymacji za pomocą wielomianowych funkcji aproksymujących.

W zależności od warunków zadania funkcją aproksymującą jest wielomian stopnia m

Stopień funkcji aproksymującej nie zależy od liczby punktów węzłowych, jednak jej wymiar musi być zawsze mniejszy od wymiaru (liczby punktów) danego układu danych eksperymentalnych.

∙ Jeżeli stopień funkcji aproksymującej wynosi m=1, to funkcję tabelaryczną aproksymujemy linią prostą (regresja liniowa).

∙ Jeżeli stopień funkcji aproksymującej wynosi m=2, to funkcję tablicową aproksymujemy parabolą kwadratową (aproksymacja kwadratowa).

∙ Jeżeli stopień funkcji aproksymującej wynosi m=3, to funkcję tablicową aproksymujemy parabolą sześcienną (aproksymacja sześcienna).

W ogólnym przypadku, gdy konieczne jest skonstruowanie wielomianu aproksymującego stopnia m dla danych wartości z tabeli, warunek na minimum sumy kwadratów odchyleń po wszystkich punktach węzłowych przepisuje się w postaci:

- nieznane współczynniki wielomianu aproksymującego stopnia m;

Liczba określonych wartości tabeli.

Warunkiem koniecznym istnienia minimum funkcji jest równość jej pochodnych cząstkowych względem nieznanych zmiennych do zera . W efekcie otrzymujemy następujący układ równań:

Przekształćmy powstały liniowy układ równań: otwórz nawiasy i przesuń wolne wyrazy na prawą stronę wyrażenia. W rezultacie powstały układ liniowych wyrażeń algebraicznych zostanie zapisany w następującej postaci:

Ten system liniowych wyrażeń algebraicznych można zapisać w postaci macierzowej:

W rezultacie otrzymano układ równań liniowych o wymiarze m+1, który składa się z niewiadomych m+1. Układ ten można rozwiązać dowolną metodą rozwiązywania liniowych równań algebraicznych (na przykład metodą Gaussa). W wyniku rozwiązania zostaną znalezione nieznane parametry funkcji aproksymującej, które dają minimalną sumę kwadratów odchyleń funkcji aproksymującej od danych pierwotnych, tj. najlepsze możliwe przybliżenie kwadratowe. Należy pamiętać, że jeśli zmieni się chociaż jedna wartość danych źródłowych, wszystkie współczynniki zmienią swoje wartości, ponieważ są one całkowicie zdeterminowane przez dane źródłowe.

Aproksymacja danych źródłowych metodą zależności liniowej

(regresja liniowa)

Jako przykład rozważmy technikę wyznaczania funkcji aproksymującej, która jest określona w postaci zależności liniowej. Zgodnie z metodą najmniejszych kwadratów warunek na minimum sumy kwadratów odchyleń zapisuje się w postaci:

Współrzędne węzłów tabeli;

Nieznane współczynniki funkcji aproksymującej, która jest określona jako zależność liniowa.

Warunkiem koniecznym istnienia minimum funkcji jest równość jej pochodnych cząstkowych względem nieznanych zmiennych do zera. W efekcie otrzymujemy następujący układ równań:

Przekształćmy powstały liniowy układ równań.

Rozwiązujemy powstały układ równań liniowych. Współczynniki funkcji aproksymującej w postaci analitycznej wyznacza się następująco (metoda Cramera):

Współczynniki te zapewniają konstrukcję liniowej funkcji aproksymującej zgodnie z kryterium minimalizacji sumy kwadratów funkcji aproksymującej z zadanych wartości tabelarycznych (dane eksperymentalne).

Algorytm implementacji metody najmniejszych kwadratów

1. Dane wyjściowe:

Określono tablicę danych eksperymentalnych z liczbą pomiarów N

Określany jest stopień wielomianu aproksymującego (m).

2. Algorytm obliczeniowy:

2.1. Współczynniki wyznaczane są do budowy układu równań z wymiarami

Współczynniki układu równań (lewa strona równania)

- indeks numeru kolumny macierzy kwadratowej układu równań

Terminy dowolne układu równań liniowych (prawa strona równania)

- indeks numeru wiersza macierzy kwadratowej układu równań

2.2. Tworzenie układu równań liniowych o wymiarze.

2.3. Rozwiązywanie układu równań liniowych w celu wyznaczenia nieznanych współczynników wielomianu aproksymującego stopnia m.

2.4 Wyznaczanie sumy kwadratów odchyleń aproksymującego wielomianu od wartości pierwotnych we wszystkich punktach węzłowych

Znaleziona wartość sumy kwadratów odchyleń jest minimalną możliwą wartością.

Aproksymacja z wykorzystaniem innych funkcji

Należy zaznaczyć, że przy aproksymacji danych pierwotnych metodą najmniejszych kwadratów jako funkcję aproksymującą czasami wykorzystuje się funkcję logarytmiczną, funkcję wykładniczą i funkcję potęgową.

Przybliżenie logarytmiczne

Rozważmy przypadek, gdy funkcję aproksymującą podaje funkcja logarytmiczna o postaci:

Przykład.

Dane eksperymentalne dotyczące wartości zmiennych X I Na podano w tabeli.

W wyniku ich wyrównania uzyskuje się funkcję

Za pomocą metoda najmniejszych kwadratów, aproksymuj te dane za pomocą zależności liniowej y=topór+b(znajdź parametry A I B). Dowiedz się, która z dwóch linii lepiej (w sensie metody najmniejszych kwadratów) wyrównuje dane eksperymentalne. Narysuj coś.

Istota metody najmniejszych kwadratów (LSM).

Zadanie polega na znalezieniu współczynników zależności liniowej, przy której funkcjonuje funkcja dwóch zmiennych A I B przyjmuje najmniejszą wartość. To znaczy, dane A I B suma kwadratów odchyleń danych eksperymentalnych od znalezionej prostej będzie najmniejsza. Na tym polega cały sens metody najmniejszych kwadratów.

Rozwiązanie przykładu sprowadza się zatem do znalezienia ekstremum funkcji dwóch zmiennych.

Wyprowadzanie wzorów na znalezienie współczynników.

Układ dwóch równań z dwiema niewiadomymi jest kompilowany i rozwiązywany. Znajdowanie pochodnych cząstkowych funkcji przez zmienne A I B, przyrównujemy te pochodne do zera.

Powstały układ równań rozwiązujemy dowolną metodą (np metodą podstawieniową Lub Metoda Cramera) i uzyskać wzory na znalezienie współczynników metodą najmniejszych kwadratów (LSM).

Dany A I B funkcjonować przyjmuje najmniejszą wartość. Podano dowód tego faktu poniżej w tekście na końcu strony.

To cała metoda najmniejszych kwadratów. Wzór na znalezienie parametru A zawiera sumy ,, i parametr N- ilość danych eksperymentalnych. Zalecamy oddzielne obliczanie wartości tych kwot. Współczynnik B znalezione po obliczeniach A.

Czas przypomnieć sobie oryginalny przykład.

Rozwiązanie.

W naszym przykładzie n=5. Wypełniamy tabelę dla wygody obliczenia kwot uwzględnionych we wzorach wymaganych współczynników.

Wartości w czwartym wierszu tabeli uzyskuje się poprzez pomnożenie wartości drugiego wiersza przez wartości trzeciego wiersza dla każdej liczby I.

Wartości w piątym wierszu tabeli uzyskuje się przez podniesienie do kwadratu wartości w drugim wierszu dla każdej liczby I.

Wartości w ostatniej kolumnie tabeli są sumami wartości w wierszach.

Do znalezienia współczynników używamy wzorów metody najmniejszych kwadratów A I B. Podstawiamy do nich odpowiednie wartości z ostatniej kolumny tabeli:

Stąd, y = 0,165x+2,184- żądana przybliżająca linia prosta.

Pozostaje dowiedzieć się, która z linii y = 0,165x+2,184 Lub lepiej przybliża oryginalne dane, czyli dokonuje oszacowania metodą najmniejszych kwadratów.

Estymacja błędu metodą najmniejszych kwadratów.

Aby to zrobić, musisz obliczyć sumę kwadratów odchyleń oryginalnych danych od tych linii I , mniejsza wartość odpowiada linii, która lepiej przybliża oryginalne dane w sensie metody najmniejszych kwadratów.

Od , potem prosto y = 0,165x+2,184 lepiej przybliża oryginalne dane.

Graficzna ilustracja metody najmniejszych kwadratów (LS).

Wszystko doskonale widać na wykresach. Czerwona linia to znaleziona linia prosta y = 0,165x+2,184, niebieska linia to , różowe kropki to dane oryginalne.

W praktyce przy modelowaniu różnych procesów - w szczególności ekonomicznych, fizycznych, technicznych, społecznych - powszechnie stosuje się tę lub inną metodę obliczania przybliżonych wartości funkcji na podstawie ich znanych wartości w określonych punktach stałych.

Często pojawia się tego rodzaju problem aproksymacji funkcji:

    przy konstruowaniu przybliżonych wzorów do obliczania wartości wielkości charakterystycznych badanego procesu na podstawie danych tabelarycznych uzyskanych w wyniku eksperymentu;

    w całkowaniu numerycznym, różniczkowaniu, rozwiązywaniu równań różniczkowych itp.;

    w razie potrzeby obliczyć wartości funkcji w punktach pośrednich rozpatrywanego przedziału;

    przy wyznaczaniu wartości wielkości charakterystycznych procesu poza rozpatrywanym przedziałem, w szczególności przy prognozowaniu.

Jeżeli do modelowania pewnego procesu określonego tabelą skonstruujemy funkcję, która w przybliżeniu opisuje ten proces w oparciu o metodę najmniejszych kwadratów, będzie to nazywać się funkcją aproksymującą (regresją), a samo zadanie konstruowania funkcji aproksymujących będzie nazywane problem przybliżenia.

W artykule omówiono możliwości pakietu MS Excel do rozwiązywania tego typu problemów, ponadto przedstawiono metody i techniki konstruowania (tworzenia) regresji dla funkcji tabelarycznych (co jest podstawą analizy regresji).

W programie Excel dostępne są dwie opcje tworzenia regresji.

    Dodanie wybranych regresji (linii trendu) do diagramu zbudowanego na podstawie tabeli danych dla badanej charakterystyki procesu (dostępne tylko w przypadku zbudowania diagramu);

    Wykorzystanie wbudowanych funkcji statystycznych arkusza Excel, pozwalających na uzyskanie regresji (linii trendu) bezpośrednio z tabeli danych źródłowych.

Dodawanie linii trendu do wykresu

W przypadku tabeli danych opisującej proces i przedstawionej w postaci diagramu Excel udostępnia skuteczne narzędzie do analizy regresji, które umożliwia:

    budować w oparciu o metodę najmniejszych kwadratów i dodawać do diagramu pięć rodzajów regresji, które modelują badany proces z różnym stopniem dokładności;

    dodaj do diagramu skonstruowane równanie regresji;

    określić stopień zgodności wybranej regresji z danymi wyświetlanymi na wykresie.

Na podstawie danych wykresowych Excel umożliwia uzyskanie regresji liniowych, wielomianowych, logarytmicznych, potęgowych, wykładniczych, które są określone równaniem:

y = y(x)

gdzie x jest zmienną niezależną, która często przyjmuje wartości ciągu liczb naturalnych (1; 2; 3; ...) i daje na przykład odliczenie czasu badanego procesu (charakterystyka).

1 . Regresja liniowa jest dobra do modelowania cech, których wartości rosną lub maleją w stałym tempie. Jest to najprostszy model do skonstruowania dla badanego procesu. Konstruuje się go według równania:

y = mx + b

gdzie m jest tangensem nachylenia regresji liniowej do osi x; b - współrzędna punktu przecięcia regresji liniowej z osią rzędnych.

2 . Linia trendu wielomianowego jest przydatna do opisywania cech, które mają kilka różnych ekstremów (maksimów i minimów). O wyborze stopnia wielomianu decyduje liczba ekstremów badanej cechy. Zatem wielomian drugiego stopnia może dobrze opisać proces, który ma tylko jedno maksimum lub minimum; wielomian trzeciego stopnia - nie więcej niż dwa ekstrema; wielomian czwartego stopnia - nie więcej niż trzy ekstrema itp.

W tym przypadku linia trendu jest konstruowana zgodnie z równaniem:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

gdzie współczynniki c0, c1, c2,... c6 są stałymi, których wartości wyznaczane są w trakcie budowy.

3 . Linię trendu logarytmicznego z powodzeniem stosuje się przy modelowaniu cech, których wartości początkowo szybko się zmieniają, a następnie stopniowo stabilizują.

y = do ln(x) + b

4 . Linia trendu prawa potęgowego daje dobre wyniki, jeśli wartości badanej zależności charakteryzują się stałą zmianą tempa wzrostu. Przykładem takiej zależności jest wykres ruchu samochodu z jednostajnym przyspieszeniem. Jeśli w danych znajdują się wartości zerowe lub ujemne, nie można użyć linii trendu mocy.

Zbudowane zgodnie z równaniem:

y = doxb

gdzie współczynniki b, c są stałymi.

5 . Jeśli tempo zmian danych stale rośnie, należy zastosować linię trendu wykładniczego. W przypadku danych zawierających wartości zerowe lub ujemne ten rodzaj przybliżenia również nie ma zastosowania.

Zbudowane zgodnie z równaniem:

y = do ebx

gdzie współczynniki b, c są stałymi.

Wybierając linię trendu, Excel automatycznie oblicza wartość R2, która charakteryzuje niezawodność aproksymacji: im wartość R2 jest bliższa jedności, tym bardziej wiarygodnie linia trendu przybliża badany proces. W razie potrzeby wartość R2 można zawsze wyświetlić na wykresie.

Określone według wzoru:

Aby dodać linię trendu do serii danych:

    aktywuj wykres na podstawie serii danych, czyli kliknij w obszarze wykresu. W menu głównym pojawi się pozycja Diagram;

    po kliknięciu tej pozycji na ekranie pojawi się menu, w którym należy wybrać polecenie Dodaj linię trendu.

Te same działania można łatwo wykonać przesuwając wskaźnik myszy nad wykresem odpowiadającym jednej z serii danych i klikając prawym przyciskiem myszy; W wyświetlonym menu kontekstowym wybierz polecenie Dodaj linię trendu. Na ekranie pojawi się okno dialogowe Trendline z otwartą zakładką Type (rys. 1).

Następnie potrzebujesz:

Wybierz żądany typ linii trendu na karcie Typ (domyślnie wybrany jest typ Liniowy). W przypadku typu Wielomian w polu Stopień określ stopień wybranego wielomianu.

1 . Pole Seria zbudowana na podstawie zawiera listę wszystkich serii danych na danym wykresie. Aby dodać linię trendu do określonej serii danych, wybierz jej nazwę w polu Zbudowana na serii.

W razie potrzeby wchodząc w zakładkę Parametry (rys. 2) można ustawić następujące parametry linii trendu:

    zmienić nazwę linii trendu w polu Nazwa krzywej aproksymowanej (wygładzonej).

    w polu Prognoza ustaw liczbę okresów (do przodu lub do tyłu) prognozy;

    wyświetlić równanie linii trendu w obszarze wykresu, dla którego należy włączyć opcję pokazuj równanie na wykresie;

    wyświetlić w obszarze wykresu wartość wiarygodności aproksymacji R2, dla której należy zaznaczyć opcję Umieść na wykresie wartość wiarygodności aproksymacji (R^2);

    ustawić punkt przecięcia linii trendu z osią Y, dla którego należy zaznaczyć checkbox przecięcia krzywej z osią Y w punkcie;

    Kliknij przycisk OK, aby zamknąć okno dialogowe.

Aby rozpocząć edycję narysowanej już linii trendu, można skorzystać z trzech sposobów:

    użyj polecenia Wybrana linia trendu z menu Format, po wcześniejszym wybraniu linii trendu;

    z menu kontekstowego wybierz polecenie Formatuj linię trendu, które wywołuje się klikając prawym przyciskiem myszy na linię trendu;

    kliknij dwukrotnie linię trendu.

Na ekranie pojawi się okno dialogowe Format linii trendu (rys. 3), zawierające trzy zakładki: Widok, Typ, Parametry, przy czym zawartość dwóch ostatnich całkowicie pokrywa się z podobnymi zakładkami okna dialogowego Linia trendu (rys. 1). -2). Na karcie Widok możesz ustawić rodzaj linii, jej kolor i grubość.

Aby usunąć narysowaną już linię trendu, wybierz linię trendu do usunięcia i naciśnij klawisz Delete.

Zaletami rozważanego narzędzia analizy regresji są:

    względna łatwość konstruowania linii trendu na wykresach bez tworzenia dla niej tabeli danych;

    dość szeroka lista typów proponowanych linii trendu, a lista ta obejmuje najczęściej stosowane typy regresji;

    umiejętność przewidywania zachowania badanego procesu poprzez dowolną (w granicach zdrowego rozsądku) liczbę kroków do przodu, a także do tyłu;

    możliwość otrzymania równania linii trendu w formie analitycznej;

    możliwość, w razie potrzeby, uzyskania oceny wiarygodności przybliżenia.

Wady obejmują:

    konstrukcja linii trendu odbywa się tylko wtedy, gdy istnieje diagram zbudowany na serii danych;

    proces generowania serii danych dla badanej cechy na podstawie uzyskanych dla niej równań linii trendu jest nieco zaśmiecony: wymagane równania regresji są aktualizowane przy każdej zmianie wartości oryginalnej serii danych, ale tylko w obszarze wykresu , natomiast szeregi danych utworzone na podstawie trendu starego równania liniowego pozostają niezmienione;

    W raportach wykresu przestawnego zmiana widoku wykresu lub powiązanego raportu w formie tabeli przestawnej nie powoduje zachowania istniejących linii trendu, co oznacza, że ​​przed narysowaniem linii trendu lub innym formatowaniem raportu w formie wykresu przestawnego należy upewnić się, że układ raportu spełnia wymagane wymagania.

Linie trendu można wykorzystać do uzupełnienia serii danych prezentowanych na wykresach, takich jak wykresy, histogramy, płaskie, niestandaryzowane wykresy warstwowe, wykresy słupkowe, wykresy punktowe, wykresy bąbelkowe i wykresy giełdowe.

Nie można dodawać linii trendu do serii danych na wykresach 3D, znormalizowanych, radarowych, kołowych i pierścieniowych.

Korzystanie z wbudowanych funkcji programu Excel

Excel posiada także narzędzie do analizy regresji umożliwiające wykreślanie linii trendu poza obszarem wykresu. Istnieje wiele funkcji arkusza statystycznego, których można użyć w tym celu, ale wszystkie pozwalają jedynie na budowanie regresji liniowej lub wykładniczej.

Excel ma kilka funkcji do konstruowania regresji liniowej, w szczególności:

    TENDENCJA;

  • NACHYLENIE i CIĘCIE.

A także kilka funkcji do konstruowania wykładniczej linii trendu, w szczególności:

    LGRFPRIBL.

Należy zauważyć, że techniki konstruowania regresji przy użyciu funkcji TREND i WZROST są prawie takie same. To samo można powiedzieć o parze funkcji LINEST i LGRFPRIBL. W przypadku tych czterech funkcji do tworzenia tabeli wartości wykorzystuje się funkcje Excela takie jak formuły tablicowe, co nieco zaśmieca proces budowania regresji. Zauważmy też, że konstrukcję regresji liniowej naszym zdaniem najłatwiej przeprowadzić korzystając z funkcji SLOPE i INTERCEPT, gdzie pierwsza z nich wyznacza nachylenie regresji liniowej, a druga wyznacza odcinek przechwycony przez regresję na oś Y.

Zalety wbudowanego narzędzia funkcyjnego do analizy regresji to:

    dość prosty, jednolity proces generowania serii danych o badanej charakterystyce dla wszystkich wbudowanych funkcji statystycznych wyznaczających linie trendu;

    standardowa metodyka konstruowania linii trendu na podstawie wygenerowanych serii danych;

    umiejętność przewidywania zachowania badanego procesu poprzez wymaganą liczbę kroków do przodu lub do tyłu.

Do wad można zaliczyć fakt, że Excel nie posiada wbudowanych funkcji umożliwiających tworzenie innych (poza liniowymi i wykładniczymi) typów linii trendu. Okoliczność ta często nie pozwala na wybór wystarczająco dokładnego modelu badanego procesu, a także na uzyskanie prognoz bliskich rzeczywistości. Dodatkowo przy korzystaniu z funkcji TREND i WZROST nie są znane równania linii trendu.

Należy zaznaczyć, że autorzy nie postawili sobie za cel przedstawienia przebiegu analizy regresji w jakimkolwiek stopniu kompletności. Jego głównym zadaniem jest pokazanie na konkretnych przykładach możliwości pakietu Excel przy rozwiązywaniu problemów aproksymacyjnych; zademonstrować, jakie skuteczne narzędzia ma Excel do budowania regresji i prognozowania; ilustrują, jak takie problemy mogą być stosunkowo łatwo rozwiązane nawet przez użytkownika, który nie ma rozległej wiedzy na temat analizy regresji.

Przykłady rozwiązania konkretnych problemów

Przyjrzyjmy się rozwiązywaniu konkretnych problemów za pomocą wymienionych narzędzi Excela.

Problem 1

Z tabelą danych o zyskach przedsiębiorstwa transportu samochodowego za lata 1995-2002. musisz wykonać następujące czynności:

    Zbuduj diagram.

    Dodaj do wykresu linie trendu liniowego i wielomianowego (kwadratowego i sześciennego).

    Korzystając z równań linii trendu, uzyskaj dane tabelaryczne dotyczące zysków przedsiębiorstw dla każdej linii trendu w latach 1995-2004.

    Proszę o prognozę zysków przedsiębiorstwa na lata 2003 i 2004.

Rozwiązanie problemu

    W obszarze komórek A4:C11 arkusza Excel wpisz arkusz pokazany na ryc. 4.

    Po wybraniu zakresu komórek B4:C11 budujemy diagram.

    Aktywujemy skonstruowany diagram i zgodnie z metodą opisaną powyżej, po wybraniu rodzaju linii trendu w oknie dialogowym Linia trendu (patrz rys. 1), dodajemy do wykresu naprzemiennie linie trendu liniowego, kwadratowego i sześciennego. W tym samym oknie dialogowym należy otworzyć zakładkę Parametry (patrz rys. 2), w polu Nazwa krzywej aproksymowanej (wygładzanej) wpisać nazwę dodawanego trendu, a w polu Prognoza do przodu na: okresy ustawić wartość wartość 2, ponieważ planuje się sporządzenie prognozy zysków na dwa lata do przodu. Aby wyświetlić równanie regresji i wartość niezawodności aproksymacji R2 w obszarze wykresu, należy włączyć opcję pokazywania równania na ekranie i umieścić na wykresie wartość wiarygodności aproksymacji (R^2). Dla lepszej percepcji wizualnej zmieniamy rodzaj, kolor i grubość konstruowanych linii trendu, do czego służy zakładka Widok okna dialogowego Format linii trendu (patrz rys. 3). Powstały diagram z dodanymi liniami trendu pokazano na ryc. 5.

    Uzyskanie danych tabelarycznych o zyskach przedsiębiorstw dla każdej linii trendu za lata 1995-2004. Skorzystajmy z równań linii trendu przedstawionych na ryc. 5. W tym celu w komórkach zakresu D3:F3 należy wpisać informację tekstową o rodzaju wybranej linii trendu: Trend liniowy, Trend kwadratowy, Trend sześcienny. Następnie wpisz formułę regresji liniowej w komórce D4 i korzystając ze znacznika wypełnienia, skopiuj tę formułę z odniesieniami względnymi do zakresu komórek D5:D13. Należy zaznaczyć, że każda komórka posiadająca formułę regresji liniowej z zakresu komórek D4:D13 ma jako argument odpowiadającą komórkę z zakresu A4:A13. Podobnie w przypadku regresji kwadratowej wypełnij zakres komórek E4:E13, a w przypadku regresji sześciennej wypełnij zakres komórek F4:F13. W związku z tym sporządzono prognozę zysków przedsiębiorstwa na lata 2003 i 2004. wykorzystując trzy trendy. Wynikową tabelę wartości pokazano na ryc. 6.

Problem 2

    Zbuduj diagram.

    Dodaj do wykresu linie trendu logarytmicznego, potęgowego i wykładniczego.

    Wyprowadź równania uzyskanych linii trendu, a także wartości niezawodności przybliżenia R2 dla każdej z nich.

    Korzystając z równań linii trendu, uzyskaj dane tabelaryczne dotyczące zysku przedsiębiorstwa dla każdej linii trendu za lata 1995-2002.

    Korzystając z tych linii trendu, sporządź prognozę zysków firmy na lata 2003 i 2004.

Rozwiązanie problemu

Kierując się metodologią podaną przy rozwiązaniu zadania 1, otrzymujemy diagram z dodanymi do niego liniami trendu logarytmicznego, potęgowego i wykładniczego (rys. 7). Następnie korzystając z otrzymanych równań linii trendu wypełniamy tabelę wartości zysku przedsiębiorstwa zawierającą przewidywane wartości na lata 2003 i 2004. (ryc. 8).

Na ryc. 5 i rys. widać, że model z trendem logarytmicznym odpowiada najniższej wartości niezawodności aproksymacji

R2 = 0,8659

Największe wartości R2 odpowiadają modelom o trendzie wielomianowym: kwadratowym (R2 = 0,9263) i sześciennym (R2 = 0,933).

Problem 3

Mając do dyspozycji tabelę danych o zyskach przedsiębiorstwa transportu samochodowego za lata 1995-2002 podaną w zadaniu 1 należy wykonać następujące czynności.

    Uzyskaj serie danych dla linii trendu liniowego i wykładniczego za pomocą funkcji TREND i GROW.

    Korzystając z funkcji TREND i WZROST, oszacuj prognozę zysków przedsiębiorstwa na lata 2003 i 2004.

    Utwórz diagram dla oryginalnych danych i wynikowych serii danych.

Rozwiązanie problemu

Skorzystajmy z arkusza ćwiczeń dla zadania 1 (patrz rys. 4). Zacznijmy od funkcji TREND:

    wybierz zakres komórek D4:D11, który należy wypełnić wartościami funkcji TREND odpowiadającymi znanym danym o zysku przedsiębiorstwa;

    Wywołaj polecenie Funkcja z menu Wstaw. W wyświetlonym oknie dialogowym Kreator funkcji wybierz funkcję TREND z kategorii Statystyka, a następnie kliknij przycisk OK. Tę samą operację można wykonać, klikając przycisk (Wstaw funkcję) na standardowym pasku narzędzi.

    W wyświetlonym oknie dialogowym Argumenty funkcji wprowadź zakres komórek C4:C11 w polu Znane_wartości_y; w polu Znane_wartości_x - zakres komórek B4:B11;

    Aby wprowadzona formuła stała się formułą tablicową należy użyć kombinacji klawiszy + + .

Formuła, którą wpisaliśmy w pasku formuły, będzie wyglądać następująco: =(TREND(C4:C11,B4:B11)).

W rezultacie zakres komórek D4:D11 zostaje wypełniony odpowiednimi wartościami funkcji TREND (rys. 9).

Sporządzenie prognozy zysków przedsiębiorstwa na lata 2003 i 2004. niezbędny:

    wybierz zakres komórek D12:D13, w którym zostaną wprowadzone wartości przewidywane przez funkcję TREND.

    wywołaj funkcję TREND i w wyświetlonym oknie Argumenty funkcji wpisz w polu Znane_wartości_y - zakres komórek C4:C11; w polu Znane_wartości_x - zakres komórek B4:B11; oraz w polu Nowe_wartości_x - zakres komórek B12:B13.

    zamień tę formułę w formułę tablicową, używając kombinacji klawiszy Ctrl + Shift + Enter.

    Wprowadzona formuła będzie wyglądać następująco: =(TREND(C4:C11;B4:B11;B12:B13)), a zakres komórek D12:D13 zostanie wypełniony przewidywanymi wartościami funkcji TREND (patrz rys. 9).

Serię danych wypełnia się w podobny sposób za pomocą funkcji WZROST, która służy do analizy zależności nieliniowych i działa dokładnie tak samo, jak jej liniowy odpowiednik TREND.

Rysunek 10 przedstawia tabelę w trybie wyświetlania formuły.

Dla danych początkowych i otrzymanych serii danych schemat pokazany na rys. jedenaście.

Problem 4

Mając tabelę danych o przyjęciu wniosków o usługi przez służbę spedycyjną przedsiębiorstwa transportu samochodowego za okres od 1 do 11 dnia bieżącego miesiąca, należy wykonać następujące czynności.

    Uzyskaj serie danych dla regresji liniowej: za pomocą funkcji SLOPE i INTERCEPT; za pomocą funkcji REGLINP.

    Uzyskaj serię danych do regresji wykładniczej za pomocą funkcji LGRFPRIBL.

    Korzystając z powyższych funkcji, sporządź prognozę wpływu wniosków do działu spedycyjnego na okres od 12 do 14 dnia bieżącego miesiąca.

    Utwórz diagram dla oryginalnej i otrzymanej serii danych.

Rozwiązanie problemu

Należy zauważyć, że w przeciwieństwie do funkcji TREND i WZROST żadna z funkcji wymienionych powyżej (NACHYLENIE, PRZECIĘCIE, REGLINP, LGRFPRIB) nie jest regresją. Funkcje te pełnią jedynie rolę pomocniczą, wyznaczając niezbędne parametry regresji.

W przypadku regresji liniowych i wykładniczych budowanych za pomocą funkcji SLOPE, INTERCEPT, LINEST, LGRFPRIB zawsze znany jest wygląd ich równań, w przeciwieństwie do regresji liniowych i wykładniczych odpowiadających funkcjom TREND i GROWTH.

1 . Zbudujmy regresję liniową za pomocą równania:

y = mx+b

za pomocą funkcji SLOPE i INTERCEPT, przy czym nachylenie regresji m jest określone funkcją SLOPE, a człon wolny b jest funkcją INTERCEPT.

W tym celu wykonujemy następujące czynności:

    wprowadź oryginalną tabelę do zakresu komórek A4:B14;

    wartość parametru m zostanie określona w komórce C19. Wybierz funkcję Nachylenie z kategorii Statystyka; wpisz zakres komórek B4:B14 w polu znane_wartości_y oraz zakres komórek A4:A14 w polu znane_wartości_x. Formuła zostanie wpisana w komórkę C19: =NACHYLENIE(B4:B14,A4:A14);

    W podobny sposób określa się wartość parametru b w komórce D19. A jego zawartość będzie wyglądać następująco: =SEGMENT(B4:B14,A4:A14). Zatem wartości parametrów m i b wymagane do skonstruowania regresji liniowej zostaną zapisane odpowiednio w komórkach C19, D19;

    Następnie wprowadź formułę regresji liniowej do komórki C4 w postaci: =$C*A4+$D. W tej formule komórki C19 i D19 zapisywane są z odwołaniami bezwzględnymi (adres komórki nie powinien zmieniać się podczas ewentualnego kopiowania). Znak odniesienia bezwzględnego $ można wpisać z klawiatury lub przy pomocy klawisza F4, po umieszczeniu kursora na adresie komórki. Używając uchwytu wypełniania, skopiuj tę formułę do zakresu komórek C4:C17. Otrzymujemy wymagane serie danych (ryc. 12). Z uwagi na to, że liczba żądań jest liczbą całkowitą, należy w zakładce Liczba okna Format komórki ustawić format liczb z liczbą miejsc po przecinku na 0.

2 . Zbudujmy teraz regresję liniową określoną równaniem:

y = mx+b

za pomocą funkcji REGLINP.

Dla tego:

    Wprowadź funkcję REGLINP jako formułę tablicową w zakresie komórek C20:D20: =(LINEST(B4:B14,A4:A14)). W rezultacie otrzymujemy wartość parametru m w komórce C20 i wartość parametru b w komórce D20;

    wpisz formułę w komórce D4: =$C*A4+$D;

    skopiuj tę formułę za pomocą znacznika wypełnienia do zakresu komórek D4:D17 i uzyskaj żądaną serię danych.

3 . Regresję wykładniczą budujemy za pomocą równania:

korzystając z funkcji LGRFPRIBL wykonuje się to analogicznie:

    W zakresie komórek C21:D21 wpisujemy funkcję LGRFPRIBL w postaci formuły tablicowej: =( LGRFPRIBL (B4:B14,A4:A14)). W tym przypadku wartość parametru m zostanie określona w komórce C21, a wartość parametru b zostanie określona w komórce D21;

    formułę wpisuje się do komórki E4: =$D*$C^A4;

    za pomocą znacznika wypełnienia formuła ta jest kopiowana do zakresu komórek E4:E17, gdzie będzie zlokalizowany szereg danych dla regresji wykładniczej (patrz rys. 12).

Na ryc. Rysunek 13 przedstawia tabelę, w której możesz zobaczyć funkcje, których używamy z wymaganymi zakresami komórek, a także formuły.

Ogrom R 2 zwany współczynnik determinacji.

Zadaniem konstrukcji zależności regresyjnej jest znalezienie wektora współczynników m modelu (1), przy którym współczynnik R przyjmuje wartość maksymalną.

Do oceny istotności R wykorzystuje się test F Fishera, obliczany ze wzoru

Gdzie N- wielkość próby (liczba eksperymentów);

k jest liczbą współczynników modelu.

Jeśli F przekracza pewną wartość krytyczną dla danych N I k i przyjęte prawdopodobieństwo ufności, wówczas wartość R uważa się za znaczącą. Tabele wartości krytycznych F podano w podręcznikach dotyczących statystyki matematycznej.

Zatem o istotności R decyduje nie tylko jego wartość, ale także stosunek liczby eksperymentów do liczby współczynników (parametrów) modelu. Rzeczywiście, współczynnik korelacji dla n=2 dla prostego modelu liniowego wynosi 1 (pojedynczą linię prostą można zawsze poprowadzić przez 2 punkty na płaszczyźnie). Jeśli jednak danymi eksperymentalnymi są zmienne losowe, takiej wartości R należy ufać z dużą ostrożnością. Zwykle, aby uzyskać istotny R i wiarygodną regresję, dążą do tego, aby liczba eksperymentów znacznie przekraczała liczbę współczynników modelu (n>k).

Aby zbudować model regresji liniowej, potrzebujesz:

1) przygotować listę n wierszy i m kolumn zawierających dane eksperymentalne (kolumna zawierająca wartość wyjściową Y musi być pierwszy lub ostatni na liście); Weźmy np. dane z poprzedniego zadania, dodając kolumnę o nazwie „Nr okresu”, ponumerujmy numery okresów od 1 do 12. (będą to wartości X)

2) przejdź do menu Dane/Analiza danych/Regresja

Jeżeli w menu „Narzędzia” brakuje pozycji „Analiza danych”, należy w tym samym menu przejść do pozycji „Dodatki” i zaznaczyć pole wyboru „Pakiet analiz”.

3) w oknie dialogowym „Regresja” ustaw:

· przedział wejściowy Y;

· przedział wejściowy X;

· przedział wyjściowy - lewa górna komórka przedziału, w którym będą umieszczane wyniki obliczeń (zaleca się umieszczenie ich na nowym arkuszu);

4) kliknij „OK” i przeanalizuj wyniki.

Istotą metody najmniejszych kwadratów jest w znalezieniu parametrów modelu trendu, który najlepiej opisuje tendencję rozwoju dowolnego zjawiska losowego w czasie lub przestrzeni (trend to linia charakteryzująca tendencję tego rozwoju). Zadanie metody najmniejszych kwadratów (LSM) sprowadza się do znalezienia nie tylko modelu trendu, ale znalezienia modelu najlepszego, czyli optymalnego. Model ten będzie optymalny, jeśli suma kwadratów odchyleń pomiędzy obserwowanymi wartościami rzeczywistymi a odpowiadającymi im obliczonymi wartościami trendu będzie minimalna (najmniejsza):

gdzie jest kwadratowym odchyleniem pomiędzy obserwowaną wartością rzeczywistą

i odpowiadająca obliczona wartość trendu,

Rzeczywista (obserwowana) wartość badanego zjawiska,

Obliczona wartość modelu trendu,

Liczba obserwacji badanego zjawiska.

MNC jest używany dość rzadko samodzielnie. Z reguły najczęściej stosuje się ją jedynie jako niezbędną technikę techniczną w badaniach korelacyjnych. Należy pamiętać, że podstawą informacyjną OLS może być jedynie rzetelny szereg statystyczny, a liczba obserwacji nie powinna być mniejsza niż 4, w przeciwnym razie procedury wygładzające OLS mogą stracić zdrowy rozsądek.

Zestaw narzędzi MNC sprowadza się do następujących procedur:

Pierwsza procedura. Okazuje się, czy w ogóle istnieje tendencja do zmiany wynikowego atrybutu w przypadku zmiany wybranego czynnika-argumentu, czyli innymi słowy, czy istnieje związek pomiędzy „ Na " I " X ».

Druga procedura. Określa się, która linia (trajektoria) najlepiej opisuje lub charakteryzuje ten trend.

Trzecia procedura.

Przykład. Załóżmy, że dysponujemy informacją o średnim plonie słonecznika w badanym gospodarstwie (tabela 9.1).

Tabela 9.1

Numer obserwacji

Wydajność, c/ha

Ponieważ poziom technologii produkcji słonecznika w naszym kraju praktycznie nie zmienił się na przestrzeni ostatnich 10 lat, oznacza to, że najwyraźniej wahania plonów w analizowanym okresie były w dużej mierze zależne od wahań warunków pogodowych i klimatycznych. Czy to naprawdę prawda?

Pierwsza procedura OLS. Testowana jest hipoteza o istnieniu trendu zmian plonów słonecznika w zależności od zmian warunków pogodowych i klimatycznych w ciągu analizowanych 10 lat.

W tym przykładzie dla „ y "wskazane jest zbieranie plonów słonecznika i dla" X » – numer roku obserwowanego w analizowanym okresie. Testowanie hipotezy o istnieniu jakiejkolwiek zależności pomiędzy „ X " I " y „można to zrobić na dwa sposoby: ręcznie i za pomocą programów komputerowych. Oczywiście, dzięki dostępności technologii komputerowej, problem ten można rozwiązać sam. Aby jednak lepiej zrozumieć narzędzia MNC, wskazane jest przetestowanie hipotezy o istnieniu związku pomiędzy „ X " I " y » ręcznie, gdy pod ręką jest tylko długopis i zwykły kalkulator. W takich przypadkach hipotezę o istnieniu trendu najlepiej sprawdzić wizualnie poprzez lokalizację obrazu graficznego analizowanego szeregu dynamiki – pola korelacji:

Pole korelacji w naszym przykładzie jest umiejscowione wokół wolno rosnącej linii. To samo w sobie wskazuje na istnienie pewnego trendu w zmianach plonów słonecznika. O występowaniu jakiejkolwiek tendencji nie można mówić tylko wtedy, gdy pole korelacji ma postać koła, koła, chmury ściśle pionowej lub ściśle poziomej, albo składa się z chaotycznie rozproszonych punktów. We wszystkich pozostałych przypadkach hipoteza o istnieniu związku pomiędzy „ X " I " y " i kontynuuj badania.

Druga procedura OLS. Określa się, która linia (trajektoria) najlepiej opisuje lub charakteryzuje trend zmian plonu słonecznika w analizowanym okresie.

Jeśli dysponujesz technologią komputerową, wybór optymalnego trendu następuje automatycznie. W przetwarzaniu „ręcznym” wybór optymalnej funkcji odbywa się z reguły wizualnie - poprzez lokalizację pola korelacji. Oznacza to, że w zależności od rodzaju wykresu wybierane jest równanie prostej, która najlepiej pasuje do trendu empirycznego (rzeczywistej trajektorii).

Jak wiadomo, w przyrodzie istnieje ogromna różnorodność zależności funkcjonalnych, dlatego niezwykle trudno jest wizualnie przeanalizować nawet niewielką ich część. Na szczęście w rzeczywistej praktyce gospodarczej większość zależności można dość dokładnie opisać za pomocą paraboli, hiperboli lub linii prostej. Pod tym względem dzięki „ręcznej” opcji wyboru najlepszej funkcji można ograniczyć się tylko do tych trzech modeli.

Hiperbola:

Parabola drugiego rzędu: :

Łatwo zauważyć, że w naszym przykładzie trend zmian plonów słonecznika na przestrzeni analizowanych 10 lat najlepiej charakteryzuje się linią prostą, zatem równanie regresji będzie równaniem linii prostej.

Trzecia procedura. Obliczane są parametry równania regresji charakteryzujące tę prostą, czyli innymi słowy wyznaczany jest wzór analityczny opisujący najlepszy model trendu.

Znalezienie wartości parametrów równania regresji, w naszym przypadku parametrów i , jest podstawą OLS. Proces ten sprowadza się do rozwiązania układu równań normalnych.

(9.2)

Ten układ równań można dość łatwo rozwiązać metodą Gaussa. Przypomnijmy, że w wyniku rozwiązania w naszym przykładzie zostają znalezione wartości parametrów i. Zatem znalezione równanie regresji będzie miało następującą postać:

Metoda najmniejszych kwadratów wykorzystywane do estymacji parametrów równania regresji.
Liczba linii (dane źródłowe)

Jedną z metod badania stochastycznych zależności między cechami jest analiza regresji.
Analiza regresji polega na wyprowadzeniu równania regresji, za pomocą którego wyznaczana jest średnia wartość zmiennej losowej (atrybut wyniku), jeśli znana jest wartość innej (lub innych) zmiennych (atrybutów czynników). Obejmuje następujące kroki:

  1. wybór formy połączenia (rodzaj równania regresji analitycznej);
  2. estymacja parametrów równania;
  3. ocena jakości analitycznego równania regresji.
Najczęściej do opisu zależności statystycznej cech stosuje się postać liniową. Skupienie się na zależnościach liniowych tłumaczy się jasną interpretacją ekonomiczną jej parametrów, ograniczoną zmiennością zmiennych oraz faktem, że w większości przypadków nieliniowe formy zależności są przekształcane (poprzez logarytm lub podstawienie zmiennych) do postaci liniowej w celu wykonania obliczeń .
W przypadku liniowej zależności parami równanie regresji będzie miało postać: y i =a+b·x i +u i . Parametry aib tego równania są szacowane na podstawie danych statystycznych x i y z obserwacji. Wynikiem takiej oceny jest równanie: , gdzie , to estymaty parametrów a i b, to wartość wynikowego atrybutu (zmiennej) otrzymana z równania regresji (wartość obliczona).

Najczęściej używany do szacowania parametrów metoda najmniejszych kwadratów (LSM).
Metoda najmniejszych kwadratów zapewnia najlepsze (spójne, efektywne i bezstronne) oszacowania parametrów równania regresji. Ale tylko wtedy, gdy zostaną spełnione pewne założenia dotyczące składnika losowego (u) i zmiennej niezależnej (x) (patrz założenia OLS).

Problem estymacji parametrów równania pary liniowej metodą najmniejszych kwadratów wygląda następująco: otrzymać takie oszacowania parametrów , , przy których suma kwadratów odchyleń rzeczywistych wartości charakterystyki wypadkowej – y i od obliczonych wartości – jest minimalna.
Formalnie Kryterium OLS można zapisać w ten sposób: .

Klasyfikacja metod najmniejszych kwadratów

  1. Metoda najmniejszych kwadratów.
  2. Metoda największej wiarygodności (dla normalnego klasycznego modelu regresji liniowej postuluje się normalność reszt regresji).
  3. Uogólnioną metodę najmniejszych kwadratów OLS stosuje się w przypadku autokorelacji błędów oraz w przypadku heteroskedastyczności.
  4. Metoda ważonych najmniejszych kwadratów (szczególny przypadek OLS z resztami heteroskedastycznymi).

Zilustrujmy tę kwestię klasyczna metoda najmniejszych kwadratów w formie graficznej. W tym celu skonstruujemy wykres punktowy na podstawie danych obserwacyjnych (x i, y i, i=1;n) w prostokątnym układzie współrzędnych (taki wykres punktowy nazywany jest polem korelacji). Spróbujmy wybrać linię prostą najbliższą punktom pola korelacji. Zgodnie z metodą najmniejszych kwadratów linię dobiera się w taki sposób, aby suma kwadratów odległości pionowych pomiędzy punktami pola korelacji a tą prostą była minimalna.

Zapis matematyczny tego problemu: .
Wartości y i oraz x i =1...n są nam znane, są to dane obserwacyjne. W funkcji S reprezentują stałe. Zmienne w tej funkcji są wymaganymi oszacowaniami parametrów - , . Aby znaleźć minimum funkcji dwóch zmiennych, należy obliczyć pochodne cząstkowe tej funkcji dla każdego z parametrów i przyrównać je do zera, tj. .
W rezultacie otrzymujemy układ 2 normalnych równań liniowych:
Rozwiązując ten układ, znajdujemy wymagane oszacowania parametrów:

Poprawność wyliczenia parametrów równania regresji można sprawdzić porównując wielkości (mogą wystąpić pewne rozbieżności ze względu na zaokrąglenia obliczeń).
Aby obliczyć szacunki parametrów, możesz zbudować tabelę 1.
Znak współczynnika regresji b wskazuje kierunek zależności (jeśli b > 0, zależność jest bezpośrednia, jeśli b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formalnie wartość parametru a jest średnią wartością y przy x równym zero. Jeśli współczynnik atrybutu nie ma i nie może mieć wartości zerowej, to powyższa interpretacja parametru a nie ma sensu.

Ocena bliskości związku między cechami przeprowadzono przy użyciu współczynnika korelacji par liniowych - r x,y. Można to obliczyć korzystając ze wzoru: . Dodatkowo współczynnik korelacji par liniowych można wyznaczyć poprzez współczynnik regresji b: .
Zakres dopuszczalnych wartości współczynnika korelacji pary liniowej wynosi od –1 do +1. Znak współczynnika korelacji wskazuje kierunek zależności. Jeżeli rx, y >0, to połączenie jest bezpośrednie; jeśli rx, y<0, то связь обратная.
Jeśli współczynnik ten jest bliski jedności, wówczas zależność między cechami można interpretować jako dość bliską liniową. Jeżeli jego moduł jest równy jeden ê r x , y ê =1, to zależność między cechami ma charakter liniowy funkcyjny. Jeżeli cechy x i y są liniowo niezależne, to r x,y jest bliskie 0.
Aby obliczyć r x, y, możesz także skorzystać z tabeli 1.

Tabela 1

N obserwacjix jatak, jax i ∙y i
1 x 1y 1x 1 y 1
2 x 2y 2x 2 y 2
...
Nx rzy nx n y n
Suma kolumny∑x∑ r∑xy
Średnia wartość
Aby ocenić jakość otrzymanego równania regresji, oblicz teoretyczny współczynnik determinacji - R 2 yx:

,
gdzie d 2 jest wariancją y wyjaśnioną równaniem regresji;
e 2 - resztowa (niewyjaśniona równaniem regresji) wariancja y;
s 2 y - całkowita (całkowita) wariancja y.
Współczynnik determinacji charakteryzuje udział zmienności (rozproszenia) wynikowej cechy y wyjaśnionej regresją (a w konsekwencji współczynnikiem x) w całkowitej zmienności (rozproszeniu) y. Współczynnik determinacji R 2 yx przyjmuje wartości od 0 do 1. Odpowiednio wartość 1-R 2 yx charakteryzuje proporcję wariancji y spowodowaną wpływem innych czynników nieuwzględnionych w modelu i błędami specyfikacji.
W przypadku sparowanej regresji liniowej R 2 yx = r 2 yx.