Tahminlerin elde edilmesi için OLS en küçük kareler yöntemi. Bazı MNC uygulamaları

  • öğretici

giriiş

Ben bir matematikçi ve programcıyım. Kariyerimde attığım en büyük adım şunu söylemeyi öğrendiğim zamandı: "Hiçbir şey anlamıyorum!" Artık bilimin aydınına bana ders verdiğini, onun, aydının bana ne söylediğini anlamadığımı söylemekten utanmıyorum. Ve bu çok zor. Evet, cehaletinizi kabul etmek zor ve utanç vericidir. Kim bir şeyin temellerini bilmediğini itiraf etmekten hoşlanır? Mesleğim gereği çok sayıda sunum ve derse katılmak zorunda kalıyorum ve itiraf etmeliyim ki çoğu durumda hiçbir şey anlamadığım için uyumak istiyorum. Ama anlamıyorum çünkü bilimdeki mevcut durumun en büyük sorunu matematikte yatıyor. Tüm dinleyicilerin matematiğin tüm alanlarına kesinlikle aşina olduklarını varsayar (ki bu saçmadır). Türevin ne olduğunu bilmediğinizi kabul etmek (ne olduğuna biraz sonra değineceğiz) utanç vericidir.

Ama çarpmanın ne olduğunu bilmediğimi söylemeyi öğrendim. Evet, Lie cebiri üzerindeki alt cebirin ne olduğunu bilmiyorum. Evet, hayatta ikinci dereceden denklemlere neden ihtiyaç duyulduğunu bilmiyorum. Bu arada, bildiğinden eminsen konuşacak bir şeyimiz var demektir! Matematik bir dizi hiledir. Matematikçiler halkın kafasını karıştırmaya ve gözünü korkutmaya çalışırlar; Karışıklığın olmadığı yerde itibar da olmaz, otorite de olmaz. Evet, olabildiğince soyut bir dille konuşmak prestijlidir ki bu da tam bir saçmalıktır.

Türevin ne olduğunu biliyor musun? Büyük ihtimalle bana fark oranının limitini anlatacaksınız. St. Petersburg Devlet Üniversitesi'nde matematik ve mekaniğin ilk yılında Viktor Petrovich Khavin bana şunları söyledi: azimli Bir fonksiyonun Taylor serisinin ilk teriminin katsayısı olarak türev (bu, türevsiz Taylor serisini belirlemek için ayrı bir jimnastikti). Sonunda neyle ilgili olduğunu anlayana kadar bu tanıma uzun süre güldüm. Türev, türevini aldığımız fonksiyonun y=x, y=x^2, y=x^3 fonksiyonuna ne kadar benzer olduğunun basit bir ölçüsünden başka bir şey değildir.

Artık öğrencilere ders verme onuruna sahibim. korkmuş matematik. Eğer matematikten korkuyorsanız biz de aynı yoldayız. Bir metni okumaya çalıştığınızda ve size aşırı karmaşık göründüğünde, bunun kötü yazıldığını bilin. Doğruluğunu kaybetmeden “parmaklarda” tartışılamayacak tek bir matematik alanı olmadığını iddia ediyorum.

Yakın gelecek için ödev: Öğrencilerime doğrusal ikinci dereceden düzenleyicinin ne olduğunu anlamalarını verdim. Utanmayın, hayatınızın üç dakikasını geçirin ve bağlantıyı takip edin. Eğer hiçbir şey anlamıyorsan, o zaman aynı yoldayız. Ben (profesyonel bir matematikçi-programcı) da hiçbir şey anlamadım. Ve sizi temin ederim ki, bunu "parmaklarınızla" çözebilirsiniz. Şu anda ne olduğunu bilmiyorum ama sizi temin ederim ki çözebileceğiz.

Öğrencilerime dehşet içinde koşarak yanıma gelip doğrusal-ikinci dereceden düzenleyicinin hayatınızda asla ustalaşamayacağınız korkunç bir şey olduğunu söylediklerinde onlara vereceğim ilk ders şu olacaktır: en küçük kareler yöntemleri. Doğrusal denklemleri çözebilir misiniz? Bu metni okuyorsanız, büyük olasılıkla hayır.

Yani, (x0, y0), (x1, y1) gibi iki nokta (1,1) ve (3,2) verildiğinde görev, bu iki noktadan geçen çizginin denklemini bulmaktır:

illüstrasyon

Bu satırın aşağıdaki gibi bir denklemi olmalıdır:

Burada alfa ve beta bizim tarafımızdan bilinmiyor, ancak bu doğrunun iki noktası biliniyor:

Bu denklemi matris formunda yazabiliriz:

Burada lirik bir inceleme yapmalıyız: matris nedir? Bir matris, iki boyutlu bir diziden başka bir şey değildir. Bu, verileri saklamanın bir yoludur; ona başka bir anlam yüklenmemelidir. Belirli bir matrisin tam olarak nasıl yorumlanacağı bize bağlıdır. Periyodik olarak bunu doğrusal bir haritalama olarak, periyodik olarak ikinci dereceden bir form olarak ve bazen de basitçe bir vektör kümesi olarak yorumlayacağım. Bunların hepsi bağlamda açıklığa kavuşturulacaktır.

Somut matrisleri sembolik temsilleriyle değiştirelim:

O zaman (alfa, beta) kolayca bulunabilir:

Daha spesifik olarak önceki verilerimiz için:

Bu, (1,1) ve (3,2) noktalarından geçen doğrunun aşağıdaki denklemine yol açar:

Tamam, burada her şey açık. İçinden geçen doğrunun denklemini bulalım üç puanlar: (x0,y0), (x1,y1) ve (x2,y2):

Oh-oh-oh, ama iki bilinmeyen için üç denklemimiz var! Standart bir matematikçi çözümün olmadığını söyleyecektir. Programcı ne diyecek? Ve ilk önce önceki denklem sistemini aşağıdaki biçimde yeniden yazacak:

Bizim durumumuzda i, j, b vektörleri üç boyutludur, dolayısıyla (genel durumda) bu sistemin bir çözümü yoktur. Herhangi bir vektör (alfa\*i + beta\*j), (i, j) vektörlerinin kapsadığı düzlemde yer alır. Eğer b bu düzleme ait değilse çözüm yoktur (denklemde eşitlik sağlanamaz). Ne yapalım? Bir uzlaşma arayalım. ile belirtelim e(alfa, beta) eşitliği tam olarak ne kadar sağlayamadık:

Ve bu hatayı en aza indirmeye çalışacağız:

Neden kare?

Sadece normun minimumunu değil, normun karesinin minimumunu da arıyoruz. Neden? Minimum noktanın kendisi çakışır ve kare düzgün bir fonksiyon verir (argümanların ikinci dereceden bir fonksiyonu (alfa, beta)), oysa basitçe uzunluk, minimum noktada türevlenemeyen koni şeklinde bir fonksiyon verir. Brr. Bir kare daha uygundur.

Açıkçası, vektör kullanıldığında hata en aza indirilir. e vektörlerin kapsadığı düzleme dik Ben Ve J.

İllüstrasyon

Başka bir deyişle: tüm noktalardan bu düz çizgiye olan mesafelerin kare uzunluklarının toplamı minimum olacak şekilde bir düz çizgi arıyoruz:

GÜNCELLEME: Burada bir sorunum var, düz çizgiye olan mesafe dik projeksiyonla değil dikey olarak ölçülmeli. Bu yorumcu haklı.

İllüstrasyon

Tamamen farklı bir deyişle (dikkatlice, kötü biçimlendirilmiş, ancak açık olmalı): tüm nokta çiftleri arasındaki olası tüm çizgileri alıyoruz ve hepsi arasındaki ortalama çizgiyi arıyoruz:

İllüstrasyon

Diğer bir açıklama ise basittir: Tüm veri noktaları (burada üç tane var) ile aradığımız düz çizgi arasına bir yay bağlarız ve denge durumunun düz çizgisi tam olarak aradığımız şeydir.

Minimum ikinci dereceden form

Yani bu vektör verildiğinde B ve matrisin sütun vektörleri tarafından yayılan bir düzlem A(bu durumda (x0,x1,x2) ve (1,1,1)), vektörü arıyoruz e Minimum kare uzunluğunda. Açıkçası, minimum değere yalnızca vektör için ulaşılabilir. e, matrisin sütun vektörlerinin kapsadığı düzleme dik A:

Başka bir deyişle, şöyle bir x=(alfa, beta) vektörü arıyoruz:

Bu x=(alfa, beta) vektörünün ikinci dereceden ||e(alfa, beta)||^2 fonksiyonunun minimumu olduğunu hatırlatmama izin verin:

Burada matrisin ikinci dereceden form olarak da yorumlanabileceğini hatırlamak faydalı olacaktır; örneğin birim matris ((1,0),(0,1)) x^2 + y^ fonksiyonu olarak yorumlanabilir. 2:

ikinci dereceden form

Bütün bu jimnastik doğrusal regresyon adı altında bilinir.

Dirichlet sınır koşuluyla Laplace denklemi

Şimdi en basit gerçek görev: belirli bir üçgen yüzey var, onu düzeltmek gerekiyor. Örneğin yüzümün bir modelini yükleyelim:

Orijinal taahhüt mevcuttur. Dış bağımlılıkları en aza indirmek için halihazırda Habré'de bulunan yazılım oluşturucumun kodunu aldım. Doğrusal sistemi çözmek için OpenNL kullanıyorum, bu mükemmel bir çözücüdür, ancak kurulumu çok zordur: iki dosyayı (.h+.c) projenizin bulunduğu klasöre kopyalamanız gerekir. Tüm yumuşatma aşağıdaki kodla yapılır:

İçin (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&yüz = yüzler[i];<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

for (int j=0; j

X, Y ve Z koordinatları ayrılabilir, bunları ayrı ayrı düzeltiyorum. Yani, her biri modelimdeki köşe sayısına eşit sayıda değişken içeren üç doğrusal denklem sistemini çözüyorum. A matrisinin ilk n satırı, satır başına yalnızca bir 1'e sahiptir ve b vektörünün ilk n satırı, orijinal model koordinatlarına sahiptir. Yani tepe noktasının yeni konumu ile tepe noktasının eski konumu arasına bir yay bağlıyorum - yeniler eskilerinden çok uzaklaşmamalı.

A matrisinin sonraki tüm satırları (faces.size()*3 = ağdaki tüm üçgenlerin kenarlarının sayısı), bir kez 1 ve bir kez -1 oluşumuna sahiptir; b vektörü, bunun karşısında sıfır bileşene sahiptir. Bu, üçgen ağımızın her bir kenarına bir yay koyduğum anlamına gelir: tüm kenarlar, başlangıç ​​ve bitiş noktalarıyla aynı tepe noktasını almaya çalışır.

Bir kez daha tekrarlayalım: tüm köşeler değişkendir ve orijinal konumlarından uzaklaşamazlar ancak aynı zamanda birbirlerine benzemeye çalışırlar.

İşte sonuç:

Her şey yoluna girecekti, model gerçekten yumuşatıldı ama orijinal kenarından uzaklaştı. Kodu biraz değiştirelim:<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

İçin (int i=0; i

A matrisimizde kenardaki köşeler için v_i = verts[i][d] kategorisinden bir satır değil, 1000*v_i = 1000*verts[i][d] kategorisinden bir satır ekliyorum. Bu ne gibi bir fark yaratır? Bu da ikinci dereceden hata biçimimizi değiştiriyor. Artık kenarda üstten tek bir sapma, eskisi gibi bir birime değil, 1000*1000 birime mal olacak. Yani uç köşelere daha güçlü bir yay astık, çözüm diğerlerini daha güçlü bir şekilde germeyi tercih edecek. İşte sonuç:
Köşeler arasındaki yay kuvvetini ikiye katlayalım:

nlKatsayısı(yüz[ j ], 2);

nlKatsayısı(yüz[(j+1)%3], -2);

Bu nedir? Bir tel halkayı sabunlu suya batırdığımızı hayal edin. Sonuç olarak, ortaya çıkan sabun filmi, sınıra - tel halkamıza - dokunarak mümkün olan en az eğriliğe sahip olmaya çalışacaktır. Sınırı sabitleyerek ve içeride pürüzsüz bir yüzey isteyerek elde ettiğimiz şey tam olarak budur. Tebrikler, Laplace denklemini Dirichlet sınır koşullarıyla çözdük. Kulağa hoş geliyor mu? Ancak gerçekte tek bir doğrusal denklem sistemini çözmeniz yeterlidir.

Poisson denklemi

Başka bir güzel ismi hatırlayalım.

Diyelim ki şöyle bir resmim var:

Herkese iyi görünüyor ama sandalyeyi sevmiyorum.

Resmi ikiye böleceğim:



Ve ellerimle bir sandalye seçeceğim:

Daha sonra maskede beyaz olan her şeyi resmin sol tarafına çekeceğim ve aynı zamanda resim boyunca iki komşu piksel arasındaki farkın sağdaki iki komşu piksel arasındaki farka eşit olması gerektiğini söyleyeceğim. resim:

Her şey yoluna girecekti, model gerçekten yumuşatıldı ama orijinal kenarından uzaklaştı. Kodu biraz değiştirelim:

Bir kez daha tekrarlayalım: tüm köşeler değişkendir ve orijinal konumlarından uzaklaşamazlar ancak aynı zamanda birbirlerine benzemeye çalışırlar.

Kod ve resimler mevcut

Regresyon fonksiyonunun türünü seçtikten sonra, yani. Y'nin X'e (veya X'in Y'ye) bağımlılığının dikkate alınan modelinin türü, örneğin doğrusal bir model y x =a+bx, model katsayılarının belirli değerlerini belirlemek gerekir.

a ve b'nin farklı değerleri için, y x = a + bx biçiminde sonsuz sayıda bağımlılık oluşturmak mümkündür, yani koordinat düzleminde sonsuz sayıda düz çizgi vardır, ancak en iyi şekilde bir bağımlılığa ihtiyacımız vardır. gözlemlenen değerlere karşılık gelir. Böylece görev en iyi katsayıların seçilmesine gelir.

Yalnızca belirli sayıda mevcut gözleme dayanarak a+bx doğrusal fonksiyonunu ararız. Gözlemlenen değerlere en uygun fonksiyonu bulmak için en küçük kareler yöntemini kullanırız.

Şunu belirtelim: Y i - Y i =a+bx i denklemiyle hesaplanan değer. y ben - ölçülen değer, ε i =y i -Y i - denklemi kullanarak ölçülen ve hesaplanan değerler arasındaki fark, ε i =y i -a-bx i .

En küçük kareler yöntemi, ölçülen y i ile denklemden hesaplanan Y i değerleri arasındaki fark olan ε i'nin minimum olmasını gerektirir. Bu nedenle, a ve b katsayılarını, gözlemlenen değerlerin düz regresyon çizgisi üzerindeki değerlerden karesel sapmalarının toplamı en küçük olacak şekilde buluyoruz:

A ve ekstremum argümanlarının bu fonksiyonunu türevleri kullanarak inceleyerek, a ve b katsayılarının sistemin çözümleri olması durumunda fonksiyonun minimum değer aldığını kanıtlayabiliriz:

(2)

Normal denklemlerin her iki tarafını da n'ye bölersek şunu elde ederiz:

Bunu göz önünde bulundurarak (3)

Aldık Buradan a'nın değerini ilk denklemde yerine koyarsak şunu elde ederiz:

Bu durumda b'ye regresyon katsayısı denir; a, regresyon denkleminin serbest terimi olarak adlandırılır ve aşağıdaki formül kullanılarak hesaplanır:

Ortaya çıkan düz çizgi, teorik regresyon çizgisi için bir tahmindir. Sahibiz:

Bu yüzden, doğrusal bir regresyon denklemidir.

Regresyon doğrudan (b>0) ve ters (b) olabilir. Örnek 1. X ve Y değerlerinin ölçülmesinin sonuçları tabloda verilmiştir:

x ben -2 0 1 2 4
sen ben 0.5 1 1.5 2 3

X ve Y arasında doğrusal bir ilişki olduğunu varsayarak y=a+bx, en küçük kareler yöntemini kullanarak a ve b katsayılarını belirleyin.

Çözüm. Burada n=5
x ben =-2+0+1+2+4=5;
x ben 2 =4+0+1+4+16=25
x ben y ben =-2 0,5+0 1+1 1,5+2 2+4 3=16,5
y ben =0,5+1+1,5+2+3=8

ve normal sistem (2) şu şekle sahiptir:

Bu sistemi çözdüğümüzde şunu elde ederiz: b=0,425, a=1,175. Dolayısıyla y=1,175+0,425x.

Örnek 2. Ekonomik göstergelere (X) ve (Y) ilişkin 10 gözlemden oluşan bir örnek bulunmaktadır.

x ben 180 172 173 169 175 170 179 170 167 174
sen ben 186 180 176 171 182 166 182 172 169 177

X üzerinde Y için örnek bir regresyon denklemi bulmanız gerekir. X üzerinde Y için örnek bir regresyon çizgisi oluşturun.

Çözüm. 1. Verileri x i ve y i değerlerine göre sıralayalım. Yeni bir tablo alıyoruz:

x ben 167 169 170 170 172 173 174 175 179 180
sen ben 169 171 166 172 180 176 177 182 182 186

Hesaplamaları basitleştirmek için gerekli sayısal değerleri gireceğimiz bir hesaplama tablosu oluşturacağız.

x ben sen ben x ben 2 x ben y ben
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x ben =1729 ∑y ben =1761 ∑x i 2 299105 ∑x ben y ben =304696
x=172,9 y=176.1 x ben 2 =29910,5 xy=30469.6

Formül (4)'e göre regresyon katsayısını hesaplıyoruz

ve formül (5)'e göre

Dolayısıyla örnek regresyon denklemi y=-59,34+1,3804x'tir.
Koordinat düzleminde (x i ; y i) noktalarını işaretleyelim ve regresyon doğrusunu işaretleyelim.


Şekil 4

Şekil 4, gözlemlenen değerlerin regresyon çizgisine göre nasıl konumlandırıldığını göstermektedir. Y i'nin gözlemlendiği ve Y i'nin regresyonla belirlenen değerler olduğu Y i'den sapmalarını sayısal olarak değerlendirmek için bir tablo oluşturalım:

x ben sen ben ey ben Y ben -y ben
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Yi değerleri regresyon denklemine göre hesaplanır.

Gözlemlenen bazı değerlerin regresyon çizgisinden gözle görülür şekilde sapması, gözlem sayısının az olmasıyla açıklanmaktadır. Y'nin X'e doğrusal bağımlılığının derecesi incelenirken gözlem sayısı dikkate alınır. Bağımlılığın gücü korelasyon katsayısının değeri ile belirlenir.

Örnek.

Değişkenlerin değerlerine ilişkin deneysel veriler X Ve en tabloda verilmektedir.

Hizalamalarının bir sonucu olarak, fonksiyon elde edilir

Kullanma en küçük kareler yöntemi, bu verilere doğrusal bir bağımlılıkla yaklaşın y=ax+b(parametreleri bul A Ve B). İki çizgiden hangisinin (en küçük kareler yöntemi anlamında) deneysel verileri daha iyi hizaladığını bulun. Bir çizim yapın.

En küçük kareler yönteminin (LSM) özü.

Görev, iki değişkenli fonksiyonun geçerli olduğu doğrusal bağımlılık katsayılarını bulmaktır. A Ve B en küçük değeri alır. Yani verilen A Ve B Deneysel verilerin bulunan düz çizgiden sapmalarının karelerinin toplamı en küçük olacaktır. En küçük kareler yönteminin asıl amacı budur.

Dolayısıyla, örneği çözmek iki değişkenli bir fonksiyonun ekstremumunu bulmaya indirgenir.

Katsayıları bulmak için formüllerin türetilmesi.

İki bilinmeyenli iki denklemden oluşan bir sistem derlenip çözülür. Bir fonksiyonun kısmi türevlerini bulma değişkenlere göre A Ve B, bu türevleri sıfıra eşitliyoruz.

Ortaya çıkan denklem sistemini herhangi bir yöntemi kullanarak çözeriz (örneğin ikame yöntemiyle veya Cramer'in yöntemi) ve en küçük kareler yöntemini (LSM) kullanarak katsayıları bulmak için formüller elde edin.

Verilen A Ve B işlev en küçük değeri alır. Bu gerçeğin kanıtı veriliyor sayfanın sonundaki metinde aşağıda.

En küçük kareler yönteminin tamamı budur. Parametreyi bulma formülü A toplamları ve parametreyi içerir N- deneysel veri miktarı. Bu tutarların değerlerinin ayrı ayrı hesaplanmasını öneririz. Katsayı B Hesaplamadan sonra bulunan A.

Orijinal örneği hatırlamanın zamanı geldi.

Çözüm.

Örneğimizde n=5. Gerekli katsayıların formüllerinde yer alan tutarların hesaplanmasında kolaylık sağlamak için tabloyu dolduruyoruz.

Tablonun dördüncü satırındaki değerler, her sayı için 2. satırdaki değerlerin 3. satırdaki değerlerle çarpılmasıyla elde edilir. Ben.

Tablonun beşinci satırındaki değerler, her sayı için 2. satırdaki değerlerin karesi alınarak elde edilir. Ben.

Tablonun son sütunundaki değerler satırlar arasındaki değerlerin toplamıdır.

Katsayıları bulmak için en küçük kareler yönteminin formüllerini kullanıyoruz A Ve B. Tablonun son sütunundaki karşılık gelen değerleri bunların yerine koyarız:

Buradan, y = 0,165x+2,184- istenen yaklaşık düz çizgi.

Hangi satırlardan hangisinin olduğunu bulmak için kalır y = 0,165x+2,184 veya orijinal verilere daha iyi yaklaşır, yani en küçük kareler yöntemini kullanarak bir tahmin yapar.

En küçük kareler yönteminde hata tahmini.

Bunu yapmak için orijinal verilerin bu çizgilerden sapmalarının karelerinin toplamını hesaplamanız gerekir. Ve , daha küçük bir değer, en küçük kareler yöntemi anlamında orijinal verilere daha iyi yaklaşan bir çizgiye karşılık gelir.

O zamandan beri düz y = 0,165x+2,184 orijinal verilere daha iyi yaklaşır.

En küçük kareler (LS) yönteminin grafiksel gösterimi.

Grafiklerde her şey açıkça görülüyor. Kırmızı çizgi bulunan düz çizgidir y = 0,165x+2,184, mavi çizgi , pembe noktalar orijinal verilerdir.

Uygulamada, çeşitli süreçleri (özellikle ekonomik, fiziksel, teknik, sosyal) modellerken, fonksiyonların yaklaşık değerlerini belirli sabit noktalarda bilinen değerlerinden hesaplamak için bir veya başka bir yöntem yaygın olarak kullanılır.

Bu tür fonksiyon yaklaşımı problemi sıklıkla ortaya çıkar:

    deney sonucunda elde edilen tablo verilerini kullanarak, incelenen sürecin karakteristik miktarlarının değerlerini hesaplamak için yaklaşık formüller oluştururken;

    sayısal entegrasyon, türev alma, diferansiyel denklem çözme vb.;

    fonksiyonların değerlerini dikkate alınan aralığın ara noktalarında hesaplamak gerekiyorsa;

    dikkate alınan aralığın dışındaki bir sürecin karakteristik miktarlarının değerlerini belirlerken, özellikle tahmin yaparken.

Bir tablo tarafından belirtilen belirli bir süreci modellemek için, en küçük kareler yöntemine dayalı olarak bu süreci yaklaşık olarak tanımlayan bir fonksiyon oluşturursak, buna yaklaşıklık fonksiyonu (regresyon) adı verilecek ve yaklaşıklık fonksiyonlarının oluşturulması probleminin kendisi çağrılacaktır. bir yakınsama problemi.

Bu makalede, MS Excel paketinin bu tür bir sorunu çözmeye yönelik yetenekleri tartışılmaktadır, ayrıca tablolanmış işlevler için (regresyon analizinin temeli olan) regresyonlar oluşturmak (oluşturmak) için yöntemler ve teknikler sağlanmaktadır.

Excel'in regresyon oluşturmak için iki seçeneği vardır.

    İncelenen süreç karakteristiği için bir veri tablosu temelinde oluşturulan bir diyagrama seçilen regresyonların (eğilim çizgileri) eklenmesi (yalnızca bir diyagram oluşturulmuşsa kullanılabilir);

    Excel çalışma sayfasının yerleşik istatistiksel işlevlerini kullanarak regresyonları (eğilim çizgileri) doğrudan kaynak veri tablosundan elde etmenize olanak tanır.

Grafiğe trend çizgileri ekleme

Bir süreci tanımlayan ve bir diyagramla temsil edilen bir veri tablosu için Excel'in aşağıdakileri yapmanıza olanak tanıyan etkili bir regresyon analiz aracı vardır:

    en küçük kareler yöntemini temel alarak inşa edin ve diyagrama, incelenen süreci değişen doğruluk dereceleriyle modelleyen beş tür regresyon ekleyin;

    oluşturulan regresyon denklemini diyagrama ekleyin;

    Seçilen regresyonun grafikte görüntülenen verilere uygunluk derecesini belirleyin.

Excel, grafik verilerine dayanarak, denklemle belirtilen doğrusal, polinom, logaritmik, güç, üstel regresyon türlerini elde etmenize olanak tanır:

y = y(x)

burada x, genellikle bir dizi doğal sayının (1; 2; 3; ...) değerlerini alan ve örneğin incelenen sürecin zamanının geri sayımını (özellikler) üreten bağımsız bir değişkendir.

1 . Doğrusal regresyon, değerleri sabit bir oranda artan veya azalan özellikleri modellemek için iyidir. Bu, incelenen süreç için oluşturulacak en basit modeldir. Aşağıdaki denkleme göre inşa edilir:

y = mx + b

burada m, doğrusal regresyon eğiminin x eksenine teğetidir; b - doğrusal regresyonun ordinat ekseni ile kesişme noktasının koordinatı.

2 . Bir polinom eğilim çizgisi, birkaç farklı uç noktaya (maksimum ve minimum) sahip özellikleri tanımlamak için kullanışlıdır. Polinom derecesinin seçimi, incelenen özelliğin ekstremum sayısına göre belirlenir. Dolayısıyla, ikinci dereceden bir polinom, yalnızca bir maksimumu veya minimumu olan bir süreci iyi tanımlayabilir; üçüncü dereceden polinom - en fazla iki ekstrema; dördüncü dereceden polinom - en fazla üç ekstrema vb.

Bu durumda trend çizgisi aşağıdaki denkleme göre oluşturulur:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

burada c0, c1, c2,... c6 katsayıları inşaat sırasında değerleri belirlenen sabitlerdir.

3 . Logaritmik eğilim çizgisi, değerleri başlangıçta hızla değişen ve daha sonra yavaş yavaş sabitlenen özelliklerin modellenmesinde başarıyla kullanılır.

y = c ln(x) + b

4 . Güç yasası eğilim çizgisi, incelenen ilişkinin değerleri büyüme oranındaki sürekli bir değişiklikle karakterize ediliyorsa iyi sonuçlar verir. Böyle bir bağımlılığın bir örneği, bir arabanın eşit şekilde hızlandırılmış hareketinin grafiğidir. Verilerde sıfır veya negatif değerler varsa güç trend çizgisi kullanamazsınız.

Denkleme göre oluşturulmuştur:

y = c xb

burada b, c katsayıları sabittir.

5 . Verilerdeki değişim hızı sürekli arttığında üstel eğilim çizgisi kullanılmalıdır. Sıfır veya negatif değer içeren veriler için bu tür bir yaklaşım da uygulanamaz.

Denkleme göre oluşturulmuştur:

y = c ebx

burada b, c katsayıları sabittir.

Bir eğilim çizgisi seçerken Excel, yaklaşımın güvenilirliğini karakterize eden R2 değerini otomatik olarak hesaplar: R2 değeri birliğe ne kadar yakınsa, eğilim çizgisi incelenen sürece o kadar güvenilir bir şekilde yaklaşır. Gerektiğinde R2 değeri her zaman grafikte görüntülenebilir.

Formülle belirlenir:

Bir veri serisine trend çizgisi eklemek için:

    bir dizi veriye dayalı olarak bir grafiği etkinleştirin, yani grafik alanının içine tıklayın. Diyagram öğesi ana menüde görünecektir;

    Bu öğeye tıkladıktan sonra ekranda Trend çizgisi ekle komutunu seçmeniz gereken bir menü görünecektir.

Aynı eylemler, fare imlecini veri serilerinden birine karşılık gelen grafiğin üzerine getirip sağ tıklatarak kolayca uygulanabilir; Görüntülenen içerik menüsünde Trend çizgisi ekle komutunu seçin. Tür sekmesi açıkken ekranda Trend çizgisi iletişim kutusu görünecektir (Şekil 1).

Bundan sonra ihtiyacınız var:

Tür sekmesinde gerekli eğilim çizgisi türünü seçin (Doğrusal tür varsayılan olarak seçilidir). Polinom türü için Derece alanında seçilen polinomun derecesini belirtin.

1 . Yerleşik seriler alanı, söz konusu grafikteki tüm veri serilerini listeler. Belirli bir veri serisine trend çizgisi eklemek için Oluşturulan seriler alanında bu çizginin adını seçin.

Gerekirse Parametreler sekmesine (Şekil 2) giderek trend çizgisi için aşağıdaki parametreleri ayarlayabilirsiniz:

    Yaklaşık (düzleştirilmiş) eğrinin adı alanında trend çizgisinin adını değiştirin.

    Tahmin alanında tahmin için dönem sayısını (ileri veya geri) ayarlayın;

    diyagram alanında denklemi göster onay kutusunu etkinleştirmeniz gereken trend çizgisinin denklemini görüntüleyin;

    yaklaşık güvenilirlik değeri R2'yi diyagram alanında görüntüleyin; bunun için Yaklaşım güvenilirlik değerini diyagrama yerleştir (R^2) onay kutusunu etkinleştirmeniz gerekir;

    trend çizgisinin Y ekseni ile kesişme noktasını ayarlayın; bunun için eğrinin Y ekseni ile bir noktada kesişmesi için onay kutusunu etkinleştirmeniz gerekir;

    İletişim kutusunu kapatmak için Tamam düğmesini tıklayın.

Zaten çizilmiş bir trend çizgisini düzenlemeye başlamanın üç yolu vardır:

    daha önce trend çizgisini seçtikten sonra Format menüsünden Seçilen trend çizgisi komutunu kullanın;

    trend çizgisine sağ tıklanarak çağrılan içerik menüsünden Trend çizgisini formatla komutunu seçin;

    trend çizgisine çift tıklayın.

Ekranda üç sekme içeren Trend Çizgisi Formatı iletişim kutusu görünecektir (Şekil 3): Görünüm, Tür, Parametreler ve son ikisinin içeriği, Trend Çizgisi iletişim kutusunun benzer sekmeleriyle tamamen örtüşmektedir (Şekil 1). -2). Görünüm sekmesinde çizgi türünü, rengini ve kalınlığını ayarlayabilirsiniz.

Daha önce çizilmiş bir trend çizgisini silmek için silinecek trend çizgisini seçin ve Sil tuşuna basın.

Dikkate alınan regresyon analiz aracının avantajları şunlardır:

    bir veri tablosu oluşturmadan grafikler üzerinde bir trend çizgisi oluşturmanın göreceli kolaylığı;

    önerilen trend çizgisi türlerinin oldukça geniş bir listesi ve bu liste en sık kullanılan regresyon türlerini içerir;

    incelenmekte olan sürecin davranışını keyfi (sağduyu sınırları dahilinde) ileri ve geri adımlarla tahmin etme yeteneği;

    trend çizgisi denklemini analitik biçimde elde etme yeteneği;

    Gerekirse, yaklaşımın güvenilirliğine ilişkin bir değerlendirme elde etme olasılığı.

Dezavantajları aşağıdakileri içerir:

    bir trend çizgisinin oluşturulması yalnızca bir dizi veri üzerine kurulu bir diyagram varsa gerçekleştirilir;

    elde edilen eğilim çizgisi denklemlerine dayanarak incelenen karakteristik için veri serisi oluşturma süreci biraz karmaşıktır: gerekli regresyon denklemleri, orijinal veri serisinin değerlerindeki her değişiklikle birlikte, ancak yalnızca grafik alanı içinde güncellenir. eski çizgi denklemi temelinde oluşturulan veri serisi değişmeden kalırken;

    PivotChart raporlarında, bir grafiğin veya ilişkili PivotTable raporunun görünümünü değiştirmek mevcut eğilim çizgilerini korumaz; bu, eğilim çizgileri çizmeden veya PivotChart raporunu başka şekilde biçimlendirmeden önce rapor düzeninin gerekli gereksinimleri karşıladığından emin olmanız gerektiği anlamına gelir.

Eğilim çizgileri, grafik, histogram, düz standartlaştırılmamış alan grafikleri, çubuk grafikler, dağılım grafikleri, kabarcık grafikleri ve hisse senedi grafikleri gibi grafiklerde sunulan veri serilerini desteklemek için kullanılabilir.

3B, normalleştirilmiş, radar, pasta ve halka grafiklerindeki veri serilerine trend çizgileri ekleyemezsiniz.

Excel'in yerleşik işlevlerini kullanma

Excel'de ayrıca grafik alanının dışındaki trend çizgilerini çizmek için bir regresyon analiz aracı da bulunur. Bu amaç için kullanılabilecek çok sayıda istatistiksel çalışma sayfası işlevi vardır, ancak bunların tümü yalnızca doğrusal veya üstel regresyonlara izin verir.

Excel'in doğrusal regresyon oluşturmak için çeşitli işlevleri vardır, özellikle:

    TREND;

  • EĞİM ve KESME.

Üstel bir trend çizgisi oluşturmak için çeşitli işlevlerin yanı sıra, özellikle:

    LGRFPRIBL.

TREND ve BÜYÜME işlevlerini kullanarak regresyon oluşturma tekniklerinin neredeyse aynı olduğunu belirtmek gerekir. Aynı şey LINEST ve LGRFPRIBL işlev çifti için de söylenebilir. Bu dört işlev için bir değer tablosu oluşturmak, regresyon oluşturma sürecini biraz karmaşıklaştıran dizi formülleri gibi Excel özelliklerini kullanır. Ayrıca, bizim görüşümüze göre, doğrusal regresyon oluşturmanın en kolay şekilde SLOPE ve INTERCEPT fonksiyonları kullanılarak gerçekleştirildiğini de belirtelim; bunlardan ilki, doğrusal regresyonun eğimini belirler ve ikincisi, regresyonun kestiği segmenti belirler. y ekseni.

Regresyon analizi için yerleşik işlevler aracının avantajları şunlardır:

    eğilim çizgilerini tanımlayan tüm yerleşik istatistiksel işlevler için incelenen karakteristiğe ilişkin veri serilerinin oluşturulmasına yönelik oldukça basit, tekdüze bir süreç;

    oluşturulan veri serilerine dayalı trend çizgileri oluşturmak için standart metodoloji;

    Gerekli sayıda ileri veya geri adımla incelenen sürecin davranışını tahmin etme yeteneği.

Dezavantajları arasında Excel'in diğer (doğrusal ve üstel hariç) eğilim çizgileri türlerini oluşturmak için yerleşik işlevlere sahip olmaması yer alır. Bu durum çoğu zaman incelenen sürecin yeterince doğru bir modelinin seçilmesine ve gerçeğe yakın tahminlerin elde edilmesine izin vermez. Ayrıca TREND ve BÜYÜME fonksiyonları kullanıldığında trend çizgilerinin denklemleri bilinmemektedir.

Yazarların, regresyon analizinin gidişatını herhangi bir bütünlük derecesiyle sunmaya çalışmadıklarına dikkat edilmelidir. Ana görevi, yaklaşım problemlerini çözerken Excel paketinin yeteneklerini belirli örnekler kullanarak göstermektir; Regresyonlar ve tahminler oluşturmak için Excel'in hangi etkili araçlara sahip olduğunu gösterin; regresyon analizi konusunda kapsamlı bilgiye sahip olmayan bir kullanıcı tarafından bile bu tür problemlerin nasıl nispeten kolay çözülebileceğini göstermektedir.

Belirli sorunları çözme örnekleri

Listelenen Excel araçlarını kullanarak belirli sorunları çözmeye bakalım.

Sorun 1

Bir motorlu taşımacılık işletmesinin 1995-2002 dönemine ilişkin kârına ilişkin bir veri tablosu ile. aşağıdakileri yapmanız gerekir:

    Bir diyagram oluşturun.

    Grafiğe doğrusal ve polinom (ikinci dereceden ve kübik) eğilim çizgileri ekleyin.

    Eğilim çizgileri denklemlerini kullanarak, 1995-2004 yılları için her bir eğilim çizgisi için işletme karlarına ilişkin tablo halinde veriler elde edin.

    İşletmenin 2003 ve 2004 yılı karı için bir tahmin yapın.

Sorun çözümü

    Excel çalışma sayfasının A4:C11 hücreleri aralığına, Şekil 2'de gösterilen çalışma sayfasını girin. 4.

    B4:C11 hücre aralığını seçtikten sonra bir diyagram oluşturuyoruz.

    Oluşturulan diyagramı etkinleştiriyoruz ve yukarıda açıklanan yönteme göre Trend Çizgisi iletişim kutusunda trend çizgisi türünü seçtikten sonra (bkz. Şekil 1), diyagrama dönüşümlü olarak doğrusal, karesel ve kübik trend çizgileri ekliyoruz. Aynı iletişim kutusunda, Parametreler sekmesini açın (bkz. Şekil 2), yaklaşık (düzleştirilmiş) eğrinin adı alanına, eklenen trendin adını girin ve İleriye yönelik tahmin: dönemler alanına, değeri 2, çünkü iki yıl sonrası için kar tahmini yapılması planlanıyor. Regresyon denklemini ve yaklaşım güvenilirlik değeri R2'yi diyagram alanında görüntülemek için denklemi ekranda göster onay kutularını etkinleştirin ve yaklaşım güvenilirlik değerini (R^2) diyagrama yerleştirin. Daha iyi görsel algı için, Trend Çizgisi Formatı iletişim kutusunun Görünüm sekmesini kullandığımız oluşturulan trend çizgilerinin türünü, rengini ve kalınlığını değiştiriyoruz (bkz. Şekil 3). Eklenen trend çizgileri ile ortaya çıkan diyagram, Şekil 1'de gösterilmektedir. 5.

    1995-2004 yılları için her bir trend çizgisi için işletme karlarına ilişkin tablo halinde veri elde etmek.

Şekil 2'de sunulan trend çizgisi denklemlerini kullanalım. 5. Bunu yapmak için D3:F3 aralığındaki hücrelere seçilen trend çizgisinin türü hakkında metin bilgilerini girin: Doğrusal trend, Karesel trend, Kübik trend. Daha sonra, D4 hücresine doğrusal regresyon formülünü girin ve doldurma işaretini kullanarak bu formülü göreli referanslarla D5:D13 hücre aralığına kopyalayın. D4:D13 hücre aralığından doğrusal regresyon formülüne sahip her hücrenin, A4:A13 aralığından karşılık gelen bir hücreye argüman olarak sahip olduğuna dikkat edilmelidir. Benzer şekilde, ikinci dereceden regresyon için E4:E13 hücre aralığını doldurun ve kübik regresyon için F4:F13 hücre aralığını doldurun. Böylece işletmenin 2003 ve 2004 yılı kârına ilişkin bir tahmin derlendi. üç trendi kullanıyor. Ortaya çıkan değer tablosu Şekil 2'de gösterilmektedir. 6.

    Bir diyagram oluşturun.

    Sorun 2

    Grafiğe logaritmik, güç ve üstel eğilim çizgileri ekleyin.

    Elde edilen trend çizgilerinin denklemlerini ve bunların her biri için R2 yaklaşımının güvenilirlik değerlerini türetin.

    Trend çizgisi denklemlerini kullanarak, 1995-2002 yılları için her bir trend çizgisi için işletmenin kârına ilişkin tablo halinde veriler elde edin.

Sorun çözümü

Problem 1'in çözümünde verilen metodolojiyi takip ederek, logaritmik, güç ve üstel eğilim çizgilerinin eklendiği bir diyagram elde ediyoruz (Şekil 7). Daha sonra, elde edilen trend çizgisi denklemlerini kullanarak, 2003 ve 2004 yılları için öngörülen değerleri de içeren, işletmenin karı için bir değerler tablosu dolduruyoruz. (Şekil 8).

Şek. 5 ve Şek. Logaritmik eğilime sahip modelin, yaklaşım güvenilirliğinin en düşük değerine karşılık geldiği görülebilir.

R2 = 0,8659

R2'nin en yüksek değerleri polinom eğilimi olan modellere karşılık gelir: ikinci dereceden (R2 = 0,9263) ve kübik (R2 = 0,933).

Sorun 3

Görev 1'de verilen, bir motorlu taşımacılık kuruluşunun 1995-2002 dönemine ilişkin kârına ilişkin veri tablosuyla aşağıdaki adımları uygulamanız gerekir.

    TREND ve BÜYÜME işlevlerini kullanarak doğrusal ve üstel eğilim çizgileri için veri serileri elde edin.

    TREND ve BÜYÜME işlevlerini kullanarak işletmenin 2003 ve 2004 yılı kârına ilişkin bir tahmin yapın.

    Orijinal veriler ve elde edilen veri serileri için bir diyagram oluşturun.

Sorun çözümü

Problem 1 için çalışma sayfasını kullanalım (bkz. Şekil 4). TREND işleviyle başlayalım:

    işletmenin kârına ilişkin bilinen verilere karşılık gelen TREND fonksiyonunun değerleriyle doldurulması gereken D4:D11 hücre aralığını seçin;

    Ekle menüsünden İşlev komutunu çağırın. Görüntülenen İşlev Sihirbazı iletişim kutusunda İstatistik kategorisinden TREND işlevini seçin ve ardından Tamam düğmesine tıklayın. Aynı işlem standart araç çubuğundaki (Fonksiyon Ekle) düğmesine tıklanarak da yapılabilir.

    Görüntülenen İşlev Bağımsız Değişkenleri iletişim kutusunda Bilinen_değerler_y alanına C4:C11 hücre aralığını girin; Bilinen_değerler_x alanında - B4:B11 hücre aralığı;

    Girilen formülün bir dizi formülü haline gelmesi için ++ tuş birleşimini kullanın.

Formül çubuğuna girdiğimiz formül şu şekilde görünecektir: =(TREND(C4:C11,B4:B11)).

Sonuç olarak, D4:D11 hücre aralığı TREND fonksiyonunun karşılık gelen değerleriyle doldurulur (Şekil 9).

İşletmenin 2003 ve 2004 yılı kârına ilişkin tahmin yapmak. gerekli:

    TREND fonksiyonu tarafından tahmin edilen değerlerin girileceği D12:D13 hücre aralığını seçin.

    TREND işlevini çağırın ve beliren İşlev Bağımsız Değişkenleri iletişim kutusunda Bilinen_değerler_y alanına C4:C11 hücre aralığını girin; Bilinen_değerler_x alanında - B4:B11 hücre aralığı; ve New_values_x alanında - B12:B13 hücre aralığı.

    Ctrl + Shift + Enter tuş kombinasyonunu kullanarak bu formülü bir dizi formülüne dönüştürün.

    Girilen formül şu şekilde görünecektir: =(TREND(C4:C11;B4:B11;B12:B13)) ve D12:D13 hücre aralığı, TREND fonksiyonunun öngörülen değerleriyle doldurulacaktır (bkz. 9).

Veri serisi, doğrusal olmayan bağımlılıkların analizinde kullanılan ve doğrusal karşılığı TREND ile tamamen aynı şekilde çalışan BÜYÜME işlevi kullanılarak benzer şekilde doldurulur.

Şekil 10'da formül görüntüleme modundaki tablo gösterilmektedir.

İlk veriler ve elde edilen veri serileri için, Şekil 1'de gösterilen diyagram. 11.

Sorun 4

Bir motorlu taşıt işletmesinin sevkıyat hizmeti tarafından cari ayın 1'inden 11'ine kadar olan süre için hizmet taleplerinin alınmasına ilişkin veri tablosu ile aşağıdaki işlemleri gerçekleştirmelisiniz.

    Doğrusal regresyon için veri serileri alma: EĞİM ve KESME NOKTASI işlevlerini kullanma; DOT işlevini kullanarak.

    LGRFPRIBL işlevini kullanarak üstel regresyon için bir dizi veri elde edin.

    Yukarıdaki işlevleri kullanarak, içinde bulunulan ayın 12'sinden 14'üne kadar olan dönem için sevk hizmetine başvuruların alınmasına ilişkin bir tahmin yapın.

    Orijinal ve alınan veri serileri için bir diyagram oluşturun.

Sorun çözümü

TREND ve BÜYÜME işlevlerinden farklı olarak, yukarıda listelenen işlevlerin (EĞİM, KESME NOKTASI, DİZGİ, LGRFPRIB) hiçbirinin regresyon olmadığını unutmayın. Bu işlevler yalnızca gerekli regresyon parametrelerini belirleyen destekleyici bir rol oynar.

EĞİLİM, KESME NOKTASI, DİZGİ, LGRFPRIB fonksiyonları kullanılarak oluşturulan doğrusal ve üstel regresyonlar için, TREND ve BÜYÜME fonksiyonlarına karşılık gelen doğrusal ve üstel regresyonların aksine, denklemlerinin görünümü her zaman bilinir.

1 . Denklemi kullanarak doğrusal bir regresyon oluşturalım:

y = mx+b

regresyon eğimi m, SLOPE işlevi tarafından belirlenir ve serbest terim b, KESMENOKTASI işlevi tarafından belirlenir.

Bunu yapmak için aşağıdaki eylemleri gerçekleştiriyoruz:

    orijinal tabloyu A4:B14 hücre aralığına girin;

    m parametresinin değeri C19 hücresinde belirlenecektir. İstatistik kategorisinden Eğim işlevini seçin; bilinen_değerler_y alanına B4:B14 hücre aralığını ve bilinen_değerler_x alanına A4:A14 hücre aralığını girin.

    Formül C19 hücresine girilecektir: =EĞİM(B4:B14,A4:A14);

    Daha sonra, C4 hücresine doğrusal regresyon formülünü şu biçimde girin: =$C*A4+$D. Bu formülde C19 ve D19 hücreleri mutlak referanslarla yazılmıştır (olası kopyalama sırasında hücre adresi değişmemelidir). Mutlak referans işareti $, klavyeden veya imleci hücre adresinin üzerine getirdikten sonra F4 tuşunu kullanarak yazılabilir.

2 Doldurma tutamacını kullanarak bu formülü C4:C17 hücre aralığına kopyalayın. Gerekli veri serisini elde ediyoruz (Şekil 12). Uygulama sayısının tam sayı olması nedeniyle Hücre Formatı penceresinin Sayı sekmesinde ondalık basamak sayısını içeren sayı biçimini 0 olarak ayarlamanız gerekmektedir.

y = mx+b

. Şimdi denklem tarafından verilen doğrusal bir regresyon oluşturalım:

DOT işlevini kullanarak.

    Bunu yapmak için:

    DOT işlevini C20:D20 hücre aralığına dizi formülü olarak girin: =(LINEST(B4:B14,A4:A14)). Sonuç olarak, C20 hücresinde m parametresinin değerini ve D20 hücresinde b parametresinin değerini elde ederiz;

    formülü D4 hücresine girin: =$C*A4+$D;

3 doldurma işaretini kullanarak bu formülü D4:D17 hücre aralığına kopyalayın ve istenen veri serisini elde edin.

. Aşağıdaki denklemle üstel bir regresyon oluşturuyoruz:

    LGRFPRIBL işlevi kullanılarak benzer şekilde gerçekleştirilir:

    C21:D21 hücre aralığında LGRFPRIBL fonksiyonunu bir dizi formülü olarak giriyoruz: =( LGRFPRIBL (B4:B14,A4:A14)). Bu durumda m parametresinin değeri C21 hücresinde, b parametresinin değeri D21 hücresinde belirlenecek;

    formül E4 hücresine girilir: =$D*$C^A4;

doldurma işaretçisi kullanılarak bu formül, üstel regresyona yönelik veri serilerinin yerleştirileceği E4:E17 hücre aralığına kopyalanır (bkz. Şekil 12).

Şek. Şekil 13'te gerekli hücre aralıklarıyla kullandığımız fonksiyonları ve formülleri görebileceğiniz bir tablo gösterilmektedir. Büyüklük 2 R isminde.

belirleme katsayısı

Bir regresyon bağımlılığı oluşturmanın görevi, R katsayısının maksimum değerini aldığı model (1)'in m katsayılarının vektörünü bulmaktır.

R'nin önemini değerlendirmek için aşağıdaki formül kullanılarak hesaplanan Fisher F testi kullanılır: N Nerede

- numune büyüklüğü (deney sayısı);

k, model katsayılarının sayısıdır. N Ve Eğer F veri için bazı kritik değerleri aşarsa k

Böylece, R'nin önemi yalnızca değeriyle değil, aynı zamanda deney sayısı ile modelin katsayıları (parametreleri) sayısı arasındaki oranla da belirlenir. Aslında, basit bir doğrusal model için n=2 için korelasyon oranı 1'e eşittir (tek bir düz çizgi her zaman bir düzlemdeki 2 noktadan çizilebilir). Bununla birlikte, eğer deneysel veriler rastgele değişkenlerse, böyle bir R değerine büyük bir dikkatle güvenilmelidir. Genellikle anlamlı R ve güvenilir regresyon elde etmek için deney sayısının model katsayılarının sayısını (n>k) önemli ölçüde aşmasını sağlamaya çalışırlar.

Doğrusal bir regresyon modeli oluşturmak için ihtiyacınız olan:

1) deneysel verileri içeren n satır ve m sütundan oluşan bir liste hazırlayın (çıkış değerini içeren sütun) e listede ilk veya son olmalıdır); Örneğin bir önceki görevin verilerini alalım, “Dönem No.” diye bir sütun ekleyelim, dönem sayılarını 1'den 12'ye kadar numaralandıralım. (bunlar değerler olacaktır) X)

2) Veri/Veri Analizi/Regresyon menüsüne gidin

"Araçlar" menüsünde "Veri Analizi" öğesi eksikse, aynı menüdeki "Eklentiler" öğesine gidip "Analiz paketi" onay kutusunu işaretlemelisiniz.

3) "Regresyon" iletişim kutusunda şunu ayarlayın:

· giriş aralığı Y;

· giriş aralığı X;

· çıktı aralığı - hesaplama sonuçlarının yerleştirileceği aralığın sol üst hücresi (bunların yeni bir çalışma sayfasına yerleştirilmesi önerilir);

4) "Tamam"a tıklayın ve sonuçları analiz edin.

Eşitlemeden sonra aşağıdaki formda bir fonksiyon elde ederiz: g (x) = x + 1 3 + 1 .

Karşılık gelen parametreleri hesaplayarak y = a x + b doğrusal ilişkisini kullanarak bu verilere yaklaşabiliriz. Bunu yapmak için en küçük kareler yöntemini uygulamamız gerekecek. Ayrıca hangi çizginin deneysel verileri en iyi şekilde hizalayacağını kontrol etmek için bir çizim yapmanız gerekecektir.

Yandex.RTB R-A-339285-1

OLS (en küçük kareler yöntemi) tam olarak nedir?

Yapmamız gereken asıl şey, iki değişkenli F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 fonksiyonunun değerinin şu şekilde olacağı doğrusal bağımlılık katsayılarını bulmaktır: en küçük. Başka bir deyişle, a ve b'nin belirli değerleri için, sunulan verilerin ortaya çıkan düz çizgiden karesel sapmalarının toplamı minimum bir değere sahip olacaktır. En küçük kareler yönteminin anlamı budur. Örneği çözmek için yapmamız gereken tek şey, iki değişkenli fonksiyonun ekstremumunu bulmak.

Katsayıların hesaplanmasına yönelik formüller nasıl türetilir?

Katsayıların hesaplanmasına yönelik formüller türetmek için iki değişkenli bir denklem sistemi oluşturup çözmeniz gerekir. Bunu yapmak için F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 ifadesinin a ve b'ye göre kısmi türevlerini hesaplıyoruz ve bunları 0'a eşitliyoruz.

δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ ben = 1 n (y ben - (a x ben + b)) x ben = 0 - 2 ∑ ben = 1 n ( y ben - (a x ben + b)) = 0 ⇔ a ∑ ben = 1 n x ben 2 + b ∑ ben = 1 n x ben = ∑ ben = 1 n x ben y ben a ∑ ben = 1 n x ben + ∑ ben = 1 n b = ∑ ben = 1 n y ben ⇔ a ∑ ben = 1 n x ben 2 + b ∑ ben = 1 n x ben = ∑ ben = 1 n x ben y ben a ∑ ben = 1 n x ben + n b = ∑ ben = 1 n y ben

Bir denklem sistemini çözmek için ikame veya Cramer yöntemi gibi herhangi bir yöntemi kullanabilirsiniz. Sonuç olarak elimizde en küçük kareler yöntemini kullanarak katsayıları hesaplamak için kullanılabilecek formüllerimiz olmalıdır.

n ∑ ben = 1 n x ben y ben - ∑ ben = 1 n x ben ∑ ben = 1 n y ben n ∑ ben = 1 n - ∑ ben = 1 n x ben 2 b = ∑ ben = 1 n y ben - a ∑ ben = 1 n x ben n

Fonksiyonun bulunduğu değişkenlerin değerlerini hesapladık.
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 minimum değerini alacaktır. Üçüncü paragrafta bunun neden tam olarak böyle olduğunu kanıtlayacağız.

Bu, en küçük kareler yönteminin pratikteki uygulamasıdır. A parametresini bulmak için kullanılan formülü, ∑ ben = 1 n x ben, ∑ ben = 1 n y ben, ∑ ben = 1 n x ben y ben, ∑ ben = 1 n x ben 2'nin yanı sıra parametreyi içerir.
n – deneysel veri miktarını belirtir. Her tutarı ayrı ayrı hesaplamanızı öneririz. B katsayısının değeri a'dan hemen sonra hesaplanır.

Orijinal örneğe geri dönelim.

Örnek 1

Burada n eşittir beş var. Katsayı formüllerinde yer alan gerekli miktarların hesaplanmasını daha kolay hale getirmek için tabloyu dolduralım.

ben = 1 ben=2 ben=3 ben=4 ben=5 ∑ ben = 1 5
x ben 0 1 2 4 5 12
sen ben 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x ben y ben 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x ben 2 0 1 4 16 25 46

Çözüm

Dördüncü satır, her bir birey için ikinci satırdaki değerlerin üçüncü satırdaki değerlerle çarpılmasıyla elde edilen verileri içerir. Beşinci satır, ikinci satırın karesi olan verileri içerir. Son sütun, bireysel satırların değerlerinin toplamını gösterir.

İhtiyacımız olan a ve b katsayılarını hesaplamak için en küçük kareler yöntemini kullanalım. Bunu yapmak için son sütundaki gerekli değerleri değiştirin ve tutarları hesaplayın:

n ∑ ben = 1 n x ben y ben - ∑ ben = 1 n x ben ∑ ben = 1 n y ben n ∑ ben = 1 n - ∑ ben = 1 n x ben 2 b = ∑ ben = 1 n y ben - a ∑ ben = 1 n x ben n ⇒ a = 5 33, 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Gerekli yaklaşık düz çizginin y = 0, 165 x + 2, 184 gibi görüneceği ortaya çıktı. Şimdi hangi doğrunun verilere daha iyi yaklaşacağını belirlememiz gerekiyor - g (x) = x + 1 · 3 + 1 veya 0, 165 x + 2, 184. En küçük kareler yöntemini kullanarak tahmin yapalım.

Hatayı hesaplamak için, σ 1 = ∑ i = 1 n (y ben - (a x ben + b i)) 2 ve σ 2 = ∑ i = 1 n (y i) düz çizgilerinden elde edilen verilerin sapmalarının karelerinin toplamını bulmamız gerekir. - g (x i)) 2, minimum değer daha uygun bir çizgiye karşılık gelecektir.

σ 1 = ∑ ben = 1 n (y ben - (a x ben + b ben)) 2 = = ∑ ben = 1 5 (y ben - (0, 165 x ben + 2, 184)) 2 ≈ 0, 019 σ 2 = ∑ ben = 1 n (y ben - g (x ben)) 2 = = ∑ ben = 1 5 (y ben - (x ben + 1 3 + 1)) 2 ≈ 0,096

Cevap:σ 1'den beri< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0,165 x + 2,184.

En küçük kareler yöntemi grafiksel gösterimde açıkça gösterilmiştir. Kırmızı çizgi g (x) = x + 1 3 + 1 düz çizgisini, mavi çizgi ise y = 0, 165 x + 2, 184'ü gösterir. Orijinal veriler pembe noktalarla gösterilir.

Tam olarak neden bu tür yaklaşımlara ihtiyaç duyulduğunu açıklayalım.

Veri yumuşatma gerektiren görevlerde ve ayrıca verilerin enterpolasyon veya tahmin edilmesi gereken görevlerde kullanılabilirler. Örneğin, yukarıda tartışılan problemde, gözlemlenen y niceliğinin değeri x = 3 veya x = 6'da bulunabilir. Bu tür örneklere ayrı bir makale ayırdık.

OLS yönteminin kanıtı

Fonksiyonun a ve b hesaplanırken minimum değer alabilmesi için, belirli bir noktada fonksiyonun diferansiyelinin ikinci dereceden formunun matrisinin F (a, b) = ∑ i = olması gerekir. 1 n (y i - (a x i + b)) 2 pozitif tanımlıdır. Size nasıl görünmesi gerektiğini gösterelim.

Örnek 2

Aşağıdaki formda ikinci dereceden bir diferansiyelimiz var:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

Çözüm

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ ben = 1 n (y ben - (a x ben + b)) x ben δ a = 2 ∑ ben = 1 n (x ben) 2 δ 2 F (a; b) δ a δ b = δ δ F (a; b) δ a δ b = = δ - 2 ∑ ben = 1 n (y ben - (a x ben + b) ) x ben δ b = 2 ∑ ben = 1 n x ben δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ ben = 1 n (y ben - (a x ben + b)) δ b = 2 ∑ ben = 1 n (1) = 2 n

Başka bir deyişle, bunu şu şekilde yazabiliriz: d 2 F (a ; b) = 2 ∑ ben = 1 n (x ben) 2 d 2 a + 2 2 ∑ x ben ben = 1 n d a d b + (2 n) d 2 b.

İkinci dereceden formda bir matris elde ettik M = 2 ∑ ben = 1 n (x ben) 2 2 ∑ ben = 1 n x ben 2 ∑ ben = 1 n x ben 2 n .

Bu durumda, bireysel elemanların değerleri a ve b'ye bağlı olarak değişmeyecektir. Bu matris pozitif tanımlı mıdır? Bu soruyu cevaplamak için açısal küçüklerin pozitif olup olmadığını kontrol edelim.

Birinci dereceden açısal minörü hesaplıyoruz: 2 ∑ i = 1 n (x i) 2 > 0 . X i noktaları çakışmadığı için eşitsizlik kesindir. Daha sonraki hesaplamalarda bunu aklımızda tutacağız.

İkinci dereceden açısal minörü hesaplıyoruz:

d e t (M) = 2 ∑ ben = 1 n (x ben) 2 2 ∑ ben = 1 n x ben 2 ∑ ben = 1 n x ben 2 n = 4 n ∑ ben = 1 n (x ben) 2 - ∑ ben = 1 n x ben 2

Bundan sonra, matematiksel tümevarım kullanarak n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x ben 2 > 0 eşitsizliğini kanıtlamaya geçiyoruz.

  1. Bu eşitsizliğin keyfi bir n için geçerli olup olmadığını kontrol edelim. 2'yi alıp hesaplayalım:

2 ∑ ben = 1 2 (x ben) 2 - ∑ ben = 1 2 x ben 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Doğru eşitliği elde ettik (eğer x 1 ve x 2 değerleri uyuşmuyorsa).

  1. Bu eşitsizliğin n için doğru olacağını varsayalım. n ∑ ben = 1 n (x ben) 2 - ∑ ben = 1 n x ben 2 > 0 – doğru.
  2. Şimdi n + 1'in geçerliliğini kanıtlayacağız, yani. (n + 1) ∑ ben = 1 n + 1 (x ben) 2 - ∑ ben = 1 n + 1 x ben 2 > 0, eğer n ∑ ben = 1 n (x ben) 2 - ∑ ben = 1 n x ben 2 > 0 .

Hesaplıyoruz:

(n + 1) ∑ ben = 1 n + 1 (x ben) 2 - ∑ ben = 1 n + 1 x ben 2 = = (n + 1) ∑ ben = 1 n (x ben) 2 + x n + 1 2 - ∑ ben = 1 n x ben + x n + 1 2 = = n ∑ ben = 1 n (x ben) 2 + n x n + 1 2 + ∑ ben = 1 n (x ben) 2 + x n + 1 2 - - ∑ ben = 1 n x ben 2 + 2 x n + 1 ∑ ben = 1 n x ben + x n + 1 2 = = ∑ ben = 1 n (x ben) 2 - ∑ ben = 1 n x ben 2 + n x n + 1 2 - x n + 1 ∑ ben = 1 n x ben + ∑ ben = 1 n (x ben) 2 = = ∑ ben = 1 n (x ben) 2 - ∑ ben = 1 n x ben 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ ben = 1 n (x ben) 2 - ∑ ben = 1 n x ben 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (xn - 1 - xn) 2 > 0

Kıvrımlı parantez içindeki ifade 0'dan büyük olacaktır (2. adımda varsaydığımıza göre) ve geri kalan terimlerin tümü sayıların kareleri olduğundan 0'dan büyük olacaktır. Eşitsizliği kanıtladık.

Cevap: bulunan a ve b, F (a, b) = ∑ i = 1 n (y ben - (a x i + b)) 2 fonksiyonunun en küçük değerine karşılık gelecektir, bu da bunların en küçük kareler yönteminin gerekli parametreleri olduğu anlamına gelir (LSM).

Metinde bir hata fark ederseniz, lütfen onu vurgulayın ve Ctrl+Enter tuşlarına basın.

En küçük kareler yönteminin özü şudur: herhangi bir rastgele olgunun zaman veya mekandaki gelişme eğilimini en iyi tanımlayan bir eğilim modelinin parametrelerini bulmada (eğilim, bu gelişmenin eğilimini karakterize eden bir çizgidir). En küçük kareler yönteminin (LSM) görevi yalnızca bir trend modeli bulmak değil, aynı zamanda en iyi veya en uygun modeli bulmaktır. Gözlemlenen gerçek değerler ile karşılık gelen hesaplanan eğilim değerleri arasındaki sapmaların karelerinin toplamı minimum (en küçük) ise bu model optimal olacaktır:

gözlemlenen gerçek değer arasındaki sapmanın karesi nerede

ve karşılık gelen hesaplanan trend değeri,

İncelenen olgunun gerçek (gözlenen) değeri,

Trend modelinin hesaplanan değeri,

İncelenen olgunun gözlem sayısı.

MNC tek başına oldukça nadir kullanılır. Kural olarak, çoğu zaman korelasyon çalışmalarında yalnızca gerekli bir teknik teknik olarak kullanılır. OLS'nin bilgi tabanının ancak güvenilir bir istatistiksel seri olabileceği ve gözlem sayısının 4'ten az olmaması gerektiği, aksi takdirde OLS'nin yumuşatma işlemlerinin sağduyuyu kaybedebileceği unutulmamalıdır.

MNC araç seti aşağıdaki prosedürlerden oluşur:

İlk prosedür. Seçilen faktör-argüman değiştiğinde ortaya çıkan niteliği değiştirmeye yönelik herhangi bir eğilimin olup olmadığı, başka bir deyişle “arasında bir bağlantı olup olmadığı” ortaya çıkıyor. en " Ve " X ».

İkinci prosedür. Hangi çizginin (yörüngenin) bu eğilimi en iyi şekilde tanımlayabileceği veya karakterize edebileceği belirlenir.

Üçüncü prosedür.

Örnek. Diyelim ki incelenen çiftliğin ortalama ayçiçeği verimi hakkında bilgimiz var (Tablo 9.1).

Tablo 9.1

Gözlem numarası

Verimlilik, c/ha

Ülkemizde ayçiçeği üretimindeki teknoloji seviyesi son 10 yılda neredeyse hiç değişmediğinden, bu, analiz edilen dönemde verimdeki dalgalanmaların büyük ölçüde hava ve iklim koşullarındaki dalgalanmalara bağlı olduğu anlamına geliyor. Bu gerçekten doğru mu?

İlk OLS prosedürü. Analiz edilen 10 yıl boyunca ayçiçeği verim değişimlerinde hava ve iklim koşullarındaki değişikliklere bağlı bir eğilimin varlığına ilişkin hipotez test edilmiştir.

Bu örnekte " sen " Ayçiçeği veriminin alınması tavsiye edilir ve bunun için " X » – analiz edilen dönemde gözlemlenen yılın sayısı. arasında herhangi bir ilişkinin varlığına ilişkin hipotezin test edilmesi" X " Ve " sen "iki şekilde yapılabilir: manuel olarak ve bilgisayar programlarını kullanarak. Elbette bilgisayar teknolojiniz varsa bu sorun kendi kendine çözülebilir. Ancak ÇUŞ araçlarını daha iyi anlayabilmek için “arasındaki ilişkinin varlığına ilişkin hipotezin test edilmesi tavsiye edilmektedir” X " Ve " sen » Yalnızca bir kalem ve sıradan bir hesap makinesi elinizde olduğunda manuel olarak. Bu gibi durumlarda, bir eğilimin varlığına ilişkin hipotez, analiz edilen dinamik serisinin grafik görüntüsünün (korelasyon alanı) konumuyla görsel olarak en iyi şekilde kontrol edilir:

Örneğimizdeki korelasyon alanı yavaş yavaş artan bir çizginin etrafında yer almaktadır. Bu durum başlı başına ayçiçeği rekoltesindeki değişimlerde belli bir eğilimin varlığına işaret etmektedir. Korelasyon alanı yalnızca bir daireye, bir daireye, tam olarak dikey veya tam olarak yatay bir buluta benzediğinde veya düzensiz dağılmış noktalardan oluştuğunda herhangi bir eğilimin varlığından bahsetmek mümkün değildir. Diğer tüm durumlarda, “arasında bir ilişkinin varlığına ilişkin hipotez” X " Ve " sen "ve araştırmaya devam edin.

İkinci OLS prosedürü. Analiz edilen dönem boyunca ayçiçeği verimindeki değişim eğilimini hangi çizginin (yörüngenin) en iyi şekilde tanımlayabileceği veya karakterize edebileceği belirlenir.

Bilgisayar teknolojiniz varsa optimum trendin seçimi otomatik olarak gerçekleşir. "Manuel" işleme sırasında, en uygun fonksiyonun seçimi, kural olarak, görsel olarak - korelasyon alanının konumuna göre gerçekleştirilir. Yani grafiğin türüne göre ampirik eğilime (gerçek yörüngeye) en iyi uyan çizginin denklemi seçilir.

Bilindiği gibi doğada çok çeşitli fonksiyonel bağımlılıklar vardır, bu nedenle bunların küçük bir kısmını bile görsel olarak analiz etmek son derece zordur. Neyse ki, gerçek ekonomik uygulamada çoğu ilişki bir parabol, bir hiperbol veya bir düz çizgi ile oldukça doğru bir şekilde tanımlanabilir. Bu bakımdan en iyi fonksiyonun seçildiği “manuel” seçeneği ile kendinizi yalnızca bu üç modelle sınırlandırabilirsiniz.

Hiperbol:

İkinci dereceden parabol: :

Örneğimizde, analiz edilen 10 yıl boyunca ayçiçeği verimindeki değişim eğiliminin en iyi şekilde düz bir çizgiyle karakterize edildiğini, dolayısıyla regresyon denkleminin bir düz çizginin denklemi olacağını fark etmek kolaydır.

Üçüncü prosedür. Bu çizgiyi karakterize eden regresyon denkleminin parametreleri hesaplanır veya başka bir deyişle en iyi trend modelini tanımlayan analitik bir formül belirlenir.

Regresyon denkleminin parametrelerinin değerlerini bulmak, bizim durumumuzda ve parametreleri, OLS'nin özüdür. Bu süreç bir normal denklem sisteminin çözümüne indirgenir.

(9.2)

Bu denklem sistemi Gauss yöntemiyle oldukça kolay bir şekilde çözülebilir. Çözüm sonucunda örneğimizde parametre ve değerlerinin bulunduğunu hatırlayalım. Böylece bulunan regresyon denklemi aşağıdaki forma sahip olacaktır: