Данные для регрессионного анализа. Регрессионный анализ в Microsoft Excel

Основная цель регрессионного анализа состоит в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Задачи регрессионного анализа :
а) Установление формы зависимости. Относительно характера и формы зависимости между явлениями, различают положительную линейную и нелинейную и отрицательную линейную и нелинейную регрессию.
б) Определение функции регрессии в виде математического уравнения того или иного типа и установление влияния объясняющих переменных на зависимую переменную.
в) Оценка неизвестных значений зависимой переменной. С помощью функции регрессии можно воспроизвести значения зависимой переменной внутри интервала заданных значений объясняющих переменных (т. е. решить задачу интерполяции) или оценить течение процесса вне заданного интервала (т. е. решить задачу экстраполяции). Результат представляет собой оценку значения зависимой переменной.

Парная регрессия - уравнение связи двух переменных у и х: , где y - зависимая переменная (результативный признак); x - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a + bx + ε
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:

Регрессии, нелинейные по оцениваемым параметрам: Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, Используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии :

и индекс корреляции - для нелинейной регрессии:

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации .
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
.
Допустимый предел значений - не более 8-10%.
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
.

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
,
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
- остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2:

Коэффициент детерминации - квадрат коэффициента или индекса корреляции.

F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n - число единиц совокупности; m - число параметров при переменных х.
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.
Если F табл < F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Н о не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н о о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
; ; .
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:



Сравнивая фактическое и критическое (табличное) значения t-статистики - t табл и t факт - принимаем или отвергаем гипотезу Н о.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если t табл < t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт то гипотеза Н о не отклоняется и признается случайная природа формирования а, b или .
Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:
, .
Формулы для расчета доверительных интервалов имеют следующий вид:
; ;
; ;
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :
,
где
и строится доверительный интервал прогноза:
; ;
где .

Пример решения

Задача №1 . По семи территориям Уральского района За 199Х г. известны значения двух признаков.
Таблица 1.
Требуется: 1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной (предварительно нужно произвести процедуру линеаризации переменных, путем логарифмирования обеих частей);
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации и F-критерий Фишера.

Решение (Вариант №1)

Для расчета параметров a и b линейной регрессии (расчет можно проводить с помощью калькулятора).
решаем систему нормальных уравнений относительно а и b:
По исходным данным рассчитываем :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Итого 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ср. знач. (Итого/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Уравнение регрессии: у = 76,88 - 0,35х. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции:

Связь умеренная, обратная.
Определим коэффициент детерминации:

Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения . Найдем величину средней ошибки аппроксимации :

В среднем расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критерий:

поскольку 1< F < ¥ , следует рассмотреть F -1 .
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б. Построению степенной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:


где Y=lg(y), X=lg(x), C=lg(a).

Для расчетов используем данные табл. 1.3.

Таблица 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Итого 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Среднее значение 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Рассчитаем С иb:


Получим линейное уравнение:.
Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата. По ним рассчитаем показатели: тесноты связи - индекс корреляции и среднюю ошибку аппроксимации

Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь.

. Построению уравнения показательной кривой

предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:

Для расчетов используем данные таблицы.

Y x Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Итого 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ср. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значения параметров регрессии A и В составили:


Получено линейное уравнение: . Произведем потенцирование полученного уравнения и запишем его в обычной форме:

Тесноту связи оценим через индекс корреляции :

Метод регрессивного анализа применяется для определения технико-экономических параметров продукции, относящейся к конкретному параметрическому ряду, с целью построения и выравнивания ценностных соотношений. Этот метод используется для анализа и обоснования уровня и соотношений цен продукции, характеризующейся наличием одного или нескольких технико-экономических параметров, отражающих основные потребительские свойства. Регрессивный анализ позволяет найти эмпирическую формулу, описывающую зависимость цены от технико-экономических параметров изделий:

P=f(X1X2,...,Xn),

где Р - значение цены единицы изделия, руб.; (Х1, Х2, ... Хп) - технико-экономические параметры изделий.

Метод регрессивного анализа - наиболее совершенный из используемых нормативно-параметрических методов - эффективен при проведении расчетов на основе применения современных информационных технологий и систем. Применение его включает следующие основные этапы:

  • определение классификационных параметрических групп изделий;
  • отбор параметров, в наибольшей степени влияющих на цену изделия;
  • выбор и обоснование формы связи изменения цены при изменении параметров;
  • построение системы нормальных уравнений и расчет коэффициентов регрессии.

Основной квалификационной группой изделий, цена которых подлежит выравниванию, является параметрический ряд, внутри которого изделия могут группироваться по различному исполнению в зависимости от их применения, условий и требований эксплуатации и т. д. При формировании параметрических рядов могут быть применены методы автоматической классификации, которые позволяют из общей массы продукции выделять ее однородные группы. Отбор технико-экономических параметров производится исходя из следующих основных требований:

  • в состав отобранных параметров включаются параметры, зафиксированные в стандартах и технических условиях; помимо технических параметров (мощности, грузоподъемности, скорости и т.д.) используются показатели серийности продукции, коэффициенты сложности, унификации и др.;
  • совокупность отобранных параметров должна достаточно полно характеризовать конструктивные, технологические и эксплуатационные свойства изделий, входящих в ряд, и иметь достаточно тесную корреляционную связь с ценой;
  • параметры не должны быть взаимозависимы.

Для отбора технико-экономических параметров, существенно влияющих на цену, вычисляется матрица коэффициентов парной корреляции. По величине коэффициентов корреляции между параметрами можно судить о тесноте их связи. При этом близкая к нулю корреляция показывает незначительное влияние параметра на цену. Окончательный отбор технико-экономических параметров производится в процессе пошагового регрессивного анализа с использованием компьютерной техники и соответствующих стандартных программ.

В практике ценообразования применяется следующий набор функций:

линейная

P = ao + alXl + ... + antXn,

линейно-степенная

Р = ао + а1Х1 + ... + аnХп + (ап+1Хп) (ап+1Хп) +... + (ап+nХп2) (ап+nХп2)

обратного логарифма

Р = а0 + а1: In Х1 + ... + ап: In Xn,

степенная

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

показательная

P = e^(а1+а1X1+...+аnХn)

гиперболическая

Р = ао + а1:Х1 + а2:Х2 + ... + ап:Хп,

где Р - выравнивание цены; X1 X2,..., Хп - значение технико-экономических параметров изделий ряда; a0, a1 ..., аn - вычисляемые коэффициенты уравнения регресии.

В практической работе по ценообразованию в зависимости от формы связи цен и технико-экономических параметров могут использоваться другие уравнения регрессии. Вид функции связи между ценой и совокупностью технико-экономических параметров может быть задан предварительно или выбран автоматически в процессе обработки на ЭВМ. Теснота корреляционной связи между ценой и совокупностью параметров оценивается по величине множественного коэффициента корреляции. Близость его к единице говорит о тесной связи. По уравнению регрессии получают выравненные (расчетные) значения цен изделий данного параметрического ряда. Для оценки результатов выравнивания вычисляют относительные величины отклонения расчетных значений цен от фактических:

Цр = Рф - Рр: Р х 100

где Рф, Рр - фактическая и расчетная цены.

Величина Цр не должна превышать 8-10%. В случае существенных отклонений расчетных значений от фактических необходимо исследовать:

  • правильность формирования параметрического ряда, так как в его составе могут оказаться изделия, по своим параметрам резко отличающиеся от других изделий ряда. Их надо исключить;
  • правильность отбора технико-экономических параметров. Возможна совокупность параметров, слабо коррелируемая с ценой. В этом случае необходимо продолжить поиск и отбор параметров.

Порядок и методика проведения регрессивного анализа, нахождения неизвестных параметров уравнения и экономическая оценка полученных результатов осуществляются в соответствии с требованиями математической статистики.

В своих работах, датированных ещё 1908 годом. Он описал его на примере работы агента, осуществляющего продажу недвижимости. В своих записях специалист по торговле домами вёл учёт широкого спектра исходных данных каждого конкретного строения. По результатам торгов определялось, какой фактор имел наибольшее влияние на цену сделки.

Анализ большого количества сделок дал интересные результаты. На конечную стоимость оказывали влияние множество факторов, иногда приводя к парадоксальным выводам и даже к явным «выбросам», когда дом с высоким изначальным потенциалом продавался по заниженному ценовому показателю.

Вторым примером применения подобного анализа приведена работа которому было доверено определение вознаграждения сотрудникам. Сложность задачи заключалась в том, что требовалась не раздача фиксированной суммы каждому, а строгое соответствие её величины конкретно выполненной работе. Появление множества задач, имеющих практически сходный вариант решения, потребовало более детального их изучения на математическом уровне.

В существенное место было отведено под раздел «регрессионный анализ», в нём объединились практические методы, используемые для исследования зависимостей, подпадающих под понятие регрессионных. Эти взаимосвязи наблюдаются между данными, полученными в ходе статистических исследований.

Среди множества решаемых задач основными ставит перед собой три цели: определение для уравнения регрессии общего вида; построение оценок параметров, являющихся неизвестными, которые входят в состав уравнения регрессии; проверка статистических регрессионных гипотез. В ходе изучения связи, возникающей между парой величин, полученных в результате экспериментальных наблюдений и составляющих ряд (множество) типа (x1, y1), ..., (xn, yn), опираются на положения теории регрессии и предполагают, что для одной величины Y наблюдается определённое вероятностное распределение, при том, что другое X остаётся фиксированным.

Результат Y зависит от значения переменной X, зависимость эта может определяться различными закономерностями, при этом на точность полученных результатов оказывает влияние характер наблюдений и цель анализа. Экспериментальная модель основывается на определённых допущениях, которые являются упрощёнными, но правдоподобными. Основным условием является то, что параметр X является величиной контролируемой. Его значения задаются до начала эксперимента.

Если в ходе эксперимента используется пара неконтролируемых величин XY, то регрессионный анализ осуществляется одним и тем же способом, но для интерпретации результатов, в ходе которой изучается связь исследуемых случайных величин, применяются методы Методы математической статистики не являются отвлеченной темой. Они находят себе применение в жизни в самых различных сферах деятельности человека.

В научной литературе для определения выше указанного метода нашёл широкое использование термин линейный регрессионный анализ. Для переменной X применяют термин регрессор или предиктор, а зависимые Y-переменные ещё называют критериальными. В данной терминологии отражается лишь математическая зависимость переменных, но никак не следственно-причинные отношения.

Регрессионный анализ служит наиболее распространённым методом, который используется в ходе обработки результатов самых различных наблюдений. Физические и биологические зависимости изучаются по средствам данного метода, он реализован и в экономике, и в технике. Масса других областей используют модели регрессионного анализа. Дисперсионный анализ, статистический анализ многомерный тесно сотрудничают с данным способом изучения.

При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого на общепринятую или установленную самим исследователем единицу измерения.

Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.

Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

  1. Определение регрессии . Регрессия - функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.

    С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.

  2. Определение коэффициента регрессии . Коэффициент регрессии - абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения.
  3. Формула коэффициента регрессии . R у/х = r ху x (σ у / σ x)
    где R у/х - коэффициент регрессии;
    r ху - коэффициент корреляции между признаками х и у;
    (σ у и σ x) - среднеквадратические отклонения признаков x и у.

    В нашем примере ;
    σ х = 4,6 (среднеквадратическое отклонение температуры воздуха в осенне-зимний период;
    σ у = 8,65 (среднеквадратическое отклонение числа инфекционно-простудных заболеваний).
    Таким образом, R у/х - коэффициент регрессии.
    R у/х = -0,96 х (4,6 / 8,65) = 1,8, т.е. при снижении среднемесячной температуры воздуха (x) на 1 градус среднее число инфекционно-простудных заболеваний (у) в осенне-зимний период будет изменяться на 1,8 случаев.

  4. Уравнение регрессии . у = М у + R y/x (х - М x)
    где у - средняя величина признака, которую следует определять при изменении средней величины другого признака (х);
    х - известная средняя величина другого признака;
    R y/x - коэффициент регрессии;
    М х, М у - известные средние величины признаков x и у.

    Например, среднее число инфекционно-простудных заболеваний (у) можно определить без специальных измерений при любом среднем значении среднемесячной температуры воздуха (х). Так, если х = - 9°, R у/х = 1,8 заболеваний, М х = -7°, М у = 20 заболеваний, то у = 20 + 1,8 х (9-7) = 20 + 3,6 = 23,6 заболеваний.
    Данное уравнение применяется в случае прямолинейной связи между двумя признаками (х и у).

  5. Назначение уравнения регрессии . Уравнение регрессии используется для построения линии регрессии. Последняя позволяет без специальных измерений определить любую среднюю величину (у) одного признака, если меняется величина (х) другого признака. По этим данным строится график - линия регрессии , по которой можно определить среднее число простудных заболеваний при любом значении среднемесячной температуры в пределах между расчетными значениями числа простудных заболеваний.
  6. Сигма регрессии (формула) .
    где σ Rу/х - сигма (среднеквадратическое отклонение) регрессии;
    σ у - среднеквадратическое отклонение признака у;
    r ху - коэффициент корреляции между признаками х и у.

    Так, если σ у - среднеквадратическое отклонение числа простудных заболеваний = 8,65; r ху - коэффициент корреляции между числом простудных заболеваний (у) и среднемесячной температурой воздуха в осенне-зимний период (х) равен - 0,96, то

  7. Назначение сигмы регрессии . Дает характеристику меры разнообразия результативного признака (у).

    Например, характеризует разнообразие числа простудных заболеваний при определенном значении среднемесячной температуры воздуха в осеннне-зимний период. Так, среднее число простудных заболеваний при температуре воздуха х 1 = -6° может колебаться в пределах от 15,78 заболеваний до 20,62 заболеваний.
    При х 2 = -9° среднее число простудных заболеваний может колебаться в пределах от 21,18 заболеваний до 26,02 заболеваний и т.д.

    Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии.

  8. Данные, необходимые для расчета и графического изображения шкалы регрессии
    • коэффициент регрессии - R у/х;
    • уравнение регрессии - у = М у + R у/х (х-М x);
    • сигма регрессии - σ Rx/y
  9. Последовательность расчетов и графического изображения шкалы регрессии .
    • определить коэффициент регрессии по формуле (см. п. 3). Например, следует определить, насколько в среднем будет меняться масса тела (в определенном возрасте в зависимости от пола), если средний рост изменится на 1 см.
    • по формуле уравнения регрессии (см п. 4) определить, какой будет в среднем, например, масса тела (у, у 2 , у 3 ...)* для определеного значения роста (х, х 2 , х 3 ...).
      ________________
      * Величину "у" следует рассчитывать не менее чем для трех известных значений "х".

      При этом средние значения массы тела и роста (М х, и М у) для определенного возраста и пола известны

    • вычислить сигму регрессии, зная соответствующие величины σ у и r ху и подставляя их значения в формулу (см. п. 6).
    • на основании известных значений х 1 , х 2 , х 3 и соответствующих им средних значений у 1 , у 2 у 3 , а также наименьших (у - σ rу/х)и наибольших (у + σ rу/х) значений (у) построить шкалу регрессии.

      Для графического изображения шкалы регрессии на графике сначала отмечаются значения х, х 2 , х 3 (ось ординат), т.е. строится линия регрессии, например зависимости массы тела (у) от роста (х).

      Затем в соответствующих точках у 1 , y 2 , y 3 отмечаются числовые значения сигмы регрессии, т.е. на графике находят наименьшее и наибольшее значения у 1 , y 2 , y 3 .

  10. Практическое использование шкалы регрессии . Разрабатываются нормативные шкалы и стандарты, в частности по физическому развитию. По стандартной шкале можно дать индивидуальную оценку развития детей. При этом физическое развитие оценивается как гармоничное, если, например, при определенном росте масса тела ребенка находится в пределах одной сигмы регрессии к средней расчетной единице массы тела - (у) для данного роста (x) (у ± 1 σ Ry/x).

    Физическое развитие считается дисгармоничным по массе тела, если масса тела ребенка для определенного роста находится в пределах второй сигмы регрессии: (у ± 2 σ Ry/x)

    Физическое развитие будет резко дисгармоничным как за счет избыточной, так и за счет недостаточной массы тела, если масса тела для определенного роста находится в пределах третьей сигмы регрессии (у ± 3 σ Ry/x).

По результатам статистического исследования физического развития мальчиков 5 лет известно, что их средний рост (х) равен 109 см, а средняя масса тела (у) равна 19 кг. Коэффициент корреляции между ростом и массой тела составляет +0,9, средние квадратические отклонения представлены в таблице.

Требуется:

  • рассчитать коэффициент регрессии;
  • по уравнению регрессии определить, какой будет ожидаемая масса тела мальчиков 5 лет при росте, равном х1 = 100 см, х2 = 110 см, х3= 120 см;
  • рассчитать сигму регрессии, построить шкалу регрессии, результаты ее решения представить графически;
  • сделать соответствующие выводы.

Условие задачи и результаты ее решения представлены в сводной таблице.

Таблица 1

Условия задачи Pезультаты решения задачи
уравнение регрессии сигма регрессии шкала регрессии (ожидаемая масса тела (в кг))
М σ r ху R у/x х У σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Рост (х) 109 см ± 4,4см +0,9 0,16 100см 17,56 кг ± 0,35 кг 17,21 кг 17,91 кг
Масса тела (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18,81 кг 19,51 кг
120 см 20,76 кг 20,41 кг 21,11 кг

Решение .

Вывод. Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом значении роста или оценить индивидуальное развитие ребенка. Для этого следует восстановить перпендикуляр к линии регрессии.

  1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
  2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
  3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
  4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
  6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.

После того как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа. С этой целью подбирают класс функций, связывающий результативный показатель у и аргументы х 1, х 2,…, х к отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров уравнения связи и анализируют свойства полученного уравнения.

Функция f(х 1, х 2,…, х к) описывающая зависимость среднего значения результативного признака у от заданных значений аргументов, называется функцией (уравнением) регрессии. Термин «регрессия» (лат. -regression- отступление, возврат к чему-либо) введен английским психологом и антропологом Ф.Гальтоном и связан исключительно со спецификой одного из первых конкретных примеров, в котором это понятие было использовано. Так, обрабатывая статистические данные в связи с анализом наследственности роста, Ф. Гальтон нашел, что если отцы отклоняются от среднего роста всех отцов на x дюймов, то их сыновья отклоняются от среднего роста всех сыновей меньше, чем на x дюймов. Выявленная тенденция была названа «регрессией к среднему состоянию». С тех пор термин «регрессия» широко используется в статистической литературе, хотя во многих случаях он недостаточно точно характеризует понятие статистической зависимости.

Для точного описания уравнения регрессии необходимо знать закон распределения результативного показателя у. В статистической практике обычно приходится ограничиваться поиском подходящих аппроксимаций для неизвестной истинной функции регрессии, так как исследователь не располагает точным знанем условного закона распределения вероятностей анализируемого результатирующего показателя у при заданных значениях аргумента х.

Рассмотрим взаимоотношение между истинной f(х) = М(у1х), мо дельной регрессией? и оценкой y регрессии. Пусть результативный показатель у связан с аргументом х соотношением:

где - е случайная величина, имеющая нормальный закон распределения, причем Ме = 0 и D е = у 2 . Истинная функция регрессии в этом случае имеет вид: f (х) = М(у/х) = 2х 1.5 .

Предположим, что точный вид истинного уравнения регрессии нам не известен, но мы располагаем девятью наблюдениями над двумерной случайной величиной, связанной соотношением уi= 2х1,5+е, и представленной на рис. 1

Рисунок 1 - Взаимное расположение истиной f (х) и теоретической? модели регрессии

Расположение точек на рис. 1 позволяет ограничиться классом линейных зависимостей вида? = в 0 +в 1 x. С помощью метода наименьших квадратов найдем оценку уравнения регрессии у = b 0 +b 1 x. Для сравнения на рис. 1 приводятся графики истинной функции регрессии у=2х 1,5 , теоретической аппроксимирующей функции регрессии? = в 0 +в 1 x .

Поскольку мы ошиблись в выборе класса функции регрессии, а это достаточно часто встречается в практике статистических исследований, то наши статистические выводы и оценки окажутся ошибочными. И как бы мы ни увеличивали объем наблюдений, наша выборочная оценка у не будет близка к истинной функции регрессии f (х). Если бы мы правильно выбрали класс функций регрессии, то неточность в описании f(х) с помощью? объяснялась бы только ограниченностью выборки.

С целью наилучшего восстановления по исходным статистическим данным условного значения результативного показателя у(х) и неизвестной функции регрессии f(х) = М(у/х) наиболее часто используют следующие критерии адекватности (функции потерь).

Метод наименьших квадратов. Согласно ему минимизируется квадрат отклонения наблюдаемых значений результативного показателя у, (i = 1,2,..., п) от модельных значений,? = f(х i), где, х i - значение вектора аргументов в i-м наблюдении: ?(y i - f(х i) 2 > min. Получаемая регрессия называется среднеквадратической.

Метод наименьших модулей. Согласно ему минимизируется сумма абсолютных отклонений наблюдаемых значений результативного показателя от модульных значений. И получаем,? = f(х i), среднеабсолютную медианную регрессию? |y i - f(х i)| >min.

Регрессионным анализом называется метод статистического анализа зависимости случайной величины у от переменных х j = (j=1,2,..., к), рассматриваемых в регрессионном анализе как неслучайные величины, независимо от истинного закона распределения х j.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием у, являющимся функцией от аргументов х/ (/= 1, 2,..., к) и постоянной, не зависящей от аргументов, дисперсией у 2 .

В общем линейная модель регрессионного анализа имеет вид:

Y = Уk j=0 вj цj (x1 , x2 . . .. ,xk )+Э

где ц j - некоторая функция его переменных - x 1 , x 2 . . .. ,x k , Э - случайная величина с нулевым математическим ожиданием и дисперсией у 2 .

В регрессионном анализе вид уравнения регрессии выбирают исходя из физической сущности изучаемого явления и результатов наблюдения.

Оценки неизвестных параметров уравнения регрессии находят обычно методом наименьших квадратов. Ниже остановимся более подробно на этой проблеме.

Двумерное линейное уравнение регрессии. Пусть на основании анализа исследуемого явления предполагается, что в «среднем» у есть линейная функция от х, т. е. имеется уравнение регрессии

у=М(у/х)=в 0 + в 1 х)

где М(у1х) - условное математическое ожидание случайной величины у при заданном х; в 0 и в 1 - неизвестные параметры генеральной совокупности, которые надлежит оценить по результатам выборочных наблюдений.

Предположим, что для оценки параметров в 0 и в 1 из двухмерной генеральной совокупности (х, у) взята выборка объемом n, где (х, у,) результат i-го наблюдения (i = 1, 2,..., n). В этом случае модель регрессионного анализа имеет вид:

y j = в 0 + в 1 x+е j .

где е j .- независимые нормально распределенные случайные величины с нулевым математическим ожиданием и дисперсией у 2 , т. е. М е j . = 0;

D е j .= у 2 для всех i = 1, 2,..., n.

Согласно методу наименьших квадратов в качестве оценок неизвестных параметров в 0 и в 1 следует брать такие значения выборочных характеристик b 0 и b 1 , которые минимизируют сумму квадратов отклонений значений результативного признака у i от условного математического ожидания? i

Методику определения влияния характеристик маркетинга на прибыль предприятия рассмотрим на примере семнадцати типичных предприятий, имеющих средние размеры и показатели хозяйственной деятельности.

При решении задачи учитывались следующие характеристики, выявленные в результате анкетного опроса как наиболее значимые (важные):

* инновационная деятельность предприятия;

* планирование ассортимента производимой продукции;

* формирование ценовой политики;

* взаимоотношения с общественностью;

* система сбыта;

* система стимулирования работников.

На основе системы сравнений по факторам были построены квадратные матрицы смежности, в которых вычислялись значения относительных приоритетов по каждому фактору: инновационная деятельность предприятия, планирование ассортимента производимой продукции, формирование ценовой политики, реклама, взаимоотношения с общественностью, система сбыта, система стимулирования работников.

Оценки приоритетов по фактору «взаимоотношения с общественностью» получены в результате анкетирования специалистов предприятия. Приняты следующие обозначения: > (лучше), > (лучше или одинаково), = (одинаково), < (хуже или одинаково), <

Далее решалась задача комплексной оценки уровня маркетинга предприятия. При расчете показателя была определена значимость (вес) рассмотренных частных признаков и решалась задача линейного свертывания частных показателей. Обработка данных производилась по специально разработанным программам.

Далее рассчитывается комплексная оценка уровня маркетинга предприятия -- коэффициент маркетинга, который вносится в таблице 1. Кроме того, в названую таблицу включены показатели, характеризующие предприятие в целом. Данные в таблице будут использованы для проведения регрессионного анализа. Результативным признаком является прибыль. В качестве факторных признаков наряду с коэффициентом маркетинга использованы следующие показатели: объем валовой продукции, стоимость основных фондов, численность работников, коэффициент специализации.

Таблица 1 - Исходные данные для регрессионного анализа


По данным таблицы и на основе факторов с наиболее существенными значениями коэффициентов корреляции были построены регрессионные функции зависимости прибыли от факторов.

Уравнение регрессии в нашем случае примет вид:

О количественном влиянии рассмотренных выше факторов на величину прибыли говорят коэффициенты уравнения регрессии. Они показывают, на сколько тысяч рублей изменяется ее величина при изменении факторного признака на одну единицу. Как следует из уравнения, увеличение коэффициента комплекса маркетинга на одну единицу дает прирост прибыли на 1547,7 тыс. руб. Это говорит о том, что в совершенствовании маркетинговой деятельности кроется огромный потенциал улучшения экономических показателей предприятий.

При исследовании эффективности маркетинга наиболее интересным и самым важным факторным признаком является фактор Х5 -- коэффициент маркетинга. В соответствии с теорией статистики достоинство имеющегося уравнения множественной регрессии является возможность оценивать изолированное влияние каждого фактора, в том числе фактора маркетинга.

Результаты проведенного регрессионного анализа имеют и более широкое применение, чем для расчета параметров уравнения. Критерий отнесения (КЭф,) предприятий к относительно лучшим или относительно худшим основан на относительном показателе результата:

где Y фактi - фактическая величина i-го предприятия, тыс. руб.;

Y расчi -величина прибыли i-го предприятия, полученная расчетным путем по уравнению регрессии

В терминах решаемой задачи величина носит название «коэффициент эффективности». Деятельность предприятия можно признать эффективной в тех случаях, когда величина коэффициента больше единицы. Это означает, что фактическая прибыль больше прибыли, усредненной по выборке.

Фактические и расчетные значения прибыли представлены в табл. 2.

Таблица 2 - Анализ результативного признака в регрессионной модели

Анализ таблицы показывает, что в нашем случае деятельность предприятий 3, 5, 7, 9, 12, 14, 15, 17 за рассматриваемый период можно признать успешной.