Оцените качество построенной модели. Улучшилось ли качество модели по сравнению с однофакторной моделью? Дайте оценку влияния значимых факторов на результат с помощью коэффициентов эластичности, - и -коэффициентов.
Коэффициент детерминации R -квадрат возьмем из итогов «Регрессии» (таблица «Регрессионная статистика» для модели (6)).
Следовательно, вариация (изменение) цены квартиры Y на 76,77% объясняется по данному уравнению вариацией города области Х 1 , числа комнат в квартире Х 2 и жилой площади Х 4 .
Используем исходные данные Y
i
и найденные инструментом «Регрессия» остатки (таблица «Вывод остатка» для модели (6)). Рассчитаем относительные погрешности и найдем среднее значение
.
ВЫВОД ОСТАТКА
Наблюдение | Предсказанное Y | Остатки | Отн. погрешность |
1 | 45,95089273 | -7,95089273 | 20,92340192 |
2 | 86,10296493 | -23,90296493 | 38,42920407 |
3 | 94,84442678 | 30,15557322 | 24,12445858 |
4 | 84,17648426 | -23,07648426 | 37,76838667 |
5 | 40,2537216 | 26,7462784 | 39,91981851 |
6 | 68,70572376 | 24,29427624 | 26,12287768 |
7 | 143,7464899 | -25,7464899 | 21,81905923 |
8 | 106,0907598 | 25,90924022 | 19,62821228 |
9 | 135,357993 | -42,85799303 | 46,33296544 |
10 | 114,4792566 | -9,47925665 | 9,027863476 |
11 | 41,48765602 | 0,512343975 | 1,219866607 |
12 | 103,2329236 | 21,76707636 | 17,41366109 |
13 | 130,3567798 | 39,64322022 | 23,3195413 |
14 | 35,41901876 | 2,580981242 | 6,7920559 |
15 | 155,4129693 | -24,91296925 | 19,0903979 |
16 | 84,32108188 | 0,678918123 | 0,798727204 |
17 | 98,0552279 | -0,055227902 | 0,056355002 |
18 | 144,2104618 | -16,21046182 | 12,66442329 |
19 | 122,8677535 | -37,86775351 | 44,55029825 |
20 | 100,0221225 | 59,97787748 | 37,48617343 |
21 | 53,27196558 | 6,728034423 | 11,21339071 |
22 | 35,06605378 | 5,933946225 | 14,47303957 |
23 | 114,4792566 | -24,47925665 | 27,19917406 |
24 | 113,1343153 | -30,13431529 | 36,30640396 |
25 | 40,43190991 | 4,568090093 | 10,15131132 |
26 | 39,34427892 | -0,344278918 | 0,882766457 |
27 | 144,4794501 | -57,57945009 | 66,25943623 |
28 | 56,4827667 | -16,4827667 | 41,20691675 |
29 | 95,38240332 | -15,38240332 | 19,22800415 |
30 | 228,6988826 | -1,698882564 | 0,748406416 |
31 | 222,8067278 | 12,19327221 | 5,188626473 |
32 | 38,81483144 | 1,185168555 | 2,962921389 |
33 | 48,36325811 | 18,63674189 | 27,81603267 |
34 | 126,6080021 | -3,608002113 | 2,933335051 |
35 | 84,85052935 | 15,14947065 | 15,14947065 |
36 | 116,7991162 | -11,79911625 | 11,23725357 |
37 | 84,17648426 | -13,87648426 | 19,73895342 |
38 | 113,9412801 | -31,94128011 | 38,95278062 |
39 | 215,494184 | 64,50581599 | 23,03779142 |
40 | 141,7795953 | 58,22040472 | 29,11020236 |
Среднее | 101,2375 | 22,51770962 |
По столбцу относительных погрешностей найдем среднее значение =22.51% (с помощью функции СРЗНАЧ).
Сравнение показывает, что 22.51%>7%. Следовательно, точность модели неудовлетворительная.
С помощью F – критерия Фишера проверим значимость модели в целом. Для этого выпишем из итогов применения инструмента «Регрессия» (таблица «дисперсионный анализ» для модели (6)) F = 39,6702.
С помощью функции FРАСПОБР найдем значение F кр =3.252 для уровня значимости α = 5% , и чисел степеней свободы k 1 = 2 , k 2 = 37 .
F > F кр , следовательно, уравнение модели (6) является значимым, его использование целесообразно, зависимая переменная Y достаточно хорошо описывается включенными в модель (6) факторными переменными Х 1 , Х 2 . и Х 4 .
Дополнительно с помощью t –критерия Стьюдента проверим значимость отдельных коэффициентов модели.
t
–статистики для коэффициентов уравнения регрессии приведены в итогах инструмента «Регрессия». Получены следующие значения для выбранной модели (6) :
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% |
|
Y-пересечение | -5,643572321 | 12,07285417 | -0,46745966 | 0,642988 | -30,1285 | 18,84131 | -30,1285 | 18,84131 |
X4 | 2,591405557 | 0,461440597 | 5,61590284 | 2,27E-06 | 1,655561 | 3,52725 | 1,655561 | 3,52725 |
X1 | 6,85963077 | 9,185748512 | 0,74676884 | 0,460053 | -11,7699 | 25,48919 | -11,7699 | 25,48919 |
X2 | -1,985156991 | 7,795346067 | -0,25465925 | 0,800435 | -17,7949 | 13,82454 | -17,7949 | 13,82454 |
Критическое значение t кр найдено для уровня значимости α=5% и числа степеней свободы k =40–2–1=37 . t кр =2.026 (функция СТЬЮДРАСПОБР).
Для свободного коэффициента α
=–5.643
определена статистика ,
t
кр
, следовательно, свободный коэффициент не является значимым, его можно исключить из модели.
Для коэффициента регрессии β
1
=6.859
определена статистика ,
β
1
не является значимым, его и фактор города области можно удалить из модели.
Для коэффициента регрессии β
2
=-1,985
определена статистика ,
t
кр
, следовательно, коэффициент регрессии β
2
не является значимым, его и фактор числа комнат в квартире можно исключить из модели.
Для коэффициента регрессии β
4
=2.591
определена статистика ,
>t кр, следовательно, коэффициент регрессии β
4
является значимым, его и фактор жилой площади квартиры можно сохранить в модели.
Выводы о значимости коэффициентов модели сделаны на уровне значимости α=5% . Рассматривая столбец «P-значение», отметим, что свободный коэффициент α можно считать значимым на уровне 0.64 = 64%; коэффициент регрессии β 1 – на уровне 0,46 = 46%; коэффициент регрессии β 2 – на уровне 0,8 = 80%; а коэффициент регрессии β 4 – на уровне 2,27E-06= 2,26691790951854E-06 = 0,0000002%.
При добавлении в уравнение новых факторных переменных автоматически увеличивается коэффициент детерминации R
2
и уменьшается средняя ошибка аппроксимации, хотя при этом не всегда улучшается качество модели. Поэтому для сравнения качества модели (3) и выбранной множественной модели (6) используем нормированные коэффициенты детерминации.
Таким образом, при добавлении в уравнение регрессии фактора «город области» Х 1 и фактора «число комнат в квартире» Х 2 качество модели ухудшилось, что говорит в пользу удаления факторов Х 1 и Х 2 из модели.
Проведем дальнейшие расчеты.
Средние коэффициенты эластичности
в случае линейной модели определяются формулами .
С помощью функции СРЗНАЧ найдем: S Y , при увеличении только фактора Х 4 на одно его стандартное отклонение – увеличивается на 0,914 S Y
Дельта-коэффициенты
определяются формулами .
Найдем коэффициенты парной корреляции с использованием инструмента «Корреляция» пакета «Анализ данных» в Excel.
Y | X1 | X2 | X4 |
|
Y | 1 | |||
X1 | -0,01126 | 1 | ||
X2 | 0,751061 | -0,0341 | 1 | |
X4 | 0,874012 | -0,0798 | 0,868524 | 1 |
Коэффициент детерминации был определен ранее и равен 0.7677.
Вычислим дельта-коэффициенты:
;
Поскольку Δ 1 1
и Х
2
выбрана неудачно, и их нужно удалить из модели. Значит, по уравнению полученной линейной трехфакторной модели изменение результирующего фактора Y
(цены квартиры) на 104% объясняется воздействием фактора Х
4
(жилой площадью квартиры), на 4% воздействием фактора Х
2
(число комнат), на 0,0859% воздействием фактора Х
1
(город области).
Регрессионный анализ — это статистический метод исследования, позволяющий показать зависимость того или иного параметра от одной либо нескольких независимых переменных. В докомпьютерную эру его применение было достаточно затруднительно, особенно если речь шла о больших объемах данных. Сегодня, узнав как построить регрессию в Excel, можно решать сложные статистические задачи буквально за пару минут. Ниже представлены конкретные примеры из области экономики.
Виды регрессии
Само это понятие было введено в математику в 1886 году. Регрессия бывает:
- линейной;
- параболической;
- степенной;
- экспоненциальной;
- гиперболической;
- показательной;
- логарифмической.
Пример 1
Рассмотрим задачу определения зависимости количества уволившихся членов коллектива от средней зарплаты на 6 промышленных предприятиях.
Задача. На шести предприятиях проанализировали среднемесячную заработную плату и количество сотрудников, которые уволились по собственному желанию. В табличной форме имеем:
Количество уволившихся | Зарплата |
||
30000 рублей |
|||
35000 рублей |
|||
40000 рублей |
|||
45000 рублей |
|||
50000 рублей |
|||
55000 рублей |
|||
60000 рублей |
Для задачи определения зависимости количества уволившихся работников от средней зарплаты на 6 предприятиях модель регрессии имеет вид уравнения Y = а 0 + а 1 x 1 +…+а k x k , где х i — влияющие переменные, a i — коэффициенты регрессии, a k — число факторов.
Для данной задачи Y — это показатель уволившихся сотрудников, а влияющий фактор — зарплата, которую обозначаем X.
Использование возможностей табличного процессора «Эксель»
Анализу регрессии в Excel должно предшествовать применение к имеющимся табличным данным встроенных функций. Однако для этих целей лучше воспользоваться очень полезной надстройкой «Пакет анализа». Для его активации нужно:
- с вкладки «Файл» перейти в раздел «Параметры»;
- в открывшемся окне выбрать строку «Надстройки»;
- щелкнуть по кнопке «Перейти», расположенной внизу, справа от строки «Управление»;
- поставить галочку рядом с названием «Пакет анализа» и подтвердить свои действия, нажав «Ок».
Если все сделано правильно, в правой части вкладки «Данные», расположенном над рабочим листом «Эксель», появится нужная кнопка.
в Excel
Теперь, когда под рукой есть все необходимые виртуальные инструменты для осуществления эконометрических расчетов, можем приступить к решению нашей задачи. Для этого:
- щелкаем по кнопке «Анализ данных»;
- в открывшемся окне нажимаем на кнопку «Регрессия»;
- в появившуюся вкладку вводим диапазон значений для Y (количество уволившихся работников) и для X (их зарплаты);
- подтверждаем свои действия нажатием кнопки «Ok».
В результате программа автоматически заполнит новый лист табличного процессора данными анализа регрессии. Обратите внимание! В Excel есть возможность самостоятельно задать место, которое вы предпочитаете для этой цели. Например, это может быть тот же лист, где находятся значения Y и X, или даже новая книга, специально предназначенная для хранения подобных данных.
Анализ результатов регрессии для R-квадрата
В Excel данные полученные в ходе обработки данных рассматриваемого примера имеют вид:
Прежде всего, следует обратить внимание на значение R-квадрата. Он представляет собой коэффициент детерминации. В данном примере R-квадрат = 0,755 (75,5%), т. е. расчетные параметры модели объясняют зависимость между рассматриваемыми параметрами на 75,5 %. Чем выше значение коэффициента детерминации, тем выбранная модель считается более применимой для конкретной задачи. Считается, что она корректно описывает реальную ситуацию при значении R-квадрата выше 0,8. Если R-квадрата<0,5, то такой анализа регрессии в Excel нельзя считать резонным.
Анализ коэффициентов
Число 64,1428 показывает, каким будет значение Y, если все переменные xi в рассматриваемой нами модели обнулятся. Иными словами можно утверждать, что на значение анализируемого параметра оказывают влияние и другие факторы, не описанные в конкретной модели.
Следующий коэффициент -0,16285, расположенный в ячейке B18, показывает весомость влияния переменной Х на Y. Это значит, что среднемесячная зарплата сотрудников в пределах рассматриваемой модели влияет на число уволившихся с весом -0,16285, т. е. степень ее влияния совсем небольшая. Знак «-» указывает на то, что коэффициент имеет отрицательное значение. Это очевидно, так как всем известно, что чем больше зарплата на предприятии, тем меньше людей выражают желание расторгнуть трудовой договор или увольняется.
Множественная регрессия
Под таким термином понимается уравнение связи с несколькими независимыми переменными вида:
y=f(x 1 +x 2 +…x m) + ε, где y — это результативный признак (зависимая переменная), а x 1 , x 2 , …x m — это признаки-факторы (независимые переменные).
Оценка параметров
Для множественной регрессии (МР) ее осуществляют, используя метод наименьших квадратов (МНК). Для линейных уравнений вида Y = a + b 1 x 1 +…+b m x m + ε строим систему нормальных уравнений (см. ниже)
Чтобы понять принцип метода, рассмотрим двухфакторный случай. Тогда имеем ситуацию, описываемую формулой
Отсюда получаем:
где σ — это дисперсия соответствующего признака, отраженного в индексе.
МНК применим к уравнению МР в стандартизируемом масштабе. В таком случае получаем уравнение:
в котором t y , t x 1, … t xm — стандартизируемые переменные, для которых средние значения равны 0; β i — стандартизированные коэффициенты регрессии, а среднеквадратическое отклонение — 1.
Обратите внимание, что все β i в данном случае заданы, как нормируемые и централизируемые, поэтому их сравнение между собой считается корректным и допустимым. Кроме того, принято осуществлять отсев факторов, отбрасывая те из них, у которых наименьшие значения βi.
Задача с использованием уравнения линейной регрессии
Предположим, имеется таблица динамики цены конкретного товара N в течение последних 8 месяцев. Необходимо принять решение о целесообразности приобретения его партии по цене 1850 руб./т.
номер месяца | название месяца | цена товара N |
|
1750 рублей за тонну |
|||
1755 рублей за тонну |
|||
1767 рублей за тонну |
|||
1760 рублей за тонну |
|||
1770 рублей за тонну |
|||
1790 рублей за тонну |
|||
1810 рублей за тонну |
|||
1840 рублей за тонну |
|||
Для решения этой задачи в табличном процессоре «Эксель» требуется задействовать уже известный по представленному выше примеру инструмент «Анализ данных». Далее выбирают раздел «Регрессия» и задают параметры. Нужно помнить, что в поле «Входной интервал Y» должен вводиться диапазон значений для зависимой переменной (в данном случае цены на товар в конкретные месяцы года), а в «Входной интервал X» — для независимой (номер месяца). Подтверждаем действия нажатием «Ok». На новом листе (если так было указано) получаем данные для регрессии.
Строим по ним линейное уравнение вида y=ax+b, где в качестве параметров a и b выступают коэффициенты строки с наименованием номера месяца и коэффициенты и строки «Y-пересечение» из листа с результатами регрессионного анализа. Таким образом, линейное уравнение регрессии (УР) для задачи 3 записывается в виде:
Цена на товар N = 11,714* номер месяца + 1727,54.
или в алгебраических обозначениях
y = 11,714 x + 1727,54
Анализ результатов
Чтобы решить, адекватно ли полученное уравнения линейной регрессии, используются коэффициенты множественной корреляции (КМК) и детерминации, а также критерий Фишера и критерий Стьюдента. В таблице «Эксель» с результатами регрессии они выступают под названиями множественный R, R-квадрат, F-статистика и t-статистика соответственно.
КМК R дает возможность оценить тесноту вероятностной связи между независимой и зависимой переменными. Ее высокое значение свидетельствует о достаточно сильной связи между переменными «Номер месяца» и «Цена товара N в рублях за 1 тонну». Однако, характер этой связи остается неизвестным.
Квадрат коэффициента детерминации R 2 (RI) представляет собой числовую характеристику доли общего разброса и показывает, разброс какой части экспериментальных данных, т.е. значений зависимой переменной соответствует уравнению линейной регрессии. В рассматриваемой задаче эта величина равна 84,8%, т. е. статистические данные с высокой степенью точности описываются полученным УР.
F-статистика, называемая также критерием Фишера, используется для оценки значимости линейной зависимости, опровергая или подтверждая гипотезу о ее существовании.
(критерий Стьюдента) помогает оценивать значимость коэффициента при неизвестной либо свободного члена линейной зависимости. Если значение t-критерия > t кр, то гипотеза о незначимости свободного члена линейного уравнения отвергается.
В рассматриваемой задаче для свободного члена посредством инструментов «Эксель» было получено, что t=169,20903, а p=2,89Е-12, т. е. имеем нулевую вероятность того, что будет отвергнута верная гипотеза о незначимости свободного члена. Для коэффициента при неизвестной t=5,79405, а p=0,001158. Иными словами вероятность того, что будет отвергнута верная гипотеза о незначимости коэффициента при неизвестной, равна 0,12%.
Таким образом, можно утверждать, что полученное уравнение линейной регрессии адекватно.
Задача о целесообразности покупки пакета акций
Множественная регрессия в Excel выполняется с использованием все того же инструмента «Анализ данных». Рассмотрим конкретную прикладную задачу.
Руководство компания «NNN» должно принять решение о целесообразности покупки 20 % пакета акций АО «MMM». Стоимость пакета (СП) составляет 70 млн американских долларов. Специалистами «NNN» собраны данные об аналогичных сделках. Было принято решение оценивать стоимость пакета акций по таким параметрам, выраженным в миллионах американских долларов, как:
- кредиторская задолженность (VK);
- объем годового оборота (VO);
- дебиторская задолженность (VD);
- стоимость основных фондов (СОФ).
Кроме того, используется параметр задолженность предприятия по зарплате (V3 П) в тысячах американских долларов.
Решение средствами табличного процессора Excel
Прежде всего, необходимо составить таблицу исходных данных. Она имеет следующий вид:
- вызывают окно «Анализ данных»;
- выбирают раздел «Регрессия»;
- в окошко «Входной интервал Y» вводят диапазон значений зависимых переменных из столбца G;
- щелкают по иконке с красной стрелкой справа от окна «Входной интервал X» и выделяют на листе диапазон всех значений из столбцов B,C, D, F.
Отмечают пункт «Новый рабочий лист» и нажимают «Ok».
Получают анализ регрессии для данной задачи.
Изучение результатов и выводы
«Собираем» из округленных данных, представленных выше на листе табличного процессора Excel, уравнение регрессии:
СП = 0,103*СОФ + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.
В более привычном математическом виде его можно записать, как:
y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844
Данные для АО «MMM» представлены в таблице:
Подставив их в уравнение регрессии, получают цифру в 64,72 млн американских долларов. Это значит, что акции АО «MMM» не стоит приобретать, так как их стоимость в 70 млн американских долларов достаточно завышена.
Как видим, использование табличного процессора «Эксель» и уравнения регрессии позволило принять обоснованное решение относительно целесообразности вполне конкретной сделки.
Теперь вы знаете, что такое регрессия. Примеры в Excel, рассмотренные выше, помогут вам в решение практических задач из области эконометрики.
Множественный коэффициент корреляции используется в качестве меры степени тесноты статистической связи между результирующим показателем (зависимой переменной) y и набором объясняющих (независимых) переменных или, иначе говоря, оценивает тесноту совместного влияния факторов на результат.
Множественный коэффициент корреляции может быть вычислен по ряду формул 5 , в том числе:
с использованием матрицы парных коэффициентов корреляции
,
(3.18)
где
r
- определитель матрицы парных коэффициентов
корреляции y
,,
r
11
- определитель матрицы межфакторной
корреляции
;
![](https://i1.wp.com/studfiles.net/html/2706/206/html_fonDWBqKmL.I1iV/img-Pd7LCI.png)
.
(3.19)
Для модели, в которой присутствуют две независимые переменные, формула (3.18) упрощается
.
(3.20)
Квадрат множественного коэффициента корреляции равен коэффициенту детерминации R 2 . Как и в случае парной регрессии, R 2 свидетельствует о качестве регрессионной модели и отражает долю общей вариации результирующего признака y , объясненную изменением функции регрессии f (x ) (см. 2.4). Кроме того, коэффициент детерминации может быть найден по формуле
.
(3.21)
Однако использование R 2 в случае множественной регрессии является не вполне корректным, так как коэффициент детерминации возрастает при добавлении регрессоров в модель. Это происходит потому, что остаточная дисперсия уменьшается при введении дополнительных переменных. И если число факторов приблизится к числу наблюдений, то остаточная дисперсия будет равна нулю, и коэффициент множественной корреляции, а значит и коэффициент детерминации, приблизятся к единице, хотя в действительности связь между факторами и результатом и объясняющая способность уравнения регрессии могут быть значительно ниже.
Для того чтобы получить адекватную оценку того, насколько хорошо вариация результирующего признака объясняется вариацией нескольких факторных признаков, применяют скорректированный коэффициент детерминации
(3.22)
Скорректированный
коэффициент детерминации всегда меньше
R
2 .
Кроме того, в отличие от R
2 ,
который всегда положителен,
может принимать и отрицательное значение.
Пример (продолжение примера 1) . Рассчитаем множественный коэффициент корреляции, согласно формуле (3.20):
Величина множественного коэффициента корреляции, равного 0,8601, свидетельствует о сильной взаимосвязи стоимости перевозки с весом груза и расстоянием, на которое он перевозится.
Коэффициент детерминации равен: R 2 =0,7399.
Скорректированный коэффициент детерминации рассчитываем по формуле (3.22):
=0,7092.
Заметим, что величина скорректированного коэффициента детерминации отличается от величины коэффициента детерминации.
Таким образом, 70,9% вариации зависимой переменной (стоимости перевозки) объясняется вариацией независимых переменных (весом груза и расстоянием перевозки). Остальные 29,1% вариации зависимой переменной объясняются факторами, неучтенными в модели.
Величина скорректированного коэффициента детерминации достаточно велика, следовательно, мы смогли учесть в модели наиболее существенные факторы, определяющие стоимость перевозки.
ВЫВОД ИТОГОВ
Регрессионная статистика | |
Множественный R | 0,998364 |
R-квадрат | 0,99673 |
Нормированный R-квадрат | 0,996321 |
Стандартная ошибка | 0,42405 |
Наблюдения | 10 |
Сначала рассмотрим верхнюю часть расчетов, представленную в таблице 8.3а , - регрессионную статистику.
Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .
В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.
Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата , близкое к нулю, означает плохое качество построенной модели.
В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.
Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y).
Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.
В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).
Коэффициенты | Стандартная ошибка | t-статистика | |
Y-пересечение | 2,694545455 | 0,33176878 | 8,121757129 |
Переменная X 1 | 2,305454545 | 0,04668634 | 49,38177965 |
* Приведен усеченный вариант расчетов |
Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б . Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a (2,694545455).
Исходя из расчетов, можем записать уравнение регрессии таким образом:
Y= x*2,305454545+2,694545455
Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициентов регрессии (коэффициента b).
Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.
Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).
В таблице 8.3в . представлены результаты вывода остатков . Для того чтобы эти результаты появились в отчете, необходимо при запуске инструмента "Регрессия" активировать чекбокс "Остатки".
ВЫВОД ОСТАТКА
Наблюдение | Предсказанное Y | Остатки | Стандартные остатки |
---|---|---|---|
1 | 9,610909091 | -0,610909091 | -1,528044662 |
2 | 7,305454545 | -0,305454545 | -0,764022331 |
3 | 11,91636364 | 0,083636364 | 0,209196591 |
4 | 14,22181818 | 0,778181818 | 1,946437843 |
5 | 16,52727273 | 0,472727273 | 1,182415512 |
6 | 18,83272727 | 0,167272727 | 0,418393181 |
7 | 21,13818182 | -0,138181818 | -0,34562915 |
8 | 23,44363636 | -0,043636364 | -0,109146047 |
9 | 25,74909091 | -0,149090909 | -0,372915662 |
10 | 28,05454545 | -0,254545455 | -0,636685276 |
При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение
Построение линейной регрессии, оценивание ее параметров и их значимости можно выполнить значительнее быстрей при использовании пакета анализа Excel (Регрессия). Рассмотрим интерпретацию полученных результатов в общем случае (k объясняющих переменных) по данным примера 3.6.
В таблице регрессионной статистики приводятся значения:
Множественный R – коэффициент множественной корреляции ;
R - квадрат – коэффициент детерминации R 2 ;
Нормированный R - квадрат – скорректированный R 2 с поправкой на число степеней свободы;
Стандартная ошибка – стандартная ошибка регрессии S ;
Наблюдения – число наблюдений n .
В таблице Дисперсионный анализ приведены:
1. Столбец df - число степеней свободы, равное
для строки Регрессия df = k ;
для строкиОстаток df = n – k – 1;
для строкиИтого df = n – 1.
2. Столбец SS – сумма квадратов отклонений, равная
для строки Регрессия ;
для строкиОстаток ;
для строкиИтого .
3. Столбец MS дисперсии, определяемые по формуле MS = SS /df :
для строки Регрессия – факторная дисперсия;
для строкиОстаток – остаточная дисперсия.
4. Столбец F – расчетное значение F -критерия, вычисляемое по формуле
F = MS (регрессия)/MS (остаток).
5. Столбец Значимость F –значение уровня значимости, соответствующее вычисленной F -статистике.
Значимость F = FРАСП(F- статистика, df (регрессия), df (остаток)).
Если значимость F < стандартного уровня значимости, то R 2 статистически значим.
Коэффи-циенты | Стандартная ошибка | t-cта-тистика | P-значение | Нижние 95% | Верхние 95% | |
Y | 65,92 | 11,74 | 5,61 | 0,00080 | 38,16 | 93,68 |
X | 0,107 | 0,014 | 7,32 | 0,00016 | 0,0728 | 0,142 |
В этой таблице указаны:
1. Коэффициенты – значения коэффициентов a , b .
2. Стандартная ошибка –стандартные ошибки коэффициентов регрессии S a , S b .
3. t- статистика – расчетные значения t -критерия, вычисляемые по формуле:
t-статистика = Коэффициенты / Стандартная ошибка.
4.Р -значение (значимость t ) – это значение уровня значимости, соответствующее вычисленной t- статистике.
Р -значение = СТЬЮДРАСП (t -статистика, df (остаток)).
Если Р -значение < стандартного уровня значимости, то соответствующий коэффициент статистически значим.
5. Нижние 95% и Верхние 95% – нижние и верхние границы 95 %-ных доверительных интервалов для коэффициентов теоретического уравнения линейной регрессии.
ВЫВОД ОСТАТКА | ||
Наблюдение | Предсказанное y | Остатки e |
72,70 | -29,70 | |
82,91 | -20,91 | |
94,53 | -4,53 | |
105,72 | 5,27 | |
117,56 | 12,44 | |
129,70 | 19,29 | |
144,22 | 20,77 | |
166,49 | 24,50 | |
268,13 | -27,13 |
В таблице ВЫВОД ОСТАТКА указаны:
в столбце Наблюдение – номер наблюдения;
в столбце Предсказанное y – расчетные значения зависимой переменной;
в столбце Остатки e – разница между наблюдаемыми и расчетными значениями зависимой переменной.
Пример 3.6. Имеются данные (усл. ед.) о расходах на питание y и душевого дохода x для девяти групп семей:
x | |||||||||
y |
Используя результаты работы пакета анализа Excel (Регрессия), проанализируем зависимость расходов на питание от величины душевого дохода.
Результаты регрессионного анализа принято записывать в виде:
где в скобках указаны стандартные ошибки коэффициентов регрессии.
Коэффициенты регрессии а = 65,92 и b = 0,107. Направление связи между y и x определяет знак коэффициентарегрессии b = 0,107, т.е. связь является прямой и положительной. Коэффициент b = 0,107 показывает, что при увеличении душевого дохода на 1 усл. ед. расходы на питание увеличиваются на 0,107 усл. ед.
Оценим значимость коэффициентов полученной модели. Значимость коэффициентов (a, b ) проверяется по t -тесту:
Р-значение (a ) = 0,00080 < 0,01 < 0,05
Р-значение (b ) = 0,00016 < 0,01 < 0,05,
следовательно, коэффициенты (a, b ) значимы при 1 %-ном уровне, а тем более при 5 %-ном уровне значимости. Таким образом, коэффициенты регрессии значимы и модель адекватна исходным данным.
Результаты оценивания регрессии совместимы не только с полученными значениями коэффициентов регрессии, но и с некоторым их множеством (доверительным интервалом). С вероятностью 95 % доверительные интервалы для коэффициентов есть (38,16 – 93,68) для a и (0,0728 – 0,142) для b.
Качество модели оценивается коэффициентом детерминации R 2 .
Величина R 2 = 0,884 означает, что фактором душевого дохода можно объяснить 88,4 % вариации (разброса) расходов на питание.
Значимость R 2 проверяется по F- тесту: значимость F = 0,00016 < 0,01 < 0,05, следовательно, R 2 значим при 1 %-ном уровне, а тем более при 5 %-ном уровне значимости.
В случае парной линейной регрессии коэффициент корреляции можно определить как . Полученное значение коэффициента корреляции свидетельствует, что связь между расходами на питание и душевым доходом очень тесная.