Линейная регрессия и корреляция: смысл и оценка параметров. Уравнение линейной множественной регрессии

Подписаться
Вступай в сообщество «parkvak.ru»!
ВКонтакте:

Оценка значимости параметров уравнения регрессии

Оценка значимости параметров уравнения линейной регрессии производится с помощью критерия Стьюдента:

если t расч. > t кр, то принимается основная гипотеза (H o ), свидетельствующая о статистической значимости параметров регрессии;

если t расч. < t кр, то принимается альтернативная гипотеза (H 1 ), свидетельствующая о статистической незначимости параметров регрессии.

где m a , m b – стандартные ошибки параметров a и b:

(2.19)

(2.20)

Критическое (табличное) значение критерия находится с помощью статистических таблиц распределения Стьюдента (приложение Б) или по таблицам Excel (раздел мастера функций «Статистические»):

t кр = СТЬЮДРАСПОБР(α=1-P; k=n-2 ), (2.21)

где k=n-2 также представляет собой число степенейсвободы.

Оценка статистической значимости может быть применена и к линейному коэффициенту корреляции

где m r стандартная ошибка определения значений коэффициента корреляции r yx

(2.23)

Ниже представлены варианты заданий для практических и лабораторных работ по тематике второго раздела.

Вопросы для самопроверки по 2 разделу

1. Укажите основные составляющие эконометрической модели и их сущность.

2. Основное содержание этапов эконометрического исследования.

3. Сущность подходов по определению параметров линейной регрессии.

4. Сущность и особенность применения метода наименьших квадратов при определении параметров уравнения регрессии.

5. Какие показатели используются для оценки тесноты взаимосвязи исследуемых факторов?

6. Сущность линейного коэффициента корреляции.

7. Сущность коэффициента детерминации.

8. Сущность и основные особенности процедур оценки адекватности (статистической значимости) регрессионных моделей.

9. Оценка адекватности линейных регрессионных моделей по коэффициенту аппроксимации.

10. Сущность подхода оценки адекватности регрессионных моделей по критерию Фишера. Определение эмпирических и критических значений критерия.

11. Сущность понятия «дисперсионный анализ» применительно к эконометрическим исследованиям.

12. Сущность и основные особенности процедуры оценки значимости параметров линейного уравнения регрессии.

13. Особенности применения распределения Стьюдента при оценке значимости параметров линейного уравнения регрессии.

14. В чем состоит задача прогноза единичных значений исследуемого социально-экономического явления?

1. Построить поле корреляции и сформулировать предположение о форме уравнения взаимосвязи исследуемых факторов;

2. Записать основные уравнения метода наименьших квадратов, произвести необходимые преобразования, составить таблицу для промежуточных расчетов и определить параметры линейного уравнения регрессии;

3. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

4. Провести анализ результатов, сформулировать выводы и рекомендации.

1. Расчет значения линейного коэффициента корреляции;

2. Построение таблицы дисперсионного анализа;

3. Оценка коэффициента детерминации;

4. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

5. Провести анализ результатов, сформулировать выводы и рекомендации.

4. Провести общую оценку адекватности выбранного уравнения регрессии;

1. Оценка адекватности уравнения по значениям коэффициента аппроксимации;

2. Оценка адекватности уравнения по значениям коэффициента детерминации;

3. Оценка адекватности уравнения по критерию Фишера;

4. Провести общую оценку адекватности параметров уравнения регрессии;

5. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

6. Провести анализ результатов, сформулировать выводы и рекомендации.

1. Использование стандартных процедур мастера функций электронных таблиц Excel (из разделов «Математические» и «Статистические»);

2. Подготовка данных и особенности применения функции «ЛИНЕЙН»;

3. Подготовка данных и особенности применения функции «ПРЕДСКАЗ».

1. Использование стандартных процедур пакета анализа данных электронных таблиц Excel;

2. Подготовка данных и особенности применения процедуры «РЕГРЕССИЯ»;

3. Интерпретация и обобщение данных таблицы регрессионного анализа;

4. Интерпретация и обобщение данных таблицы дисперсионного анализа;

5. Интерпретация и обобщение данных таблицы оценки значимости параметров уравнения регрессии;

При выполнении лабораторной работы по данным одного из вариантов необходимо выполнить следующие частные задания:

1. Осуществить выбор формы уравнения взаимосвязи исследуемых факторов;

2. Определить параметры уравнения регрессии;

3. Провести оценку тесноты взаимосвязи исследуемых факторов;

4. Провести оценку адекватности выбранного уравнения регрессии;

5. Провести оценку статистической значимости параметров уравнения регрессии.

6. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.

7. Провести анализ результатов, сформулировать выводы и рекомендации.

Задания для практических и лабораторных работ по теме «Парная линейная регрессия и корреляция в эконометрических исследованиях».

Вариант 1 Вариант 2 Вариант 3 Вариант 4 Вариант 5
x y x y x y x y x y
Вариант 6 Вариант 7 Вариант 8 Вариант 9 Вариант 10
x y x y x y x y x y

Линейная регрессия сводится к нахождению уравнения вида:

Первое выражение позволяет по заданным значениям фактора х рассчитать теоретические значения результативного признака, подставляя в него фактические значения факторах. На графике (рис. 1.2) теоретические значения лежат на прямой, которая представляет собой линию регрессии.

Построение линейной регрессии сводится к оценке ее параметров - а и Ь. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров а и Ь, при которых сумма квадратов отклонений фактических значений у от теоретических у х минимальна:

Рис. 1.2.

Для нахождения минимума надо вычислить частные производные суммы (1.4) по каждому из параметров (а и ft) и приравнять их к нулю:

После преобразования получаем систему нормальных уравнений:

В системе п - объем выборки, суммы легко рассчитываются из исходных данных. Решая систему относительно а и Ь, получаем:

Выражение (1.7) можно записать в другом виде:

где cov(x, у) - ковариация признаков; су* - дисперсия фактора х.

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с увеличением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение парной регрессии достаточно распространенным в эконометрических исследованиях.

Формально а - значение у при х = 0. Если х не имеет и не может иметь нулевого значения, то такая трактовка свободного члена а не имеет смысла. Параметр а чаще всего не имеет экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно при а 0. Интерпретировать можно лишь знак при параметре а. Если а > 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:

Иногда линейное уравнение парной регрессии записывают для отклонений от средних значений:

где

При этом свободный член равен нулю, что и отражено в выражении (1.10). Этот факт следует из геометрических соображений: уравнению регрессии отвечает та же прямая (1.3), но при оценке регрессии в отклонениях начало координат перемещается в точку с координатами (Зс, у). При этом в выражении (1.8) обе суммы будут равны нулю, что и повлечет равенство нулю свободного члена. Выражения (1.7) и (1.9) при этом также упрощаются.

В качестве примера рассмотрим на группе предприятий, выпускающих один вид продукции, регрессионную зависимость издержек от выпуска продукции у = а + Ьх + е (табл. 1.1).

Система нормальных уравнений будет иметь вид

Решая ее, получаем а - -5,79, b - 36,84.

Уравнение регрессии имеет вид

Таблица 1.1

Исходные данные для оценки параметров парной линейной модели

Выпуск продукции (х), тыс. ед.

Затраты на производство (у), млн руб.

Подставив в уравнение регрессии значения х, найдем теоретические значения у (последняя колонка табл. 1.1).

Величина а не имеет экономического смысла. Если переменные х и у выразить через отклонения от средних уровней, то линия регрессии на графике пройдет через начало координат. Оценка коэффициента регрессии при этом не изменится: у" = 36,84х", где у" = у-у, х" = х-х.

В качестве другого примера рассмотрим функцию потребления в виде:

где С - потребление; у - доход; К, L - параметры.

Данное уравнение линейной регрессии обычно используется в увязке с балансовым равенством

где / - размер инвестиций; г - сбережения.

Для простоты предположим, что доход расходуется на потребление и инвестиции. Таким образом, рассматривается система уравнений

Наличие балансового равенства накладывает ограничения на величину коэффициента регрессии, которая не может быть больше единицы, т.е. К 1.

Предположим, что функция потребления составила С = 1,9 + 0,65у.

Коэффициент регрессии характеризует склонность к потреблению. Он показывает, что из каждой тысячи рублей дохода на потребление расходуется в среднем 650 руб., а 350 руб. инвестируется. Если рассчитать регрессию размера инвестиций от дохода, т.е. I = а + by, то уравнение регрессии будет I = -1,9 + 0,35у. Его можно и не определять, поскольку оно выводится из функции потребления. Коэффициенты регрессии этих двух уравнений связаны равенством 0,65 + 0,35 = 1. Если коэффициент регрессии оказывается больше единицы, то у и на потребление расходуются не только доходы, но и сбережения.

Коэффициент регрессии К в функции потребления используется для расчета мультипликатора:

где т » 2,86, поэтому дополнительные вложения 1 тыс. руб. на длительный срок приведут при прочих равных условиях к дополнительному доходу 2,86 тыс. руб.

При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции г.

Его значения находятся в границах: - 1 r 1. Если 6>0,то0 г b 0-1 г 0. По данным примера расчет выражения (1.11) дает г = 0,991, что означает очень тесную зависимость затрат на производство от величины объема выпускаемой продукции.

Для оценки качества подбора линейной функции рассчитывается коэффициент детерминации как квадрат линейного коэффициента корреляции I 2 . Он характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака:

Величина 1 - г 2 характеризует долю дисперсии у, вызванную влиянием остальных, не учтенных в модели факторов.

В примере г 2 = 0,982. Уравнением регрессии объясняется 98,2% дисперсии у, а на прочие факторы приходится 1,8% - это остаточная дисперсия.

Линейная регрессия сводится к нахождению уравнения вида:

(или
) (3)

Первое выражение позволяет по заданным значениям фактора х рассчитать теоретические значения результативного признака, подставляя в него фактические значения факторах . На графике теоретические значения лежат на прямой, которые представляют собой линию регрессии.

Построение линейной регрессии сводится к оценке ее параметров - а иb . Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров а иb , при которых сумма квадратов отклонений фактических значенийу от теоретических минимальна:

, или
(4)

Для нахождения минимума надо вычислить частные производные суммы (4) по каждому из параметров - а иb - и приравнять их к нулю.

(5)

Преобразуем, получаем систему нормальных уравнений:

(6)

В этой системе n - объем выборки, суммы легко рассчитываются из исходных данных. Решаем систему относительноа иb , получаем:

(7)

(8)

Выражение (7) можно записать в другом виде:

(9)

где со v (х,у) - ковариация признаков, - дисперсия факторах .

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение парной регрессии достаточно распространенным в эконометрических исследованиях.

Формально а - значениеу прих=0. Еслих не имеет и не может иметь нулевого значения, то такая трактовка свободного членаа не имеет смысла. Параметра может не иметь экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно приа < 0 . Интерпретировать можно лишь знак при параметреа . Еслиа > 0 , то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:

при.

Иногда линейное уравнение парной регрессии записывают для отклонений от средних значений:

y′ = b·x" , (10)

где
,
. При этом свободный член равен нулю, что и отражено в выражении (10). Этот факт следует из геометрических соображений: уравнению регрессии отвечает та же прямая (3), но при оценке регрессии в отклонениях начало координат перемещается в точку с координатами
. При этом в выражении (8) обе суммы будут равны нулю, что и повлечет равенство нулю свободного члена.

Рассмотрим в качестве примера по группе предприятий, выпускающих один вид продукции, регрессионную зависимость издержек от выпуска продукции у = a + bx + ε.

Таблица 1

Выпуск продукции тыс.ед.(x )

Затраты на производство, млн.руб.(y )

x 2

y 2

Система нормальных уравнений будет иметь вид:

Решая её, получаем а = -5,79, b = 36,84.

Уравнение регрессии имеет вид:

Подставив в уравнение значения х , найдем теоретические значенияy (последняя колонка таблицы).

Величина а не имеет экономического смысла. Если переменныех иу выразить через отклонения от средних уровней, то линия регрессии на графике пройдет через начало координат. Оценка коэффициента регрессии при этом не изменится:

, где
,

В качестве другого примера рассмотрим функцию потребления в виде:

С = К·у + L

где С - потребление,у -доход,K , L – параметры. Данное уравнение линейной регрессии обычно используется в увязке с балансовым равенством:

y = C + I – r,

где I – размер инвестиций,r – сбережения.

Для простоты предположим, что доход расходуется на потребление и инвестиции. Таким образом, рассматривается система уравнений:

Наличие балансового равенства накладывает ограничения на величину коэффициента регрессии, которая не может быть больше единицы, т.е. К ≤ 1.

Предположим, что функция потребления составила:

Коэффициент регрессии характеризует склонность к потреблению. Он показывает, что из каждой тысячи рублей дохода на потребление расходуется в среднем 650 руб., а 350 руб. инвестируется. Если рассчитать регрессию размера инвестиций от дохода, т.е.
, то уравнение регрессии составит
. Это уравнение можно и не определять, поскольку оно выводится из функции потребления. Коэффициенты регрессии этих двух уравнений связаны равенством:

Если коэффициент регрессии оказывается больше единицы, то у < С + 1, и на потребление расходуются не только доходы, но и сбережения.

Коэффициент регрессии в функции потребления используется для расчета мультипликатора:

.

Здесь m≈ 2,86, поэтому дополнительные вложения 1 тыс. руб. на длительный срок приведут при прочих равных условиях к дополнительному доходу 2,86 тыс. руб.

При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции r :

(11)

Его значения находятся в границах: 0 < r ≤ 1 . Еслиb > 0 , то0 ≤ r ≤ 1 , приb < 0, – 1 ≤ r < 0 . По данным примераr =0,991, что означает очень тесную зависимость затрат на производство от величины объема выпускаемой продукции.

Для оценки качества подбора линейной функции рассчитывается коэффициент детерминации как квадрат линейного коэффициента корреляцииr 2 . Он характеризует долю дисперсии результативного признакаy , объясняемую регрессией, в общей дисперсии результативного признака:

12

Величина 1 - r 2 характеризует долю дисперсииу, вызванную влиянием остальных, не учтенных в модели факторов.

В примере σ 2 = 0,092. Уравнением регрессии объясняется 98,2% дисперсииу, а на прочие факторы приходится 1,8%, это остаточная дисперсия.

По территориям региона приводятся данные за 200Х г.

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН .

Для этого:

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .
4) В окне Категория выберете Статистические , в окне функция - ЛИНЕЙН . Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у

Известные значения х

Константа - логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика - логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК ;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш ++ .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b Значение коэффициента a
Стандартная ошибка b Стандартная ошибка a
Стандартная ошибка y
F-статистика
Регрессионная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х - среднедушевого прожиточного минимума, а 48% - действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее , и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
- результаты регрессионной статистики,
- результаты дисперсионного анализа,
- результаты доверительных интервалов,
- остатки и графики подбора линии регрессии,
- остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа . В главном меню последовательно выберите: Файл/Параметры/Надстройки .

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа , а затем нажмите кнопку ОК .

Если Пакет анализа отсутствует в списке поля Доступные надстройки , нажмите кнопку Обзор , чтобы выполнить поиск.

Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да , чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия , а затем нажмите кнопку ОК .

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y - диапазон, содержащий данные результативного признака;

Входной интервал X - диапазон, содержащий данные факторного признака;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа - ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист - можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК .

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 - 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н 0 о статистически незначимом отличии показателей от нуля:

.

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где - случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н 0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК .

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2003. - 192 с.: ил.

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

При оценке параметров уравнения регрессии применяется метод наименьших квадратов (МНК). При этом делаются определенные предпосылки относительно случайной составляющей e. В модели – случайная составляющая e представляет собой ненаблюдаемую величину. После того как произведена оценка параметров модели, рассчитывая разности фактических и теоретических значений результативного признака y , можно определить оценки случайной составляющей . Поскольку они не являются реальными случайными остатками, их можно считать некоторой выборочной реализацией неизвестного остатка заданного уравнения, т. е. ei.

При изменении спецификации модели, добавлении в нее новых наблюдений выборочные оценки остатков ei могут меняться. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений ei, т. е. остаточных величин.

При использовании критериев Фишера и Стьюдента делаются предположения относительно поведения остатков ei – остатки представляют собой независимые случайные величины и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению.

Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распределения случайной составляющей ei. Они носят лишь предварительный характер. После построения уравнения регрессии проводится проверка наличия у

оценок ei (случайных остатков) тех свойств, которые предполагались. Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции.

Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям.

Оценки считаются эффективными , если они характеризуются наименьшей дисперсией. В практических исследованиях это означает возможность перехода от точечного оценивания к интервальному.

Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Большой практический интерес представляют те результаты регрессии, для которых доверительный интервал ожидаемого значения параметра регрессии bi имеет предел значений вероятности, равный единице. Иными словами, вероятность получения оценки на заданном расстоянии от истинного значения параметра близка к единице.

Указанные критерии оценок (несмещенность, состоятельность и эффективность) обязательно учитываются при разных способах оценивания. Метод наименьших квадратов строит оценки регрессии на основе минимизации суммы квадратов остатков. Поэтому очень важно исследовать поведение остаточных величин регрессии ei. Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии.

Исследования остатков ei предполагают проверку наличия следующих пяти предпосылок МНК :

1. случайный характер остатков;

2. нулевая средняя величина остатков, не зависящая от xi;

3. гомоскедастичность – дисперсия каждого отклонения ei, одинакова для всех значений x ;

4. отсутствие автокорреляции остатков – значения остатков ei распределены независимо друг от друга;

5. остатки подчиняются нормальному распределению.

Если распределение случайных остатков ei не соответствует некоторым предпосылкам МНК, то следует корректировать модель.

Прежде всего, проверяется случайный характер остатков ei – первая предпосылка МНК. С этой целью стоится график зависимости остатков ei от теоретических значений результативного признака.

Если на графике получена горизонтальная полоса, то остатки ei представляют собой случайные величины и МНК оправдан, теоретические значения хорошо аппроксимируют фактические значения y.

Возможны следующие случаи, если ei зависит от то:

1) остатки ei не случайны

2) остатки ei не имеют постоянной дисперсии

3) остатки ei носят систематический характер.

В этих случаях необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки ei не будут случайными величинами.

Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что . Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных.

Вместе с тем несмещенность оценок коэффициентов регрессии, полученных МНК, зависит от независимости случайных остатков и величин x, что также исследуется в рамках соблюдения второй предпосылки МНК. С этой целью наряду с изложенным графиком зависимости остатков ei от теоретических значений результативного признака строится график зависимости случайных остатков ei от факторов, включенных в регрессию xj.

Если остатки на графике расположены в виде горизонтальной полосы, то они независимы от значений xj. Если же график показывает наличие зависимости ei и xj, то модель неадекватна. Причины неадекватности могут быть разные. Возможно, что нарушена третья предпосылка МНК и дисперсия остатков не постоянна для каждого значения фактора xj. Может быть неправильна спецификация модели и в нее необходимо ввести

дополнительные члены от xj, например . Скопление точек в определенных участках значений фактора xj говорит о наличии систематической погрешности модели.

Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью F - и t -критериев. Вместе с тем оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки МНК.

Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.

В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной . Это значит, что для каждого значения фактора xj остатки ei имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность . Наличие гетероскедастичности можно наглядно видеть из поля корреляции:

1. Дисперсия остатков растет по мере увеличения x.

Тогда имеем следующий вид гетероскедастичности: большая дисперсия ei для больших значений

2. Дисперсия остатков достигает максимальной величины при средних значениях x, и уменьшается при минимальных и максимальных значениях.

Тогда имеем следующий вид гетероскедастичности: большая дисперсия ei для средних значений , и малая дисперсия ei для малых и больших значений

3. Максимальная дисперсия остатков при малых значениях x и дисперсия остатков однородна по мере увеличения x.

Тогда имеем следующий вид гетероскедастичности: большая дисперсия ei для малых значений , уменьшение дисперсии остатков ei по мере увеличения

При построении регрессионных моделей чрезвычайно важно соблюдение четвертой предпосылки МНК – отсутствие автокорреляции остатков, т. е. значения остатков ei распределены независимо друг от друга.

Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Коэффициент корреляции между ei и ej , где ei – остатки текущих наблюдений, ej – остатки предыдущих наблюдений (например, j=i-1), может быть определен как:

т. е. по обычной формуле линейного коэффициента корреляции. Если этот коэффициент окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности вероятности F(e) зависит от j –й точки наблюдения и от распределения значений остатков в других точках наблюдения.

Отсутствие автокорреляции остаточных величин обеспечивает состоятельность и эффективность оценок коэффициентов регрессии. Особенно актуально соблюдение данной предпосылки МНК при построении регрессионных моделей по рядам динамики, где ввиду наличия тенденции последующие уровни динамического ряда, как правило, зависят от своих предыдущих уровней.

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии.

← Вернуться

×
Вступай в сообщество «parkvak.ru»!
ВКонтакте:
Я уже подписан на сообщество «parkvak.ru»