Оценка значимости уравнения регрессии и особенности применения коэффициента детерминации. Оценка статистической значимости уравнения регрессии и его параметров

Подписаться
Вступай в сообщество «parkvak.ru»!
ВКонтакте:

После того как уравнение регрессии построено и с помощью коэффициента детерминации оценена его точность, остается открытым вопрос за счет чего достигнута эта точность и соответственно можно ли этому уравнению доверять. Дело в том, что уравнение регрессии строилось не по генеральной совокупности, которая неизвестна, а по выборке из нее. Точки из генеральной совокупности попадают в выборку случайным образом, по этому в соответствии с теорией вероятности среди прочих случаев возможен вариант, когда выборка из “широкой” генеральной совокупности окажется “узкой” (рис. 15).

Рис. 15. Возможный вариант попадания точек в выборку из генеральной совокупности.

В этом случае:

а) уравнение регрессии, построенное по выборке, может значительно отличаться от уравнения регрессии для генеральной совокупности, что приведет к ошибкам прогноза;

б) коэффициент детерминации и другие характеристики точности окажутся неоправданно высокими и будут вводить в заблуждение о прогнозных качествах уравнения.

В предельном случае не исключен вариант, когда из генеральной совокупности представляющей собой облако с главной осью параллельной горизонтальной оси (отсутствует связь между переменными) за счет случайного отбора будет получена выборка, главная ось которой окажется наклоненной к оси. Таким образом, попытки прогнозировать очередные значения генеральной совокупности опираясь на данные выборки из нее чреваты не только ошибками в оценке силы и направления связи между зависимой и независимой переменными, но и опасностью найти связь между переменными там, где на самом деле ее нет.

В условиях отсутствия информации обо всех точках генеральной совокупности единственный способ уменьшить ошибки в первом случае заключается в использовании при оценке коэффициентов уравнения регрессии метода, обеспечивающего их несмещенность и эффективность. А вероятность наступления второго случая может быть значительно снижена благодаря тому, что априори известно одно свойство генеральной совокупности с двумя независимыми друг от друга переменными – в ней отсутствует именно эта связь. Достигается это снижение за счет проверки статистической значимости полученного уравнения регрессии.

Один из наиболее часто используемых вариантов проверки заключается в следующем. Для полученного уравнения регрессии определяется -статистика - характеристика точности уравнения регрессии, представляющая собой отношение той части дисперсии зависимой переменной которая объяснена уравнением регрессии к необъясненной (остаточной) части дисперсии. Уравнение для определения -статистики в случае многомерной регрессии имеет вид:

где: - объясненная дисперсия - часть дисперсии зависимой переменной Y которая объяснена уравнением регрессии;

Остаточная дисперсия - часть дисперсии зависимой переменной Y которая не объяснена уравнением регрессии, ее наличие является следствием действия случайной составляющей;

Число точек в выборке;

Число переменных в уравнении регрессии.

Как видно из приведенной формулы, дисперсии определяются как частное от деления соответствующей суммы квадратов на число степеней свободы. Число степеней свободы это минимально необходимое число значений зависимой переменной, которых достаточно для получения искомой характеристики выборки и которые могут свободно варьироваться с учетом того, что для этой выборки известны все другие величины, используемые для расчета искомой характеристики.

Для получения остаточной дисперсии необходимы коэффициенты уравнения регрессии. В случае парной линейной регрессии коэффициентов два, по этому в соответствии с формулой (принимая ) число степеней свободы равно . Имеется в виду, что для определения остаточной дисперсии достаточно знать коэффициенты уравнения регрессии и только значений зависимой переменной из выборки. Оставшиеся два значения могут быть вычислены на основании этих данных, а значит, не являются свободно варьируемыми.

Для вычисления объясненной дисперсии значений зависимой переменной вообще не требуются, так как ее можно вычислить, зная коэффициенты регрессии при независимых переменных и дисперсию независимой переменной. Для того чтобы убедиться в этом, достаточно вспомнить приводившееся ранее выражение . По этому число степеней свободы для остаточной дисперсии равно числу независимых переменных в уравнении регрессии (для парной линейной регрессии ).

В результате -критерий для уравнения парной линейной регрессии определяется по формуле:

.

В теории вероятности доказано, что -критерий уравнения регрессии, полученного для выборки из генеральной совокупности у которой отсутствует связь между зависимой и независимой переменной имеет распределение Фишера, достаточно хорошо изученное. Благодаря этому для любого значения -критерия можно рассчитать вероятность его появления и наоборот, определить то значение -критерия которое он не сможет превысить с заданной вероятностью.

Для осуществления статистической проверки значимости уравнения регрессии формулируется нулевая гипотеза об отсутствии связи между переменными (все коэффициенты при переменных равны нулю) и выбирается уровень значимости .

Уровень значимости – это допустимая вероятность совершить ошибку первого рода – отвергнуть в результате проверки верную нулевую гипотезу. В рассматриваемом случае совершить ошибку первого рода означает признать по выборке наличие связи между переменными в генеральной совокупности, когда на самом деле ее там нет.

Обычно уровень значимости принимается равным 5% или 1%. Чем выше уровень значимости (чем меньше ), тем выше уровень надежности теста, равный , т.е. тем больше шанс избежать ошибки признания по выборке наличия связи у генеральной совокупности на самом деле несвязанных между собой переменных. Но с ростом уровня значимости возрастает опасность совершения ошибки второго рода – отвергнуть верную нулевую гипотезу, т.е. не заметить по выборке имеющуюся на самом деле связь переменных в генеральной совокупности. По этому, в зависимости от того, какая ошибка имеет большие негативные последствия, выбирают тот или иной уровень значимости.

Для выбранного уровня значимости по распределению Фишера определяется табличное значение вероятность превышения, которого в выборке мощностью , полученной из генеральной совокупности без связи между переменными, не превышает уровня значимости. сравнивается с фактическим значением критерия для регрессионного уравнения .

Если выполняется условие , то ошибочное обнаружение связи со значением -критерия равным или большим по выборке из генеральной совокупности с несвязанными между собой переменными будет происходить с вероятностью меньшей чем уровень значимости. В соответствии с правилом “очень редких событий не бывает”, приходим к выводу, что установленная по выборке связь между переменными имеется и в генеральной совокупности, из которой она получена.

Если же оказывается , то уравнение регрессии статистически не значимо. Иными словами существует реальная вероятность того, что по выборке установлена не существующая в реальности связь между переменными. К уравнению, не выдержавшему проверку на статистическую значимость, относятся так же, как и к лекарству с истекшим сроком годнос-

Ти – такие лекарства не обязательно испорчены, но раз нет уверенности в их качестве, то их предпочитают не использовать. Это правило не уберегает от всех ошибок, но позволяет избежать наиболее грубых, что тоже достаточно важно.

Второй вариант проверки, более удобный в случае использования электронных таблиц, это сопоставление вероятности появления полученного значения -критерия с уровнем значимости. Если эта вероятность оказывается ниже уровня значимости , значит уравнение статистически значимо, в противном случае нет.

После того как выполнена проверка статистической значимости регрессионного уравнения в целом полезно, особенно для многомерных зависимостей осуществить проверку на статистическую значимость полученных коэффициентов регрессии. Идеология проверки такая же как и при проверке уравнения в целом но в качестве критерия используется -критерий Стьюдента, определяемый по формулам:

и

где: , - значения критерия Стьюдента для коэффициентов и соответственно;

- остаточная дисперсия уравнения регрессии;

Число точек в выборке;

Число переменных в выборке, для парной линейной регрессии .

Полученные фактические значения критерия Стьюдента сравниваются с табличными значениями , полученными из распределения Стьюдента. Если оказывается, что , то соответствующий коэффициент статистически значим, в противном случае нет. Второй вариант проверки статистической значимости коэффициентов – определить вероятность появления критерия Стьюдента и сравнить с уровнем значимости .

Для переменных, чьи коэффициенты оказались статистически не значимы, велика вероятность того, что их влияние на зависимую переменную в генеральной совокупности вообще отсутствует. По этому или необходимо увеличить число точек в выборке, тогда возможно коэффициент станет статистически значимым и заодно уточнится его значение, или в качестве независимых переменных найти другие, более тесно связанные с зависимой переменной. Точность прогнозирования при этом в обоих случаях возрастет.

В качестве экспрессного метода оценки значимости коэффициентов уравнения регрессии можно применять следующее правило – если критерий Стьюдента больше 3, то такой коэффициент, как правило, оказывается статистически значим. А вообще считается, что для получения статистически значимых уравнений регрессии необходимо, чтобы выполнялось условие .

Стандартная ошибка прогнозирования по полученному уравнению регрессии неизвестного значения при известном оценивают по формуле:

Таким образом прогноз с доверительной вероятностью 68% может быть представлен в виде:

В случае если требуется иная доверительная вероятность , то для уровня значимости необходимо найти критерий Стьюдента и доверительный интервал для прогноза с уровнем надежности будет равен .

Прогнозирование многомерных и нелинейных зависимостей

В случае если прогнозируемая величина зависит от нескольких независимых переменных, то в этом случае имеется многомерная регрессия вида:

где: - коэффициенты регрессии, описывающие влияние переменных на прогнозируемую величину.

Методика определения коэффициентов регрессии не отличается от парной линейной регрессии, особенно при использовании электронной таблицы, так как там применяется одна и та же функция и для парной и для многомерной линейной регрессии. При этом желательно чтобы между независимыми переменными отсутствовали взаимосвязи, т.е. изменение одной переменной не сказывалось на значениях других переменных. Но это требование не является обязательным, важно чтобы между переменными отсутствовали функциональные линейные зависимости. Описанные выше процедуры проверки статистической значимости полученного уравнения регрессии и его отдельных коэффициентов, оценка точности прогнозирования остается такой же как и для случая парной линейной регрессии. В тоже время применение многомерных регрессий вместо парной обычно позволяет при надлежащем выборе переменных существенно повысить точность описания поведения зависимой переменной, а значит и точность прогнозирования.

Кроме этого уравнения многомерной линейной регрессии позволяют описать и нелинейную зависимость прогнозируемой величины от независимых переменных. Процедура приведения нелинейного уравнения к линейному виду называется линеаризацией. В частности если эта зависимость описывается полиномом степени отличной от 1, то, осуществив замену переменных со степенями отличными от единицы на новые переменные в первой степени, получаем задачу многомерной линейной регрессии вместо нелинейной. Так, например если влияние независимой переменной описывается параболой вида

то замена позволяет преобразовать нелинейную задачу к многомерной линейной вида

Так же легко могут быть преобразованы нелинейные задачи у которых нелинейность возникает вследствие того, что прогнозируемая величина зависит от произведения независимых переменных. Для учета такого влияния необходимо ввести новую переменную равную этому произведению.

В тех случаях, когда нелинейность описывается более сложными зависимостями, линеаризация возможна за счет преобразования координат. Для этого рассчитываются значения и строятся графики зависимости исходных точек в различных комбинациях преобразованных переменных. Та комбинация преобразованных координат или преобразованных и не преобразованных координат, в которой зависимость ближе всего к прямой линии подсказывает замену переменных которая приведет к преобразованию нелинейной зависимости к линейному виду. Например, нелинейная зависимость вида

превращается в линейную вида

Полученные коэффициенты регрессии для преобразованного уравнения остаются несмещенными и эффективными, но проверка статистической значимости уравнения и коэффициентов невозможна

Проверка обоснованности применения метода наименьших квадратов

Применение метода наименьших квадратов обеспечивает эффективность и несмещенность оценок коэффициентов уравнения регрессии при соблюдении следующих условий (условий Гауса-Маркова):

3. значения не зависят друг от друга

4. значения не зависят от независимых переменных

Наиболее просто можно проверить соблюдение этих условий путем построения графиков остатков в зависимости от , затем от независимой (независимых) переменных. Если точки на этих графиках расположены в коридоре расположенном симметрично оси абсцисс и в расположении точек не просматриваются закономерности, то условия Гауса-Маркова выполнены и возможности повысить точность уравнения регрессии отсутствуют. Если это не так, то существует возможность существенно повысить точность уравнения и для этого необходимо обратиться к специальной литературе.

Для проверки значимости анализируется отношение коэффициента регрессии и его среднеквадратичного отклонения. Это отношение является распределением Стьюдента, то есть для определения значимости используем t – критерий:

- СКО от остаточной дисперсии;

- сумма отклонений от среднего значения

Если t рас. >t таб. , то коэффициент b i является значимым.

Доверительный интервал определяется по формуле:

ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ

    Взять исходные данные согласно варианту работы (по номеру студента в журнале). Задан статический объект управления с двумя входами X 1 , X 2 и одним выходом Y . На объекте проведен пассивный эксперимент и получена выборка объемом 30 точек, содержащая значения Х 1 , Х 2 и Y для каждого эксперимента.

    Открыть новый файл в Excel 2007. Ввести исходную информацию в столбцы исходной таблицы - значения входных переменных X 1 , Х 2 и выходной переменной Y .

    Подготовить дополнительно два столбца для ввода расчетных значений Y и остатков.

    Вызвать программу «Регрессия»: Данные/ Анализ данных/ Регрессия.

Рис. 1. Диалоговое окно «Анализ данных».

    Ввести в диалоговое окно «Регрессия» адреса исходных данных:

    входной интервал Y, входной интервал X (2 столбца),

    установить уровень надежности 95%,

    в опции «Выходной интервал, указать левую верхнюю ячейку места вывода данных регрессионного анализа (первую ячейку на 2-странице рабочего листа),

    включить опции «Остатки» и «График остатков»,

    нажать кнопку ОК для запуска регрессионного анализа.

Рис. 2. Диалоговое окно «Регрессия».

    Excel выведет 4 таблицы и 2 графика зависимости остатков от переменных Х1 и Х2 .

    Отформатировать таблицу «Вывод итогов» - расширить столбец с наименованиями выходных данных, сделать во втором столбце 3 значащие цифры после запятой.

    Отформатировать таблицу «Дисперсионный анализ»- сделать удобным для чтения и понимания количество значащих цифр после запятых, сократить наименование переменных и настроить ширину столбцов.

    Отформатировать таблицу коэффициентов уравнения - сократить наименование переменных и скорректировать при необходимости ширину столбцов, сделать удобным для чтения и понимания количество значащих цифр, удалить 2 последних столбца (значения и разметку таблицы).

    Данные из таблицы «Вывод остатка» перенести в подготовленные столбцы исходной таблицы, затем таблицу «Вывод остатка» удалить (опция «специальная вставка»).

    Ввести полученные оценки коэффициентов в исходную таблицу.

    Подтянуть таблицы результатов по максимуму вверх страницы.

    Построить под таблицами диаграммы Y эксп , Y расч и ошибки прогноза (остатка).

    Отформатировать диаграммы остатков. По полученным графикам оценить правильность модели по входам Х1, Х2 .

    Распечатать результаты регрессионного анализа.

    Разобраться с результатами регрессионного анализа.

    Подготовить отчет по работе.

ПРИМЕР ВЫПОЛНЕНИЯ РАБОТЫ

Прием выполнения регрессионного анализа в пакете EXCEL представлен на рисунках 3-5.

Рис. 3. Пример регрессионного анализа в пакете EXCEL.


Рис.4 . Графики остатков переменных Х1, Х2

Рис. 5. Графики Y эксп ,Y расч и ошибки прогноза (остатка).

По данным регрессионного анализа можно сказать:

1. Уравнение регрессии полученное с помощью Excel, имеет вид:

    Коэффициент детерминации:

Вариация результата на 46,5% объясняется вариацией факторов.

    Общий F-критерий проверяет гипотезу о статистической значимости уравнения регрессии. Анализ выполняется при сравнении фактического и табличного значения F-критерия Фишера.

Так как фактическое значение превышает табличное
, то делаем вывод, что полученной уравнение регрессии статистически значимо.

    Коэффициент множественной корреляции:

    b 0 :

t таб. (29, 0.975)=2.05

b 0 :

Доверительный интервал:

    Определяем доверительный интервал для коэффициента b 1 :

Проверка значимости коэффициента b 1 :

t рас. >t таб. , коэффициент b 1 является значимым

Доверительный интервал:

    Определяем доверительный интервал для коэффициентаb 2 :

Проверка значимости для коэффициентаb 2 :

Определяем доверительный интервал:

ВАРИАНТЫ ЗАДАНИЙ

Таблица 2. Варианты заданий

№ варианта

Результативный признак Y i

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 1

Y 2

Y 2

Y 2

Y 2

Y 2

№ фактора X i

№ фактора X i

Продолжение таблицы 1

№ варианта

Результативный признак Y i

Y 2

Y 2

Y 2

Y 2

Y 2

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

Y 3

№ фактора X i

№ фактора X i

Таблица 3. Исходные данные

Y 1

Y 2

Y 3

X 1

X 2

X 3

X 4

X 5

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

    Задачи регрессионного анализа.

    Предпосылки регрессионного анализа.

    Основное уравнение дисперсионного анализа.

    Что показывает F- отношение Фишера?

    Как определяется табличное значение критерия Фишера?

    Что показывает коэффициент детерминации?

    Как определить значимость коэффициентов регрессии?

    Как определить доверительный интервал коэффициентов регрессии?

    Как определить расчетные значение t-критерия?

    Как определить табличное значение t-критерия?

    Сформулируйте основную идею дисперсионного анализа, для решения каких задач он наиболее эффективен?

    Каковы основные теоретические предпосылки дисперсионный анализ?

    Произведите разложение общей суммы квадратов отклонений на составляющие в дисперсионном анализе.

    Как получить оценки дисперсий из сумм квадратов отклонений?

    Как получаются необходимые числа степеней свободы?

    Как определяется стандартная ошибка?

    Поясните схему двухфакторного дисперсионного анализа.

    Чем отличается перекрестная классификация от иерархической классификации?

    Чем отличаются сбалансированные данные?

Отчет оформляется в текстовом редакторе Word на бумаге формата А4 ГОСТ 6656-76 (210х297 мм) и содержит:

    Название лабораторной работы.

    Цель работы.

  1. Результаты вычисления.

ВРЕМЯ, ОТВЕДЕННОЕ НА ВЫПОЛНЕНИЕ

ЛАБОРАТОРНОЙ РАБОТЫ

Подготовка к работе – 0,5 акад. часа.

Выполнение работы – 0,5 акад. часа.

Расчеты на ЭВМ – 0,5 акад. часа.

Оформление работы – 0,5 акад. часа.

ЛитЕратура

    Идентификация объектов управления. / А. Д. Семенов, Д. В. Артамонов, А. В. Брюхачев. Учебное пособие. - Пенза: ПГУ, 2003. - 211 с.

    Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTIC и EXCEL. / Вуколов Э.А. Учебное пособие. - М.: ФОРУМ, 2008. - 464 с.

    Основы теории идентификации объектов управления. / А.А. Игнатьев, С.А. Игнатьев. Учебное пособие. - Саратов: СГТУ, 2008. - 44 с.

    Теория вероятности и математическая статистика в примерах и задачах с применением EXCEL. / Г.В. Горелова, И.А. Кацко. - Ростов н/Д: Феникс, 2006.- 475 с.

    Цель работы 2

    Основные понятия 2

    Порядок выполнения работы 6

    Пример выполнения работы 9

    Вопросы для самоконтроля 13

    Время, отведенное на выполнение работы 14

    После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

    Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, коэффициент регрессии равен нулю, то есть b=0, и, следовательно, фактор х не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части - «объясненную» и «необъясненную» (приложение 2).

    Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества причин. Условно всю совокупность причин можно разделить на две группы:

    • · изучаемый фактор х
    • · прочие факторы

    Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси охи у = y. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

    Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, то есть регрессией у по х, так и вызванный действием прочих величин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное влияние на результат у. Это равносильно тому, что коэффициент детерминации r 2 xy будет приближаться к единице.

    Любая сумма квадратов отклонений связана с числом степеней свободы (df - degrees of freedom), то есть с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных [(y 1 -y), (y 2 -y),…,(y n -y)] требуется для образования данной суммы квадратов. Так, для общей суммы квадратов?(y-y) 2 требуется (n-1) независимых отклонений.

    При расчете объясненной или факторной суммы квадратов?(y x -y) 2 используются теоретические (расчетные) значения результативного признака y x , найденные по линии регрессии: y x =а+b*x.

    В линейной регрессии сумма квадратов отклонений, обусловленных линейной регрессией, составит: ?(y x -y) 2 =b 2 *?(x -x) 2 .

    Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К тому же выводу придем, если рассмотрим содержательную сторону расчетного значения признака у, то есть y x . Величина y x определяется по уравнению линейной регрессии: y x =а+b*x. Параметр а можно определить как: a=y-b*x. Подставив выражение параметра а в линейную модель получим:

    y x = y-b*x+b*x= y-b*(х-х).

    Отсюда видно, что при заданном наборе переменных у и х расчетное значение y x является в линейной регрессии функцией только одного параметра - коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

    Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку используется средняя вычисленная по данным выборки, то теряем одну степень свободы, то есть df общ = n-1.

    Итак, имеется два равенства:

    ?(у-у) 2 =?(y x -у) 2 +?(у- y x) 2 ,

    Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

    D общ =?(у-у) 2 /(n-1);

    D факт =?(y x -у) 2 /1;

    D ост =?(у- y x) 2 /(n-1).

    Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения (F-критерия):

    F= D факт / D ост, где

    F - критерий для проверки нулевой гипотезы Н 0: D факт =D ост.

    Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н 0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

    Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различимом числе степеней свободы.

    Табличное значение F-критерия - это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

    Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного.

    В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: F факт >F табл. Н 0 отклоняется.

    Если же величина окажется меньше табличной F факт

    Оценку качества модели дает коэффициент детерминации. Коэффициент детерминации (R 2) -- это квадрат множественного коэффициента корреляции.

    Он показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.

    Формула для вычисления коэффициента детерминации:

    y i -- выборочные данные, а f i -- соответствующие им значения модели.

    Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

    Коэффициент принимает значения из интервала . Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

    В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R 2 = r 2 .

    Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока) (приложение 3).

    Функциональная связь возникает при значении равном 1, а отсутствие связи -- 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

    Для оценки существенности, значимости коэффициента корреляции используется t-критерий Стьюдента.

    Находится средняя ошибка коэффициента корреляции по формуле:

    Н
    а основе ошибки рассчитываетсяt-критерий:

    Рассчитанное значение t-критерия сравнивают с табличным, найденным в таблице распределения Стьюдента при уровне значимости 0,05 или 0,01 и числе степеней свободы n-1. Если расчетное значение t-критерия больше табличного, то коэффициент корреляции признается значимым.

    При криволинейной связи для оценки значимости корреляционного отношения и уравнения регрессии применяется F-критерий. Он вычисляется по формуле:

    или

    где η – корреляционное отношение; n – число наблюдений; m – число параметров в уравнении регрессии.

    Рассчитанное значение F сравнивается с табличным для принятого уровня значимости α (0,05 или 0,01) и чисел степеней свободы к 1 =m-1 и k 2 =n-m. Если расчетное значение F превышает табличное, связь признается существенной.

    Значимость коэффициента регрессии устанавливается с помощью t-критерия Стьюдента, который вычисляется по формуле:

    где σ 2 а i - дисперсия коэффициента регрессии.

    Она вычисляется по формуле:

    где к – число факторных признаков в уравнении регрессии.

    Коэффициент регрессии признается значимым, если t a 1 ≥t кр. t кр отыскивается в таблице критических точек распределения Стьюдента при принятом уровне значимости и числе степеней свободы k=n-1.

    4.3.Корреляционно-регрессионный анализ в Excel

    Проведём корреляционно-регрессионный анализ взаимосвязи урожайности и затрат труда на 1 ц зерна. Для этого открываем лист Excel, в ячейки А1:А30 вводим значения факторного признака урожайности зерновых культур, в ячейки В1:В30 значения результативного признака – затраттруда на 1 ц зерна. В меню Сервис выберем опцию Анализ данных. Щелкнув левой кнопкой мыши по этому пункту, откроем инструмент Регрессия. Щелкаем по кнопке OK, на экране появляется диалоговое окно Регрессия. В поле Входной интервал У вводим значения результативного признака (выделяя ячейки В1:В30), в поле Входной интервал Х вводим значения факторного признака (выделяя ячейки А1:А30). Отмечаем уровень вероятности 95%, выбираем Новый рабочий лист. Щелкаем по кнопке OK. На рабочем листе появляется таблица «ВЫВОД ИТОГОВ», в которой даны результаты вычисления параметров уравнения регрессии, коэффициента корреляции и другие показатели, позволяющие определить значимость коэффициента корреляции и параметров уравнения регрессии.

    ВЫВОД ИТОГОВ

    Регрессионная статистика

    Множественный R

    R-квадрат

    Нормированный R-квадрат

    Стандартная ошибка

    Наблюдения

    Дисперсионный анализ

    Значимость F

    Регрессия

    Коэффициенты

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижние 95%

    Верхние 95%

    Нижние 95,0%

    Верхние 95,0%

    Y-пересечение

    Переменная X 1

    В данной таблице «Множественный R» - это коэффициент корреляции, «R-квадрат» - коэффициент детерминации. «Коэффициенты: Y-пересечение» - свободный член уравнения регрессии 2,836242; «Переменная Х1» – коэффициент регрессии -0,06654. Здесь имеются также значения F-критерия Фишера 74,9876, t-критерия Стьюдента 14,18042, «Стандартная ошибка 0,112121», которые необходимы для оценки значимости коэффициента корреляции, параметров уравнения регрессии и всего уравнения.

    На основе данных таблицы построим уравнение регрессии: у х =2,836-0,067х. Коэффициент регрессии а 1 =-0,067 означает, что с повышением урожайности зерновых на 1 ц/га затраты труда на 1 ц зерна уменьшаются на 0,067 чел.-ч.

    Коэффициент корреляции r=0,85>0,7, следовательно, связь между изучаемыми признаками в данной совокупности тесная. Коэффициент детерминации r 2 =0,73 показывает, что 73% вариации результативного признака (затрат труда на 1 ц зерна) вызвано действием факторного признака (урожайности зерновых).

    В таблице критических точек распределения Фишера - Снедекора найдём критическое значение F-критерия при уровне значимости 0,05 и числе степеней свободы к 1 =m-1=2-1=1 и k 2 =n-m=30-2=28, оно равно 4,21. Так как рассчитанное значение критерия больше табличного (F=74.9896>4,21), то уравнение регрессии признаётся значимым.

    Для оценки значимости коэффициента корреляции рассчитаем t-критерий Стьюдента:

    В
    таблице критических точек распределения Стьюдента найдём критическое значениеt-критерия при уровне значимости 0,05 и числе степеней свободы n-1=30-1=29, оно равно 2,0452. Так как расчётное значение больше табличного, то коэффициент корреляции является значимым.

    Парная регрессия представляет собой регрессию между двумя переменными

    -у и х, т.е. модель вида + Е

    Где у - результативный признак,т.е зависимая переменная; х - признак-фактор.

    Линейная регрессия сводится к нахождению уравнения вида или

    Уравнение вида позволяет по заданным значениям фактора x иметь теоретические значения результативного признака, подставляя в него фактические значения фактора х.

    Построение линейной регрессии сводится к оценке ее пара­метров а и в.

    Оценки параметров линейной регрессии могут быть найдены разными методами.

    1.

    2.

    Параметр b называется коэффициентом регрессии . Его вели­чина показывает

    среднее изменение результата с изменением фактора на одну единицу.

    Формально а - значение у при х = 0. Если признак-фактор

    не имеет и не может иметь нулевого значения, то вышеуказанная

    трактовка свободного члена, а не имеет смысла. Параметр, а может

    не иметь экономического содержания. Попытки экономически

    интерпретировать параметр, а могут привести к абсурду, особенно при а < 0.

    Интерпретировать можно лишь знак при параметре а. Если а > 0,

    то относительное изменение результата происходит медленнее, чем изменение

    проверка качества найденных параметров и всей модели в целом:

    -Оценка значимости коэффициента регрессии (b) и коэффициента корреляции

    -Оценка значимости всего уравнения регрессии. Коэффициент детерминации

    Уравнение регрессии всегда дополняется показателем тесноты связи. При

    использовании линейной регрессии в качестве такого показателя выступает

    линейный коэффициент корреляции r xy . Существуют разные

    модификации формулы линейного коэф­фициента корреляции.

    Линейный коэффициент корреляции находится и границах: -1≤.r xy

    ≤ 1. При этом чем ближе r к 0 тем слабее корреляция и наоборот чем

    ближе r к 1 или -1, тем сильнее корреляция, т.е. зависимость х и у близка к

    линейной. Если r в точности =1или -1 все точки лежат на одной прямой.

    Если коэф. регрессии b>0 то 0 ≤.r xy ≤ 1 и

    наоборот при b<0 -1≤.r xy ≤0. Коэф.

    корреляции отражает степени линейной зависимости м/у величинами при наличии

    ярко выраженной зависимости др. вида.

    Для оценки качества подбора линейной функции рассчитывается квадрат линейного

    коэффициента корреляции

    Называемый коэффициентом детерминации. Коэффициент детермина­ции

    характеризует долю дисперсии результативного признака y, объясняемую

    регрессией. Соответствующая величина

    характеризует долю дисперсии у, вызванную влиянием остальных не учтенных

    в модели факторов.

    МНК позволяет получить такие оценки параметров а и b, которых

    сумма квадратов отклонений фактических значений ре­зультативного признака

    (у) от расчетных (теоретических)

    ми­нимальна:

    Иными словами, из

    всего множества линий линия регрессии на графике выбирается так, чтобы сумма

    квадратов расстояний по вертикали между точками и этой линией была бы

    минималь­ной.

    Решается система нормальных уравнений

    ОЦЕНКА СУЩЕСТВЕННОСТИ ПАРАМЕТРОВ ЛИНЕЙНОЙ РЕГРЕССИИ.

    Оценка значимости уравнения регрессии в целом дается с по­мощью F-критерия

    Фишера. При этом выдвигается нулевая ги­потеза, что коэффициент регрессии равен

    нулю, т. е. b = 0, и следовательно, фактор х не оказывает

    влияния на результат у.

    Непосредственному расчету F-критерия предшествует анализ дисперсии.

    Центральное место в нем занимает разложе­ние общей суммы квадратов отклонений

    переменной у от средне го значения у на две части -

    «объясненную» и «необъясненную»:

    Общая сумма квадратов отклонений

    Сумма квадратов

    отклонения объясненная регрессией

    Остаточная сумма квадратов отклонения.

    Любая сумма квадратов отклонений связана с числом степе­ней свободы, т.

    е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности nис числом определяемых по ней констант. Применительно к исследуемой проблеме число cтепеней свободы должно показать, сколько независимых откло­нений из п возможных требуется для

    образования данной суммы квадратов.

    Дисперсия на одну степень свободы D.

    F-отношения (F-критерий):

    Ecли нулевая гипотеза справедлива, то факторная и остаточная дисперсии не

    отличаются друг от друга. Для Н 0 необходимо опровержение, чтобы

    факторная дисперсия превышала остаточную в несколько раз. Английским

    статистиком Снедекором раз­работаны таблицы критических значений F-отношений

    при разных уровнях существенности нулевой гипотезы и различном числе степеней

    свободы. Табличное значение F-критерия - это максимальная величина отношения

    дисперсий, которая может иметь место при случайном их расхождении для данного

    уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения

    признается достоверным, если о больше табличного. В этом случае нулевая

    гипотеза об отсутствии связи признаков отклоняется и делается вывод о

    существенности этой связи: F факт > F табл Н 0

    отклоняется.

    Если же величина окажется меньше табличной F факт ‹, F табл

    То вероятность нулевой гипотезы выше заданного уровня и она не может быть

    отклонена без серьезного риска сделать неправильный вывод о наличии связи. В

    этом случае уравнение регрессии считается статистически незначимым. Н о

    не отклоняется.


    Похожая информация.


← Вернуться

×
Вступай в сообщество «parkvak.ru»!
ВКонтакте:
Я уже подписан на сообщество «parkvak.ru»