Значимость коэффициентов корреляции.

Подписаться
Вступай в сообщество «parkvak.ru»!
ВКонтакте:

Введение. 2

1. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента. 3

2. Расчет значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента. 6

Заключение. 15

После построения уравнения регрессии необходимо сделать проверку его значимости: с помощью специальных критериев установить, не является ли полученная зависимость, выраженная уравнением регрессии, случайной, т.е. можно ли ее использовать в прогнозных целях и для факторного анализа. В статистике разработаны методики строгой проверки значимости коэффициентов регрессии с помощью дисперсионного анализа и расчета специальных критериев (например, F-критерия). Нестрогая проверка может быть выполнена путем расчета среднего относительного линейного отклонения (ё), называемого средней ошибкой аппроксимации:

Перейдем теперь к оценке значимости коэффициентов регрессии bj и построению доверительного интервала для параметров регрессионной модели Ру (J=l,2,..., р).

Блок 5 - оценка значимости коэффициентов регрессий по величине ^-критерия Стьюдента. Расчетные значения ta сравниваются с допустимым значением

Блок 5 - оценка значимости коэффициентов регрессий по величине ^-критерия. Расчетные значения t0n сравниваются с допустимым значением 4,/, которое определяется по таблицам t - распределения для заданной вероятности ошибок (а) и числа степеней свободы (/).

Кроме проверки значимости всей модели, необходимо провести проверки значимости коэффициентов регрессии по /-критерию Стюдента. Минимальное значение коэффициента регрессии Ьг должно соответствовать условию bifob- ^t, где bi - значение коэффициента уравнения регрессии в натуральном масштабе при i-ц факторном признаке; аь. - средняя квадратическая ошибка каждого коэффициента. несопоставимость между собой по своей значимости коэффициентов D;

Дальнейший статистический анализ касается проверки значимости коэффициентов регрессии. Для этого находим значение ^-критерия для коэффициентов регрессии. В результате их сравнения определяется наименьший по величине ^-критерий. Фактор, коэффициенту которого соответствует наименьший ^-критерий, исключается из дальнейшего анализа.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стъюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Но о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

Оценка значимости коэффициентов чистой регрессии с помощью /-критерия Стьюдента сводится к вычислению значения

Качество труда - характеристика конкретного труда, отражающая степень его сложности, напряженности (интенсивности), условия и значимость для развития экономики. К.т. измеряется посредством тарифной системы, позволяющей дифференцировать заработную плату в зависимости от уровня квалификации (сложности труда), условий, тяжести труда и его интенсивности, а также значимости отдельных отраслей и производств, районов, территорий для развития экономики страны. К.т. находит выражение в заработной плате работников, складывающейся на рынке труда под воздействием спроса и предложения рабочей силы (конкретные виды труда). К.т. - сложная по структуре

Полученные баллы относительной значимости отдельных экономических, социальных и экологических последствий осуществления проекта дают далее основу для сравнения альтернативных проектов и их вариантов с помощью "комплексного балльного безразмерного критерия социальной и эколого-экономической эффективности" проекта Эк, рассчитываемого (в усредненных баллах значимости) по формуле

Внутриотраслевое регулирование обеспечивает различия в оплате труда работников данной отрасли промышленности в зависимости от значимости отдельных.видов производства данной отрасли, от сложности и условий труда, а также от применяемых форм оплаты труда.

Полученная рейтинговая оценка анализируемого предприятия по отношению к предприятию-эталону без учета значимости отдельных показателей является сравнительной. При сравнении рейтинговых оценок нескольких предприятий наивысший рейтинг имеет предприятие с минимальным значением полученной сравнительной оценки.

Понимание качества товара как меры его полезности ставит практически важный вопрос об её измерении. Его решение достигается изучением значимости отдельных свойств в удовлетворении определенной потребности. Значимость даже одного и того же свойства может быть неодинаковой в зависимости от условий потребления продукта. Следовательно, и полезность товара в разных обстоятельствах её использования различна.

Второй этап работы - изучение статистических данных и выявление взаимосвязи и взаимодействия показателей, определение значимости отдельных факторов и причин изменения общих показателей.

Все рассматриваемые показатели сводятся в один таким образом, что в результате получается комплексная оценка всех анализируемых сторон деятельности предприятия с учетом условий его деятельности, с учетом степени значимости отдельных показателей для различных типов инвесторов:

Коэффициенты регрессии показывают интенсивность влияния факторов на результативный показатель. Если проведена предварительная стандартизация факторных показателей, то Ь0 равняется среднему значению результативного показателя в совокупности. Коэффициенты Ь, Ь2 ..... Ьл показывают, на сколько единиц уровень результативного показателя отклоняется от своего среднего значения, если значения факторного показателя отклоняются от среднего, равного нулю, на одно стандартное отклонение. Таким образом, коэффициенты регрессии характеризуют степень значимости отдельных факторов для повышения уровня результативного показателя. Конкретные значения коэффициентов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных уравнений).

2. Расчет значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента

Рассмотрим линейную форму многофакторных связей не только как наиболее простую, но и как форму, предусмотренную пакетами прикладных программ для ПЭВМ. Если же связь отдельного фактора с результативным признаком не является линейной, то производят линеаризацию уравнения путем замены или преобразования величины факторного признака.

Общий вид многофакторного уравнения регрессии имеет вид:


где k - число факторных признаков.

Чтобы упростить систему уравнений МНК, необходимую для вычисления параметров уравнения (8.32), обычно вводят величины отклонений индивидуальных значений всех признаков от средних величин этих признаков.

Получаем систему k уравнений МНК:

Решая эту систему, получаем значения коэффициентов условно-чистой регрессии b. Свободный член уравнения вычисляется по формуле


Термин «коэффициент условно-чистой регресии» означает, что каждая из величин bj измеряет среднее по совокупности отклонение результативного признака от его средней величины при отклонении данного фактора хj от своей средней величины на единицу его измерения и при условии, что все прочие факторы, входящие в уравнение регрессии, закреплены на средних значениях, не изменяются, не варьируют.

Таким образом, в отличие от коэффициента парной регрессии коэффициент условно-чистой регрессии измеряет влияние фактора, абстрагируясь от связи вариации этого фактора с вариацией остальных факторов. Если было бы возможным включить в уравнение регрессии все факторы, влияющие на вариацию результативного признака, то величины bj. можно было бы считать мерами чистого влияния факторов. Но так как реально невозможно включить все факторы в уравнение, то коэффициенты bj. не свободны от примеси влияния факторов, не входящих в уравнение.

Включить все факторы в уравнение регрессии невозможно по одной из трех причин или сразу по ним всем, так как:

1) часть факторов может быть неизвестна современной науке, познание любого процесса всегда неполное;

2) по части известных теоретических факторов нет информации либо таковая ненадежна;

3) численность изучаемой совокупности (выборки) ограничена, что позволяет включить в уравнение регрессии ограниченное число факторов.

Коэффициенты условно-чистой регрессии bj. являются именованными числами, выраженными в разных единицах измерения, и поэтому несравнимы друг с другом. Для преобразования их в сравнимые относительные показатели применяется то же преобразование, что и для получения коэффициента парной корреляции. Полученную величину называют стандартизованным коэффициентом регрессии или?-коэффициентом.


Коэффициент при факторе хj, определяет меру влияния вариации фактора хj на вариацию результативного признака у при отвлечении от сопутствующей вариации других факторов, входящих в уравнение регрессии.

Коэффициенты условно-чистой регрессии полезно выразить в виде относительных сравнимых показателей связи, коэффициентов эластичности:

Коэффициент эластичности фактора хj говорит о том, что при отклонении величины данного фактора от его средней величины на 1% и при отвлечении от сопутствующего отклонения других факторов, входящих в уравнение, результативный признак отклонится от своего среднего значения на ej процентов от у. Чаще интерпретируют и применяют коэффициенты эластичности в терминах динамики: при увеличении фактора х.на 1% его средней величины результативный признак увеличится на е. процентов его средней величины.

Рассмотрим расчет и интерпретацию уравнения многофакторной регрессии на примере тех же 16 хозяйств (табл. 8.1). Результативный признак - уровень валового дохода и три фактора, влияющих на него, представлены в табл. 8.7.

Напомним еще раз, что для получения надежных и достаточно точных показателей корреляционной связи необходима более многочисленная совокупность.


Таблица 8.7

Уровень валового дохода и его факторы

Номера хозяйств

Валовой доход, руб./ra у

Затраты труда, чел.-дни/га х1

Доля пашни,

Надой молока на 1 корову,

Таблица 8.8 Показатели уравнения регрессии

Dependent variable: у

Regression coefficient

Constant-240,112905

Std. error оf est. = 79,243276


Решение проведено по программе «Microstat» для ПЭВМ. Приведем таблицы из распечатки: табл. 8.7 дает средние величины и средние квадратические отклонения всех признаков. Табл. 8.8 содержит коэффициенты регрессии и их вероятностную оценку:

первая графа «var» - переменные, т. е. факторы; вторая графа «regression coefficient» - коэффициенты условно-чистой регрессии bj; третья графа «std. errror» - средние ошибки оценок коэффициентов регрессии; четвертая графа - значения t-критерия Стьюдента при 12 степенях свободы вариации; пятая графа «prob» - вероятности нулевой гипотезы относительно коэффициентов регрессии;

шестая графа «partial r2» - частные коэффициенты детерминации. Содержание и методика расчета показателей в графах 3-6 рассматриваются далее в главе 8. «Constant» - свободный член уравнения регрессии a; «Std. error of est.» - средняя квадратическая ошибка оценки результативного признака по уравнению регрессии. Было получено уравнение множественной регрессии:

у= 2,26x1 - 4,31х2 + 0,166х3 - 240.

Это означает, что величина валового дохода на 1 га сельхозугодий в среднем по совокупности возрастала на 2,26 руб. при увеличении затрат труда на 1 ч/га; уменьшалась в среднем на 4,31 руб. при возрастании доли пашни в сельхозугодиях на 1% и увеличивалась на 0,166 руб. при росте надоя молока на корову на 1 кг. Отрицательная величина свободного члена вполне закономерна, и, как уже отмечено в п. 8.2, результативный признак - валовой доход становится нулевым задолго до достижения нулевых значений факторов, которое в производстве невозможно.

Отрицательное значение коэффициента при х^ - сигнал о существенном неблагополучии в экономике изучаемых хозяйств, где растениеводство убыточно, а прибыльно только животноводство. При рациональных методах ведения сельского хозяйства и нормальных ценах (равновесных или близких к ним) на продукцию всех отраслей, доход должен не уменьшаться, а возрастать с увеличением наиболее плодородной доли в сельхозугодиях - пашни.

На основе данных предпоследних двух строк табл. 8.7 и табл. 8.8 рассчитаем р-коэффициенты и коэффициенты эластичности согласно формулам (8.34) и (8.35).

Как на вариацию уровня дохода, так и на его возможное изменение в динамике самое сильное влияние оказывает фактор х3 - продуктивность коров, а самое слабое - х2 - доля пашни. Значения Р2/ будут использоваться в дальнейшем (табл. 8.9);

Таблица 8.9 Сравнительное влияние факторов на уровень дохода

Факторы хj


Итак, мы получили, что?-коэффициент фактора хj относится к коэффициенту эластичности этого фактора, как коэффициент вариации фактора к коэффициенту вариации результативного признака. Поскольку, как видно по последней строке табл. 8.7, коэффициенты вариации всех факторов меньше коэффициента вариации результативного признака; все?-коэффициенты меньше коэффициентов эластичности.

Рассмотрим соотношение между парным и условно-чистым коэффициентом регрессии на примере фактора -с,. Парное линейное уравнение связи у с х, имеет вид:

y = 3,886x1 – 243,2

Условно-чистый коэффициент регрессии при x1, составляет только 58% парного. Остальные 42% связаны с тем, что вариации x1 сопутствует вариация факторов x2 x3, которая, в свою очередь, влияет на результативный признака. Связи всех признаков и их коэффициенты парных регрессий представлены на графе связей (рис. 8.2).


Если сложить оценки прямого и опосредованного влияния вариации х1 на у, т. е. произведения коэффициентов парных регрессий по всем «путям» (рис. 8.2), получим: 2,26 + 12,55·0,166 + (-0,00128)·(-4,31) + (-0,00128)·17,00·0,166 = 4,344.

Эта величина даже больше парного коэффициента связи x1 с у. Следовательно, косвенное влияние вариации x1 через не входящие в уравнение признаки-факторы - обратное, дающее в сумме:

1 Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для вузов. - М.: ЮНИТИ, 2008,– 311с.

2 Джонстон Дж. Эконометрические методы. - М.: Статистика, 1980,. – 282с.

3 Доугерти К. Введение в эконометрику. - М.: ИНФРА-М, 2004, – 354с.

4 Дрейер Н., Смит Г., Прикладной регрессионный анализ. - М.: Финансы и статистика, 2006,– 191с.

5 Магнус Я.Р., Картышев П.К., Пересецкий А.А. Эконометрика. Начальный курс.-М.: Дело, 2006, – 259с.

6 Практикум по эконометрике/Под ред. И.И.Елисеевой.- М.: Финансы и статистика, 2004, – 248с.

7 Эконометрика/Под ред. И.И.Елисеевой.- М.: Финансы и статистика, 2004, – 541с.

8 Кремер Н., Путко Б. Эконометрика.- М.:ЮНИТИ-ДАНА,200, – 281с.


Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для вузов. - М.: ЮНИТИ, 2008,–с. 23.

Кремер Н., Путко Б. Эконометрика.- М.:ЮНИТИ-ДАНА,200, –с.64

Дрейер Н., Смит Г., Прикладной регрессионный анализ. - М.: Финансы и статистика, 2006,– с57.

Практикум по эконометрике/Под ред. И.И.Елисеевой.- М.: Финансы и статистика, 2004, –с 172.

Значимость коэффициентов корреляции проверяемся по критерию Стьюдента:

где - среднеквадратическая ошибка коэффициента корреляции, которая определяется по формуле:

Если расчетное значение (выше табличного, то можно сделать заключение о том, что величина коэффициента корреляции является значимой. Табличные значения t находят по таблице значений критериев Стьюдента. При этом учитываются количество степеней свободы (V = п - 1)и уровень доверительной вероятности (в экономических расчетах обычно 0,05 или 0,01). В нашем примере количество степеней свободы равно: п - 1 = 40 - 1 = 39. При уровне доверительной вероятности Р = 0,05; t = 2,02. Поскольку (фактическое (табл. 7.8) во всех случаях выше t-табличного, связь между результативным и факторными показателями является надежной, а величина коэффициентов корреляции - значимой.

Следующий этап корреляционного анализа -расчет уравнения связи (регрессии). Решение проводится обычно шаговым способом. Сначала в расчет принимается один фактор, который оказывает наиболее значимое влияние на результативный показатель, потом второй, третий и т.д. И на каждом шаге рассчитываются уравнение связи, множественный коэффициент корреляции и детерминации, F-отношение (критерий Фишера), стандартная ошибка и другие показатели, с помощью которых оценивается надежность уравнения связи. Величина их на каждом шаге сравнивается с предыдущей. Чем выше величина коэффициентов множественной корреляции, детерминации и критерия Фишера и чем ниже величина стандартной ошибки, тем точнее уравнение связи описывает зависимости, сложившиеся между исследуемыми показателями. Если добавление следующих факторов не улучшает оценочных показателей связи, то надо их отбросить, т.е. остановиться на том уравнении, где эти показатели наиболее оптимальны.

Сравнивая результаты на каждом шаге (табл.7.9), мы можем сделать вывод, что наиболее полно описывает зависимости между изучаемыми показателями пятифакторная модель, полученная на пятом шаге. В результате уравнение связи имеет вид:

Коэффициенты уравнения показывают количественное воздействие каждого фактора на результативный показатель при неизменности других. В данном случае можно дать следующую интерпретацию полученному уравнению: рентабельность повышается на 3,65 % при увеличении материалоотдачи на 1 руб.; на 0,09 % - с ростом фондоотдачи на 1 коп.; на 1,02 %-с повышением среднегодовой выработки продукции на одного работника на 1 млн руб.; на 0,052 %- при увеличении удельного веса продукции высшей категории качества на 1 %. С увеличением продолжительности оборота средств на 1 день рентабельность снижается в среднем на 0,122 %.

Коэффициенты регрессии в уравнении связи имеют разные единицы измерения, что делает их несопоставимыми, если возникает вопрос о сравнительной силе воздействия факторов на результативный показатель. Чтобы привести их в сопоставимый вид, все переменные уравнения регрессии выражают в долях среднеквадратического отклонения, другими словами, рассчитывают стандартизированные коэффициенты регрессии. Их еще называют бетта-коэффициентами по символу, который принят для их обозначения (р).

Бетта-коэффициенты и коэффициенты регрессии связаны следующим отношением:

Смотрите также:

Следует отметить, что истинным показателем степени линейной связи переменных является теоретический коэффициент корреляции , который рассчитывается на основании данных всей генеральной совокупности (т.е. всех возможных значений показателей):

где - теоретический показатель ковариции , который вычисляется как математическое ожидание произведений отклонений СВ
иот их математических ожиданий.

Как правило, теоретический коэффициент корреляции мы рассчитать не можем. Однако из того, что выборочный коэффициент не равен нулю
не следует, что теоретический коэффициент также
(т.е. показатели могут быть линейно независимыми). Т.о. по данным случайной выборки нельзя утверждать, что связь между показателями существует.

Выборочный коэффициент корреляции является оценкой теоретического коэффициента, т.к. он рассчитывается лишь для части значений переменных.

Всегда существует ошибка коэффициента корреляции . Эта ошибка - расхождение между коэффициентом корреляции выборки объемом и коэффициентом корреляции для генеральной совокупности определяется формулами:

при
; и
при
.

Проверка значимости коэффициента линейной корреляции означает проверку того, насколько мы можем доверять выборочным данным.

С этой целью проверяется нулевая гипотеза
о том, что значение коэффициента корреляции для генеральной совокупности равно нулю, т.е.в генеральной совокупности отсутствует корреляция . Альтернативной является гипотеза
.

Для проверки этой гипотезы рассчитывается - статистика (-критерий) Стьюдента:

.

Которая имеет распределение Стьюдента с
степенями свободы 1 .

По таблицам распределения Стьюдента определяется критическое значение
.

Если рассчитанное значение критерия
, то нуль-гипотеза отвергается, то есть вычисленный коэффициент корреляции значимо отличается от нуля с вероятностью
.

Если же
, тогда нулевая гипотеза не может быть отвергнута. В этом случае не исключается, что истинное значение коэффициента корреляции равно нулю, т.е. связь показателей можно считать статистически незначимой.

Пример 1 . В таблице приведены данные за 8 лет о совокупном доходе и расходах на конечное потребление.

Изучить и измерить тесноту взаимосвязи между заданными показателями.

Тема 4. Парная линейная регрессия. Метод наименьших квадратов

Коэффициент корреляции указывает на степень тесноты взаимосвязи между двумя признаками, но он не дает ответа на вопрос, как изменение одного признака на одну единицу его размерности влияет на изменение другого признака. Для того чтобы ответить на этот вопрос, пользуются методами регрессионного анализа.

Регрессионный анализ устанавливает форму зависимости между случайной величиной и значениями переменной величины
, причем, значения
считаются точно заданными.

Уравнение регрессии – это формула статистической связи между переменными.

Если эта формула линейна, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией (нескольких переменных – множественной ).

Выбор формулы зависимости называется спецификацией уравнения регрессии. Оценка значений параметров выбранной формулы называется параметризацией .

Как же оценить значения параметров и проверить надёжность сделанных оценок?

Рассмотрим рисунок

    На графике (а) взаимосвязь х и у близка к линейной, прямая линия 1 здесь близка к точкам наблюдений и последние отклоняются от неё лишь в результате сравнительно небольших случайных воздействий.

    На графике (б) реальная взаимосвязь величин х и у описывается нелинейной функцией 2, и какую бы мы ни провели прямую линию (например, 1), отклонения точек от неё будут неслучайными.

    На графике (в) взаимосвязь между переменными х и у отсутствует, и результаты параметризации любой формулы зависимости будут неудачными.

Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Всегда можно попытаться провести такую прямую линию, которая будет «ближайшей» к точкам наблюдений по их совокупности (например, на рисунке (в) лучшей будет прямая 1, чем прямая 2).

Теоретическое уравнение парной линейной регрессии имеет вид:


,

где
называютсятеоретическими параметрами (теоретическими коэффициентами ) регрессии; -случайным отклонением (случайной ошибкой ).

В общем виде теоретическую модель будем представлять в виде:

.

Для определения значений теоретических коэффициентов регрессии необходимо знать все значения переменных Х и Y , т.е. всю генеральную совокупность, что практически невозможно.

Задача состоит в следующем: по имеющимся данным наблюдений
,
необходимо оценить значения параметров
.

Пусть а оценка параметра
,b оценка параметра .

Тогда оценённое уравнение регрессии имеет вид:
,

где
теоретические значения зависимой переменнойy , - наблюдаемые значения ошибок. Это уравнение называетсяэмпирическим уравнением регрессии . Будем его записывать в виде
.

В основе оценки параметров линейной регрессии лежит Метод Наименьших Квадратов (МНК) – это метод оценивания параметров линейной регрессии, минимизирующий сумму квадратов отклонений наблюдений зависимой переменной от искомой линейной функции.

Функция Q является квадратичной функцией двух параметров a и b . Т.к. она непрерывна, выпукла и ограничена снизу (
), поэтому она достигает минимума. Необходимым условием существования минимума является равенство нулю её частных производных поa и b :


.

Разделив оба уравнения системы на n , получим:


или

Иначе можно записать:

и  средние квадратические отклонения значений тех же признаков.

Т.о. линия регрессии проходит через точку со средними значениями х и у
, акоэффициент регрессии b пропорционален показателю ковариации и коэффициенту линейной корреляции.

Если кроме регрессии Y на X для тех же эмпирических значений найдено уравнение регрессии X на Y (
, где
), то произведение коэффициентов
:

.

Коэффициент регрессии  это величина, показывающая, на сколько единиц размерности изменится величина при изменении величинына одну единицу ее размерности. Аналогично определяется коэффициент.

В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

Понятие о корреляционном анализе

Существует множество Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Понятие о ложности корреляции

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

В этом случае говорят о ложной корреляции.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Связь корреляционного анализа с регрессионным

Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа

смертность

Фермеры, лесники и рыбаки

Шахтеры и работники карьеров

Производители газа, кокса и химических веществ

Изготовители стекла и керамики

Работники печей, кузнечных, литейных и прокатных станов

Работники электротехники и электроники

Инженерные и смежные профессии

Деревообрабатывающие производства

Кожевенники

Текстильные рабочие

Изготовители рабочей одежды

Работники пищевой, питьевой и табачной промышленности

Производители бумаги и печати

Производители других продуктов

Строители

Художники и декораторы

Водители стационарных двигателей, кранов и т. д.

Рабочие, не включенные в другие места

Работники транспорта и связи

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

Канцелярские работники

Продавцы

Работники службы спорта и отдыха

Администраторы и менеджеры

Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Использование ПО при проведении корреляционного анализа

Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный предполагает вычисление следующих парамет-ров с использованием функций:

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

В заключение

Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.

; ; .

Теперь вычислим значения выборочных средних квадратических отклонений:

https://pandia.ru/text/78/148/images/image443_0.gif" width="413" height="60 src=">.

Корреляционная связь между уровнем https://pandia.ru/text/78/148/images/image434_0.gif" width="25" height="24"> у десятиклассников, тем выше средний уровень успеваемости по математике, и наоборот.

2. Проверка значимости коэффициента корреляции

Так как выборочный коэффициент вычисляется по выборочным данным, то он является случайной величиной. Если , то возникает вопрос: объясняется ли это действительно существующей линейной связью между иhttps://pandia.ru/text/78/148/images/image301_1.gif" width="29" height="25 src=">.gif" width="27" height="25">: (если не известен знак корреляции); или односторонней https://pandia.ru/text/78/148/images/image448_0.gif" width="43" height="23 src=">.gif" width="43" height="23 src="> (если знак корреляции может быть заранее определен).

Способ 1. Для проверки гипотезы используется https://pandia.ru/text/78/148/images/image150_1.gif" width="11" height="17 src=">-критерия Стьюдента по формуле

https://pandia.ru/text/78/148/images/image406_0.gif" width="13" height="15">.gif" width="36 height=25" height="25">.gif" width="17" height="16"> и числе степеней свободы для двустороннего критерия.

Критическая область задается неравенством .

Если https://pandia.ru/text/78/148/images/image455_0.gif" width="99" height="29 src=">, то нулевая гипотеза отклоняется. Делаем выводы:

§ для двусторонней альтернативной гипотезы – коэффициент корреляции значимо отличается от нуля;

§ для односторонней гипотезы – существует статистически значимая положительная (или отрицательная) корреляция.

Способ 2. Можно воспользоваться также таблицей критических значений коэффициента корреляции , из которой находим величину критического значения коэффициента корреляции по числу степеней свободы https://pandia.ru/text/78/148/images/image367_1.gif" width="17 height=16" height="16">.

Если https://pandia.ru/text/78/148/images/image459_0.gif" width="101" height="29 src=">, то делается вывод, что коэффициент корреляции значимо отличатся от 0 и существует статистически значимая корреляция .

Так, одни явления могут одновременно, но независимо друг от друга (совместные события) происходить или изменяться (ложная регрессия). Другие – находиться в причинной зависимости не друг с другом, а по более сложной причинно-следственной связи (косвенная регрессия). Таким образом, при значимом коэффициенте корреляции окончательный вывод о наличии причинно-следственной связи можно сделать только с учетом специфики исследуемой проблемы.

Пример 2. Определить значимость выборочного коэффициента корреляции, вычисленного в примере 1.

Решение.

Выдвинем гипотезу : о том, что в генеральной совокупности отсутствует корреляция. Так как знак корреляции в результате решения примера 1 определен – корреляция положительна, то альтернативная гипотеза является односторонней вида https://pandia.ru/text/78/148/images/image448_0.gif" width="43" height="23 src=">.

Найдем эмпирическое значение -критерия:

https://pandia.ru/text/78/148/images/image461_0.gif" width="167 height=20" height="20">, уровень значимости выберем равным . По таблице «Критические значения -критерия Стьюдента при различных уровнях значимости» находим критическое значение .

Так как https://pandia.ru/text/78/148/images/image434_0.gif" width="25 height=24" height="24"> и средним уровнем успеваемости по математике существует статистически значимая корреляция.

Тестовые задания

1. Отметьте не менее двух правильных ответов. Проверка значимости выборочного коэффициента корреляции основана на статистической проверке гипотезы о том, что …

1) в генеральной совокупности отсутствует корреляция

2) отличие от нуля выборочного коэффициента корреляции объясняется только случайностью выборки

3) коэффициент корреляции значимо отличается от 0

4) отличие от нуля выборочного коэффициента корреляции не случайно

2. Если выборочный коэффициент линейной корреляции , то большему значению одного признака соответствует … большее значение другого признака.

1) в среднем

3) в большинстве наблюдений

4) изредка

3. Выборочный коэффициент корреляции https://pandia.ru/text/78/148/images/image465_0.gif" width="64" height="23 src="> (для объема выборки и уровне значимости 0,05). Можно ли говорить, что существует статистически значимая положительная корреляция между психологическими признаками?

5. Пусть в задаче выявления силы линейной связи между психологическими признаками найден выборочный коэффициент корреляции https://pandia.ru/text/78/148/images/image466_0.gif" width="52 height=20" height="20"> и уровне значимости 0,05). Можно ли говорить, что отличие от нуля выборочного коэффициента корреляции объясняется только случайностью выборки?

Тема 3. коэффициенты ранговой корреляции и ассоциации

1. Коэффициент ранговой корреляции https://pandia.ru/text/78/148/images/image130_3.gif" width="21 height=19" height="19"> и. Число значений признаков (показателей, испытуемых, качеств, черт) может быть любым, но их число должно быть одинаково.

Испытуемые

Ранги признака

Ранги признака

Обозначим разность между рангами по двум переменным для каждого испытуемого через https://pandia.ru/text/78/148/images/image470_0.gif" width="319" height="66">,

где - количество значений ранжируемых признаков, показателей.

Коэффициент корреляции рангов принимает значения в пределах от –1 до +1 и рассматривается как средство быстрой оценки коэффициента корреляции Пирсона .

Для проверки значимости коэффициента корреляции рангов Спирмена (если число значений https://pandia.ru/text/78/148/images/image472_0.gif" width="55" height="29"> зависит от числа и уровня значимости . Если эмпирическое значение больше , то на уровне значимости можно утверждать, что признаки связаны корреляционной зависимостью.

Пример 1. Психолог выясняет, как связаны результаты успеваемости учащихся по математике и физике, результаты которых приведены в виде ранжированного ряда по фамилиям.

Учащийся

Сумма

Успеваемость

по математике

Успеваемость

по физике

Квадрат разности между рангами

Вычислим сумму , тогда коэффициент корреляции рангов Спирмена равен:

Проверим значимость найденного рангового коэффициента корреляции . Найдем критические значения коэффициента ранговой корреляции Спирмена по таблице (см. Приложения) для :

https://pandia.ru/text/78/148/images/image480_0.gif" width="72" height="25"> больше значения = 0,64 и значения 0,79. Это говорит о том, что значение попало в область значимости коэффициента корреляции. Поэтому можно утверждать, что коэффициент корреляции рангов Спирмена значимо отличается от 0; значит, результаты успеваемости учащихся по математике и физике связаны положительной корреляционной зависимостью . Существует значимая положительная корреляция между успеваемостью по математике и успеваемостью по физике: чем лучше успеваемость по математике, тем в среднем лучше результаты по физике, и наоборот.

Сравнивая коэффициенты корреляции Пирсона и Спирмена, отметим, что коэффициент корреляции Пирсона соотносит значения величин , а коэффициент корреляции Спирмена – значения рангов этих величин, поэтому значения коэффициентов Пирсона и Спирмена часто оказываются несовпадающими.

Для более полного осмысления экспериментального материала, получаемого в психологических исследованиях, целесообразно осуществлять подсчет коэффициентов и по Пирсону, и по Спирмену.

Замечание . При наличии одинаковых рангов в ранговых рядах и в числитель формулы вычисления коэффициента корреляции рангов добавляются слагаемые – «поправки на ранги»: ; ,

где https://pandia.ru/text/78/148/images/image130_3.gif" width="21" height="19">;

https://pandia.ru/text/78/148/images/image165_1.gif" width="16" height="19">.

В этом случае формула для вычисления коэффициента ранговой корреляции принимает вид https://pandia.ru/text/78/148/images/image485_0.gif" width="16" height="19">.

Условия применения коэффициента ассоциации .

1. Сравниваемые признаки измерены в дихотомической шкале.

2..gif" width="21" height="19">, , обозначенные символами 0 и 1, приведены в таблице.

Номер наблюдения

← Вернуться

×
Вступай в сообщество «parkvak.ru»!
ВКонтакте:
Я уже подписан на сообщество «parkvak.ru»