Корреляционно-регрессионный анализ: пример, задачи, применение. Метод корреляционно-регрессионного анализа

Подписаться
Вступай в сообщество «parkvak.ru»!
ВКонтакте:

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ - совокупность методов оценки связи между случайными явлениями и событиями, основанных на математической теории корреляции. При этом используются простейшие характеристики, требующие минимума вычислений. Термин «корреляция» обычно отождествляется с понятиями «связь» и «взаимозависимость». Однако они не адекватны. Корреляция является только одним из видов связи между признаками, к-рая проявляется в среднем и носит линейный характер. Если между двумя величинами существует однозначная связь, то такая связь называется функциональной и по одной из величин (причине) можно однозначно определить значение другой величины (следствие). Функц, зависимость является частным выражением случайной (вероятностной, стохастической) зависимости, когда связь проявляется не для каждых значений двух величин, а только в среднем.

К. а. применяется при изучении двух или большего количества случайных величин с целью выявления двух важнейших количественных характеристик: математического уравнения связи между этими величинами и оценки тесноты связи между ними. Исходными данными для определения этих характеристик служат синхронные результаты наблюдения (измерения, эксперимента), т. е. одновременно полученные из опыта статистические данные по признакам, связь между к-рыми изучается. Исходные данные могут быть заданы в виде таблиц с записями результатов наблюдения или их равноценных представлений на магнитной ленте, перфоленте или перфокартах.

К. а. нашел широкое применение в медицине и биологии для определения тесноты и уравнений связи между различными признаками, напр, результаты анализов клин, признаков или специальных обследований, проведенных над здоровыми или больными людьми (см. Корреляция функций организма). Результаты К. а. используются для составления объективных прогнозов заболеваний, оценки состояния больного, течения болезни (см. Прогнозирование). Априори, только по результатам теоретических биол, и мед. исследований, трудно или вовсе невозможно предсказать, как связаны между собой изучаемые признаки. Для того чтобы ответить на этот вопрос, проводят наблюдение или специальный эксперимент.

Двухмерный корреляционный анализ применяется при обработке опытных данных проявления каких-либо двух признаков.

КОРРЕЛЯЦИОННАЯ ТАБЛИЦА. Примечание. В таблице приведены интервалы признаков X и Y, а также частоты их появления (в центре таблицы), подсчитанные по результатам морфометрического анализа микроциркуляторного русла бульбоконъюнктивальной области, где Y - диаметр венулы, а X - диаметр артериолы (в ммк).

Каждый результат опыта представляет собой случайную величину, а объективные закономерности проявляются только во всей совокупности результатов измерения. Поэтому выводы делаются по результатам обработки всей совокупности экспериментальных данных, а не по отдельным значениям, которые являются случайными. Для уменьшения влияния случайного события исходные данные объединяются в группы, что достигается путем составления корреляционной таблицы (см. табл.). Такая таблица содержит интервалы (или их середины) значений двух признаков - У и X, а также частоту появлений значений X и Y в соответствующем интервале этих значений. Эти частоты, подсчитанные по результатам опыта, представляют собой практическую оценку вероятности совместного появления значений X и Y конкретного интервала. Построение корреляционной таблицы является первым этапом обработки исходной информации. Построение корреляционных таблиц и их дальнейшую полную обработку осуществляют быстро на универсальных или специализированных ЭВМ (см. Электронная вычислительная машина). По сгруппированным данным корреляционной таблицы рассчитывают эмпирические характеристики уравнения и тесноты связи. Для определения уравнения связи между Y и X рассчитывают средние значения признака Y в каждом интервале признака X. Т. о. получают для каждого i-го интервала значение Yxi, соединение которых для всех i-интервалов дает эмпирическую линию регрессии, характеризующую форму связи признака Y с признаком X в среднем - график функции Yx= f(x). Если бы между признаками Y и X существовала однозначная связь, уравнения связи было бы достаточно для решения практических и теоретических задач, т. к. с его помощью всегда можно определить значение признака Y, если задано значение X. На практике же связь между Y и X не является однозначной, эта связь является случайной и одному значению X соответствует ряд значений Y. Поэтому необходима еще одна характеристика, измеряющая силу, тесноту связи между Y и X. Такими характеристиками являются дисперсионное (корреляционное) отношение ηух и коэффициент корреляции ryx. Первая из этих величин служит характеристикой тесноты связи между Y и X в произвольной функции f, а ryx - используется только в случае, когда f является линейной функцией.

Величины ηyx и ryx также просто определяются по корреляционной таблице. Расчет обычно ведут в следующем порядке: определяют средние значения обоих признаков X и Y, их средние квадратические отклонения σx и σy, а затем ηxy по формуле:

и ryx по формуле:

где n - общее число опытов, Xcpi - среднее значение X i-го интервала, Ycpj - среднее значение Y j-го интервала, k, l - количество интервалов признаков X и Y соответственно, mi(x) - частота (количество) значений Xcpi. Количественными характеристиками точности определения ηyx и ryx служат их средние квадратические отклонения, которые равны

Значения коэффициента η лежат в пределах между нулем и единицей (0=<ηyx=<1). Если ηyx= 0 (рис., а), то это свидетельствует о том, что признаки Y и X недисперсированы, т. е. регрессия Yx = f(x) не дает связи между признаками Y и X, а при ηyx = 1 существует однозначная связь между Y и X (рис., б, ж). Для ηyx<1 признак Y только частично определяется признаком X, и необходимо изучение дополнительных признаков для повышения достоверности определения Y (рис., г, д, е, и).

Значение коэффициента r лежит в пределах между -1 и +1 (-1=

Многомерный корреляционный анализ - определение уравнения и тесноты связи в случаях, когда число изучаемых признаков больше двух. Так, если Y является сложным признаком и его исход зависит от появления множества признаков Х1, Х2, ..., Хn, то, по экспериментальным данным, должны быть определены: а) уравнение связи признака Y с совокупностью признаков Х1, Х2,..., Хn, т.е. Yx1x2...xn = F(x1, x2...,xn) ; б) теснота связи между Y и совокупностью X1, Х2,..., Хn.

Предварительная обработка результатов наблюдения при многомерном К. а. заключается в том, что для каждой пары признаков определяются значения дисперсионных отношений ηyxi (i = 1,2,..., n) и ηxixj (i!=j) коэффициентов корреляции ryxi и rxixj, а также парные регрессии Yxi = fi(xi). По этим данным затем определяются уравнения множественной регрессии Yx1x2...xn = F (x1,x2,...,xn), множественное дисперсионное отношение ηyx1x2...xn и множественный коэффициент корреляции Ryx1x2...xn. Уравнение множественной регрессии дает возможность определить значение признака Y по совокупности значений X1, Х2, ..., Xn, т. е. при наличии этого уравнения можно прогнозировать значения Y по результатам конкретных значений полученной совокупности (напр., результатов анализа по признакам X1, Х2...Хn). Значение ηyx1x2...xn используется в качестве характеристики тесноты связи между Y и совокупностью признаков Х1, Х2, ...Xn для произвольной функции F, a Ryx1x2...xn - для случая, когда функция F линейна. Коэффициенты ηyx1x2....xn и Ryx1x2...xn принимают значения между нулем и единицей. Включение в рассмотрение при многомерном К. а. дополнительных признаков дает возможность получить значения ηyx1x2...xn, Ryx1x2...xn ближе к единице и таким образом повысить точность прогноза признака Y по множественному уравнению регрессии.

В качестве примера рассмотрим результаты парного К. а., а также уравнение множественной регрессии и множественный коэффициент корреляции между признаками: Y - устойчивый псевдопарез, X1 - латерализация моторного дефекта в конечностях справа, Х2 - то же в конечностях слева, Х3 - вегетативные кризы. Значения дисперсионных отношений и коэффициентов парной корреляции для них будут соответственно ηyx1 = 0,429, ηyx2 = 0,616, ηyx3 = -0,334, a ryx1 = 0,320, ryx2 = 0,586, ryx3 = -0,325. По уравнению множественной линейной регрессии Yх1х2х3 = 0,638 x1 + 0,839 x2 - 0,195 x3. Коэффициент множественной корреляции будет выражаться величиной Ryx1x2x3 =0,721. Из примера видно, что по данным Х1, Х2 и Х3 с достаточной для практики точностью можно прогнозировать устойчивый псевдопарез.

Методы К. а. дают также возможность получить динамические характеристик и. В этом случае изучаемые признаки (напр., ЭКГ, ЭЭГ и т. д.) рассматриваются как случайные функции Y(t) и Х(t). По результатам наблюдения над этими функциями также определяются две важнейшие характеристики: а) оценка оператора связи (математического уравнения) между Y (t) и X(t); б) оценка тесноты связи между ними. В качестве характеристик тесноты связи принимаются дисперсионные и корреляционные функции случайных функций Y (t) и X(t). Эти функции представляют собой обобщение дисперсионных отношений и коэффициентов корреляции. Так, нормированная взаимная дисперсионная функция ηyx(t) каждого фиксированного значения t представляет собой дисперсионное отношение между значениями признаков Y (t) и Х(t). Аналогично нормированная взаимная корреляционная функция Ryx(t) представляет собой для каждого фиксированного значения t коэффициент корреляции между признаками Y(t) и X(t). Характеристика линейной связи (зависимости) для одной и той же исследуемой величины в различные моменты времени носит название автокорреляции.

К. а. является одним из методов решения задачи идентификации, нашедшей широкое распространение при получении математических моделей и автоматизации мед.-биол, исследования и лечения.

Библиография: Вычислительные системы и автоматическая диагностика заболеваний сердца, под ред. Ц. Касереса и Л. Дрейфуса, пер. с англ., М., 1974; Гутман С. Р. О двух моделях электроэнцефалограммы, сходящихся к нормальному случайному процессу, в кн.: Управление и информ. процессы в живой природе, под ред. В. В. Ларина, с. 205, М., 1971; Заславская Р. М., Перепел-кин Е. Г. и Ахметов К. Ж. Корреляционные связи между показателями гемокоагуляции и липидного обмена у больных.стенокардией в течение суток, Кардиология, т. 17, № 6, с. 111, 1977; К р а м e р Г. Математические методы статистики, пер. с англ., М., 1975; Пастернак Е. Б. и др. Исследование электрической активности предсердий при мерцательной аритмии с помощью приборного корреляционного анализа, Кардиология, т. 17, Хя 7, с. 50, 1977; Синицын Б. С. Автоматические корреляторы и их применение, Новосибирск, 1964, библиогр.; У р-б а х В. Ю. Статистический анализ в биологических и медицинских исследованиях, М., 1975, библиогр.

В. Н. Райбман, Н. С. Райбман.

1) корреляционный анализ как средство получения информации;

2) особенности процедур определения коэффициентов линейной и ранговой корреляции.

Корреляционный анализ (от лат. «соотношение», «связь») применяется для проверки гипотезы о статистической зависимости значений двух или нескольких переменных в том случае, если исследователь может их регистрировать (измерять), но не контролировать (изменять).

Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идет о положительной корреляции. Если же рост одной переменной происходит при снижении уровня другой, то говорят оботрицательной корреляции. При отсутствии связи переменных мы имеем дело снулевой корреляцией.

При этом переменными могут быть данные тестирований, наблюдений, экспериментов, социально-демографические характеристики, физиологические параметры, особенности поведения и т. д. К примеру, использование метода позволяет нам дать количественно выраженную оценку взаимосвязи таких признаков, как: успешность обучения в вузе и степень профессиональных достижений по его окончании, уровень притязаний и стресс, количество детей в семье и качества их интеллекта, черты личности и профессиональная ориентация, продолжительность одиночества и динамика самооценки, тревожность и внутригрупповой статус, социальная адаптированность и агрессивность при конфликте...

В качестве вспомогательных средств, процедуры корреляции незаменимы при конструировании тестов (для определения валидности и надежности измерения), а также как пилотажные действия по проверке пригодности экспериментальных гипотез (факт отсутствия корреляции позволяет отвергнуть предположение о причинно-следственной связи переменных).

Усиление интереса в психологической науке к потенциалу корреляционного анализа обусловлено целым рядом причин. Во-первых, становится допустимым изучение широкого круга переменных, экспериментальная проверка которых затруднена или невозможна. Ведь по этическим соображениям, к примеру, нельзя провести экспериментальные исследования самоубийств, наркомании, деструктивных родительских воздействий, влияния авторитарных сект. Во-вторых, возможно получение за короткое время ценных обобщений данных о больших количествах исследуемых лиц. В-третьих, известно, что многие феномены изменяют свою специфику во время строгих лабораторных экспериментов. А корреляционный анализ предоставляет исследователю возможность оперировать информацией, полученной в условиях, максимально приближенных к реальным. В-четвертых, осуществление статистического изучения динамики той или иной зависимости нередко создает предпосылки к достоверному прогнозированию психологических процессов и явлений.

Однако следует иметь в виду, что применение корреляционного метода связано и с весьма существенными принципиальными ограничениями.

Так, известно, что переменные вполне могут коррелировать и при отсутствии причинно-следственной связи между собой.

Это иногда возможно в силу действия случайных причин, при неоднородности выборки, из-за неадекватности исследовательского инструментария поставленным задачам. Такая ложная корреляция способна стать, скажем, «доказательством» того, что женщины дисциплинированнее мужчин, подростки из неполных семей более склонны к правонарушениям, экстраверты агрессивнее интровертов и т. п. Действительно, стоит отобрать в одну группу мужчин, работающих в высшей школе, и женщин, предположим, из сферы обслуживания, да еще и протестировать тех и других на знание научной методологии, то мы получим выражение заметной зависимости качества информированности от пола. Можно ли доверять такой корреляции?

Еще чаще, пожалуй, в исследовательской практике встречаются случаи, когда обе переменные изменяются под влиянием некоей третьей или даже нескольких скрытых детерминант.

Если мы обозначим цифрами переменные, а стрелками - направления от причин к следствиям, то увидим целый ряд возможных вариантов:

1 2 3 4

1 2 3 4

1 2 3 4

1 2 3 4 и т. д.

Невнимание к воздействию реальных, но неучтенных исследователями факторов позволило представить обоснования того, что интеллект - сугубо наследуемое образование (психогенетический подход) или, напротив, что он обусловлен лишь влиянием социальных составляющих развития (социогенетический подход). В психологии, следует заметить, нераспространены феномены, имеющие однозначную первопричину.

Кроме того, факт наличия взаимосвязи переменных не дает возможности выявить по итогам корреляционного исследования причину и следствие даже в тех случаях, когда промежуточных переменных не существует.

Например, при изучении агрессивности детей было установлено, что склонные к жестокости дети чаще сверстников смотрят фильмы со сценами насилия. Означает ли это, что такие сцены развивают агрессивные реакции или, наоборот, подобные фильмы привлекают самых агрессивных детей? В рамках корреляционного исследования дать правомерный ответ на этот вопрос невозможно.

Необходимо запомнить: наличие корреляций не является показателем выраженности и направленности причинно-следственных отношений.

Другими словами, установив корреляцию переменных, мы можем судить не о детерминантах и производных, а лишь о том, насколько тесно взаимосвязаны изменения переменных и каким образом одна из них реагирует на динамику другой.

При использовании данного метода оперируют той или иной разновидностью коэффициента корреляции. Его числовое значение обычно изменяется от -1 (обратная зависимость переменных) до +1 (прямая зависимость). При этом нулевое значение коэффициента соответствует полному отсутствию взаимосвязи динамики переменных.

Например, коэффициент корреляции +0,80 отражает наличие более выраженной зависимости между переменными, чем коэффициент +0,25. Аналогично, зависимость между переменными, характеризуемая коэффициентом -0,95, гораздо теснее, чем та, где коэффициенты имеют значения +0,80 или + 0,25 («минус» указывает нам только на то, что рост одной переменной сопровождается уменьшением другой).

В практике психологических исследований показатели коэффициентов корреляции обычно не достигают +1 или -1. Речь может идти только о той или иной степени приближения к данному значению. Часто корреляция считается выраженной, если ее коэффициент выше 0,60. При этом недостаточной корреляцией, как правило, считаются показатели, располагающиеся в интервале от -0,30 до +0,30.

Однако, сразу следует оговорить, что интерпретация наличия корреляции всегда предполагает определение критических значений соответствующего коэффициента. Рассмотрим этот момент более подробно.

Вполне может получиться так, что коэффициент корреляции равный +0,50 в некоторых случаях не будет признан достоверным, а коэффициент, составляющий +0,30, окажется при определенных условиях характеристикой несомненной корреляции. Многое здесь зависит от протяженности рядов переменных (т. е. от количества сопоставляемых показателей), а также от заданной величины уровня значимости (или от принятой за приемлемую вероятность ошибки в расчетах).

Ведь, с одной стороны, чем больше выборка, тем количественно меньший коэффициент будет считаться достоверным свидетельством корреляционных отношений. А с другой стороны, если мы готовы смириться со значительной вероятностью ошибки, то можем посчитать за достаточную небольшую величину коэффициента корреляции.

Существуют стандартные таблицы с критическими значениями коэффициентов корреляции. Если полученный нами коэффициент окажется ниже, чем указанный в таблице для данной выборки при установленном уровне значимости, то он считается статистически недостоверным.

Работая с такой таблицей, следует знать, что пороговой величиной уровня значимости в психологических исследованиях обычно считается 0,05(или пять процентов). Разумеется, риск ошибиться будет еще меньше, если эта вероятность составляет 1 на 100 или, еще лучше, 1 на 1000.

Итак, не сама по себе величина подсчитанного коэффициента корреляции служит основанием для оценки качества связи переменных, а статистическое решение о том, можно ли считать вычисленный показатель коэффициента достоверным.

Зная это, обратимся к изучению конкретных способов определения коэффициентов корреляции.

Значительный вклад в разработку статистического аппарата корреляционных исследований внес английский математик и биолог Карл Пирсон (1857-1936), занимавшийся в свое время проверкой эволюционной теории Ч. Дарвина.

Обозначение коэффициента корреляции Пирсона (r) происходит от понятия регрессии - операции по сведению множества частных зависимостей между отдельными значениями переменных к их непрерывной (линейной) усредненной зависимости.

Формула для расчета коэффициента Пирсона имеет такой вид:

где x , y - частные значения переменных,-(сигма) - обозначение суммы, а
- средние значения тех же самых переменных. Рассмотрим порядок использования таблицы критических значений коэффициентов Пирсона. Как мы видим, в левой ее графе указано число степеней свободы. Определяя нужную нам строчку, мы исходим из того, что искомая степень свободы равнаn -2, гдеn - количество данных в каждом из коррелируемых рядов. В графах же, расположенных с правой стороны, указаны конкретные значения модулей коэффициентов.

Число степеней «свободы»

Уровни значимости

Причем, чем правее расположен столбик чисел, тем выше достоверность корреляции, увереннее статистическое решение о её значимости.

Если у нас, например, коррелируют два ряда цифр по 10 единиц в каждом из них и получен по формуле Пирсона коэффициент, равный +0,65, то он будет считаться значимым на уровне 0,05 (так как больше критического значения в 0,632 для вероятности 0,05 и меньше критического значения 0,715 для вероятности 0,02). Такой уровень значимости свидетельствует о существенной вероятности повторения данной корреляции в аналогичных исследованиях.

Теперь приведем пример вычисления коэффициента корреляции Пирсона. Пусть в нашем случае необходимо определить характер связи между выполнением одними и теми же лицами двух тестов. Данные по первому из них обозначены как x , а по второму - какy .

Для упрощения расчетов введены некоторые тождества. А именно:

При этом мы имеем следующие результаты испытуемых (в тестовых баллах):

Испытуемые

Четвертый

Одиннадцатый

Двенадцатый


;

;

Заметим, что число степеней свободы равно в нашем случае 10. Обратившись к таблице критических значений коэффициентов Пирсона, узнаем, что при данной степени свободы на уровне значимости 0,999 будет считаться достоверным любой показатель корреляции переменных выше, чем 0,823. Это дает нам право считать полученный коэффициент свидетельством несомненной корреляции рядов x иy .

Применение линейного коэффициента корреляции становится неправомерным в тех случаях, когда вычисления производятся в пределах не интервальной, а порядковой шкалы измерения. Тогда используют коэффициенты ранговой корреляции. Разумеется, результаты при этом получаются менее точными, так как сопоставлению подлежат не сами количественные характеристики, а лишь порядки их следования друг за другом.

Среди коэффициентов ранговой корреляции в практике психологических исследований довольно часто применяют тот, который предложен английским ученым Чарльзом Спирменом (1863-1945), известным разработчиком двухфакторной теории интеллекта.

Используя соответствующий пример, рассмотрим действия, необходимые для определения коэффициента ранговой корреляции Спирмена .

Формула его вычисления выглядит следующим образом:

;

где d -разности между рангами каждой переменной из рядовx иy ,

n - число сопоставляемых пар.

Пусть x иy - показатели успешности выполнения испытуемыми некоторых видов деятельности(оценки индивидуальных достижений). При этом мы располагаем следующими данными:

Испытуемые

Четвертый

Заметим, что вначале производится раздельное ранжирование показателей в рядах x иy . Если при этом встречается несколько равных переменных, то им присваивается одинаковый усредненный ранг.

Затем осуществляется попарное определение разности рангов. Знак разности несущественен, так как по формуле она возводится в квадрат.

В нашем примере сумма квадратов разностей рангов
равна 178. Подставим полученное число в формулу:

Как мы видим, показатель коэффициента корреляции в данном случае составляет ничтожно малую величину. Тем не менее, сопоставим его с критическими значениями коэффициента Спирмена из стандартной таблицы.

Вывод: между указанными рядами переменных x иy корреляция отсутствует.

Надо заметить, что использование процедур ранговой корреляции предоставляет исследователю возможность определять соотношения не только количественных, но и качественных признаков, в том, разумеется, случае, если последние могут быть упорядочены по возрастанию выраженности(ранжированы).

Нами были рассмотрены наиболее распространенные, пожалуй, на практике способы определения коэффициентов корреляции. Иные, более сложные или реже применяемые разновидности данного метода при необходимости можно найти в материалах пособий, посвященных измерениям в научных исследованиях.

ОСНОВНЫЕ ПОНЯТИЯ: корреляция; корреляционный анализ; коэффициент линейной корреляции Пирсона; коэффициент ранговой корреляции Спирмена; критические значения коэффициентов корреляции.

Вопросы для обсуждения:

1. Каковы возможности корреляционного анализа в психологических исследованиях? Что можно и что нельзя выявить с помощью данного метода?

2. Какова последовательность действий при определении коэффициентов линейной корреляции Пирсона и ранговой корреляции Спирмена?

Упражнение 1:

Установите, являются ли статистически достоверными следующие показатели корреляции переменных:

а) коэффициент Пирсона +0,445 для данных двух тестирований в группе, состоящей из 20 испытуемых;

б) коэффициент Пирсона -0,810 при числе степеней свободы равном 4;

в) коэффициент Спирмена +0,415 для группы из 26 человек;

г) коэффициент Спирмена +0,318 при числе степеней свободы равном 38.

Упражнение 2:

Определите коэффициент линейной корреляции между двумя рядами показателей.

Ряд 1: 2, 4, 5, 5, 3, 6, 6, 7, 8, 9

Ряд 2: 2, 3, 3, 4, 5, 6, 3, 6, 7, 7

Упражнение 3:

Сделайте выводы о статистической достоверности и степени выраженности корреляционных отношений при числе степеней свободы равном 25, если известно, что
составляет: а) 1200; б) 1555; в) 2300

Упражнение 4:

Выполните всю последовательность действий, необходимых для определения коэффициента ранговой корреляции между предельно обобщёнными показателями успеваемости школьников («отличник», «хорошист» и т.д.) и характеристиками выполнения ими теста умственного развития (ШТУР). Сделайте интерпретацию полученных показателей.

Упражнение 5:

С помощью коэффициента линейной корреляции рассчитайте показатели ретестовой надежности имеющегося в вашем распоряжении теста интеллекта. Выполните исследование в студенческой группе с интервалом времени между тестированиями в 7-10 дней. Сформулируйте выводы.

Основоположником теории корреляции считаются английские биометрики Ф.Гальтон (1822-1911) и К.Пирсон (1857-1936). Термин «корреляция» означает соотношение, соответствие. Представление о корреляции как о взаимозависимости случайных переменных величин лежит в основе статистической теории корреляции - изучение зависимости вариации признака от окружающих условий. Одни признаки выступают в роли влияющих (факторных), другие - на которые влияют, результативных. Зависимости между признаками могут быть функциональными и корреляционными. Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины. Каждому значению признака-фактора соответствует определенное значение результативного признака. В корреляционных связях между изменением факторного и результативного признака нет полного соответствия. В сложном взаимодействии находится сам результативный признак. Поэтому результаты корреляционного анализа имеют значение в данной связи, а интерпретация этих результатов в общем виде требует построения системы корреляционных связей. Они характеризуются множеством причин и следствий и с их помощью устанавливается тенденция изменения результативного признака при изменении величины факторного признака. Например, на производительность труда влияют факторы степени совершенствования техники и технологии, уровень механизации и автоматизации труда, специализации производства, текучесть кадров и т.д.

В природе и обществе явления и события протекают по характеру корреляционной связи, когда при изменении величины одного признака существует тенденция изменения другого признака. Корреляционная связь - это частный случай статистической связи. Корреляционный анализ используется при установлении тесноты зависимости между явлениями, процессами, объектами.

Целью исследования часто бывает установление взаимосвязи (корреляции) между признаками. Знание зависимости дает возможность решать кардинальную задачу любого исследования - возможность предвидеть, прогнозировать развитие ситуации при изменении влияющего фактора. С помощью корреляции можно дать лишь формальную оценку взаимосвязей. Поэтому прежде чем приступать к вычислению коэффициентов корреляции между любыми признаками, следует теоретически установить, имеется ли между этими признаками взаимосвязь. Ведь формально статистика может доказать несуществующие связи, например, между высотой здания в городе и урожайностью пшеницы в фермерских хозяйствах.

Связь между явлениями (корреляция) определяется путем постановки опытов, статистического анализа. Корреляцию не следует отождествлять с причинностью. Однако необходимо иметь в виду, что доказательство математической связи должно опираться на реальную зависимость между явлениями. Например, минерализация воды понижается с севера на юг Беларуси, в этом же направлении понижается содержание питательных веществ в почве. Между рассматриваемыми показателями может быть получена положительная достоверная зависимость. Однако степень минерализации воды не определяет оптимальное содержание питательных веществ в почве. Иначе в ландшафтах пустынь плодородие было бы максимальным, так как здесь максимальная минерализация воды (почвенно-грунтовые воды солоноватые), а это противоречит истине. Поэтому проведение подобной связи в ландшафтах пустынь бессмысленно. Лучшая посуточная аренда квартир различного уровня комфорта от хозяев без комиссионных вы сможете найти на сайте piter.stay24.ru. Удобный поиск позволит вам легко быстро найти нужную квартиру под ваши требования, потратив при этом минимум времени.

Любой показатель связи служит приближенной оценкой рассматриваемой зависимости и не является гарантией существования жесткой (функциональной) соподчиненности. Отсутствие жесткой зависимости в природе и обществе способствует саморегуляции процессов, явлений, систем

По направлению связь может быть прямой и обратной; по характеру - функциональной или статистической (корреляционной); по величине - слабой, средней или сильной; по форме - линейной и нелинейной; по количеству коррелируемых признаков - парной и множественной.

Функциональная зависимость характерна для геометрических форм, технических систем, когда каждому значению одного признака соответствует точное значение другого. Это пример взаимосвязи площади прямоугольника и длины его одной из сторон. Такая зависимость полная или исчерпывающая.

Выделяют несколько видов парной корреляционной связи:

·параллельно-соотносительную, или ассоциативную, когда оба признака изменяются сопряжено, частично под действием общих причин и следствий (приуроченность растительности и почв к определенным формам рельефа; развития промышленности и рост населения к сырьевым ресурсам);

·субпричинную, когда один фактор выступает как отдельная причина сопряженного изменения признака (связь биомассы с количеством осадков; рост населения и рождаемости);

·взаимоупреждающую, когда причина и следствие, находясь в устойчивой взаимной связи, последовательно влияют друг на друга (влажность воздуха и осадки).

Если на признак влияет несколько факторов, то приходится оценивать множественную корреляцию. Множественная корреляция служит основой выявления связей между признаками, но требует строгой нормальности и прямолинейности распределения, поэтому использование ее может быть затруднено. С ростом числа переменных объем вычислительных работ увеличивается пропорционально квадрату числа переменных. В этом случае труднее оценивать значимость результатов, так как увеличиваются ошибки коэффициентов корреляции. Практически в таких случаях ограничиваются изучением лишь главных факторов. Однако характер влияния главных факторов на признак более детально и точно исследуют путем факторного анализа.

В практической работе по установлению корреляции между признаками и явлениями необходимо придерживаться следующей последовательности:

·на основании проведенных исследований предварительно определяют, существует ли связь между рассматриваемыми признаками;

·если связь между ними существует, устанавливают ее форму, направление и тесноту, используя график.

В начале составляются сопряженные вариационные ряды, в которых следует определить аргумент х и функцию у:

По сопряженным вариантам строится график, который помогает установить вид зависимости между аргументом и функцией. От формы корреляционной связи зависит дальнейшая обработка экспериментальных или статистических данных. Линейная зависимость предполагает вычисление коэффициента корреляции r, а нелинейная - корреляционного отношения η (рис. 5.1). Степень рассеяния частот или вариант относительно линии регрессии на графике указывает ориентировочно на тесноту связи: чем меньше рассеяние, тем сильнее связь (рис. 5.2).

Корреляционный анализ решает следующие задачи:

·установление направления и формы связи,

·оценка тесноты связи,

·оценка репрезентативности статистических оценок взаимосвязи,

· определение величины детерминации (доли взаимовлияния) коррелируемых факторов.

Рис. 5.1. Форма корреляционной связи:

а - прямая линейная; б - обратная линейная; в - парабалическая; г - гиперболическая

Для оценки связи используют следующие численные критерии (коэффициенты) корреляционной связи:

·коэффициент корреляции (r) при линейной зависимости,

·корреляционное отношение (η) при нелинейной зависимости,

·коэффициенты множественной регрессии,

·ранговые коэффициенты линейной корреляции Пирсона или Кендэла.

Изучение реальной действительности показывает, что практически каждое общественное явление находится в тесной связи и взаимодействии с другими явлениями, какими бы случайными они не казались на первый взгляд. Так, например, уровень урожайности сельскохозяйственных культур зависит от множества природных и экономических факторов, тесно связанных между собой.

Исследования и измерения взаимосвязей и взаимозависимостей социально-экономических явлений является одной из важнейших задач статистики.

Для исследования взаимосвязей между явлениями статистика использует ряд методов и приемов: статистические группировки (простые и комбинационные). индексный, корреляционный и дисперсионный анализ, балансовый, табличный, графический и др. Содержание, специфика и возможности применения некоторых из перечисленных методов уже были рассмотрены в предыдущих разделах учебника. Индексный и графический методы рассматриваются соответственно в 11 и 12 главах.

Наряду с уже рассмотренными методами изучения взаимосвязей особое место занимает метод корреляции, который является логическим продолжением таких методов как аналитическое группировки, дисперсионный анализ и сопоставление параллельных рядов. В сочетании с этими методами он предоставляет статистическому анализу законченный, завершенный характер.

Основателями теории корреляции являются английские статистики Ф.Гальтон (1822-1911 гг.) и К.Пірсон (1857-1936 гг.).

Срок корреляция происходит от английского слова correlation - соотношение, соответствие (взаимосвязь, взаимозависимость) между признаками, которая проявляется при массовом наблюдении изменения средней величины одного признака в зависимости от значения другой. Признаки, связанные между собой корреляционным связью, называют корельованими.

Корреляционный анализ дает возможность измерить степень влияния факторных признаков на результативные, установить единую меру тесноты связи и роль изучаемого фактора (факторов) в общем изменении результативного признака. Корреляционный метод позволяет получить количественные характеристики степени связи между двумя и большим числом признаков, а потому в отличие от рассмотренных выше методов, дает более широкое представление о связи между ними.

Связи между факторами достаточно разнообразны. При этом одни признаки выступают в роли факторов, действующих на другие, вызывая их изменение, вторые-в роли действия этих факторов. Первые из них называют факторными признаками, вторые -результативными.

Исследуя связи между признаками, необходимо выделить прежде всего два вида связей: 1) функциональный (полный) и 2) корреляционная (статистическая) связь.

Функциональным называют такую связь между признаками, при которой каждому значению одной переменной (аргумента) соответствует строго определенное значение другой переменной (функции). Такие связи наблюдаются в математике, физике, химии, астрономии и других науках.

Например, площадь круга (8 = яР2) и длина окружности (С = 27ГЇР) полностью определяется величиной радиуса, площади треугольника и прямоугольника - длина их сторон и т.д. Так, с увеличением радиуса окружности на 1 см его длина увеличивается на 6,28 см, на 2 см - на 12,56 см и т.д.

В сельскохозяйственном производстве примером функциональной связи может быть связь между выручкой от продажи продукции, цене реализации 1 ц и количеством реализованной продукции; валовому сбору, урожайности и размеру посевной площади; фондоотдачей, стоимостью валовой продукции и основных фондов; заработной платой и количеством отработанного времени при повременной оплате и т.д.

Функциональная связь проявляется как в совокупности в целом, так и в каждой ее единицы абсолютно точно и выражается с помощью аналитических формул.

В социально-экономических явлениях функциональные связи между признаками случаются редко. Здесь чаще всего имеют место следующие связи между переменными величинами, при которых численному значению одной из них соответствует несколько значений другого. Такая связь между признаками получил название корреляционной (статистической) связи. Например, известно, что с увеличением доз минеральных удобрений и улучшением их структуры (соотношения), как правило, урожайность сельскохозяйственных культур повышается, но хорошо известно, что прирост урожайности в каждом отдельном случае будет разным при одинаковых нормах внесения удобрений. Кроме того, одни и те же нормы удобрений, даже при очень выровненных условиях, часто по-разному влияют на урожайность. Кроме самих удобрений на величину формирования урожайности влияют также другие факторы, прежде всего, такие как качество почвы, осадки, сроки и способы сева и уборки и т.д. Известна закономерность между урожайностью и удобрениями проявится при достаточно большом количестве наблюдений и при сравнении достаточно большого количества средних значений результативного и факторного признаков.

Примером корреляционной связи в сельскохозяйственном производстве может быть связь между продуктивностью животных и уровнем кормления, качеством кормов, породностью скота; между стажем работы и производительностью труда рабочих и т.д.

Корреляционная связь является неполным, он проявляется при большом количестве наблюдений, при сравнении средних значений результативного и факторного признаков. В этом отношении выявление корреляционных зависимостей связано с действием закона больших чисел: только при достаточно большом количестве наблюдений индивидуальные особенности и второстепенные факторы сгладятся и зависимость между результативным и факторным признаками, если она имеет место, окажется достаточно отчетливо.

С помощью корреляционного анализа решают следующие основные задачи:

а) определение среднего изменения результативного признака под влиянием одного или нескольких факторов (в абсолютном или относительном выражении);

б) характеристика степени зависимости результативного признака от одного из факторов при фиксированном значении других факторов, включенных в корреляционной модели;

в) определение тесноты связи между результативными и факторными признаками (как со всеми факторами, так и с каждым фактором в отдельности при исключении влияния других);

г) определение и разложения общего объема вариации результативного признака на соответствующие части и установление роли каждого отдельного фактора в этой вариации;

д) статистическая оценка выборочных показателей корреляционной связи. Корреляционная связь выражается соответствующими математическими уравнениями. По направлению связь между корелюючими признакам может быть прямым и обратным. При прямой связи оба признака изменяются в одном направлении, то есть с увеличением факторного признака возрастает результативная и наоборот (например, связь между качеством почвы и урожайностью, уровнем кормления и продуктивностью животных, стажем работы и производительностью труда). При обратном связи оба признака изменяются в разных направлениях (например, связь между урожайностью и себестоимостью продукции, производительностью труда и себестоимостью продукции).

По форме или аналитическим выражением различают связи прямолинейные (или просто линейные) и нелинейные (или криволинейные). Если связь между признаками выражается уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой (параболы, гиперболы, показательной, степенной и т.д.), то такую связь называют нелинейной или криволинейным.

в Зависимости от количества исследуемых признаков различают парную (простую) и множественную корреляцию. При парной корреляции изучают связь между двумя признаками (результативным и факторным), при множественной корреляции - связь между тремя и большим числом признаков (результативным и двумя и большим числом факторов).

С помощью метода корреляционного анализа решается две главных задачи: 1) определение формы и параметров уравнения связи; 2) измерение тесноты связи.

Первая задача решается нахождением уравнения связи и определению его параметров. Второе - с помощью расчета различных показателей тесноты связи (коэффициент корреляции, корреляционного отношения, индекса корреляции и др.).

Схематично корреляционный анализ можно разделить на пять этапов:

1) постановка задачи, установление наличия связи между исследуемыми признаками;

2) отбор наиболее существенных факторов для анализа;

3) определение характера связи, его направления и формы, выбор математического уравнения для выражения существующих связей;

4) расчет числовых характеристик корреляционной связи (определение параметров уравнения и показателей тесноты связи);

5) статистическая оценка выборочных показателей связи.

Научно обоснованное применение корреляционного метода требует прежде всего глубокого понимания сущности взаимосвязей социально-экономических явлений. Сам метод не устанавливает наличие и причин возникновения связей между изучаемыми явлениями, его назначение состоит в их количественном измерении. На первом этапе корреляционного анализа осуществляется общее ознакомление с исследуемым объектом и явлениями, уточняются цель и задачи исследования, устанавливается теоретическая возможность причинно-следственной связи между признаками.

Установление причинных зависимостей в изучаемом явлении предшествует собственно корреляционному анализа. Поэтому применению методов корреляции должен предшествовать глубокий теоретический анализ, который охарактеризует основной процесс, протекающий в исследуемом явлении, определит существенные связи между отдельными его сторонами и характер их взаимодействия.

Предварительный анализ данных создает основу для формулирования конкретной задачи исследования связей, отбора важнейших факторов, установление возможной формы взаимосвязи признаков и тем самым приводит к математической формализации - к выбору математического уравнения, которое наиболее полно реализует существующие связи.

Одним из важнейших вопросов корреляционного анализа является отбор результативной и факторной (факторных) признаков. Факторные и результативные признаки, отбираемые для корреляционного анализа, должны быть существенными, первые должны непосредственно влиять на другие. Отбор факторов для включения их в корреляционную модель должен базироваться прежде всего на теоретических основах и практическом опыте анализа исследуемого социально-экономического явления. Большую помощь в решении этой задачи могут оказать такие статистические приемы и методы, как сопоставление параллельных рядов, построение таблиц распределения численностей по двум признакам (корреляционных таблиц, построение статистических группировок как по результативным признаком с анализом взаимосвязанных с ним факторов, так и по факторным признаком (или комбинацией факторных признаков) с анализом их влияния на результативный признак.

Отбор факторов для парных корреляционных моделей не сложный: из множества факторов, влияющих на результативный признак, отбирается один из важнейших факторов, который в основном определяет вариацию результативного признака или же фактор, существенность влияния которого на результативный признак предполагается изучить или проверить. Отбор факторов для множественных корреляционных моделей имеет ряд особенностей и ограничений. Они будут рассмотрены при изложении вопросов множественной корреляции.

Одной из главных проблем построения корреляционной модели является определение формы связи и на этой основе установление типа аналитической функции, отражающей механизм связи результативного признака с факторным (факторными). Под формой корреляционной связи понимают тип аналитического уравнения, выражающего зависимость между исследуемыми признаками.

Выбор того или иного уравнения для исследования связей между признаками является наиболее трудным и ответственным заданием, от которого зависят результаты корреляционного анализа. Все дальнейшие найретельніші расчеты могут быть обезцінені, если форма связи выбрана неверно. Важность этого этапа заключается в том, что правильно установленная форма связи позволяет подобрать и построить наиболее адекватную модель и на основе ее решения получить статистически достоверные и надежные характеристики.

Установление формы связи между признаками в большинстве случаев обосновывается теорией или практическим опытом предыдущих исследований. Если форма связи неизвестна, то при парной корреляции математическое уравнение может быть установлено с помощью составления корреляционных таблиц, построения статистических группировок, просмотра различных функций на ЭВМ и выбор такого уравнения, которое дает наименьшую сумму квадратов отклонений фактических данных от выровненных (теоретических) значений и др.

в Зависимости от исходных данных теоретической линией регрессии могут быть различные типы кривых или прямая линия. Так, если изменение результативного признака под влиянием фактора характеризуется постоянными приращениями, то это указывает на линейный характер связи, если же изменения результативного признака под влиянием фактора характеризуется постоянными коэффициентами роста, то есть основание предположить криволинейный связь.

Особое место в обосновании формы связи при проведении корреляционного анализа относится графиков, построенных в системе прямоугольных координат на основе эмпирических данных. Графическое изображение фактических данных дает наглядное представление о наличии и форму связи между исследуемыми признаками.

Согласно правилам математики при построении графика на оси абсцисс откладывают значения факторного признака, а на оси ординат - значения результативного признака. Отложив на пересечении соответствующих значений двух признаков точки, получим точечный график, который называют корреляционным полем. По характеру размещения точек на корреляционному поле делают вывод о направление и форму связи. Достаточно взглянуть на график, чтобы прийти к выводу о наличие и форму связи между признаками. Если точки концентрируются вокруг мнимой оси направленного слева, снизу, направо, вверх, то связь прямая, если к напротив слева, сверху, направо, вниз - связь обратная. Если точки разбросаны по всему полю, то это свидетельствует о том, что связь между признаками отсутствует или очень слабый. Характер размещения точек на корреляционному поле указывает также и на наличие прямолинейного или криволинейного связи между исследуемыми признаками.

С помощью графика подбирают соответствующее математическое уравнение для количественной оценки связи между результативным и факторным признаками. Уравнение, отражающее связь между признаками, называют уравнением регрессии или корреляционным уравнением. Если уравнение регрессии связывает только два признака, то оно называется уравнением парной регрессии. Если уравнение связи отражает зависимость результативного признака от двух и более факторных признаков, оно называется уравнением множественной регрессии. Кривые, построенные на основе уравнений регрессии, называют кривыми регрессии или линиями регрессии.

Различают эмпирическую и теоретическую линии регрессии. Если на корреляционному поле соединить точки отрезками прямой линии, то получим ломаную линию с некоторой тенденцией, которая называется эмпирической линией регрессии. в Теоретической линией регрессии называется та линия, вокруг которой концентрируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи. Теоретическая линия регрессии должна отражать изменение средних величин результативного признака по мере изменения величин факторного признака при условии полного взаємопогашення всех других - случайных по отношению к фактору - причин. Следовательно, эта линия должна быть проведена так, чтобы сумма отклонений точек корреляционного поля от соответствующих точек теоретической линии равнялась нулю, а сумма квадратов отклонений была бы минимальной величине. Поиск, построение, анализ и практическое применение теоретической линии регрессии называют регрессионным анализом.

По эмпирической линией регрессии не всегда удается установить форму связи и добрать уравнения регрессии. В таких случаях строят и решают различные уравнения регрессии. Затем оценивают их адекватность и подбирают такое уравнение, которое обеспечивает наилучшую аппроксимацию (приближение) фактических данных к теоретическим и достаточную статистическую достоверность и надежность.

Если подходить строго, регресійно-корреляционный анализ следует расчленить на регрессионный и корреляционный. Регрессионный анализ решает вопрос построения, разрешения и оценки уравнений регрессии, а при корреляционному анализе этих вопросов присоединяется еще круг вопросов, связанных с определением тесноты связи между результативным и факторным (факторными) признакам. В дальнейшем изложении регресійно-корреляционный анализ рассматривается как единое целое и называется просто корреляционный анализ.

Чтобы результаты корреляционного анализа нашли практическое применение и дали научно обоснованные результаты, должны выполняться определенные требования в отношении объекта исследования и качества исходной статистической информации. Основные из этих требований следующие:

Качественная однородность исследуемой совокупности, что предполагает близость формирование результативных и факторных признаков. Необходимость выполнения этого условия вытекает из содержания параметров уравнения связи. Из математической статистики известно, что параметры являются средними величинами. В качественно однородной совокупности они будут типичными характеристиками, в качественно разнородной - искаженными, что искажают характер связи. Количественная однородность совокупности заключается в отсутствии единиц наблюдения, которые за своими числовыми характеристиками существенно отличаются от основной массы данных. Такие единицы наблюдения следует исключать из совокупности и изучать отдельно;

Достаточно большое число наблюдений, поскольку связи между признаками обнаруживаются только в результате действия закона больших чисел. Количество единиц наблюдения должна в 6 - 8 раз превышать число включенных в модель факторов;

Случайность и независимость отдельных единиц совокупности друг от друга. Это означает, что значения признаков в одних единиц совокупности не должны зависеть от значений других единиц данной совокупности;

Устойчивость и независимость действия отдельных факторов;

Постоянство дисперсии результативного признака при изменении факторных признаков; - нормальное распределение признаков.

При наличии двух рядов значений, подвергающихся ранжированию, рационально рассчитывать ранговую корреляцию Спирмена.

Такие ряды могут представляться:

  • парой признаков, определяемых в одной и той же группе исследуемых объектов;
  • парой индивидуальных соподчиненных признаков, определяемых у 2 исследуемых объектов по одинаковому набору признаков;
  • парой групповых соподчиненных признаков;
  • индивидуальной и групповой соподчиненностью признаков.

Метод предполагает проведение ранжирования показателей в отдельности для каждого из признаков.

Наименьшее значение имеет наименьший ранг.

Этот метод относится к непараметрическому статистическому методу, предназначенному для установления существования связи изучаемых явлений:

  • определение фактической степени параллелизма между двумя рядами количественных данных;
  • оценка тесноты выявленной связи, выражаемой количественно.

Корреляционный анализ

Статистический метод, предназначенный для выявления существования зависимости между 2 и более случайными величинами (переменными), а также ее силы, получил название корреляционного анализа.

Получил свое название от correlatio (лат.) – соотношение.

При его использовании возможны варианты развития событий:

  • наличие корреляции (положительная либо отрицательная);
  • отсутствие корреляции (нулевая).

В случае установления зависимости между переменными речь идет об их коррелировании. Иными словами, можно сказать, что при изменении значения Х, обязательно будет наблюдаться пропорциональное изменение значения У.

В качестве инструментов используются различные меры связи (коэффициенты).

На их выбор оказывает влияние:

  • способ измерения случайных чисел;
  • характер связи между случайными числами.

Существование корреляционной связи может отображаться графически (графики) и с помощью коэффициента (числовое отображение).

Корреляционная связь характеризуется такими признаками:

  • сила связи (при коэффициенте корреляции от ±0,7 до ±1 – сильная; от ±0,3 до ±0,699 – средняя; от 0 до ±0,299 – слабая);
  • направление связи (прямая или обратная).

Цели корреляционного анализа

Корреляционный анализ не позволяет установить причинную зависимость между исследуемыми переменными.

Он проводится с целью:

  • установления зависимости между переменными;
  • получения определенной информации о переменной на основе другой переменной;
  • определения тесноты (связи) этой зависимости;
  • определение направления установленной связи.

Методы корреляционного анализа


Данный анализ может выполняться с использованием:

  • метода квадратов или Пирсона;
  • рангового метода или Спирмена.

Метод Пирсона применим для расчетов требующих точного определения силы, существующей между переменными. Изучаемые с его помощью признаки должны выражаться только количественно.

Для применения метода Спирмена или ранговой корреляции нет жестких требований в выражении признаков – оно может быть, как количественным, так и атрибутивным. Благодаря этому методу получается информация не о точном установлении силы связи, а имеющая ориентировочный характер.

В рядах переменных могут содержаться открытые варианты. Например, когда стаж работы выражается такими значениями, как до 1 года, более 5 лет и т.д.

Коэффициент корреляции

Статистическая величина характеризующая характер изменения двух переменных получила название коэффициента корреляции либо парного коэффициента корреляции. В количественном выражении он колеблется в пределах от -1 до +1.

Наиболее распространены коэффициенты:

  • Пирсона – применим для переменных принадлежащих к интервально шкале;
  • Спирмена – для переменных порядковой шкалы.

Ограничения использования коэффициента корреляции

Получение недостоверных данных при расчете коэффициента корреляции возможно в тех случаях, когда:

  • в распоряжении имеется достаточное количество значений переменной (25-100 пар наблюдений);
  • между изучаемыми переменными установлено, например, квадратичное соотношение, а не линейное;
  • в каждом случае данные содержат больше одного наблюдения;
  • наличие аномальных значений (выбросов) переменных;
  • исследуемые данные состоят из четко выделяемых подгрупп наблюдений;
  • наличие корреляционной связи не позволяет установить какая из переменных может рассматриваться в качестве причины, а какая – в качестве следствия.

Проверка значимости корреляции

Для оценки статистических величин используется понятие их значимости или же достоверности, характеризующей вероятность случайного возникновения величины либо крайних ее значений.

Наиболее распространенным методом определения значимости корреляции является определение критерия Стьюдента.

Его значение сравнивается с табличным, количество степенней свободы принимается как 2. При получении расчетного значения критерия больше табличного, свидетельствует о значимости коэффициента корреляции.

При проведении экономических расчетов достаточным считается доверительный уровень 0,05 (95%) либо 0,01 (99%).

Ранги Спирмена

Коэффициент ранговой корреляции Спирмена позволяет статистически установить наличие связи между явлениями. Его расчет предполагает установление для каждого признака порядкового номера – ранга. Ранг может быть возрастающим либо убывающим.

Количество признаков, подвергаемых ранжированию, может быть любым. Это достаточно трудоемкий процесс, ограничивающий их количество. Затруднения начинаются при достижении 20 признаков.

Для расчета коэффициента Спирмена пользуются формулой:

в которой:

n – отображает количество ранжируемых признаков;

d – не что иное как разность между рангами по двум переменным;

а ∑(d2) – сумма квадратов разностей рангов.

Применение корреляционного анализа в психологии

Статистическое сопровождение психологических исследований позволяет сделать их более объективными и высоко репрезентативными. Статистическая обработка данных полученных в ходе психологических экспериментов способствует извлечению максимума полезной информации.

Наиболее широкое применение в обработке их результатов получил корреляционный анализ.

Уместным является проведение корреляционного анализа результатов, полученных при проведении исследований:

  • тревожности (по тестам R. Temml, M. Dorca, V. Amen);
  • семейных взаимоотношений («Анализ семейных взаимоотношений» (АСВ) опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • уровня интернальности-экстернальности (опросник Е.Ф. Бажина, Е.А. Голынкиной и А.М. Эткинда);
  • уровня эмоционального выгорания у педагогов (опросник В.В. Бойко);
  • связи элементов вербального интеллекта учащихся при разно профильном обучении (методика К.М. Гуревича и др.);
  • связи уровня эмпатии (методика В.В. Бойко) и удовлетворенностью браком (опросник В.В. Столина, Т.Л. Романовой, Г.П. Бутенко);
  • связи между социометрическим статусом подростков (тест Jacob L. Moreno) и особенностями стиля семейного воспитания (опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • структуры жизненных целей подростков, воспитанных в полных и неполных семьях (опросник Edward L. Deci, Richard M. Ryan Ryan).

Краткая инструкция к проведению корреляционного анализа по критерию Спирмена

Проведение корреляционного анализа с использованием метода Спирмена выполняется по следующему алгоритму:

  • парные сопоставимые признаки располагаются в 2 ряда, один из которых обозначается с помощью Х, а другой У;
  • значения ряда Х располагаются в порядке возрастания либо убывания;
  • последовательность расположения значений ряда У определяется их соответствием значений ряда Х;
  • для каждого значения в ряду Х определить ранг — присвоить порядковый номер от минимального значения к максимальному;
  • для каждого из значений в ряду У также определить ранг (от минимального к максимальному);
  • вычислить разницу (D) между рангами Х и У, прибегнув к формуле D=Х-У;
  • полученные значения разницы возводятся в квадрат;
  • выполнить суммирование квадратов разниц рангов;
  • выполнить расчеты по формуле:

Пример корреляции Спирмена

Необходимо установить наличие корреляционной связи между рабочим стажем и показателем травматизма при наличии следующих данных:

Наиболее подходящим методом анализа является ранговый метод, т.к. один из признаков представлен в виде открытых вариантов: рабочий стаж до 1 года и рабочий стаж 7 и более лет.

Решение задачи начинается с ранжирования данных, которые сводятся в рабочую таблицу и могут быть выполнены вручную, т.к. их объем не велик:

Рабочий стаж Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
d(х-у)
до 1 года 24 1 5 -4 16
1-2 16 2 4 -2 4
3-4 12 3 2,5 +0,5 0,25
5-6 12 4 2,5 +1,5 2,5
7 и более 6 5 1 +4 16
Σ d2 = 38,5

Появление дробных рангов в колонке связано с тем, что в случае появления вариант одинаковых по величине находится среднее арифметическое значение ранга. В данном примере показатель травматизма 12 встречается дважды и ему присваиваются ранги 2 и 3, находим среднее арифметическое этих рангов (2+3)/2= 2,5 и помещаем это значение в рабочую таблицу для 2 показателей.
Выполнив подстановку полученных значений в рабочую формулу и произведя несложные расчёты получаем коэффициент Спирмена равный -0,92

Отрицательное значение коэффициента свидетельствует о наличии обратной связи между признаками и позволяет утверждать, что небольшой стаж работы сопровождается большим числом травм. Причем, сила связи этих показателей достаточно большая.
Следующим этапом расчётов является определение достоверности полученного коэффициента:
рассчитывается его ошибка и критерий Стьюдента

← Вернуться

×
Вступай в сообщество «parkvak.ru»!
ВКонтакте:
Я уже подписан на сообщество «parkvak.ru»