Коэффициент уравнения регрессии показывает, корреляционный и регрессионный анализ. Регрессия в Excel: уравнение, примеры

Подписаться
Вступай в сообщество «parkvak.ru»!
ВКонтакте:

При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого на общепринятую или установленную самим исследователем единицу измерения.

Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.

Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

  1. Определение регрессии . Регрессия - функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.

    С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.

  2. Определение коэффициента регрессии . Коэффициент регрессии - абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения.
  3. Формула коэффициента регрессии . R у/х = r ху x (σ у / σ x)
    где R у/х - коэффициент регрессии;
    r ху - коэффициент корреляции между признаками х и у;
    (σ у и σ x) - среднеквадратические отклонения признаков x и у.

    В нашем примере ;
    σ х = 4,6 (среднеквадратическое отклонение температуры воздуха в осенне-зимний период;
    σ у = 8,65 (среднеквадратическое отклонение числа инфекционно-простудных заболеваний).
    Таким образом, R у/х - коэффициент регрессии.
    R у/х = -0,96 х (4,6 / 8,65) = 1,8, т.е. при снижении среднемесячной температуры воздуха (x) на 1 градус среднее число инфекционно-простудных заболеваний (у) в осенне-зимний период будет изменяться на 1,8 случаев.

  4. Уравнение регрессии . у = М у + R y/x (х - М x)
    где у - средняя величина признака, которую следует определять при изменении средней величины другого признака (х);
    х - известная средняя величина другого признака;
    R y/x - коэффициент регрессии;
    М х, М у - известные средние величины признаков x и у.

    Например, среднее число инфекционно-простудных заболеваний (у) можно определить без специальных измерений при любом среднем значении среднемесячной температуры воздуха (х). Так, если х = - 9°, R у/х = 1,8 заболеваний, М х = -7°, М у = 20 заболеваний, то у = 20 + 1,8 х (9-7) = 20 + 3,6 = 23,6 заболеваний.
    Данное уравнение применяется в случае прямолинейной связи между двумя признаками (х и у).

  5. Назначение уравнения регрессии . Уравнение регрессии используется для построения линии регрессии. Последняя позволяет без специальных измерений определить любую среднюю величину (у) одного признака, если меняется величина (х) другого признака. По этим данным строится график - линия регрессии , по которой можно определить среднее число простудных заболеваний при любом значении среднемесячной температуры в пределах между расчетными значениями числа простудных заболеваний.
  6. Сигма регрессии (формула) .
    где σ Rу/х - сигма (среднеквадратическое отклонение) регрессии;
    σ у - среднеквадратическое отклонение признака у;
    r ху - коэффициент корреляции между признаками х и у.

    Так, если σ у - среднеквадратическое отклонение числа простудных заболеваний = 8,65; r ху - коэффициент корреляции между числом простудных заболеваний (у) и среднемесячной температурой воздуха в осенне-зимний период (х) равен - 0,96, то

  7. Назначение сигмы регрессии . Дает характеристику меры разнообразия результативного признака (у).

    Например, характеризует разнообразие числа простудных заболеваний при определенном значении среднемесячной температуры воздуха в осеннне-зимний период. Так, среднее число простудных заболеваний при температуре воздуха х 1 = -6° может колебаться в пределах от 15,78 заболеваний до 20,62 заболеваний.
    При х 2 = -9° среднее число простудных заболеваний может колебаться в пределах от 21,18 заболеваний до 26,02 заболеваний и т.д.

    Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии.

  8. Данные, необходимые для расчета и графического изображения шкалы регрессии
    • коэффициент регрессии - R у/х;
    • уравнение регрессии - у = М у + R у/х (х-М x);
    • сигма регрессии - σ Rx/y
  9. Последовательность расчетов и графического изображения шкалы регрессии .
    • определить коэффициент регрессии по формуле (см. п. 3). Например, следует определить, насколько в среднем будет меняться масса тела (в определенном возрасте в зависимости от пола), если средний рост изменится на 1 см.
    • по формуле уравнения регрессии (см п. 4) определить, какой будет в среднем, например, масса тела (у, у 2 , у 3 ...)* для определеного значения роста (х, х 2 , х 3 ...).
      ________________
      * Величину "у" следует рассчитывать не менее чем для трех известных значений "х".

      При этом средние значения массы тела и роста (М х, и М у) для определенного возраста и пола известны

    • вычислить сигму регрессии, зная соответствующие величины σ у и r ху и подставляя их значения в формулу (см. п. 6).
    • на основании известных значений х 1 , х 2 , х 3 и соответствующих им средних значений у 1 , у 2 у 3 , а также наименьших (у - σ rу/х)и наибольших (у + σ rу/х) значений (у) построить шкалу регрессии.

      Для графического изображения шкалы регрессии на графике сначала отмечаются значения х, х 2 , х 3 (ось ординат), т.е. строится линия регрессии, например зависимости массы тела (у) от роста (х).

      Затем в соответствующих точках у 1 , y 2 , y 3 отмечаются числовые значения сигмы регрессии, т.е. на графике находят наименьшее и наибольшее значения у 1 , y 2 , y 3 .

  10. Практическое использование шкалы регрессии . Разрабатываются нормативные шкалы и стандарты, в частности по физическому развитию. По стандартной шкале можно дать индивидуальную оценку развития детей. При этом физическое развитие оценивается как гармоничное, если, например, при определенном росте масса тела ребенка находится в пределах одной сигмы регрессии к средней расчетной единице массы тела - (у) для данного роста (x) (у ± 1 σ Ry/x).

    Физическое развитие считается дисгармоничным по массе тела, если масса тела ребенка для определенного роста находится в пределах второй сигмы регрессии: (у ± 2 σ Ry/x)

    Физическое развитие будет резко дисгармоничным как за счет избыточной, так и за счет недостаточной массы тела, если масса тела для определенного роста находится в пределах третьей сигмы регрессии (у ± 3 σ Ry/x).

По результатам статистического исследования физического развития мальчиков 5 лет известно, что их средний рост (х) равен 109 см, а средняя масса тела (у) равна 19 кг. Коэффициент корреляции между ростом и массой тела составляет +0,9, средние квадратические отклонения представлены в таблице.

Требуется:

  • рассчитать коэффициент регрессии;
  • по уравнению регрессии определить, какой будет ожидаемая масса тела мальчиков 5 лет при росте, равном х1 = 100 см, х2 = 110 см, х3= 120 см;
  • рассчитать сигму регрессии, построить шкалу регрессии, результаты ее решения представить графически;
  • сделать соответствующие выводы.

Условие задачи и результаты ее решения представлены в сводной таблице.

Таблица 1

Условия задачи Pезультаты решения задачи
уравнение регрессии сигма регрессии шкала регрессии (ожидаемая масса тела (в кг))
М σ r ху R у/x х У σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Рост (х) 109 см ± 4,4см +0,9 0,16 100см 17,56 кг ± 0,35 кг 17,21 кг 17,91 кг
Масса тела (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18,81 кг 19,51 кг
120 см 20,76 кг 20,41 кг 21,11 кг

Решение .

Вывод. Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом значении роста или оценить индивидуальное развитие ребенка. Для этого следует восстановить перпендикуляр к линии регрессии.

  1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
  2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
  3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
  4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
  6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.

Коэффициенты регрессии показывают интенсивность влияния факторов на результативный показатель. Если проведена предвари­тельная стандартизация факторных показателей, то b 0 равняется сред­нему значению результативного показателя в совокупности. Коэффици­енты b 1 , b 2 , ..., b n показывают, на сколько единиц уровень результативно­го показателя отклоняется от своего среднего значения, если значения факторного показателя отклоняются от среднего, равного нулю, на одно стандартное отклонение. Таким образом, коэффициенты регрессии ха­рактеризуют степень значимости отдельных факторов для повышения уровня результативного показателя. Конкретные значения коэффициен­тов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных урав­нений).

Линия регрессии - линия, которая точнее всего отражает распределение экспериментальных точек на диаграмме рассеяния и крутизна наклона которой характеризует зависимость между двумя интервальными переменными.

Линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

(M - объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .
57. Основные задачи теории корреляции.

Теория корреляции представляет собой аппарат, оценивающий тесноту связей между явлениями, которые находятся не только в причинно-следственных отношениях. С помощью теории корреляции оцениваются стохастические, но не причинные связи. Автором совместно с Лукацкой М. Л. предпринята попытка получить оценки для причинных связей. Однако вопрос о причинно-следственных отношениях явлений, о том, как опознать причину и следствие, остается открытым, и кажется, что на формальном уровне он принципиально не разрешим.

Теория корреляции и ее применен к анализу производства.

Теория корреляции, являющаяся одним из разделов математической статистики, позволяет сделать обоснованные предположения о возможных пределах, в которых с известной степенью надежности будет находиться исследуемый параметр, если другие статистически связанные с ним параметры получат определенные значения.

В теории корреляции принято выделять две основные задачи .

Первая задача теории корреляции - установить форму корреляционной связи, т.е. вид функции регрессии (линейная, квадратичная и т.д.).

Вторая задача теории корреляции - оценить тесноту (силу) корреляционной связи.

Теснота корреляционной связи (зависимости) У на X оценивается по величине рассеивания значений У вокруг условного среднего. Большое рассеивание свидетельствует о слабой зависимости У от X, малое рассеивание указывает на наличие сильной зависимости.
58. Корреляционная таблица и ее числовые характеристики.

На практике в результате независимых наблюдений над величинами X и Y, как правило, имеют дело не со всей совокупностью всех возможных пар значений этих величин, а лишь с ограниченной выборкой из генеральной совокупности, причем объем n выборочной совокупности определяется как количество имеющихся в выборке пар.

Пусть величина Х в выборке принимает значения x 1 , x 2 ,....x m , где количество различающихся между собой значений этой величины, причем в общем случае каждое из них в выборке может повторяться. Пусть величина Y в выборке принимает значения y 1 , y 2 ,....y k , где k - количество различающихся между собой значений этой величины, причем в общем случае каждое из них в выборке также может повторяться. В этом случае данные заносят в таблицу с учетом частот встречаемости. Такую таблицу с группированными данными называют корреляционной.

Первым этапом статистической обработки результатов является составление корреляционной таблицы.

Y\X x 1 x 2 ... x m n y
y 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm n

В первой строке основной части таблицы в порядке возрастания перечисляются все встречающиеся в выборке значения величины X. В первом столбце также в порядке возрастания перечисляются все встречающиеся в выборке значения величины Y. На пересечении соответствующих строк и столбцов указываются частоты n ij (i=1,2,...,m; j=1,2,...,k) равные количеству появлений пары (x i ;y i) в выборке. Например, частота n 12 представляет собой количество появлений в выборке пары (x 1 ;y 1).

Так же n xi n ij , 1≤i≤m, сумма элементов i-го столбца, n yj n ij , 1≤j≤k, - сумма элементов j-ой строки и n xi = n yj =n

Аналоги формул, полученные по данным корреляционной таблицы, имеют вид:


59. Эмпирическая и теоретическая линии регрессии.

Теоретическая линия регрессии может быть рассчитана в этом случае по результатам отдельных наблюдений. Для решения системы нормальных уравнений нам потребуются те же данные: х, у, ху и хг. Мы располагаем данными об объеме производства цемента и объеме основных производственных фондов в 1958 г. Ставится задача: исследовать зависимость между объемом производства цемента (в натуральном выражении) и объемом основных фондов. [1 ]

Чем меньше теоретическая линия регрессии (рассчитанная по уравнению) отклоняется от фактической (эмпиричной), тем меньше средняя ошибка аппроксимации.

Процесс нахождения теоретической линии регрессии представляет собой выравнивание эмпирической линии регрессии на основе метода наименьших квадратов.

Процесс нахождения теоретической линии регрессии называется выравниванием эмпирической линии регрессии и заключается в выборе и обосновании типа; кривой и расчете параметров ее уравнения.

Эмпирическая регрессия строится по данным аналитической или комбинационной группировок и представляет собой зависимость групповых средних значений признака-результата от групповых средних значений признака-фактора. Графическим представлением эмпирической регрессии – ломаная линия, составленная из точек, абсциссами которых являются групповые средние значения признака-фактора, а ординатами – групповые средние значения признака-результата. Число точек равно числу групп в группировке.

Эмпирическая линия регрессии отражает основную тенденцию рассматриваемой зависимости. Если эмпирическая линия регрессии по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи между признаками. А если линия связи приближается к кривой, то это может быть связано с наличием криволинейной корреляционной связи.
60. Выборочные коэффициенты корреляции и регрессии.

Если зависимость между признаками на графике указывает на линейную корреляцию, рассчитывают коэффициент корреляции r , который позволяет оценить тесноту связи переменных величин, а также выяснить, какая доля изменений признака обусловлена влиянием основного признака, какая – влиянием других факторов. Коэффициент варьирует в пределах от –1 до +1. Если r =0, то связь между признаками отсутствует. Равенство r =0 говорит лишь об отсутствии линейной корреляционной зависимости, но не вообще об отсутствии корреляционной, а тем более статистической зависимости. Если r = ±1, то это означает наличие полной (функциональной) связи. При этом все наблюдаемые значения располагаются на линии регрессии, которая представляет собой прямую.
Практическая значимость коэффициента корреляции определяется его величиной, возведенной в квадрат, получившая название коэффициента детерминации.
Регрессия, аппроксимируемая (приближенно описывающаяся) линейной функцией y = kX + b. Для регрессии У на X уравнение регрессии: `y x = ryx X + b; (1). Угловой коэффициент ryx прямой регрессии Y на X называется коэффициентом регрессии Y на X.

Если уравнение (1) отыскивается по выборочным данным, то оно называется выборочным уравнением регрессии . Соответственно, ryx - выборочный коэффициент регрессии Y на X, а b - выборочный свободный член уравнения. Коэффициент регрессии измеряет вариацию Y, приходящуюся на единицу вариации X. Параметры уравнения регрессии (коэффициенты ryx и b) находятся методом наименьших квадратов.
61. Оценка значимости коэффициента корреляции и тесноты корреляционной связи в генеральной совокупности

Значимость коэффициентов корреляции проверяемся по критерию Стьюдента:

где - среднеквадратическая ошибка коэффициента корреляции, которая определяется по формуле:

Если расчетное значение (выше табличного, то можно сделать заключение о том, что величина коэффициента корреляции является значимой. Табличные значения t находят по таблице значений критериев Стьюдента. При этом учитываются количество степеней свободы (V = п - 1)и уровень доверительной вероятности (в экономических расчетах обычно 0,05 или 0,01). В нашем примере количество степеней свободы равно: п - 1 = 40 - 1 = 39. При уровне доверительной вероятности Р = 0,05; t = 2,02. Поскольку (фактическое во всех случаях выше t-табличного, связь между результативным и факторными показателями является надежной, а величина коэффициентов корреляции - значимой.

Оценка коэффициента корреляции , вычисленная по ограниченной выборке, практически всегда отличается от нуля. Но из этого еще не следует, что коэффициент корреляции генеральной совокупности также отличен от нуля. Требуется оценить значимость выборочной величины коэффициента или, в соответствии с постановкой задач проверки статистических гипотез, проверить гипотезу о равенстве нулю коэффициента корреляции. Если гипотеза Н 0 о равенстве нулю коэффициента корреляции будет отвергнута, то выборочный коэффициент значим, а соответствующие величины связаны линейным соотношением. Если гипотеза Н 0 будет принята, то оценка коэффициента не значима, и величины линейно не связаны друг с другом (если по физическим соображениям факторы могут быть связаны, то лучше говорить о том, что по имеющимся ЭД эта взаимосвязь не установлена). Проверка гипотезы о значимости оценки коэффициента корреляции требует знания распределения этой случайной величины. Распределение величины  ik изучено только для частного случая, когда случайные величины U j и U k распределены по нормальному закону.

В качестве критерия проверки нулевой гипотезы Н 0 применяют случайную величину . Если модуль коэффициента корреляции относительно далек от единицы, то величина t при справедливости нулевой гипотезы распределена по закону Стьюдента с n – 2 степенями свободы. Конкурирующая гипотеза Н 1 соответствует утверждению, что значение  ik не равно нулю (больше или меньше нуля). Поэтому критическая область двусторонняя.
62. Вычисление выборочного коэффициента корреляции и построение выборочного уравнения прямой линии регрессии.

Выборочный коэффициент корреляции находится по формуле

где - выборочные средние квадратические отклонения величин и .

Выборочный коэффициент корреляции показывает тесноту линейной связи между и : чем ближе к единице, тем сильнее линейная связь между и .

Простая линейная регрессия позволяет найти линейную зависимость между одной входной и одной выходной переменными. Для этого определяется уравнение регрессии - это модель, отражающая зависимость значений Y, зависимой величины Y от значений х, независимой переменной х и генеральной совокупности, описывается уровнением:

где А0 - свободный член уравнения регрессии;

А1 - коэффициент уравнения регрессии

Затем строится соответствующая прямая, называемая линией регрессии. Коэффициенты А0 и А1, называемые также параметрами модели, выбираются таким образом, чтобы сумма квадратов отклонений точек, соответствующих реальным наблюдениям данных, от линии регрессии, была бы минимальной. Подбор коэффициентов производится по методу наименьших квадратов. Иными словами, простая линейная регрессия описывает линейную модель, которая наилучшим образом аппроксимирует зависимость между одной входной и одной выходной переменными.

КОЭФФИЦИЕНТ РЕГРЕССИИ

- англ. coefficient, regression; нем. Regressionskoeffizient. Одна из характеристик связи между зависимой у и независимой переменной х. К. р. показывает, на сколько единиц увеличивается значение, принимаемое у, если переменная х изменится на единицу своего изменения. Геометрически К. р. является угловым коэффициентом наклона прямой линии у.

Antinazi. Энциклопедия социологии , 2009

Смотреть что такое "КОЭФФИЦИЕНТ РЕГРЕССИИ" в других словарях:

    коэффициент регрессии - — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN regression coefficient … Справочник технического переводчика

    Коэффициент регрессии - 35. Коэффициент регрессии Параметр модели регрессионного анализа Источник: ГОСТ 24026 80: Исследовательские испытания. Планирование эксперимента. Термины и определения …

    коэффициент регрессии - Коэффициент при независимой переменной в уравнении регрессии … Словарь социологической статистики

    КОЭФФИЦИЕНТ РЕГРЕССИИ - англ. coefficient, regression; нем. Regressionskoeffizient. Одна из характеристик связи между зависимой у и независимой переменной х. К. р. показывает, на сколько единиц увеличивается значение, принимаемое у, если переменная х изменится на… … Толковый словарь по социологии

    выборочный коэффициент регрессии - 2.44. выборочный коэффициент регрессии Коэффициент при переменной в уравнении кривой или поверхности регрессии Источник: ГОСТ Р 50779.10 2000: Статистические методы. Вероятность и основы статистики. Термины и определения … Словарь-справочник терминов нормативно-технической документации

    Частный коэффициент регрессии - статистическая мера, обозначающая степень влияния независимой переменной на зависимую в ситуации, когда взаимовлияние всех остальных переменных в модели находится под контролем исследователя … Социологический словарь Socium

    РЕГРЕССИИ, ВЕС - Синоним понятия коэффициент регрессии … Толковый словарь по психологии

    КОЭФФИЦИЕНТ НАСЛЕДУЕМОСТИ - Показатель относительной доли генетической изменчивости в общей фенотипической вариации признака. Наиболее распространены следующие методы оценки наследуемости хозяйственно полезных признаков: где h2 коэффициент наследуемости; r внутриклассовая… … Термины и определения, используемые в селекции, генетике и воспроизводстве сельскохозяйственных животных

    - (R квадрат) это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной… … Википедия

    Коэффициент при независимой переменной в уравнении регрессии. Так, напр., в уравнении линейной регрессии, связывающей случайные величины Yи X, Р. к. b0 и b1 равны: где r корреляции коэффициент X и Y, . Вычисление оценок Р. к. (в ы б о р о ч н… … Математическая энциклопедия

Книги

  • Введение в эконометрику (CDpc) , Яновский Леонид Петрович, Буховец Алексей Георгиевич. Даны основы эконометрики и статистического анализа одномерных временных рядов. Большое внимание уделено классической парной и множественной регрессии, классическому и обобщенному методам…
  • Скорочтение. Эффективный тренажер (CDpc) , . Программа адресована пользователям, желающим в кратчайшие сроки овладеть методикой скоростного чтения. Курс построен по принципу "теория - практика" . Теоретический материал и практические…

При линейном типе связи между двумя изучаемыми признаками кроме расчета корреляций применяется расчет коэффициента регрессии.

В случае прямолинейной корреляционной связи каждому из изменений одного признака соответствует вполне определенное изменение другого признака. Однако коэффициент корреляции показывает эту связь лишь в относительных величинах - в долях единицы. С помощью же регрессионного анализа эту величину связи получают в именованных единицах. Та величина, на которую в среднем изменяется первый признак при изменении второго на единицу измерения, называется коэффициентом регрессии.

В отличие от корреляционного регрессионный анализ дает более широкую информацию, поскольку вычислением двух коэффициентов регрессии Rx/y и Rу/х возможно определить как зависимость первого признака от второго, так и второго от первого. Выражение регрессионной связи с помощью уравнения позволяет по определенному значению одного признака установить значение другого признака.

Коэффициент регрессии R представляет собой произведение коэффициента корреляции на отношение квадратических отклонений, вычисленных для каждого признака. Рассчитывается он по формуле

где, R - коэффициент регрессии; SХ - среднее квадратическое отклонение первого признака, который изменяется в связи с изменением второго; SУ - среднее квадратическое отклонение второго признака в связи с изменением которого изменяется первый признак; r - коэффициент корреляции между этими признаками; х - функция; у -аргумент.

По этой формуле определяется величина значения х при изменении у на единицу измерения. При необходимости обратного расчета можно найти величину у при изменении х на единицу измерения по формуле:


В этом случае активная роль в изменении одного признака по отношению к другому меняется, по сравнению с предыдущей формулой аргумент становится функцией и наоборот. Величины SX и SY принимаются в именованном выражении.

Между значениями г и R имеется четкая взаимосвязь, выражающаяся в том, что произведение регрессии х по у на регрессию у по х равно квадрату коэффициента корреляции, т. е.

Rx/y * Ry/x = r2

Это свидетельствует, что коэффициент корреляции представляет собой среднюю геометрическую из обоих значений коэффициентов регрессии данной выборки. Данная формула может быть использована для проверки правильности расчетов.

При обработке цифрового материала на счетных машинах могут применяться развернутые формулы коэффициента регрессии:

R или


Для коэффициента регрессии может быть рассчитана его ошибка репрезентативности. Ошибка коэффициента регрессии равна ошибке коэффициента корреляции, умноженной на отношение квадратических отношений:

Критерий достоверности коэффициента регрессии вычисляется по обычной формуле:

в итоге он равен критерию достоверности коэффициента корреляции:

Достоверность величины tR устанавливается по таблице Стьюдента при  = n - 2, где n - число пар наблюдений.

Криволинейная регрессия.

РЕГРЕССИЯ, КРИВОЛИНЕЙНАЯ . Любая нелинейная регрессия, в которой уравнение регрессии для изменений в одной переменной (у) как функции t изменений в другой (х) является квадратичным, кубическим или уравнение более высокого порядка. Хотя математически всегда возможно получить уравнение регрессии, которое будет соответствовать каждой "загогулине" кривой, большинство этих пертурбаций возникает в результате ошибок в составлении выборки или измерении, и такое "совершенное" соответствие ничего не дает. Не всегда легко определить, соответствует ли криволинейная регрессия набору данных, хотя существуют статистические тесты для определения того, значительно ли увеличивает каждая более высокая степень уравнения степ совпадения этого набора данных.

Аппроксимация кривой выполняется тем же путем с использованием метода наименьших квадратов, что и выравнивание по прямой линии. Линия регрессии должна удовлетворять условию минимума суммы квадратов расстояний до каждой точки корреляционного поля. В данном случае в уравнении (1) у представляет собой расчетное значение функции, определенное при помощи уравнения выбранной криволинейной связи по фактическим значениям х j. Например, если для аппроксимации связи выбрана парабола второго порядка, то y = а + b x + cx2, (14) .а разность между точкой, лежащей на кривой, и данной точкой корреляционного поля при соответствующем аргументе можно записать аналогично уравнению (3) в виде yj = yj (a + bx + cx2) (15) При этом сумма квадратов расстояний от каждой точки корреляционного поля до новой линии регрессии в случае параболы второго порядка будет иметь вид: S 2 = yj 2 = 2 (16) Исходя из условия минимума этой суммы, частные производные S 2 по а, b и с приравниваются к нулю. Выполнив необходимые преобразования, получим систему трех уравнений с тремя неизвестными для определения a, b и с. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4 . (17). Решая систему уравнений относительно a, b и с, находим численные значения коэффициентов регрессии. Величины y, x, x2, yx, yx2, x3, x4.находятся непосредственно по данным производственных измерений. Оценкой тесноты связи при криволинейной зависимости служит теоретическое корреляционное отношение xу, представляющее собой корень квадратный из соотношения двух дисперсий: среднего квадрата р2 отклонений расчетных значений y" j функции по найденному уравнению регрессии от среднеарифметического значения Y величины y к среднему квадрату отклонений y2 фактических значений функции y j от ее среднеарифметического значения: xу = { р2 / y2 } 1/2 = { (y" j - Y)2 / (y j - Y)2 } 1/2 (18) Квадрат корреляционного отношения xу2 показывает долю полной изменчивости зависимой переменной у, обусловленную изменчивостью аргумента х. Этот показатель называется коэффициентом детерминации. В отлично от коэффициента корреляции величина корреляционного отношения может принимать только положительные значения от 0 до 1. При полном отсутствии связи корреляционное отношение равно нулю, при наличии функциональной связи оно равно единице, а при наличии регрессионной связи различной тесноты корреляционное отношение принимает значения между нулем и единицей. Выбор типа кривой имеет большое значение в регрессионном анализе, поскольку от вида выбранной взаимосвязи зависит точность аппроксимации и статистические оценки тесноты связи. Наиболее простой метод выбора типа кривой состоит в построении корреляционных полей и в подборе соответствующих типов регрессионных уравнений по расположению точек на этих полях. Методы регрессионного анализа позволяют отыскивать численные значения коэффициентов регрессии для сложных видов взаимосвязи параметров, описываемых, например, полиномами высоких степеней. Часто вид кривой может быть определен на основе физической сущности рассматриваемого процесса или явления. Полиномы высоких степеней имеет смысл применять для описания быстро меняющихся процессов в том случае, если пределы колебания параметров этих процессов значительные. Применительно к исследованиям металлургического процесса достаточно использовать кривые низших порядков, например параболу второго порядка. Эта кривая может иметь один экстремум, что, как показала практика, вполне достаточно для описания различных характеристик металлургического процесса. Результаты расчетов параметров парной корреляционной взаимосвязи были бы достоверны н представляли бы практическую ценность в том случае, если бы используемая информация была получена для условий широких пределов колебаний аргумента при постоянстве всех прочих параметров процесса. Следовательно, методы исследования парной корреляционной взаимосвязи параметров могут быть использованы для решения практических задач лишь тогда, когда существует уверенность в отсутствии других серьезных влияний на функцию, кроме анализируемого аргумента. В производственных условиях вести процесс таким образом продолжительное время невозможно. Однако если иметь информацию об основных параметрах процесса, влияющих на его результаты, то математическим путем можно исключить влияние этих параметров и выделить в “чистом виде” взаимосвязь интересующей нас функции и аргумента. Такая связь называется частной, или индивидуальной. Для ее определения используется метод множественной регрессии.

Корреляционное отношение.

Корреляционное отношение и индекс корреляции - это числовые характеристики, тесно связанные понятием случайной величины, а точнее с системой случайных величин. Поэтому для введения и определения их значения и роли необходимо пояснить понятие системы случайных величин и некоторые свойства присущие им.

Два или более случайные величины, описывающих некоторое явление называют системой или комплексом случайных величин.

Систему нескольких случайных величин X, Y, Z, …, W принято обозначать через (X, Y, Z, …, W).

Например, точка на плоскости описывается не одной координатой, а двумя, а в пространстве - даже тремя.

Свойства системы нескольких случайных величин не исчерпываются свойствами отдельных случайных величин, входящих в систему, а включают также взаимные связи (зависимости) между случайными величинами. Поэтому при изучении системы случайных величин следует обращать внимание на характер и степень зависимости. Эта зависимость может быть более или менее ярко выраженной, более или менее тесной. А в других случаях случайные величины оказаться практически независимыми.

Случайная величина Y называется независимой от случайной величины Х, если закон распределения случайной величины Y не зависит от того какое значение приняла величина Х.

Следует отметить, что зависимость и независимость случайных величин есть всегда явление взаимное: если Y не зависит от Х, то и величина Х не зависит от Y. Учитывая это, можно привести следующее определение независимости случайных величин.

Случайные величины Х и Y называются независимыми, если закон распределения каждой из них не зависит от того, какое значение приняла другая. В противном случае величины Х и Y называются зависимыми.

Законом распределения случайной величины называется всякое соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями.

Понятие "зависимости" случайных величин, которым пользуются в теории вероятностей, несколько отличается от обычного понятия "зависимости" величин, которым пользуются в математике. Так, математик под "зависимостью" подразумевает только один тип зависимости - полную, жесткую, так называемую функциональную зависимость. Две величины Х и Y называются функционально зависимыми, если, зная значение одного из них, можно точно определить значение другой.

В теории вероятностей встречаются несколько с иным типом зависимости - вероятностной зависимостью. Если величина Y связана с величиной Х вероятностной зависимостью, то, зная значение Х, нельзя точно указать значение Y, а можно указать её закон распределения, зависящий от того, какое значение приняла величина Х.

Вероятностная зависимость может быть более или менее тесной; по мере увеличения тесноты вероятностной зависимости она все более приближается к функциональной. Т.о., функциональную зависимость можно рассматривать как крайний, предельный случай наиболее тесной вероятностной зависимости. Другой крайний случай - полная независимость случайных величин. Между этими двумя крайними случаями лежат все градации вероятностной зависимости - от самой сильной до самой слабой.

Вероятностная зависимость между случайными величинами часто встречается на практике. Если случайные величины Х и Y находятся в вероятностной зависимости, то это не означает, что с изменением величины Х величина Y изменяется вполне определенным образом; это лишь означает, что с изменением величины Х величина Y имеет тенденцию также изменяться (возрастать или убывать при возрастании Х). Эта тенденция соблюдается лишь в общих чертах, а в каждом отдельном случае возможны отступления от неё.

Вычисление коэффициентов уравнения регрессии

Систему уравнений (7.8) на основе имеющихся ЭД однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации ЭД. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии – метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов.

В основе МНК лежат следующие положения:

· значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;

· математическое ожидание ошибки ε должно быть равно нулю (постоянная составляющая входит в коэффициент a 0 ), иначе говоря, ошибка является центрированной величиной;

· выборочная оценка дисперсии ошибки должна быть минимальна.

Рассмотрим применение МНК применительно к линейной регрессии стандартизованных величин. Для центрированных величин u j коэффициент a 0 равен нулю, тогда уравнения линейной регрессии

. (7.9)

Здесь введен специальный знак "^", обозначающий значения показателя, рассчитанные по уравнению регрессии, в отличие от значений, полученных по результатам наблюдений.

По МНК определяются такие значения коэффициентов уравнения регрессии, которые обеспечивают безусловный минимум выражению

Минимум находится приравниванием нулю всех частных производных выражения (7.10), взятых по неизвестным коэффициентам, и решением системы уравнений

(7.11)

Последовательно проведя преобразования и используя введенные ранее оценки коэффициентов корреляции

. (7.12)

Итак, получено т –1 линейных уравнений, что позволяет однозначно вычислить значения a 2 , a 3 , …, a т .

Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения.

Когда имеется только один параметр, уравнение линейной регрессии примет вид

Коэффициент a 2 находится из уравнения

Тогда, учитывая, что r 2,2 = 1, искомый коэффициент

a 2 = r y ,2 . (7.13)

Соотношение (7.13) подтверждает ранее высказанное утверждение, что коэффициент корреляции является мерой линейной связи двух стандартизованных параметров.

Подставив найденное значение коэффициента a 2 в выражение для w , с учетом свойств центрированных и нормированных величин, получим минимальное значение этой функции, равное 1– r 2 y ,2 . Величину 1– r 2 y,2 называют остаточной дисперсией случайной величины y относительно случайной величины u 2 . Она характеризует ошибку, которая получается при замене показателя функцией от параметра υ= a 2 u 2 . Только при |r y,2 | = 1 остаточная дисперсия равна нулю, и, следовательно, не возникает ошибки при аппроксимации показателя линейной функцией.

Переходя от центрированных и нормированных значений показателя и параметра

можно получить для исходных величин

Это уравнение также линейно относительно коэффициента корреляции. Нетрудно заметить, что центрирование и нормирование для линейной регрессии позволяет понизить на единицу размерность системы уравнений, т.е. упростить решение задачи определения коэффициентов, а самим коэффициентам придать ясный смысл.

Применение МНК для нелинейных функций практически ничем не отличается от рассмотренной схемы (только коэффициент a0 в исходном уравнении не равен нулю).

Например, пусть необходимо определить коэффициенты параболической регрессии

Выборочная дисперсия ошибки

На ее основе можно получить следующую систему уравнений

После преобразований система уравнений примет вид

Учитывая свойства моментов стандартизованных величин, запишем

Определение коэффициентов нелинейной регрессии основано на решении системы линейных уравнений. Для этого можно применять универсальные пакеты численных методов или специализированные пакеты обработки статистических данных.

С ростом степени уравнения регрессии возрастает и степень моментов распределения параметров, используемых для определения коэффициентов. Так, для определения коэффициентов уравнения регрессии второй степени используются моменты распределения параметров до четвертой степени включительно. Известно, что точность и достоверность оценки моментов по ограниченной выборке ЭД резко снижается с ростом их порядка. Применение в уравнениях регрессии полиномов степени выше второй нецелесообразно.

Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии (выбрать другую степень полинома или вообще другой тип уравнения) и повторить расчеты по оценке параметров.

При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них.

Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов – изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся ЭД, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.



Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл. Нельзя подставлять в уравнение регрессии такие значения факторов, которые значительно отличаются от представленных в ЭД. Рекомендуется не выходить за пределы одной трети размаха вариации параметра как за максимальное, так и за минимальное значения фактора.

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для индивидуальных значений показателя интервал должен учитывать ошибки в положении линии регрессии и отклонения индивидуальных значений от этой линии. Средняя ошибка прогноза показателя y для фактора х составит

где – средняя ошибка положения линии регрессии в генеральной совокупности при x = x k ;

– оценка дисперсии отклонения показателя от линии регрессии в генеральной совокупности;

x k – ожидаемое значение фактора.

Доверительные границы прогноза, например, для уравнения регрессии (7.14), определяются выражением

Отрицательная величина свободного члена а 0 в уравнении регрессии для исходных переменных означает, что область существования показателя не включает нулевых значений параметров. Если же а 0 > 0 , то область существования показателя включает нулевые значения параметров, а сам коэффициент характеризует среднее значение показателя при отсутствии воздействий параметров.

Задача 7.2. Построить уравнение регрессии для пропускной способности канала по выборке, заданной в табл. 7.1.

Решение. Применительно к указанной выборке построение аналитической зависимости в основной своей части выполнено в рамках корреляционного анализа: пропускная способность зависит только от параметра "соотношение сигнал/шум". Остается подставить в выражение (7.14) вычисленные ранее значения параметров. Уравнение для пропускной способности примет вид

ŷ = 26,47– 0,93×41,68×5,39/6,04+0,93×5,39/6,03×х = – 8,121+0,830х .

Результаты расчетов представлены в табл. 7.5.

Таблица 7.5

N пп Пропускная способность канала Соотношение сигнал/шум Значение функции Погрешность
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

← Вернуться

×
Вступай в сообщество «parkvak.ru»!
ВКонтакте:
Я уже подписан на сообщество «parkvak.ru»