Линейная корреляция

 

Министерство образования Республики Беларусь

Учреждение образования

"Гомельский государственный университет имени Ф.Скорины"

Физический факультет









Реферат на тему

Линейная корреляция




Выполнила

Студентка группы Ф-25у

Гнётова Вероника









Гомель 2011


План


Введение

1. Диаграмма рассеяния опытных данных

2. Ковариация

3. Выборочный коэффициент корреляции

4. Вычисление коэффициента корреляции

5. Вычисление коэффициента корреляции при большом объеме выборок

6. Проверка значимости коэффициента корреляции



Введение


При решении практических, экономических, научных проблем окружающего нас мира мы часто встречаемся с необходимостью совместного исследования двух переменных величин. При этом возникает вопрос о существовании или об отсутствии определенной зависимости между ними, а так же вопрос о степени их взаимосвязи. Например, при покупке любого товара нас интересует зависимость качества товара от его цены, в медицине проводятся обязательные исследования для определения эффективности лекарственного препарата в зависимости от его дозы, в сельском хозяйстве изучается зависимость урожайности от количества внесённых удобрений. Для решения подобных задач используются статистические методы корреляционного анализа. Мы рассмотрим общие идеи и самые простые формы корреляционного анализа.



1. Диаграмма рассеяния опытных данных


Для исследования совместного распределения двух случайных величин Х и У необходима случайная выборка их значений:


, , …, .


Как правило, такая выборка представляет результаты некоторого опыта или исследования. Наглядно данную выборку можно изобразить точками в прямоугольной системе координат ОХY. Совокупность соответствующих точек называется диаграммой рассеяния данной выборки, или полем корреляции. На рисунке 1.1 показаны диаграммы рассеяния для четырёх разных распределений.


Рисунок 1. Диаграммы рассеяния для четырех видов распределения


В диаграммах (а) и (б) точки группируются как бы вдоль прямых, поэтому возможны предположения о существовании линейной зависимости между Х и У. В диаграмме (в) не видно определенного рисунка. Скорее всего, что в этом случае связь между Х и У практически отсутствует. В диаграмме (г) точки группируются вокруг параболы, то есть между Х и У существует некоторая зависимость, но не линейная. Таким образом, диаграмма рассеяния является наглядным способом представления опытных данных. Диаграмма помогает выработать определенное предположение о форме зависимости между случайными величинами.


2. Ковариация


Рассмотрим произвольную выборку значений Х и У объема n:


, , …, .


Напомним, что важными характеристиками выборок являются выборочные средниеии выборочные дисперсии и. Средние ислучайных величин Х и Y вычисляются по формулам:



Соответствующие дисперсии и случайных величин Х и У определяются формулами:



Дисперсия случайной величины характеризует разброс выборочных значений вокруг среднего. Корень квадратный из дисперсии называется стандартным отклонением:

- стандартное отклонение случайной величины Х,

- стандартное отклонение случайной величины У.

Для подтверждения зависимости между двумя случайными величинами, имеющими совместное распределение, используется определенный параметр, который называется ковариацией.

Определение 1. Ковариацией выборки ) соответствующих значений случайных величин Х и У называется число



Ковариация является выборочным аналогом теоретической ковариации, которая определяется равенством



Очевидно, что если X=Y, то ковариация совпадает с выборочной дисперсией . Ясно так же, что . Легко получается следующее утверждение.

Теорема 1. Если X и Y - независимые случайные величины, то их ковариация равна 0. Обратная теорема не верна, две переменные могут быть зависимыми и иметь ковариацию, равную нулю. Рассмотрим несколько примеров. Ниже даны диаграммы рассеяния для трех исследований. В каждом случае выполнены расчеты ковариации.


Рисунок 2. Диаграммы рассеяния опытных данных для трех исследований (а), (б), (в).



Таблица 1. Вычисления, необходимые для расчета ковариации по опытным данным первого исследования (а).

(1 1 2 2 2 2 41 3 3 4 5 6 6-1 -1 0 0 0 0 2-3 -1 -1 0 1 2 23 1 0 0 0 0 414288

Используя результаты вычислений таблицы 1, находим



Таблица 2. Вычисления, необходимые для расчета ковариации по опытным данным второго исследования (б).

(0 1 2 2 3 46 3 2 4 2 1-2 -1 0 0 1 23 0 -1 1 -1 -2-6 0 0 0 -1 -41218-11

Используя результаты вычислений таблицы 2, находим




Таблица 3. Вычисления, необходимые для расчета ковариации по опытным данным третьего исследования (в).

(1 1 2 2 3 4 4 5 51 5 2 4 3 2 4 1 5-2 -2 -1 -1 0 1 1 2 2-2 2 -1 1 0 -1 1 -2 24 -4 1 -1 0 -1 1 -4 427270

Используя результаты вычислений таблицы 3, находим



В случае (а) ковариация положительна. Положительное значение ковариации показывает, что при возрастании значений одной переменной возрастают и значения другой. В случае (б) ковариация отрицательна. Отрицательная ковариация имеет место тогда, когда значения одной переменной возрастают, а значения другой убывают. Если же ковариация равна 0, то переменные X и Y являются некоррелированными.


. Выборочный коэффициент корреляции


Вычисление ковариации - это только начало исследования зависимости между двумя случайными величинами. К сожалению, ковариация не дает количественной характеристики зависимости. Например, зависимость между переменными X и Y и переменными X/2 и Y/2 должна быть одинаковой, но ковариация уменьшается в 4 раза. Эта проблема снимается введением следующего показателя. Определение 2. Коэффициентом корреляции выборки ) соответствующих значений случайных величин X и Y называется отношение ковариации к произведению стандартных отклоненийи:


.


Выборочный коэффициент корреляции является соответствующим аналогом теоретического коэффициента корреляции случайных величин X и Y, который определяется формулой:


,


где и - теоретические стандартные отклонения.

При r=0 нельзя делать выводы об отсутствии зависимости между переменными. В этом случае достоверно не существует только линейной зависимости. Чем ближе значение коэффициента корреляции приближается к ±1, тем точнее подтверждается зависимость между X и Y. Знак r также имеет значение. Если r положителен, то значения Y возрастают с возрастанием значений X, если же r отрицателен, то при возрастании значений X значения Y убывают. В том случае, когда r=0, переменные X и Y называются некоррелированными. Рассмотрим диаграммы рассеяния для некоторых распределений.



Рисунок 3. Диаграммы рассеяния экспериментальных данных нескольких исследований


Заметим, что диаграмма (е) показывает, что, несмотря на то, что r=0, переменные X и Y связаны квадратичной функцией. Поэтому подчеркнём, что использование коэффициента корреляции эффективно только в случае, когда между X и Y существует зависимость, близкая к линейной. Итак, коэффициент корреляции характеризует силу взаимосвязи двух случайных величин. Однако даже сильная корреляция не всегда влечет причинную обусловленность переменных, так как корреляция не устанавливает причин их взаимосвязи. Например, корреляция не объясняет, почему при увеличении объема производства, снижается цена изделий. Корреляция только показывает наличие определенной зависимости между значениями двух переменных.


4. Вычисление коэффициента корреляции


Формула, определяющая коэффициент корреляции,




проста и удобна для запоминания, однако для практических расчетов используется следующее выражение.

Теорема 2. Коэффициент корреляции вычисляется по формуле:



При практическом вычислении коэффициента корреляции все промежуточные расчеты удобно записывать в специальную таблицу.


Таблица 4. Корреляционная таблица для выборок небольших объёмов

№XYX²Y²XY12………………N

Пример 2. Изучалась зависимость между возрастом людей и их весом. Для группы из семи человек получены следующие данные:


Х (возраст)18202432384350Y (вес)50565257556164

Нарисуем диаграмму рассеяния и вычислим коэффициент корреляции



Рисунок 4. Диаграмма рассеяния данных о возрасте и весе группы людей

выборка распределение корреляция рассеяние

Таблица 5. Корреляционная таблица для 395данных о возрасте и весе группы людей

№XYX²YXY118503242500900220564003136112032452576270412484325710243249182453855144430252090643611849372126237506425004096320022539581172243113005


После округления имеем Диаграмма и значение r=0,87 показывают, что между весом и возрастом людей существует зависимость, близкая к линейной.

Пример 3. Зависит ли интеллект ребёнка от интеллекта его родителей? Для изучения этого вопроса проведено специальное тестирование детей и их родителей, причём тестирование отцов и матерей проходило отдельно. Результаты тестирования и вычисления соответствующих коэффициентов корреляции приведены ниже. (а) X - результаты тестирования матерей, Y - соответствующие результаты детей.


Таблица 6. Корреляционная таблица для результатов тестирования группы матерей и их детей

№XYX²YXY14530202590013502702549006251750380356400122528004753856251444285058537722513693145690408100160036007934186491681381389742940917644074n=8635288523331060823382


После округления имеем

(b) X - результаты тестирования отцов, Y - соответствующие результаты их детей.


Таблица 7. Корреляционная таблица для результатов тестирования группы отцов и их детей

№XYX²YXY15830336490017402652542256251625364354096122522404553830251444209057537562513692775668404624160027207724151841681295287842608417643276n=8535288362271060819418



После округления имеем Итак, можно утверждать, что между уровнем интеллектуального развития детей и их родителей существует положительная корреляция, причём матери оказывают большое влияние на детей, чем отцы. Возможны разные объяснения этого результата.


5. Вычисление коэффициента корреляции при большом объёме выборок


Вычисление коэффициента корреляции при большом числе выборочных значений становиться слишком громоздким. В этом случае результаты наблюдений записываются в специальную корреляционную таблицу:


Таблица 8. Корреляционная таблица для выборок больших размеров

Y X………………n

Число равно частоте пар значений (,), где i=1,2,…,k, j=1,2,…,Очевидно, что объем всей выработки равен n, где




В последней строке находятся суммы соответствующих столбцов, через обозначается частота значения , j=1,2,…,??. При этом выполняется равенства:



Так =++…+ - это частота значения Аналогично находятся и частоты В последнем столбце находятся суммы соответствующих строк, через обозначается частота значения , i=1,2,…,k. Справедливы следующие соотношения:



Например, +…+ - это частота значения ,…,.

Очевидно, что



В том случае, когда выборочные данные подвергаются необходимой группировке, то каждый интервал по переменным X и Y представляется своей серединой. Корреляционная таблица позволяет систематизировать статистические данные и облегчить расчеты коэффициента корреляции. Для упрощения часто используется специальный приём, состоящий в замене данных переменных X и Y условными переменными U и V по формулам:

, V.


Выборочные значения выбираются так, чтобы пара () находилась где-то в середине данной выборки. Часто выбирается пара значений, имеющая наибольшую частоту. Число ? является наибольшим общим делителем выборочных значений , а число ? является наибольшим общим делителем выборочных значений . Если таких нет, то считают, что ?=0 и ?=0. Нетрудные преобразования приводят к следующему результату:


=.


Другими словами, при замене переменных X и Y переменными U и V коэффициент корреляции не меняется. Поэтому можно находить коэффициент корреляции между условными переменными U и V м переменных X и Y. Для расчетов удобно использовать расширенную корреляционную рабочую таблицу.


Таблица 9. Общая форма рабочей корреляционной таблицы



В такую таблицу записываются промежуточные результаты и суммы, необходимые для вычисления коэффициента корреляции между U и V по формуле:


где


Пример 4.

Проведено одновременное изменение роста Х и веса Y у 25 шестнадцатилетних девушек. По данным изменений, записанных в следующей таблице, вычислим коэффициент корреляции между ростом X и весом Y.


Таблица 10. Результаты изменений роста и веса группы девушек

Y вес X рост40-45 42,545-50 47,550-55 52,555-60 57,560-65 62,5140-150 1451214150-160 15513318160-170 16515219170-180 175121426105225

Заменим данные интервалы их серединами. У пары (165;52,5) наибольшая чистота, равна 5, поэтому Выборка (145; 155; 165; 175) полученных значений X имеет наибольший общий делитель 5, то есть ?=5. Выборка (42,5; 47,5; 52,5; 57,5; 62,5) значений переменной Y имеет наибольший общий делитель 2,5, то есть ?=2,5.

Вместо переменных X и Y введем условные переменные V и Y по формулам:


U V=


Последовательно подставляя выборочные значения для X и Y ,находим соответствующие значения V и Y:



Составим для этих данных корреляционную таблицу и выполним необходимые вычисления.


Таблица 11. Рабочая таблица вычислений коэффициента корреляции между ростом и весом данной группы девушек


Теперь находим:



Вычислим:


,


Теперь найдем коэффициент корреляции:


.


Округляем полученное значение . Такое значение коэффициента корреляции позволяет утверждать, что между ростом и весом существует определенная зависимость.


. Проверка значимости коэффициента корреляции


В случае, когда коэффициент корреляции между переменными равен нулю, то они считаются не коррелированными. Однако при обработке реальных выборочных данных коэффициент корреляции редко равен точно нулю, чаще получается значение близкое к нулю. Поэтому возникает вопрос, является ли полученное значение значимым или существенным. Рассмотрим специальные процедуры тестирования на отсутствие корреляции между двумя случайными величинами. Опишем два способа проверки значимости коэффициента корреляции.

I. Схема проверки гипотезы об отсутствии корреляции

Дано: случайная выборка из n наблюдений

) совместного распределения случайных величин X и Y.

Условие: X и Y - независимые нормально распределенные случайные величины.

Гипотеза , то есть между X и Yкорреляция отсутствует. Альтернативная гипотеза

1.Выбираем уровень значимости ?.

2.Найдем критическое значение по таблице.

.Вычислим выборочный коэффициент корреляции по данным наблюдениям:



.Сравним значение r с критическим значением . Если то гипотеза отклоняется и принимается альтернативная гипотеза , подтверждающая наличие корреляции между X и Y. Если , то гипотеза принимается.

Пример 5. Проверим значимость коэффициентов корреляции, вычисленных при изучении влияния родителей на детей в примере 3.

Проверим гипотезу : против альтернативной гипотезы : для уровня значимости ?=0,05. По таблице распределения для n=8 и ?= 0,05 найдем критическое значение Так вычисленное в примере 3 значение больше, чем , то нулевая гипотеза отклоняется. Принимается альтернативная гипотеза, подтверждающая, что между интеллектом матери и ребенка существует положительная корреляция.

Но так как меньше то гипотезапринимается. То есть полученная выборка не подтверждает положительной корреляции между интеллектом отцов и детей.

Пример 6. Изучалось влияние продолжительности суточного сна на здоровье школьников. Сравнили среднюю продолжительность суточного сна, обозначаемую через X, с числом Y дней отсутствия в школе из-за болезни у десяти школьников. По полученным данным найдем выборочный коэффициент корреляции и проверим его значимость.


Таблица 12. Данные о продолжительности суточного сна и заболеваемости школьников

№XYXY1 2 3 4 5 6 7 8 9 106 6 7 7 8 8 9 9 10 100 4 1 5 0 3 3 7 1 436 36 49 49 64 64 81 81 100 1000 16 1 25 0 9 9 49 1 160 24 7 35 0 24 27 63 10 408028660126230


Проверим нулевую гипотезу : r=0 против альтернативной гипотезы Для уровня значимости ?=0, 05 и числа n=10 по таблице 1.12 найдем так как то гипотеза принимается. Следовательно, полученное значениене является значимым, то есть X и Y - некоррелируемые переменные.

II. Схема проверки гипотезы об отсутствии корреляции

Дано: случайная выборка из n наблюдений совместного распределения случайных величин X и Y:).

Условие: X и Y - независимые нормально распределенные величины.

против альтернативной гипотезы

.Выберем уровень значимости ?.

2.Найдем критические значенияпо таблице распределения Стьюдента для ? и ()-x степеней свободы.

.Вычислим по данной выборке значение статистики



где r - выборочный коэффициент корреляции, n - объем выборки

.Сравним t с критическим значением . Если , то гипотеза отвергается и принимается гипотеза Если , то гипотеза принимается.

Пример 7. Проверим вторым способом значимость коэффициента корреляции при изучении влияния родителей на детей из примера 3.

Для уровня значимости ?=0,05 и для степеней свободы

n-2=10-2=8 по таблице распределения Стьюдента находим критическое значение Возьмём из примера 1.3 и вычислим значение


.


Так как то гипотеза принимается. Таким образом, данные результаты наблюдений не подтверждают предложение о том, что зависимость интеллектов отцов и детей является существенной.

Теперь возьмем Вычислим значение



Так как =3,307 больше чем =1,86, то гипотеза отвергается. Это означает, что связь между интеллектом матери и их детей существенна для данной группы исследуемых семей.

Примеры

Упражнения 1

.1 По выборке значений совместного распределения случайных величин X Y,данных в таблице, нарисуйте поле корреляции, вычислите ковариацию и коэффициент между X и Y.


X12345678910Y811751062632Решение.

Нарисуем диаграмму рассеяния и вычислим коэффициент корреляции



(1 2 3 4 5 6 7 8 9 108 11 7 5 10 6 2 6 3 2-4,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 4,52 5 1 -1 4 0 -4 0 -3 -4-9 -17,5 -2,5 1,5 -2 0 -6 0 -10,5 -185560-64

Найдём средние значения и по формулам



Рассчитаем ковариацию SXY по формуле



Получим :

XY=


Найдём SX и SY


SX =3,02

SY =3,13


Формула, определяющая коэффициент корреляции :



.2 По данным следующей таблицы нарисуйте поле корреляции, вычислите ковариацию и коэффициент корреляции между X и Y.


X133567109Y43564657

Решение. Нарисуем диаграмму рассеяния и вычислим коэффициент корреляции



(1 3 3 5 6 7 10 94 3 5 6 4 6 5 7-4,5 -2,5 -2,5 -0,5 0,5 1,5 4,5 3,5-1 -2 0 1 -1 1 0 24,5 5 0 -0,5 -0,5 1,5 0 7444017

SX =3,117

SY =1,309

SXY=


.4 Были созданы данные о времени, которое сотрудники учреждения тратят на дорогу от дома до места работы. Через Х обозначается расстояние от дома до работы в километрах, через Y - время пути в минутах. Найдите коэффициент корреляции по данным таблицы:


X3345579101212Y15202520102035251535

Решение. Нарисуем диаграмму рассеяния и вычислим коэффициент корреляции



(3 3 4 5 5 7 9 10 12 1215 20 25 20 10 20 35 25 15 35-4 -4 -3 -2 -2 0 2 3 5 5-7 -2 3 -2 -12 -2 13 2 -7 1328 8 -9 4 24 0 26 6 -35 6570220117

SX =3,52

SY =8,198

SXY=


Министерство образования Республики Беларусь Учреждение образования "Гомельский государственный университет имени Ф.Скорины" Физический факул

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2019 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ