Корреляционный анализ

 

РОССИЙСКАЯ АКАДЕМИЯ НАРОДНОГО ХОЗЯЙСТВА И ГОСУДАРСТВЕННОЙ СЛУЖБЫ

ПРИ ПРЕЗИДЕНТЕ РОССИЙСКОЙ ФЕДЕРАЦИИ

ВЛАДИМИРСКИЙ ФИЛИАЛ

Кафедра информационных технологий








КОНТРОЛЬНАЯ РАБОТА

по курсу: ЭКОНОМЕТРИКА

Исходные данные: Таблица №19




Выполнила:

Кравцова Олеся Геннадьевна

студентка заочного отделения,

курс, группа СПФ 110 ,

специальность «Финансы и кредит»

Проверил:

Поляков Сергей Владимирович





Владимир, 2012

Задание 1. Корреляционный анализ

корреляционный статистический доход

Таблица 1

денежные доходыпотребительские расходыБелгородская область6715,34678,7Брянская область 6093,54464,1Владимирская область4867,93386,2Воронежская область69444913,2Ивановская область4727,63592Калужская область7525,15900,4Костромская область5269,93925Курская область6826,64992,4Липецкая область8955,35385,3Московская область11060,59030,4Орловская область5941,34338Рязанская область5977,74406,1Смоленская область66615128,7Тамбовская область7109,35196Тверская область7263,55875,9Тульская область6477,94464,8Ярославская область8213,85265,1г.Москва34576,922024,2

Решение


1. Построение корреляционного поля и предложение гипотезы о связи исследуемых факторов, выдвижение предположения о наличии выбросов

Изображая исходные данные в виде точек в декартовой системе координат, получим корреляционное поле. Корреляционное поле, построенное по данным таблицы 1, приведено на рисунке 1.

Рисунок 1. Корреляционное поле


Выявление аномальных значений признака наиболее удобно производить графическим методом. По расположению точек на точечном графике легко выявить значения признака, которые резко выделяются из общей, однородной массы значений признаков единиц совокупности.

Необходимыми предпосылками корректного использования статистических методов анализа является однородность совокупности. Неоднородность совокупности возникает вследствие значительной вариации значений признака или попадания в совокупность резко выделяющихся, так называемых аномальных наблюдений. Для выявления аномальных наблюдений используют правило трех сигм, которое состоит в том, что аномальными будут те единицы, которых значения анализируемого признака будут выходить за рамки интервала:





Таблица 2

Расчеты для выявления аномальных наблюдений

ОбластьxyБелгородская область6 715,32839543,294678,71597401,08Брянская область6 093,55321761,984464,12185912,97Владимирская область4 867,912478517,003386,26535095,75Воронежская область6 944,02121084,784913,21059630,05Ивановская область4 727,613489419,033592,05525242,01Калужская область7 525,1766140,365900,41779,43Костромская область5 269,99799995,473925,04070642,51Курская область6 826,62476828,954992,4902848,37Липецкая область8 955,3307920,185385,3310564,71Московская область11 060,57076161,579030,49534611,77Орловская область5 941,36047145,494338,02574687,67Рязанская область5 977,75869448,374406,12360781,03Смоленская область6 661,03025493,035128,7662406,08Тамбовская область7 109,31666924,865196,0557386,67Тверская область7 263,51292528,985875,94446,67Тульская область6 477,93695984,894464,82183843,58Ярославская область8 213,834817,495265,1458983,67г.Москва34 576,9685209443,1022024,2258618394,61итого151207,1763519158,81106966,5299144658,63среднее8400,39442417731,045942,616619147,70min4727,63386,2max34576,922024,2


Поскольку максимальное значение равное 22024,2 больше верхней его границы (18172,560), то можно считать, что в данной совокупности аномальные наблюдения (по у) есть, это у=22024,2



Поскольку максимальное значение равное 34576,9 больше верхней его границы (27939,063), то можно считать, что в данной совокупности аномальные наблюдения (по х) есть, это х=34576,9


Таблица 3

Расчеты для выявления аномальных наблюдений

ОбластьxyБелгородская область6 715,321112,094678,7101064,15Брянская область6 093,5588442,414464,1283562,51Владимирская область4 867,93970853,293386,22593407,11Воронежская область6 944,06955,564913,26956,54Ивановская область4 727,64549689,003592,01972917,68Калужская область7 525,1441560,255900,4816843,81Костромская область5 269,92530326,493925,01148339,17Курская область6 826,61156,004992,417,69Липецкая область8 955,34387768,095385,3151083,12Московская область11 060,517639160,019030,416271494,98Орловская область5 941,3845112,494338,0433761,71Рязанская область5 977,7779512,414406,1348697,20Смоленская область6 661,039840,165128,717448,86Тамбовская область7 109,361851,695196,039758,01Тверская область7 263,5162328,415875,9773158,15Тульская область6 477,9146459,294464,8282817,50Ярославская область8 213,81831150,245265,172089,09итого116630,238003277,984942,325313417,3среднее6860,62235486,94996,61489024,5min4727,63386,2max11060,59030,4


Поскольку максимальное значение равное 9030,4 больше верхней его границы (86,57,374), то можно считать, что в данной совокупности аномальные наблюдения (по у) есть, это у=9030,4


Поскольку минимальное значение у равное 4727,6 больше нижней границы интервала (2375,137), а максимальное значение равное 11060,5 меньше верхней его границы (11346,063), то можно считать, что в данной совокупности аномальных наблюдений (по х) нет.


Таблица 4

Расчеты для выявления аномальных наблюдений

Область xyБелгородская область6 715,313734,384678,74328,82Брянская область6 093,5254627,474464,178620,66Владимирская область4 867,92993613,673386,21844961,91Воронежская область6 944,0119642,494913,228461,80Ивановская область4 727,63498793,633592,01328241,84Калужская область7 525,1859317,415900,41336119,26Костромская область5 269,91764131,843925,0671570,01Курская область6 826,652209,394992,461457,51Липецкая область8 955,35556362,385385,3410632,65Орловская область5 941,3431394,454338,0165237,17Рязанская область5 977,7384903,924406,1114510,33Смоленская область6 661,03955,625128,7147614,44Тамбовская область7 109,3261319,055196,0203857,89Тверская область7 263,5442748,845875,91280080,10Тульская область6 477,914449,544464,878228,59Ярославская область8 213,82610466,295265,1271030,87итого105569,719261670,3775911,98024953,85среднее6598,1061203854,404744,5501559,62min4727,63386,2max8955,35900,4


Поскольку минимальное значение у равное 3386,2 больше нижней границы интервала (2619,868), а максимальное значение равное 5900,4 меньше верхней его границы (6869,120), то можно считать, что в данной совокупности аномальных наблюдений (по у) нет.



Поскольку минимальное значение у равное 4727,6 больше нижней границы интервала (3306,497), а максимальное значение равное 8955,3 меньше верхней его границы (9889,715), то можно считать, что в данной совокупности аномальных наблюдений (по х) нет.

Корреляционное поле, после исключения аномальных наблюдений, приведено на рисунке 2.


Рисунок 2. Корреляционное поле

Анализ рисунка 1 позволяет сделать вывод о прямой статистической связи между денежными доходами и потребительскими расходами


. Определение коэффициента корреляции


Коэффициент корреляции может быть найден по следующей формуле:


, где ,


Рисунок 2. Формулы расчета коэффициента корреляции


Таблица 5

Данные для расчета коэффициента корреляции

Областьхухуx2y2Белгородская область6715,34678,731418874,1145095254,0921890233,69Брянская область6093,54464,127201993,3537130742,2519928188,81Владимирская область4867,93386,216483682,9823696450,4111466350,44Воронежская область6944,04913,234117260,8048219136,0024139534,24Ивановская область4727,63592,016981539,2022350201,7612902464,00Калужская область7525,15900,444401100,0456627130,0134814720,16Костромская область5269,93925,020684357,5027771846,0115405625,00Курская область6826,64992,434081117,8446602467,5624924057,76Липецкая область8955,35385,348226977,0980197398,0929001456,09Орловская область5941,34338,025773359,4035299045,6918818244,00Рязанская область5977,74406,126338343,9735732897,2919413717,21Смоленская область6661,05128,734162270,7044368921,0026303563,69Тамбовская область7109,35196,036939922,8050542146,4926998416,00Тверская область7263,55875,942679599,6552758432,2534526200,81Тульская область6477,94464,828922527,9241963188,4119934439,04Ярославская область8213,85265,143246478,3867466510,4427721278,01итого105569,775911,9511659405,73715821767,75368188488,95среднее6598,14744,531978712,8644738860,4823011780,56


Коэффициент корреляции может быть найден с использованием анализа данных: Анализ данных ®Корреляция

Рисунок 3. Диалоговое окно «Корреляция»


Рисунок 4. Результаты расчета корреляции


Таблица 6

Атрибутивные оценки тесноты выявленной зависимости переменных

Значение показателя корреляции Атрибутивная оценка тесноты связи До 0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9 и более Слабая Умеренная Заметная Тесная Весьма тесная

При расчете в MS Excel по данной функции был получен результат 0,8674, т.е. связь между денежными доходами и потребительскими расходами тесная, фактически 75,24% (0,8674*0,8674*100%) вариации потребительских расходов объясняется вариацией денежных доходов. А 24,76% составляет влияние неучтенных в модели факторов.


3. Оценка статистической надежности и значимости вычисленного коэффициента корреляции


Оценку статистической надежности и значимости вычисленного коэффициента корреляции проведем с помощью коэффициента Стьюдента.

Выдвигаем гипотезу Н0 о статистической ненадежности и незначимости коэффициента корреляции , для числа степеней свободы df=n-2=16-2=14 и

Случайная ошибка коэффициента корреляции :



Вычисляем значения t-критерия Стьюдента:



Фактическое значение t-статистики больше табличного значение на 5%-м уровне значимости при числе степеней свободы n-2=16-2=14, . Поэтому гипотеза Н0 отвергается, т.е. отличается от нуля не случайно и его значение статистически надежно и значимо.

Предельная ошибка:

Найдем доверительные интервалы:


Таким образом, с вероятностью 95% коэффициент вариации будет находится в интервале от 0,5822 до 1.


. Итоговые выводы


В задаче исследована зависимость связи денежными доходами и потребительскими расходами:

связь между этими признаками прямая (установлено по корреляционному полю), исходные данные содержали два выброса,

связь между этими признаками тесная (установлено на основании коэффициента корреляции),

Вычисленный коэффициент корреляции является статистически надежный и значимый. С вероятностью 95% коэффициент вариации будет находится в интервале от 0,5822 до 1.


Задание 2. Регрессионный анализ


По исходным данным выполним регрессионный анализ

. Расчет параметров уравнения линейной парной регрессии.

.1. Расчет параметров уравнения линейной парной регрессии в Excel по формулам, реализующим метод наименьших квадратов


Рисунок 5. Формулы расчета параметров уравнения с использованием метода наименьших квадратов


Таблица 8

Расчеты для определения параметров регрессии с использованием метода наименьших квадратов

ОбластьухБелгородская область4678,706715,30-65,7911713734-7710,62Брянская область4464,106093,50-280,39-505254627141488,44Владимирская область3386,204867,90-1358,29-173029936142350128,34Воронежская область4913,206944,00168,7134611964258354,44Ивановская область3592,004727,60-1152,49-187134987942155746,76Калужская область5900,407525,101155,919278593171071517,87Костромская область3925,005269,90-819,49-132817641321088456,72Курская область4992,406826,60247,912285220956645,03Липецкая область5385,308955,30640,81235755563621510504,49Орловская область4338,005941,30-406,49-657431394266987,64Рязанская область4406,105977,70-338,39-620384904209941,60Смоленская область5128,706661,00384,2163395624164,17Тамбовская область5196,007109,30451,51511261319230807,17Тверская область5875,907263,501131,41665442749752830,65Тульская область4464,806477,90-279,69-1201445033620,94Ярославская область5265,108213,80520,6116162610466841140,26Итого75911,90105569,700,0001926167010784623,89Среднее4744,496598,110,0001203854674038,99


.2. Расчет с помощью функции ЛИНЕЙН с расшифровкой полученных результатов.

ЛИНЕЙН (известные значения_y; известные_значения_x;конст;статистика)

Известные_значения_y - множество значений y, которые уже известны для соотношения y = mx + b. В нашем случае B23:B38

Известные_значения_x - необязательное множество значений x, которые уже известны для соотношения y = mx + b. В нашем случае C23:C38

Конст - логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0. В нашем случае: b вычисляется обычным образом, т.е. конст опущено.

Статистика - логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии. В нашем случае аргумент статистика имеет значение ЛОЖЬ, то функция ЛИНЕЙН возвращает только коэффициенты m и постоянную b.


Рисунок 6. Аргументы функции ЛИНЕЙН и формулы расчета параметров уравнения с использованием функции ЛИНЕЙН


В результате применения функции ЛИНЕЙН получены два значения 0,5599 и 1050,2090, которые соответственно представляют собой значения b и а.


Рисунок 7. Результаты расчета параметров уравнения с использованием функции ЛИНЕЙН


1.3. Расчет с помощью графического построения линии тренда

Построение графиков осуществляется с помощью «Мастера диаграмм».

) активизируем «Мастер диаграмм» любым из следующих способов:

а) в главном меню выбираем Вставка/Диаграмма;

б) на панели инструментов Стандартная щелкнем по кнопке Мастер диаграмм;

) в окне «Тип» выбираем График (рис. 8); вид графика выбираем в поле рядом со списком типов. Щелкните по кнопке Далее;


Рисунок 8. Диалоговое окно «Мастера диаграмм» тип диаграммы


3) заполняем значения х и у, как показано на рис. 9 . Щелкнем по кнопке Далее;


Рисунок 9. Диалоговое окно «Мастера диаграмм» ряд

4) Заполним параметры диаграммы на разных закладках (рис.10): названия диаграммы и осей, значения осей, линии сетки, параметры легенды, таблица и подписи данных. Щелкнем по кнопке Далее;

) Укажем место размещения диаграммы на отдельном или на имеющемся листе (рис. 11). Щелкнем по кнопке Далее. Готовая диаграмма, отражающая динамику уровней изучаемого ряда, представлена на рис. 12.


Рисунок 10. Диалоговое окно «Мастера Диаграмм» параметры диаграммы


Рисунок 11. Диалоговое окно «Мастера диаграмм» размещение диаграммы


Рисунок 12. Взаимосвязь между денежными доходами и потребительскими расходами


В MS Ехсеl линия тренда может быть добавлена в диаграмму с областями гистограммы или в график. Для этого: 1) выделим область построения диаграммы; в главном меню выберем Диаграмма/Добавить линию тренда; 2) в появившемся диалоговом окне (рис. 13) выбираем вид линии тренда и задаем соответствующие параметры.


Рисунок 13. Диалоговое окно типов линий тренда


В качестве дополнительной информации на диаграмме можно отобразить уравнение регрессии и коэффициент детерминации, установив соответствующие флажки на закладке Параметры (рис. 14). Щелкнем по кнопке ОК. Появится выбранный нами тренд описывающий исходные данные задачи рис.15.

Рисунок 14. Диалоговое окно параметров линии тренда


Рисунок 15. Линейный тренд


.4. Расчет с помощью инструмента «Регрессия»

Коэффициент корреляции может быть найден с использованием анализа данных: Анализ данных ®Регрессия


Рисунок 16. Диалоговое окно «Регрессия»


Рисунок 17. Результаты регрессионного анализа


Коэффициенты регрессии находятся в столбце коэффициенты дисперсионного анализа

Оценка статистической надежности результатов регрессионного моделирования с помощью доверительных интервалов коэффициентов регрессии по t-критерию Стьюдента

Вспомогательные расчеты произведем в таблице 9


Таблица 9

Вспомогательные расчеты для определения статистической надежности результатов моделирования

ОбластьхуxxБелгородская область6715,304678,704810,1117268,7545095254,09Брянская область6093,504464,104461,964,5637130742,25Владимирская область4867,903386,203775,75151749,1723696450,41Воронежская область6944,004913,204938,16623,0048219136,00Ивановская область4727,603592,003697,2011066,1722350201,76Калужская область7525,105900,405263,52405618,3656627130,01Костромская область5269,903925,004000,835750,2027771846,01Курская область6826,604992,404872,4314393,3846602467,56Липецкая область8955,305385,306064,29461025,1480197398,09Орловская область5941,304338,004376,751501,3635299045,69Рязанская область5977,704406,104397,1380,5035732897,29Смоленская область6661,005128,704779,71121795,4144368921,00Тамбовская область7109,305196,005030,7127320,2850542146,49Тверская область7263,505875,905117,05575856,0352758432,25Тульская область6477,904464,804677,1945109,5941963188,41Ярославская область8213,805265,105649,12147472,8367466510,44Итого105569,7075911,9075911,901986634,73715821767,75Среднее6598,114744,494744,49124164,6744738860,48

Стандартная ошибка регрессии, находится по следующей формуле:



Среднеквадратическое отклонение у:



Случайная ошибка параметра а:


Случайная ошибка параметра b:



Критический коэффициент Стьюдента для числа степеней свободы df=n-2=16-2=14 и ,

Предельные ошибки:


;


Найдем доверительные интервалы:



3. Оценка статистической значимости коэффициентов регрессии и всего уравнения регрессии с помощью t-критерия Стьюдента и F-критерия Фишера


Вспомогательные расчеты для определения индекса корреляции приведем в таблице 10.


Таблица 10

Вспомогательные расчеты для определения индекса корреляции

ОбластьуБелгородская область4678,704328,82Брянская область4464,1078620,66Владимирская область3386,201844961,91Воронежская область4913,2028461,80Ивановская область3592,001328241,84Калужская область5900,401336119,26Костромская область3925,00671570,01Курская область4992,4061457,51Липецкая область5385,30410632,65Орловская область4338,00165237,17Рязанская область4406,10114510,33Смоленская область5128,70147614,44Тамбовская область5196,00203857,89Тверская область5875,901280080,10Тульская область4464,8078228,59Ярославская область5265,10271030,87Итого75911,908024953,85Среднее4744,49501559,62

Рассчитаем индекс корреляции:



Случайная ошибка коэффициента корреляции :



Оценку статистической надежности и значимости вычисленного коэффициента корреляции проведем с помощью коэффициента Стьюдента.

Выдвигаем гипотезу Н0 о статистической ненадежности и незначимости коэффициента корреляции , для числа степеней свободы df=n-2=16-2=14 и

Вычисляем значения t-критерия Стьюдента:



Фактические значения t-статистики для b и r больше табличного значения на 5%-м уровне значимости при числе степеней свободы n-2=16-2=14, . Поэтому гипотеза Н0 не принимается, т.е. отличается от нуля не случайно и его значение статистически значимо.

Критерий F-Фишера:



Табличное значение F- критерия при доверительной вероятности 0,95 при V1=k=1 и V2=n-k-1=16-1-1=14 составляет Fтабл =4,60. Поскольку Fрас>Fтабл., то уравнение регрессии можно признать значимым.


. Оценка качества уравнения регрессии с помощью средней ошибки аппроксимации


Средняя ошибка аппроксимации находится как средняя арифметическая простая из индивидуальных ошибок по формуле:


Вспомогательные расчеты произведем в таблице 11


Таблица 11

Вспомогательные расчеты для определения средней ошибки аппроксимации

ОбластьууБелгородская область4678,704810,112,81Брянская область4464,104461,960,05Владимирская область3386,203775,7511,50Воронежская область4913,204938,160,51Ивановская область3592,003697,202,93Калужская область5900,405263,5210,79Костромская область3925,004000,831,93Курская область4992,404872,432,40Липецкая область5385,306064,2912,61Орловская область4338,004376,750,89Рязанская область4406,104397,130,20Смоленская область5128,704779,716,80Тамбовская область5196,005030,713,18Тверская область5875,905117,0512,91Тульская область4464,804677,194,76Ярославская область5265,105649,127,29Итого75911,9075911,9081,58


Расчетные значения в среднем отличаются от фактических на 3,55%. Так как средняя ошибка аппроксимации не превышает 8%, что свидетельствует о высоком качестве модели

5. Сравнительная оценка силы связи фактора с результатом с помощью общего (среднего) коэффициента эластичности


Коэффициент эластичности:



Таким образом, при увеличении денежных доходов на 1% потребительские расходы возрастают на 0,7786%


Итоговые выводы


Параметры уравнения линейной парной регрессии рассчитаны по формулам, реализующим метод наименьших квадратов; с помощью функции ЛИНЕЙН; графически с помощью построения линии тренда; с использованием инструмента «Регрессия». Полученные результаты совпадают, уравнение линейной регрессии имеет вид: . Согласно уравнению при увеличении денежных доходов на 1 руб., то потребительские расходы возрастают на 0,5599 руб.

Предельные ошибки коэффициентов регрессии равны, соответственно для параметра а - 1231,3380, для параметра b - 0,1841. Доверительные интервалы для параметра а от -181,1290 до 2281,5470, для параметра b от 0,3758 до 0,7440.

Коэффициент корреляции равен 0,8674, т.е. связь между денежными доходами и потребительскими расходами тесная. Фактически 75,24% вариации потребительских расходов объясняется вариацией денежных доходов, а 24,76% составляет влияние неучтенных в модели факторов.

Критический коэффициент Стьюдента для числа степеней свободы 14 и равен . Согласно расчетов, фактические t- коэффициенты Стьюдента для коэффициента b и коэффициента корреляции больше критического значения, т.е. они статистически значимы.

Так как расчетное значение коэффициента Фишера больше критического, то уравнение регрессии является значимым.

Расчетные значения в среднем отличаются от фактических на 3,55%.

Коэффициент эластичности равный 0,7786 означает, что при увеличении денежных доходов на 1% потребительские расходы возрастают на 0,7786%

1.


РОССИЙСКАЯ АКАДЕМИЯ НАРОДНОГО ХОЗЯЙСТВА И ГОСУДАРСТВЕННОЙ СЛУЖБЫ ПРИ ПРЕЗИДЕНТЕ РОССИЙСКОЙ ФЕДЕРАЦИИ ВЛАДИМИРСКИЙ ФИЛИАЛ Кафедра информационных техноло

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2017 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ