Применение метода корреляции в анализе

 

Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

Волгоградский государственный технический университет

Кафедра «Экономика и управление»









КОНТРОЛЬНАЯ РАБОТА

По дисциплине «Статистика»

На тему: Применение метода корреляции в анализе


Выполнила: студентка группы

ЭУ-11во Кудрина Д.Д.

Проверила: ст. преподаватель

Эрберт Э.Э.








Волгоград, 2014 г.

Введение


Статистика - отрасль общественных наук, имеющая целью сбор, упорядочение, анализ и сопоставление фактов, относящихся к самым разнообразным массовым явлениям.

Статистика, как наука подразделяется на: теорию статистики, макроэкономическую статистику, экономическую статистику, отраслевую статистику.

Каждая отрасль имеет свою статистику. Статистика развивается как отдельная наука. Отраслевая статистика дополняет теорию статистики.

Теория статистики является основополагающей дисциплиной и служит фундаментом для применения статистического метода анализа для хозяйственных субъектов. На любом уровне и в любой сфере эффективность использования статистики во многом определяется качеством исходной информации.

Статистикой называется отрасль знаний, объединяющая принципы и методы работы с числовыми данными, характеризующими массовые явления. В этом смысле статистика включает в себя несколько самостоятельных дисциплин: общую теорию статистики как вводный курс, теорию вероятностей и математическую статистику как науки об основных категориях и математических свойствах генеральной совокупности (универсума) и их выборочных оценках. Статистикой называют также отрасль практической деятельности, направленную на сбор, обработку, анализ и публикации статистических данных, отражающих явления и процессы общественной жизни. В России, как и в большинстве стран, эту работу выполняют и возглавляют специальные государственные учреждения.

Предметом статистики является количественное измерение становления многоукладной экономики, с целью получения информации о качественных показателях различных форм хозяйствования с тем, чтобы проводить сопоставительный анализ их деятельности.

Объект статистики - явления и процессы социально-экономической жизни общества, в которых отображаются и находят свое выражение социально-экономические отношения людей

Статистика изучает закономерности развития с помощью количественных показателей, поэтому она определяет размеры, уровни и величины различных явлений, изучает структуру явлений, динамику явлений, взаимодействие явлений.

Важнейшей задачей статистики является разработка статистических данных, характеризующих состояние и развитие экономики, культуры, жизненного уровня членов общества, отдельных отраслей, предприятий и т.д.

Статистика широко используется в различных науках и теориях, таких как: актуарные расчёты, демография, психометрия, наукометрия, теория принятия решений, эконометрика, экономическая статистика, геостатистика.

1. Применение метода корреляции в анализе


Исследуя природу, общество, экономику, необходимо считаться с взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания, так или иначе, определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому - сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается - увеличение массы внесенных удобрений ведет к росту урожайности.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные - множественной.

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь - это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая - регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле - когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле - когда исследуется сила связи - и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы - параметрические - их принято называть корреляционными.

Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.

Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности.

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.


. Коэффициенты ассоциации и контингенции


Для измерения связи между двумя дихотомическими переменными (т.е. признаками, каждый из которых принимает два значения) данные представляются в виде таблицы сопряженности 2 х 2 (ее называют также четырехпольной таблицей). Например, изучается связь между активностью работы в профсоюзе и уровнем заработной платы (таблице 1).


Таблица 1 - Активность в профсоюзе и уровень заработной платы

Проявление активностиУровень заработной платыИтоговысокийнизкийВысокая45 (a)5 (b)50 (a+b)Низкая15 (c)35(d)50 (c+d)Итого60 (a+c)40 (b+d)100

В таблице 1 показано, как распределились по категориям 100 работников, по которым были получены данные о заработной плате и работе в профсоюзе. Очевидно, что эти переменные связаны: появление лиц с сочетанием высокой активности (или неактивности) в профсоюзе и высоким (низким) уровнем заработной платы не является равновероятным. Среди тех, кто активно работает в профсоюзе, вероятность встретить высокооплачиваемых работников гораздо выше, чем среди тех, кто не отличался активностью. Для таких таблиц разработаны специальные меры связей. К ним относятся коэффициент ассоциации и коэффициент контингенции.

Коэффициент ассоциации предложен английским статистиком Дж. Э. Юлом



Коэффициент ассоциации принимает значение в интервале [0,1]: 0- отсутствие связи, 1- полная связь. Вычислим значение по данным табл. 1:



т.е. связь между изучаемыми признаками очень тесная.

В случае отсутствия связи между активностью и заработной платой мы бы имели в каждой клетке табл. 1 по 25 человек, и тогда коэффициент ассоциации был бы равен: 0.

Мера связи Юла основана на сравнении вероятности появления взаимно совместимых и взаимно несовместимых пар значений. Взаимно совместимыми в нашем примере являются: «высокая активность - высокая заработная плата», «низкая активность - низкая заработная плата»; взаимно несовместимыми являются: «низкая активность - высокая заработная плата», «высокая активность - низкая заработная плата».

Коэффициент ассоциации принимает значение «1», если хотя бы одна из клеток таблицы 2 х 2 равна нулю (таблица 2 и таблица 3).


Таблица 2 - Случай полной связи. Активность в профсоюзе и уровень заработной платы

Проявление активностиУровень заработной платыИтоговысокийнизкийВысокая-50 (b)50 (a+b)Низкая50 (c)-50 (c+d)Итого50 (a+c)50 (b+d)100

Таблица 3 - Случай неполной связи. Активность в профсоюзе и уровень заработной платы

Проявление активностиУровень заработной платыИтоговысокийнизкийВысокая25 (a)-25 (a+b)Низкая30 (c)45(d)75 (c+d)Итого55 (a+c)45 (b+d)100

Для таблицы 2: =-1, случай полной связи.

Для таблицы 3: =1, в случае неполной связи.

Эта особенность коэффициента ассоциации снижает его значение и показывает, насколько важно соблюдать осторожность при интерпретации результатов измерения связи.

Более достоверное измерение связи обеспечивает коэффициент контингенции:



Таблица 4 - Сравнительная таблица коэффициентов ассоциации и контингенции

Номер таблицыКоэффициент ассоциацииКоэффициент контингенции10,9090,6122-1-1310,52

По данным табл.4 значение существенно ниже величины . Приведенные примеры подтверждают, что коэффициент контингенции является более достоверной мерой связи между дихотомическими переменными. Когда каждый из качественных признаков состоит более чем из двух групп, то для определения тесноты связи возможно применение коэффициента взаимной сопряженности Пирсона - Чупрова.

.Коэффициенты взаимной сопряженности К.Пирсона и А.Чупрова

Для определения связи между неколичественными признаками применяют непараметрический критерий хи-квадрат Пирсона для испытания гипотезы о независимости двух переменных



где mij- эмпирические,

m´ ij - теоретические,

где i=1…k1,=1… k2.

Число степеней свободы


,


где k1 и k2 - число строк и столбцов.

Данные статистического наблюдения располагаются в таблице


y xIIIIIIВсегоIm11m12m13miIIm22miIIIm33miВсегоmjmjmjm

С помощью коэффициента взаимной сопряженности находим взаимосвязь между неколичественными признаками через число совпадений.

Теоретические частоты рассчитываются по каждой строке или столбцу пропорционально общим итогам исходя из гипотезы о случайности распределения



Если нулевая гипотеза об отсутствии связи отклоняется, , то необходимо измерить тесноту связи. Само значение критерия хи-квадрат в качестве меры связи не используется, хотя, конечно, большая величина хи-квадрата дает основание надеяться на то, что связь между переменными будет тесной. Но величина хи-квадрата зависит от числа наблюдений n, от распределения наблюдений по клеткам таблицы, т.е. от клеточных частот , а значит, и от числа категорий, выделяемых по одной переменной m и по другой переменной p, т.е. величина критерия хи-квадрат зависит от числа строк и столбцов таблицы. Поэтому измерение связи между категоризованными переменными проводится с помощью специальных мер связи. Для таблиц размерности m и p используют коэффициенты взаимной сопряженности. В эту группу показателей входят коэффициенты взаимной сопряженности К.Пирсона и А.Чупрова.

Коэффициент взаимной сопряженности Пирсона рассчитывается по формуле:

корреляция статистический анализ


где i-номер категории по признаку x, i=1…m,номер категории по признаку y, j=1…p, .

Коэффициент сопряженности Чупрова рассчитывается по формуле:



где k1 и k2 - число строк и столбцов в таблице.

- показатель взаимной сопряженности, определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки. Вычитая из этой суммы 1, получим величину показателя взаимной сопряженности.



Пример: Для определения связи между такими признаками, как федеральный округ и число турпакетов, реализованных населению за год (табл.5), рассчитаем коэффициенты взаимной сопряженности К.Пирсона и А.Чупрова.


Таблица 5 - Число турпакетов, реализованных населению по Федеральным округам за год

Федеральный округЧисло турпакетов, реализованных населению за год, ед.менее 30000Менее 6000060000 и болееитогоЦентральный151218Северо-Западный74011Южный4026Северокавказский3137Приволжский82414Уральский3216Сибирский63312Дальневосточный6039Итого52131883


Чем ближе величины и к 1, тем сильнее связь.



По данным полученных коэффициентов, можно сказать, что связь между рассматриваемыми показателями слабая. Значит число турпакетов, реализованных населению за год практически не зависит от федерального округа.


Практическая часть


Задание № 1


Даны продажи товара в магазинах условного города, 2010-2011 гг


МагазинЦена, руб./штПродажи, тыс.шт.2010201120102011E72080063004770G75084081005670I6757501100990B65075013501260

Рассчитать:

Средние цены на товар по 4 магазинам за 2010 и 2011 год.

Определить дисперсию, среднее квадратическое отклонение цен, коэффициент вариации по каждому товару.

Оценить изменение средних цен и влияние на него отдельных факторов (индекс цен переменного состава, постоянного состава и структурных сдвигов).

Оценить, насколько изменились средние цены в общем, а также под влиянием собственно роста цен, и изменения структуры продаж.

Отобразить изменение структуры продаж на графике.

Решение:

Составим расчётную таблицу


МагазинЦена, руб./шт.Продажи, тыс.шт.Товарооборот, тыс.руб.201020112010201120102011Отчетный период по ценам базисного периодаE72080063004770453600038160003434400G75084081005670607500047628004252500I6757501100990742500742500668250B65075013501260877500945000819000698,75785168501269012231000102663009174150

Средние цены на товар по 4 магазинам за 2010 и 2011 г.

Средняя цена рассчитывается по формуле:



Средняя цена товара за 2011 год увеличилась на 86,25 рублей.

Определить дисперсию, среднее квадратическое отклонение цен, коэффициент вариации по каждому товару

Дисперсия

Дисперсия - это средний квадрат отклонений значений X от среднего арифметического значения. Дисперсию можно рассчитывать по формуле средней арифметической простой - получим дисперсию простую:



Расчет дисперсии:


Среднее квадратическое отклонение цен

Формула средней квадратической применяется для оценки вариации путем расчета среднего квадратического отклонения, обозначаемое малой греческой буквой сигма: ?.



Коэффициенты вариации

Квадратический коэффициент вариации - это самый популярный относительный показатель вариации:



Критериальным значением квадратического коэффициента вариации служит 0,333 или 33,3%, то есть если меньше или равен 0,333 - вариация считает слабой, а если больше 0,333 - сильной. В случае сильной вариации изучаемая статистическая совокупность считается неоднородной, а средняя величина - нетипичной и ее нельзя использовать как обобщающий показатель этой совокупности.

За 2010 год:


За 2011 год:

Оценить изменение средних цен и влияние на него отдельных факторов (индекс цен переменного состава, постоянного состава и структурных сдвигов)

Изменение средних цен



И в абсолютной величине:



Индекс цен переменного состава

Средняя цена по всем группам зависит от средней цены на товар по отдельным группам и доли физического объема продаж в каждой из этих групп.

Таким образом, можно сказать, что средняя цена на товар по всем группам равна сумме произведений средней цены по группам (качественный показатель) на долю в физическом объеме соответствующей группы (количественный показатель).

Соответственно, индекс цен переменного состава (индекс средних величин) будет представлять собой отношение:



За счет всех факторов цена возросла на 11,45%.

Индекс цен постоянного состава

Чтобы определить влияние только средней цены по разным группам товара на изменение средней цены по всей совокупности в формуле индекса цен переменного состава необходимо устранить влияние изменения структуры физического объема.

Это достигается путем фиксирования значения доли (количественный показатель) на отчетном уровне. Получаемый индекс называется индексом фиксированного (постоянного) состава и рассчитывается по формуле:



За счет изменения структуры цены средняя цена возросла на 11,9%.

Индекс цен структурных сдвигов

Индекс влияния изменения структуры продажи товара на динамику средней цены



За счет изменения структуры продаж средняя цена снизилась на 0,4%.

Продажи снизились на 1%.

Таким образом, в трёх магазинах, в общем, цены увеличились на 11 %, конкретно под влиянием роста цен.

.График структуры продаж


Задание 2


Продажи товаров в условном населенном пункте, 2010-2011 г.г.


ТоварЦена, руб./шт.Продажи, тыс.шт.2010201120102011C360040503035D4555288315E8085220250J3035520520

Рассчитать:

Индивидуальные индексы цен.

Общие индексы цен Пааше, Ласпейреса, Фишера.

Построить систему индексов товарооборота, цен и физического объема продаж.

Оценить изменение общее изменение расходов покупателей, а также изменение их затрат вследствие роста цен и роста объемов продаж, в абсолютном выражении.

Решение:

Составим расчётную таблицу:

Исходные данныеРасчетные данныетоварцена, руб./шт.продажи, тыс.шт.товарооборот, тыс.руб.индивидуальные индексы201020112010201120102011отчетный период по ценам базисного периодабазисный период по ценам отчетного периодафизического товарооборотацентоварооборотаp0p1q0q1p0q0p1q1p0q1p1q0C3600405030351080001417501260001215001,171,121,31D4555288315129601732514175158401,091,221,34E8085220250176002125020000187001,141,061,21J30355205201560018200156001820011.171,17154160198525175775174240


Индивидуальные индексы

Способы построения индексов зависят от содержания изучаемого явления, методологии расчета исходных статистических показателей и целей исследования. В каждом индексе выделяют 3 элемента:

индексируемый показатель - это показатель, соотношение уровней которого характеризует индекс

сравниваемый уровень - это тот уровень, который сравнивают с другим.

базисный уровень - это тот уровень, с которым производится сравнение.

Индивидуальный индекс физического товарооборота вычисляется по формуле:



Индивидуальный индекс цен вычисляется по формуле:



Индивидуальный индекс товарооборота вычисляется по формуле:



Данные занесены в расчётную таблицу.

Определим общие индексы цен Пааше, Ласпейреса, Фишера

Индекс цен Пааше

Индекс цен Пааше - это агрегатный индекс цен с весами (количество реализованного товара) в отчетном периоде.

Индекс цен Пааше характеризует изменение цен отчетного периода по сравнению с базисным по товарам, реализованным в отчетном периоде. То есть индекс цен Пааше показывает на сколько подешевели или подорожали товары.



Индекс цен Ласпейреса

Для характеристики среднего изменения цен на потребительские товары используют индекс цен, предложенный Э. Ласпейресом (индекс Ласпейреса):



где q0 - потребительская корзина (базовый период); p0 и p1 - соответственно цены базисного и отчетного периодов.

Индекс цен Ласпейреса показывает, на сколько изменились цены в отчетном периоде по сравнению с базисным, но на товары реализованные в базисном периоде. Иначе говоря индекс цен Ласпейреса показывает во сколько товары базисного периода подорожали или подешевели из-за изменения цен в отчетном периоде.



Индекс цен Фишера

Представляет собой среднюю геометрическую из произведений двух агрегатных индексов цен Ласпейреса и Пааше:



Идеальность заключается в том, что индекс является обратимым во времени, то есть при перестановке базисного и отчетного периодов получается обратный индекс (величина обратная величине первоначального индекса).

Индекс цен Фишера лишен какого-либо экономического содержания. В силу сложности расчета и трудности экономической интерпретации используется довольно редко (например, при исчислении индексов цен за длительный период времени для сглаживания значительных изменений).



Построить систему индексов товарооборота, цен и физического объема продаж.

Индекс цен определён в предыдущем пункте

.

Индекс товарооборота



Индекс физического объёма продаж:


Оценить изменение общее изменение расходов покупателей, а также изменение их затрат вследствие роста цен и роста объемов продаж, в абсолютном выражении.

Расходы покупателей увеличились на 12.9%, а именно на

-154160=44365 руб.

За счёт роста объёмов продаж увеличились на 14%:

-154160=21615 руб,

а за счёт роста цен на:

-21615=22750 руб.


Список литературы


1. Статистика: учебное пособие / А.В. Багат и др.; под ред. В.М. Симчеры. - М.: Финансы и статистика, 2011

. Гусаров В.М. Теория статистики: Учебное пособие для вузов. - М.: Аудит, ЮНИТИ, 2011

. Мелкумов Я.С. Социально-экономическая статистика: учебно-методическое пособие. - М.: ИМПЭ-ПАБЛИШ, 2010

. Елисеева И.И. Общая теория статистики: учебник для вузов / И.И. Елисеева, М.М. Юзбашев; под ред. И.И. Елисеевой. - М. 2010

. Сиденко А.В., Попов Г.Ю., Матвеева В.М. Статистика: Учебник. - М.: Издательство "Дело и сервис", 2000

. Салин В.Н. Курс теории статистики для подготовки специалистов финансово-экономического профиля: учебник / В.Н. Салин, Э.Ю. Чурилова. - М.: Финансы и статистика, 2010.

. Теория статистики: учебник для вузов / Р.А. Шмойлова и др.; под ред. Р.А. Шмойловой. - М.: Финансы и статистика, 2011.



Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего профессионального образован

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2017 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ