Анализ интервального вариационного ряда "Численность экономически активного населения по субъектам Российской Федерации в 2012 году"

 

Содержание


Введение

1. Табличное и графическое представление вариационного ряда

1.1 Ранжирование исходных данных, определение наличия выбросов

1.2 Определение числа групп

1.3 Определение величины интервала

1.4 Графическое изображение вариационного ряда

1.5 Графическое изображение рядов распределения

2. Характеристика центральной тенденции распределения

3. Оценка вариации изучаемого признака

4. Характеристика структуры распределения

5. Характеристика формы распределения

6. Сглаживание эмпирического распределения

Заключение

Список использованной литературы


Введение


Статистическое наблюдение

Статистическим наблюдением является:

Массовое (оно охватывает большое число случаев) проявление исследуемого явления для получения правдивых статистических данных;

Планомерное (проводится по разработанному плану), включающее вопросы методологии, организации сбора и контроля достоверности информации;

Систематическое (проводится систематически, либо непрерывно, либо регулярно);

Научно организованное (для повышения достоверности данных), которое зависит от программы наблюдения, содержания анкет, качества подготовки инструкций наблюдения за явлениями и процессами социально-экономической жизни, которое заключается в сборе и регистрации отдельных признаков у каждой единицы совокупности. [1]

Для успешной подготовки и проведения статистического наблюдения необходимо решить программно-методологические, организационные вопросы, для реализации которых нужно составить организационный план статистического наблюдения.

Организационный план - это документ, в котором должны быть отражены важнейшие вопросы по организации и проведению предстоящих мероприятий. Он составляется для того, чтобы успешно проводить статистические наблюдения. В нем указываются: органы, проводящие наблюдение, время и сроки наблюдения, подготовительные работы, которые были проведены для дальнейшего наблюдения, порядок комплектования и обучения кадров, необходимых для проведения статистического наблюдения, порядок его проведения, порядок приема и сдачи материалов, получение и предоставление предварительных и окончательных итогов. Вопрос о времени проведения статистического наблюдения должен быть обязательно решен, включая выбор сезона, срока и критического момента наблюдения.

Для того чтобы выбрать сезон, нужно проследить, чтобы изучаемый объект пребывал в обычном для него состоянии.

Время начала и окончания сбора статистических данных называют периодом, или сроком.

Срок наблюдения определяется рядом факторов: он зависит от специфики и особенностей объекта наблюдения.

Критическим моментом статистического наблюдения называют момент времени, по состоянию на который фиксируются собранные данные, которые получены в процессе статистического наблюдения, например, выбирают момент окончания одних суток и начала других.

Организация, осуществляющая подготовку, проведение статистического наблюдения и несущая ответственность за свою работу, - это орган наблюдения. У органа наблюдения должны быть четко определены сферы деятельности, функции, права, круг обязанностей, за которые он несет ответственность.

Место, где происходит регистрация наблюдаемых фактов и заполнение статистических формуляров, называют местом статистического наблюдения.

В ходе проведения статистического наблюдения важной задачей является получение достоверных и объективных данных о состоянии обследуемых объектов. Существенное значение для проведения хорошего статистического наблюдения имеет определение кадрового состава.

Успешное проведение статистического наблюдения обеспечивается четкой структурой и разработанностью его организационного плана.

Ошибки статистического наблюдения

Важнейшей задачей статистического наблюдения является достоверность и точность собираемой статистической информации.

Любое статистическое наблюдение предполагает получение данных, которые будут полно и точно отражать действительность.

В процессе проведения статистического наблюдения могут возникать погрешности, которые приводят к снижению достоверности статистического наблюдения.

Основное требование, которое предъявляется к статистическому наблюдению - это точность статистических данных.

Точность - это уровень соответствия значения какого-либо признака или показателя, который был получен вследствие статистического наблюдения, действительному его значению. В процессе подготовки и проведения статистического исследования, чтобы предупредить возможность появления отклонений или разности между исчисленными показателями, нужно предусмотреть и осуществить ряд мероприятий. Если же такие отклонения возникли, их называют ошибками статистического наблюдения.

Материалы, собранные в результате наблюдения, подвергаются всесторонней проверке и контролю. Они проверяются с точки зрения полноты охвата всех единиц совокупности наблюдения и правильности заполнения документов контроля.

Ошибки статистического наблюдения - это ошибки репрезентативности и ошибки регистрации.

Ошибки репрезентативности показывают, в какой степени выборочная совокупность представляет генеральную совокупность. Эти ошибки возникают потому, что наблюдению подвергается только часть единиц изучаемой совокупности, и сведения эти не могут абсолютно точно отобразить свойства всей массы явлений совокупности.

Возникающие в результате неправильного установления фактов ошибки регистрации можно подразделить на:

случайные - это ошибки, которые могут дать искажения как в одну, так и в другую сторону;

систематические ошибки, возникающие вследствие нарушения принципов непреднамеренного отбора единиц изучаемой совокупности. Систематические ошибки опасны, потому что они влияют на полученные итоговые показатели;

преднамеренные ошибки возникают вследствие умышленного искажения фактов.

Для обеспечения достоверности данных статистического наблюдения предусматривают проверку их качества с точки зрения полноты охвата изучаемого объекта статистическим наблюдением, качества и др.

Проверка данных статистического наблюдения на достоверность - это проведение логического, арифметического и синтаксического контроля.

Содержание и значение статистической сводки

Сведения о каждой единице анализируемой совокупности, полученные в результате первой стадии статистического исследования, характеризуют статистическое наблюдение с различных его сторон, так как они обладают многочисленными признаками и свойствами, которые изменяются во времени и пространстве. Для получения сводной характеристики всего объекта при помощи обобщающих показателей нужно систематизировать и обобщить результаты, которые были получены в ходе статистического наблюдения. Это даст нам возможность выявить особенности и черты статистической совокупности в целом и отдельных ее составляющих, обнаружить закономерности изучаемых социально-экономических явлений и процессов. Данную систематизацию называют сводкой первичного статистического материала.

Второй этап статистической работы - статистическая сводка - это обработка первичных данных в целях получения обобщенных характеристик изучаемого явления или процесса по ряду существенных для него признаков для выявления типичных черт и закономерностей, присущих явлению или процессу в целом.

Статистическая сводка - это переход от единичных данных к сведениям о группах единиц и совокупности в целом.

Проведение сводки включает три этапа:

предварительный контроль - это проверка данных;

группировка данных по заданным признакам - это определение производных показателей;

оформление результатов сводки в виде статистических таблиц, они являются удобной формой для восприятия полученной информации.

Смысловая согласованность статистических сведений - это предварительный контроль.

В соответствии с программой статистической сводки для того, чтобы в дальнейшем предоставить полученную информацию в доступном для восприятия виде, используется статистическая группировка данных.

Полученные результаты группировки оформляются в виде группировочных таблиц, содержащих сводную характеристику исследуемой совокупности по одному или нескольким признакам, которые взаимосвязаны логикой анализа.

Различают сводку простую и сложную.

Виды сводок

Простая статистическая сводка - это операция по подсчету общих итоговых и групповых данных по совокупности единиц наблюдения и оформление этого материала в таблицах.

Простая статистическая сводка дает возможность определить число единиц изучаемой совокупности и объем изучаемых признаков, но тем самым простая сводка не дает представления о целостности состава изучаемой совокупности.

Если единицы совокупности разбивают на однородные группы, после этого подсчитывают итоги по каждой группе, а затем по всей совокупности в целом, такую статистическую сводку называют сложной.

Сложная сводка позволяет нам изучить состав совокупности и выявить влияние одних признаков на другие, т. е. раскрыть свойственные данной совокупности закономерности.

Сложная статистическая сводка - это комплекс операций, включающих распределение единиц наблюдения изучаемого социально-экономического явления или процесса на группы, составление системы показателей для характеристики типичных групп и подгрупп изучаемой совокупности явлений, подсчет числа единиц и итогов в каждой группе и подгруппах и оформление результатов этой работы в виде статистических таблиц.

На основе всестороннего теоретического анализа сущности и содержания изучаемых явлений и процессов проводится статистическая сводка.

Программой и планом проведения статистической сводки обеспечивается достоверность и обоснованность ее результатов.

Программа статистической сводки содержит перечень групп, на которые может быть разбита или разбивается совокупность единиц статистического наблюдения, а также систему показателей, характеризующих изучаемую совокупность явлений и процессов как в целом, так и отдельных ее частей.

От целей и задач исследования зависит программа статистической сводки.

Вместе с программой статистической сводки составляют план ее проведения. План должен содержать информацию о последовательности, сроках и технике проведения сводки, ее исполнителях, о порядке и правилах оформления ее результатов в виде таблиц.

Сущность и классификация группировок

Статистическая группировка - это один из основных этапов проведения статистического исследования.

Процесс образования однородных групп на основе разделения статистической совокупности на части или объединение изучаемых статистических единиц в совокупности по определенным для них признакам называют статистической группировкой. Важнейшим статистическим методом обобщения данных являются статистические группировки.

В литературе [2] выделяют следующие виды статистических группировок:

типологические;

структурные;

аналитические

Качественно однородные группы совокупностей, называют типологической группировкой.

Для построения типологической группировки необходимо воспользоваться количественными и качественными (атрибутивными) признаками.

Разделение однородной совокупности на определенные группы, которые в дальнейшем будут характеризовать структуру по определенному группировочному признаку, называют структурной группировкой.

Здесь также рассматриваются количественные и атрибутивные группировки.

Статистические ряды распределения

Статистические ряды распределения представляют собой упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.

Различают атрибутивные и вариационные ряды распределения.

Атрибутивный - это ряд распределения, построенный по качественным признакам.

По количественному признаку строится вариационный ряд распределения. Он состоит из частоты (численности) отдельных вариантов или каждой группы вариационного ряда. Данные числа показывают, насколько часто встречаются различные варианты (значения признака) в ряду распределения. Сумма всех частот определяет численность всей совокупности.

В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды распределения. В дискретном вариационном ряде распределения группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

В интервальном вариационном ряде распределения группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения.

Вариационные ряды состоят из двух элементов: частоты и варианты.

Вариантой называют отдельное значение варьируемого признака, которое он принимает в ряду распределения.

Частота - это численность отдельных вариант или каждой группы вариационного ряда. Если частоты выражены в долях единицы или в процентах к итогу, то их называют частостями.

Плотность распределения - это отношение числа единиц совокупности к ширине интервала.

Анализ рядов распределения можно проводить на основе их графического изображения. Линейчатые и круговые диаграммы строятся для отображения структуры совокупности.

Применяются вместе с диаграммами и такие линии, как полигон, кумулята, огива, гистограмма.

Полигон - ломаная кривая, строится на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У - частоты.

Гладкая кривая, соединяющая точки - это эмпирическая плотность распределения.

Кумулята - ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У - накопленные частоты.

Для дискретных рядов на оси откладываются сами значения признака, а для интервальных - середины интервала.

На основе гистограмм можно строить диаграммы накопленных частот с последующим построением интегральной эмпирической функции распределения.


1. Табличное и графическое представление вариационного ряда


.1 Ранжирование исходных данных, определение наличия выбросов


Первым этапом статистического изучения вариации являются построение вариационного ряда - упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.

Существуют три формы вариационного ряда:

ранжированный ряд;

дискретный ряд;

интервальный ряд.

Вариационный ряд часто называют рядом распределения.

Этот термин используется при изучении вариации как количественных, так и неколичественных признаков.

Ряд распределения представляет собой структурную группировку.

Ранжированный ряд - это перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака.

Если численность единиц совокупности достаточно велика, ранжированный ряд становится громоздким, а его построение, даже с помощью ЭВМ, занимает длительное время. В таких случаях вариационный ряд строится с помощью группировки единиц совокупности по значениям изучаемого признака.

Если признак принимает небольшое число значений, строится дискретный вариационный ряд.

Дискретный вариационный ряд - это таблица, состоящая из двух строк или граф: конкретных значений варьирующего признака Хi и числа единиц совокупности с данным значением признака F частот (F - начальная буква англ. Слова frequency)


1.2 Определение числа групп


Число групп в дискретном вариационном ряду определяется числом реально существующих значений варьирующего признака.

Если же признак может принимать дискретные значения, то их число очень велико (например, поголовье скота на 1 января года в разных сельхозпредприятиях может составлять от нуля до десятков тысяч голов), тогда строится интервальный вариационный ряд.

Интервальный вариационный ряд строится и для изучения признаков, которые могут принимать любые, как целые, так и дробные, значения в области своего существования. Таковы, например, рентабельность реализованной продукции, себестоимость единицы продукции, доход на 1 жителя города, доля лиц с высшим образованием среди населения разных территорий и вообще все вторичные признаки, значения которых рассчитываются путем деления величины одного первичного признака на величину другого

Интервальный вариационный ряд представляет собой таблицу, (состоящую из двух граф (или строк) - интервалов признака, вариация которого изучается, и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа от общей численности совокупности (частостей).

При построении интервального вариационного ряда необходимо выбрать оптимальное число групп (интервалов признака) и установить длину интервала.

Поскольку при анализе вариационного ряда сравнивают частоты в разных интервалах, необходимо, чтобы величина интервала была постоянной. Оптимальное число групп выбирается так, чтобы в достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределения, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится йные скачки частот исказят форму распределения.

Чаще всего число групп в вариационном ряду устанавливают, придерживаясь формулы (1.1), рекомендованной американским статистиком Стерджессом (Sturgess):


(1.1)


где k - число групп; n - численность совокупности.

Эта формула показывает, что число групп - функция объема данных.

Предположим, необходимо построить вариационный ряд распределения предприятий области по урожайности зерновых культур за какой-то год. Число сельхозпредприятий, имевших посевы зерновых культур, составило 143; наименьшее значение урожайности равно 10,7 ц/га, наибольшее - 53,1 ц/га.

Имеем:

k=1+3.32*lq*143=8,16

Так как число групп целое, следовательно, рекомендуется построить 8 или 9 групп.


1.3 Определение величины интервала


Зная число групп, рассчитывают величину интервала:


(1.2)


В нашем примере величина интервала составляет:

а) при 8 группах= (53,1-10,7)/8 =5,3 ц/га

б) при 9 группах= (53,1-10,7)/9 =4,7 ц/га

Для построения ряда и анализа вариации значительно лучше иметь по возможности округленные значения величины интервала и его границ. Поэтому наилучшим решением будет построение вариационного ряда с 9 группами с интервалом, равным 5 ц/га.

Границы интервалов могут указываться разным образом: верхняя граница предыдущего интервала повторяет нижнюю границу следующего или не повторяет.

В последнем случае второй интервал будет обозначен как 15,1-20, третий как 20,1-25 и т.д., т.е. предполагается, что все значения урожайности обязательно округлены до одной десятой. Кроме того, возникает нежелательное осложнение с серединой интервала 15,1-20, которая, строго говоря, уже будет равна не 17,5, а 17,55; соответственно при замене округленного интервала 40-60 на 40,1-6,0 вместо округленного значения его середины 50 получим 50,5, Поэтому предпочтительнее оставить интервалы с повторяющейся округленной границей и договориться, что единицы совокупности, имеющие значение признака, равное границе интервала, включаются в тот интервал, где это точное значение впервые указывается. Так, хозяйство, имеющее урожайность, равную 15 ц/га, включается в первую группу, значение 20 ц/га -во вторую и т. д.


.4 Графическое изображение вариационного ряда


Существенную помощь в анализе вариационного ряда и его свойств оказывает графическое изображение.

Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные на оси абсцисс, - это интервалы значений варьирующего признака, а высоты столбиков - частоты, -соответствующие масштабу по оси ординат.

Данные таблиц показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже - крайние; малые и большие значения признака. Форма этого распределения близка к рассматриваемому в курсе математической статистики закону нормального распределения.

Великий русский математик А.М. Ляпунов (1857 - 1918) доказал, что нормальное распределение образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего влияния.

Случайное сочетание множества примерно равных факторов, влияющих на вариацию урожайности зерновых культур, как природных, так и агротехнических, экономических, создает близкое к нормальному закону распределения распределение хозяйств области по урожайности.

Если имеется дискретный вариационный ряд или используются середины интервалов, то графическое изображение такого вариационного ряда называется полигоном (от греч. Слова - многоугольник).

Отношение высоты полигона или диаграммы к их основанию рекомендуется в пропорции примерно 5:8.


.5 Графическое изображение рядов распределения


Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:

полигона

гистограммы

кумуляты

огивы

Полигон - при построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) - частоты или частости.

Полигон используется для дискретных вариационных рядов.

Если значения признака выражены в виде интервалов, то такой ряд называется интервальным.

Интервальные ряды распределения изображают графически в виде гистограммы, кумуляты или огивы.

При такой записи непрерывного признака, когда одна и та же величина встречается дважды (как верхняя граница одного интервала и нижняя граница другого интервала), то эта величина относится к той группе, где эта величина выступает в роли верхней границы.

Гистограмма - Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

Кумулята - для построения кумуляты необходимо рассчитать накопленные частоты (частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов и обозначаются S. Накопленные частоты показывают, сколько единиц совокупности имеют значение признака не больше, чем рассматриваемое.

Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты.

Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат - накопленные частоты или частности.

Огива строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака - на оси ординат.

Разновидностью кумуляты является кривая концентрации или график Лоренца. Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, а на оси ординат - накопленные значения доли (в процентах) по объему признака.

Равномерному распределению признака соответствует на графике диагональ квадрата. При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака.

Для практической работы со статистическими данными выбрана таблица «Численность экономически активного населения» в 2012 году из справочника «Регионы России» (таблица 1.1)


Таблица 1.1 Численность экономически активного населения Российской Федерации в 2012 году (тыс. человек)

№ регионаКол-во человек№ регионаКол-во человек№регионаКол-во человек№ регионаКол-во человек№ регионаКол-во человек№ регионаКол-во человек175216815311206461895613147653026601771732133478436218277748837921858933344348681639578354114819382341434914386445179496556020547351985079365128801054653821680363115117936626281774737122243746052110167131482441859223667382470537116815298319295972451339130054175469228413103603258974053755132370108510111439265154113565668271122786304125762733942213257478725987871352928373431984582417731476883314556292645443625996874136615720302024543960848751022

Используя программу STATISTIKA проведем ранжирование статистических данных.

Выбросами, очевидно, будут Москва и Московская область, так как разность между экономически активным населением Москвы (5893 тыс. чел) и Москвовской области (3603 тыс. чел) гораздо больше, чем разность между экономически активным населением Санкт-Петербурга (2645 тыс. чел.) и Краснодарского края (2470 тыс. чел.)

Таким образом, ранжированный ряд будет выглядеть так, как представлено в таблице 1.2.


Таблица 1.2 Исходные данные, ранжированные по возрастанию значений признака (тыс. человек)

Номер регионаКоличество человекНомер регионаКоличество человекНомер регионаКоличество человекНомер регионаКоличество человекНомер регионаКоличество человекНомер регионаКоличество человек110162023146046597618487614762131726232478476606289777152932218304334884866763968781754424193113449649680641022791793533203143551350681651054801827635213393651551682661101811895759223623752952711671148821984887233713853053717681206832132995243733953754720691227842417101012538240538557527013008524701112826439415475677471131486264512133274394255657792721323873603131432844143560587937313568858931419229443445765981574136615198304514559260843751438

Переходя к построению табличного представления вариационного ряда используем ППП, что упрощает задачу наблюдения и поэтапно применяя подборку шага составим три таблицы с шагом k=15, 10 и 7, руководствуясь, прежде всего тем, чтобы в конечном варианте таблицы отсутствовали малонаполненные и нулевые группы и получена была мономодальная таблица.

Главный недостаток таблицы с шагом k=15 (представленной на рисунке 1.1) наличие нулевых строк и нечётко определенная мономодальность. При этом встречаются малонаполненные и нулевые ячейки.


101011,6279111,62797178,1395319,7674153217,4418637,2093164818,6046555,8140136115,1162870,93023643,4883774,41865695,8139580,23265745,8139586,04653773,4883789,53492792,3255891,86053823,4883795,34881831,1627996,51160830,0000096,51162852,3255898,83721861,16279100,00000860,00000100,0000Рис. 1.1 Таблица распределения с числом интервалов k=15


В таблице с числом интервалов k=10 (представленной на рис. 1.2) уже отсутствуют нулевые строки, а так же увеличивается мономодальность:


131315,1162815,1163162918,6046533,7209255429,0697762,7907106411,6279174,41868729,3023383,72095775,8139589,53494814,6511694,18602832,3255896,51162852,3255898,83721861,16279100,00000860,00000100,0000Рис. 1.2 Таблица распределения с числом интевалов k=10


В таблице с числом интервалов k=8, (представленной на рис.1.3) по мнению автора наиболее подходит для статистического анализа:


151517,4418617,4419284332,5581450,0000196222,0930272,0930107211,6279183,72095775,8139589,53495825,8139595,34882842,3255897,67442862,32558100,00000860,00000100,0000Рис. 1.3 Таблица распределения с числом интервалов k=8


Таким образом, данные статистического наблюдения «Численность экономически активного населения Российской Федерации в 2012 году» (тыс. чел.) предварительно могут быть сведены так как это представлено в таблице 1.3:


Таблица 1.3 Численность экономически активного населения по субъектам Российской Федерации в 2012 году (тыс. человек)

Численность населенияЧастотыКоммулятивные частоты SВ %В %, итогоДо 198 151517,4417,44От 198 до 575284332,5650,00От 575 до 951196222,0972,09От 951 до 1328107211,6383,72От 1328 до 17045775,8189,53От 1704 до 20805825,8195,35От 2080 до 24562842,3297,67Свыше 24562862,32100,00ИТОГО8686100,0100,00

При этом в данной таблице слабо выдержан её шаг (за счет того, что ППП применяет расчет с округлением до четвертого знака после запятой), при этом граница верхнего ряда начинается в области отрицательных значений.

Рассчитав по формуле (1.2) и округлив до целых значений, выясним его длину:

тыс.чел.

Задав указанное значение в программе, уточним таблицу.

В результате окончательная таблица будет выглядеть в соответствии с рис.1.4:


212124,4186024,4186274831,3953555,8140156317,4418673,255897210,4651283,72095775,8139589,53495825,8139595,34881831,1627996,51163863,48837100,00000860,00000100,00000860,00000100,0000Рис.1.4 Таблица распределения с числом интервалов k=10 и шагом 330


В окончательном виде таблица «Численность экономически активного населения Российской Федерации в 2012 году» (тыс. чел.) примет вид (табл. 1.4):

Таблица 1.4 Численность экономически активного населения в Российской Федерации в 2012 году (тыс. человек)

Численность населения в субъектах РФЧастотыКоммулятивные частоты SВ %В %, итогоОт 10 до 340212124,4224,42От 340 до 670274831,4055,81От 670 до 1000156317,4473,26От 1000 до 133097210,4783,72От 1330 до 16605775,8189,53От 1660 до 19905825,8195,35От 1990 до 23201831,1696,51От 2320 до 26503863,49100,00ИТОГО8686100,0100,00

После окончательного представления статистической таблицы, она подлежит анализу.

Традиционно для изображения вариационных рядов распределения в отечественной практике используются графики: гистограмма, огива, кумулята.


Рис. 1.5 Гистограмма распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с наложенной кривой нормального распределения с числом интервалов k=8.

Из данной гистограммы усматривается, что наибольшее часть населения России проживает в регионах с численностью населения от 330 до 660 тыс. человек.

Таким образом, можно сказать, что основная часть экономически активного населения проживает в регионах с численностью до проумиллиона человек.

При этом за счёт крупных агломераций - Санкт-Петербурга и Центральной части России в конце гистограммы виден незначительное увеличение количества жителей в крупных мегаполисах.


Рис. 1.6 Полигон распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с числом интервалов k=8.


Аналогично гистограмме, представленной на Рис.1.5 видно, что максимальное число субъектов Российской Федерации имеет численность до полумиллиона человек.

При этом за счёт Санкт-Петербурга и Центральной части Российской Федерации в конце полигона имеется небольшой всплеск увеличения количества субъектов Российской Федерации.

Следует отметить, что в случае рассмотрения полного состава первоначальных статистических данных (с учётом Москвы и Московской области) этот пик был бы более заострён.


Рис. 1.7. Кумулята распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с числом интервалов k=8 (абсолютные частоты).


Рассматривая кумуляты, представленные на Рис.1.7 и Рис.1.8 видно, что значительный прирост накопленных процентных частот (с 24,42% до 55,81%) обеспечивается выше признанным фактором, то есть за чёт значительного числа субъектов Федерации с численностью экономически активного населения от 340 до 670 тыс. чел. В других областях значений кумулята имеет более плавное распределение.


Рис. 1.8. Кумулята распределения регионов России по значению показателя «Численность экономически активного населения в Российской Федерации в 2012 году» (тыс. человек) с числом интервалов k=8 (относительные частоты).


При этом, если бы кумулята строилась бы с учётом 100%-й выборки (с учетом выбросов) её конец был бы более заострен.

вариационный ряд асимметрия пирсон


2. Характеристика центральной тенденции распределения


Для определения средних и наиболее типичных значений совокупности С.Е. Казаринова [3] рекомендует показатели центра распределения.

Основные из них - математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, степенные средние, взвешенные средние, центр сгиба, медиана, мода.

Расчет средних величин производится разными способами, и, соответственно, применение их тоже зависит от исследуемой совокупности.

У симметричного среднего одномерного унимодального распределения математическое ожидание, медиана и мода одинаковы.

В математике и статистике среднее арифметическое (или просто среднее) набора чисел - это сумма всех чисел в этом наборе, делённая на их количество. Среднее арифметическое является наиболее общим и самым распространенным понятием средней величины.

Термин среднее арифметическое предпочитают, чтобы отличить его от других средних величин, таких как медиана и мода.

Частными случаями среднего арифметического являются генеральное среднее (генеральной совокупности) и выборочное среднее (выборки).

Среднее арифметическое рассчитывается по формуле:


(2.1)


Хотя среднее арифметическое часто используется в качестве центральных тенденций, это понятие не относится к робастной статистике, что означает, что среднее арифметическое подвержено сильному влиянию «больших отклонений». Примечательно, что для распределений с большим коэффициентом ассиметрии среднее арифметическое может не соответствовать понятию «среднего», а значение среднего из робастной статистики (например, медиана) может лучше описывать центральную тенденцию.

Классическим примером является подсчёт среднего дохода. Например, отчет о «среднем» чистом доходе в Медине, штат Вашингтон, подсчитанное как среднее арифметическое всех ежегодных чистых доходов жителей, даст на удивление большое число из-за Билла Гейтса.

Если, например, рассмотреть выборку (1,2,2,2,3,9). Среднее арифметическое равно 3,17, но пять значений из шести ниже этого значения.

Другими характеристиками центральной тенденции являются мода и медиана.

Мода - это значение во множестве наблюдений, которое встречается наиболее часто. Иногда в совокупности встречается более, чем одна мода (например: 2,5,5,5,8,9,9,9,10; мода = 5 и 9). В этом случае говорят, что совокупность мультимодальна. Из структурных средних величин только мода обладает таким уникальным свойством. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.

Мода, как средняя величина, употребляется чаще для данных, имеющих нечисловую природу. При экспертной оценке с её помощью определяют наиболее типы продукта, что учитывается при прогнозе продаж или планировании их производства.

Медиана - 50-й процентиль, квинтель 0,5 возможное значение признака, который делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 «нижних» единиц ряда будут иметь значение признака не больше, чем медиана, а «верхние» 50% - не меньше, чем медиана. Медиана является важной характеристикой распределения случайной величины и так же как математическое ожидание, может быть использовано для центрирования распределения. Однако медиана более робастна и поэтому может быть более предпочтительна для распределений с т.н. тяжёлыми хвостами.

Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределенности, естественным образом доопределяется, в то время, как математическое ожидание может быть не определено (например, у распределения Коши).

Если предположить, что в одной комнате оказалось 20 человек - 19 бедняков и 1 миллиардер, которые положили на стол деньги: бедняки по 5 долларов, а богач 1 млрд., то в сумме получится 1000000095 долларов.

Среднее арифметическое в данном случае будет 50000004,75 долл.

Медиана же составит 5 долл.(полусумма десятого и одиннадцатого значений ранжированного вариационного ряда)

Таким образом, можно утверждать, что каждый положил на стол не более 5 долларов.

В данном случае расчет средней арифметической неподходящая характеристика, так как оно значительно превышает сумму наличных, имеющихся у среднего человека.

К недостаткам данной характеристики является то, что при наличии чётного количества случаев и два средних значения различаются, то медианой может служить любое число между ними (например, в выборке {1,2,3,4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в случае чаше всего используют среднее арифметическое двух средних значений и применяют формулы:


если n - чётное (2.1а)

если n - нечётное (2.1б)


Воспользовавшись программой STATISTICA, рассчитываем среднее арифметическое, моду и медиану статистической таблицы «Численность экономически активного населения в 2012 году» (тыс. чел.):

Таблица 2.1

Наименование показателяСредняя арифметическаяМодаМедианаЗначение показателя755,7558439,0568,000

Таким образом, среднеарифметическая в отдельно взятом субъекте Российской Федерации составляет 755 тыс. человек, при этом при расчете совокупности учитывались как малозаселенных районов в местностях крайнего Севера и Дальнего Востока так и крупные агломерации. Данное обстоятельство превышает значение, полученное в ходе графического анализа вариационного ряда.

В связи с тем, что в исходном статистическом наблюдении встречаются два субъекта Федерации с численностью 439 тыс. чел., то модой и является данная величина (в противном случае выборка была бы полимодальной).

Медианой является величина 568 тыс. чел.

Указанные значения лежат в плоскости ранее рассмотренного графического изображения вариационного ряда.


3. Оценка вариации изучаемого признака


Вариация - различие значений какого-либо признака у разных единиц совокупности за один и тот же промежуток времени. Причиной возникновения вариации являются различные условия существования разных единиц совокупности. Вариация - необходимое условие существования и развития массовых явлений. Определение вариации необходимо при организации выборочного наблюдения, статистическом моделировании и планировании экспертных опросов. По степени вариации можно судить об однородности совокупности, устойчивости значений признака, типичности средней, о взаимосвязи между какими-либо признаками.

Различают абсолютные и относительные показатели вариации. К абсолютным относят: размах вариации, среднее линейное отклонение, среднеквадратическое отклонение, дисперсию, среднее квартальное расстояние.

Относительные показатели: относительный размах вариации (коэффициент осцилляции), относительное отклонение по модулю (линейный коэффициент вариации), коэффициент вариации, относительное квартальное расстояние.

Размах вариации - это разность между максимальным и минимальным значениями признака.

Он показывает пределы, в которых изменяется величина признака в изучаемой совокупности.

Пример

Опыт работы у пяти претендентов на предшествующей работе составляет: 2, 3, 4, 7 и 9 лет.

В данном случае размах вариации = 9 - 2 = 7 лет.

Для обобщенной характеристики различий в значениях признака вычисляют средние показатели вариации, основанные на учете отклонений от средней арифметической. За отклонение от средней принимается разность:

(Xi - X) (3.1)


При этом во избежание превращения в нуль суммы отклонений вариантов признака от средней (нулевое свойство средней) приходится либо не учитывать знаки отклонения, то есть брать эту сумму по модулю, либо возводить значения отклонений в квадрат.

Дисперсия (дисперсия случайной величины) - мера разброса данной случайной величины, то есть её отклонение от математического ожидания. В статистике часто употребляется квадратный корень из дисперсии, называемый среднеквадратичным отклонением, стандартным отклонением или стандартным разбросом. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.

Из неравенства Чебышева следует, что случайная величина удаляется от её математического ожидания не более, чем k стандартных отклонений с вероятностью 1/k2/

Так, например, как минимум в 75% случаев случайная величина удаляется от её среднего не более, чем на два стандартных отклонения, а примерно в 89%- не более, чем на три.

Величина дисперсии по сгруппированным данным определяется:


(3.1)


где, xi - середина i-го интервала; x -средняя арифметическая величина признака в изучаемой совокупности; Fi - абсолютные частоты i-го интервала.

Коэффициент вариации - мера относительного разброса случайной величины; показывает, какую долю среднего значения этой величины составляет её средний разброс. В отличии от среднего квадратического или стандартного отклонения измеряет не абсолютную , а относительную меру разброса признака в статистической совокупности. Исчисляется в процентах. Вычисляется только для количественных данных.


(3.2)


Используя программу STATISTICA, рассчитываем размах вариации, дисперсию, среднее квадратическое отклонение. Коэффициент вариации программа STATISTICA не рассчитывает, что отражено в таблице 3.1.


Таблица 3.1

Наименование показателяРазмах вариацииДисперсияСреднее квадратическое отклонениеЗначение показателя2635,000369995,4608,2725

Размах вариации получен путем определения разницы между наибольшим значением статистической выборки (2645) и его наименьшим значением.

Разброс случайной величины (её дисперсия) говорит о значительном разбросе показателей вариации и необходимости исключения самых больших и самых маленьких значений.

Это же подтверждает и показатель среднеквадратического отклонения.

Данные полученные в ППП STATISTICA полностью соответствуют расчетным данным (в соответствии с методическими указаниями ниже будет приведена сравнительная таблица расчётов по ППП и ручных расчётов). При этом даже уже на этом этапе наглядно видно, что размах вариации рассчитан правильно.


4. Характеристика структуры распределения


При изучении вариации применяются такие характеристики вариационного ряда, которые описывают количественно его структуру, строение. Такова, например, медиана- величина варьирующего признака, делящая совокупность на две равные части - со значениями признака меньше медианы и со значениями признака больше медианы

Медиана не зависит от значений признака на краях ранжированного ряда. Поэтому часто медиану используют как более надежный показатель типичного значения признака, нежели арифметическая средняя, если ряд значений неоднороден, включает резкие отклонения от средней. Вряд ли среднюю можно считать типичной величиной.

При четном числе единиц совокупности за медийную принимают арифметическую среднюю величину из двух центральных вариант, например при десяти значениях признака - среднюю из пятого и шестого значений в ранжированном ряду.

В интервальном вариационном ряду для нахождения медианы применяется формула:


(4.1)


где Хме - начальное значение медианного интервала;Ме - величина медианного интервала;

?f - сумма частот ряда (численность ряда);ме-1 - сумма накопленных частот в интервалах, предшествующих медианному;Ме - частота медианного интервала.

В дискретном вариационном ряду медианой следует считать значение признака в той группе, в которой накопленная частота; превышает половину численности совокупности.

Квартили распределения

Аналогично медиане вычисляются значения признака, делящие совокупность на четыре равные по числу единиц части. Эти величины называются квартилями и обозначаются заглавной латинской' буквой Q с подписным значком номера квартиля. Ясно, что Q2 совпадает с Me. Для первого и третьего квартилей приведём формулы:


для первого квартиля (4.2)

для третьего квартиля (4.3)


Значения признака, делящие ряд на пять равных частей, называют квинтилями, на десять частей - децилями, на сто частей - перцентилями. Поскольку эти характеристики применяются лишь при необходимости подробного изучения структуры вариационного ряда, они обычно не приводятся.

Особенности применения моды в интервальном вариационном ряду:

) если все значения вариационного ряда имеют одинаковую частоту, то говорят, что этот вариационный ряд не имеет моды;

) если две соседних варианты имеют одинаковую доминирующую частоту, то мода вычисляется как среднее арифметическое этих вариант;

) если две несоседние варианты имеют одинаковую доминирующую частоту, то такой вариационный ряд называется бимодальным;

) если таких вариант более двух, то ряд полимодальный.

Определение модального интервала в случае интервального вариационного ряда:

) с равными интервалами модальный интервал определяется по наибольшей частоте;

) при неравных интервалах - по наибольшей плотности.

Формула определения моды при равных интервалах внутри модального интервала:


(4.4)


где Хмо - минимальная граница модального интервала;Мо - величина модального интервала;Мо - частота модального интервала;Мо-1 - частота интервала, предшествующего модальному;Мо+1 - частота интервала, следующего за модальным.

Покажем расчет моды на примере, приведенном в таблице 2.

Используя программу STATISTICA рассчитаем (Lower quartile) - нижний (первый) квартиль - Q1, который равен 362,0000 и(Upper quartile) - верхний (третий) квартиль -Q3, который равен 1054,0000

В самом деле, из статистической таблицы (1.4) «Численность экономически активного населения в 2012 году» (тыс. чел.) видно, что эти значения находятся в первой и четвертой четвертях значений статистических данных.

Одновременно рассчитываем медиану и моду интервальном вариационном ряду, руководствуясь формулами (4.1 и 4.4):

Для этого определяем сначала интервал, в котором она находится (медианный интервал). Таким интервалом будет такой, комулятивная частота которого равна или превышает половину суммы частот.

Начальное значение медиального интервала в соответствии с таблицей 1.4) «Численность экономически активного населения в 2012 году» (тыс. чел.) составляет интервал от 340 до 670 тыс. чел.; сумма частот данного ряда составляет - 27; величина медиального интервала 330; сумма частот ряда - 86 (половина сумма частот - 43); сумма частот ряда, предшествующих медиальному - 21.

При определении значения медианы предполагают, что значение единиц в границах интервала распределяется равномерно. Следовательно, если 27 единиц, находящихся в этом интервале, распределяются равномерно в интервале, равном 330, то 3 единицам (43-40) будет соответствовать следующая его величина:

* 3/27 = 36,7

Прибавив полученную величину к минимальной границе медианного интервала, получим искомое значение медианы:

Ме = 340 +36,7 = 376,7 тыс. чел.

Поскольку в данном случае, значение полученное из статистических формул, решено эмпирически, а программа STATISTICA использует конкретные данные, то можно считать, что задача решена правильно.

Подставляя в формулу необходимые данные, решаем:

Ме = 340 + 330* (86/2 - 40)/27= 376,7 тыс. чел.,

что полностью соответствует полученному ранее значению.

Аналогично рассчитывается мода интервального вариационного ряда.

Чтобы найти моду, первоначально определим модальный интервал. Из таблицы (1.4)«Численность экономически активного населения в 2012 году» (тыс. чел.) видно, что наибольшая частота соответствует интервалу, где варианта лежит в пределах от 340 до 670 тыс. чел. (нижняя граница модального интервала 340 тыс. чел.)

Величина модального интервала равна 330; частота модального интервала равна 27; частота интервала, предшествующего модальному - 21; частота интервала, следующего за модальным - 15.

Подставляя в формулу, расчета моды в интервальном вариационном ряду получим:

Мо = 340 + 330 *(27 - 21)/((27 - 21) + (27 - 15))=

+330*6/6+6=340+2040/12= 510 тыс.чел.

В связи с много вариантностью таблицы «Численность экономически активного населения в 2012 году» (тыс. чел.) и большим наличием данных в этой строке мода несколько различается от данных, полученных с помощью ППП STATISTICA .

Это дополнительно свидетельствует о том, что статистическую обработку показателей лучше выполнять с помощью прикладных средств с первоначальным объёмом данных, чем сведенных в таблицу.


5. Характеристика формы распределения


Асимметрия - или коэффициент асимметрии (термин был впервые введен Пирсоном, 1895) является мерой несимметричности распределения, то есть числовым значением, характеризующим степени несимметричности распределения данной случайной величины.

Например, если асимметрия (показывающая отклонение распределения от симметричного) существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично.

Итак, у симметричного распределения асимметрия равна 0.

Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна. Коэффициент асимметрии рассчитывается по формуле:


(5.1)

где (5.1а)


где, -центральный момент третьего порядка;

-средний квадрат отклонений в кубе.

Если , то асимметрия значительная.

Если , то As незначительная.

Если As<0, то As - левосторонняя. При этом >Ме>Мо.

Если As>0, то As - правосторонняя.

Коэффициент асимметрии изменяется от -3 до +3.

Для однородных совокупностей характерны одновершинные кривые, много вершинная кривая говорит о неоднородности совокупности и необходимости перегруппировки.

Выяснение общего характера распределения предполагает оценку его однородности.

Преобразовав (Таб.1.4) рассчитаем асимметрию данной выборки (Таб.5.1):


Таблица 5.1

1034017521-4113390702,5034067050527-425712816,646701000835157464379,571000130011659616864970,2113001660149552019918197,3316601990182556112244434,8419902320215512739558294,75232026502485315512801588,43k8622469748345,99

При этом равен 755,7558.

Из таблицы находим центральный момент третьего порядка () равный 261276143,56

Возведя среднее квадратическое отклонение (СКО = 608,2725) в куб (СКО = ) и применив формулу (5.1) получаем значение асимметрии равное 1,161.

Следует отметить, что руководствуясь критериями согласия Пирсона и сгруппировав вариационный ряд в порядке, как это показано в (Таб.6.1), т.е. с показателями вариации не менее 5, будет получен более низкий коэффициент асимметрии равный 1,009.

Эксцесс - (термин был впервые введен Пирсоном, 1905) или точнее, коэффициент эксцесса измеряет «пикообразность» распределения. Если эксцесс (показывающий «остроту пика» распределения) существенно отличен от 0, то распределение имеет или более закругленный пик, чем нормальное, или, напротив, имеет более острый пик (возможно, имеется несколько пиков). Обычно, если эксцесс положителен, то пик заострен, если отрицательный, то пик закруглен. Эксцесс нормального распределения равен 0.

Используя формулу:


5.2)


И преобразовав (Таб.6.1) рассчитаем эксцесс.


Таблица 5.2

10340175212388875508145,1134067050527106749957906,35670100083515591508787,131000130011659252448411241,9213001660149551493212811854,1416601990182556535481910936,2619902320215513833311054490,20232026502485326825422172547,80k8641436093335908,90

При этом равен 755,7558

СКО =

Рассчитав в Microsoft Excel эксцесс, получим:

Ех1 = 0,520 для Таб. 1.4

Ех2 = - 0,050 для Таб. 6.1

Таким образом, можно говорить, что правосторонняя асимметрия с длинным правым хвостом, поскольку значение показателей лнжит в пределах значений от -3 до +3 можно говорить, что она подчиняется нормальному распределению.

Одной из часто встречающихся статистических проблем является проверка гипотез относительно математического ожидания исследуемых выборок. Существует целый ряд статистических тестов, называемых t-тестами Стьюдента, проверяющих различные гипотезы относительно математического ожидания. тест для одной выборки

Этот тест используется для проверки гипотезы о том, что математическое ожидание случайной величины X, представленной выборкой xS , имеет заданное значение ?. Тест требует, чтобы переданная в него выборка являлась выборкой нормальной случайной величины.

В процессе своей работы тест вычисляет t-статистику

Если величина X распределена нормально, то статистика t будет иметь распределение Стьюдента с N-1 степенями свободы. Это позволяет нам использовать распределение Стьюдента для определения уровня значимости, соответствующего полученному значению t-статистики.

Замечание.

В случае если X не является нормальной случайной величиной, то величина t будет иметь другое, неизвестное распределение, и, строго говоря, t-тест Стьюдента нельзя применять. Однако в соответствии с центральной предельной теоремой при росте размера выборки распределение t будет стремиться к распределению Стьюдента. Таким образом, если размер выборки достаточно велик, то мы можем использовать t-тест, даже если требование нормальности распределения не выполняется. Однако не существует простого способа определить, какое N достаточно велико. В каждом конкретном случае есть своя граница, зависящая от того, насколько исследуемое распределение отклоняется от нормального. Некоторые источники приводят в качестве «достаточно большого N» 30, но даже этот размер выборки может оказаться недостаточен. Альтернативой в этом случае может являться непараметрический тест - критерий знаков <C:\Documents and Settings\Admin\Local Settings\Temp\Rar$DI15.218\signtest.php> или W-критерий Уилкоксона <C:\Documents and Settings\Admin\Local Settings\Temp\Rar$DI15.218\wilcoxonsignedrank.php>.

При необходимости сравнения только двух групп можно использовать частный случай дисперсионного анализа - критерий Стьюдента. Если при проведении t-анализа имеются только средние значения, величина стандартного отклонения и численностью групп можно пойти по пути изучения возможности R.

Ниже приведем сравнение статистических показателей рассчитанных различными способами (табл.5.3)


Таблица 5.3

№Название показателяЗначение в ППП STATISTIKAЗначения ручного расчета по сгруппированным данным1Средняя арифметическая755,7558779,62Медиана568,0000578,83Мода439,0000448,04Дисперсия369995,4389243,35Верхний квартиль362,0000387,06Нижний квартиль1054,00001069,07Размах вариации2635,00002635,08Среднее квадратическое отклонение608,2725612,275

6. Сглаживание эмпирического распределения


Проверка гипотезы о законе распределения

Сравнивая полученные величины теоретических частот f' c эмпирическими (фактическими) частотами f, убеждаемся, что их расхождения могут быть весьма невелики.

В данное распределение близко к нормальному.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия.

Для оценки близости эмпирических и теоретических частот применяются критерий согласия Пирсона, критерий согласия Романовского, критерий согласия Колмогорова.

Наиболее распространенным является критерий согласия Пирсона,, который можно представить как сумму отношений квадратов расхождений между f' и f к теоретическим частотам по формуле 6.1:


(6.1)


Вычисленное значение критерия необходимо сравнить с табличным (критическим) значением . Табличное значение определяется по специальной таблице, оно зависит от принятой вероятности Р и числа степеней свободы k (при этом k = m - 3, где m - число групп в ряду распределения для нормального распределения). При расчете критерия согласия Пирсона должно соблюдаться следующее условие: достаточно большим должно быть число наблюдений (n 50), при этом если в некоторых интервалах теоретические частоты < 5, то интервалы объединяют для условия > 5.

Если , то расхождения между эмпирическими и теоретическими частотами распределения могут быть случайными и предположение о близости эмпирического распределения к нормальному не может быть отвергнуто.

Используя статистическую таблицу 1.4 (стр.19) и методические указания произведем расчет и анализ значений критерия согласия Пирсона, объединив некоторые интервалы с частотами < 5 предыдущих интервальных рядов:


Таблица 6.1 Таблица для расчёта сглаживания эмпирического распределения.

11034017521-0,95476-20,05-59,5298-108,938234067050527-0,41224-11,1305-42,4894-113,64736701000835150,1302771,9541624,14430928,43563410001300115090,6481375,8332377,4225380,335247513001660148051,1906575,9532874,2084980,14886616601990182551,7578378,7891876,2132520,23691719902650232042,57161710,286475,8173690,567753k86-74,2132-192,86

рассчитаем в Microsoft Excel по формуле (6.2)


(6.2)


Где x - значение изучаемого признака;

- среднее арифметическое (в нашем случае 755,7558);

- среднее квадратическое (в нашем случае 608,2725)

Аналогично рассчитываем по формуле(6.3):

6.3)


где N - объем совокупности; h - величина интервала

Если все эмпирические частоты равны соответствующим теоретическим частотам, то ?2 равно нулю. Очевидно, что чем больше отличаются эмпирические и теоретические частоты, тем ?2 больше; если расхождение несущественно, то ?2 должно быть малым. Имеются специальные таблицы критических значений ?2 при 5%-ном и 1%-ном уровнях значимости. Критические значения зависят от числа степеней свободы (d.f. - degrees of freedom) и уровня значимости.

Число степеней свободы рассчитывается так: если эмпирический ряд распределения имеет k категорий, то k эмпирических частот f1, f2, …, fk должны быть связаны следующим соотношением:



Если параметры теоретического распределения известны, то только k - 1 частот могут принимать произвольные значения, т. Е. свободно варьировать, а последняя частота может быть найдена из указанного соотношения. Поэтому говорят, что система из k частот благодаря наличию одной связи теряет одну «степень свободы» и имеет только k - 1 степеней свободы. Кроме того, если при нахождении теоретических частот р параметров теоретического распределения неизвестны, то они должны быть найдены по данным эмпирического ряда. Это накладывает на эмпирические частоты еще р связей, благодаря чему система теряет еще р степеней свободы. Таким образом, число свободно варьируемых частот (а значит, и число степеней свободы) становится равным:

d.f. = (k - 1) - р = k - (р + 1).


Полученное значение критерия ?2 сравнивается с табличным при числе степеней свободы, равном числу групп (с условием Ф. Йейтса), за минусом трех - по числу фиксированных параметров в формуле нормального закона распределения и с учетом равенства сумм теоретических и фактических частот.

Сумма теоретических частот нормального распределения меньше суммы фактических частот, так как нормальный закон не ограничен рамками фактических минимума и максимума.

Ясно, что гипотеза о соответствии распределения хозяйств по урожайности нормальному закону не может быть отклонена.

Какое практическое значение может иметь произведенная проверка гипотезы? Во-первых, соответствие нормальному закону позволяет прогнозировать, какое число хозяйств (или доля совокупности) попадает в тот или иной интервал значений признака. Во-вторых, нормальное распределение возникает при действии на вариацию изучаемого показателя множества независимых факторов. Из этого следует, что нельзя существенно снизить вариацию урожайности, воздействуя только на один-два управляемых фактора, скажем удобрения или энергозатраты.

С помощью критерия ?2 можно проверять не только гипотезу о согласии эмпирического распределения с нормальным законом, но и с любым другим известным законом распределения - равномерным распределением, распределением Пуассона и т. Д. Например, суд рассматривает жалобу посетителей казино на то, что, по их мнению, игральная кость, которой там пользуются, фальшива, некоторые числа очков, якобы, выпадают чаще, чем другие, и этим пользуются крупье, обирающие игроков.

Суд назначает экспертизу игральной кости: эксперт делает 600 бросков и записывает число выпавших единиц, двоек, троек и т. Д.

Полученное эмпирическое распределение сравнивается с теоретическим, т. Е. равномерным: в правильной кости вероятность выпадения каждого числа очков должна быть равна 1/6, при 600 бросках это даст по 100 выпадений каждого числа очков. С помощью критерия ?2 проверяется нулевая гипотеза о том, что различия эмпирического и теоретического распределений случайны, т. Е. не являются систематическим результатом фальсификации формы кости или положения центра тяжести в ней; H0 : fфакт = fтеор

Используя методические указания и программу STATISTICA, произведем сглаживание эмпирического распределения путём последовательного построения нормального, логнормального и прямоугольного типов распределения.

В результате получим следующие таблицы (Таб.6.2 - Таб.6.4)

Проверка гипотезы о нормальном распределении переменной Var1.

Проверка гипотезы о прямоугольном распределении переменной Var1

Проверка гипотезы о логарифмически нормальном распределении переменной Var1.

Проиллюстрируем полученные данные, сгладив эмпирическое распределение переменной Var1 нормальным распределением а соответствии с рисунками (Рис.6.1. - Рис.6.3.)



Таблица 6.2

Upper BoundareVariable: Var1, Distribution: Normal (Spreadsheet41) Chi-Square = 12,19147, df = 3 (adjusted) , p = 0,00676Observed FrequencyCumulative ObservedPercent ObservedCumul.% Observed Expected Frequency Cumulative ExpectedPercent ExpectedCumul. % ExpectedObserved Expected <=339.375212124.4186024.418621.2265421.2265424.6820224.6820-0.22654668.750274831.3953555.814016.8826638.1092019.6310044.313010.11734998.125156317.4418673.255818.2081256.3173221.1722382.6373-3.208121327.5097210.4651283.720914.7511771.0684917.1525282.6378-5.751171656.8755775.8139589.53498.9764780.0449610.4377693.0755-3.976471986.255825.8139595.34884.1026084.147564.7704697.84600.897402315.6251831.1627996.51161.4080585.555611.6372799.4833-0.40805< infinity3863.48837100.0000.4443986.000000.51673100.0002.55561

Таблица 6.3

Upper BoundareVariable: Var1, Distribution: Rectangular (Spreadsheet44) Chi-Square = 56,88372, df = 5, p = 0,00000Observed FrequencyCumulative ObservedPercent ObservedCumul.% Observed Expected Frequency Cumulative ExpectedPercent ExpectedCumul. % ExpectedObserved Expected <=339.375212124.4186024.418610,7704010,7704012,5237212,523710,22960668.7500274831.3953555.814010,7704021,5408012,5237225,047416,22960998.1250156317.4418673.255810,7704032,3112012,5237237,57124,229601327.50097210.4651283.720910,7704043,0815912,5237250,0949-1,770401656.8755775.8139589.534910,7704053,8519912,5237262,6186-5,770401986.2505825.8139595.348810,7704064,6223912,5237275,1423-5,770402315.6251831.1627996.511610,7704075,3927912,5237287,6660-9,77040< infinity3863.48837100.000010.6072186.0000012,33397100,000-7,60721Таблица 6.4.

Upper BoundareVariable: Var1, Distribution: Rectangular (Spreadsheet44) Chi-Square = 56,88372, df = 5, p = 0,00000Observed FrequencyCumulative ObservedPercent ObservedCumul.% Observed Expected Frequency Cumulative ExpectedPercent ExpectedCumul. % ExpectedObserved Expected <=339.3750212124.4186024.418633,0068233,0068238,3800238,3800-12,0068668.75000274831.3953555.814019,4474352,4542522,6132960,99337,5526998.12500156317.4418673.255810,4849662,9392012,1918173,18514,51501327.5000097210.4651283.72096,3003769,239577,3260180,51112,69961656.875005775.8139589.53494,0868373,326404,7521385,26330,91321986.250005825.8139595.34882,8009976,127393,2569788,52022,19902315.625001831.1627996.51162,0009778,128362,3267190,8469-1,0010< infinity3863.48837100.00007,8716486.000009,15307100,0000-4,8716


Рис. 6.1


Рис. 6.2

Рис. 6.3

Заключение


В рассмотренной таблице интервального вариационного ряда «Численность экономически активного населения по субъектам Российской Федерации в 2012 году» определена среднестатистическая численность населения в субъектах России, при этом выбросами оказались Москва и Московская область.

Наибольшая часть населения России проживает в субъектах Федерации с численностью от 275 до 540 тыс. чел.

Мода таблицы составляет 439 тыс. чел., медиана 568 тыс. чел., при этом мода в таблице возникла по причине наличия в составе России 2 регионов с одинаковым количеством жителей (в противно случае таблица была бы полимодальной).

Среднее арифметическое составляет 755,7558 тыс. чел., что дополнительно свидетельствует о факте проживания основного населения России в относительно небольших по численности субъектах Федерации.

Проведенная характеристика форм распределения с расчетом коэффициентов асимметрии и эксцесса показал, что имеет место нормальное распределение с правосторонней асимметрией.

Это же было проверено критериями согласия Пирсона.


Список использованной литературы


1. Боровиков В.П., STATISTICA. Искусство анализа данных на компьютере: для профессионалов / В.П. Боровиков. - 2-е изд. - СПб. : - 2011. - 688 с.

. Венецкий И.Г., Основные математико-статистические понятия и формулы в экономическом анализе. Справочник / И.Г. Венецкий, В.И. Венецкая. - 2-е изд., перераб. и доп. - М.: Статистика, 1979 - 477 с.

. Ефимова М.Р., Общая теория статистики: учеб. / М.Р. Ефимова, Е.В. Петрова, В.Н. Румянцев. - М.: ИНФРА-М, 2002. - 416 с.


Содержание Введение 1. Табличное и графическое представление вариационного ряда 1.1 Ранжирование исходных данных, определение наличия выбросов 1

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2017 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ