Основы статистики

 

Лабораторная работа №1

Первичная обработка данных


При проведении экспериментов фиксировались значения случайной величины X, Время простоя состава под скрещением, (в мин.).

Задание: произвести первичную обработку полученных опытных данных с целью изучения свойств случайной величины Х.

) Составим расчетную таблицу, в которой запишем вариационный ряд (элементы выборки в порядке возрастания признака) и произведем расчеты, необходимые для вычисления числовых характеристик.


Таблица 1 - Расчетная таблица

Номер п/пВыборка, мин.Вариационный ряд, , мин.123,30,24-10,2363104,7825-1072,588810979,376527,040,42-10,0563101,1298-1016,995410227,244632,470,55-9,926398,5321-978,06249708,5734439,80,68-9,796395,9681-940,13609209,885250,421,46-9,016381,2943-732,97626608,75786151,48-8,996380,9340-728,10946550,3145718,12,16-8,316369,1614-575,16934783,299385,52,47-8,006364,1014-513,21704108,986191,483,21-7,266352,7996-383,65952787,79781010,85,01-5,466329,8808-163,3384892,86221116,95,3-5,176326,7944-138,6969717,9413129,775,5-4,976324,7639-123,2334613,2504130,557,04-3,436311,8084-40,5776139,43801426,28,96-1,51632,2993-3,48655,2866151,469,09-1,38631,9219-2,66443,6938165,39,45-1,02631,0534-1,08111,1096179,099,77-0,70630,4989-0,35240,2489188,9610,4-0,07630,0058-0,00040,00001911,710,80,32370,10480,03390,0110201211,51,02371,04791,07271,0981210,6811,71,22371,49741,83232,2421222,16121,52372,32163,53735,3896230,24154,523720,463692,5703418,75732411,516,96,423741,2635265,06291702,6759255,0118,17,623758,1203443,08973377,96852619,319,38,823777,8571686,98506061,7270273,2123,312,8237164,44642108,806227042,62732826,526,215,7237247,23373887,420261124,49922910,426,516,0237256,75794114,202965924,6158309,4539,829,3237859,877425214,7590739389,1891Итого314,290314,2900,00002578,721529405,0276972388,8669

) Найдем размах выборки


= 39,56.


) Длина интервала


= 6,697.


) границы интервалов: = 0,24, = 6,937, = = 13,634, = 20,331, = 27,029, = 33,726,


= 40,423.


) Построим интервальный статистический ряд:


Таблица 2 - Интервальный статистический ряд

Границы интервалов , мин.Частоты Частости Накопленные частости(0,24; 6,937)1212/3012/30(6,937; 13,634)1010/3022/30(13,634; 20,331)44/3026/30(20,331; 27,029)33/3029/30(27,029; 33,726)00/3029/30(33,726; 40,423)11/301Итого301

) Вычислим числовые характеристики.

В качестве оценки математического ожидания используется среднее арифметическое наблюденных значений. Эта статистика называется выборочным средним.


.


Для оценивания по выборочным данным моды распределения, используется то значение сгруппированного статистического ряда , которому соответствует наибольшее значение частоты. По интервальному статистическому ряду определяется модальный интервал, в который попало наибольшее число элементов выборки, и в качестве точечной оценки моды может использоваться среднее значение этого интервала.

.

Для определения выборочного значения медианы используется вариационный ряд. В качестве оценки медианы принимают средний (т.е. -й) член этого ряда, если значение n - нечётно и среднее арифметическое между двумя средними (т.е. между -м и -м) членами этого ряда, если n - чётно. В нашем случае объем выборки = 40 - четное, т.е. в качестве оценки медианы примем


= .


В качестве оценки дисперсии используется статистика


= .


Оценка среднего квадратического отклонения = .

Оценка коэффициента вариации .

Оценка коэффициента асимметрии


.


Оценка коэффициента эксцесса


.


) Для приближённого построения эмпирической функции распределения воспользуемся соотношением:



) Построим гистограмму частот и эмпирическую функцию распределения.


Рисунок 1 - Гистограмма частот


Рисунок 2 - Функция распределения


Вывод. В результате исследования выборки значений непрерывной случайной величины, характеризующей время простоя состава под скрещением, получили следующие результаты, мин.: минимальное время простоя - 0,24, максимальное - 39,8, среднее значение времени простоя состава под скрещением - 10,476, наиболее вероятное время простоя состава под скрещением - 3,589, средневероятное - 9,270, среднеквадратическое отклонение времени простоя состава под скрещением от среднего значения составило 9,430. Оценка коэффициента вариации составила 159,638%, что указывает на большую колеблемость признака относительно среднего значения, оценка коэффициента асимметрии составила 1,209, оценка коэффициента эксцесса составила 1,241.


Лабораторная работа №2

Подбор закона распределения одномерной случайной величины


Цель работы:изучить методику применения критерия Пирсона для проверки гипотезы о виде закона распределения случайной величины.

Задание: с помощью критерия проверить согласование выдвинутой гипотезы о виде закона распределения исследуемой случайной величины с имеющимися выборочными данными.

Алгоритм применения критерия c2 для проверки гипотезы о виде закона распределения исследуемой случайной величины.

Выборочные данные представляются в виде интервального или сгруппированного статистического ряда.

Выбирается уровень значимости a.

Формулируется гипотеза о виде закона распределения исследуемой случайной величины.

4 Вычисляются вероятности pi попадания значений случайной величины Х в рассматриваемые разряды разбиения: , (), где F(x) - гипотетическая функция распределения случайной величины X.

Замечание. Если изучается непрерывная случайная величина, то при вычислении значений необходимо изменить границы первого и последнего частичных интервалов разбиения таким образом, чтобы учесть все возможные значения, которые может принять случайная величина предполагаемого класса. В зависимости от конкретного вида проверяемой гипотезы границы частичных интервалов необходимо изменить следующим образом:


Вид закона распределенияПервый интервал разбиенияПоследний интервал разбиенияРавномерныйЭкспоненциальныйНормальный

5 Определяются значения теоретических частот npi (i = 1, 2,…, k). При необходимости для обеспечения условия npi ³ 3 (если объем выборки ), npi ³ 5 (если объем выборки ), объединяются несколько соседних разрядов разбиения.

Вычисляется наблюдаемое значение критерия


c2: .


По таблицам квантилей распределения c2 определяется критическое значение , соответствующее заданному уровню значимости a и числу степеней свободы


n = k - r - 1.


Если расчётное значение критерия попадает в критическую область, т.е. , то проверяемая гипотеза отвергается (при этом вероятность отклонения верной гипотезы равна a).

В случаях, когда наблюденное значение c2 не превышает критического , считают, что выдвинутая гипотеза не противоречит опытным данным. Подчеркнем, что полученный результат свидетельствует лишь о приемлемом согласовании проверяемой гипотезы с имеющимися выборочными данными и, в общем случае, не является доказательством истинности этой гипотезы.

По таблице, полученной в лабораторной работе №1 и по гистограмме частот выдвигаем нулевую гипотезу о виде закона распределения случайной величины (времени простоя состава под скрещением).

Случайная величина (время простоя состава под скрещением) распределена по показательному (экспоненциальному) закону.

Выбираем уровень значимости .

Вычислим вероятности pi попадания значений случайной величины Х в рассматриваемые разряды разбиения по формуле:


=.


Проверим гипотезу с помощью критерия согласия Хи-квадрат Пирсона.

Вычислим параметр = = = 0,095453244 = 0,095.

Так как изучается непрерывная случайная величина, то при вычислении значений необходимо изменить границы первого и последнего частичных интервалов разбиения. В нашем случае проверяется гипотеза о показательном законе распределения.


Вид закона распределенияПервый интервал разбиенияПоследний интервал разбиенияЭкспоненциальный

Вычислим вероятности по формуле


.


Пример расчета:


1 - 0,516= 0,484.


Для того чтобы облегчить расчеты, можно с помощью пакета программ выполнить промежуточные расчеты, которые необходимо оформить в виде таблицы:


Таблица 1 - Расчетная таблица вероятностей

Граница интервала 0010,4840,4846,937-0,6620,5160,2440,24413,634-1,3010,2720,1290,12920,331-1,9410,1440,0680,06827,029-2,5800,0760,0360,03633,726-3,2190,0400,0400,040-0--Итого--130

Таблица 2 - Расчет c2

Границы интервалов Частоты эмпирические Вероятности

Частоты теоретические (0; 6,937)120,48414,5280,440(6,937; 13,634)100,2447,3080,992(13,634; 20,331)40,1293,8560,003 (20,331; 27,029)30,0682,035(27,029; 33,726)00,0361,074(33,726; ?)10,0401,200Итого301301,435= c2

Вычислим число степеней свободы n = k - r - 1 = 3-1-1= 1, где k = 3 - число интервалов в таблице 2 после объединения, r =1 - число параметров выбранного закона распределения - в нашем случае показательный закон (один параметр ).

По таблицам квантилей распределения c2 определяется критическое значение, соответствующее заданному уровню значимости a=0,05 и числу степеней свободы n = 1.



Вывод. Сравниваем полученное значение в таблице = 1,435 с табличным = 3,841. Так как расчетное = 1,435 меньше, чем табличное = 3,841, то гипотеза о показательном законе распределения подтвердилась.


Лабораторная работа №3

Построение регрессионной модели системы двух случайных величин


Цель работы: изучить основные методы регрессионного и корреляционного анализа; исследовать зависимость между двумя случайными величинами, заданными выборками.

Задание:по виду корреляционного поля сделать предположение о форме регрессионной зависимости между двумя случайными величинами; используя метод наименьших квадратов, найти параметры уравнения регрессии; оценить качество описания зависимости полученным уравнением регрессии.

По результатам пятнадцати совместных измерений веса грузового поезда, т, и соответствующего времени нахождения поезда на участке Y, ч, представленных в таблице 1, следует исследовать зависимость между данными величинами. Необходимо определить коэффициенты уравнения регрессии методом наименьших квадратов, оценить тесноту связи между величинами, проверить значимость коэффициента корреляции и спрогнозировать время нахождения поезда на участке при заданном весе поезда (5200 т).

Решение. На величину времени нахождения поезда на участке Y, помимо веса X, влияние оказывает профиль и качество железнодорожного полотна, качество подвижного состава, направление и скорость ветра и другие факторы. Поэтому зависимость между величиной времени нахождения поезда на участке Y и веса поезда X является статистической: при одном весе поезда при различных дополнительных условиях время нахождения поезда на участке может принимать различные значения. Для определения вида регрессионной зависимости построим корреляционное поле.


Рис. 1. Корреляционное поле


Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о линейной регрессионной зависимости .


Таблица 1 - Результаты промежуточных вычислений

Вес грузового состава, т, Время нахождения поезда на участке, час.,4435,684,098-463,381214722-0,0570,00326,2745100,584,190201,519406100,0350,0017,1144885,414,156-13,6511860,0010,000-0,0185416,944,225517,8792681980,0700,00536,4074496,664,108-402,401161927-0,0470,00218,7924722,083,950-176,98131322-0,2050,04236,2285537,914,200638,8494081280,0450,00228,9405074,014,180174,949306070,0250,0014,4264807,094,145-91,9718459-0,0100,0000,8924046,024,050-853,041727680-0,1050,01189,3134683,934,130-215,13146281-0,0250,0015,3144872,424,154-26,641710-0,0010,0000,0194003,224,040-895,841802532-0,1150,013102,7534628,014,122-271,05173469-0,0330,0018,8634293,444,274-605,6213667770,1190,014-72,2515035,704,175136,639186700,0200,0002,7745780,284,274881,2197765460,1190,014105,1294752,143,970-146,92121586-0,1850,03427,1366115,634,3201216,56914800390,1650,027201,0994788,774,143-110,29112164-0,0120,0001,2905140,424,189241,359582540,0340,0018,2795856,444,285957,3799165740,1300,017124,7465243,494,200344,4291186310,0450,00215,6035007,534,170108,469117650,0150,0001,6605321,634,210422,5691785640,0550,00323,3685296,324,300397,2591578140,1450,02157,7224046,734,050-852,331726469-0,1050,01189,2394051,414,050-847,651718513-0,1050,01188,7494795,274,146-103,79110773-0,0090,0000,9034736,684,137-162,38126368-0,0180,0002,874Итого 1469721250841433900,2391044

Найдем уравнение прямой линии методом наименьших квадратов


.


Средний вес грузового состава:


= .


Среднее значение времени нахождения поезда на участке:


=


Коэффициенты уравнения:



Уравнение регрессии имеет вид: .

Для линейной связи коэффициенты:

- постоянная регрессии, показывает точку пересечения прямой с осью ординат

- коэффициент регрессии, показывает меру зависимости переменных y от х, указывает среднюю величину изменения переменной у при изменении х на одну единицу, знак В1 определяет направление этого изменения.

Вычислим линейный коэффициент корреляции


= 0,735247869.


Таблица 2 - Расчет значений времени нахождения поезда на участке по уравнению регрессии

Вес грузового состава, т, Время нахождения поезда на участке, час.,4435,684,0984,0972264275100,584,194,1796945284885,414,1564,1530068145416,944,2254,2189329224496,664,1084,1047898284722,083,954,1327488585537,914,24,2339369325074,014,184,1763990294807,094,1454,1432927194046,024,054,0488965734683,934,134,1280170824872,424,1544,1513956534003,224,044,0435880534628,014,1224,1210812774293,444,2744,0795842825035,74,1754,1716474085780,284,2744,2639982854752,143,974,1364772256115,634,324,3055920254788,774,1434,1410204745140,424,1894,1846359165856,444,2854,2734444735243,494,24,1974197745007,534,174,1681534595321,634,214,2071115445296,324,34,2039723234046,734,054,0489846354051,414,054,0495650994795,274,1464,1418266744736,684,1374,134559708Итого 146971,84124,641124,641

Рис. 2. Корреляционное поле и линия регрессии


Спрогнозируем время нахождения поезда на участке при заданном весе грузового состава (5200 т).

Качественная оценка тесноты связи между величинами выявляется по шкале Чеддока (таблица 3).


Таблица 3 - Шкала Чеддока

Теснота связиЗначение коэффициента корреляции при наличиипрямой связиобратной связиСлабая0,1-0,3(-0,1) - (-0,3)Умеренная0,3-0,5(-0,3) - (-0,5)Заметная0,5-0,7(-0,5) - (-0,7)Высокая0,7-0,9(-0,7) - (-0,9)Весьма высокая0,9-0,99(-0,9) - (-0,99)

Вывод. Линейный коэффициент корреляции характеризует тесноту связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Т.к. = 0,735, то можно говорить о том, что между величинами X и Y существует линейная прямая, высокая связь.

Чтобы сделать статистический вывод о значимости коэффициента корреляции (при проверке линейности регрессионной зависимости) выдвигается нулевая гипотеза об отсутствии линейной зависимости между исследуемыми с. в. против альтернативной гипотезы о наличии линейной связи.

корреляция регрессионный распределение вариационный

,

.


Если гипотеза H0 отклоняется, то считается, что уравнение регрессии Y по X действительно имеет линейный вид.

Для проверки гипотезы H0 вычисляется t-статистика


= 5,74.


При условии справедливости гипотезы H0 рассчитанная t-статистика имеет распределение Стьюдента с n - 2 степенями свободы. Найденное значение t = 5,74 сравнивается с критическим значением ta,n при n = n - 2 = 30-2 = 28 степенях свободы. В нашем случае ta,n = t a=0.05, n=28 = 1,701. Так как расчетное значение 5,74 по абсолютной величине превосходит табличное 1,701 для заданного уровня значимости, то нулевая гипотеза H0 с. в. отклоняется, и с вероятностью ошибки a можно утверждать, что между исследуемыми величинами существует линейная зависимость.


Лабораторная работа №1 Первичная обработка данных При проведении экспериментов фиксировались значения случайной величины X, Время простоя состава под

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2017 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ