Исследование классических методов анализа экспериментальных данных

 














Пояснительная записка

к работе по дисциплине «Математическая статистика»

Исследование классических методов анализа экспериментальных данных



Реферат


Работа 39 с., 8 источников, 3 рисунка.

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, ОЦЕНКА ПАРАМЕТРОВ, ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ, КРИТЕРИЙ СОГЛАСИЯ, КЛАССИЧЕКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ.

Объектом исследования являются генеральная совокупность и функция сигнал + шум.

Целью данной работы является изучение методов анализа экспериментальных данных и изучение метода классического регрессионного анализа.

В процессе работы использованы методы предварительного анализа экспериментальных данных (гистограмма, интервальное оценивание и критерий согласия хи-квадрат), а также метод классического регрессионного анализа (МНК).

В результате проведенной работы были закреплены теоретические знания и приобретены практические навыки работы со статистиками и использования классического регрессионного анализа.

При выполнении работы использовался пакет MathCAD.

Работа выполнена в формате текстового редактора Microsoft Word 2003 и представлена на флэш-носителе.


Содержание


Введение

. Постановка задачи

2. Интервальное оценивание параметров. Критерий согласия Пирсона

2.1 Теоретические сведения

2.1.1 Точечное оценивание неизвестных параметров

.1.2 Требования к оценкам

.1.3 Требования к статистикам

.1.4 Интервальное оценивание неизвестных параметров распределений

.1.5 Понятие доверительного интервала

2.1.6 Критерий согласия (хи-квадрат) Пирсона

.1.7 Распределение Стьюдента

2.2 Практическая работа

.3 Выводы

3. Классический регрессионный анализ (МНК)

3.1 Теоретические сведения

.2 Практическая работа

.3 Выводы

Заключение

Список использованных источников


Введение

статистика доверительный интервал регрессионный

Целью данной работы является изучение методов анализа экспериментальных данных на ряде конкретных примеров, в частности, построении гистограмм, расчете доверительных интервалов, использовании критерия согласия хи-квадрат Пирсона при проверке гипотез (этим задачам посвящена первая часть работы). Во второй части работы для выделения тренда использован классический регрессионный анализ (метод МНК).

Приобретённые в ходе выполнения работы навыки часто весьма востребованы в инженерной деятельности, а техническая и экономическая целесообразность подобных исследований очевидна.


1. Постановка задачи


Работа состоит из двух частей. В первой части приводится обзор методов точечного и доверительного оценивания параметров закона распределения, критериях согласия (в частности, ?2 - Пирсона), и четыре задачи, объединённые общей идеей. Во второй части, посвященной классическому регрессионному анализу, содержится обзор классических методов МНК и результаты модельного эксперимента по выделению тренда, выполненного в пакете MathCAD.

Часть 1

1. Случайная величина имеет нормальное распределение с неизвестными математическим ожиданием а и дисперсией .

При выборке (к1, к2, …, кN) объёма N = 28 вычислены оценки неизвестных параметров



Найти доверительный интервал для математического ожидания а при доверительной вероятности = 0,9.

2. В условиях задачи № 1 найти доверительный интервал для дисперсии D при доверительной вероятности = 0,99


(N = 10, ).


. В серии из N = 100 выстрелов по мишени наблюдалось m = 8 попаданий. Найти доверительный интервал для вероятности p попадания в мишень при доверительной вероятности= 0, 95.

4. Дана выборка из N =100 значений.

Требуется:

а) найти статистический ряд;

б) построить гистограмму и полигон частот;

в) найти оценки для математического ожидания и дисперсии;

г) считая распределение генеральной совокупности нормальным, найти границы доверительного интервала для математического ожидания и дисперсии при надёжности = 0,95;

д) проверить с помощью критерия гипотезу о том, что выборка извлечена из нормальной генеральной совокупности с математическим ожиданием и средним квадратическим отклонением равными соответственно статистическому среднему и статистическому среднему квадратичному отклонению. Уровень значимости принять равным = 0,05.



Часть 2

В MathCAD (вне зависимости от версии) имеются датчики (генераторы) случайных чисел с разнообразными законами распределения. В частности, rnorm(m,?,?) возвращает вектор m случайных чисел, имеющих нормальное распределение с математическим ожиданием ? и среднеквадратическим отклонением ?. Мы будем использовать rnorm(m,0,1) - датчик нормальных случайных чисел с нулевым математическим ожиданием и единичной дисперсий.



Пусть истинный тренд имеет вид



Тогда сумма тренда и шума с фиксированной амплитудой, имеет вид:



2. Интервальное оценивание параметров. Критерий согласия Пирсона


2.1 Теоретические сведения


Математическая статистика опирается на методы и понятия теории вероятностей, но решает, в определенном смысле, обратные задачи.

В теории вероятностей рассматриваются случайные величины с заданными законами распределения или случайные эксперименты, свойства которых целиком известны. Предмет теории вероятностей - свойства и взаимосвязи этих величин распределений.

Однако, часто эксперимент представляет собой черный ящик, выдающий лишь некие результаты, по которым требуется сделать вывод о свойствах самого эксперимента.

Наблюдатель имеет набор числовых (или их можно сделать числовыми) результатов, полученных повторением одного и того же случайного эксперимента в «одинаковых условиях».

Часто бывает, можно высказать некие предположения о распределении, спрятанном в «черном ящике», или о его свойствах. В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения («гипотезы»). При этом надо помнить, что ответ «да» или «нет» может быть дан лишь с определенной степенью достоверности, и чем дольше мы можем продолжать эксперимент, тем точнее могут быть выводы.


2.1.1 Точечное оценивание неизвестных параметров

На практике вид функции распределения часто бывает известен с точностью до неизвестных параметров F?(x) = F(х, ?).В этом случае определение функции распределения сводится к определению неизвестных параметров ?.

Например, если случайная величина ? - результат прямых измерений некоторой физической величины а, то, при отсутствии систематических ошибок, распределение вероятностей случайной величины ? будет описываться нормальным законом распределения с двумя параметрами: математическим ожиданием M[?] = а и дисперсией D[?] = ?2, которые нужно оценить по имеющейся выборке.

Определение 2.1. Статистикой называют любую функцию от выборки, не содержащую неизвестных параметров.

Всякая оценка неизвестного параметра по выборке (статистика) - является функцией выборочных значений: ?= ?(x), следовательно, есть случайная величина со своим законом распределения.

Один и тот же параметр можно оценивать с помощью различных статистик. Поэтому возникает вопрос о выборе наилучшей в некотором смысле оценочной функции ?.


2.1.2 Требования к оценкам

О качестве оценок неизвестных параметров будем судить по тому, насколько хорошо выполняется приближенное равенство:

???

Рассмотрим ошибку ?, возникающей при замене неизвестного точного значения параметра ? его приближенным значением ?:


? = ? - ?(2.1.)


В виду случайности, ошибка ? также является случайной величиной со своим законом распределения. Найдем числовые характеристики ошибки:

Математическое ожидание.


M[?] = M[? - ?]= ? - M[?] = b(2.2.)


Дисперсия.


D[?]] = D[? - ?] = D[?] = M[(?)2] - b2(2.3.)


Величина b называется смещением оценки. Из (2.3) найдем среднее квадратичное отклонение, которое примем за меру близости оценки и оцениваемого параметра:


?2 = M [(?)2] = D[?] + b2(2.4.)


Наилучшей в своем классе оценок будем считать такую оценку, которая имеет наименьшее среднее квадратичное отклонение ?2 ( 2.4.).

Так как ?2 складывается из двух частей: квадрата смещения и дисперсии оценки, то наилучшими оценками мы будем считать оценки с нулевым смещением и минимальной дисперсией.

Определение 2.2. Несмещенными называют оценки с нулевым смещением, т.е. математическое ожидание несмещенной оценки равно оцениваемому параметру.

Определение 2.3. Если несмещенная оценка обладает минимальной в своем классе оценок дисперсией, то она называется эффективной.

Еще один подход к анализу качества оценок связан с поведением оценок с ростом объема выборки: чем больше объем выборки, чем точнее должна быть оценка.

Определение 2.4. Оценка параметра называется состоятельной если она при n ?? сходится по вероятности к оцениваемому параметру

Если ? - неизвестная числовая характеристика распределения, то оценочную функцию можно строить, например, следующим образом. Строим по имеющейся выборке статистический аналог нужной числовой характеристики и принимаем его за оценку неизвестного параметра.

Обоснованием данного метода служит асимптотическое поведение статистических аналогов параметров распределений - сходимость по вероятности к теоретическим характеристикам.

При этом учитываем, что моделью выборки является дискретная случай-ная величина, для которой pi =

Оценка математического ожидания

Оценкой математического ожидания является выборочное среднее:


(2.5)


Оценка дисперсии

Оценкой дисперсии будет выборочная дисперсия:



Аналогично рассчитываются оценки и для других числовых характеристик распределения.

Рассмотренный выше способ оценки (с помощью статистических аналогов) пригоден не для всех параметрических функций распределения. Кроме того, он не всегда приводит к наилучшим оценкам. Возникает вопрос - какую оценочную функцию (статистику) считать наилучшей или «хорошей»?


2.1.3 Требования к статистикам

Несмещенность. Оценка называется несмещенной, если при любом ? M[?]=?, т. е. нет систематической ошибки.

Эффективность Несмещенные оценки различаются своими дисперсиями. Оценка с наименьшей для оценок данного класса оценок дисперсией называется эффективной.

Состоятельность Оценка параметра называется состоятельной если она при n ?? сходится по вероятности к оцениваемому параметру: ?(x) ? ?.


2.1.4 Интервальное оценивание неизвестных параметров распределений

Мы оценивали неизвестные параметры одним числом, т. е. одной точкой из области возможных значений оцениваемого параметра. В ряде задач требуется найти не только числовое значение параметра, но и оценить его точность и надежность. Т. е. надо знать, какая ошибка появится при замене неизвестного параметра ? его оценкой ? и какова вероятность того, что эти ошибки не выйдут за известные пределы.


2.1.5 Понятие доверительного интервала

Точность и надежность оценки задаются так называемыми доверительными интервалами и доверительными вероятностями.

Интервал l?, содержащий с вероятностью ?, точное значение оцениваемого параметра, называется доверительным интервалом.

Вероятность ? того, что истинное значение ? лежит в интервале l? называется доверительной вероятностью (коэффициентом доверия) или надежностью, соответствующей данному доверительному интервалу.

Доверительный интервал l? и доверительная вероятность ? связаны соотношением


P([? - ?]<?)=?

или


P(? - ? <?< ? + ? ) = ?.


Отсюда:


l? = (T1 (x), T2 (x))=(? - ?,? + ?)


Этот интервал называют ? - доверителъным интервалом параметра ?.

T1 (x), T2 (x) - нижняя и верхняя доверительная границы.

Таким образом, диапазон возможных ошибок при замене параметра ? его оценкой ? будет равен ±?; большие ошибки появляются с малой вероятностью ? = 1 - ?.


Рис. 1. К понятию доверительного интервала.


Часто задача оценивания ставится таким образом, чтобы найти такой интервал, в котором истинное значение параметра находится с определенной вероятностью.

Если надо найти непосредственное решение задачи, нам потребуется знание истинного значения параметра, а мы его не знаем. Знание необходимо, потому что для нахождения границ доверительного интервала надо знать распределение функции от выборки.

Есть два способа решения этой проблемы:

1.Строить такие функции выборки, чтобы не надо было знать истинного значения параметра.

2.N надо брать достаточно большим, чтобы практическое исчезала зависимость от знания значения истинного параметра.

Для построения доверительного интервала требуется знание закона распределения статистики. Закон распределения этой величины называется закон распределения Стьюдента. Закон известен и табулирован, в частности существует таблица квантилей Стьюдента.

Доверительный интервал для математического ожидания при неизвестной дисперсии генеральной совокупности имеет вид:


,


где - квантиль распределения Стьюдента уровня с N-1 степенями свободы, - доверительная вероятность, - уровень значимости,


- точечная оценка математического ожидания,

- точечная оценка дисперсии,


N - объем выборки.

Доверительный интервал для дисперсии при неизвестном математическом ожидании имеет вид:


,

где - квантиль распределения хи-квадрат уровня с N-1 степенью свободы.

Как видно из формул, для нахождения доверительных интервалов математического ожидания и дисперсии не требуется знания истинных значений параметров закона распределения. Достаточно знания лишь точечных оценок.


2.1.6 Критерий согласия (хи-квадрат) Пирсона

Критерий согласия Пирсона применим для проверки гипотезы о любом теоретическом распределении: равномерном, гауссовом, биномиальном, пуассоновом и т.д. Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитываемыми по формулам теоретического распределения.

Условия применения: объем выборки , выборочные данные сгруппированы в интервальный вариационный ряд с числом интервалов не менее 7, ожидаемые (теоретические) частоты интервалов не должны быть меньше 5.

Гипотеза Н0: - плотность распределения генеральной совокупности, из которой взята выборка, соответствует теоретической модели нормального распределения.

Альтернатива Н1:

Уровень значимости: .

Порядок, применения:

. Формулируется гипотеза, выбирается уровень значимости .

. Получается выборка объема независимых наблюдений и представляется эмпирическое распределение в виде интервального вариационного ряда.

. Рассчитываются выборочные характеристики и S. Их используют в качестве генеральных параметров и нормального распределения, с которым предстоит сравнить эмпирическое распределение.

. Вычисляются значения теоретических частот попадания в i-й интервал группировки. Для этого необходимо вычислить:



где Ф0(u) - функции Лапласа, xвi и хнi - верхняя и нижняя границы i-го интервала группировки.

Если окажется, что вычисленные ожидаемые частоты некоторых интервалов группировки меньше 5, то соседние интервалы объединяются так, чтобы сумма их ожидаемых частот была больше или равна 5. Соответственно складываются и эмпирические частоты объединяемых интервалов.

. Значение -критерия рассчитывается по формуле:



где ni - эмпирические частоты; - ожидаемые (теоретические) частоты; k - число интервалов группировки после объединения.

. Из таблиц распределения находится критическое значение критерия для уровня значимости и числа степеней свободы r = k-3

. Вывод: если то эмпирическое распределение не соответствует нормальному распределению на уровне значимости , в противном случае нет оснований отрицать это соответствие.


2.1.7 Распределение Стьюдента

Распределение Стьюдента (t- распределение) имеет важное значение при статических вычислениях, связанных с нормальным законом, а именно тогда, когда среднеквадратичное отклонение не известно и еще подлежит определению по опытным данным.

Пусть X и X1, X2, …Xn - независимые случайные величины, имеющие нормальное распределение с параметрами:


M[X] = M[X1] = M [X2] = … = M[Xn] = 0


Случайная величина:



являющаяся функцией нормально распределенных случайных величин, называется безразмерной дробью Стьюдента.


Рис. 2. Плотность вероятностей распределения Стьюдента для чиста степеней свободы r = 3 (заштрихованная область равна ).


Распределения случайной величины T не зависит от параметров распределения независимых случайных величин X и X1, X2, …Xn, а зависит только от одного параметра - числа степеней свободы r.

Математическое ожидание и дисперсия случайной величины T соответственно равны:


M[T] = 0D[T] = r > 2


При неограниченном увеличении числа степеней свободы распределения Стьюдента асимптотически переходит в нормальное распределение Гаусса с параметрами


M[T] = 0 и D[T] = 1.


В математической статистике часто используется квантили распределения Стьюдента в зависимости от числа степеней свободы r и заданного уровня вероятности .

С геометрической точки зрения нахождение квантилей распределения Стьюдента , заключается в таком выборе значения , при котором суммарная площадь под кривой плотности на участках и была бы равно .


.2 Практическая работа


Все четыре задачи имеют общую направленность: доверительное оценивание, оценки параметров, доверительная вероятность.


Задача № 1

N=28 - объем выборки

=0.9 - доверительная вероятность

- Оценка математического ожидания

- Оценка дисперсии


Формула для нахождения доверительного интервала для математического ожидания



- значение квантиля Стьюдента для данных значений

Подставляя все значения в формулу, получаем доверительный интервал для математического ожидания:



Задача № 2

N = 10 - объем выборки

- доверительная вероятность

- Оценка дисперсии

Формула для нахождения доверительного интервала для дисперсии



- значение квантиля для данных значений

- значение квантиля для данных значений

Подставляя все значения в формулу, получаем доверительный интервал для дисперсии:



Задача № 3

N = 100 - количество выстрелов, m = 8 - количество попаданий, = 0, 95 - доверительная вероятность

Формула для подсчета доверительного интервала для вероятности попадания в мишень:



- квантиль нормального распределения N(0,1) при данных значениях.

Подставляя все значения в формулу, получаем доверительный интервал для вероятности попадания в мишень:



Задача 4

Данная задача выполнена в программе MathCAD

Данные выборки записаны в документ программы Microsoft Excel под названием «Test.xlsx», как показано на рисунке:


С помощью встроенной функции READFILE, считываются значение из Test.xlsx в документ программы MathCAD



Эта ген. совокупность заносится в MathCAD в виде матрицы:



Т.к. у нас генеральная совокупность является, по сути, одномерным массивом, а в Маткаде он является двумерным (т.к. являлся таблицей в Excel, а таблица является двумерным массивом, где есть столбцы и строки), то следует перевести двумерных массив в одномерный по следующей формуле:



И с помощью функции sort формирует числа в статистический ряд.



С помощью небольшой программы, происходит подсчет абсолютных частот. Ряд разбивается на 8 равных промежутков и подсчитывается, сколько чисел попало в каждый промежуток:



range - массив, в котором находятся начало и конец каждого промежутка

f - Абсолютные частоты



Вышеприведенная таблица является аналогом следующей таблицы:


Номер подинтервалаВерхняя граница подинтервалаНижняя граница подинтервалаСередины подинтерваловОбсолютная частота13240.2536.1256240.2548.544.3759348.556.7552.62512456.756560.8752356573.2569.12514673.2581.577.37512781.589.7585.62519889.759893.8755

Построение гистограммы и полигона частот, показано на рисунке 3.


Рис. 3. Гистограмма и полигон частот.


Далее подсчитываем оценки математического ожидания и дисперсии:



Получаем:


Подсчитываем доверительные интервалы для математического ожидания и дисперсии:



Далее проверяем с помощью критерия гипотезу о том, что выборка извлечена из нормальной генеральной совокупности с математическим ожиданием и средним квадратическим отклонением, равными соответственно статистическому среднему и статистическому среднему квадратичному отклонению. Уровень значимости = 0,05.



В данном случае получилось что


.3 Выводы


В работе выполнены расчеты, связанные с нахождение доверительных интервалов для математического ожидания, дисперсии и вероятности. Для заданной генеральной совокупности построены гистограмма и полигон, найдены оценки математического ожидания и дисперсии, а также доверительные интервалы для математического ожидания и дисперсии. С помощью критерия согласия Пирсона проверена гипотеза о том, что выборка извлечена из нормальной генеральной совокупности. В результате анализа, гипотеза не подтвердилась, т.к. получилось, что . Отсюда следует вывод, что гипотеза о нормальном законе распределения генеральной совокупности не состоятельна (не может быть принята).


3. Классический регрессионный анализ (МНК)


3.1 Теоретические сведения


Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной.

Классическая линейная модель регрессионного анализа

Линейная модель связывает значения зависимой переменной y(x) со значениями независимых показателей Xk (факторов) формулой:


y(x)=B0+B1X1+:+BpXp+e


где e - случайная ошибка. Здесь Xk означает не "икс в степени k", а переменная X с индексом k.

Величина e называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами N(0,1), ошибка для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные X как неслучайные значения, Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения X (например, назначили зарплату работнику), а затем измеряют y(x) (оценили, какой стала производительность труда). За это иногда зависимую переменную называют откликом. Теория регрессионных уравнений со случайными независимыми переменными сложнее, но известно, что, при большом числе наблюдений, использование метода разработанного для неслучайных X корректно.

Для получения оценок коэффициентов регрессии минимизируется сумма квадратов ошибок регрессии:



Решение задачи сводится к решению системы линейных уравнений относительно .

На основании оценок регрессионных коэффициентов рассчитываются значения Y:



О качестве полученного уравнения регрессии можно судить, исследовав - оценки случайных ошибок уравнения.

Так как мы ищем оценки , используя случайные данные, то они, в свою очередь, будут представлять случайные величины.

Запишем систему линейных уравнений в матричном виде



Искомые параметры будут находиться по формуле:



Оценка дисперсии случайной ошибки получается по формуле


,

где m - число параметров тренда

N - объём выборки



Величина S называется стандартной ошибкой регрессии. Чем меньше величина S, тем лучше уравнение регрессии описывает независимую переменную Y.

Доверительный интервал для каждого из коэффициентов тренда имеет вид:



Где - точечная оценка параметра

S - дисперсия для ошибок наблюдения

- квантиль уровня от (N-m) для распределения Стьюдента



3.2 Практическая работа


В данной части работы методом МНК исследуется прикладная задача на выделении функции тренда.


амплитуда шума



находим коэффициенты функции по методу МНК:




График истинного тренда(синий) и его оценки (красный) методом МНК



График модуля отклонения истинного тренда от оценки МНК. На графике отчетливо виден максимум примерно при x=0.74


График зависимости дисперсии от амплитуды шума.

Зависимость получилась линейная


.3 Выводы


С помощью регрессионного анализа (метода МНК) был выделен тренд в рамках модели кубической параболы, т.е. оценены значения коэффициентов модели и рассчитаны доверительные интервалы для них. График эмпирического тренда, найденный с помощью регрессионного анализа, несколько отличается от истинного тренда. Выявлены зоны, где отклонения эмпирического тренда от теоретического наибольшие.

Кроме того, построен график зависимости дисперсии максимального отклонении тренда от исходной теоретической модели тренда как функции амплитуды шума. График оказался линейным, что соответствует ожиданиям.


Заключение


В результате проведенной работы были закреплены теоретические знания и приобретены практические навыки работы со статистиками, умение находить точечные и интервальные оценки математического ожидания и дисперсии, строить гистограммы и полигоны. Был изучен метод МНК (регрессионного анализа), при помощи которого удаётся выделить тренд из смеси сигнал + шум.

Подобные навыки, несомненно, полезны в практике будущей инженерной работы.


Список использованных источников


1.Чернова Н. И. Математическая статистика: Учеб. пособие / Новосиб. гос. ун-т. Новосибирск, 2007. 148 с.

2.Мазманишвили А.С Математическая статистика: Учебн. пособие к практическим занятием /. - Харьков: НТУ «ХПИ», 2003, 217 с.

3.Симонов А.А. Выск Н.Д. Проверка статистических гипотез: Методические указания и варианты курсовых заданий. Москва, 2005, 46 с.

4.Галанов Ю. И. Математическая статистика. Учебное пособие. - Томск. Изд. - во ТПУ, 2010, 80 с.

.Ефимов А. Ф., Поспелов А.С. Сборник задач по математике для ВТУЗов часть 4, 2003, 432 с.

.Воронцов К. В. Лекции по алгоритмам восстановления регрессии., 2007 г., 37 с.

.Шашков В.Б. Прикладной регрессионный анализ (многофакторная регрессия)., Оренбург, 2003, 362 с.

8.<http://bars-minsk.narod.ru/stud/VM/lecture4_2.htm>

<http://cito-web.yspu.org/link1/metod/theory/node40.html>


Пояснительная записка к работе по дисциплине «Математическая статистика» Исследование класси

Больше работ по теме:

КОНТАКТНЫЙ EMAIL: [email protected]

Скачать реферат © 2018 | Пользовательское соглашение

Скачать      Реферат

ПРОФЕССИОНАЛЬНАЯ ПОМОЩЬ СТУДЕНТАМ