Студопедия — Статистические оценки параметров распределения случайных величин по выборкам
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Статистические оценки параметров распределения случайных величин по выборкам






 

Основная задача выборочного метода заключается в том, что-
бы на основе изучения выборочной совокупности получить та-
кие выборочные характеристики, которые как можно более точно отражали бы характеристики генеральной совокупности.
Пусть изучается некоторый признак Θ. По результатам выборки определяется оценка этого признака Θb. Как бы тщательно ни была
организована выборка, будем иметь некоторую ошибку = | Θb — Θ|,
которая будет отличаться от нуля. С этой точки зрения основная
задача выборочного метода будет заключаться в том, чтобы величина была как можно меньше.

Чтобы выборочную оценку можно было считать, доброкачественной и пригодной для решения поставленных задач, она должна обладать определенными свойствами. Наилучшие оценки обладают такими свойствами, как несмещенность, состоятельность, эффективность и достаточность.

Выборочная оценка называется несмещенной, если ее математическое ожидание при любом объеме выборки равно значению пара-
метра в генеральной совокупности, т.е.

М(Θb) — Θ = 0.


Если же имеется смещение, т.е.

М(Θb) — Θ = β,

то величина β отражает это смещение.

Пусть исследуется признак Х в генеральной совокупности, из
которой сделана выборка х1, х2,..., хn. Средняя арифметическая
выборочная

является оценкой генеральной средней M(x), так как

M(x)=M

Математическое ожидание выборочной средней равно средней
генеральной совокупности: M(x) = (x).

Выборочная оценка Θb параметра Θ, полученная на основе n
независимых наблюдений, называется состоятельной, если предел
вероятности

Pb - Θ < ) =1.

Таким образом, разность |Θb – Θ| будет сколь угодно малой, а
предел стремится к единице при увеличении объема выборки при
>0. Свойство очевидно, так как чем ближе n к ∞, тем ближе
оценка Θb к Θ. Отсюда следует, что состоятельность оценки возрастает с увеличением объема выборки.

Выборочная несмещенная оценка называется эффективной, если
она имеет минимальную дисперсию по сравнению с другими возможными оценками. Так, например, имеются две выборочные оценки Θb1 и Θb2 с дисперсиями D(Θb1) > D(Θb2), тогда эффективной будет
оценка Θb2. Достаточной называют выборочную оценку, если она
включает всю информацию, которая содержится в выборке относительно определенного параметра. Если, например, по выборке
1, х2,..., хn) производится оценка неизвестной вероятности Р, то вполне достаточно знать сумму варианта , т.е. общее число случаев, благоприятствующих данному событию. Отдельные же значения хi уже не содержат никакой новой информации и ничего не
поясняют относительно значений Р. Выборочные оценки могут быть
точечными и интервальными.

Точечные оценки — это оценки некоторых неизвестных числовых параметров распределения случайных величин. Они представляют собой числа, полученные путем подстановки выборочных значений

х1, х2,..., хn, в формулу для оценивания искомого параметра.
Точечные оценки параметров Θ b не дают информации о степени
близости к соответствующему теоретическому параметру генеральной совокупности Θ. Поэтому более информативный способ оценивания неизвестных параметров состоит в построении интервала, в котором оказывается оцениваемый параметр.

Интервальной оценкой параметра Θ называется интервал, гра-
ницы которого Θ b1 и Θ b2 являются функциями выборочных значе-
ний х12,...,хn, и который с заданной вероятностью накрывает
оцениваемый параметр Θ

Р{ Θ b1 < Θ < Θ b2} = .

Величина называется доверительной вероятностью или надежностью, с которой оценка Θ заключается в интервал (Θ b1 и Θ b2), она
записывается в виде = 1 - α, где α — уровень значимости, определяющий величину вероятности того, что оценка Θ выйдет за пределы интервала Θ b1 и Θ b2.

Ширина доверительного интервала равна Н = Θ b1 - Θ b2.

Точечные оценки параметров распределения случайных величин. Основными методами получения точечных оценок являются метод моментов, метод наименьших квадратов (МНК) и метод максимально- го правдоподобия (ММП).

Метод моментов является наиболее простым и общим способом
точечной оценки. Пусть имеется выборка (х1, х2,..., хn) случайной
величины Х. Среднее значение наблюдаемого признака можно оп-
ределить по формуле

Таким образом, представляет собой эмпирическое, или выборочное среднее. Если вычислено среднее, то легко найти отклонение каждого наблюдения δ, от среднего δi = х i.

Величину S 2 = называют дисперсией или вторым центральным моментом эмпирического распределения

m 2 = S 2

В случае одномерного эмпирического распределения произволь-
ным моментом порядка К называется сумма К-тых степеней отклоне-
ний результатов наблюдений от произвольного числа С, деленная
на объем выборки n

где k может принимать любые значения натурального ряда чисел.
Начальным моментом первого порядка является выборочное среднее , т.е.

что мы видели ранее. Если С = , то имеем центральные моменты

…………………

Среднеквадратическое отклонение равно

Выборочное значение коэффициента вариации V, являющееся
мерой относительной изменчивости наблюдаемой случайной вели-
чины, вычисляют по формуле

или в процентах

Если известна форма связи искомого параметра с моментами, то
вначале находят выборочные оценки моментов, а затем, используя
форму связи, вычисляют оценку самого параметра. Например, в
качестве меры симметричности графика распределения случайных
величин, используется коэффициент асимметрии Аs который для симметричного распределения равен нулю. Для оценки асимметричности используется формула

 

Если Аs > 0, то график плотности вероятности имеет «скос» с
левой стороны от , а если Аs < 0, то — с правой.

В качестве меры «крутости» графиков распределения случайных
величин используют коэффициент эксцесса Ek, характеризующий
«крутость» графика по сравнению с кривой Гаусса. Для оценки Е,
используется формула

Если Ek ≥ 0, то кривая островершинная, при Ek < 0 — плоско-
вершинная (пологая). Метод моментов, как правило, приводит к
состоятельным оценкам. Однако при малых выборках оценки мо-
гут оказаться значительно смещенными и малоэффективными. Метод моментов достаточно эффективен для оценки параметров нормально распределенных случайных величин.

Метод наименьших квадратов в основном используется для оценки коэффициентов уравнения регрессии, например в ального параметра используется процентная частота, то ее ошибка вычисляется по формуле

 

и будет рассмотрен в регрессионном анализе.

Метод максимального правдоподобия имеет большое преимущество по сравнению с другими методами точечной оценки. Он
дает состоятельные, распределенные асимптотически нормально, эффективные оценки. Хотя эти оценки могут быть несколько смещенными.

Метод состоит в следующем. Пусть имеется выборка (х 1, х 2,..., хn),
а рассматриваемый признак х имеет распределение плотности веро-
ятностей f(x, Θ), где Θ есть неизвестный параметр, который требу-
ется оценить по выборке. В силу случайности попадания в выборку величины х i. вероятность осуществления данной выборки равна произведению плотности вероятностей

 

Такая функция называется функцией правдоподобия выборки и обозначается через L, т.е.

Выборочная оценка, которая обращает в максимум функцию правдоподобия, называется оценкой максимума правдоподобия.

Для нахождения максимума определяем частную производную
и приравниваем ее к нулю,


Например, для показательного распределения f(x, Θ)= ΘеΘx,
где Θ — неизвестный параметр, который следует оценить по выборке
(x12,...,хn), составим функцию правдоподобия

 

Прологарифмируем функцию L


Теперь ее продифференцируем и приравняем к нулю

 


Отсюда

Для оценки величины рассеивания средних выборочных относительно математического ожидания генеральной совокупности в
случае нормального распределения случайной величины х можно
применить формулу

где
D(x)
— известная дисперсия генеральной совокупности;

n — объем выборки.

Средняя ошибка выборочной средней

Несмещенная оценка дисперсии, получается, по методу максимального подобия с поправкой

Характеристика рассеивания дисперсии S определяется по формуле

Средняя ошибка выборочной дисперсии

Для нормального распределения

При обработке статистических данных используют следующие виды оценок:

1. Средняя арифметическая для объема выборки n

При разделении выборки на k групп, в которых xj встречается mj раз

Средняя арифметическая в группе k

Средняя групповая


4.2. Средняя геометрическая используется тогда, когда вариант х i
имеет размерность нулевого порядка. Величины такой размерности
выражают вторичные признаки, являющиеся отношением двух одноименных величин, например измеренная в результате опыта величина сравнивается с некоторым стандартным значением. В результате получается, что величина х iявляется безразмерной. Тогда
средняя геометрическая равна

или

 

4.3. Средняя гармоническая имеет свойство усреднять при неизменной сумме величин, обратных усредняемым. Она применяется
тогда, когда варианта х iпредставлена обратной величиной и определяется по формуле

4.4. Средняя квадратическая используется тогда, когда варианта
представляет размерность второго порядка, например, когда х iесть
площадь поверхности, полученная измерением длин сторон прямо-
угольника. В этом случае используется формула

5.5. Медиана делит ранжированный ряд распределения вариант х i на две равные части. Таким образом, в ранжированном ряду распределения
одна половина ряда имеет значения признака, превышающие медиану,
а другая — меньше медианы. Медиана является характеристикой центральной тенденции признака, особенно когда концы распределения расплывчаты и неясны.

5.6. Мода показывает значение величины х i, имеющей наибольшую частоту в статическом ряду распределения. Так, в табл. 3.1 и на
рис. 3.1 показано, что мода равна хт = 1 при частоте т i = 10.

4.7. Выборочная дисперсия

Среднее квадратическое отклонение .

4.8. Дисперсия альтернативного признака используется тогда, когда признак измеряется двумя альтернативными значениями, например 0 и 1, да и нет, присутствует или не присутствует. Доля элементов выборки, обладающих признаком 1, равна .

признаком 0

Средняя

Дисперсия

Интервальные оценки параметров распределения случайных вели-
чин.
Точечные оценки параметров не дают информации о степени
близости оценки Θb к соответствующему теоретическому параметру


Θ. Поэтому более информативный способ оценки неизвестных пара-
метров состоит не в определении единичного точечного значения, а в
построении интервала, в котором с заданной степенью достоверности
окажется оцениваемый параметр, т.е. в построении так называемой
интервальной оценки параметра Θ.

Интервальной оценкой параметра Θ называется интервал, границы которого Θb1 и Θb2 являются функциями выборочных значений х 1, х 2, ... хn и который с заданной вероятностью накрывает оцениваемый параметр Θ


где α - уровень значимости.

Интервал (Θb1, Θb2) называется доверительным, его границы Θb1


иΘb1 являющиеся случайными величинами, соответственно нижним и верхним доверительными пределами. Любая интервальная оценка
может быть охарактеризована совокупностью двух чисел: шириной
доверительного интервала Н = Θb1 - Θb2, являющейся мерой точности оценивания параметра Θ, и доверительной вероятностью у, характеризующей степень достоверности (надежности) результатов,
Чаще всего в расчетах используется величина у равная 0,9; 0,95 и
реже 0,8; 0,85; 0,99; 0,999.

Общая процедура получения интервальной оценки состоит в
следующем:

1. Записывают определенное вероятное утверждение вида

где f (g) — функция распределения плотности вероятностей случайной
величины g. Приэтом значения δ;1 и δ;2 определяют обычно с учетом дополнительных условий

2. Аргумент g преобразуют так, чтобы в окончательном виде
оцениваемый параметр оказался заключенным между величинами,
определяемыми по выборке. Это и будут границы доверительного
интервала (Θb1, Θb2). Функцию g(Θ, Θb2) выбирают таким образом,
чтобы она допускала подобное преобразование и имела известную
(лучше табулированную) функцию плотности вероятностей f (g). Последнее обстоятельство существенно упрощает определение значений
δ;1 и δ;2.

В качестве примера получим интервальную оценку математи-
ческого ожидания М(х) нормальной генеральной совокупности с
известной дисперсией D(x). Известно, что функция

подчиняется нормированному нормальному распределению

(см. приложение 1). Тогда можно записать:

После преобразования аргумента получим:

Следовательно, для данного случая:

а ширина доверительного интервала

Для нормально распределенной случайной величины доверительный интервал определяется по формулам:

если теоретическое значение дисперсии неизвестно, то для
математического ожидания доверительный интервал будет иметь вид:

где k — число степеней свободы, k = n - 1;

ta,k табличное значение критерия Стьюдента, определяемое по таблице, приведенной в приложении 2;

для теоретической дисперсии

где k = n – 1, χ 2k;α /2, χ 2k;1-α /2 - нижнее и верхнее значения критерия

Пирсона при заданных k и α/2, определяемое по таблице, приведенной в приложении 3.

Используя интервальные оценки, можно определить объем выборки, задаваясь точностью оценки. Если оценивается математическое ожидание, то точность оценки будет равна

При заданном значении δ и D(x) объем испытаний будет равен

При неизвестном D(x) объем испытаний определяется по фор-
муле



Если оценивать дисперсию D(x), то, задаваясь значением δg,
можно использовать уравнение


затем с помощью таблиц χ 2 распределения (см. приложение 3) подо-
брать такое соотношение в левой части неравенства, чтобы оно удовлетворяло правую часть, и затем определить объем испытаний n = k+L.

Доверительный интервал для генеральной доли P устанавливается по формуле

где Pb выборочная доля;

Ua/2 — критерий, выбираемый по таблице (см. приложение 4,
при Ua/2= x).

Величина Ua/2, вычисляется по формуле

Откуда

где S pf – ошибка выборочной доли.

Если вместо доли в качестве оценки генерального параметра используется процентная частота, то ее ошибка вычисляется по формуле


Границы доверительного интервала p+UpS ~ для генеральной доли устанавливаются с достаточной точностью в тех случаях, когда выборочные доли равны или не сильно отклоняются от
50% численности групп. Если же выборочные доли не равны
(75% < р < 25%) и тем более близки к нулю и единице, довери-
тельные границы для генеральной доли следует определять с по-
мощью вспомогательной величины < р,

Эта величина, предложенная Р.Фишером, имеет распределение, близкое к нормальному. Ее параметром служит выборочная ошибка, равная .

Значения φ; зависят только от р.

Для практического использования этой величины служит таблица, приведенная в приложении 5, в которой содержатся значения
φ для разных значений доли р, выраженной в процентах.

Пример. Из общего числа 5800 чел., проживающих в населен-
ном пункте, методом случайного отбора обследовано 1500 лиц, среди которых обнаружено 200 больных.

Доля больных

или 13%

Ошибка доли

или 8%


Для доверительной вероятности γ;=0,9 величина Uα/2=1,96=2.
Тогда доверительный интервал

Отсюда с вероятностью 0,90 следует заключить, что генеральная доля находится между Рверх. = 0,15 и Рниж. = 0,11. Так как генеральная доля меньше 25%, исправим доверительный интервал с по-
мощью величины rp. Для доли больных

для Р %=13,0025 величина φ; > 0,738 (см. приложение 5). Определим S pf

Отсюда границы для доверительного интервала р равны:

· нижняя 0,738 — 2 х 0,07 = 0,601;

 

· верхняя 0,738+ 2 х0,07 = 0 875.

Переводим значения р в исходные величины по таблице (см.
приложение 5): = 8,8% и =18,0%. Это значит, что с вероятностью
Р = 0,90 можно утверждать, что доля больных в населенном пункте
при данных условиях не должна выйти за пределы 8,8% — 18% от
общего числа жителей.







Дата добавления: 2015-04-16; просмотров: 2128. Нарушение авторских прав; Мы поможем в написании вашей работы!



Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Реформы П.А.Столыпина Сегодня уже никто не сомневается в том, что экономическая политика П...

Виды нарушений опорно-двигательного аппарата у детей В общеупотребительном значении нарушение опорно-двигательного аппарата (ОДА) идентифицируется с нарушениями двигательных функций и определенными органическими поражениями (дефектами)...

Особенности массовой коммуникации Развитие средств связи и информации привело к возникновению явления массовой коммуникации...

Растягивание костей и хрящей. Данные способы применимы в случае закрытых зон роста. Врачи-хирурги выяснили...

ФАКТОРЫ, ВЛИЯЮЩИЕ НА ИЗНОС ДЕТАЛЕЙ, И МЕТОДЫ СНИЖЕНИИ СКОРОСТИ ИЗНАШИВАНИЯ Кроме названных причин разрушений и износов, знание которых можно использовать в системе технического обслуживания и ремонта машин для повышения их долговечности, немаловажное значение имеют знания о причинах разрушения деталей в результате старения...

Различие эмпиризма и рационализма Родоначальником эмпиризма стал английский философ Ф. Бэкон. Основной тезис эмпиризма гласит: в разуме нет ничего такого...

Studopedia.info - Студопедия - 2014-2024 год . (0.008 сек.) русская версия | украинская версия