Теория принятия решений: Описание данных, оценивание и проверка гипотез2.2. Вероятностно-статистические методы описания неопределенностей в теории принятия решений 2.2.5. Описание данных, оценивание и проверка гипотез Выделяют три основные области статистических методов обработки результатов наблюдений – описание данных, оценивание (характеристик и параметров распределений, регрессионных зависимостей и др.) и проверка статистических гипотез. Рассмотрим основные понятия, применяемые в этих областях. Основные понятия, используемые при описании данных. Описание данных – предварительный этап статистической обработки. Используемые при описании данных величины применяются при дальнейших этапах статистического анализа – оценивании и проверке гипотез, а также при решении иных задач, возникающих при применении вероятностно-статистических методов принятия решений, например, при статистическом контроле качества продукции и статистическом регулировании технологических процессов. Статистические данные – это результаты наблюдений (измерений, испытаний, опытов, анализов). Функции результатов наблюдений, используемые, в частности, для оценки параметров распределений и (или) для проверки статистических гипотез, называют «статистиками». (Для математиков надо добавить, что речь идет об измеримых функциях.) Если в вероятностной модели результаты наблюдений рассматриваются как случайные величины (или случайные элементы), то статистики, как функции случайных величин (элементов), сами являются случайными величинами (элементами). Статистики, являющиеся выборочными аналогами характеристик случайных величин (математического ожидания, медианы, дисперсии, моментов и др.) и используемые для оценивания этих характеристик, называют статистическими характеристиками. Основополагающее понятие в вероятностно-статистических методах принятия решений – выборка. Как уже говорилось, выборка – это 1) набор наблюдаемых значений или 2) множество объектов, отобранные из изучаемой совокупности. Например, единицы продукции, отобранные из контролируемой партии или потока продукции для контроля и принятия решений. Наблюдаемые значения обозначим x1, x2,…, xn, где n – объем выборки, т.е. число наблюдаемых значений, составляющих выборку. О втором виде выборок уже шла речь при рассмотрении гипергеометрического распределения, когда под выборкой понимался набор единиц продукции, отобранных из партии. Там же обсуждалась вероятностная модель случайной выборки. В вероятностной модели выборки первого вида наблюдаемые значения обычно рассматривают как реализацию независимых одинаково распределенных случайных величин . При этом считают, что полученные при наблюдениях конкретные значения x1, x2,…, xn соответствуют определенному элементарному событию , т.е. . При повторных наблюдениях будут получены иные наблюдаемые значения, соответствующие другому элементарному событию . Цель обработки статистических данных состоит в том, чтобы по результатам наблюдений, соответствующим элементарному событию , сделать выводы о вероятностной мере Р и результатах наблюдений при различных возможных . Применяют и другие, более сложные вероятностные модели выборок. Например, цензурированные выборки соответствуют испытаниям, проводящимся в течение определенного промежутка времени. При этом для части изделий удается замерить время наработки на отказ, а для остальных лишь констатируется, что наработки на отказ для них больше времени испытания. Для выборок второго вида отбор объектов может проводиться в несколько этапов. Например, для входного контроля сигарет могут сначала отбираться коробки, в отобранных коробках – блоки, в выбранных блоках – пачки, а в пачках – сигареты. Четыре ступени отбора. Ясно, что выборка будет обладать иными свойствами, чем простая случайная выборка из совокупности сигарет. Из приведенного выше определения математической статистики следует, что описание статистических данных дается с помощью частот. Частота – это отношение числа Х наблюдаемых единиц, которые принимают заданное значение или лежат в заданном интервале, к общему числу наблюдений n, т.е. частота – это Х/n. (В более старой литературе иногда Х/n называется относительной частотой, а под частотой имеется в виду Х. В старой терминологии можно сказать, что относительная частота – это отношение частоты к общему числу наблюдений.) Отметим, что обсуждаемое определение приспособлено к нуждам одномерной статистики. В случае многомерного статистического анализа, статистики случайных процессов и временных рядов, статистики объектов нечисловой природы нужны несколько иные определения понятия «статистические данные». Не считая нужным давать такие определения, отметим, что в подавляющем большинстве практических постановок исходные статистические данные – это выборка или несколько выборок. А выборка – это конечная совокупность соответствующих математических объектов (чисел, векторов, функций, объектов нечисловой природы). Число Х имеет биномиальное распределение, задаваемое вероятностью р того, что случайная величина, с помощью которой моделируются результаты наблюдений, принимает заданное значение или лежит в заданном интервале, и общим числом наблюдений n. Из закона больших чисел (теорема Бернулли) следует, что
при n→∞ (сходимость по вероятности), т.е. частота сходится к вероятности. Теорема Муавра-Лапласа позволяет уточнить скорость сходимости в этом предельном соотношении. Чтобы от отдельных событий перейти к одновременному рассмотрению многих событий, используют накопленную частоту. Так называется отношение числа единиц, для которых результаты наблюдения меньше заданного значения, к общему числу наблюдений. (Это понятие используется, если результаты наблюдения – действительные числа, а не вектора, функции или объекты нечисловой природы.) Функция, которая выражает зависимость между значениями количественного признака и накопленной частотой, называется эмпирической функцией распределения. Итак, эмпирической функцией распределения Fn(x) называется доля элементов выборки, меньших x. Эмпирическая функция распределения содержит всю информацию о результатах наблюдений. Чтобы записать выражение для эмпирической функции распределения в виде формулы, введем функцию с(х, у) двух переменных:
Случайные величины, моделирующие результаты наблюдений, обозначим . Тогда эмпирическая функция распределения Fn(x) имеет вид
Из закона больших чисел следует, что для каждого действительного числа х эмпирическая функция распределения Fn(x) сходится к функции распределения F(x) результатов наблюдений, т.е. Fn(x) → F(x) (1) при n → ∞. Советский математик В.И. Гливенко (1897-1940) доказал в 1933 г. более сильное утверждение: сходимость в (1) равномерна по х, т.е. (2) при n → ∞ (сходимость по вероятности). В (2) использовано обозначение sup (читается как «супремум»). Для функции g(x) под понимают наименьшее из чисел a таких, что g(x)<a при всех x. Если функция g(x) достигает максимума в точке х0, то . В таком случае вместо sup пишут max. Хорошо известно, что не все функции достигают максимума. В том же 1933 г. А.Н.Колмогоров усилил результат В.И. Гливенко для непрерывных функций распределения F(x). Рассмотрим случайную величину
и ее функцию распределения
По теореме А.Н.Колмогорова
при каждом х, где К(х) – т.н. функция распределения Колмогорова. Рассматриваемая работа А.Н. Колмогорова породила одно из основных направлений математической статистики – т.н. непараметрическую статистику. И в настоящее время непараметрические критерии согласия Колмогорова, Смирнова, омега-квадрат широко используются. Они были разработаны для проверки согласия с полностью известным теоретическим распределением, т.е. предназначены для проверки гипотезы . Основная идея критериев Колмогорова, омега-квадрат и аналогичных им состоит в измерении расстояния между функцией эмпирического распределения и функцией теоретического распределения. Различаются эти критерии видом расстояний в пространстве функций распределения. Аналитические выражения для предельных распределений статистик, расчетные формулы, таблицы распределений и критических значений широко распространены [8], поэтому не будем их приводить. Кроме эмпирической функции распределения, для описания данных используют и другие статистические характеристики. В качестве выборочных средних величин постоянно используют выборочное среднее арифметическое, т.е. сумму значений рассматриваемой величины, полученных по результатам испытания выборки, деленную на ее объем:
где n – объем выборки, xi – результат измерения (испытания) i-ого элемента выборки. Другой вид выборочного среднего – выборочная медиана. Она определяется через порядковые статистики. Порядковые статистики – это члены вариационного ряда, который получается, если элементы выборки x1, x2,…, xn расположить в порядке неубывания: х(1)<x(2)<…<x(k)<…<x(n). Пример 1. Для выборки x1 = 1, x2 = 7, x3 = 4, x4 = 2, x5 = 8, x6 = 0, x7 =5, x8 = 7 вариационный ряд имеет вид 0, 1, 2, 4, 5, 7, 7, 8, т.е. х(1) = 0 = x6, х(2) = 1 = x1, х(3) = 2 = x4, х(4) = 4 = x3, х(5) = 5 = x7, х(6) = х(7) = 7 = x2 = x8, х(8) = 8 = x5. В вариационном ряду элемент x(k) называется k-той порядковой статистикой. Порядковые статистики и функции от них широко используются в вероятностно-статистических методах принятия решений, в эконометрике и в других прикладных областях [2]. Выборочная медиана - результат наблюдения, занимающий центральное место в вариационном ряду, построенном по выборке с нечетным числом элементов, или полусумма двух результатов наблюдений, занимающих два центральных места в вариационном ряду, построенном по выборке с четным числом элементов. Таким образом, если объем выборки n – нечетное число, n = 2k+1, то медиана = x(k+1), если же n – четное число, n = 2k, то медиана = [x(k) + x(k+1)]/2, где x(k) и x(k+1) – порядковые статистики. В качестве выборочных показателей рассеивания результатов наблюдений чаще всего используют выборочную дисперсию, выборочное среднее квадратическое отклонение и размах выборки. Согласно [8] выборочная дисперсия s2 – это сумма квадратов отклонений выборочных результатов наблюдений от их среднего арифметического, деленная на объем выборки:
Выборочное среднее квадратическое отклонение s – неотрицательный квадратный корень из дисперсии, т.е. В некоторых литературных источниках выборочной дисперсией называют другую величину:
Она отличается от s2 постоянным множителем:
Соответственно выборочным средним квадратическим отклонением в этих литературных источниках называют величину Тогда, очевидно,
Различие в определениях приводит к различию в алгоритмах расчетов, правилах принятия решений и соответствующих таблицах. Поэтому при использовании тех или иных нормативно-технических и инструктивно-методических материалов, программных продуктов, таблиц необходимо обращать внимание на способ определения выборочных характеристик. Выбор , а не s2, объясняется тем, что
где Х – случайная величина, имеющая такое же распределение, как и результаты наблюдений. В терминах теории статистического оценивания это означает, что - несмещенная оценка дисперсии (см. ниже). В то же время статистика s2 не является несмещенной оценкой дисперсии результатов наблюдений, поскольку
Однако у s2 есть другое свойство, оправдывающее использование этой статистики в качестве выборочного показателя рассеивания. Для известных результатов наблюдений x1, x2,…, xn рассмотрим случайную величину У с распределением вероятностей
и Р(У = х) = 0 для всех прочих х. Это распределение вероятностей называется эмпирическим. Тогда функция распределения У – это эмпирическая функция распределения, построенная по результатам наблюдений x1, x2,…, xn. Вычислим математическое ожидание и дисперсию случайной величины У:
Второе из этих равенств и является основанием для использования s2 в качестве выборочного показателя рассеивания. Отметим, что математические ожидания выборочных средних квадратических отклонений М(s) и М(s0), вообще говоря, не равняются теоретическому среднему квадратическому отклонению σ. Например, если Х имеет нормальное распределение, объем выборки n = 3, то
Кроме перечисленных выше статистических характеристик, в качестве выборочного показателя рассеивания используют размах R – разность между n-й и первой порядковыми статистиками в выборке объема n, т.е. разность между наибольшим и наименьшим значениями в выборке: R = x(n) – x(1). В ряде вероятностно-статистических методов принятия решений применяют и иные показатели рассеивания. В частности, в методах статистического регулирования процессов используют средний размах – среднее арифметическое размахов, полученных в определенном количестве выборок одинакового объема. Популярно и межквартильное расстояние, т.е. расстояние между выборочными квартилями x([0,75n]) и x([0,25n]) порядка 0,75 и 0,25 соответственно, где [0,75n] – целая часть числа 0,75n, а [0,25n] –целая часть числа 0,25n. Основные понятия, используемые при оценивании. Оценивание – это определение приближенного значения неизвестной характеристики или параметра распределения (генеральной совокупности), иной оцениваемой составляющей математической модели реального (экономического, технического и др.) явления или процесса по результатам наблюдений. Иногда формулируют более коротко: оценивание – это определение приближенного значения неизвестного параметра генеральной совокупности по результатам наблюдений. При этом параметром генеральной совокупности может быть либо число, либо набор чисел (вектор), либо функция, либо множество или иной объект нечисловой природы. Например, по результатам наблюдений, распределенных согласно биномиальному закону, оценивают число – параметр р (вероятность успеха). По результатам наблюдений, имеющих гамма-распределение, оценивают набор из трех чисел – параметры формы а, масштаба b и сдвига с. Способ оценивания функции распределения дается теоремами В.И. Гливенко и А.Н. Колмогорова. Оценивают также плотности вероятности, функции, выражающие зависимости между переменными, включенными в вероятностные модели экономических, управленческих или технологических процессов, и т.д. Целью оценивания может быть нахождение упорядочения инвестиционных проектов по экономической эффективности или технических изделий (объектов) по качеству, формулировка правил технической или медицинской диагностики и т.д. (Упорядочения в математической статистике называют также ранжировками. Это – один из видов объектов нечисловой природы.) Оценивание проводят с помощью оценок – статистик, являющихся основой для оценивания неизвестного параметра распределения. В ряде литературных источников термин «оценка» встречается в качестве синонима термина «оценивание». Употреблять одно и то же слово для обозначения двух разных понятий нецелесообразно: оценивание – это действие, а оценка – статистика (функция от результатов наблюдений), используемая в процессе указанного действия или являющаяся его результатом. Оценивание бывает двух видов – точечное оценивание и оценивание с помощью доверительной области. Точечное оценивание - способ оценивания, заключающийся в том, что значение оценки принимается как неизвестное значение параметра распределения. Пример 2. Пусть результаты наблюдений x1, x2,…, xn рассматривают в вероятностной модели как случайную выборку из нормального распределения N(m,σ). Т.е. считают, что результаты наблюдений моделируются как реализации n независимых одинаково распределенных случайных величин, имеющих функцию нормального распределения N(m,σ) с некоторыми математическим ожиданием m и средним квадратическим отклонением σ, неизвестными статистику. Требуется оценить параметры m и σ (или σ2) по результатам наблюдений. Оценки обозначим m* и (σ2)* соответственно. Обычно в качестве оценки m* математического ожидания m используют выборочное среднее арифметическое , а в качестве оценки (σ2)* дисперсии σ2 используют выборочную дисперсию s2, т.е. m* = , (σ2)* = s2. Для оценивания математического ожидания m могут использоваться и другие статистики, например, выборочная медиана , полусумма минимального и максимального членов вариационного ряда m** = [x(1)+x(n)]/2 и др. Для оценивания дисперсии σ2 также имеется ряд оценок, в частности, (см. выше) и оценка, основанная на размахе R, имеющая вид (σ2)** = [a(n)R]2, где коэффициенты a(n) берут из специальных таблиц [8]. Эти коэффициенты подобраны так, чтобы для выборок из нормального распределения M[a(n)R] = σ. Наличие нескольких методов оценивания одних и тех же параметров приводит к необходимости выбора между этими методами. Как сравнивать методы оценивания между собой? Сравнение проводят на основе таких показателей качества методов оценивания, как состоятельность, несмещенность, эффективность и др. Рассмотрим оценку θn числового параметра θ, определенную при n = 1, 2, … Оценка θn называется состоятельной, если она сходится по вероятности к значению оцениваемого параметра θ при безграничном возрастании объема выборки. Выразим сказанное более подробно. Статистика θn является состоятельной оценкой параметра θ тогда и только тогда, когда для любого положительного числа ε справедливо предельное соотношение
Пример 3. Из закона больших чисел следует, что θn = является состоятельной оценкой θ = М(Х) (в приведенной выше теореме Чебышёва предполагалось существование дисперсии D(X); однако, как доказал А.Я. Хинчин [6], достаточно выполнения более слабого условия – существования математического ожидания М(Х)). Пример 4. Все указанные выше оценки параметров нормального распределения являются состоятельными. Вообще, все (за редчайшими исключениями) оценки параметров, используемые в вероятностно-статистических методах принятия решений, являются состоятельными. Пример 5. Так, согласно теореме В.И. Гливенко, эмпирическая функция распределения Fn(x) является состоятельной оценкой функции распределения результатов наблюдений F(x). При разработке новых методов оценивания следует в первую очередь проверять состоятельность предлагаемых методов. Второе важное свойство оценок – несмещенность. Несмещенная оценка θn – это оценка параметра θ, математическое ожидание которой равно значению оцениваемого параметра: М(θn) = θ. Пример 6. Из приведенных выше результатов следует, что и являются несмещенными оценками параметров m и σ2 нормального распределения. Поскольку М( ) = М(m**) = m, то выборочная медиана и полусумма крайних членов вариационного ряда m** - также несмещенные оценки математического ожидания m нормального распределения. Однако
поэтому оценки s2 и (σ2)** не являются состоятельными оценками дисперсии σ2 нормального распределения. Оценки, для которых соотношение М(θn) = θ неверно, называются смещенными. При этом разность между математическим ожиданием оценки θn и оцениваемым параметром θ, т.е. М(θn) – θ, называется смещением оценки. Пример 7. Для оценки s2, как следует из сказанного выше, смещение равно М(s2) - σ2 = - σ2/n. Смещение оценки s2 стремится к 0 при n → ∞. Оценка, для которой смещение стремится к 0, когда объем выборки стремится к бесконечности, называется асимптотически несмещенной. В примере 7 показано, что оценка s2 является асимптотически несмещенной. Практически все оценки параметров, используемые в вероятностно-статистических методах принятия решений, являются либо несмещенными, либо асимптотически несмещенными. Для несмещенных оценок показателем точности оценки служит дисперсия – чем дисперсия меньше, тем оценка лучше. Для смещенных оценок показателем точности служит математическое ожидание квадрата оценки М(θn – θ)2. Как следует из основных свойств математического ожидания и дисперсии, (3) т.е. математическое ожидание квадрата ошибки складывается из дисперсии оценки и квадрата ее смещения. Для подавляющего большинства оценок параметров, используемых в вероятностно-статистических методах принятия решений, дисперсия имеет порядок 1/n, а смещение – не более чем 1/n, где n – объем выборки. Для таких оценок при больших n второе слагаемое в правой части (3) пренебрежимо мало по сравнению с первым, и для них справедливо приближенное равенство (4) где с – число, определяемое методом вычисления оценок θn и истинным значением оцениваемого параметра θ. С дисперсией оценки связано третье важное свойство метода оценивания – эффективность. Эффективная оценка – это несмещенная оценка, имеющая наименьшую дисперсию из всех возможных несмещенных оценок данного параметра. Доказано [11], что и являются эффективными оценками параметров m и σ2 нормального распределения. В то же время для выборочной медианы справедливо предельное соотношение
Другими словами, эффективность выборочной медианы, т.е. отношение дисперсии эффективной оценки параметра m к дисперсии несмещенной оценки этого параметра при больших n близка к 0,637. Именно из-за сравнительно низкой эффективности выборочной медианы в качестве оценки математического ожидания нормального распределения обычно используют выборочное среднее арифметическое. Понятие эффективности вводится для несмещенных оценок, для которых М(θn) = θ для всех возможных значений параметра θ. Если не требовать несмещенности, то можно указать оценки, при некоторых θ имеющие меньшую дисперсию и средний квадрат ошибки, чем эффективные. Пример 8. Рассмотрим «оценку» математического ожидания m1 ≡ 0. Тогда D(m1) = 0, т.е. всегда меньше дисперсии D( ) эффективной оценки . Математическое ожидание среднего квадрата ошибки dn(m1) = m2, т.е. при имеем dn(m1) < dn( ). Ясно, однако, что статистику m1 ≡ 0 бессмысленно рассматривать в качестве оценки математического ожидания m. Пример 9. Более интересный пример рассмотрен американским математиком Дж. Ходжесом:
Ясно, что Tn – состоятельная, асимптотически несмещенная оценка математического ожидания m, при этом, как нетрудно вычислить,
Последняя формула показывает, что при m ≠ 0 оценка Tn не хуже (при сравнении по среднему квадрату ошибки dn), а при m = 0 – в четыре раза лучше. Подавляющее большинство оценок θn, используемых в вероятностно-статистических методах принятия решений, являются асимптотически нормальными, т.е. для них справедливы предельные соотношения:
для любого х, где Ф(х) – функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Это означает, что для больших объемов выборок (практически - несколько десятков или сотен наблюдений) распределения оценок полностью описываются их математическими ожиданиями и дисперсиями, а качество оценок – значениями средних квадратов ошибок dn(θn). Наилучшими асимптотически нормальными оценками, сокращенно НАН-оценками, называются те, для которых средний квадрат ошибки dn(θn) принимает при больших объемах выборки наименьшее возможное значение, т.е. величина с = с(θn,θ) в формуле (4) минимальна. Ряд видов оценок – так называемые одношаговые оценки и оценки максимального правдоподобия – являются НАН-оценками, именно они обычно используются в вероятностно-статистических методах принятия решений. Какова точность оценки параметра? В каких границах он может лежать? В нормативно-технической и инструктивно-методической документации, в таблицах и программных продуктах наряду с алгоритмами расчетов точечных оценок даются правила нахождения доверительных границ. Они и указывают точность точечной оценки. При этом используются такие термины, как доверительная вероятность, доверительный интервал. Если речь идет об оценивании нескольких числовых параметров, или же функции, упорядочения и т.п., то говорят об оценивании с помощью доверительной области. Доверительная область – это область в пространстве параметров, в которую с заданной вероятностью входит неизвестное значение оцениваемого параметра распределения. «Заданная вероятность» называется доверительной вероятностью и обычно обозначается γ. Пусть Θ – пространство параметров. Рассмотрим статистику Θ1 = Θ1(x1, x2,…, xn) – функцию от результатов наблюдений x1, x2,…, xn, значениями которой являются подмножества пространства параметров Θ. Так как результаты наблюдений – случайные величины, то Θ1 – также случайная величина, значения которой – подмножества множества Θ, т.е. Θ1 – случайное множество. Напомним, что множество – один из видов объектов нечисловой природы, случайные множества изучают в теории вероятностей и статистике объектов нечисловой природы. В ряде литературных источников, к настоящему времени во многом устаревших, под случайными величинами понимают только те из них, которые в качестве значений принимают действительные числа. Согласно справочнику академика РАН Ю.В.Прохорова и проф. Ю.А.Розанова [12] случайные величины могут принимать значения из любого множества. Так, случайные вектора, случайные функции, случайные множества, случайные ранжировки (упорядочения) – это отдельные виды случайных величин. Используется и иная терминология: термин «случайная величина» сохраняется только за числовыми функциями, определенными на пространстве элементарных событий, а в случае иных областей значений используется термин «случайный элемент». (Замечание для математиков: все рассматриваемые функции, определенные на пространстве элементарных событий, предполагаются измеримыми.) Статистика Θ1 называется доверительной областью, соответствующей доверительной вероятности γ, если (5) Ясно, что этому условию удовлетворяет, как правило, не одна, а много доверительных областей. Из них выбирают для практического применения какую-либо одну, исходя из дополнительных соображений, например, из соображений симметрии или минимизируя объем доверительной области, т.е. меру множества Θ1. При оценке одного числового параметра в качестве доверительных областей обычно применяют доверительные интервалы (в том числе лучи), а не иные типа подмножеств прямой. Более того, для многих двухпараметрических и трехпараметрических распределений (нормальных, логарифмически нормальных, Вейбулла-Гнеденко, гамма-распределений и др.) обычно используют точечные оценки и построенные на их основе доверительные границы для каждого из двух или трех параметров отдельно. Это делают для удобства пользования результатами расчетов: доверительные интервалы легче применять, чем фигуры на плоскости или тела в трехмерном пространстве. Как следует из сказанного выше, доверительный интервал – это интервал, который с заданной вероятностью накроет неизвестное значение оцениваемого параметра распределения. Границы доверительного интервала называют доверительными границами. Доверительная вероятность γ – вероятность того, что доверительный интервал накроет действительное значение параметра, оцениваемого по выборочным данным. Оцениванием с помощью доверительного интервала называют способ оценки, при котором с заданной доверительной вероятностью устанавливают границы доверительного интервала. Для числового параметра θ рассматривают верхнюю доверительную границу θВ, нижнюю доверительную границу θН и двусторонние доверительные границы – верхнюю θ1В и нижнюю θ1Н. Все четыре доверительные границы – функции от результатов наблюдений x1, x2,…, xn и доверительной вероятности γ. Верхняя доверительная граница θВ – случайная величина θВ = θВ(x1, x2,…, xn; γ), для которой Р(θ<θВ) = γ, где θ – истинное значение оцениваемого параметра. Доверительный интервал в этом случае имеет вид (-∞; θВ]. Нижняя доверительная граница θН – случайная величина θН = θН(x1, x2,…, xn; γ), для которой Р(θ>θH) = γ, где θ – истинное значение оцениваемого параметра. Доверительный интервал в этом случае имеет вид [θH; +∞). Двусторонние доверительные границы - верхняя θ1В и нижняя θ1Н - это случайные величины θ1В = θ1В(x1, x2,…, xn; γ) и θ1Н = θ1Н(x1, x2,…, xn; γ) такие, что Р(θ1H<θ<θ1В) = γ, где θ – истинное значение оцениваемого параметра. Доверительный интервал в этом случае имеет вид [θ1H; θ1В]. Вероятности, связанные с доверительными границами, можно записать в виде частных случаев формулы (5):
В нормативно-технической и инструктивно-методической документации, научной и учебной литературе используют два типа правил определения доверительных границ – построенных на основе точного распределения и построенных на основе асимптотического распределения некоторой точечной оценки θn параметра θ. Рассмотрим примеры. Пример 10. Пусть x1, x2,…, xn – выборка из нормального закона N(m, σ), параметры m и σ неизвестны. Укажем доверительные границы для m. Известно [11], что случайная величина
имеет распределение Стьюдента с (т-1) степенью свободы, где - выборочное среднее арифметическое и s0 – выборочное среднее квадратическое отклонение. Пусть и - квантили указанного распределения порядка γ и 1-γ соответственно. Тогда P{Y < tγ(n-1)} = γ, P{Y > t1-γ(n-1)} = γ. Следовательно, , т.е. в качестве нижней доверительной границы θН, соответствующей доверительной вероятности γ, следует взять . (6) Аналогично получаем, что . Поскольку распределение Стьюдента симметрично относительно 0, то = - . Следовательно, в качестве верхней доверительной границы θВ для m, соответствующей доверительной вероятности γ, следует взять . (7) Как построить двусторонние доверительные границы? Положим
где θ1Н и θ1В заданы формулами (6) и (7) соответственно. Поскольку неравенство θ1Н < m < θ1В выполнено тогда и только тогда, когда , то P{θ1H < m < θ1B} = γ1 + γ2 - 1, (в предположении, что γ1 > 0,5; γ2 > 0,5). Следовательно, если γ = γ1 + γ2 – 1, то θ1Н и θ1В – двусторонние доверительные границы для m, соответствующие доверительной вероятности γ. Обычно полагают γ1 = γ2, т.е. в качестве двусторонних доверительных границ θ1Н и θ1В, соответствующих доверительной вероятности γ, используют односторонние доверительные границы θН и θВ, соответствующие доверительной вероятности (1+γ)/2. Другой вид правил построения доверительных границ для параметра θ основан на асимптотической нормальности некоторой точечной оценки θn этого параметра. В вероятностно-статистических методах принятия решений используют, как уже отмечалось, несмещенные или асимптотически несмещенные оценки θn, для которых смещение либо равно 0, либо при больших объемах выборки пренебрежимо мало по сравнению со средним квадратическим отклонением оценки θn. Для таких оценок при всех х , где Ф(х) – функция нормального распределения N(0;1). Пусть uγ – квантиль порядка γ распределения N(0;1). Тогда (8) Поскольку неравенство
равносильно неравенству , то в качестве θН можно было бы взять левую часть последнего неравенства. Однако точное значение дисперсии D(θn) обычно неизвестно. Зато часто удается доказать, что дисперсия оценки имеет вид
(с точностью до пренебрежимо малых при росте n слагаемых), где h(θ) – некоторая функция от неизвестного параметра θ. Справедлива теорема о наследовании сходимости [7, §2.4], согласно которой при подстановке в h(θ) оценки θn вместо θ соотношение (8) остается справедливым, т.е. . Следовательно, в качестве приближенной нижней доверительной границы следует взять , а в качестве приближенной верхней доверительной границы - . С ростом объема выборки качество приближенных доверительных границ улучшается, т.к. вероятности событий {θ > θH} и {θ <θB} стремятся к γ. Для построения двусторонних доверительных границ поступают аналогично правилу, указанному выше в примере 10 для интервального оценивания параметра m нормального распределения. А именно, используют односторонние доверительные границы, соответствующие доверительной вероятности (1+γ)/2. При обработке экономических, управленческих или технических статистических данных обычно используют значение доверительной вероятности γ = 0,95. Применяют также значения γ = 0,99 или γ = 0,90. Иногда встречаются значения γ = 0,80, γ = 0,975, γ = 0,98 и др. Для дискретных распределений, таких, как биномиальное, гипергеометрическое или распределение Пуассона (а также распределения статистики Колмогорова
и других непараметрических статистик), функции распределения имеют скачки. Поэтому для заданного заранее значения γ, например, γ= 0,95, нельзя указать доверительные границы, поскольку уравнения, с помощью которых вводятся доверительные границы, не имеют ни одного решения. Так, рассмотрим биномиальное распределение , где Y – число осуществлений события, n – объем выборки. Для него нельзя указать статистику K(Y, n) такую, что P{p < K(Y, n)} = γ, поскольку K(Y, n) – функция от Y и может принимать не больше значений, чем принимает Y, т.е. n + 1, а для γ имеется бесконечно много возможных значений – столько, сколько точек на отрезке. Сказанная означает, что верхней доверительной границы в случае биномиального распределения не существует. Для дискретных распределений приходится изменить определения доверительных границ. Покажем изменения на примере биномиального распределения. Так, в качестве верхней доверительной границы θВ используют наименьшее K(Y, n) такое, что P{p < K(Y, n)} > γ. Аналогичным образом поступают для других доверительных границ и других распределений. Необходимо иметь в виду, что при небольших n и p истинная доверительная вероятность P{p < K(Y, n)} может существенно отличаться от номинальной γ, как это подробно продемонстрировано в работе [13]. Поэтому наряду с величинами типа K(Y, n) (т.е. доверительных границ) при разработке таблиц и компьютерных программ необходимо предусматривать возможность получения и величин типа P{p < K(Y, n)} (т.е. достигаемых доверительных вероятностей). Основные понятия, используемые при проверке гипотез. Статистическая гипотеза – любое предположение, касающееся неизвестного распределения случайных величин (элементов). Приведем формулировки нескольких статистических гипотез: 1. Результаты наблюдений имеют нормальное распределение с нулевым математическим ожиданием. 2. Результаты наблюдений имеют функцию распределения N(0,1). 3. Результаты наблюдений имеют нормальное распределение. 4. Результаты наблюдений в двух независимых выборках имеют одно и то же нормальное распределение. 5. Результаты наблюдений в двух независимых выборках имеют одно и то же распределение. Различают нулевую и альтернативную гипотезы. Нулевая гипотеза – гипотеза, подлежащая проверке. Альтернативная гипотеза – каждая допустимая гипотеза, отличная от нулевой. Нулевую гипотезу обозначают Н0, альтернативную – Н1 (от Hypothesis – «гипотеза» (англ.)). Выбор тех или иных нулевых или альтернативных гипотез определяется стоящими перед менеджером, экономистом, инженером, исследователем прикладными задачами. Рассмотрим примеры. Пример 11. Пусть нулевая гипотеза – гипотеза 2 из приведенного выше списка, а альтернативная – гипотеза 1. Сказанное означает, то реальная ситуация описывается вероятностной моделью, согласно которой результаты наблюдений рассматриваются как реализации независимых одинаково распределенных случайных величин с функцией распределения N(0,σ), где параметр σ неизвестен статистику. В рамках этой модели нулевую гипотезу записывают так: Н0: σ = 1, а альтернативную так: Н1: σ ≠ 1. Пример 12. Пусть нулевая гипотеза – по-прежнему гипотеза 2 из приведенного выше списка, а альтернативная – гипотеза 3 из того же списка. Тогда в вероятностной модели управленческой, экономической или производственной ситуации предполагается, что результаты наблюдений образуют выборку из нормального распределения N(m, σ) при некоторых значениях m и σ. Гипотезы записываются так: Н0: m = 0, σ = 1 (оба параметра принимают фиксированные значения); Н1: m ≠ 0 и/или σ ≠ 1 (т.е. либо m ≠ 0, либо σ ≠ 1, либо и m ≠ 0, и σ ≠ 1). Пример 13. Пусть Н0 – гипотеза 1 из приведенного выше списка, а Н1 – гипотеза 3 из того же списка. Тогда вероятностная модель – та же, что в примере 12, Н0: m = 0, σ произвольно; Н1: m ≠ 0, σ произвольно. Пример 14. Пусть Н0 – гипотеза 2 из приведенного выше списка, а согласно Н1 результаты наблюдений имеют функцию распределения F(x), не совпадающую с функцией стандартного нормального распределения Ф(х). Тогда Н0: F(х) = Ф(х) при всех х (записывается как F(х) ≡ Ф(х)); Н1: F(х0) ≠ Ф(х0) при некотором х0 (т.е. неверно, что F(х) ≡ Ф(х)). Примечание. Здесь ≡ - знак тождественного совпадения функций (т.е. совпадения при всех возможных значениях аргумента х). Пример 15. Пусть Н0 – гипотеза 3 из приведенного выше списка, а согласно Н1 результаты наблюдений имеют функцию распределения F(x), не являющуюся нормальной. Тогда при некоторых m, σ; Н1: для любых m, σ найдется х0 = х0(m, σ) такое, что . Пример 16. Пусть Н0 – гипотеза 4 из приведенного выше списка, согласно вероятностной модели две выборки извлечены из совокупностей с функциями распределения F(x) и G(x), являющихся нормальными с параметрами m1, σ1 и m2, σ2 соответственно, а Н1 – отрицание Н0. Тогда Н0: m1 = m2, σ1 = σ2, причем m1и σ1 произвольны; Н1: m1 ≠ m2 и/или σ1 ≠ σ2. Пример 17. Пусть в условиях примера 16 дополнительно известно, что σ1 = σ2. Тогда Н0: m1 = m2, σ > 0, причем m1и σ произвольны; Н1: m1 ≠ m2, σ > 0. Пример 18. Пусть Н0 – гипотеза 5 из приведенного выше списка, согласно вероятностной модели две выборки извлечены из совокупностей с функциями распределения F(x) и G(x) соответственно, а Н1 – отрицание Н0. Тогда Н0: F(x) ≡ G(x), где F(x) – произвольная функция распределения; Н1: F(x) и G(x) - произвольные функции распределения, причем F(x) ≠ G(x) при некоторых х. Пример 19. Пусть в условиях примера 17 дополнительно предполагается, что функции распределения F(x) и G(x) отличаются только сдвигом, т.е. G(x) = F(x - а) при некотором а. Тогда Н0: F(x) ≡ G(x), где F(x) – произвольная функция распределения; Н1: G(x) = F(x - а), а ≠ 0, где F(x) – произвольная функция распределения. Пример 20. Пусть в условиях примера 14 дополнительно известно, что согласно вероятностной модели ситуации F(x) - функция нормального распределения с единичной дисперсией, т.е. имеет вид N(m, 1). Тогда Н0: m = 0 (т.е. F(х) = Ф(х) при всех х );(записывается как F(х) ≡ Ф(х)); Н1: m ≠ 0 (т.е. неверно, что F(х) ≡ Ф(х)). Пример 21. При статистическом регулировании технологических, экономических, управленческих или иных процессов [2] рассматривают выборку, извлеченную из совокупности с нормальным распределением и известной дисперсией, и гипотезы Н0: m = m0, Н1: m = m1, где значение параметра m = m0 соответствует налаженному ходу процесса, а переход к m = m1 свидетельствует о разладке. Пример 22. При статистическом приемочном контроле [2] число дефектных единиц продукции в выборке подчиняется гипергеометрическому распределению, неизвестным параметром является p = D/N – уровень дефектности, где N – объем партии продукции, D – общее число дефектных единиц продукции в партии. Используемые в нормативно-технической и коммерческой документации (стандартах, договорах на поставку и др.) планы контроля часто нацелены на проверку гипотезы Н0: p < AQL против альтернативной гипотезы Н1: p > LQ, где AQL – приемочный уровень дефектности, LQ – браковочный уровень дефектности (очевидно, что AQL < LQ). Пример 23. В качестве показателей стабильности технологического, экономического, управленческого или иного процесса используют ряд характеристик распределений контролируемых показателей, в частности, коэффициент вариации v = σ/M(X). Требуется проверить нулевую гипотезу Н0: v < v0 при альтернативной гипотезе Н1: v > v0, где v0 – некоторое заранее заданное граничное значение. Пример 24. Пусть вероятностная модель двух выборок – та же, что в примере 18, математические ожидания результатов наблюдений в первой и второй выборках обозначим М(Х) и М(У) соответственно. В ряде ситуаций проверяют нулевую гипотезу Н0: М(Х) = М(У) против альтернативной гипотезы Н1: М(Х) ≠ М(У). Пример 25. Выше отмечалось большое значение в математической статистике функций распределения, симметричных относительно 0, При проверке симметричности Н0: F(-x) = 1 – F(x) при всех x, в остальном F произвольна; Н1: F(-x0) ≠ 1 – F(x0) при некотором x0, в остальном F произвольна. В вероятностно-статистических методах принятия решений используются и многие другие постановки задач проверки статистических гипотез. Некоторые из них рассматриваются ниже. Конкретная задача проверки статистической гипотезы полностью описана, если заданы нулевая и альтернативная гипотезы. Выбор метода проверки статистической гипотезы, свойства и характеристики методов определяются как нулевой, так и альтернативной гипотезами. Для проверки одной и той же нулевой гипотезы при различных альтернативных гипотезах следует использовать, вообще говоря, различные методы. Так, в примерах 14 и 20 нулевая гипотеза одна и та же, а альтернативные – различны. Поэтому в условиях примера 14 следует применять методы, основанные на критериях согласия с параметрическим семейством (типа Колмогорова или типа омега-квадрат), а в условиях примера 20 – методы на основе критерия Стьюдента или критерия Крамера-Уэлча [2,11]. Если в условиях примера 14 использовать критерий Стьюдента, то он не будет решать поставленных задач. Если в условиях примера 20 использовать критерий согласия типа Колмогорова, то он, напротив, будет решать поставленные задачи, хотя, возможно, и хуже, чем специально приспособленный для этого случая критерий Стьюдента. При обработке реальных данных большое значение имеет правильный выбор гипотез Н0 и Н1. Принимаемые предположения, например, нормальность распределения, должны быть тщательно обоснованы, в частности, статистическими методами. Отметим, что в подавляющем большинстве конкретных прикладных постановок распределение результатов наблюдений отлично от нормального [2]. Часто возникает ситуация, когда вид нулевой гипотезы вытекает из постановки прикладной задачи, а вид альтернативной гипотезы не ясен. В таких случаях следует рассматривать альтернативную гипотезу наиболее общего вида и использовать методы, решающие поставленную задачу при всех возможных Н1. В частности при проверке гипотезы 2 (из приведенного выше списка) как нулевой следует в качестве альтернативной гипотезы использовать Н1 из примера 14, а не из примера 20, если нет специальных обоснований нормальности распределения результатов наблюдений при альтернативной гипотезе. Статистические гипотезы бывают параметрические и непараметрические. Предположение, которое касается неизвестного значения параметра распределения, входящего в некоторое параметрическое семейство распределений, называется параметрической гипотезой (напомним, что параметр может быть и многомерным). Предположение, при котором вид распределения неизвестен (т.е. не предполагается, что оно входит в некоторое параметрическое семейство распределений), называется непараметрической гипотезой. Таким образом, если распределение F(x) результатов наблюдений в выборке согласно принятой вероятностной модели входит в некоторое параметрическое семейство {F(x;θ), θ Θ}, т.е. F(x) = F(x;θ0) при некотором θ0 Θ, то рассматриваемая гипотеза – параметрическая, в противном случае – непараметрическая. Если и Н0 и Н1 – параметрические гипотезы, то задача проверки статистической гипотезы – параметрическая. Если хотя бы одна из гипотез Н0 и Н1 – непараметрическая, то задача проверки статистической гипотезы – непараметрическая. Другими словами, если вероятностная модель ситуации – параметрическая, т.е. полностью описывается в терминах того или иного параметрического семейства распределений вероятностей, то и задача проверки статистической гипотезы – параметрическая. Если же вероятностная модель ситуации – непараметрическая, т.е. ее нельзя полностью описать в терминах какого-либо параметрического семейства распределений вероятностей, то и задача проверки статистической гипотезы – непараметрическая. В примерах 11-13, 16, 17, 20-22 даны постановки параметрических задач проверки гипотез, а в примерах 14, 15, 18, 19, 23-25 – непараметрических. Непараметрические задачи делятся на два класса: в одном из них речь идет о проверке утверждений, касающихся функций распределения (примеры 14, 15, 18, 19, 25), во втором – о проверке утверждений, касающихся характеристик распределений (примеры 23, 24). Статистическая гипотеза называется простой, если она однозначно задает распределение результатов наблюдений, вошедших в выборку. В противном случае статистическая гипотеза называется сложной. Гипотеза 2 из приведенного выше списка, нулевые гипотезы в примерах 11, 12, 14, 20, нулевая и альтернативная гипотезы в примере 21 – простые, все остальные упомянутые выше гипотезы – сложные. Однозначно определенный способ проверки статистических гипотез называется статистическим критерием. Статистический критерий строится с помощью статистики U(x1, x2, …, xn) – функции от результатов наблюдений x1, x2, …, xn. В пространстве значений статистики U выделяют критическую область Ψ, т.е. область со следующим свойством: если значения применяемой статистики принадлежат данной области, то отклоняют (иногда говорят -отвергают) нулевую гипотезу, в противном случае – не отвергают (т.е. принимают). Статистику U, используемую при построении определенного статистического критерия, называют статистикой этого критерия. Например, в задаче проверки статистической гипотезы, приведенной в примере 14, применяют критерий Колмогорова, основанный на статистике . При этом Dn называют статистикой критерия Колмогорова. Частным случаем статистики U является векторзначная функция результатов наблюдений U0(x1, x2, …, xn) = (x1, x2, …, xn), значения которой – набор результатов наблюдений. Если xi – числа, то U0 – набор n чисел, т.е. точка n–мерного пространства. Ясно, что статистика критерия U является функцией от U0, т.е. U = f(U0). Поэтому можно считать, что Ψ – область в том же n–мерном пространстве, нулевая гипотеза отвергается, если (x1, x2, …, xn) Ψ, и принимается в противном случае. В вероятностно-статистических методах принятия решений, статистические критерии, как правило, основаны на статистиках U, принимающих числовые значения, и критические области имеют вид Ψ = {U(x1, x2, …, xn) > C}, (9) где С – некоторые числа. Статистические критерии делятся на параметрические и непараметрические. Параметрические критерии используются в параметрических задачах проверки статистических гипотез, а непараметрические – в непараметрических задачах. При проверке статистической гипотезы возможны ошибки. Есть два рода ошибок. Ошибка первого рода заключается в том, что отвергают нулевую гипотезу, в то время как в действительности эта гипотеза верна. Ошибка второго рода состоит в том, что принимают нулевую гипотезу, в то время как в действительности эта гипотеза неверна. Вероятность ошибки первого рода называется уровнем значимости и обозначается α. Таким образом, α = P{U Ψ H0}, т.е. уровень значимости α – это вероятность события {U Ψ}, вычисленная в предположении, что верна нулевая гипотеза Н0. Уровень значимости однозначно определен, если Н0 – простая гипотеза. Если же Н0 – сложная гипотеза, то уровень значимости, вообще говоря, зависит от функции распределения результатов наблюдений, удовлетворяющей Н0. Статистику критерия U обычно строят так, чтобы вероятность события {U Ψ} не зависела от того, какое именно распределение (из удовлетворяющих нулевой гипотезе Н0) имеют результаты наблюдений. Для статистик критерия U общего вида под уровнем значимости понимают максимально возможную ошибку первого рода. Максимум (точнее, супремум) берется по всем возможным распределениям, удовлетворяющим нулевой гипотезе Н0, т.е. α = sup P{U Ψ H0}. Если критическая область имеет вид, указанный в формуле (9), то P{U > C H0} = α. (10) Если С задано, то из последнего соотношения определяют α. Часто поступают по иному - задавая α (обычно α = 0,05, иногда α = 0,01 или α = 0,1, другие значения α используются гораздо реже), определяют С из уравнения (10), обозначая его Сα, и используют критическую область Ψ = {U > Cα} с заданным уровнем значимости α. Вероятность ошибки второго рода есть P{U Ψ H1}. Обычно используют не эту вероятность, а ее дополнение до 1, т.е. P{U Ψ H1} = 1 - P{U Ψ H1}. Эта величина носит название мощности критерия. Итак, мощность критерия – это вероятность того, что нулевая гипотеза будет отвергнута, когда альтернативная гипотеза верна. Понятия уровня значимости и мощности критерия объединяются в понятии функции мощности критерия – функции, определяющей вероятность того, что нулевая гипотеза будет отвергнута. Функция мощности зависит от критической области Ψ и действительного распределения результатов наблюдений. В параметрической задаче проверки гипотез распределение результатов наблюдений задается параметром θ. В этом случае функция мощности обозначается М(Ψ,θ) и зависит от критической области Ψ и действительного значения исследуемого параметра θ. Если Н0: θ = θ0, Н1: θ = θ1, то М(Ψ,θ0) = α, М(Ψ,θ1) = 1 – β, где α – вероятность ошибки первого рода, β - вероятность ошибки второго рода. В статистическом приемочном контроле α – риск изготовителя, β – риск потребителя. При статистическом регулировании технологического процесса α – риск излишней наладки, β – риск незамеченной разладки. Функция мощности М(Ψ,θ) в случае одномерного параметра θ обычно достигает минимума, равного α, при θ = θ0, монотонно возрастает при удалении от θ0 и приближается к 1 при θ - θ0 → ∞. В ряде вероятностно-статистических методов принятия решений используется оперативная характеристика L(Ψ,θ) - вероятность принятия нулевой гипотезы в зависимости от критической области Ψ и действительного значения исследуемого параметра θ. Ясно, что L(Ψ,θ) = 1 - М(Ψ,θ). Основной характеристикой статистического критерия является функция мощности. Для многих задач проверки статистических гипотез разработан не один статистический критерий, а целый ряд. Чтобы выбрать из них определенный критерий для использования в конкретной практической ситуации, проводят сравнение критериев по различным показателям качества [2, приложение 3], прежде всего с помощью их функций мощности. В качестве примера рассмотрим лишь два показателя качества критерия проверки статистической гипотезы – состоятельность и несмещенность. Пусть объем выборки n растет, а Un и Ψn – статистики критерия и критические области соответственно. Критерий называется состоятельным, если
т.е. вероятность отвергнуть нулевую гипотезу стремится к 1, если верна альтернативная гипотеза. Статистический критерий называется несмещенным, если для любого θ0, удовлетворяющего Н0, и любого θ1 , удовлетворяющего Н1, справедливо неравенство P{U Ψ θ0} < P{U Ψ θ1}, т.е. при справедливости Н0 вероятность отвергнуть Н0 меньше, чем при справедливости Н1. При наличии нескольких статистических критериев в одной и той же задаче проверки статистических гипотез следует использовать состоятельные и несмещенные критерии. |