Нечисловая статистика: Линейный регрессионный анализ интервальных данныхГлава 4. Статистика интервальных данных |
Легко убедиться, что:
Это вытекает из последовательности равенств:
Применим приведенную выше теорему из теории матриц, полагая А = Δ Z и принимая, что собственные числа этой матрицы удовлетворяют неравенству λk<1. Тогда получим:
Подставив последнее соотношение в заключение упомянутой теоремы, получим:
Для дальнейшего анализа понадобится вспомогательное утверждение. Исходя из предположений 1-3, докажем, что:
Доказательство. Справедливо равенство
где - состоятельные и несмещенные оценки дисперсий и коэффициентов ковариации, т.е.
тогда
где
Другими словами, каждый элемент матрицы, обозначенной как о(1/n), есть бесконечно малая величина порядка 1/n. Для рассматриваемого случая cov(x) = E, поэтому
Предположим, что n достаточно велико и можно считать, что собственные числа матрицы о(1/n) меньше единицы по модулю, тогда
что и требовалось доказать.
Подставим доказанное асимптотическое соотношение в формулу для приращения b*, получим
Выразим Δb* относительно приращений ΔХ, ΔY до 2-ro порядка
Перейдем от матричной к скалярной форме, опуская индекс (R):
Будем искать max(Δbk*) по Δxij и Δyi (i=1,…, п ;j=1,…, m). Для этого рассмотрим все три ранее введенных типа ограничений на ошибки измерения.
Тип 1 (абсолютные погрешности измерения ограничены). Тогда:
Тип 2 (относительные погрешности измерения ограничены). Аналогично получим:
Тип З (ограничения наложены на сумму погрешностей). Предположим, что Δbk* достигает максимального значения при таких значениях погрешностей Δxij и Δyi, которые мы обозначим как:
тогда:
Ввиду линейности последнего выражения и выполнения ограничения типа 3:
Для простоты записей выкладок сделаем следующие замены:
Теперь для достижения поставленной цели можно сформулировать следующую задачу, которая разделяется на m типовых задач оптимизации:
при ограничениях
Перепишем минимизируемые функции в следующем виде:
Очевидно, что fik > 0.
Легко видеть, что
Следовательно, необходимо решить nm задач
при ограничениях "типа равенства":
Сформулирована типовая задача поиска экстремума функции. Она легко решается. Поскольку
то максимальное отклонение МНК-оценки k-ого параметра равно
Кроме рассмотренных выше трех видов ограничений на погрешности могут представлять интерес и другие, но для демонстрации типовых результатов ограничимся только этими тремя видами.
Оценивание линейной регрессионной связи. В качестве примера рассмотрим оценивание линейной регрессионной связи случайных величин у и х1 , х2..., хm с нулевыми математическими ожиданиями. Пусть эта связь описывается соотношением:
где b1 , b2 ,..., bm - постоянные, а случайная величина е некоррелирована с х1 , х2..., хm. Допустим, необходимо оценить неизвестные параметры b1 , b2 ,..., bm по серии независимых испытаний:
Здесь при каждом i = 1,2,…,n имеем новую независимую реализацию рассматриваемых случайных величин. В этой частной схеме оценки наименьших квадратов b1*R , b2*R ,…, bm*R параметров b1, b2 ,..., bm являются, как известно, состоятельными [45].
Пусть величины х1 , х2..., хm в дополнение к попарной независимости имеют единичные дисперсии. Тогда из закона больших чисел [45] следует существование следующих пределов (ср. предположение 1 выше):
где σ - среднее квадратическое отклонение случайной величины е.
Пусть измерения производятся с погрешностями, удовлетворяющими ограничениям типа 1, тогда максимальное приращение величины Δb*k, как показано выше, равно:
Перейдем к предельному случаю и выпишем выражение для нотны:
В качестве примера рассмотрим случай m = 2. Тогда
Приведенное выше выражение для максимального приращения метрологической погрешности не может быть использовано в случае m = 1. Для m = 1 выведем выражение для нотны, исходя из соотношения:
Подставив m = 1, получим:
Следовательно, нотна выглядит так:
Nf=M{2xb* – y}Δx+M{x}Δy .
Для нахождения рационального объема выборки необходимо сделать следующее.
Этап 1. Выразить зависимость размеров и меры области рассеивания Bα(n,b) от числа опытов n (см. выше).
Этап 2. Ввести меру неопределенности и записать соотношение между статистической и интервальной неопределенностями.
Этап 3. По результатам этапов 1 и 2 получить выражение для рационального объема выборки.
Для выполнения этапа 1 определим область рассеивания следующим образом. Пусть доверительным множеством Bα(n,b) является m-мерный куб со сторонами длиною 2K, для которого
Исследуем случайный вектор b* и
Как известно, если элементы матрицы А = {аij} -случайные, т.е. А – случайная матрица, то ее математическим ожиданием является матрица, составленная из математических ожиданий ее элементов, т.е. М{А} = {М{аij}}.
Утверждение 1. Пусть А = {аij} и В = {bij} - случайные матрицы порядка (m х n) и (n х r) соответственно, причем любая пара их элементов (аij, bkl) состоит из независимых случайных величин. Тогда математическое ожидание произведения матриц равно произведению математических ожиданий сомножителей, т.е. M{AB} = M{A} M{B}.
Доказательство. На основании определения математического ожидания матрицы заключаем, что
,
но так как случайные величины аik, bkj независимы, то
,
что и требовалось доказать.
Утверждение 2. Пусть А = {аij} и В = {bij} - случайные матрицы порядка (m х n) и (n х r) соответственно. Тогда математическое ожидание суммы матриц равно сумме математических ожиданий слагаемых:, т.е. М{А+В} = М{А} + М{В}.
Доказательство. На основании определения математического ожидания матрицы заключаем, что
M{А+В} = {М{аij+bij}} = {М{аij} + М{bij}} =M{A} + M{B},
что и требовалось доказать.
Найдем математическое ожидание и ковариационную матрицу вектора b* с помощью утверждений 1, 2 и выражения для b*R , приведенного выше. Имеем
Но так как M{ e } = 0, то M {b*R} = b . Это означает что оценка МНК является несмещенной.
Найдем ковариационную матрицу:
Как выяснено ранее, для достаточно большого количества опытов n выполняется приближенное равенство
(51)
тогда
Осталось определить вид распределения вектора b*R . Из выражения для b*R, приведенного выше, и асимптотического соотношения (51) следует, что
Можно утверждать, что вектор b*R имеет асимптотически нормальное распределение, т.е.
Тогда совместная функция плотности распределения вероятностей случайных величин b*R1 , b*R2 ,…, b*Rm будет иметь в асимптотике вид:
где
Тогда справедливы соотношения
Подставим в формулу (52), получим
где
Вычислим асимптотическую вероятность попадания описывающего реальность вектора параметров b в m-мерный куб с длиной стороны, равной 2k, и с центром b*R.
Сделаем замену
Тогда
где Т = (n/2)1/2(k/σ), а Ф0(Т )- интеграл Лапласа,
где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Из последнего соотношения получаем
Т = Ф0-1 (P1/m),
где Ф-1(Р) - обратная функция Лапласа. Отсюда следует, что
k = σ (2/n)1/2 Ф0-1 (Р1/m). (53)
Напомним, что доверительная область Bα (n,b) - это m-мерный куб, длина стороны которого равна К, т.е.
P( b ÎBα (n,b))= P (-K <β1<K, -K <β2<K,…, -K <βm<K) = α.
Подставляя P = α в формулу (53), получим
К = k = σ (2/n)1/2 Ф0-1(α 1/m ). (54)
Соотношение (54) выражает зависимость размеров доверительной области (т.е. длины ребра куба К) от числа опытов n, среднего квадратического отклонения σ ошибки е и доверительной вероятности α. Это соотношение понадобится для определения рационального объема выборки.
Переходим к этапу 2. Необходимо ввести меру разброса (неопределенности) и установить соотношение между статистической и интервальной (метрологической) неопределенностями с соответствии с ранее сформулированным общим подходом.
Пусть A - некоторое измеримое множество точек в m-мерном евклидовом пространстве, характеризующее неопределенность задания вектора а Î A . Тогда необходимо ввести некую меру М(А), измеряющую степень неопределенности. Такой мерой может служить m-мерный объем V(A) множества А (т.е. его мера Лебега или Жордана), М(А) = V(A).
Пусть P - m-мерный параллелепипед, характеризующий интервальную неопределенность. Длины его сторон равны значениям нотн 2N1, 2N2,…, 2Nm , а центр а (точка пересечений диагоналей параллелепипеда) находится в точке b*R. Пусть C - измеримое множество точек, характеризующее общую неопределенность. В рассматриваемом случае это m-мерный параллелепипед, длины сторон которого равны 2(N1 + K), 2(N2 + K),…, 2(Nm + K), а центр находится в точке b*R . Тогда
M(P)= V(P) = 2m N1 N2… Nm , (55)
M(C) = V(C) = 2m (N1 + K)(N2 + K)…(Nm + K). (56)
Справедливо соотношение (49), согласно которому М(C) = М(P) + М(F), где множество F = C\P характеризует статистическую неопределенность.
На этапе 3 получаем по результатам этапов 1 и 2 выражение для рационального объема выборки. Найдем то число опытов, при котором статистическая неопределенность составит δ 100% от общей неопределенности, т.е. согласно правилу (50)
M(F) = М(C) - М(P) = δ M(C) (57)
где 0 < < 1. Подставив (55) и (56) в (57), получим
Следовательно,
Преобразуем эту формулу:
откуда
Если статистическая погрешность мала относительно метрологической, т.е. величины K/Ni малы, то
При m = 1 эта формула является точной. Из нее следует, что для дальнейших расчетов можно использовать соотношение
Отсюда нетрудно найти К:
Подставив в формулу (58) зависимость K = K(n), полученную в формуле (54), находим приближенное (асимптотическое) выражение для рационального объема выборки:
При m = 1 эта формула также справедлива, более того, является точной.
Переход от произведения к сумме является обоснованным при достаточно малом , т.е. при достаточно малой статистической неопределенности по сравнению с метрологической. В общем случае можно находить К и затем рациональный объем выборки тем или иным численным методом.
Пример 1. Представляет интерес определение nрац для случая, когда m = 2, поскольку простейшая линейная регрессия с m =2 широко применяется. В этом случае базовое соотношение имеет вид
(1 + К/N1)(1 + К/N2) = 1/(1 - ).
Решая это уравнение относительно К, получаем
К= 0.5{ -(N1 + N2) + [(N1 + N2)2 + 4 N1N2 (/(1 - )]1/2}.
Далее, подставив в формулу (54), получим уравнение для рационального объема выборки в случае m = 2:
σ(2/n)1/2Ф-1(α1/2)= 0.5{-(N1+N2)+[(N1+N2)2+4 N1N2(/(1-)]1/2}.
Следовательно,
При использовании «принципа уравнивания погрешностей» согласно [3] При доверительной вероятности имеем и согласно [42] . Для этих численных значений
Если то Если же то Если первое из этих чисел превышает обычно используемые объемы выборок, то второе находится в «рабочей зоне» регрессионного анализа.
Парная регрессия. Наиболее простой и одновременно наиболее широко применяемый частный случай парной регрессии рассмотрим подробнее. Модель имеет вид
Здесь xi – значения фактора (независимой переменной), yi – значения отклика (зависимой переменной), - статистические погрешности, a, b - неизвестные параметры, оцениваемые методом наименьших квадратов. Она переходит в модель (используем альтернативную запись линейной модели)
если положить
Естественно принять, что погрешности факторов описываются матрицей
В рассматриваемой модели интервального метода наименьших квадратов
где X, y – наблюдаемые (т.е. известные статистику) значения фактора и отклика, XR, yR – истинные значения переменных, - погрешности измерений переменных. Пусть - оценка метода наименьших квадратов, вычисленная по наблюдаемым значениям переменных, - аналогичная оценка, найденная по истинным значениям. В соответствии с ранее проведенными рассуждениями
(59)
с точностью до бесконечно малых более высокого порядка по и . В формуле (59) использовано обозначение . Вычислим правую часть в (59), выделим главный линейный член и найдем нотну.
Легко видеть, что
(60)
где суммирование проводится от 1 до n. Для упрощения обозначений в дальнейшем до конца настоящего пункта не будем указывать эти пределы суммирования. Из (60) вытекает, что
(61)
Легко подсчитать, что
(62)
Положим
Тогда знаменатель в (61) равен . Из (61) и (62) следует, что
(63)
Здесь и далее опустим индекс i, по которому проводится суммирование. Это не может привести к недоразумению, поскольку всюду суммирование проводится по индексу i в интервале от 1 до n. Из (61) и (63) следует, что
(64)
где
Наконец, вычисляем основной множитель в (59)
(65)
где
Перейдем к вычислению второго члена с в (59). Имеем
(67)
где
Складывая правые части (65) и (67) и умножая на у, получим окончательный вид члена с в (59):
(68)
где
(69)
Для вычисления нотны выделим главный линейный член. Сначала найдем частные производные. Имеем
(70)
Если ограничения имеют вид
то максимально возможное отклонение оценки а* параметра а из-за погрешностей таково:
где производные заданы формулой (70).
Пример 2. Пусть вектор (х,y) имеет двумерное нормальное распределение с нулевыми математическими ожиданиями, единичными дисперсиями и коэффициентом корреляции . Тогда
(71)
При этом
следовательно, максимально возможному изменению параметра b* соответствует сдвиг всех xi в одну сторону, т.е. наличие систематической ошибки при определении х-ов. В то же время согласно (71) значения в асимптотике выбираются по правилу
Таким образом, максимальному изменению а* соответствуют не те , что максимальному изменению b*. В этом – новое по сравнению с одномерным случаем. В зависимости от вида ограничений на возможные отклонения, в частности, от вида метрики в пространстве параметров, будут «согласовываться» отклонения по отдельным параметрам. Ситуация аналогична той, что возникает в классической математической статистике в связи с оптимальным оцениванием параметров. Если параметр одномерен, то ситуация с оцениванием достаточно прозрачна – есть понятие эффективных оценок, показателем качества оценки является средний квадрат ошибки, а при ее несмещенности – дисперсия. В случае нескольких параметров возникает необходимость соизмерить точность оценивания по разным параметрам. Есть много критериев оптимальности (см., например, [46]), но нет признанных правил выбора среди них.
Вернемся к формуле (59). Интересно, что отклонения вектора параметров, вызванные отклонениями значений факторов и отклика , входят в (59) аддитивно. Хотя
но для отдельных компонент (не векторов!) имеет место равенство.
В случае парной регрессии
(72)
Из формул (68), (69) и (72) следует, что
где F и G определены в (69), а
Итак, продемонстрирована возможность применения основных подходов статистики интервальных данных в регрессионном анализе.
Пример использования интервального регрессионного анализа. Методы статистики интервальных данных наряду с классическими методами оказываются полезными не только в традиционных статистических задачах, но и во многих других областях, в частности, в экономике и управлении промышленными предприятиями [27, 47]. Пример использования статистики интервальных данных в инвестиционном менеджменте подробно описан в [27] (см. также раздел 4.7 ниже). Перспективы применения статистики интервальных данных в контроллинге рассмотрены в [48]. Компьютерный анализ данных и использование статистических методов в информационных системах управления предприятием при решении задач контроллинга рассмотрены в [49]. Рассмотрим практический пример применения интервального регрессионного анализа при анализе и прогнозировании затрат предприятия
Выпуск продукции y зависит от величины суммарных переменных затрат х. Условные исходные данные для предприятия “Омега” приведены в табл. 1. Необходимо построить уравнение регрессии и найти нотну. В данном случае n = 12, k = 2. Зависимость ищется в виде .
Таблица 1.
Исходные данные для предприятия «Омега», тыс. руб.
№ п/п | х | y | № п/п | х | y |
1 | 15,1 | 89,0 | 7 | 44,3 | 145,9 |
2 | 25,0 | 104,4 | 8 | 46,0 | 151,8 |
3 | 16,8 | 110,8 | 9 | 46,8 | 153,7 |
4 | 30,7 | 116,1 | 10 | 53,4 | 161,8 |
5 | 33,2 | 127,8 | 11 | 56,5 | 175,8 |
6 | 44,2 | 143,3 | 12 | 65,4 | 193,4 |
Пусть как для х, так и для y максимально возможная погрешность . Можно доказать [12], что указанное значение допустимо считать малым, поскольку под «малостью» следует понимать малость относительно типовых значений х и y. Построим уравнение регрессии согласно методу наименьших квадратов:
Оценим максимально возможное изменение (приращение) вектора (a*, b*) оценок параметров линейной зависимости методом наименьших квадратов при изменении исходных данных, когда α и малы (см. формулу (59) выше). Для этого найдем нотны - максимально возможные изменения координат этого вектора в предположении и :
Na*(x,y) = 0,87; Nb*(x,y) = 32,98.
Найдем доверительные интервалы для параметров a и b согласно [27, п.5.1] при доверительной вероятности 0,95. Для параметра a (т.е. для переменных затрат на единицу выпуска) нижняя доверительная граница , а верхняя - . Доверительный интервал для параметра a с учетом нотны равен [1,595 - 0,87; 2,233 + 0,87] или [0,73; 3,1]. Ширина «классического» доверительного интервала d1=aB(0,95) - aH(0,95) равна 0,63, что несколько меньше, чем нотна 0,87.
Для параметра b (т.е. для постоянных затрат) нижняя доверительная граница , а верхняя - . Ширина «классического» доверительного интервала для параметра b* равна 9,63, т.е. почти в з раза меньше, чем нотна 32,98. Доверительный интервал для параметра b с учетом нотны равен [58,51 – 32,98; 68,13 + 32,98] или [25,53; 101,12].
Итак, восстановленная зависимость с учетом метрологических и статистических погрешностей имеет вид
Исходя из погрешностей коэффициентов линейной зависимости, можно указать нижнюю и верхнюю доверительные границы для функции
, .
Более точно доверительные границы для значения функции в определенной точке можно указать, если найти нотну и статистическую погрешность не для коэффициентов, а непосредственно для значения функции [27, п.5.1].
Полученные результаты дают возможность оценивать точность прогнозирования с помощью восстановленной зависимости, рассчитывая нижние и верхние границы для значения зависимой переменной. Например, при х=100 нижняя и верхняя границы интервала равны
yн (100) = (1,914 - 0,87)Ч100 + 63,32 – 32,98 = 134,74;
yв (100) = (1,914 + 0,87)Ч100 + 63,32 + 32,98 = 374,70.
Некоторые замечания. На основе использования вероятностных моделей регрессионного анализа [27, гл. 5.1] удается построить доверительные границы для восстановленной зависимости. Однако при практическом применении вероятностных моделей не всегда легко обосновать предположения, наложенные на вектор невязок (независимость и одинаковую распределенность его координат). Кроме того, при моделировании экономических явлений и процессов обычно нет оснований использовать нормально распределенные случайные величины [27, гл. 4.1], следовательно, нельзя применять методы регрессионного анализа, основанные на нормальном распределении погрешностей. При этом объем данных обычно таков, что применение асимптотических формул непараметрического регрессионного анализа [27, гл. 5] не вполне оправдано. Поэтому описанный выше подход интервального регрессионного анализа представляется не менее оправданным, чем подход на основе вероятностных моделей. В этом мы согласны с А.П. Вощининым [21]. Представляется необходимым использование интервального регрессионного анализа в различных областях научных и прикладных исследований, прежде всего, в технических, экономических, управленческих разработках.