Прикладная статистика: Теория случайных толерантностейЧасть 3. Методы прикладной статистики 3.4. Статистика нечисловых данных 3.4.2. Теория случайных толерантностей В прикладных исследованиях обычно используют три конкретных вида бинарных отношений – ранжировки, разбиения и толерантности. Статистические теории ранжировок [13] и разбиений [15] достаточно сложны с математиче6ской точки зрения. Поэтому продвинуться удается не очень далеко. Теория случайных ранжировок, в частности, изучает в основном равномерные распределения на множестве ранжировок. Теория случайных толерантностей позволяет рассмотреть более общие ситуации. Это объясняется, грубо говоря, тем, что для теории толерантностей оказываются полезными суммы некоторых независимых случайных величин, а для теории ранжировок и разбиений аналогичные случайные величины зависимы. Теория случайных толерантностей является частным случаем теории люсианов, рассматриваемой в подразделе 3.4.3. Здесь приводим результаты, специфичные именно для толерантностей. Пусть X - конечное множество из k элементов. Толерантность А на множестве Х, как и любое бинарное отношение, однозначно описывается матрицей a(i, j), 1 < i, j < k, где a(i, j) = 1, если элементы с номерами i и j связаны отношением толерантности, и a(i, j) = 0 в противном случае. Поскольку толерантность – это рефлексивное и симметричное бинарное отношение, то достаточно рассматривать часть матрицы, лежащую над главной диагональю: a(i, j), 1 < i<j < k. Между наборами a(i, j), 1 < i<j < k из 0 и 1 и толерантностями на Х имеется взаимнооднозначное соответствие. Пусть А = А(ω) – случайная толерантность, равномерно распределенная на множестве всех толерантностей на Х. Легко видеть, что в этом случае a(i, j), 1 < i<j < k, - независимые случайные величины, принимающие значения 0 и 1 с вероятностями 0,5. Этот факт, несмотря на свою математическую тривиальность, является решающим для построения теории толерантностей. Для аналогичных постановок в теории ранжировок и разбиений величины a(i, j) оказываются зависимыми. Следовательно, случайная величина
имеет биномиальное распределение с параметрами k(k-1)/2, ½ и асимптотически нормальна при k → ∞. Проверка гипотез о согласованности. Рассмотрим s независимых толерантностей А1, А2, …, Аs, равномерно распределенных на множестве всех толерантностей на Х. Рассмотрим вектор , (1) где d(Ap, Aq) – расстояние между толерантностями Ap и Aq, аксиоматически введенное в главе 1.1. В (1) предполагается, что пары (p, q), p < q, располагаются в раз навсегда установленном порядке, для определенности в лексиграфическом (т.е. пары упорядочиваются в соответствии со значением р, а при одинаковых р – по значению q). Вектор ξks является суммой k(k-1)/2 независимых одинаково распределенных случайных векторов, а потому асимптотически нормален при k → ∞. Координаты этого вектора независимы, поскольку, как нетрудно видеть, координаты каждого слагаемого независимы (это свойство не сохраняется при отклонении от равномерности распределения). Распределения случайных величин ap(i, j) и ap(i, j) - aq(i, j) совпадают, поэтому распределения В(А) и d(Ap, Aq) также совпадают. В силу многомерной центральной предельной теоремы (глава 1.4) распределение вектора
сходится при k → ∞ к распределению многомерного нормального вектора ηs, ковариационная матрица которого совпадает с ковариационной матрицей вектора ηks, а математическое ожидание равно 0. Таким образом, координаты случайного вектора ηs независимы и имеют стандартное нормальное распределение с математическим ожиданием 0 и дисперсией 1. В соответствии с теоремами о наследовании сходимости (глава 1.4) распределение f(ηks) сходится при k → ∞ к распределению f(ηs) для достаточно широкого класса функций f, в частности, для всех непрерывных функций. В качестве примеров рассмотрим статистики . При k → ∞ распределения случайных величин
сходятся соответственно к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1 и распределению хи-квадрат с s(s – 1)/2 степенями свободы. Статистики W и N могут быть использованы для проверки гипотезы о равномерности распределения толерантностей. Как известно, в теории ранговой корреляции [13], т.е. в теории случайных ранжировок, в качестве единой выборочной меры связи нескольких признаков используется коэффициент согласованности W(R), называемый также коэффициентом конкордации [16, табл.6.10]. Его распределение затабулировано в предположении равномерности распределения на пространстве ранжировок (без связей). Непосредственным аналогом W(R) в случае толерантностей является статистика W. Статистики W и N играют ту же роль для толерантностей, что W(R) для ранжировок, однако математико-статистическая теория в случае толерантностей гораздо проще, чем для ранжировок. Обобщением равномерно распределенных толерантностей являются толерантности с независимыми связями. В этой постановке предполагается, что a(i, j), 1 < i<j < k, - независимые случайные величины, принимающие значения 0 и 1. Обозначим Р(a(i, j) = 1) = р(i,j). Тогда Р(a(i, j) = 0) = 1 - р(i,j). Таким образом, распределение толерантности с независимыми связями задается нечеткой толерантностью, т.е. вектором P = {р(i, j), 1 < i<j < k}. Пусть имеется s независимых случайных толерантностей А1, А2, …, Аs с независимыми связями, распределения которых задаются векторами Р1, Р2, …, Рs соответственно. Рассмотрим проверку гипотезы согласованности Н0: Р1 = Р2 =…= Рs. Она является более слабой, чем гипотеза равномерности : Р1 = Р2 =…= Рs =(½, ½, ..., ½), для проверки которой используют статистики W и N (см. выше). Пусть сначала s = 2. Тогда P{a1(i, j) - a2(i, j) = 1} = q(i, j), P{a1(i, j) - a2(i, j) = 0} = 1 - q(i, j), где q(i, j) = p1(i, j) (1 - p2(i, j)) + p2(i, j) (1 - p1(i, j)). Следовательно, расстояние d(A1, A2) между двумя случайными толерантностями с независимыми связями есть сумма k(k - 1)/2 независимых случайных величин, принимающих значения 0 и 1, причем математическое ожидание и дисперсия d(A1, A2) таковы: . (2) Пусть k → ∞. Если Dd(A1, A2) → ∞, то условие Линденберга Центральной Предельной Теоремы теории вероятностей выполнено (см. главу 1.4), и распределение нормированного расстояния (3) сходится к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1. Если существует число δ > 0 такое, что при всех k, i, j, 1 < i<j < k, вероятности p1(i, j) и p2(i, j) лежат внутри интервала (δ; 1 – δ), то Dd(A1, A2) → ∞. Соотношения (2), (3) и им подобные позволяют рассчитать мощность критериев, основанных на статистиках W и N, при k → ∞, подобно тому, как это сделано в [1, глава 4.5]. Поскольку подобные расчеты не требуют новых идей, не будем приводить их здесь. Обычно Р1 и Р2 неизвестны. Для проверки гипотезы Р1 = Р2 в некоторых случаях можно порекомендовать отвергать гипотезу на уровне значимости α, если d(A1, A2) > d0, где d0 есть (1-α)-квантиль распределения расстояния между двумя независимыми равномерно распределенными случайными толерантностями, т.е. квантиль биномиального распределения В(А). Укажем достаточные условия такой рекомендации. Пусть р =(p1(i, j) + p2(i, j))/2, p1(i, j) = р + Δ, тогда p2(i, j) = р – Δ, q= q(i, j) = 2р(1 – р) + 2Δ2. (4) Если существует число δ > 0 такое, что q – ½ > δ > 0 (5) при всех k, i, j, то гипотеза Р1 = Р2 будет отвергаться с вероятностью, стремящейся к 1 при k → ∞. Из (4) следует, что при фиксированном р существует Δ такое, что выполнено (5), тогда и только тогда, когда 0,25 < p < 0,75. Своеобразие постановки задачи проверки гипотезы состоит в том, что при росте k число неизвестных параметров, т.е. координат векторов Pi, растет пропорционально объему данных. Поэтому и столь далекая от оптимальности процедура, как описанная в двух предыдущих абзацах, представляет некоторый практический интерес. Для случая s > 4 в теории люсианов (глава 3.4.3) разработаны методы проверки гипотезы согласованности Н0: Р1 = Р2 =…= Рs. Нахождение группового мнения. Пусть А1, А2, …, Аs - случайные толерантности, описывающие мнения s экспертов. Для нахождения группового мнения будем использовать медиану Кемени, т.е. эмпирическое среднее относительно расстояния, введенного в главе 1.1. Медианой Кемени является . Легко видеть, что Аср = aср(i, j) удовлетворяет условию: aср(i, j) = 1, если , и aср(i, j) = 0, если . Следовательно, при нечетном s групповое мнение Аср определяется однозначно. При четном s неоднозначность возникает в случае . Тогда медиана Кемени Аср - не одна толерантность, а множество толерантностей, минимум суммы расстояний достигается и при aср(i,j) = 1, и при aср(i, j) = 0. Асимптотическое поведение группового мнения (медианы Кемени для толерантностей) вытекает из общих результатов о законах больших чисел в пространствах произвольной природы (глава 2.1), поэтому рассматривать его здесь нет необходимости. Дихотомические (бинарные) признаки в классической асимптотике. Многое в предыдущем изложении определялось спецификой толерантностей. В частности, особая роль равномерности распределения на множестве всех толерантностей оправдывала специальное рассмотрение статистик W и N; аксиоматически введенное расстояние d между толерантностями играло важную роль в приведенных выше результатах. Однако модель толерантностей с независимыми связями уже меньше связана со спецификой толерантностей. В ней толерантности можно рассматривать просто как частный случай люсианов. Широко применяется следующая модель порождения данных. Пусть А1, А2, …, Аs - независимые люсианы. Это значит, что статистические данные имеют вид (А1, А2, …, Аs) = Xij, i = 1,2, ..., s; j = 1, 2, ..., k, (6) где Xij - независимые в совокупности испытания Бернулли с вероятностями успеха (Р1, Р2, …, Рs) = pij, , i = 1,2, ..., s; j = 1, 2, ..., k, (7) где Pi - вектор вероятностей, описывающий распределение люсиана Ai. Особое значение имеют одинаково распределенные люсианы, для которых Р1 = Р2 =…= Рs = Р, где символом Р обозначен общий вектор вероятностей. Как обычно в математической статистике, содержательные результаты при изучении модели (6) - (7) можно получить в асимптотических постановках. При этом есть два принципиально разных предельных перехода: s → ∞ и k → ∞. Первый из них - традиционный: число неизвестных параметров постоянно, объем выборки s растет. Во втором число параметров растет, объем выборки остается постоянным, но общий объем данных ks растет пропорционально числу неизвестных параметров. Аналогом является асимптотическое изучение коэффициентов ранговой корреляции Кендалла и Спирмена: число ранжировок, т.е. объем выборки, постоянно (и равно 2), а число ранжируемых объектов растет. Вторая постановка изучается в следующем подразделе, посвященном люсианам. Некоторые задачи в первой постановке рассмотрим здесь. Случайные толерантности используются, в частности, для оценки нечетких толерантностей [1]. Для описания результатов опроса группы экспертов о сходстве объектов строят нечеткую толерантность M = μij, μij = lij/nij, где nij - число ответов о сходстве i-го и j-го объектов, а lij - число положительных ответов из них. Если эксперты действуют в соответствии с единым вектором параметров Р, то М - состоятельная оценка для Р. Следующий вопрос при таком подходе - верно ли, что две группы экспертов «думают одинаково», т.е. используют совпадающие вектора Р? Рассмотрим эту постановку на более общем языке люсианов. Пусть A1, A2, ..., Am и B1, B2, ..., Bn - независимые в совокупности люсианы, одинаково распределенные в каждой группе с параметрами Р(А) и Р(В) соответственно. Требуется проверить гипотезу Р(А) = Р(В). Естественным является переход к пределу при min(m, n) → ∞. Пусть гипотеза справедлива. Предположим, что pi = pi(A) = pi(B) ≠ 0 при всех i = 1, 2, ..., k. (Разбор нарушений этого условия очевиден.) Пусть si - число единиц на i-м месте в первой группе люсианов, а ti - во второй. Рассмотрим случайные величины . (8) Они независимы в совокупности. В соответствии с результатами главы 1.4 распределения ξi при min(m, n) → ∞ сходятся к стандартному нормальному распределению с математическим ожиданием 0 и дисперсией 1. Эти свойства сохраняются при замене pi в (8) на состоятельные оценки, построенные по статистическим данным, соответствующим i-му месту. Будем использовать эффективную оценку [17, с.529] . (9) Подставим (9) в (8), получим статистики . Полученные статистики можно использовать для проверки рассматриваемой гипотезы, например, с помощью критериев, основанных на статистиках . С помощью результатов главы 1.4 получаем, что W имеет в пределе при min(m, n) → ∞ стандартное нормальное распределение, а Т - распределение хи-квадрат с k степенями свободы. Рассмотрим распределение статистики W при альтернативных гипотезах. Положим . Эти случайные величины независимы, распределение каждой из них при min(m, n) → ∞ сходится к стандартному нормальному распределению. Поскольку , то , где
и . В силу результатов главы 1.4 распределение F при min(m, n) → ∞ сближается с нормальным распределением, математическое ожидание которого равно 0, а дисперсия . Поэтому, чтобы получить собственное (т.е. невырожденное) распределение W при альтернативах, естественно рассмотреть модель , где θi - некоторые фиксированные числа. Тогда при min(m, n) → ∞ оценки из (9) сходятся к pi и являются независимыми асимптотически нормальными случайными величинами с математическими ожиданиями θi и единичными дисперсиями. Опираясь на результаты главы 1.4, заключаем, что распределение статистики W сходится к нормальному распределению с математическим ожиданием
и единичной дисперсией. Если в последней формуле θ0 = 0, то асимптотическое распределение W таково же, как и в случае справедливости нулевой гипотезы. От указанного недостатка свободна статистика Т. Тем же путем, как и для W, получаем, что при min(m, n) → ∞ распределение Т сходится к нецентральному хи-квадрат распределению с k степенями свободы и параметром нецентральности . Можно рассматривать ряд других задач, например, проверку совпадения параметров для нескольких групп люсианов (аналог дисперсионного анализа), установление зависимости Р(В) от Р(А) (аналог регрессионного анализа), отнесение вновь поступающего люсиана к одной из групп (задача диагностики - аналог дискриминантного анализа; представляет интерес, например, при применении тестов типа MMPI оценки психического состояния личности) и т.д. Однако принципиальных трудностей на пути развития соответствующих методов не видно, и мы не будем их здесь рассматривать. Создание соответствующих алгоритмов проводится специалистами по прикладной статистике в соответствии с непосредственными заказами пользователей. |