

Прикладная статистика: Интервальный кластер-анализЧасть 3. Методы прикладной статистики 3.5. Статистика интервальных данных 3.5.6. Интервальный кластер-анализ Кластер-анализ, как известно [27], имеет целью разбиение совокупности объектов на группы сходных между собой. Многие методы кластер-анализа основаны на использовании расстояний между объектами. (Степень близости между объектами может измеряться также с помощью мер близости и показателей различия, для которых неравенство треугольника выполнено не всегда.) Рассмотрим влияние погрешностей измерения на расстояния между объектами и на результаты работы алгоритмов кластер-анализа. С ростом размерности р евклидова пространства диагональ единичного куба растет как
Пусть ограничения на абсолютные погрешности имеют вид Такая запись ограничений предполагает, что все переменные имеют примерно одинаковый разброс. Трудно ожидать этого, если переменные имеют различные размерности. Однако рассматриваемые ограничения на погрешности естественны, если переменные предварительно стандартизованы, т.е. отнормированы (т.е. из каждого значения вычтено среднее арифметическое, а разность поделена на выборочное среднее квадратическое отклонение). Пусть с точностью до бесконечно малых более высокого порядка. Если случайные величины с точностью до бесконечно малых более высокого порядка при малых Из рассмотрений настоящего пункта вытекает, что
при некотором Какое минимальное расстояние является различимым? По аналогии с определением рационального объема выборки при проверке гипотез предлагается уравнять слагаемые в (74), т.е. определять минимально различимое расстояние
Естественно принять, что расстояния, меньшие Каков порядок величины С? Если xi и yi независимы и имеют стандартное нормальное распределение с математическим ожиданием 0 и дисперсией 1, то, как легко подсчитать, Формула (75) показывает, что хотя с ростом размерности пространства р растет диаметр (длина диагонали) единичного куба – естественной области расположения значений переменных, с той же скоростью растет и естественное квантование расстояния с помощью порога неразличимости Можно сделать выводы и для конкретных алгоритмов. В дендрограммах (например, результатах работы иерархических агломеративных алгоритмах ближнего соседа, дальнего соседа, средней связи) можно порекомендовать склеивать (т.е. объединять) уровни, отличающиеся менее чем на Поэтому кроме расчетов с R рекомендуется провести также расчеты с радиусами R1 и R2, где
и сравнить полученные разбиения. Быть адекватными реальности могут только выводы, общие для всех трех расчетов. Эти рекомендации развивают общую идею [3] о целесообразности проведения расчетов при различных значениях параметров алгоритмов с целью выделения выводов, инвариантных по отношению к выбору конкретного алгоритма. |