Инструменты data mining: что лучше выбрать?Материал Вопрос о том, как правильно выбрать пакет инструментов data mining (DM), актуален уже несколько лет. Ответ на него, рассматриваемый в данной статье, будет построен, исходя из двух основных положений:
В прошлом разработка инструментов data mining была нацелена преимущественно на обеспечение мощных аналитических алгоритмов. Однако аналитические "машины" обрабатывают только небольшую часть всех задач DM-проекта. Большинству специалистов известно, что от 70% до 90 % DM-проекта составляет подготовка данных. Кроме того, хорошие инструменты для прямого маркетинга должны включать средства оценки моделей. Инструменты оценки моделейВ аналитической теории лучшая модель – та, которая дает максимальную точность в прогнозировании всех классификационных состояний целевой переменной и достаточно надежна при работе с тестовым набором данных. Этот подход получил название метода Global Accuracy (Глобальной точности). Большинство инструментов data mining используют этот метод для идентификации "лучшей" модели. Однако тут есть одна хитрость. Теория, лежащая в основе метода глобальной точности, основана на предположении, что затраты на все классификационные ошибки одинаковы. Этот подход хорошо работает в учебном классе, однако в реальной ситуации (например, при подготовке маркетинговых кампаний по рассылке), результаты могут получиться не столь блестящими. Фактически, это одна из причин, по которой многие проекты поддержки маркетинговых кампаний в прошлом были не очень удачными. Основа для оценки моделей имела мало отношения к наиболее интересным для маркетинга понятиям – максимизации положительной реакции клиентов и минимизации расходов на эту цель. Большинство инструментов data mining направлены на обеспечение общей точности прогнозирования, но полностью игнорируют вопрос затрат. В маркетинговых кампаниях расходы на рассылку потенциальному покупателю, который в итоге на нее не отреагирует (это называется "ложно-положительной" ошибкой), в общем-то невелики; однако потенциальные потери по причине отсутствия рассылки тому клиенту, который, вероятно, откликнулся бы ("ложно-отрицательная" ошибка), могут быть достаточно большими (если вычислить ценность клиента в течение его жизненного цикла, размеры невыплаченных сумм и не приобретенных услуг). Это значит, что методы оценки модели должны быть направлены на минимизацию ложно-отрицательных, а не ложно-положительных ошибок. Так как специалисты в области маркетинга заботятся только об уровне отклика и затратах, рассылка первым 30% клиентов, покрывающая 60% откликающихся, как правило, решает обе задачи. Рассылка не отвечающим (ложно-положительные ошибки) среди первых тридцати процентов – это вполне приемлемая затрата ради 60% отвечающих. Такой вариант привлечения клиентов обнаруживает 100%-ое превышение над случайной выборкой и более эффективен, чем массовая рассылка. Большинство DM-инструментов используют для оценки модели метод глобальной точности. Иногда этот метод приходится использовать, чтобы выявить лучшую модель с помощью возможностей отчетности инструментов. Оценка лучшей модели среди многих, выполненных на различных алгоритмах, не должна проводиться путем сравнения отчетов точности каждого из инструментов. Критерием сравнения должно быть качество сегментации клиентов с положительным откликом среди первых нескольких десятков из списка, отсортированного по вероятности прогнозирования. Имея четкое представление о правильной оценке DM-моделей, можно более детально рассмотреть бизнес-процессы, которые необходимо координировать с помощью DM-инструментов, позволяющих использовать результаты модели для повышения прибыльности компании. К таким бизнес-процессам относятся:
Процессы data miningВ своей статье "Приобретение средств data mining. Как избежать серьезных неудач в прогнозной аналитике"
Модели процессовПоставщики нескольких DM-пакетов решили для ясности упростить процесс. Например, одна из фирм разбила его на 5 этапов:
Раньше для описания DM-процесса применялась хорошая метафора. Технологию data mining сравнивалась с потоком воды, циркулирующем в каскадном фонтане: вода (данные) падает на первый уровень (фазу анализа), образуя водовороты (усовершенствования и обратная связь), пока не накопится достаточно "переработанной" воды для того, чтобы перелиться вниз на следующий уровень. "Обработка" продолжается до тех пор, пока не достигается самый нижний уровень, где вода снова перебрасывается наверх и процесс начинается заново. Действительно, DM-процесс очень напоминает этот итеративный каскадный процесс. Даже внутренняя обработка множества DM-алгоритмов (например, нейронных сетей) выполняется за множество прогонов (периодов) на выборке данных, до тех пор, пока не будет найдено лучшее решение. |