Главная страница --> Сбережения

Внедрение без обмана .. | Управление знаниями в России .. | Берем трафик напрокат .. | Бухгалтерский компьютер .. | Что такое CRM и что такое OL .. |


Инструменты data mining: что лучше выбрать?

Материал Intersoft Lab.

Вопрос о том, как правильно выбрать пакет инструментов data mining (DM), актуален уже несколько лет. Ответ на него, рассматриваемый в данной статье, будет построен, исходя из двух основных положений:

  • лучшего инструмента, который подходил бы для всех, не существует;
  • самые полезные средства – это те, что упрощают большую часть задач для тех приложений data mining, которые необходимы конкретной компании.

В прошлом разработка инструментов data mining была нацелена преимущественно на обеспечение мощных аналитических алгоритмов. Однако аналитические "машины" обрабатывают только небольшую часть всех задач DM-проекта. Большинству специалистов известно, что от 70% до 90 % DM-проекта составляет подготовка данных. Кроме того, хорошие инструменты для прямого маркетинга должны включать средства оценки моделей.

Инструменты оценки моделей

В аналитической теории лучшая модель – та, которая дает максимальную точность в прогнозировании всех классификационных состояний целевой переменной и достаточно надежна при работе с тестовым набором данных.

Этот подход получил название метода Global Accuracy (Глобальной точности). Большинство инструментов data mining используют этот метод для идентификации "лучшей" модели. Однако тут есть одна хитрость. Теория, лежащая в основе метода глобальной точности, основана на предположении, что затраты на все классификационные ошибки одинаковы. Этот подход хорошо работает в учебном классе, однако в реальной ситуации (например, при подготовке маркетинговых кампаний по рассылке), результаты могут получиться не столь блестящими.

Фактически, это одна из причин, по которой многие проекты поддержки маркетинговых кампаний в прошлом были не очень удачными. Основа для оценки моделей имела мало отношения к наиболее интересным для маркетинга понятиям – максимизации положительной реакции клиентов и минимизации расходов на эту цель. Большинство инструментов data mining направлены на обеспечение общей точности прогнозирования, но полностью игнорируют вопрос затрат.

В маркетинговых кампаниях расходы на рассылку потенциальному покупателю, который в итоге на нее не отреагирует (это называется "ложно-положительной" ошибкой), в общем-то невелики; однако потенциальные потери по причине отсутствия рассылки тому клиенту, который, вероятно, откликнулся бы ("ложно-отрицательная" ошибка), могут быть достаточно большими (если вычислить ценность клиента в течение его жизненного цикла, размеры невыплаченных сумм и не приобретенных услуг). Это значит, что методы оценки модели должны быть направлены на минимизацию ложно-отрицательных, а не ложно-положительных ошибок. Так как специалисты в области маркетинга заботятся только об уровне отклика и затратах, рассылка первым 30% клиентов, покрывающая 60% откликающихся, как правило, решает обе задачи. Рассылка не отвечающим (ложно-положительные ошибки) среди первых тридцати процентов – это вполне приемлемая затрата ради 60% отвечающих. Такой вариант привлечения клиентов обнаруживает 100%-ое превышение над случайной выборкой и более эффективен, чем массовая рассылка.

Большинство DM-инструментов используют для оценки модели метод глобальной точности. Иногда этот метод приходится использовать, чтобы выявить лучшую модель с помощью возможностей отчетности инструментов. Оценка лучшей модели среди многих, выполненных на различных алгоритмах, не должна проводиться путем сравнения отчетов точности каждого из инструментов. Критерием сравнения должно быть качество сегментации клиентов с положительным откликом среди первых нескольких десятков из списка, отсортированного по вероятности прогнозирования.

Имея четкое представление о правильной оценке DM-моделей, можно более детально рассмотреть бизнес-процессы, которые необходимо координировать с помощью DM-инструментов, позволяющих использовать результаты модели для повышения прибыльности компании.

К таким бизнес-процессам относятся:

  • процесс data mining;
  • процесс поиска знаний (knowledge discovery);
  • программы управления бизнес-процессами;
  • системы управления знаниями;
  • процессы управления бизнес-экосистемами.

Процессы data mining

В своей статье "Приобретение средств data mining. Как избежать серьезных неудач в прогнозной аналитике"1 Эрик Кинг (Eric King) указывает, что самый главный аспект data mining – это сам путь, а не цель. Этот путь он называет "процессом" data mining и описывает его основные элементы следующим образом:

  1. это процесс обнаружения;
  2. он имеет гибкую инфраструктуру;
  3. выполняется на основе четко определенной стратегии;
  4. содержит множество контрольных точек;
  5. включает периодические оценки;
  6. дает возможности настроек с помощью обратной связи.
  7. основан на итеративной архитектуре.

Модели процессов

Поставщики нескольких DM-пакетов решили для ясности упростить процесс. Например, одна из фирм разбила его на 5 этапов:

  • выборка;
  • объяснение;
  • манипулирование;
  • моделирование;
  • оценка.

Раньше для описания DM-процесса применялась хорошая метафора. Технологию data mining сравнивалась с потоком воды, циркулирующем в каскадном фонтане: вода (данные) падает на первый уровень (фазу анализа), образуя водовороты (усовершенствования и обратная связь), пока не накопится достаточно "переработанной" воды для того, чтобы перелиться вниз на следующий уровень. "Обработка" продолжается до тех пор, пока не достигается самый нижний уровень, где вода снова перебрасывается наверх и процесс начинается заново. Действительно, DM-процесс очень напоминает этот итеративный каскадный процесс. Даже внутренняя обработка множества DM-алгоритмов (например, нейронных сетей) выполняется за множество прогонов (периодов) на выборке данных, до тех пор, пока не будет найдено лучшее решение.



Похожие по содержанию материалы:
Обзор программ для клерков от 22 января 2002г. ..
Комплексные интернет-решения штурмуют рынок: что выбрать? ..
Корпоративная база данных: вопросы разработки и внедрения ..
Стыд и CRM ..
Внедрение без обмана ..
Управление знаниями в России и IT ..
Берем трафик напрокат ..
Бухгалтерский компьютер ..
Что такое CRM и что такое OLAP? ..
Враг не пройдёт!! Защита компьютерной сети предприятия ..
Внедряете программный продукт? Не забудьте о главном! ..
Как правильно купить лицензионное программное обеспечения ..
Себестоимость изложниц ..


Похожие документы из сходных разделов


Как избежать ошибок при планировании - 63 правила
Источник: BKG. Практичные решения для эффективного управления компанией /
  1. Для проекта должен быть сформулирован список решаемых проблем
  2. Основная цель проекта (миссия) должна быть доведена до сведения всех участников
  3. Должны быть идентифицированы риски и, там, где возможно, исключены случайности
  4. Необходим ..
читать далее
Обзор программного обеспечения для юристов. Часть 3.
ToT /

Обзор программного обеспечения для юристов. Часть 3.

Сергей Крюков, ЗАО ПроДизайн
http://www.softlawyer.ru
ЗАО ПроДизайн предлагает программы
для юристов собственной разработки:
ЮристРасчет, читать далее


Защита персональных данных и бухгалтерской информации
© ИА Клерк.Ру, аналитический отдел /

В Федеральном законе Российской Федерации от 27 июля 2006 г. N 152-ФЗ «О персональных данных» сказано: «Оператор при обработке персональных данных обязан принимать необходимые организационные и технические меры, в том числе использовать шифровальные (криптографиче .. читать далее