Высокий процент ложных результатов

Инструменты, занимающиеся поиском труднообнаруживаемых зависимостей в базах данных, могут раскрыть действительно драгоценные "самородки" информации, которые дадут хорошие дивиденды в плане финансовой и конкурентной выгоды. Средства Data Mining часто представляются "волшебным ящичком", куда "насыпают" еще не обработанные данные, а "высыпают" уже готовое бизнес-решение. Увы, это не так.

Data Mining, к сожалению, очень часто порождает множество вводящих в заблуждение и не имеющих существенного значения открытий. Многие пользователи и аналитики утверждают, что DM-средства могут выдавать тысячи ложных, статистически недостоверных или бессмысленных результатов. При этом пользователь должен понимать, какие из результатов имеют реальный смысл.

Некоторые ученые предупреждают, что общепринятые методы DM только "упрощают до абсурда" сложное искусство анализа и могут привести к неправильным выводам.

Джону Суоми (John Suomu) раньше представлялось, что с помощью его DM-инструмента удастся получить важные результаты. Казалось, программа обнаружила группу невыгодных клиентов, которые не стоили времени и средств туристической компании, где работал Суоми. Однако проверка показала, что такой результат связан с противоречивостью данных. Открытие оказалось ложным. "Мы подумали, что целый ряд людей - совершенно неподходящие для нас клиенты, хотя на самом деле это было не так", - признается маркетолог Суоми.

"Часто обнаруживаются странные вещи, и в 99,9% случаев они оказываются ложными", - утверждает Майк Айхорст, вице-президент отдела прогнозирования и Data Mining в компании Chase Manhattan Bank. - Постоянно попадаешь в тупик".

DM-инструмент может давать совершенно нелепые результаты, например: "Доктора, покупающие красные "Порше", составляют группу высокого риска невыплаты кредитов, а мужчины-курильщики из определенных районов оказываются выгодными клиентами". "Но такие утверждения могут быть основаны всего лишь на нескольких случайных примерах. А встроенных проверок нет" - объясняет Айхорст.

Например, компания Chase Manhattan, однажды получила неверное значение для среднего баланса нескольких клиентов, пользующихся кредитными картами. Причина оказалась в том, что данные были некорректно переданы. Неправильная сортировка файлов привела к тому, что в качестве прогнозирующего параметра, определяющего интерес клиентов к планируемой маркетинговой кампании, были выбраны идентификаторы клиентов. Конечно, такой результат не имел никакого смысла.

Дэвид Лейнвебер (David Leinweber), управляющий директор в компании First Quadrant, вспоминает, что ему встречались результаты анализа данных, связывавшие эффективность акций с их серийными номерами: "Технология Data Mining раньше применялась на свой страх и риск, а теперь внедряются готовые DM-продукты".

Содержание раздела