Представим такую ситуацию. Компания владеет двумя заводами. Завод A покрывает спрос в регионе в размере 80 тыс. единиц, при этом 2 тыс. единиц признаются бракованными, что составляет:2/(80+2)=2.44% от всего выпуска. Завод B покрывает спрос в регионе в размере 700 тыс. единиц продукции, 14 тыс. признаются браком, это 1.96% от выпуска.
В следующем году спрос выравнивается, волевым решением выпуск на двух заводах выравнивают до 390 тыс. единиц на каждом для экономии на логистике. В конце года две команды, отвечающие за качество докладывают об успехах. На заводе A всего 9.4 тыс. единиц продукта оказались бракованными, это 2.35% от всего уровня выпуска против 2.44% прошлого года. На заводе B количество брака снизилось, но незначительно, 7.7 тыс. единиц оказались списанными, это 1.94% против 1.96% в прошлом году.
И там, и там были достигнуты положительные результаты, но если мы посчитаем уровень брака для завода в целом, мы увидим совсем другой результат: в первом году выпущено 780 тыс. продукции, утилизировано брака – 16 тыс., а вот во втором году на оба завода уже пришлось 17.1 тыс. бракованных изделий. Уровень брака на двух заводах совокупно вырос с 2.05% до 2.19%, таким образом потери на браке у компании вырастут.
В статистике похожая ситуация называется парадоксом Симпсона. Нельзя просто так распространять тенденции характерные для двух и более групп выборок на их совокупность, не учитывая другие данные о системе. На первый взгляд это может показаться очевидным, но давайте посмотрим с другой стороны. Приведём более простое описание парадокса Симпсона: Дано 4 набора камней, в каждом из них есть чёрные и белые. Вероятность достать из набора 1 белый камень выше, чем из набора 2, точно так же вероятность достать белый камень из 3го выше, чем из 4го. Объединим набор 1 с 3 и назовём его набор A, а 2 с 4 — набор B. Сколько людей, принимающих решения в вашей компании, скажут, что вероятность достать белый камень выше из набора A, чем из B, не задав других вопросов?