Методики и инструментарий сегментации потребителей. Обзор методов кластерного анализа и оценка их применимости для решения задачи сегментации потребительского рынка Результаты сегментации по методу многомерного шкалирования

Методы сегментирования

Можно выделить некоторые "базовые" методы сегментирования. Важнейшим из них является кластерный анализ потребителей (таксономия). Кластеры потребителей формируются объединением в группу тех, кто дает сходные ответы на заданные вопросы. Покупатели могут быть объединены в кластер, если они имеют сходный возраст, доход, привычки и т.п. Сходство между покупателями основывается на разных измерителях, но часто в качестве меры сходства используется взвешенная сумела квадрата различий между ответами покупателей на вопрос. Выходом алгоритмов кластеризации могут быть иерархические деревья или объединение потребителей в группы. Существует достаточно большое количество кластерных алгоритмов.

Например, в США широко распространен кластерный анализ систем, называемый PRIZM, который начинает кластеризацию, сокращая набор из 1000 возможных социально-демографических показателей. Данная система формирует социально-демографические сегменты для всей территории CШA. Так, выделен кластер 28 - семьи, которые попали в этот кластер, включают лиц с наиболее успешной профессиональной или управленческой карьерой. Этот кластер также отражает высокий доход, образование, собственность, приблизительно средний возраст. Хотя данный кластер представляет только 7% населения США, он является критическим для предпринимателей, продающих дорогие товары.


Существуют другие примеры сегментации потребителей на основе кластерного анализа. Например, среди "психологических" секторов весьма важное место занимает "отношение потребителя к новизне товара" (рис. 3)

Рисунок 3

Как видно из приведенных данных, наибольшее число потребителей относится к числу обычных покупателей.

Сегментация потребителей на основе кластерного анализа является "классическим" методом. В то же время существуют приемы сегментирования рынка на основе так называемой "продуктовой сегментации" или сегментации рынка по параметрам продукции. Она имеет особенно важное значение при выпуске и сбыте новых изделий. Особое значение приобретает сегментация по продукту, базирующаяся на изучении долгосрочных тенденций на рынке. Процесс разработки и производства нового изделия, завершения крупных инвестиционных программ требуют достаточно продолжительного периода, и правильность результатов анализа рынка, оценки его емкости здесь особенно важна. В условиях работы на традиционный рынок стандартной продукции расчет его емкости может быть осуществлен путем использования метода суммирования рынков. В современных условиях для повышения своей конкурентоспособности и правильного определения емкости рынка предприятию уже недостаточно проводить сегментацию рынка только в одном направлении - определение групп потребителей по каким-то признакам. В рамках интегрированного маркетинга необходима еще и сегментация самого изделия по наиболее важным для его продвижения на рынке параметрам. С этой целью используется метод составления функциональных карт - проведение своего рода двойной сегментации, по изделию и потребителю.

Функциональные карты" могут быть однофакторными (сегментация проводится по какому-то одному фактору и для однородной группы изделий) и многогофакторными (анализ того, для каких групп потребителей предназначена конкретная модель изделий и какие ее параметры наиболее важны для продвижения продукции на рынке) С помощью составления функциональных карт можно определить на какой сегмент рынка рассчитано данное изделие, какие его функциональные параметры соответствуют тем или иным запросам потребителей.

При разработке новой продукции данная методика предполагает, что должны учитываться все факторы, отражающие систему потребительских предпочтений, и одновременно технические параметры нового изделия, при помощи которых можно удовлетворить запросы потребителя; определяются группы потребителей, каждая со своим набором запросов и предпочтений; все выбранные факторы ранжируются по степени значимости для каждой из групп потребителей.

Такой подход позволяет уже на стадии разработки увидеть, какие параметры изделия нуждаются в конструкторской доработке, или определить, есть ли достаточно емкий рынок для данной модели.

Приведем пример подобного анализа рынка применительно кразрабатываемому проекту компьютеров "Apple" (Таб. 1) (см. следующую страницу)

Таблица 1." Сегментация рынка персональных компьютеров и факторы, учитываемые при разработке изделий для него (1982) "

Факторы Сегменты рынка по группам потребителей Модель
Дома В школе В вузе В дом. кабинете В мелком бизнесе В корпорации А В
Технические хар-ки * * *** ** ** ** *** **
Цена *** *** ** *** *** ** 0 **
Особые качества * * ** * * * ** *
Надежность ** * * ** ** * 0 **
Удобство в исп-ии ** ** * ** * 0 *** ***
Совместимость 0 0 0 0 0 *** 0 0
Периф-е оборудование 0 0 0 0 0 *** 0 0
Прог-е обеспечение * * ** ** ** *** * **

*** - очень важный фактор

** - важный фактор

* - маловажный фактор

0 - незначительный фактор

Этот несложный анализ показывает, что модель А - компьютер без рынка, а модель В - наиболее подходящий продукт для университетов и мелкого бизнеса.

Компания в свое время поставила на компьютер А и проиграла.

Вообще, в мировой практикеиспользуются 2 принципиальных подхода к маркетинговому сегментированию - (смотри:общая схема сегментного анализа (рис. 4)) (следующая страница)



В рамках первого метода. именуемого "а рriory" предварительно известны признаки сегментирования, численность сегментов, их количество, характеристики, карта интересов. То есть подразумевается, что сегментные группы в данном методе уже сформированы. Метод "а рriory"используют в тех случаях, когда сегментирование не является частью текущего исследования, а служит вспомогательным базисом при решении других маркетинговых задач. Иногда этот метод применяют при очень четкой определенности сегментов рынка, когда вариантность сегментов рынка не высока. "A priory" допустим и при формировании новой продукта, ориентированного на известный сегмент рынка.

В рамках второго метода, именуемого "post hoc (cluster based) подразумевается неопределенность признаков сегментирования и сущности самих сегментов. Исследователь предварительно выбирает ряд интерактивных по отношению к респонденту (метод подразумевает проведение опроса) переменных и далее в зависимости от высказанного отношения к определенной группе переменных, респонденты относятся к соответствующему сегменту. При этом карта интересов, выявленная в процессе последующего анализа, рассматривается как вторичная. Этот метод применяют при сегментировании потребительских рынков, сегментная структура которых не определена в отношении продаваемого продукта.

Сегментирование по методу " a priory "

При выборе количества сегментов, на которое должен быть разбит рынок, обычно руководствуются целевой функцией - определение наиболее перспективного сегмента. Очевидно, излишним при формировании выборки является включение в нее сегментов, чей покупательский потенциал достаточно мал по отношению к исследуемому изделию. Количество сегментов, как показывают исследования, не должно превышать 10, превышение обычно связано с излишней детализацией признаков сегментирования и ведет к ненужному "размыванию" признаков.

Например, при сегментации по уровню дохода рекомендуется разбивка всех потенциальных покупателей на равные по объему сегменты, с учетом того, чтобы объем каждого из сегментов был, по крайней мере, не меньше предполагаемого объема реализации услуг, основанного на знании производственных мощностей предприятия. Наиболее удачным примером, поясняющим вышесказанное и демонстрирующим возможность разбивки потенциальных потребителей на устойчивые сегментные группы, может послужить сегментация населения по признаку дохода, когда все население разбивается на пять 20% групп. Представленное распределение объема доходов по пяти 20% группам населения приводится регулярно в статистических сборниках и сводках, аналогично, представленному в табл. 2

Таблица 2 ."Распределение объема доходов по группам населения. %"

Очевидно удобство работы с такими сегментными группами, особенно в плане отслеживания их емкости.

March 10th, 2015

Выходя с товаром на любой рынок - потребительский, индустриальный - производитель должен понимать, что он не может обслуживать всех его покупателей, даже при условии достаточной производственной мощности. Ведь покупатели по-разному используют этот товар, а главное - покупают его, руководствуясь различными мотивами. Поэтому обычной совершу является разбивка покупателей (сегментация) по этим мотивам и другим признакам и только потом - предложение товара, произведенного с максимальным учетом этих признаков. Идеальным подходом к планированию маркетинговой деятельности с точки зрения удовлетворения потребностей потребителей без преувеличения можно считать приспособления изделий и услуг к требованиям каждого отдельного потребителя.

До 1960 г. по теории и практике бизнеса царила ориентация на агрегированный, массовый рынок. Это объяснялось тем, что, ориентируясь на общий, нераспределенная рынок, фирма-производитель имела возможность производить большое количество товаров и получать эффект экономии на масштабах производства. Но с 60-х гг. Начала приобретать силу тенденция к необходимости различения специфики потребительского спроса, которая находит свое отражение в сегментации рынка сбыта.

В современных условиях усиления конкуренции на рынках сбыта актуализируется проблема необходимости повышения конкурентоспособности отечественной промышленной продукции на внутреннем и внешнем рынках. В этих условиях ключевым вопросом становится поиск резервов снижения себестоимости является экономической основой цены и получения прибыли. В результате значительное количество промышленных предприятий проводит стратегию низких затрат, ориентируясь на различные пути ее реализации: отказ от дорогих сопутствующих услуг; экономия затрат за счет создания более дешевых для производства моделей продукции и тому подобное. Но прямые расходы в значительной степени определяются технологией производства, уровнем загрузки предприятия-товаропроизводителя, а недостаточно использованными остаются возможности снижения управленческих расходов на основе повышения эффективности управления функциональными сферами деятельности предприятий.

Одним из современных инструментариев является снижение затрат на управление и обеспечение повышения качества управления, которое можно интерпретировать как точность прогноза прибыли, рентабельности для каждого кластера (группы промышленных предприятий одинакового вида экономической деятельности) по сравнению с начальной ситуацией, или точность прогноза рентабельности функциональных сфер деятельности этих предприятий является кластерный анализ.

Значение сегментации как эффективного инструментария маркетинговой деятельности объясняется следующими ее особенностями:

ü сегментация является высокоэффективным средством конкурентной борьбы, поскольку она ориентирует на выявление и удовлетворение специфических потребностей потребителей;
ü ориентирует деятельность фирмы на определенную рыночную нишу, особенно это актуально для фирм, которые начинают свою рыночную деятельность;
ü рыночная сегментация помогает более обоснованным определить маркетинговые направления фирмы;
ü с помощью сегментации появляется возможность установить реалистичные маркетинговые цели;
ü удачная сегментация рынка влияет на эффективность маркетинга в целом, начиная с исследования рынка и потребителей к формированию соответствующей системы сбыта и продвижения.

В теории маркетинга возникло понятие S TP -маркетинга . Оно образовано от сокращения первых букв английских слов segmenting (сегментация), targeting (выбор целевого рынка) и positioning (позиционирования). S TP -маркетинг является сердцевиной современного стратегического маркетинга.

Сегментация рынка - это деление потребителей на группы на основе разницы в потребностях, характеристиках или поведении и разработки для каждой из групп отдельного комплекса маркетинга.

Сегмент рынка состоит из потребителей, одинаково реагирующих на один и тот же набор побудительных стимулов маркетинга.

1. Сегментация рынка - этап выделения отдельных групп потребителей в пределах общего рынка.
2. Выбор целевых рынков - среди выделенных сегментов рынка выбираются целевые сегменты, то есть те, на которые фирма ориентировать свою деятельность.
3. Позиционирование - определение товара фирмы среди товаров аналогов.

Конечная цель сегментирования целевого рынка - выбор сегмента (или сегментов) потребителей, на удовлетворение потребностей которого будет ориентирована деятельность фирмы.
Маркетологи считают, что правильное выделение рыночного сегмента - половина коммерческого успеха, и постоянно вспоминают модификацию известного закона Парето (закон 80:20 ).

Методы сегментирования рынка:

· Априорный метод;

· Кластерный метод;

· Метод гибкого сегментирования;

· Метод компонентного сегментирования.

При априорных методах гипотеза сегментации рынка сначала выдвигается, а затем проверяется в ходе маркетинговых исследований. Поэтому данный метод называют априорным, т.е. доопытным. Данный метод сегментации рынка является на сегодня наиболее часто используемым, что обусловлено его относительной простотой, наличием доведенных до практической реализации методик, невысокой стоимостью реализации.

Кластерные методы подразумевают, что структура рынка неизвестна. Они не определяют зависимую переменную, а ищут естественные кластеры, находящиеся в базе данных по потребителям, полученной в ходе маркетинговых исследований. В этом случае сначала производится группировка респондентов из числа потенциальных потребителей с помощью специальной аналитической процедуры в естественные кластеры - сегменты рынка. После этого определяются переменные, с помощью которых можно было бы формально задать рыночный сегмент.

По сравнению с априорной сегментацией, когда сегменты определяются по предполагаемым переменным в начале исследования, и с кластерной сегментацией, когда выбранные сегменты формируются по результатам кластерного анализа, модели гибкой сегментации предлагают динамический подход к проблеме. Используя этот подход, можно разработать и проверить большое количество различных сегментов, каждый из которых включает потребителей или организации со схожим восприятием новых «пробных» продуктов (определенных по конфигурации специфических характеристик товара). Гибкая сегментация объединяет результаты сопряженного анализа и компьютерное моделирование поведения потребителей при выборе товара.

Компонентная сегментация смещает акценты в сегментации рынка на личностные характеристики (описанные набором демографических и психографических характеристик), которым будут лучше соответствовать особенности товара. В покомпонентной сегментации исследователь заинтересован в сопоставлении параметров ценности товара и различных характеристик респондента. Определив эти два набора параметров, исследователь может сделать предложения относительно развития любых возможных свойств товара для любых типов потребителей.

Процесс сегментации рынка

Процесс сегментации происходит в восемь этапов.

Стратегия охвата рынка
Первый этап – выбираем метод сегментации.

Второй этап – проверяем однородность сегмента, т.е. проверяем, одинакова ли реакция потребителя на товар этого сегмента.

Третий этап – проверка уровня дифференциации сегмента, т.е. проверяем для какого количества сегментов рассчитан товар и какого разнообразие товара предлагает организация.

Четвертый этап – оценка уровня доступности сегмента, т.е. нужно оценить располагает ли предприятие достаточным количеством каналов сбыта своей продукции, какова пропускная способность этих каналов, может ли предприятие обеспечить реализацию всего объёма продукции, достаточно ли надёжна система доставки изделий потребителям.

Пятый этап – проверка уровня рентабельности сегмента, т.е. определяется возможная цена продукта при работе на этом сегменте и его себестоимость, учитывая адаптацию продукта для этого сегмента. (Рентабельность ≈ Доходность)

Шестой этап – оценка стабильности сегмента.

Седьмой этап – выбор целевого сегмента.

Восьмой этап – стратегия охвата рынка.

Оценка привлекательности сегментов и понятие целевого рынка

Привлекательность рыночного сегмента устанавливается в согласии с критериями, которые каждая компания определяет самостоятельно.

Не все критерии имеют одинаковую важность и поэтому каждый из них должен быть рассмотрен отдельно. Целью анализа привлекательности является подсчет весовой значимости критерия, который характеризует “притягательность” отдельного продукта.

Целевой рынок – это самая подходящая и выгодная для предприятия группа сегментов рынка (или один сегмент), на которую направлена его деятельность.

Компания должна продвигать те отличия своего товара, которые являются наиболее привлекательными для целевого рынка.

В оценке сегментов рынка учитываются два фактора: (1) общая их привлекательность, а также (2) цели и ресурсы осваивающей его компании.


Критерии оценки привлекательности целевого рынка

1. Размер(емкость) рынка - Под емкостью товарного рынка понимается возможный объем реализации товара (конкретных изделий предприятия) при данном уровне и соотношении различных цен. Емкость рынка характеризуется размерами спроса населения и величиной товарного предложения.

2. Географическое расположение

3. Реальный и потенциальный объем продаж
Реальный объем продаж - количество товаров и услуг, которые организация реально сможет продать при существующих условиях деятельности, предполагаемых затратах на рекламу и уровне цен, который она намерена установить.

Потенциальный объем продаж (предложение) - доля потенциального рынка, которую организация надеется занять и соответственно максимальное количество товаров, на реализацию которых она может рассчитывать при его возможностях.

4. Реальный и потенциальный уровень и интенсивность конкуренции

реальная и потенциальная способность компаний проектировать, производить и сбывать продукцию, которая по своим ценовым и неценовым параметрам более привлекательна, чем продукция конкурентов.

интенсивность конкуренции и, следовательно, уровень конкурентоспособности компании определяются потенциалом рынка; легкостью вхождения на него; видом товара; однородностью рынка; структурой отрасли или конкурентными позициями фирм; возможностями для технологических нововведений и т. д.

5. Возможность охвата рынка

Количество потенциальных торговых точек и центров, через которые будет распространяться товар.

6. Реальный и потенциальные издержки на продвижение

7. Стадия жизненного цикла рынка – т.е это разработка продукта, стадия внедрения, стадия развития (роста), стадия зрелости или стадия спада

8. Тенденции развития рынка, т.е. направление развития, перспективы

9. Дополнительные требования потребителей к товару

10. Реальный и потенциальный уровень цен

11. Ожидание и реальная реакция потребителей на маркетинговые усилия по продвижению продукции

Малые и средние предприятия должны выявить и выбрать от двух до трех ключевых факторов успеха в результате анализа привлекательности каждого сегмента рынка. Критические факторы успеха будут “девизом” компании, и о них необходимо постоянно помнить. Они являются наиболее важными обстоятельствами, которые должны или не должны происходить для того, чтобы компания добилась успеха на рынке конкретной продукции.

Стратегии охвата рынка

Завершив сегментирование, компания должна определить, на какой сегмент следует нацелить свою деятельность. По степени охвата рынка возможны три вида стратегии:

1. Единственный сегмент (концентрированный маркетинг)

фирма концентрирует внимание на большой доле одного или нескольких субрынков. Например, фирма «Фольксваген» сосредоточила свои усилия на рынке малолитражных автомобилей. Благодаря концентрированному маркетингу фирма обеспечивает себе прочную рыночную позицию в обслуживаемых сегментах, поскольку она лучше других знает нужды этих сегментов и пользуется определенной репутацией. Более того, в результате специализации производства, распределения и мер по стимулированию сбыта фирма добивается экономии во многих сферах своей деятельности. Однако эта стратегия связана с повышенным уровнем риска: выбранный сегмент может не оправдать надежд. В связи с этим многие фирмы предпочитают диверсифицировать свою деятельность, охватывая несколько разных сегментов рынка.

Этот подход иногда называют «стратегия ниши», т.к. Это часто делается при ограниченных ресурсах.

2. Несколько сегментов (дифференцированный маркетинг)

К этой стратегии прибегает все большее число фирм.

Предлагая разнообразные товары, фирма надеется добиться роста сбыта и более глубокого проникновения на каждый из осваиваемых ею сегментов рынка. Она рассчитывает, что благодаря упрочению позиции в нескольких сегментах рынка ей удастся идентифицировать в сознании потребителя фирму с данной товарной категорией. Более того, она рассчитывает на рост повторных покупок, поскольку именно товар фирмы соответствует желаниям потребителей, а не наоборот

3. Полный охват рынка (недифференцированный маркетинг)

Большинство профессионалов маркетинга полагают, что возможности использования этой стратегии ограничены.

В этом случае фирма концентрирует усилия не на том, чем отличаются друг от друга нужды клиентов, а на том, что в этих нуждах общего. Она разрабатывает товар и маркетинговую программу, которые покажутся привлекательными возможно большему числу покупателей. Она полагается на методы массового распределения и массовой рекламы. Она стремиться придать товару образ превосходства в сознании людей. В качестве примера недифференцированного маркетинга можно привести действия фирмы «Красный Октябрь», которая несколько лет назад предложила марку шоколада в расчете на всех.

Недифференцированный маркетинг экономичен. Издержки по производству товара, поддержанию его запасов и транспортировке невысоки. Издержки на рекламу при недифференцированном маркетинге также держатся на низком уровне. Отсутствие необходимости в проведении маркетинговых исследований сегментов рынка и планирования в разбивке по этим сегментам способствует снижению затрат на маркетинговые исследования и управление производством товара.

Понятие позиционирования

Позиционированием называется процесс поиска такой рыночной позиции для компании, продукта или услуги, которая будет выгодно отличать ее (его) от положения конкурентов. Позиционирование осуществляется с учетом конкретной целевой группы потребителей, для которой создаются и предлагаются преимущества и уникальность. Без ясного представления о том, на что направлена позиция, очень сложно, даже почти невозможно, согласовать решения маркетинга. Определение конкурентного позиционирования часто диктует наиболее эффективные комбинации инструментов маркетинга.
Подведя итог, можно сказать, что позиционирование – это маркетинговая стратегия на создание прочной связи вашего бренда (товара или компании) с определенными ассоциациями, а лучше – выгодами.

Таким образом, позиционирование предполагает:
- создание в голове потребителя стойкой ассоциации товара или фирмы с определенным местом на рынке,
- поддержание ассоциации (выбранной позиции) в долгосрочной перспективе.

Позиция товара на рынке - место, занимаемое данным товаром в сознании потребителей по сравнению с аналогичными конкурирующими товарами с точки зрения потребителя.
Стратегия позиционирования – это комплекс мероприятий, направленных на донесение концепции позиционирования до потребителей. Позиционирование существует лишь в сознании потребителя.
- Стратегия предложения товара (услуг)
- Стратегия ценообразования
- Стратегия распределения товара
- Стратегия продвижения товара(услуг)
Ограничение позиционирования
- Целевой рынок
- Реальные и потенциальные конкуренты
- Стратегия компании

Перепозиционирование - изменения позиции товара или услуги в маркетинге и рекламе, когда им придается новый имидж, определяется др. целевая аудитория, меняются аргументы продаж и рекламного информирования, упаковка и т.д.
Причины перепозиционирования:
- Сомнительное позиционирование
- Недопозиционирование
- Невнятное позиционирование
- Бесполезное позиционирование
- Сверхпозиционирование

Месту жительства и т. д. Из этого должно быть понятно, что сегментом рынка явля

ется группа потребителей, которые в некоторых отношениях ведут себя на рынке одинаково.

Сегментирование рынка, в свою очередь, распадается на ряд этапов.

  • 2. Выбор сегмента рынка, заключается в том, что каждый из сегментов оценивается с точки зрения его привлекательности (способности принести предприятию желаемый результат). На основании этих оценок и выбирается наиболее привлекательный сегмент (или сегменты).
  • 3. Наконец, третий этап - это позиционирование товара. После того как сегмент рынка выбран, необходимо задуматься о том, как будет представлен на рынке товар, который предлагает на рынке предприятие. Кроме того, необходимо также разработать детальный комплекс маркетинга. Именно эти задачи решаются на этом этапе.

В маркетинге было выделено несколько признаков, которые позволяют повысить эффективность сегментирования. Эти признаки касаются не потребителей, а самих сегментов.

  • 1. Сегмент должен быть значимым. Это означает, что признак, который лежит в основании сегментирования, должен хотя бы в какой-то степени корректировать с поведением потребителей. Так, наличие избыточного веса имеет значение с точки зрения того, сколько человек потребляет хлеба, или имеет ли он проблемы с приобретением одежды. Однако вряд ли этот признак значим в связи с тем, какие косметические средства он использует.
  • 2. Рыночный сегмент должен быть достаточно значительным по размеру, чтобы быть в состоянии приносить прибыль, которая необходима для успешной деятельности фирмы. Если сегмент слишком мал с этой точки зрения, разработка и реализация ориентированной на него маркетинговой программы просто не имеет смысла.
  • 3. Сегмент должен быть измеримым. Это означает, что признак, который лежит в основании сегментирования, должен обеспечивать возможность четкого и однозначного отделения группы потребителей от других их групп. Примером измеримого признака может служить возраст. Мы всегда можем без труда разбить всех потребителей на группы в зависимости от значения, которое принимает данная переменная.

Примером не в полной мере измеримого признака также может служить, как это ни странно, частота потребления товара, предпочтения потребителей в некоторых случаях могут быть крайне изменчивыми. Гораздо более надежным признаком с этой точки зрения оказывается приверженность к марке: даже если потребитель покупает товар не часто, он всегда будет выбирать только одну марку, отказываясь от всех остальных.

Здесь следует учитывать и то, будет ли опрашиваемый искренним, отвечая на вопрос исследователя. С этой точки зрения, плохо измеримыми являются признаки типа сексуальной ориентации. Хотя степень терпимости нашего общества к сексуальным меньшинствам постоянно растет (а это признак любого достаточно развитого общества), далеко не каждый представитель этих меньшинств решится открыто заявить о своей сексуальной ориентации.

3. Сегмент должен быть доступным. Эта качество предполагает не только доступность для исследования, но и доступность дополнительной информации. Если можно ожидать, что предприятие сможет воздействовать на сегмент рывка при помощи имеющихся в его распоряжении средств и затем оценить свое воздействие, сравнив исходное состояние с состоянием после воздействия, сегмент можно считать доступным. Понятно, что это возможно только в том случае, если имеется доступ к информации.

В практике маркетинга наиболее часто используются три метода сегментирования: выделение групп, многофакторное последовательное сегментирование с зависимой переменной и кластерный анализ. Этот список не исчерпывает всех возможных методов сегментирования, однако его вполне достаточно для того, чтобы составить общее представление об этой процедуре и связанных с ней сложностях.

1. Самый простой способ сегментирования - это деление рынка на традиционно выделяемые в маркетинге и социологии группы на основании тех признаков, которые были перечислены выше. В этом случае просто предполагается, что группы потребителей, выделенные на основании таких признаков, как пол, возраст или профессия, характеризуются достаточно стандартным набором потребностей и моделей поведения.

Этот способ наиболее уместен в случае выбора новой сферы деятельности, например, в том случае, когда предприятие только начинает действовать на рынке или решает выйти на новый рынок.

Недостатком этого метода сегментирования является то, что он базируется на предположениях, гипотезах. Деление потребителей на основании возраста, пола, профессии, уровня дохода или социального положения - традиционно для маркетинговых исследований, однако совершенно не очевидно, что именно данные переменные связаны с процессом «доведения» потребителей. Другими словами, далеко не всегда можно утверждать, что активность потребителей напрямую зависит, например, от их возраста. Следовательно, прибегая к такому сегментированию, маркетолог избирает произвольные и недостаточно веские основания для выделения сегментов.

При сегментировании рынка необходимо иметь в виду, что признаки, лежащие в основе выделения тех или иных групп, обладают разной важностью. С одной стороны, можно говорить о признаках, которые имеют непосредственное отношение к целям предприятия. Таким признаком будет, например, готовность приобретать новый продукт, который обладает совокупностью определенных качеств: на этом основании мы можем выделить группу потребителей, которые готовы делать это, и группу потребителей, которые не готовы к этому.

Поскольку предприятие заинтересовано в реализации товара, этот параметр имеет непосредственное отношение к его целям. С другой стороны, есть менее значимые параметры, которые не находятся с целями предприятия в такой же тесной связи. Примером такого признака может быть возраст. Так, тот или иной товар может быть предназначен для возрастной категории людей после 30 лет. Но это еще не означает, что каждый человек, которому больше тридцати, купит этот товар. Следовательно, возраст как параметр сегментации в меньшей степени связан с непосредственными целями предприятия.

Если число действительно значимых факторов очень велико, их можно сократить при помощи так называемого факторного анализа. Он предполагает выделение групп связанных признаков (параметров), которые объединяются в один признак. Так, например, уровень доходов находится в тесной связи с величиной дома, наличием автомобиля, количеством туристических поездок, посещением заведений вроде ресторанов и клубов, а потому эти признаки могут быть объединены в один.

Целесообразно дать этому признаку какое-то наименование. В нашем случае мы могли бы назвать новый признак «величиной дохода», но толковать его расширительно, не только как сумму денег, которую человек получает за месяц или год. Аналогично можно но связать уровень дохода, род занятий и образование, уровень дохода и политические предпочтения и т. д.

2. Многофакторное последовательное сегментирование с учетом зависимой переменной наиболее уместно, когда компания уже имеет опыт работы на рынке. В этом случае сегментирование направлено на выявление наиболее предпочтительного сегмента рынка с точки зрения уже имеющихся результатов.

Поскольку основным результатом, к которому стремится фирма, является извлечение максимальной прибыли, в качестве зависимой переменной в этом случае может быть избран, например, доход компании. Именно на этот аспект направлено предварительное сегментирование: необходимо выделить группы потребителей, которые с точки зрения предприятия приносят ему наибольший доход.

Понятно, что нижний предел дохода определяется в целом субъективно и представляет собой компромисс между реальным и желательным положением. Условно можно выделить, например, три группы: потребителей, которые приносят большой доход, потребителей, которые приносят средний (удовлетворительный) доход, и потребителей, которые приносят слишком маленький доход.

Второй этап сегментирования - выявление второй переменной, которая наиболее тесно связана с первой переменной. В качестве такой переменной обычно выступает:

  • а) частота использования товара или услуги, продаваемых фирмой;
  • б) уровень дохода, приносимого потребителем фирме;
  • в) приверженность потребителя к марке. Допустим, при маркетинговых исследованиях выясняется, что наибольший доход компании приносят люди от 25 до 33 лет. Следовательно, всех потребителей следует разделить, по меньшей мере, на три группы: 1) до 25 лет; 2) с 25 до 33 лет и 3) старше 33 лет.

Дальнейшему сегментированию при использовании этого метода подвергается уже только наиболее доходный сегмент рынка. В нашем случае это категория потребителей возрастом от 25 до 33 лет. На последующих этапах опять находятся основания для сегментации, которые в наибольшей степени связаны с уровнем доходности.

Пределом деления в этом случае является сегмент, который должен обладать следующими качествами:

  • 1) принадлежащие к нему потребители приносят фирме наибольший доход (например, доход, получаемый фирмой, в этом сегменте, составляющем только 20% рынка, составляет 70% от всего дохода);
  • 2) сегмент должен быть не полностью освоен;
  • 3) он должен быть достаточно большим, чтобы имело смысл вкладывать средства в его дополнительное освоение;
  • 4) дальнейшее деление сегмента должно быть невозможно (это предпочтительный признак).

Достоинством этого метода сегментирования является то, что в его основе лежат наиболее существенные переменные. Этот метод имеет и недостатки. Прежде всего, он не позволяет учесть взаимодействие между разными переменными. Кроме того, достаточно быстро выделяемые при его помощи сегменты оказываются слишком маленькими. В то же время в целом этот метод достаточно продуктивен.

При его использовании видно, какие сегменты действительно являются наиболее предпочтительными, какие могут такими быть, а от освоения каких вообще следует отказаться. В частности, использование этого метода позволяет сформулировать весьма реальные задачи, например, повышение дохода, получаемого от той или иной группы потребителей. Наконец, он позволяет выявить слабые места в деятельности фирмы.

3. В отличие от двух предыдущих методов сегментирования, при которых маркетолог начинает анализ рынка со всей совокупности потребителей и постепенно делит их на группы, при кластерном анализе направление обратное: анализ начинается с отдельных потребителей. По этой причине кластерный анализ требует, чтобы в распоряжении маркетолога были данные о достаточно большом количестве реальных потребителей, как правило, их число должно составлять не менее 200 человек.

Кластерный анализ включает несколько шагов.

  • 1) Сначала маркетолог произвольно выбирает одного потребителя и начинает искать другого, который будет на него максимально похож с точки зрения известных параметров. Когда два таких потребителя найдены, они объединяются в кластер. Аналогичным образом выделяются другие кластеры.
  • 2) Следующий шаг - объединение отдельных потребителей и их групп в более широкие общности. Следует иметь в виду, что в кластеры могут объединяться как отдельные потребители или уже выделенные кластеры, так и потребитель и кластер. Объединение проводится до тех пор, пока не будет получено более или менее удовлетворительное количество кластеров, т. е. сегментов, которые по своему объему соответствуют интересам предприятия.
  • 3) Контроль за правильностью выделения кластеров заключается в том, что маркетолог проводит сегментирование второй раз и проверяет, можно ли получить то же самое сегментирование при использовании других мер сходства. Результаты основного и контрольного сегментирования на основе кластерного анализа сопоставляются, после чего в основное сегментирование вносятся коррективы.

Несомненным достоинством этого метода является то, что он позволяет исходить из конкретных данных о потребителях. Маркетолог, использующий этот метод, в меньшей степени рискует избрать параметр для сегментирования, который в действительности будет малозначимым.

Недостаток этого метода состоит в том, что при его использовании могут быть выделены кластеры, которые в действительности не существуют. Это означает, что полученные группы потребителей в действительности не будут характеризоваться одинаковым поведением. Именно поэтому различные процедуры контроля должны быть обязательной составной частью кластерного анализа.

Позиционирование товара на рынке представляет собой направление маркетинговой деятельности по выбору целевых рынков, предполагающее анализ элементов комплекса маркетинга и позиций продуктов на выделенных сегментах рынка с целью выявления тех параметров, которые способствуют завоеванию конкурентных преимуществ.

Если все предприятия будут выпускать одни и те же продукты с одинаковыми характеристиками, использовать одни и те же методы продвижения и доставки продукта, оказывать аналогичные сервисные услуги, то для потребителей они все будут одинаковыми.

Важно при этом учитывать ту позицию, которую занимает продукт на рынке в настоящее время. Позиция продукта - мнение потребителей по важнейшим параметрам продукта. Она характеризует место, занимаемое конкретным продуктом в умах потребителей по отношению к продукту конкурентов. В отличие от имиджа продукта, являющегося в большей степени эмоциональной характеристикой, позиция продукта формируется, как правило, на основе количественно измеряемых параметров (доля рынка, характеристики продукта, цена и др.).

  • Выбор сегмента рынка предполагает определенную процедуру, состоящую из трех этапов.
  • Сегментирование рынка в собственном, узком смысле этогослова - выделение групп потребителей, которые различаются посвоим потребностям, финансовым возможностям, привычкам,

Я работаю в индустрии почтового маркетинга для сайта под названием MailChimp.com. Мы помогаем клиентам делать новостную рассылку для своей рекламной аудитории. Каждый раз, когда кто-нибудь называет нашу работу «почтовым вбросом», я чувствую на сердце неприятный холод.

Почему? Да потому что адреса электронной почты - больше не черные ящики, которые вы забрасываете сообщениями, будто гранатами. Нет, в почтовом маркетинге (как и в других формах онлайн-контакта, включая твиты, посты в Facebook и кампании на Pinterest) бизнес получает сведения о том, как аудитория вступает в контакт на индивидуальном уровне, с помощью отслеживания кликов, онлайн-заказов, распространения статусов в социальных сетях и т. д. Эти данные - не просто помехи. Они характеризуют вашу аудиторию. Но для непосвященного эти операции сродни премудростям греческого языка. Или эсперанто.

Как вы собираете данные об операциях с вашими клиентами (пользователями, подписчиками и т. д.) и используете ли их данные, чтобы лучше понять свою аудиторию? Когда вы имеете дело с множеством людей, трудно изучить каждого клиента в отдельности, особенно если все они по-разному связываются с вами. Даже если бы теоретически вы могли достучаться до каждого лично, на практике это вряд ли осуществимо.

Нужно взять клиентскую базу и найти золотую середину между «бомбардировкой» наобум и персонализированным маркетингом для каждого отдельного покупателя. Один из способов достичь такого баланса - использование кластеризации для сегментирования рынка ваших клиентов, чтобы вы могли обращаться к разным сегментам вашей клиентской базы с различным целевым контентом, предложениями и т. д.

Кластерный анализ - это сбор различных объектов и разделение их на группы себе подобных. Работая с этими группами - определяя, что у их членов общего, а что отличает их друг от друга - вы можете многое узнать о беспорядочном имеющемся у вас массиве данных. Это знание поможет вам принимать оптимальные решения, причем на более детальном уровне, нежели раньше.

В этом разрезе кластеризация называется разведочной добычей данных, потому что эти техники помогают «вытянуть» информацию о связях в огромных наборах данных, которые не охватишь визуально. А обнаружение связей в социальных группах полезно в любой отрасли - для рекомендаций фильмов на основе привычек целевой аудитории, для определения криминальных центров города или обоснования финансовых вложений.

Одно из моих любимых применений кластеризации - это кластеризация изображений: сваливание в кучу файлов изображений, которые «выглядят одинаково» для компьютера. К примеру, в сервисах размещения изображений типа Flickr пользователи производят кучу контента и простая навигация становится невозможной из-за большого количества фотографий. Но, используя кластерные техники, вы можете объединять похожие изображения, позволяя пользователю ориентироваться между этими группами еще до подробной сортировки.

Контролируемое или неконтролируемое машинное обучение?

В разведочной добыче данных вы, по определению, не знаете раньше времени, что же за данные вы ищете. Вы - исследователь. Вы можете четко объяснить, когда двое клиентов выглядят похожими, а когда разными, но вы не знаете лучшего способа сегментировать свою клиентскую базу. Поэтому «просьба» к компьютеру сегментировать клиентскую базу за вас называется неконтролируемым машинным обучением, потому что вы ничего не контролируете - не диктуете компьютеру, как делать его работу.

В противоположность этому процессу, существует контролируемое машинное обучение, которое появляется, как правило, когда искусственный интеллект попадает на первую полосу. Если я знаю, что хочу разделить клиентов на две группы - скажем, «скорее всего купят» и «вряд ли купят» - и снабжаю компьютер историческими примерами таких покупателей, применяя все нововведения к одной из этих групп, то это контроль.

Если вместо этого я скажу: «Вот что я знаю о своих клиентах и вот как определить, разные они или одинаковые. Расскажи-ка что-нибудь интересненькое», - то это отсутствие контроля.

В данной главе рассматривается самый простой способ кластеризации под названием метод k-средних, который ведет свою историю из 50-х годов и с тех пор стал дежурным в открытии знаний из баз данных (ОЗБД) во всех отраслях и правительственных структурах.

Метод k-средних - не самый математически точный из всех методов. Он создан, в первую очередь, из соображений практичности и здравого смысла - как афроамериканская кухня. У нее нет такой шикарной родословной, как у французской, но и она зачастую угождает нашим гастрономическим капризам. Кластерный анализ с помощью k-средних, как вы вскоре убедитесь, - это отчасти математика, а отчасти - экскурс в историю (о прошлых событиях компании, если это сравнение относится к методам обучения менеджменту). Его несомненным преимуществом является интуитивная простота.

Посмотрим, как работает этот метод, на простом примере.

Девочки танцуют с девочками, парни чешут в затылке

Цель кластеризации методом k-средних - выбрать несколько точек в пространстве и превратить их в k группы (где k - любое выбранное вами число). Каждая группа определена точкой в центре вроде флага, воткнутого в Луну и сигнализирующего: «Эй, вот центр моей группы! Присоединяйтесь, если к этому флагу вы ближе, чем к остальным!» Этот центр группы (с официальным названием кластерный центроид) - то самое среднее из названия метода k-средних.

Вспомним для примера школьные танцы. Если вы сумели стереть ужас этого «развлечения» из своей памяти, я очень извиняюсь за возвращение таких болезненных воспоминаний.

Герои нашего примера - ученики средней школы Макакне, пришедшие на танцевальный вечер под романтическим названием «Бал на дне морском», - рассеяны по актовому залу, как показано на рис. 1. Я даже подрисовал в Photoshop паркет, чтобы было легче представить ситуацию.

Рис. 1. Ученики средней школы Макакне расположились в актовом зале

А вот примеры песен, под которые эти юные лидеры свободного мира будут неуклюже танцевать (если вдруг вам захочется музыкального сопровождения, к примеру, на Spotify):

  • Styx: Come Sail Away
  • Everything But the Girl: Missing
  • Ace of Base: All that She Wants
  • Soft Cell: Tainted Love
  • Montell Jordan: This is How We Do It
  • Eiffel 65: Blue

Теперь кластеризация по k-средним зависит от количества кластеров, на которое вы желаете поделить присутствующих. Давайте остановимся для начала на трех кластерах (далее в этой главе мы рассмотрим вопрос выбора k). Алгоритм размещает три флажка на полу актового зала некоторым допустимым образом, как показано на рис. 2, где вы видите 3 начальных флажка, распределенных по полу и отмеченных черными кружками.

Рис. 2. Размещение начальных центров кластеров

В кластеризации методом k-средних танцоры привязаны к ближайшему для них кластерному центру, так что между двумя любыми центрами на полу можно нарисовать демаркационную линию. Таким образом, если танцор находится на одной стороне линии, он принадлежит к одной группе, если по другую сторону - то уже к другой (как на рис. 3).

Рис. 3. Линии отмечают границы кластеров

Используя эти демаркационные линии, разделим танцоров на группы и раскрасим соответствующим образом, как на рис. 4. Эта диаграмма, разделяющая пространство на многоугольники, определенные близостью к тому или иному кластерному центру, называется диаграммой Вороного.

Рис. 4. Группировка по кластерам, отмеченным разными фоновыми узорами на диаграмме Вороного

Посмотрим на наше первоначальное разделение. Что-то не так, не правда ли? Пространство разделено довольно странным образом: нижняя левая группа осталась пустой, а на границе верхней правой группы, напротив, много людей.

Алгоритм кластеризации методом k-средних перемещает кластерные центры по полу, пока не достигнет наилучшего результата.

Как определить «наилучший результат»? Каждый присутствующий отстоит на сколько-то от своего кластерного центра. Чем меньше среднее расстояние от участников до центра их группы, тем лучше результат.

Теперь вводим слово «минимизация» - оно вам очень пригодится в оптимизации модели для лучшего расположения кластерных центров. В данной главе вы будете заставлять «Поиск решения» передвигать кластерные центры бессчетное количество раз. Способ, который использует «Поиск решения» для нахождения наилучшего расположения кластерных центров, - это медленное итеративное перемещение их по поверхности с фиксацией лучших найденных результатов и комбинированием их (буквально спариванием, как скаковых лошадей) для нахождения наилучшего положения.

Так что если диаграмма на рис. 4 выглядит довольно бледно, «Поиск решения» может внезапно расположить центры как на рис. 5. Таким образом среднее расстояние между каждым танцором и его центром немного уменьшится.

Рис. 5. Слегка смещаем центры

Очевидно, что рано или поздно «Поиск решения» поймет, что центры должны быть размещены в середине каждой группы танцоров, как показано на рис. 6.

Рис. 6. Оптимальная кластеризация на школьных танцах

Отлично! Вот так выглядит идеальная кластеризация. Кластерные центры находятся в центре каждой группы танцоров, минимизируя среднее расстояние между танцором и ближайшим центром. Теперь, когда кластеризация закончена, время перейти к развлекательной части, а именно: попытке понять, что же эти кластеры означают.

Если вы узнали цвет волос танцоров, их политические предпочтения или время преодоления ими стометровки, то кластеризация не имеет особого смысла.

Но решив определить возраст и пол присутствующих, вы начнете видеть некоторые общие тенденции. Небольшая группа внизу - это пожилые люди, скорее всего сопровождающие. Группа слева вся состоит из мальчиков, а группа справа - из девочек. И все очень боятся танцевать друг с другом.

Таким образом, метод k-средних позволил вам разделить множество посетителей танцев на группы и скоррелировать характеристики каждого посетителя с принадлежностью к определенному кластеру, чтобы понять причину разделения.

Теперь вы наверняка говорите себе: «Да ладно, что за глупости. Я уже до начала знал ответ». Вы правы. В этом примере - да. Я специально привел такой «игрушечный» пример, будучи уверенным, что вы можете решить его, просто взглянув на точки. Действие происходит в двумерном пространстве, в котором кластеризация производится элементарно с помощью глаз.

Но что, если вы держите магазин, реализующий тысячи товаров? Некоторые покупатели совершили одну или две покупки за последние два года. Другие - десятки. И каждый покупал что-то свое.

Как вы кластеризируете их на таком «танцполе»? Начнем с того, что этот танцпол не двумерный, и даже не трехмерный. Это тысячемерное пространство реализации товара, в котором покупатель приобрел или не приобрел товар в каждом измерении. Видите, как быстро проблема кластеризации начинает выходить за пределы способностей «глазного яблока первого разряда», как любят говорить мои друзья-военные.

Реальная жизнь: кластеризация методом k-средних в электронном маркетинге

Давайте перейдем к более предметному случаю. Я занимаюсь электронным маркетингом, поэтому приведу пример из жизни Mailchimp.com, в которой работаю. Этот же самый пример будет работать и на данных о розничной торговле, преобразовании рекламного трафика, социальных сетей и т. д. Он взаимодействует практически с любым типом данных, связанных с донесением до клиентов рекламного материала, после чего они безоговорочно выбирают вас.

Оптовая Винная Империя Джоуи Бэг О"Донатса

Представьте на минуту, что вы живете в Нью-Джерси, где держите Оптовую Винную Империю Джоуи Бэг О"Донатса. Это импортно-экспортный бизнес, целью которого является доставка огромного количества вина из-за границы и продажи его определенным винным магазинам по всей стране. Этот бизнес работает таким образом, что Джоуи путешествует по всему миру в поисках невероятных сделок с большим количеством вина. Он отправляет его к себе в Джерси, а пристроить присланное в магазины и получить прибыль - ваша забота.

Вы находите покупателей разными способами: страница на Facebook, аккаунт в Twitter, порой даже прямая рассылка - ведь электронные письма «раскручивают» большинство видов бизнеса. В прошлом году вы отправляли одно письмо в месяц. Обычно в каждом письме описываются две или три сделки, скажем, одна с шампанским, а другая с мальбеком. Некоторые сделки просто удивительны - скидка составляет 80% или больше. В итоге вы заключили около 32 сделок за год и все они прошли более-менее гладко.

Но то, что дела идут просто хорошо, не значит, что они не могут идти лучше. Было бы нелишне чуть глубже понять мотивы своих покупателей. Конечно, взглянув на конкретный заказ, вы видите, что некий Адамс купил сколько-то игристого в июле с 50%-ной скидкой, но не можете определить, что подвигло его на покупку. Понравился ли ему минимальный объем заказа в одну коробку с шестью бутылками или цена, которая еще не поднялась до своего максимума?

Было бы неплохо иметь возможность разбить список клиентов на группы по интересам. Тогда вы бы могли отредактировать письма к каждой группе отдельно и, возможно, раскрутили бы бизнес еще больше. Любая подходящая данной группе сделка могла стать темой письма и идти в первом абзаце текста. Такой тип целевой рассылки может вызвать форменный взрыв продаж!

Есть возможность дать компьютеру сделать работу за вас. Используя кластеризацию методом k-средних, вы можете найти наилучший вариант разбиения на группы, а затем попытаться понять, почему же он лучший.

Исходный набор данных

Документ Excel, который мы будем разбирать в этой главе, находится на сайте книги. В нем содержатся все исходные данные на случай, если вам захочется поработать с ними. Или же вы можете просто следить за текстом, подглядывая в остальные листы документа.

Для начала у вас есть два интересных источника данных:

  • метаданные по каждому заказу сохранены в электронной таблице, включая сорт, минимальное количество вина в заказе, скидку на розничную продажу, информацию о том, пройден ли ценовой максимум, и о стране происхождения. Эти данные размещены во вкладке под названием OfferInformation, как показано на рис. 7;
  • зная, кто из клиентов что заказывает, вы можете вытряхнуть эту информацию из MailChimp и скормить электронной таблице с метаданными предложений во вкладке «Transactions». Это переменные данные, представленные, как показано на рис. 8, очень просто: покупатель и его заказ.

Рис. 7. Детали последних 32 заказов

Рис. 8. Список количества заказов по покупателям

Определяем предмет измерений

И вот задача. В проблеме школьных танцев измерение расстояния между присутствующими и определение кластерных центров были несложными, не так ли? Достаточно просто найти подходящую рулетку! Но что делать сейчас?

Вы знаете, что в прошлом году было 32 предложения сделок и у вас есть список из 324 заказов в отдельной вкладке, разбитый по покупателям. Но чтобы измерить расстояние от каждого покупателя до кластерного центра, вы должны поместить их в это 32-сделочное пространство. Иначе говоря, вам нужно понять, что за сделки они не совершили, и создать матрицу сделок по покупателям, в которой каждый клиент получает свой собственный столбец с 32 ячейками сделок, заполненные единицами, если сделки были совершены, и нулями, если нет.

Другими словами, вам нужно взять эту ориентированную по строкам таблицу сделок и превратить ее в матрицу, в которой клиенты располагаются по вертикали, а предложения - по горизонтали. Лучшим способом ее создать являются сводные таблицы.

Алгоритм действия: на листе с переменными данными выделите столбцы А и В, а затем вставьте сводную таблицу. Используя Мастер создания сводных таблиц, просто выберите сделки как заголовок строки, а покупателей как заголовок столбца и заполните таблицу. В ячейке будет 1, если пара «клиент-сделка» существует, и 0, если нет (в данном случае 0 отображается как пустая ячейка). В результате получается таблица, показанная на рис. 9.

Рис. 9. Сводная таблица «клиент-сделка»

Теперь, когда у вас есть информация о заказах в формате матрицы, скопируйте лист OfferInformation и назовите его Matrix. В этот новый лист вставьте значения из сводной таблицы (не нужно копировать и вставлять номер сделки, потому что он уже содержится в информации о заказе), начиная со столбца Н. В итоге у вас должна получиться расширенная версия матрицы, дополненная информацией о заказах, как на рис. 10.

Рис. 10. Описание сделок и данные о заказах, слитые в единую матрицу

Стандартизация данных

В этой главе каждое измерение ваших данных представлено одинаково, в виде бинарной информации о заказах. Но во многих ситуациях, связанных с кластеризацией, мы не можем так сделать. Вообразите сценарий, в котором люди кластеризованы по росту, весу и зарплате. Все эти три вида данных имеют разную размерность. Рост может варьироваться от 1,5 до 2 метров, в то время как вес - от 50 до 150 кг.

В этом контексте измерение расстояния между покупателями (как между танцорами в актовом зале) становится запутанным делом. Поэтому принято стандартизировать каждый столбец с данными, вычитая среднее и затем деля поочередно на меру разброса под названием среднеквадратичное отклонение. Таким образом, все столбцы приводятся к единой величине, количественно варьируясь около 0.

Начнем с четырех кластеров

Ну что ж, теперь все ваши данные сведены к единому удобному формату. Чтобы начать кластеризировать, нужно выбрать k - количество кластеров в алгоритме k-средних. Зачастую метод k-средних применяется так: берется набор различных k и проверяется по одному (как их выбирать, я объясню позже), но мы только начинаем - так что выберем лишь одно.

Вам понадобится количество кластеров, которое примерно подходит для того, чем вы хотите заняться. Вы явно не намерены создавать 50 кластеров и рассылать 50 целевых рекламных писем паре ребят из каждой группы. Это моментально лишает смысла наше упражнение. В нашем случае нужно что-то небольшое. Начните этот пример с 4 - в идеальном мире вы, возможно, разделили бы ваш список клиентов на 4 понятные группы по 25 человек в каждой (что в реальности маловероятно).

Итак, если придется разделить покупателей на 4 группы, как наилучшим образом их подобрать?

Вместо того чтобы портить симпатичный лист Matrix, скопируйте данные в новый лист и назовите его 4МС. Теперь вы можете вставить 4 столбца после ценового максимума в столбцы от Н до К, которые будут кластерными центрами. (Чтобы вставить столбец, кликните правой клавишей мышки на столбце Н и выберите «Вставить». Столбец появится слева.) Назовите эти кластеры от Cluster 1 до Cluster 4. Вы также можете применить на них условное форматирование, и когда бы вы ни установили их, вы сможете увидеть, насколько они отличаются.

Лист 4МС появится, как показано на рис. 11.

Рис. 11. Пустые кластерные центры, помещенные на лист 4МС

В данном случае все кластерные центры - нули. Но технически они могут быть какими угодно и, что вам особенно понравится - как на школьных танцах, распределены таким образом, что минимизируют расстояние между каждым покупателем и его кластерным центром.

Очевидно, что тогда эти центры будут иметь значения от 0 до 1 для каждой сделки, так как все клиентские векторы бинарны.

Но что означает «измерить расстояние между кластерным центром и покупателем»?

Евклидово расстояние: измерение расстояний напрямик

Для каждого клиента у вас есть отдельный столбец. Как же измерить расстояние между ними? В геометрии это называется «кратчайший путь», а расстояние, получаемое в результате, - евклидовым расстоянием.

Вернемся ненадолго в актовый зал и попробуем понять, как решить нашу проблему там.

Поместим координатные оси на полу и на рис. 12 увидим, что в точке (8,2) у нас танцор, а в (4,4) - кластерный центр. Чтобы рассчитать евклидово расстояние между ними, придется вспомнить теорему Пифагора, с которой вы знакомы еще со школьной скамьи.

Рис. 12. Танцор в точке (8,2) и кластерный центр в (4,4)

Эти две точки находятся в 8 - 4 = 4 метрах друг от друга по вертикали и в 4 - 2 = 2 метрах по горизонтали. По теореме Пифагора, квадрат расстояния между двумя точками равен 4Л2+2Л2 = 20 метрам. Отсюда мы вычисляем само расстояние, которое будет равно квадратному корню из 20, что составляет примерно 4,47м (как на рис. 13).

Рис. 13. Евклидово расстояние равняется квадратному корню из суммы расстояний в каждом направлении

В контексте подписчиков на рассылку у вас больше двух измерений, но применима та же концепция. Расстояние между покупателем и кластерным центром рассчитывается путем определения разниц между двумя точками для каждой сделки, возведения их в квадрат, сложения и извлечения квадратного корня. К примеру, на листе 4МС вы хотите узнать евклидово расстояние между центром кластера 1 в столбце Н и заказами покупателя Адамса в столбце L.

В ячейке L34, под заказами Адамса, можно вычислить разницу между вектором Адамса и кластерным центром, возвести ее в квадрат, сложить и затем извлечь корень, используя следующую формулу для массивов (отметьте абсолютные ссылки, позволяющие вам перетаскивать эту формулу вправо или вниз без изменения ссылки на кластерный центр):


{=КОРЕНЬ(СУММА(L$2:L$33-$H$2:$H$33)A2))}

Формулу для массивов (введите формулу и нажмите Ctrl+Shift+Enter или Cmd+Return в MacOS, как сказано в главе 1) нужно использовать, потому что ее часть (L2:L33-H2:H33)^2 должна «знать», куда обращаться для вычисления разниц и возведения их в квадрат, шаг за шагом. Однако результат в итоге - единственное число, в нашем случае 1,732 (как на рис. 14). Он имеет следующий смысл: Адамс заключил три сделки, но так как изначальные кластерные центры - нули, ответ будет равняться квадратному корню из 3, а именно 1,732.

Рис. 14. Расстояние между центром 1 кластера и Адамсом

В электронной таблице на рис. 2-14 я закрепил верхнюю строку (см. главу 1) между столбцами G и Н и назвал строку 34 в ячейке G34 «Distance to Cluster 1», просто чтобы видеть, что где находится, если проматывать страницу вниз.

Расстояния и принадлежность к кластеру для всех!

Теперь вы знаете, как вычислить расстояние между вектором заказа и кластерным центром.

Пришло время добавить Адамсу расчет расстояний до остальных кластерных центров, перетянув ячейку L34 вниз на L37, а затем изменив вручную ссылку на кластерный центр со столбца Н на столбец I, J и К в ячейках ниже. В результате должны получиться следующие 4 формулы в L34:L37:

{=SQRT(SUM((L$2:L$33-$H$2:$H$33)A2))}
{=SQRT(SUM((L$2:L$33-$I$2:$I$33)A2))}
{=SQRT(SUM((L$2:L$33-$J$2:$J$33)A2))}
{=SQRT(SUM((L$2:L$33-$K$2:$K$33)A2))}
{=КОРЕНЬ(СУММА((L$2:L$33-$H$2:$H$33)A2))}
{=КОРЕНЬ(СУММА((L$2:L$33-$I$2:$I$33)A2))}
{=КОРЕНЬ(СУММА((L$2:L$33-$J$2:$J$33)A2))}
{=КОРЕНЬ(СУММА((L$2:L$33-$K$2:$K$33)A2))}

Так как вы использовали абсолютные ссылки для кластерных центров (ведь значок $ в формулах обозначает именно это, как было сказано в главе 1), можно перетащить L34:L37 в DG34:DG37, чтобы рассчитать расстояние от каждого покупателя до всех четырех кластерных центров. Озаглавьте строки в столбце G в ячейках с 35 по 37 «Distance to Cluster 2» и т. д. Свежерассчитанные расстояния показаны на рис. 15.

Рис. 15. Расчет расстояний от каждого покупателя до всех кластерных центров

Теперь вам известно расстояние каждого клиента до всех четырех кластерных центров. Их распределение по кластерам произведено по кратчайшему расстоянию в два приема следующим образом.

Сначала вернемся к Адамсу в столбец L и рассчитаем минимальное расстояние до кластерного центра в ячейке L38. Это просто:

Min(L34:L37)
=мин(L34:L37)

Для расчета используем формулу match/поискпоз (подробнее в главе 1). Поместив ее в L39, вы можете увидеть номер ячейки из промежутка L34:L37 (считаю каждую по порядку от 1), которая находится на минимальном расстоянии:

Match(L38,L34:L37,0) =поискпоз(L38,L34:L37,0)

В данном случае расстояние одинаково для всех четырех кластеров, так что формула выбирает первый (L34) и возвращает 1 (рис. 16).

Рис. 16. Добавление на лист привязки к кластерам

Вы можете также перетащить эти две формулы на DG38: DG39. Для пущей организованности добавьте названия строк 38 и 39 в ячейки 38 и 39 столбца G «Minimum Cluster Distance» и «Assigned Cluster».

Поиск решений для кластерных центров

Ваша электронная таблица пополнилась расчетом расстояний и привязкой к кластерам. Теперь, чтобы установить наилучшее положение кластерных центров, нужно найти такие значения в столбцах от Н до К, которые минимизируют общее расстояние между покупателями и кластерными центрами, к которым они привязаны, указанными в строке 39 для каждого покупателя.

Когда слышите слово «минимизировать»: начинается этап оптимизации, а оптимизация производится с помощью «Поиска решения».

Чтобы использовать «Поиск решения», вам понадобится ячейка для результатов, поэтому в А36 просуммируем все расстояния между покупателями и их кластерными центрами:

SUM(L38:DG38)
=CУMMA(L3 8:DG3 8)

Эта сумма расстояний от клиентов до ближайших к ним кластерных центров в точности является той целевой функцией, с которой мы встречались ранее, во время кластеризации актового зала средней школы Макакне. Но евклидово расстояние со своими степенями и квадратными корнями - чудовищно нелинейная функция, поэтому вам придется использовать эволюционный алгоритм решения вместо симплекс-метода.

В главе 1 вы уже пользовались этим методом. Симплексный алгоритм, если есть возможность его применить, работает быстрее других, но им нельзя воспользоваться для вычисления корней, квадратов и остальных нелинейных функций. Точно так же бесполезен OpenSolver, который использует симплексный алгоритм, пусть даже и будто принявший стероиды.

В нашем случае встроенный в «Поиск решения» эволюционный алгоритм использует комбинацию случайного поиска и отличное решение «скрещивания», чтобы, подобно эволюции в биологическом контексте, находить эффективные решения.

У вас есть все, что нужно для постановки задачи перед «Поиском решения»:

  • цель: минимизировать общие расстояния от покупателей к их кластерным центрам (А36);
  • переменные: вектор каждой сделки относительно кластерного центра (Н2:К33);
  • условия: кластерные центры должны иметь значения в пределах от 0 до 1.

Рекомендуется наличие «Поиска решения» и молотка. Ставим задачу «Поиску решения»: минимизировать А36 путем изменения значений Н2:К33 с условием Н2:К33 <=1, как и все векторы сделок. Убедитесь, что переменные отмечены как положительные и выбран эволюционный алгоритм (рис. 17).

Рис. 17. Установки «Поиска решения» для 4-центровой кластеризации

Но постановка задачи - еще не все. Придется немного попотеть, выбирая нужные опции эволюционного алгоритма, нажав кнопку «Параметры» в окне «Поиска решения» и перейдя в окно настройки. Советую установить максимальное время секунд на 30 побольше, в зависимости от того, сколько вы готовы ждать, пока «Поиск решений» справится со своей задачей. На рис. 18 я поставил свое на 600 секунд (10 минут). Таким образом, я могу запустить «Поиск решения» и пойти обедать. А если вам захочется прервать его пораньше, просто нажмите Escape и выйдите из него с наилучшим решением, которое тот успел найти.

Рис. 18. Параметры эволюционного алгоритма

Нажмите «Выполнить» и наблюдайте, как Excel делает свое дело, пока эволюционный алгоритм не сойдется.

Смысл полученных результатов

Как только «Поиск решения» выдает вам оптимальные кластерные центры, начинается самое веселое. Переходим к изучению групп! На рис. 19 мы видим, что «Поиск решения» нашел оптимальное общее расстояние 140,7, а все четыре кластерных центра - спасибо условному форматированию! - выглядят совершенно по-разному.

Рис. 19. Четыре оптимальных кластерных центра

Имейте в виду, что ваши кластерные центры могут отличаться от представленных в книге, потому что эволюционный алгоритм использует случайные числа и ответ каждый раз получается разный. Кластеры могут быть совершенно другими или, что более вероятно, располагаться в другом порядке (к примеру, мой кластер 1 может быть очень близок к вашему кластеру 4 и т. д.).

Так как при создании листа вы вставили в столбцы от В до G описания сделок, теперь можно прочитать подробности на рис. 19, что важно для понимания идеи кластерных центров.

Для кластера 1 в столбце Н условное форматирование выбирает сделки 24, 26, 17 и, в меньшей степени, 2. Прочитав описание этих сделок, можно понять, что у них общего: они все заключались на пино нуар.

Взглянув на столбец I, вы увидите, что во всех зеленых ячейках низкое минимальное количество. Это покупатели, которые не желают приобретать огромные партии в процессе сделки.

А вот два остальных кластерных центра, честно говоря, сложно интерпретировать. Как насчет того, чтобы вместо интерпретации кластерных центров изучить самих покупателей в кластере и определить, какие сделки им нравятся? Это могло бы внести в вопрос ясность.

Рейтинг сделок кластерным методом

Вместо выяснения, какие расстояния до какого кластерного центра ближе к 1, давайте проверим, кто к какому кластеру привязан и какие сделки предпочитает.

Чтобы это сделать, начнем с копирования листа Offerlnformation. Копию назовем 4МС - TopDealsByCluster. Пронумеруйте столбцы от Н до К на этом новом листе от 1 до 4 (как на рис. 20).

Рис. 20. Создание листа таблицы для подсчета популярности сделок с помощью кластеров

На листе 4МС у вас были привязки по кластерам от 1 до 4 в строке 39. Все, что вам нужно сделать, чтобы сосчитать сделки по кластерам, - это взглянуть на названия столбцов от Н до К на листе 4МС - TopDealsByCluster, посмотреть, кто из листа 4МС был привязан к этому кластеру в строке 39, а затем сложить количество их сделок в каждой строке. Таким образом мы получим общее количество покупателей в данном кластере, совершивших сделки.

Начнем с ячейки Н2, в которой записано количество покупателей кластера 1, принявших предложение № 1, а именно январский мальбек. Нужно сложить значения ячеек диапазона L2: DG2 на листе 4МС, но только покупателей из 1 кластера, что является классическим примером использования формулы sumif / суммесли. Выглядит она так:

SUMIF("4MC"!$L$39:$DG$39,"4MC - TopDealsByCluster"! H$1,"4MC"!$L2:$DG2)
=CyMMEOra("4MC"!$L$39:$DG$39,"4MC - TopDealsByCluster"! H$1,"4MC"!$L2:$DG2)

Эта формула работает таким образом: вы снабжаете ее некими условными значениями, которые она проверяет в первой части "4MC"!$L$39:$DG$39,"4MC, затем сравнивает с 1 в заголовке столбца ("4MC - TopDealsByCluster"! H$1), а потом при каждом совпадении, прибавляет это значение в строку 2 в третьей части формулы "4MC"!$L2:$DG2.

Заметьте, что вы использовали абсолютные ссылки ($ в формуле) перед всем, что относится к привязке к кластеру, номеру строки в заголовках столбцов и букве, обозначающей столбец, для совершенных сделок. Сделав эти ссылки абсолютными, можно перетащить формулу в любое место из Н2:К33, чтобы рассчитать количество сделок для других кластерных центров и комбинации сделок, как на рис. 21. Чтобы эти столбцы были более читаемы, вы также можете применить к ним условное форматирование.

Рис. 21. Общее количество сделок по каждому предложению, разбитое по кластерам

Выделяя столбцы от А до К и применяя автофильтрацию, вы можете сортировать эти данные. Отсортировав от наименьшего к наибольшему столбец Н, вы увидите, какие сделки наиболее популярны в кластере 1 (рис. 22).

Рис. 22. Сортировка кластера 1. Пино, пино, пино!

Как я упоминал ранее, четыре самых крупных сделки для этого кластера - это пино. Эти ребята явно злоупотребляют фильмом «На обочине». Если вы отсортируете кластер 2, то вам станет совершенно ясно, что это - мелкооптовые покупатели (рис. 23).

Но когда вы отсортируете кластер 3, понять что-либо будет не так просто. Крупные сделки можно пересчитать по пальцам, а разница между ними и остальными не так очевидна. Однако у самых популярных сделок все же есть что-то общее - довольно хорошие скидки, 5 из 6 самых крупных сделок - на игристое вино, и Франция - производитель товара для 3 из 4 из них. Тем не менее эти предположения неоднозначны.

Что касается кластера 4, то этим ребятам по какой-то причине явно понравилось августовское предложение на шампанское. Также 5 из 6 крупнейших сделок - на французское вино, а 9 из 10 первых по величине - на большой объем товара. Может, это тяготеющий к французским винам крупнооптовый кластер? Пересечение кластеров 3 и 4 тоже беспокоит.