Мера близости на основе покупок. Наверное, это самая точная и справедливая, так как, если человек в течение определенного времени покупает разные товары из одной и той же категории, то с большой вероятностью эти товары для него заменяют друг друга.
К сожалению, такой подход трудно применим в ритейлере электроники, так как клиенты не делают покупки каждый день, для некоторых категорий каждый месяц или даже не каждый год. Мы не покупаем новый холодильник каждый месяц или новый телевизор. Даже телефоны мы обычно меняем максимум раз в год. По этой причине мера близости на основе покупок хорошо бы подошла продуктовому ритейлеру, а для электроники не очень.
Мера близости на основе свойств товаров. Это довольно очевидная мера близости. Возьмем чайник, например. Они, чайники, бывают стеклянные, металлические и пластиковые, бывают чайники, а бывают термопоты. Чайники также бывают премиальные (сильно отличающиеся по цене от других), разноцветные, с различными функциями касательно поддержания температуры, подогрева вместо кипячения и так далее.
Далее напрашивается следующее заключение: если два чайника похожи по свойствам, то они закрывают одну и ту же потребность. Это очень логичный и простой вывод: если у меня два чайника, которые оба металлические, одинакового размера, с одинаковым функционалом и примерно равной ценой и один маржинальнее второго, то мы можем поставить на полку один вместо двух и не ошибемся. Реальность однако показывает, что ошибемся.
Существует расхожее мнение, что чем большее разных товаров выставишь на полку (если полка позволяет), тем больше будут продажи. Люди покупают глазами. Чайники, даже очень похожие по свойствам могут отличаться внешне. Соответственно, вот этот чайник может нравится, а вот этот - нет.
Кроме этого, в некоторых категориях товаров существует сильная рекламная поддержка от производителей и товары, даже сильно схожие по свойствам, в голове покупателей могут отличаться как небо и земля.
Также немаловажно и то, что свойства товара в системах заполняются людьми, которым как и прежде свойственно ошибаться. Другими словами, мера близости на основе свойств товара тоже не идеальна. Вопрос, однако, насколько она плоха. Наверное, главный ее недостаток состоит в том, что точно померить это мы не можем, но вот приблизительно можем оценить. Как - опишем чуть ниже.
Мера близости на основе просмотров с сайта аналогична мере на основе покупок, но основывается на просмотрах. Преимуществом данной меры является то, что она очевидно коррелирует с поведением клиента в отличие от меры на основе свойств. Со свойствами мы только предполагаем, что для клиента товары со схожими свойствами закрывают схожие потребности. В данном случае мы это объективно наблюдаем.
Какие же минусы у данной меры? Самым очевидным минусом является то, что просмотры коррелируют с выдачей на сайте. От чего зависит выдача? От популярности товара (по продажам), от промо. Все это, конечно, дает смещение. Однако, промо влияет на предпочтения клиентов в любом случае.
Для оценки близости на основе просмотров с сайта необходимо построить метрику между парами товаров, которая описывает логику «чем больше совместных просмотров, тем меньше расстояние между товарами». То есть, в данном случае мы работаем со множествами. На ум приходят метрики расстояний Жаккара и Юле, мы попробовали обе и остановились на Жаккаре по причине простоты и распространенности метрики. Плюс, с ним получились более понятные бизнес-результаты.