ЗАРАБОТАТЬ НА BIG DATA: 3 КЕЙСА ОТ ПРОИЗВОДСТВА, БАНКОВ И РИТЕЙЛА
Какой профит может принести обработка больших данных? И почему математика сама по себе не работает?
Любые инновации и технологии в бизнесе нужны лишь с одной прагматичной целью — приносить выгоду. Возможно, по сложной цепочке. К примеру, грамотные цифровые программы лояльности увеличивают возврат покупателей, и продажи растут. Или необычная фишка в мобильном сервисе выделяет компанию среди других, из-за чего растет поток клиентов и снова-таки продажи.

То же касается и такого устоявшегося термина, как big data. Стоит ли собирать команду и инвестировать в упорядочивание и использование баз данных, если это в итоге не даст выхлопа? Конечно же, нет. Но и не любой выхлоп можно обернуть в выгоду.

Расскажем о нескольких кейсах, в которых автоматизированная обработка больших данных повлияла на бизнес-показатели. А также о нюансах, о которых нельзя забывать.
Предсказание брака
Речь не о вероятности построении семьи, а о вполне промышленной теме — браке продукции на крупном металлургическом заводе. Если им не управлять, брак формирует большие минусы и увеличивает себестоимость.

Производство стали — многошаговый процесс. Чтобы сырье превратилось в готовый материал — рельсы, стержни и т.п. — в печах много раз происходит нагревание и охлаждение металлического полуфабриката. Штука в том, что брак — даже если он закрался на начальном этапе — видно только на выходе. При этом на каждый из процессов нагревания и охлаждения уже потрачена масса электроэнергии.

Поэтому на комбинате решили попробовать предсказывать брак на более раннем этапе — с помощью машинного обучения.

Чтобы контролировать производство, на каждом из этапов специальное оборудование снимает пробы качества металла. И принимается решение, продолжать производство или можно все отбраковать.

Команда по big data организовала процесс. Данные стали поступать в базу Oracle. На каждое измерение накапливался вектор данных, который его характеризовал — всего около 50 параметров. Также у производства частично существовали данные по прошлым бракам. Команда измеряла, какие параметры приводят к каким отклонениям в конечном продукте, как они суммарно влияют на результат.

На основе всех этих данных была обучена модель. Она начала предсказывать вероятность возникновения брака. Необходимо было определить порог вероятности, поверх которого продукцию нужно было отбраковывать.

Здесь возникло две стандартных для машинного обучения задачи. Первая — брака нужно «поймать» как можно больше и раньше, чтобы экономить электроэнергию. Вторая — хорошей продукции нужно отсечь как можно меньше. Чтобы опять-таки не гонять качественные партии по несколько циклов.

На это и ушло основное усилие команды. Порядка двух месяцев она корректировала модель и повышала точность прогноза.

В итоге предсказание работает уже с первого этапа производства, но реально помогает со второго-третьего. Система сразу получает параметры каждого этапа и, в случае подозрения, сообщает оператору «возможно, эта партия получила брак».

Итоговый результат: 30% браков обнаруживается при 5% ложных обнаружений.

Конечно, чем ближе к готовому материалу, тем легче дать более точный прогноз. Но и тем меньше денег экономится. Нужен компромисс, золотая середина, когда обеспечивается хороший охват, высокая точность — и при этом мы не слишком близко к концу цикла производства. Ведь тогда уже много не сэкономишь и смысла в дополнительных телодвижениях нет.

Пока эти процессы в комбинате реализовали на одной установке. Нужно не забывать, что реализация такого проекта сама по себе дорогая, так как далеко не все установки имеют необходимые измерители параметров. Поэтому необходимо считать бизнес-кейс.
Предсказание склонности к покупке
Этот кейс хорошо описывает оптимизацию в розничных продажах.

Искусственный интеллект решает задачу предсказания на основе исторических данных. Сначала берутся покупатели, которые приобретали какой-то продукт. ИИ строит модель по заранее выбранным параметрам, которые говорят о склонности к покупке. Затем в модели размещается список клиентов, которые этот же продукт еще не приобретали. Модель обучается и указывает на тех, кто с большей вероятностью продукт купит, если им предложить.

Недостаток подхода в том, что для каждого продукта нужно строить свою модель. И для, например, интернет-магазинов с тысячами товаров это очень расходно. К тому же, модель очень сужает целевую выборку клинетов — мы ориентируемся только на тех, кому продукт потенциально нужен.

Поэтому в дело вступают рекомендательные системы (РС). Вместо сотен моделей строится матрица «клиенты-продукты». Пересечение показывает, кто из клиентов какой продукт купил. И на основе похожих покупок делаются новые предложения там, где пересечений еще нет. Так, например, работает система онлайн-кинотеатров.

Главный плюс рекомендательной системы — не прирост конверсии клиента в покупателя. Потому что и для модели, и для РС он составляет порядка 10-15%. Преимущество РС — это увеличение охвата на порядка 40%. Для тех, кому продукт нужен, прирост конверсии будет 10-15%. А для тех, кто меньше склонен его купить — всего 1-2%. Но эти 1-2% — по всей клиентской базе. И так одним маркетинговым предложением можно охватить гораздо больше людей.

Важный нюанс: математику нельзя считать в отрыве от бизнеса.

Если я — онлайн-розница, мне достаточно прикрутить к сайту рекомендательную систему, которая начинает предлагать товары. Клиент кликает на товары и, если заинтересовывается, покупает.

Если же я офлайн-розница, банк, страховая, телеком-оператор, для продажи мне приходится делать исходящую коммуникацию — звонки, СМС, e-mail. И тут надо признать, что хотя сама модель дает прирост конверсии 10-15%, на конверсию сильно влияет способ продажи. Если я что-то рекламирую клиенту и для покупки ему нужно что-то сделать (дойти в магазин, на мероприятие и т.д.), это создает барьер. И автоматически сильно роняет конверсию. Клиент может быть очень склонным купить джинсы, но если бы они были под рукой, это одна вероятность. А если за ними нужно куда-то идти или ехать, градус желания снижается.

Здесь моделирование не при чем. Есть процесс доставки — модель покажет одну эффективность, нет — совсем другую.

Если мы говорим об удаленной продаже через телефон, то конверсии больше 2-3% я не видел в принципе. А если человеку что-то подключают удаленно (например, какой-то тариф), суммарная конверсия от звонка может достигать 11-12%. Если есть свой процесс доставки товара — к примеру, банк предлагает карты и доставляет их — суммарная конверсия может доходить до 5%. То есть эта часть даже больше зависит от бизнес-процесса продажи, чем от моделирования и игр с искусственным интеллектом.
Предсказание дефолта
Это одна из самых востребованных задач в банках и микрофинансовых организациях, которые выдают кредиты частным лицам. Чем точнее искусственный интеллект предскажет, насколько потенциальный заемщик опасен невозвратом денег, тем больше сил банк сэкономит и тем больше заработает на добросовестных клиентах.

Раньше банки использовали только анкетные данные и плюс информацию бюро кредитных историй (БКИ). Последняя была очень простой — это были именно истории, возвращал человек кредиты или нет, сколько у него кредитов сейчас и на какую сумму, каков ежемесячный платеж. Сейчас ко всему этому добавили аналитику.

Во-первых, сами бюро, располагая данными по клиентам и дефолтности, начали строить собственные модели. Вместо того, чтобы вываливать на банк шквал информации, они дают банкам в качестве одного из признаков переменные своей модели. Так повышается точность предсказания на стороне банка. А БКИ начали предлагать это как услугу.

Дальше появились операторы связи. На своей стороне они начали делать скоринговые модели. Важный момент — в скоринговых моделях оператора все происходит анонимно, без разглашения персональных данных. Это чистое машинное обучение: нет никаких жестких правил вроде «если ARPU выше/ниже, то…» Скоринговая система оператора вычисляет по номеру телефона определенный балл, который и передается банку.

Также появились компании, которые берут данные соцсетей, превращают их в признаки. По ним строят модели, которые также предсказывают дефолтность.

Выходит, что в отличие от нескольких лет назад банк получает агрегированные оценки от разных структур. Все это дает прирост в точности угадывания дефолтности на 5-7 процентных пунктов. Иногда и больше — до 10 процентных пунктов. Это тоже транслируется в миллионы в зависимости от объема бизнеса. Важно, что это именно процентные пункты. 5% к 0,6 будет 0,61, а 5 процентных пунктов к 0,6 — 0,65. То есть отличие в разы.

Big data уже прошла первичную обкатку в бизнесе. От технологии не нужно ожидать звезд с неба, но при грамотном подходе и толковой команде она может увеличить прибыль и уменьшить убытки. Не в разы, но на ощутимые проценты.