Як комп'ютерний зір переможе черзі і порожні полиці в супермаркетах - Валерій Бабушкін, X5 Retail Group

«Нескладно вирости на 20%, якщо ви відкрили в півтора рази більше магазинів»

— У своєму виступі ви

розповіли, що виторг у X5 Retail Group досяг 1,286 трлн рублів у 2017 році, а скорочення витрат навіть на маленьку частку призводить до величезного прибутку. Як X5 розширюється?

— Оборот у Х5 ще зростатиме.Загалом ринок прагне консолідації в рітейлі. На даний момент у нас три провідні рітейлери займають приблизно 20% ринку, і ми бачимо по країнах розвиненого капіталізму, що ця частка буде близько 70-75%.

Кожен день в середньому Х5 відкриває по шість новихмагазинів. Поки ми з вами спілкуємося, Х5 відкриває новий магазин (сміється). Дійсно, справи йдуть непогано, на відміну від деяких інших гравців ринку. Якщо дивитися відкриті дані, у одного з них при зростанні площ на 12% оборот збільшився всього на 84%. Нескладно порахувати: вони починають працювати в мінус. Є такий показник, LFL - Like for like, порівняння одних і тих же магазинів рік в рік. У Х5 по ньому хоч і невеликий, але плюс. Тобто нескладно вирости на 20%, якщо ви відкрили в півтора рази більше магазинів, але це негативне зростання за фактом. Якщо ви ростете за рахунок того, що і старі магазини працюють краще, і нові відкриваються, то це досить позитивно.

- Як ви вважаєте, яка частка заслуги вашої команди в цьому?

— Поки що не дуже велика, бо командасформована недавно. Давайте будемо відвертими, зростання X5 у 2017 році навряд чи зумовлене тим, що ми застосовуємо аналіз даних за допомогою команди, створеної у 2018 році.

Керівник нашої дирекції – Антон Мироненков, людина, яка брав участь у створенні компанії Х5. Він займався злиттям «Перекрестка» та «П'ятірочки», після чого і з'явилася Х5.

Ми вважаємо напрямок big dataстратегічним. Майбутнє роздрібної торгівлі пов'язане з тим, як швидко рітейлери навчаться монетизувати, використовувати для оптимізації процесів та покращення клієнтського досвіду ті дані, які ми щодня генеруємо у досить великих кількостях. Тому ми вирішили виділити все це в окремий напрямок і дати більший фокус, щоб він швидше розвивався.

Антон Мироненко, керівник дирекції великих даних X5

У рамках цієї дирекції у нас свої потужності,кластер, розробники, тестувальники, аналітики, проджекти, продакти – все, що потрібно. Ми вже якісь речі зробили, а це дуже великий прогрес для меншого строку, ніж рік. Чітко розуміємо, що досить великий прибуток дамо компанії, але знову ж таки, ці результати будуть видно тільки через рік.

Вся інформація в чеку - якщо ви купили горілку, то вам більше 18 років

- Якщо я прийду в «Перехрестя» і зроблю покупку, що з усього цього візьмете ви для аналізу?

- Чек. Ваші товари досить добре характеризую вас. Якщо купуєте памперси, напевно, у вас є маленька дитина. Якщо горілку, то вам більше 18 років. Людина може купити чіпси, і це буде з певною ймовірністю підліток 16 років. А якщо купили щоденник, то або ви, або у вас в родині є дитина від семи до 17 років. Це вже немало інформації.

Уявіть: ви приходите в магазин, дивіться на якісь товари і розумієте, що магазин дорогою, дешевий або середньої цінової категорії. У «Пятерочка» від 4 до 8 тис. Унікальних товарів. Навряд чи ви ходите з блокнотом і записуєте ціни на всі безліч товарів, а потім дивіться середні ціни на товари по місту і робите висновок. Досить подивитися на п'ять-десять товарів. А тим, на які товари ви дивитеся, ми теж займаємося.

Товари, на які люди дивляться, теж змінюються зічасом. Простий приклад: 20 років тому не було ніяких товарів, пов'язаних з мобільним зв'язком. Зараз ви можете, не у всіх магазинах, але купити сім-карту. 20 років тому в Росії взагалі були часи трохи жорсткіше, ніж зараз, і споживання було зовсім іншим.

- Як відбувається складання профілів клієнтів для пропозиції їм знижок?

- Є два продукти: профіль клієнта і лояльність. Профіль клієнта - це таке завдання, коли у вас немає якоїсь розмітки і використовуються різні підходи. Ми використовуємо різні підходи до кластеризації - починаючи від стандартних статистик, прорахувати якісь зет-швидкі, робастні відхилення від медіани, і закінчуючи Word2vec, накладеним на чеки, і «перекладом» людини в вид вектора усередненого через TF-IDF по Word2vec.

Зет-скори, Z-score- Статистична оцінка, яка виражаєвідстань (вимірюване як середньоквадратичне відхилення) даного рівня від середнього значення набору даних. Зокрема, Z-оцінка є вихідним показником кредитоспроможності компанії та ступенем ризику її банкрутства.

Робастні відхилення, від англ. robust, «надійний» - стійкість оцінок по відношенню до викидів в даних. Вважаються відносно медіани.

Word2vec- Інструмент, що дозволяє представляти слова у вигляді векторів.

TF-IDF- Термін у статистиці, що позначає ступінь важливості слова в корпусі текстів.

Якщо у вас є якась модель, яка робитьперсональне пропозицію, то давайте вважати, що кластеризація вдала, якщо після додавання ознак якість моделей поліпшується. Тут можна порахувати і економічний ефект, і якусь метрику.

- У якій частці магазинів використовуються ваші розробки?

- У всіх.Персоналізовану знижку ми протестували на півмільйона користувачів, щоб зрозуміти її ефект у всіх 14 тис. магазинів Х5. Ми збираємо інтерактивну звітність із усіх цих магазинів. У нас є продукт промо, який є у всіх магазинах. У нас є матриця асортименту, ми маємо прогноз попиту. Вони стежать, щоб у магазині, по-перше, була курка і, по-друге, курка не згасла.

Зараз почнемо робити комп'ютерний зір, вінбуде не у всіх магазинах спочатку. Почнемо з найбільших — є сенс тестувати лише у них. Завдання досить просте, вигода з неї зрозуміла. Є товар, він на полиці може бути відсутнім, а на складі лежати, і в цей момент товар не купують. Це дуже погано. Магазин купив його, а продавати не може. У найкращому разі користувач не купить товар, а в гіршому він розгорнеться і піде, тому що йому не потрібно приходити туди, де він купить два товари з трьох, а за третім піде в інший магазин. Він прийде одразу до того магазину, де можна купити все. І це вирішується з допомогою комп'ютерного зору. Ставиться камера, вона виявляє, що у вас залишилося мало товару. Надходить повідомлення відповідальній за це людині, вона йде на склад за цим товаром.

Друге завдання - черга. Ми знаємо, що у нас є черги в магазині. Або ви стоїте в черзі, незадоволені і витрачаєте час, що нікому не подобається, або заходьте в магазин, дивіться на чергу, розвертається і йдіть. Якщо причина черзі в тому, що штат недоукомплектований, тут нічого не можна вдіяти. А якщо проблема в тому, що умовна продавщиця сидить в підсобці, відпочиває і п'є чай, а її викликає директор. У магазині вже чергу, і поки вона дійде, сяде за комп'ютер, включить його, почне касу смикати - пройде час. Все ще на неї дивляться, вона нервує, люди теж. Цей касир повинен виходити до того, як черга сформувалася, щоб до моменту виходу люди вже пішли на касу. Це досить просто вирішити за допомогою комп'ютерного зору.

Ми будемо це тестувати його приблизно 150магазинах, і швидше за все, у Москві. По-перше, ми самі в Москві, а по-друге, тут трафік більший. Тоді стане зрозуміло, як поліпшити користувальницький досвід і яка від цього користь Х5.

«Мені дуже не подобається слово" дата-сайентіст "»

- Ви розширюєте своє управління?

- Безумовно, керівники бачать, що ми даємо результат. Ніхто не дозволяє розширювати команду в два рази, якщо ви погано працюєте. Сам по собі цей факт говорить про нашу ефективності.

- Ви говорили, що у вас 32 людини працюють, скільки ще будете набирати?

- Ще десь 20-30. У нас будуть використовуватися тепер комп'ютерний зір і мовні технології в рамках мого керування. Будуть два нових відділи, тобто це ще плюс десять чоловік, по-моєму, ще 10-15 погоджено на наступний рік. Є так звані проектні ставки. Ми очікуємо, що це плюс 30-36, десь за 60 осіб. Це саме ті люди, які займаються аналізом даних і машинним навчанням.

- Кого запрошуєте на роботу?

— Мені дуже не подобається слово «дата-саентист»,тому що вона жодної інформації не несе. Ви можете прийти до десятка компаній, де шукають дата-саентиста, і це будуть десять абсолютно різних посад. Мені подобається слово "аналітик". У мене назви відділів говорять самі за себе: є відділ машинного навчання, відділ аналізу даних, група R&D, тобто досліджень, відділ комп'ютерного зору, відділ мовних технологій та група позапродуктової аналітики для вирішення тих завдань, які прилітають поза якимось існуючим продуктового спрямування.

Шукаю людей, які вміють програмувати наPython, знають теорію ймовірності і математичну статистику, якщо мені потрібно моделювання, то потрібні навички машинного навчання. Але найголовніше - це здатність людини мислити і аналізувати. Я все більше приходжу до думки, що аналітичне мислення і критичне - це те, чого дуже складно навчити. Якщо до 20-25 років вже є якесь світогляд, воно навряд чи зміниться.

- Ви це зрозуміли в Х5?

- Не те, щоб саме Х5 до цього мене привів. Я ж теж дивлюся на людей, спілкуюся, бачу, як вони працюють. Як відомо, краще співбесіду - це випробувальний термін. І ви в якийсь момент бачите, що це просто не для цієї людини. Тобто начебто і мехмат закінчив, ніби не дурень, але не його. Немає правильного настрою, не так бачить речі. Це було ще в книжці у Даніеля Канемана «Thinking, Fast and Slow», де він описував, що відповідає критичному мисленню. Це в тому числі песимістичний погляд на світ, і це більше вроджена якість, ніж придбане, на жаль чи на щастя.

- Якщо приходить аналітик, і після випробувального терміну ви розумієте, що він підходить, на що людина може розраховувати?

— Стандартно в ІТ є градації — джуніор, мідл,сеньйор та стажер. Вище вже рідко зустрічається – це стафф чи ведучий. Я вважаю, що відбувається інфляція посади сеньйора: у нас їхня купа, а за фактом вони рідко дотягують до середнього мідла.

Якщо брати середні по ринку зарплати, джуніоротримує десь на 120-150 тис. рублів до податків на місяць, мідл - до 250 тис. Сеньйори близько 400 тис. рублів. Верхня планка: я особисто тримав оффер в руках на провідного розробника, це було більше 600 тис. Рублів.

«Data science - дійсно якась" вишенька на торті "»

— Як ви почали займатись машинним навчанням?

— В університеті взагалі не було машинногонавчання. Тому що я закінчив вуз у 2012 році, приблизно тоді ж відбулося чергове піднесення речей, пов'язаних з ним. Не встиг. Закінчив два університети, останній — це Університет прикладних наук у Карлсруе, магістра з мехатроніки. До цього навчався у Московському інституті хімічного машинобудування, зараз це називається Московський політех. Машинне навчання я ні там, ні там не займався.

Забавна річ: Зараз проводить співбесіду тих, які закінчують data science, і створюється відчуття, що їх рівень слабше і від, ніж у тих хлопців, які закінчили фізику, інженерні спеціальності, комп'ютерні науки, а потім машинне навчання на це «накрутили». Може, це якийсь зсув, тому що хлопці, які самі це вивчили, спочатку були сильними, ще щось нове вивчили і прийшли. А data science - дійсно якась «вишенька на торті», і якщо самого «тортика» немає, а «вишенька» є, то це не так цікаво.

- Як ви цього самонавчанням?

— Є стара приказка, що на Coursera є двасерйозного курсу, навіть півтора. Це курс Хінтона про машинне навчання та нейронні мережі (курс більше не доступний на Coursera, але його можна подивитися на YouTube - «Хайтек») та курс Дафни Коллер про імовірнісні неграфічні моделі.

Курс Коллер - це записані на відео лекції,який вона читає аспірантам в Стенфорді. Тому назвати його не зовсім серйозним не повертається язик. Курс Хинтона триває 16 тижнів, а у Коллер - три курси по п'ять-шість тижнів. І я зібрав сили в кулак, пройшов перший курс і зрозумів, що другий і третій не готовий проходити.

Але Coursera – це не єдиний засіб.Я читаю багато книг. Наразі закінчив, до речі, книжку Бредлі Ефрона зі статистики (американський статистик, лауреат Національної медалі пошани США – найвищої державної нагороди для американських учених – «Хайтек»). До цього - книгу Єна Годфеллоу (американський фахівець з машинного навчання, працює в Google Brain - "Хайтек") з глибокого навчання. Це безперервний процес навчання. Coursera – лише один із ресурсів, Kaggle (онлайн-спільнота фахівців з комп'ютерних наук, де регулярно проводяться змагання – «Хайтек») – це інший, але головне – читання, читання, читання та перевірка. Якщо ви прочитали та не зрозуміли, це погано. Якщо ви зрозуміли, як це працює, то можете будь-що зробити.

Це як із таблицею множення.Уявіть, що людина таблицю множення не розуміє, але вивчив напам'ять. Його запитують: "Шість на шість?" - "36". - "Сім на вісім?" - "56". - «Ну добре, останнє питання, 10 на 11?» — Людина каже: «Я не знаю, у таблиці цього множення не було». Ось і все. Ось із такими людьми я часто зустрічаюся. 10 на 11 набагато простіше порахувати, але цього немає в таблиці, треба розуміти принцип. Якщо ви розумієте принципи, далі все набагато легше.

Все інше залежить від людини. Здається, що будь-яку річ ми вивчаємо самі. Нам просто допомагають і не заважають інші люди. Все це питання самодисципліни.

— Розкажіть про ваш курс з data science у ВШЕ.

- Це безкоштовний курс, він в рамках стандартноїпрограми, на нього розповідаю базові прості речі, які для багатьох людей - одкровення. Наприклад, які є метрики, навіщо вони взагалі існують, як один від одного відрізняються, в яких випадках яка потрібна, як перевірити вашу ідею, що таке A / B-тест. Це те, що я для себе вивів, що важливо знати людям і що їм дійсно потрібно в роботі.

- Яким ви бачите майбутнє рітейлу через п'ять-десять років?

— Якщо ми про продуктовий ритейл говоримо, тоформат гіпермаркетів відмиратиме. Це видно зараз по Штатах, як там відмирають великі торгові центри, і в Росії, до речі, також. Раніше який був патерн споживання? Ми приходимо в торговий центр, у кіно, в ресторанний дворик, ще щось купимо. Зараз приходимо додому, ivi, Okko, Netflix, Яндекс.Їжа, Delivery Club, доставка з ресторану, шопінг онлайн. Треба йти у бік персоналізації.

- Що це означатиме для споживача?

- Людина користується ніж? Тим, що може собі дозволити, і тим, що йому зручно. Відповідно, потрібно знижувати витрати, тримати ту саму якість або підвищувати його. Ось тут на розум і приходить персоналізація.

- Людина купує те, що може собі дозволити. Зараз реальні доходи населення падають, витрати скорочуються.

— За такої ситуації магазинні економ-форматипочуваються краще та ростуть. Є два шляхи вирішення багатьох проблем для рітейлерів. Або автоматизація, або найняти ще десять осіб. У короткостроковій перспективі другий шлях — це виграшна стратегія, бо інтеграція — це дорого, довго, щось піде не так, можна втратити премію. А тепер уявіть, що ви директор департаменту з дуже великою премією, і можете її позбутися. Працюватимете ви в компанії через два роки, коли стане відомий результат цієї автоматизації, чи ні, і похвалять вас за них, — незрозуміло. А премія у вас вже може бути. Тому наймаємо десять людей ще. Але це у довгостроковій перспективі веде до великих збитків.