Як комп'ютерний зір переможе черзі і порожні полиці в супермаркетах - Валерій Бабушкін, X5 Retail Group

«Нескладно вирости на 20%, якщо ви відкрили в півтора рази більше магазинів»

- У своєму виступі ви

розповіли, що виручка у X5 Retail Group досягла 1,286 трлн рублів в 2017 році, а скорочення витрат навіть на маленьку частку призводить до величезного прибутку. Як X5 розширюється?

- Оборот у Х5 ще буде рости. В цілому ринок прагне до консолідації в ритейлі. На поточний момент у нас три лідируючих рітейлера займають приблизно 20% ринку, і ми бачимо по країнам розвиненого капіталізму, що ця частка буде близько 70-75%.

Кожен день в середньому Х5 відкриває по шість новихмагазинів. Поки ми з вами спілкуємося, Х5 відкриває новий магазин (сміється). Дійсно, справи йдуть непогано, на відміну від деяких інших гравців ринку. Якщо дивитися відкриті дані, у одного з них при зростанні площ на 12% оборот збільшився всього на 84%. Нескладно порахувати: вони починають працювати в мінус. Є такий показник, LFL - Like for like, порівняння одних і тих же магазинів рік в рік. У Х5 по ньому хоч і невеликий, але плюс. Тобто нескладно вирости на 20%, якщо ви відкрили в півтора рази більше магазинів, але це негативне зростання за фактом. Якщо ви ростете за рахунок того, що і старі магазини працюють краще, і нові відкриваються, то це досить позитивно.

- Як ви вважаєте, яка частка заслуги вашої команди в цьому?

- Поки не дуже велика, тому що командасформована не так давно. Давайте будемо відверті, зростання X5 в 2017 році навряд чи обумовлений тим, що ми застосовуємо аналіз даних, за допомогою команди, створеної в 2018 році.

Керівник нашої дирекції - Антон Мироненко, людина, яка брала участь в створенні компанії Х5. Він займався злиттям «Перехрестя» і «Пятерочка», після чого і з'явилася Х5.

Ми вважаємо напрямок big data стратегічним. Майбутнє роздрібної торгівлі пов'язано з тим, як швидко рітейлери навчаться монетизувати, використовувати для оптимізації процесів і поліпшення клієнтського досвіду ті дані, які ми кожен день генеруємо в досить великих кількостях. Тому ми вирішили виділити все це в окремий напрям і дати більший фокус, щоб воно швидше розвивалося.

Антон Мироненко, керівник дирекції великих даних X5

В рамках цієї дирекції у нас свої потужності,кластер, розробники, тестувальники, аналітики, проджект, продакт - все, що потрібно. Ми вже якісь речі зробили, а це дуже великий прогрес для терміну меншого, ніж рік. Чітко розуміємо, що досить великий профіт дамо компанії, але знову ж таки, ці результати будуть видні тільки через рік.

Вся інформація в чеку - якщо ви купили горілку, то вам більше 18 років

- Якщо я прийду в «Перехрестя» і зроблю покупку, що з усього цього візьмете ви для аналізу?

- Чек. Ваші товари досить добре характеризую вас. Якщо купуєте памперси, напевно, у вас є маленька дитина. Якщо горілку, то вам більше 18 років. Людина може купити чіпси, і це буде з певною ймовірністю підліток 16 років. А якщо купили щоденник, то або ви, або у вас в родині є дитина від семи до 17 років. Це вже немало інформації.

Уявіть: ви приходите в магазин, дивіться на якісь товари і розумієте, що магазин дорогою, дешевий або середньої цінової категорії. У «Пятерочка» від 4 до 8 тис. Унікальних товарів. Навряд чи ви ходите з блокнотом і записуєте ціни на всі безліч товарів, а потім дивіться середні ціни на товари по місту і робите висновок. Досить подивитися на п'ять-десять товарів. А тим, на які товари ви дивитеся, ми теж займаємося.

Товари, на які люди дивляться, теж змінюються зічасом. Простий приклад: 20 років тому не було ніяких товарів, пов'язаних з мобільним зв'язком. Зараз ви можете, не у всіх магазинах, але купити сім-карту. 20 років тому в Росії взагалі були часи трохи жорсткіше, ніж зараз, і споживання було зовсім іншим.

- Як відбувається складання профілів клієнтів для пропозиції їм знижок?

- Є два продукти: профіль клієнта і лояльність. Профіль клієнта - це таке завдання, коли у вас немає якоїсь розмітки і використовуються різні підходи. Ми використовуємо різні підходи до кластеризації - починаючи від стандартних статистик, прорахувати якісь зет-швидкі, робастні відхилення від медіани, і закінчуючи Word2vec, накладеним на чеки, і «перекладом» людини в вид вектора усередненого через TF-IDF по Word2vec.

Зет-швидкі, Z-score - статистична оцінка, яка виражаєвідстань (вимірюється як середньоквадратичне відхилення) даного рівня від середнього значення по набору даних. Зокрема, Z-оцінка є вихідним показником кредитоспроможності компанії і ступеня ризику її банкрутства.

Робастні відхилення, від англ. robust, «надійний» - стійкість оцінок по відношенню до викидів в даних. Вважаються відносно медіани.

Word2vec - інструмент, що дозволяє представляти слова у вигляді векторів.

TF-IDF - термін в статистиці, що позначає ступінь важливості слова в корпусі текстів.

Якщо у вас є якась модель, яка робитьперсональне пропозицію, то давайте вважати, що кластеризація вдала, якщо після додавання ознак якість моделей поліпшується. Тут можна порахувати і економічний ефект, і якусь метрику.

- У якій частці магазинів використовуються ваші розробки?

- У всіх. Персоналізовану знижку ми протестували на півмільйона користувачів, щоб зрозуміти її ефект у всіх 14 тис. Магазинів Х5. Ми збираємо інтерактивну звітність з усіх цих магазинів. У нас є продукт промо, який присутній у всіх магазинах. У нас є матриця асортименту, у нас є передбачення попиту. Вони стежать, щоб в магазині, по-перше, була курка і, по-друге, курка не стухла.

Зараз почнемо робити комп'ютерний зір, вонобуде не у всіх магазинах спочатку. Почнемо з найбільших - є сенс тестувати тільки в них. Завдання досить проста, вигода з неї зрозуміла. Є товар, він на полиці може бути відсутнім, а на складі лежати, і в цей момент товар не купують. Це дуже погано. Магазин його купив, а продавати не може. У кращому випадку користувач не купить товар, а в гіршому він розвернеться і піде, тому що йому не потрібно приходити туди, де він купить два товари з трьох, а за третім піде в інший магазин. Він прийде відразу в той магазин, де можна купити все. І це вирішується за допомогою комп'ютерного зору. Ставиться камера, вона виявляє, що у вас залишилося мало товару. Приходить повідомлення відповідальному за це людині, він йде на склад за цим товаром.

Друге завдання - черга. Ми знаємо, що у нас є черги в магазині. Або ви стоїте в черзі, незадоволені і витрачаєте час, що нікому не подобається, або заходьте в магазин, дивіться на чергу, розвертається і йдіть. Якщо причина черзі в тому, що штат недоукомплектований, тут нічого не можна вдіяти. А якщо проблема в тому, що умовна продавщиця сидить в підсобці, відпочиває і п'є чай, а її викликає директор. У магазині вже чергу, і поки вона дійде, сяде за комп'ютер, включить його, почне касу смикати - пройде час. Все ще на неї дивляться, вона нервує, люди теж. Цей касир повинен виходити до того, як черга сформувалася, щоб до моменту виходу люди вже пішли на касу. Це досить просто вирішити за допомогою комп'ютерного зору.

Ми будемо це тестувати його приблизно в 150магазинах, і швидше за все, в Москві. По-перше, ми самі в Москві, а, по-друге, тут трафік більше. Тоді стане зрозуміло, як зробити краще для користувача досвід і яка від цього користь Х5.

«Мені дуже не подобається слово" дата-сайентіст "»

- Ви розширюєте своє управління?

- Безумовно, керівники бачать, що ми даємо результат. Ніхто не дозволяє розширювати команду в два рази, якщо ви погано працюєте. Сам по собі цей факт говорить про нашу ефективності.

- Ви говорили, що у вас 32 людини працюють, скільки ще будете набирати?

- Ще десь 20-30. У нас будуть використовуватися тепер комп'ютерний зір і мовні технології в рамках мого керування. Будуть два нових відділи, тобто це ще плюс десять чоловік, по-моєму, ще 10-15 погоджено на наступний рік. Є так звані проектні ставки. Ми очікуємо, що це плюс 30-36, десь за 60 осіб. Це саме ті люди, які займаються аналізом даних і машинним навчанням.

- Кого запрошуєте на роботу?

- Мені дуже не подобається слово «дата-сайентіст»,тому що воно ніякої інформації не несе. Ви можете прийти в десять компаній, де шукають дата-сайентіст, і це будуть десять абсолютно різних посад. Мені подобається слово «аналітик». У мене назви відділів говорять самі за себе: є відділ машинного навчання, відділ аналізу даних, група R & D, тобто досліджень, відділ комп'ютерного зору, відділ мовних технологій і група внепродуктовой аналітики для вирішення тих завдань, які прилітають поза якогось існуючого продуктового напрямку .

Шукаю людей, які вміють програмувати наPython, знають теорію ймовірності і математичну статистику, якщо мені потрібно моделювання, то потрібні навички машинного навчання. Але найголовніше - це здатність людини мислити і аналізувати. Я все більше приходжу до думки, що аналітичне мислення і критичне - це те, чого дуже складно навчити. Якщо до 20-25 років вже є якесь світогляд, воно навряд чи зміниться.

- Ви це зрозуміли в Х5?

- Не те, щоб саме Х5 до цього мене привів. Я ж теж дивлюся на людей, спілкуюся, бачу, як вони працюють. Як відомо, краще співбесіду - це випробувальний термін. І ви в якийсь момент бачите, що це просто не для цієї людини. Тобто начебто і мехмат закінчив, ніби не дурень, але не його. Немає правильного настрою, не так бачить речі. Це було ще в книжці у Даніеля Канемана «Thinking, Fast and Slow», де він описував, що відповідає критичному мисленню. Це в тому числі песимістичний погляд на світ, і це більше вроджена якість, ніж придбане, на жаль чи на щастя.

- Якщо приходить аналітик, і після випробувального терміну ви розумієте, що він підходить, на що людина може розраховувати?

- Стандартно в ІТ є градації - джуніор, мідл,сеньйор і стажист. Вище вже рідко зустрічається - це стафф або ведучий. Я вважаю, що відбувається інфляція посади сеньйора: у нас їх купа, а по факту вони рідко дотягують до середнього мідла.

Якщо брати середні по ринку зарплати, джуніоротримує десь на 120-150 тис. рублів до податків на місяць, мідл - до 250 тис. Сеньйори близько 400 тис. рублів. Верхня планка: я особисто тримав оффер в руках на провідного розробника, це було більше 600 тис. Рублів.

«Data science - дійсно якась" вишенька на торті "»

- Як ви почали займатися машинним навчанням?

- В університеті взагалі не було машинногонавчання. Тому що я закінчив вуз в 2012 році, приблизно тоді ж стався черговий підйом речей, пов'язаних з ним. Не встиг. Закінчив два університети, останній - це Університет прикладних наук в Карлсруе, магістратура по мехатроніці. До цього навчався в Московському інституті хімічного машинобудування, зараз це називається Московський політех. Машинним навчанням я ні там, ні там не займався.

Забавна річ: Зараз проводить співбесіду тих, які закінчують data science, і створюється відчуття, що їх рівень слабше і від, ніж у тих хлопців, які закінчили фізику, інженерні спеціальності, комп'ютерні науки, а потім машинне навчання на це «накрутили». Може, це якийсь зсув, тому що хлопці, які самі це вивчили, спочатку були сильними, ще щось нове вивчили і прийшли. А data science - дійсно якась «вишенька на торті», і якщо самого «тортика» немає, а «вишенька» є, то це не так цікаво.

- Як ви цього самонавчанням?

- Є стара приказка, що на Coursera є двасерйозних курсу, навіть півтора. Це курс Хинтона про машинне навчання і нейронні мережі (курс більш не доступний на Coursera, але його можна подивитися на YouTube - «Хайтек») і курс Дафни Коллер про ймовірні неографіческіе моделі.

Курс Коллер - це записані на відео лекції,який вона читає аспірантам в Стенфорді. Тому назвати його не зовсім серйозним не повертається язик. Курс Хинтона триває 16 тижнів, а у Коллер - три курси по п'ять-шість тижнів. І я зібрав сили в кулак, пройшов перший курс і зрозумів, що другий і третій не готовий проходити.

Але Coursera - це не єдиний засіб. Я читаю дуже багато книг. Зараз закінчив, до речі, книжку Бредлі Ефрона за статистикою (американський статистик, лауреат Національної медалі пошани США - вищої державної нагороди для американських вчених - «Хайтек»). До цього - книгу Йена Годфеллоу (американський фахівець по машинному навчання, працює в Google Brain - «Хайтек») по глибокому навчанню. Це безперервний процес навчання. Coursera - лише один з ресурсів, Kaggle (онлайн-спільнота фахівців з комп'ютерних наук, де регулярно проводяться змагання - «Хайтек») - це інший, але головне - читання, читання, читання і перевірка. Якщо ви прочитали і не зрозуміли, це погано. Якщо ви зрозуміли, як це працює, то можете що завгодно зробити.

Це як з таблицею множення. Уявіть, що людина таблицю множення не розуміє, але вивчив напам'ять. Його запитують: «Шість на шість?» - «36». - «Сім на вісім?» - «56». - «Ну добре, останнє запитання, 10 на 11?» - Людина говорить: «Я не знаю, в таблиці множення цього не було». Ось і все. Ось з такими людьми я часто зустрічаюся. 10 на 11 набагато простіше порахувати, але цього ж немає в таблиці, треба розуміти принцип. Якщо ви розумієте принципи, далі все набагато легше.

Все інше залежить від людини. Здається, що будь-яку річ ми вивчаємо самі. Нам просто допомагають і не заважають інші люди. Все це питання самодисципліни.

- Розкажіть про ваш курсі по data science в ВШЕ.

- Це безкоштовний курс, він в рамках стандартноїпрограми, на нього розповідаю базові прості речі, які для багатьох людей - одкровення. Наприклад, які є метрики, навіщо вони взагалі існують, як один від одного відрізняються, в яких випадках яка потрібна, як перевірити вашу ідею, що таке A / B-тест. Це те, що я для себе вивів, що важливо знати людям і що їм дійсно потрібно в роботі.

- Яким ви бачите майбутнє рітейлу через п'ять-десять років?

- Якщо ми про продуктовий ритейл говоримо, тоформат гіпермаркетів буде відмирати. Це видно зараз по Штатам, як там відмирають великі торгові центри, і в Росії, до речі, теж. Раніше який був патерн споживання? Ми приходимо в торговий центр, в кіно, в ресторанний дворик, ще що-небудь купимо. Зараз приходимо додому, ivi, Okko, Netflix, Яндекс.Еда, Delivery Club, доставка з ресторану, шопінг онлайн. Треба йти в сторону персоналізації.

- Що це означатиме для споживача?

- Людина користується ніж? Тим, що може собі дозволити, і тим, що йому зручно. Відповідно, потрібно знижувати витрати, тримати ту саму якість або підвищувати його. Ось тут на розум і приходить персоналізація.

- Людина купує те, що може собі дозволити. Зараз реальні доходи населення падають, витрати скорочуються.

- При такій ситуації магазинні економ-формативідчувають себе краще і ростуть. Є два шляхи вирішення багатьох проблем для рітейлерів. Або автоматизація, або найняти ще десять чоловік. У короткостроковій перспективі другий шлях - це виграшна стратегія, тому що інтеграція - це дорого, довго, що щось піде не так, можна премії позбутися. А тепер уявіть, що ви - директор департаменту з дуже великою премією, і можете її втратити. Будете ви працювати в компанії через два роки, коли стане відомий результат цієї автоматизації, чи ні, і похвалять вас за них, - незрозуміло. А премія у вас ось уже може бути. Тому наймаємо десять чоловік ще. Але це в довгостроковій перспективі веде до великого збитку.