Jak počítačové vidění vyhraje fronty a prázdné regály v supermarketech - Valery Babushkin, X5 Retail Group

„Je snadné růst o 20%, pokud jste otevřeli jeden a půlkrát více obchodů“

- Ve svém projevu

uvedl, že tržby skupiny X5 Retail Group v roce 2017 dosáhly 1,286 bilionů rublů a snížení nákladů i pro malou akcii vede k obrovským ziskům. Jak X5 expanduje?

- Obrat na X5 bude stále růst. Obecně se trh snaží o konsolidaci v maloobchodě. V současné době máme tři přední maloobchodníky zabývající se přibližně 20% trhu a v zemích rozvinutého kapitalismu vidíme, že tento podíl bude asi 70–75%.

Každý den v průměru X5 otevírá šest novýchobchodů. Zatímco mluvíme, X5 otevírá nový obchod (směje se). Na rozdíl od některých jiných hráčů na trhu se věci daří dobře. Podíváte-li se na otevřená data, jeden z nich, s nárůstem o 12%, se zvýšil pouze o 84%. Je snadné spočítat: začnou pracovat negativně. Tam je takový ukazatel, LFL - jako pro, srovnání stejných obchodů za rok. Na X5 na něm, i když malé, ale plus. To znamená, že není těžké růst o 20%, pokud jste otevřeli jeden a půlkrát více obchodů, ale to je ve skutečnosti negativní růst. Pokud vyroste kvůli tomu, že staré obchody fungují lépe a nové otevřené, pak je to docela pozitivní.

- Co si myslíte, jaký podíl na výsledcích vašeho týmu v tomto týmu?

- I když není moc velký, protože týmvytvořil ne tak dávno. Buďme upřímní, růst X5 v roce 2017 je nepravděpodobný vzhledem k tomu, že používáme analýzu dat za pomoci týmu vytvořeného v roce 2018.

Vedoucím našeho ředitelství je Anton Mironenkov, muž, který se podílel na vzniku společnosti X5. On byl zapojený do sloučení “křižovatky” a “Pyaterochka”, po kterém X5 se objevil.

Velký datový směr považujeme za strategický. Budoucnost maloobchodu souvisí s tím, jak rychle se maloobchodníci naučí zpeněžit, používat data, která každý den vytváříme v dostatečně velkém množství, aby optimalizovali procesy a zlepšili zákaznické zkušenosti. Proto jsme se rozhodli toto všechno rozdělit do samostatného směru a zaměřit se tak, aby se rychleji vyvíjelo.

Anton Mironenkov, ředitel velkého datového ředitelství X5

V rámci tohoto ředitelství máme vlastní moc,Klastr, vývojáři, testery, analytici, projekty, produkty - vše, co potřebujete. Udělali jsme již některé věci, a to je velmi velký pokrok po dobu kratší než jeden rok. Jasně chápeme, že společnosti dáme poměrně velký zisk, ale opět, tyto výsledky budou viditelné až po roce.

Všechny informace v šeku - pokud jste si koupili vodku, pak jste starší 18 let.

- Když přijdu na "Křižovatku" a udělám nákup, co všechno si vezmeš k analýze?

- Zkontrolujte. Vaše produkty vás charakterizují docela dobře. Pokud si koupíte plenky, pravděpodobně máte malé dítě. Pokud je vodka, pak jste starší 18 let. Osoba může koupit žetony, a to bude s určitou pravděpodobností teenager 16 let. A pokud jste si koupili deník, pak vy nebo vaše rodina má dítě od sedmi do 17 let. To je spousta informací.

Představte si: přijdete do obchodu, podívejte se na některé produkty a pochopíte, že obchod je drahá, levná nebo střední cenová kategorie. V Pyaterochce existuje 4 až 8 tisíc unikátních produktů. Je nepravděpodobné, že půjdete s notebookem a zapíšete si ceny všech druhů zboží, a pak se podívejte na průměrné ceny zboží ve městě a vyvodte závěr. Stačí se podívat na pět až deset produktů. A tak na jaké produkty se díváte, jsme také angažovaní.

Produkty, na které se lidé dívají, se také měníčas. Jednoduchý příklad: před 20 lety neexistovaly žádné produkty týkající se mobilní komunikace. Nyní můžete, ne ve všech obchodech, ale koupit SIM kartu. Před 20 lety byly v Rusku obecně časy o něco těžší, než jsou nyní, a spotřeba byla úplně jiná.

- Jak je vytvoření zákaznických profilů nabízet slevy?

- Existují dva produkty: profil zákazníka a loajalita. Profil klienta je takový úkol, když nemáte nějaké značení a nepoužívejte různé přístupy. Používáme různé přístupy ke klastrování - počínaje standardními statistikami, spočítáme některé Z-rychlosti, robustní odchylky od mediánu a končící Word2vec, superponované na kontroly, a „překládáním“ osoby do vektorového typu zprůměrovaného pomocí TF-IDF nad Word2vec.

Z-skóre, Z-skóre - statistické vyhodnocení, které vyjadřujevzdálenost (měřená jako směrodatná odchylka) dané úrovně od střední hodnoty datového souboru. Z-skóre je především výstupním ukazatelem bonity společnosti a rizikem jejího úpadku.

Robustní odchylky od angličtiny. robustní, robustní je stabilita odhadů s ohledem na emise v údajích. Uvažováno vzhledem k mediánu.

Word2vec - Nástroj, který umožňuje reprezentovat slova ve formě vektorů.

TF-IDF - Termín ve statistice, označující stupeň důležitosti slova v těle textů

Pokud máte nějaký model, který děláPředpokládejme, že klastrování je úspěšné, pokud se po přidání atributů kvalita modelů zlepší. Zde si můžete spočítat ekonomický efekt a nějaký druh metriky.

- V jaké části obchodů se používají vaše výrobky?

- Celkově. Individuální slevu pro půl milionu uživatelů jsme testovali, abychom pochopili její efekt ve všech 14 tisíc prodejnách X5. Sbíráme online přehledy ze všech těchto obchodů. Máme produktové promo, které se nachází ve všech obchodech. Máme sortimentní matici, máme predikci poptávky. Ujistěte se, že v obchodě, za prvé, je kuře, a za druhé, kuře nevyhyne.

Teď začneme dělat počítačové viděnínebude ve všech obchodech. Začněme s největšími - má smysl testovat pouze v nich. Úloha je poměrně jednoduchá, výhody z ní jsou jasné. Tam je výrobek, může být chybí na polici, ale to může ležet ve skladu, a v tuto chvíli zboží není koupil. To je velmi špatné. Obchod ji koupil, ale nemůže prodat. V nejlepším případě uživatel výrobek nekoupí a v nejhorším případě se otočí a odejde, protože nemusí přijít na místo, kde bude kupovat dva produkty ze tří, a na třetí půjde do jiného obchodu. On přijde okamžitě do obchodu, kde si můžete koupit všechno. A to je řešeno pomocí počítačového vidění. Kamera je nasazena, zjistí, že máte trochu produktu. Oznámení přichází na osobu odpovědnou za to, že jde do skladu pro tento produkt.

Druhým úkolem je řada. Víme, že máme v obchodě frontu. Buď stojíte v řadě, nespokojeni a ztrácíte čas, který se nikomu nelíbí, nebo jděte do obchodu, podívejte se do fronty, otočte se a odejděte. Pokud důvodem fronty je, že stát nemá dostatek zaměstnanců, nelze s tím nic dělat. A pokud je problém, že podmíněná prodavačka sedí v zadní místnosti, odpočívá a pije čaj, a režisér jí volá. Obchod je již v řadě, a dokud nedosáhne, sedí u počítače, zapne se, začne vytáhnout pokladníka, čas uběhne. Stále se na ni dívá, je nervózní, lidi taky. Tento pokladník musí jít ven, než se vytvoří fronta, takže v době odchodu lidé už odjeli do pokladny. Je poměrně snadné řešit pomocí počítačového vidění.

Vyzkoušíme to asi na 150v Moskvě. Za prvé, my sami jsme v Moskvě, a za druhé, je zde větší provoz. Pak je jasné, jak udělat lepší uživatelský zážitek a jaké je použití X5.

"Opravdu se mi nelíbí slovo datový vědec."

- Rozšiřujete své řízení?

- Samozřejmě, že manažeři vidí výsledky. Nikdo vám nedovolí dvakrát rozšířit tým, pokud nepracujete dobře. Tato skutečnost sama o sobě hovoří o naší účinnosti.

- Říkal jste, že máte 32 lidí, kteří pracují, kolik dalších budete nábor?

- Stále někde 20-30. Nyní budeme používat počítačovou vizi a technologii řeči jako součást svého managementu. Tam budou dvě nová oddělení, to znamená, že to je plus deset lidí, podle mého názoru, další 10-15 jsou dohodnuty na příští rok. Existují tzv. Projektové sazby. Očekáváme, že to bude 30-36 plus, někde přes 60 lidí. Jedná se konkrétně o lidi, kteří se zabývají analýzou dat a strojovým učením.

- Kdo pozveš do práce?

- Opravdu se mi nelíbí slovo "datový vědec"protože nemá žádné informace. Můžete přijít do deseti společností, kde hledáte datového vědce, a to bude deset zcela odlišných pozic. Líbí se mi slovo analytik. Jména mých odborů hovoří samy za sebe: existuje oddělení strojového učení, oddělení pro analýzu dat, výzkumná a vývojová skupina, tj. Výzkum, oddělení počítačového vidění, oddělení řeči technologie a skupina analytiků mimo produkt, která řeší problémy, které se objevují mimo existující produktovou řadu. .

Hledám lidi, kteří mohou programovatPython, znalost teorie pravděpodobnosti a matematické statistiky, pokud potřebuji modelování, pak jsou potřebné dovednosti strojového učení. Ale nejdůležitější je schopnost člověka přemýšlet a analyzovat. Stále častěji se dostávám k myšlence, že analytické myšlení a kritika je něco, co je velmi těžké učit. Je-li 20–25 let již nějaký světonázor, je nepravděpodobné, že se změní.

- Rozuměli jste tomu v X5?

- Ne že by mě k tomu X5 vedl. Také se dívám na lidi, komunikuji, vidím, jak fungují. Jak víte, nejlepší rozhovor je zkušební doba. A v určitém okamžiku vidíte, že to prostě není pro tuto osobu. Zdá se, že absolvoval mekhmat, zdá se, že není blázen, ale ne on. Neexistuje žádný správný postoj, nevidí věci. Bylo to v knize Daniela Kanemana „Myšlení, rychlé a pomalé“, kde popsal, co odpovídá kritickému myšlení. To zahrnuje pesimistický pohled na svět, a to je spíše vrozená kvalita než ta, která byla získána, bohužel nebo naštěstí.

- Pokud přijde analytik a po zkušební době, chápete, že je vhodný, co může člověk očekávat?

- standardně v IT jsou gradace - junior, middle,Senor a stážista. Výše se setkáváme jen zřídka - je to personál nebo moderátor. Věřím, že pozice seniorů je nahuštěná: máme jich hodně, ale ve skutečnosti jen zřídka nedosahují středu středu.

Pokud budete mít průměrný plat na trhu, juniorpřijímá někde mezi 120–150 tisíci rublů před zdaněním za měsíc, uprostřed - až 250 tisíc. Senioři asi 400 tisíc rublů. Top bar: Já osobně jsem držel nabídku v rukou na vedoucího vývojáře, to bylo více než 600 tisíc rublů.

„Věda o údajích je opravdu nějaká„ třešeň na dortu “.

- Jak jste začal se strojovým učením?

- Univerzita neměla strojučení. Protože jsem v roce 2012 vystudoval střední školu, zhruba ve stejnou dobu došlo k dalšímu nárůstu věcí, které s tím souvisely. Neměl čas. Vystudoval dvě univerzity, poslední je Univerzita aplikovaných věd v Karlsruhe, magistracie v mechatronice. Předtím studoval na Moskevském institutu chemického inženýrství, nyní se nazývá Moskevský polytechnický institut. Tam jsem se nenaučil strojové učení.

Legrační věc: Ti, kteří dokončili vědu o údajích, jsou nyní dotazováni a zdá se, že jejich úroveň je slabší a nižší než u těch, kteří dokončili fyziku, strojírenství, informatiku, a pak se na tom strojové učení „zranilo“. Možná je to mírný posun, protože kluci, kteří se to naučili sami, byli zpočátku silní, naučili se něco nového a přišli. A věda o údajích je opravdu nějaká „třešeň na dortu“, a pokud neexistuje „dort“ sám, ale je tu „třešeň“, pak to není tak zajímavé.

- Jak jste se to dozvěděl?

- Existuje staré rčení, že na Coursera jsou dvavážný kurz, dokonce půl. Jedná se o kurz Hintona o strojovém učení a neuronových sítích (kurz na Coursera již není k dispozici, ale můžete ho sledovat na YouTube - „High-Tech“) a Daphne Kollerově kurzu o pravděpodobnostních negrafických modelech.

Kurz Koller je přednášen na videozáznamu,, kterou čte studentům postgraduálního studia ve Stanfordu. Proto, aby mu neřekl úplně vážně, neotevře jazyk. Hintonův kurz trvá 16 týdnů a Koller má tři kurzy v délce pěti až šesti týdnů. Sbíral jsem sílu do pěsti, prošel prvním kurzem a uvědomil jsem si, že druhá a třetí není připravena projít.

Ale Coursera není jediným prostředkem. Četl jsem spoustu knih. Mimochodem, mimochodem jsem dokončil knihu Bradley Efron o statistice (americký statistik, laureát Národní medaile cti USA - nejvyšší státní cena pro americké vědce - "Hi-Tech"). Předtím, kniha Jeny Godfellow (americký specialista strojového učení, pracuje v Google Brain - “High Tech”) na hlubokém učení. Jedná se o průběžný proces učení. Coursera je jen jedním ze zdrojů, Kaggle (online komunita odborníků na počítačové vědy, kde se pravidelně konají soutěže - „High-tech“) - je další, ale hlavní je čtení, čtení, čtení a kontrola. Pokud čtete a nerozumíte, je to špatné. Pokud pochopíte, jak to funguje, můžete něco udělat.

Je to jako u násobící tabulky. Představte si, že člověk nerozumí násobícímu stolu, ale naučil se to srdcem. On je dotázán: "Šest až šest?" - "36". - "Sedm na osm?" - "56". - „No, no, poslední otázka, 10 o 11?“ - Muž říká: „Nevím, tohle nebylo v násobícím stole“. No, to je vše. Často se s takovými lidmi setkávám. 10 až 11 je mnohem jednodušší vypočítat, ale to není v tabulce, musíte pochopit princip. Pokud rozumíte principům, pak je vše mnohem jednodušší.

Vše ostatní závisí na osobě. Vypadá to, že se něco naučíme sami. Pomáháme a nezasahujeme do jiných lidí. To vše je otázkou sebekázně.

- Řekni nám o svém kurzu o vědě o údajích v HSE.

- To je volný kurz, to je v rámci standarduprogramy, na které říkám základní jednoduché věci, které pro mnoho lidí - zjevení. Například, jaké jsou metriky, proč vůbec existují, jak se od sebe liší, v jakých případech je nezbytné, jak otestovat vaši představu o tom, co je test A / B. To je to, co jsem pro sebe přinesl, že je důležité, aby lidé věděli a co ve své práci skutečně potřebují.

- Jak vidíte budoucnost maloobchodu za pět až deset let?

- Pokud mluvíme o maloobchodě s potravinami, pakformát hypermarketu vymře. To je nyní vidět ve státech, jak tam velká nákupní centra umírají a mimochodem také v Rusku. Dříve, jaký byl vzor spotřeby? Přijdeme do nákupního centra, do kina, do potravinového dvora, koupíme něco jiného. Nyní jsme doma, ivi, Okko, Netflix, Yandex, jídlo, donáškový klub, doručení z restaurace, nakupování online. Musíme jít k personalizaci.

- Co to bude znamenat pro spotřebitele?

- Člověk používá co? To si může dovolit a to je pro něj výhodné. Proto je nutné snížit náklady, udržet stejnou kvalitu nebo ji zvýšit. Zde přichází na mysl personalizace.

- Člověk si koupí to, co si může dovolit. Reálné příjmy obyvatelstva nyní klesají, náklady klesají.

- V této situaci ukládejte ekonomické formátycítit se lépe a růst. Existují dva způsoby, jak vyřešit mnoho problémů pro maloobchodníky. Buď automatizace, nebo najmout dalších deset. V krátkodobém horizontu je druhá cesta vítěznou strategií, protože integrace je drahá, po dlouhou dobu se něco pokazí, můžete ztratit prémii. Představte si, že jste ředitelem oddělení s velmi velkým prémiem a můžete ho ztratit. Budete pracovat ve firmě za dva roky, kdy bude výsledek této automatizace znát nebo ne, a budou vás za ně chválit - není to jasné. A cena, kterou teď můžete být. Proto najímáme dalších deset lidí. To však dlouhodobě vede k velké ztrátě.