Women's learning: дівчата-датасайентісти розповідають про машинному навчанні, кар'єрному зростанні і тренди

Data Scientists - експерти по аналітичним даним, які володіють технічними навичками для вирішення складних

задач. Вони люблять математику, є мало не вченими в області комп'ютерних наук, обожнюють статистику, і головне - дані та їх аналіз. У Росії, за даними Headhunter, зарплата фахівця в області Data Science і машинного навчання може досягати 300 тис. Руб. Ясна річ, що такі фахівці є дуже затребуваними і високооплачуваними на ринку.

Олександра Мурзіна, інженер по машинному навчання в групі перспективних технологій, Positive Technologies

Однією з найбільш багатообіцяючих технік вмашинному навчанні зараз є навчання з підкріпленням (reinforcement learning). Саме на ній, до речі, заснована система DeepMind, яка виграла в StarCraft II. Такий підхід до навчання, а потім і до використання, дійсно більше нагадує ІІ. Подібна система занурена в середу, що дає їй відгуки на дії. Цей спосіб дуже схожий на те, як вчимося ми з вами, але у нас на це, часом, йдуть роки, а тут є можливість істотно прискорити процес за рахунок моделювання та комп'ютерних потужностей.

Наприклад, така система швидше навчиться «добрекерувати автомобілем. Звичайно, залишаться питання, пов'язані з винятковими ситуаціями і роботою системи в їх умовах (в силу обмеження вирішуваних нею завдань). Не менший шум восени 2017 року викликали капсульні нейронні мережі: тоді говорили ні багато ні мало, а практично про переворот в світі глибокого навчання. Сьогодні ж в паблік про них майже забули. На практиці до цих пір дуже популярні бустінгі і архітектури нейронних мереж, які вже стали стандартом для вирішення певних завдань. Таких, наприклад, як детектування об'єктів на зображеннях або класифікація зображень.

Теоретично ІІ як технологія швидше прийде вті сфери, де робота людини в більшій мірі складається з рутинних дій, або в ті області, де необхідно швидко приймати рішення, грунтуючись на великій кількості даних. Тобто гучна новина про те, як 600 трейдерів замінили на дві сотні програмістів цілком собі може перейти в розряд пересічних подій в області автоматизації. Якщо звернутися до галузі кібербезпеки, то така автоматизація можлива, наприклад, в області вірусної аналітики, або виявлення атак. До слова сказати наша команда, як раз і працює над технологією, яка дозволяє за допомогою машинного навчання виявляти атаки на веб-додатки за лічені секунди.

На практиці ж передбачити галузі, в яких ІІбуде затребуваний найбільш масштабно в повну силу і найближчим часом складно, так як його використання пов'язане з масою соціальних і юридичних нюансів. Скажімо, автопілотування: технологічно вже цілком можливо перевести стандартні авіарейси на автопілот, але як багато пасажирів довірять своє життя літаку без людини, що сидить за штурвалом? Або, скажімо, медицина ─ розробок, заснованих на використанні ІІ стосовно цієї галузі багато, але з точки зору законодавчої бази ними не можна користуватися в повній мірі і сьогодні вони залишаються поки на рівні концептуальних.

Так, навколо напрямку багато шуму: при цьому багато експертів вважають за краще відразу говорити про рішення конкретних проблем, економії часу і грошей, за умови використання технології. У реальності ці ідеї спотикаються об кадрове питання: якщо кілька років тому були актуальними є розмови про дефіцит програмістів, то і зараз нічого не змінилося, крім того, що тепер потрібні вже не просто, наприклад, java-програмісти, а ще й комплексні інженери, які можуть задачу зрозуміти і вирішити, в тому числі і методами машинного навчання.

Відчуття перенасичення ринку фахівцями змашинного навчання швидше оманливе, ніж реальне. Так, багато хто вважає, що можуть швидко вивчити цю область пройшовши пару-трійку курсів, а в підсумку ринок перенасичений фахівцями з нерелевантних бекграундом. Однак машинне навчання - це в більшості випадків інструмент для ефективного вирішення конкретного завдання (ну, тільки якщо ви не займаєтеся їм заради нього самого) і для того, щоб правильно підібрати інструмент потрібно володіти великою експертизою в конкретній сфері (в нашому випадку в інформаційній безпеці) .

Історія ж з машинним навчанням сьогодні більшенагадує ситуацію з популярним в розробницького середовищі антипаттерн «золотий молоток», при якому будь-яке завдання намагаються вирішити за допомогою одного єдиного (хоч і золотого) молотка. Фахівці по машинному навчання, які пройшли пару-трійку курсів, застосовують свій досвід в ста випадках зі ста, не будучи в змозі зрозуміти, коли потрібен інший інструментарій - додатковий. Багато з таких свіжоспечених фахівців не розробники і не можуть вийти за рамки Jupyter Notebook (популярний інструмент в ML), або не володіють належними знаннями в інших областях, що не дозволяє їм успішно використовувати технологію в будь-якої конкретної сфері для вирішення специфічних завдань.

Алена Арикіна, Data Scientist ПАТ «Сбербанк»

У машинному навчанні є частина творча,залежна від даних і знань про область, від інтуїції розробника і багато чого іншого. І є речі автоматичні, де потрібно знайти параметри краще і переписати давно відомий код. Другу частину, як і в будь-якому «механічному» процесі, люди прагнуть все оптимізувати, в тому числі і за допомогою машинного навчання. Якщо раніше математики переходили від «ручного навчання» до автоматичного на основі таких бібліотек як keras, то сьогодні прикладами таких оптимізацій можуть служити бібліотеки управління станом датасета, попередня обробка картинок і текстів, навіть автоматичного виявлення особливостей елементів. Алгоритми можуть бути простими (обрізати закінчення у слів) або складними (побудувати спеціальні нейромережі - автоенкодери, що стискають дані до будь-якого розміру), але набір таких засобів підготовки найчастіше визначає якість фінальної моделі, а значить, і навички датасайнтіста.

Машинне навчання в підсумку прийде найпізніше в тіобласті, де його буде гальмувати законодавство або людське недовіра: медицина чи машина з автопілотом. Ми вже бачимо приголомшливі досягнення в цих областях - їх щосили використовують в інших країнах. Але я впевнена: щоб скористатися їхнім досвідом у нас і зробити доступними для простих людей, доведеться виграти не одну бюрократичну війну.

Data Science - це правда дуже цікаво. Кожен другий мій знайомий айтішник вже хоча б читав про машинне навчання. Волею-неволею починаєш переживати: чи не стане датасайнтістов занадто багато. Крім того, зараз машинне навчання намагаються використовувати в будь-якому ІТ-проект і для будь-яких завдань, не надто себе уявляючи, навіщо такі алгоритм там потрібні, - модно ж. Хайп пройде і кількість вакансій знизиться. З іншого боку, питання: чи залишаться в професії ті, хто і правда любить Data Science, а не погнався за модою.

Тетяна Савельєва, керівник групи неструктурованих даних, Яндекс.Таксі, автор телеграм-каналу tldr_arxiv

Слово «ІІ» я взагалі не дуже люблю, тому щовоно занадто загальне і амбітне, і часто змушує людей переоцінювати рівень технологій. Знаєте, є такий жарт: «Як відрізнити ML від ІІ? ML роблять на Python, а ІІ - в PowerPoint ».

Перший тренд Data Science - це збільшуєтьсяпопулярність предметної області: компанії все більше розуміють, що без обробки великої кількості корисної інформації в майбутньому буде важкувато. Є тренд на автоматизацію машинного навчання: якщо 10 років тому доводилося писати все методи для роботи самому, то зараз є багато зручних готових бібліотек.

Але зі зростаючим зручністю використання методівактуальні інструменти все швидше і все більше змінюються - потрібно постійно тримати руку на пульсі. Є тренд на використання нейронних мереж: індустріальні конференції публікують все більше статей, пов'язаних саме з цим типом алгоритмів.

Так-то машинне навчання в останню чергуприйде в сфери, де даних досить мало або де їх взагалі немає - наприклад, у такий спосіб навряд чи передбачиш місце, де впаде астероїд, або час зіткнення Місяця з Землею. Здається, що машинне навчання важко впроваджувати в бюрократичних інститутах - державних органах, медустановах.

У будь-якому випадку, в якийсь момент на ринку будутьз'являтися у великій кількості претенденти на стартові вакансії - молодші спеціалісти або стажисти, так як знання, необхідні для працевлаштування на таку позицію, стають все доступніше. Але попит на досвідчених фахівців, які вже реалізовували ML-проекти, буде рости, оскільки на отримання цього досвіду йде досить багато часу і зусиль, а кількість завдань по машинному навчання зростає швидше, ніж число людей, які встигли і змогли такий досвід отримати.

Емелі билися, директор з аналізу даних Mechanica AI, керівник курсу Data Mining in Action

У сфері машинного навчання одним з найбільшяскравих трендів є перехід від його використання в якості допоміжної технології до повної автоматизації на його основі. Найбільш яскраво це проявляється в автоматизації промислового виробництва, сільського господарства і агропромисловості, а також розвитку концепцій розумне місто і розумний будинок.

Зараз сфер застосування машинного навчаннядосить багато і це пов'язано з поточним рівнем розвитку стека технологій, рівнем нашого розуміння області та низкою невирішених етичних питань. Мій особистий топ застосування - медицина, психологія і педагогіка. Тут мова в першу чергу не про допоміжних сервісах (рекомендаційні системи з діагностики захворювань або діалогові системи), а про повної автоматизації процесів за допомогою AI і ML.

Я думаю, що сфера ІТ сьогодні відрізняється тим, щотехнології розвиваються дуже динамічно і якщо перестати встигати за цими змінами, то є цілком відчутний ризик стати незатребуваним фахівцем. Це одна з небагатьох сфер, де випускники вузів без досвіду можуть конкурувати з досвідченими фахівцями.

Завдяки динамічності ринку робота для тих, хтовстигає за трендами, буде завжди. А ось тим, хто не готовий вчитися все життя, треба буде розв'язати непросте питання: як залишатися релевантним. Тут допоможе досвід, професійний кругозір і знання суміжних (або не дуже!) Областей діяльності.

Сфера освіти в даний момент змінюєтьсяконцептуально і, якщо так можна висловитися, розгортається особою не тільки до школярів і студентів, а й до дорослих фахівцям з досвідом работи.Імея релевантне освіту в минулому, достатня кількість часу і належний рівень завзятості, можна перекваліфікуватися самостійно без істотних фінансових вкладень і пройти співбесіду як мінімум на початкову позицію в сфері аналізу даних. Це одна з цілей, які ставлять перед собою онлайн-курси.

Якщо говорити про вузи, більшість з нихвідчуває цілий ряд труднощів у викладанні актуальних технічних дисциплін: технології змінюються дуже швидко, потрібно залучати практикуючих фахівців, а вони не завжди готові працювати в тому форматі, який має на увазі вуз. Так на допомогу приходять провідні ІТ-компанії, які створюють школи, відкривають кафедри на базі вузів, проводять практичні курси та стажування, а також навчають вчорашніх випускників всередині компанії на старті роботи. У кінченому рахунку завдання вузу я особисто бачу не тільки і не стільки в тому, щоб випустити готового фахівця на ринок, а в тому, що вища освіта має дати людині певний культурний, інтелектуальний та емоційний рівень, від яких його професійне життя залежить більшою мірою , ніж від знання конкретних технологій.

Анна Воєводська, експерт по машинному навчання, «Інфосистеми Джет»

Мені здається, зараз все більше і більше застосовуютьreinforcement learning (навчання з підкріпленням). Рішення вчитися, взаємодіючи з середовищем, використовуючи винагороди, дії і спостереження. Один з найвідоміших прикладів навчання з підкріпленням - AlphaGo. Також такі методи навчання застосовуються для моделювання руху людини (останні змагання на NIPS були про RL), машин та іншого.

Машинне навчання - це диво в найкращомусенсі. Досить складна математика застосовується саме до ваших даних, робиться глибинний аналіз і видається вельми точний прогноз саме для вас. І всі хочуть собі цього чарівництва: і гроші заробляє, і для іміджу корисно - відмінно же.

Що стосується перенасичення ринку кадрами, я в цене вірю. Хороших спеціалістів завжди складно знайти. Наприклад, Java з'явилася не два роки тому, а senior в цій області знайти все ще важко. А хороший датасайетніст взагалі як єдиноріг: і математику знає і любить, і кодіт, і бізнес-метрики розуміє, і пояснює все добре. Якщо у нас в якийсь момент в світі трапиться надлишок таких людей, то буде непогано. Але це якась утопія.