Ким працювати в сфері Data Science і з чого краще почати

Сьогодні фахівці Data Science потрібні вже практично у всіх сферах бізнесу. Йдеться не лише про фінансові

чи ІТ-компаніях. Дата-саєністи затребувані у маркетингу, продажах, розробці продуктів, управлінських рішеннях, передбаченнях трафіку та забезпеченні безпеки складних технологічних систем.

Попит на фахівців Data Science різноїкваліфікації зростає з кожним роком. За даними Академії великих даних MADE від Mail.ru Group і рекрутингового порталу HeadHunter, в 2019 році вакансій в області аналізу даних стало більше в 1,4 рази в порівнянні з 2018 роком. А число вакансій в області машинного навчання зросла в 1,3 рази.

Зростає і заробіток дата-сайентістов. За даними HH.ru, навіть джуніор в Росії отримує близько 120 тис. рублів, тоді як бізнес-аналітик уже може розраховувати на 170 тис. рублів і вище, а аналітик big data - від 200 тис. рублів.

Хто затребуваний і чому?

Найчастіше в Росії дата-сайентістов шукаютьфінансові та ІТ-компанії. А найпоширеніше вимога до претендентів - знання мови програмування Python. Воно зустрічається в 45% вакансій фахівців з аналізу даних і майже в половині вакансій (51%) в області машинного навчання.

Зрозуміло, кількість дата-саентистів також зростає. За даними HH.ru, щомісяця свої резюме розміщують 246 фахівців з аналізу даних, 47 - з машинного навчання.

У список вимог від претендентів також входять:

  • знання SQL;
  • володіння інтелектуального аналізу даних (Data Mining);
  • впевнені знання в математичній статистиці;
  • вміння працювати з великими даними;
  • володіння C ++, Git, Linux.

При цьому близько 65% вакансій в сфері аналізуданих і 50% вакансій фахівців в області машинного навчання доводиться на Москву. Друге місце по Росії займає Петербург (15% і 18% відповідно). Зрозуміло, здобувачі теж в основному сконцентровані в двох столицях. Але сьогодні, щоб проходити навчання, не обов'язково кудись переїжджати, а працювати в віддаленому форматі, на аутсорс, вже стає новим форматом організації робочого процесу.

Де вчитися на дата-сайентіст і що для цього потрібно?

Є кілька підходів до навчання надата-сайентіст. Один з них - більш класичний, вступити до вузу на ІТ-напрямку. У тому числі це можна зробити і за кордоном. Наприклад, навчання на магістра Data Science в американському вузі може обійтися вам в дуже значну суму: від $ 30 тис. До $ 120 тис. Навіть онлайн-курси при зарубіжних вузах за цією спеціальністю стоять як мінімум в $ 9 тис. Є й ті, хто не готовий витрачатися на своє навчання в таких масштабах, тому що подібні витрати потрібно ще окупити, а станеться це не відразу. Наприклад, дата-сайентіст Ребекка Вікері, що працює в цій сфері вже протягом 10 років, склала свою власну програму, за якою вона самостійно вивчала Data Science. У такого підходу теж є свої мінуси: відсутність зворотного зв'язку і підтримки ментора або викладача, віддаленість від колективу, робота на самоті і, нарешті, багатьом такий процес навчання здається нудним.

Ще один варіант - онлайн-навчання вспеціалізованих Діджитал-школах, таких як SkillFactory. Студентів там не просто вчать набору методик і прийомів, а й вчать вчитися. Крім того, у кожного учня буде ментор, який надає підтримку і допомогу, а всі роботи, виконані в процесі навчання, не тільки можна використовувати в якості портфоліо. Ще будучи учнем SkillFactory, майбутній дата-сайентіст входить до галузевого ком'юніті - це не тільки допомагає знайти роботу, але і спілкуватися з колегами, обмінюватися досвідом. В онлайн-школі впевнені, що недостатньо просто вивчити нові технології - потрібно освоїти нові підходи і нові способи мислення. І поодинці з цим справитися складно. Тому всі студенти дають один одному зворотний зв'язок, обмінюються кодом, допомагають шукати помилки і діляться завданнями і реальними кейсами.

Що повинен уміти Junior Data Scientist:

  • використовувати основні алгоритмічні конструкції і структури даних Python для проектування алгоритмів;
  • візуалізувати дані за допомогою Pandas, Matplotlib, Seaborne;
  • створювати моделі промислового якості за допомогою класичного машинного навчання і нейронних мереж для вирішення задач Data Science;
  • оцінювати якість моделі (precision / recall);
  • інтегрувати рішення в продакшн і в бізнес в цілому;
  • працювати з сховищами даних різних типів;
  • працювати з інструментами аналізу великих даних;
  • отримувати дані з веб-джерел або по API;
  • застосовувати методи математичного аналізу, лінійної алгебри, статистики та теорії ймовірності для обробки даних.

Якщо ці скіли здаються вам дуже складними, можете пройти курси Професія Data Scientist.

Хто ж такий дата-сайентіст і що він повинен вміти?

За своєю суттю Data Science - це наступний«Еволюційний» крок людства в роботі з даними. Раніше подібні завдання вирішували математики і статистики. Тепер з приходом штучного інтелекту в методи аналізу даних потрапила оптимізація і інформатика, а значить, новий підхід до пошуку рішень на основі даних став набагато ефективніше колишніх «аналогових» методів.

Робота дата-сайентіст починається зі зборувеликих масивів даних: структурованих і немає. Потім їх перетворять в такий формат, який зручний для сприйняття. Наступний етап: візуалізація і робота зі статистикою. Як аналітичних методів використовують машинне глибоке навчання, імовірнісний аналіз, прогностичні моделі, нейронні мережі.

П'ять базисів для дата-сайентіст

  • Штучний інтелект (ШІ) - область,присвячена створенню інтелектуальних систем, що працюють і діють як люди. ІІ пов'язаний саме з таким завданням використання комп'ютерів для розуміння людського інтелекту, але не обов'язково обмежується біологічно правдоподібними методами. Існуючі на сьогодні інтелектуальні системи мають дуже вузькі області застосування. Наприклад, програми, здатні обіграти людини в шахи, не можуть відповідати на питання.
  • Машинне навчання (Machine learning) -створення інструменту для отримання знань з даних. Моделі ML навчаються на даних самостійно або поетапно: навчання з учителем на підготовлених людиною даних і без вчителя - робота зі стихійними, зашумленими даними.
  • Глибоке навчання (Deep learning) -створення багатошарових нейронних мереж в областях, де потрібно більш просунутий або швидкий аналіз, і традиційне машинне навчання не справляється. «Глибина» забезпечується деякою кількістю прихованих шарів нейронів в мережі, які проводять математичні обчислення.
  • Великі дані (Big Data) - робота з великимоб'ємом часто неструктурованих даних. Специфіка сфери - це інструменти і системи, здатні витримувати високі навантаження.
  • Наука про аналіз даних (Data Science) - воснові області лежить наділення сенсом масивів даних, візуалізація, збір ідей і прийняття рішень на основі цих даних. Фахівці з аналізу даних використовують деякі методи машинного навчання і Big Data: хмарні обчислення, інструменти для створення віртуального середовища розробки та багато іншого.

Як і будь-яка інша професія, освоєння DataScience починається з основ - вивчення математики, лінійної алгебри і, звичайно ж, статистики. Для серйозного розуміння Data Science майбутньому фахівцю потрібно справжній вузівський курс з теорії ймовірностей (включаючи матаналіз). На щастя, сьогодні такі матеріали легко знайти в інтернеті або навіть записатися на один семестр в кращі університети Росії на платформі «Відкрита освіта». Або пройти повний курс Data Science в SkillFactory, де базові знання стануть першим етапом в освоєнні нової професії. Математичні знання перш за все важливі, щоб аналізувати результати застосування алгоритмів обробки даних. Зрозуміло, що сильні інженери в машинному навчанні без такої освіти є. Але це в основному поодинокі випадки.

Другий крок у становленні дата-сайентіст - програмування. Досить вивчити хоча б одну мову, освоївши всі нюанси його синтаксису. Як говорилося вище, один з найбільш затребуваних мов - Python.

Машинне навчання - третя складовапрофесії дата-сайентіст, коли йому вже не потрібно писати інструкції для виконання комп'ютерами певних завдань. ML складається з трьох основних форм: навчання з учителем, навчання без вчителя і навчання з підкріпленням. Детальніше про кожен вид навчання можна почитати в нашому великому матеріалі з професором Яном Лекуном.

І, нарешті, останній крок - Data Mining (аналізданих) і візуалізація даних, що представляє собою важливий дослідний процес і включає в себе аналіз прихованих моделей даних у відповідності з різними варіантами перекладу в корисну інформацію, яка збирається і формується в сховищах даних для полегшення прийняття ділових рішень, покликаних скоротити витрати і збільшити дохід.

Незважаючи на те, що освіту можна отримати вдосить короткі терміни, підтверджувати свою кваліфікацію дата-сайентіст потрібно регулярно, проходячи вузькоспеціалізовані курси, беручи участь в Хакатони, відкритих змаганнях і при пошуку на роботі. Перевагою стане незалежне підтвердження вашої кваліфікації. Наприклад, розширений профіль на Kaggle, де є система рангів. Ви можете пройти шлях від новачка до гросмейстера. За успішну участь у конкурсах, публікацію скриптів і обговорення ви отримуєте бали, які збільшують ваш рейтинг. Крім того, на сайті зазначено, в яких змаганнях ви брали участь і які ваші результати.

Подати заявку

Читайте також:

Подивіться, де зараз летить марсохід Perseverance

Симптоми коронавируса у дітей. На що варто звернути увагу?

Астрономи побачили, як чорна діра випускає мерехтливе гамма-випромінювання