Qui travailler en science des données et par où commencer

Aujourd’hui, des spécialistes de la Data Science sont nécessaires dans presque tous les domaines d’activité. Ce n'est pas seulement une question financière

ou des sociétés informatiques. Les data scientists sont recherchés dans les domaines du marketing, des ventes, du développement de produits, des décisions de gestion, des prévisions de trafic et pour assurer la sécurité des systèmes technologiques complexes.

La demande de spécialistes en science des données est différenteles qualifications augmentent chaque année. Selon la MADE Big Data Academy de Mail.ru Group et le portail de recrutement HeadHunter, en 2019, il y avait 1,4 fois plus de postes vacants dans le domaine de l'analyse de données par rapport à 2018. Et le nombre de postes vacants dans le domaine de l'apprentissage automatique a été multiplié par 1,3.

Les revenus des data scientists augmentent également. Selon HH.ru, même un junior en Russie reçoit environ 120 mille roubles, tandis qu'un analyste commercial peut déjà compter sur 170 mille roubles et plus, et un analyste de big data - à partir de 200 mille roubles.

Qui est demandé et pourquoi?

Le plus souvent en Russie, ils recherchent des data scientistssociétés financières et informatiques. Et l'exigence la plus courante pour les candidats est la connaissance du langage de programmation Python. Cela se produit dans 45% des emplois en science des données et près de la moitié (51%) dans l'apprentissage automatique.

Bien entendu, le nombre de data scientists augmente également. Selon HH.ru, 246 spécialistes de l'analyse de données et 47 spécialistes de l'apprentissage automatique publient leur curriculum vitae chaque mois.

La liste des exigences des candidats comprend également:

  • connaissance de SQL;
  • possession de data mining (Data Mining);
  • connaissance confiante des statistiques mathématiques;
  • capacité à travailler avec des données volumineuses;
  • possession de C ++, Git, Linux.

Dans le même temps, environ 65% des postes vacants dans le domaine de l'analysedonnées et 50% des postes vacants de spécialistes dans le domaine de l'apprentissage automatique se trouvent à Moscou. Saint-Pétersbourg occupe la deuxième place en Russie (15% et 18%, respectivement). Bien entendu, les candidats sont également principalement concentrés dans les deux capitales. Mais aujourd'hui, pour suivre une formation, il n'est pas nécessaire de se déplacer quelque part, mais travailler en format distant, sur l'externalisation, devient déjà un nouveau format d'organisation du processus de travail.

Où étudier pour un data scientist et que faut-il pour cela?

Il existe plusieurs approches d'apprentissage enscientifique des données. L'un d'eux est plus classique, pour entrer dans une université dans les domaines informatiques. Cela peut également être fait à l'étranger. Par exemple, étudier pour un Master en Data Science dans une université américaine peut vous coûter un montant très impressionnant: de 30 000 $ à 120 000 $. Même les cours en ligne dans des universités étrangères dans cette spécialité coûtent au moins 9 000 $. Il y a ceux qui ne sont pas prêts dépenser pour votre formation à une telle échelle, car ces coûts doivent encore être récupérés, mais cela ne se produira pas immédiatement. Par exemple, la data scientist Rebecca Vickery, qui travaille dans ce domaine depuis 10 ans, a créé son propre programme, selon lequel elle a étudié indépendamment la science des données. Cette approche a aussi ses inconvénients: manque de feedback et de soutien de la part d'un mentor ou d'un enseignant, éloignement de l'équipe, travail seul, et, finalement, beaucoup trouvent ce processus d'apprentissage ennuyeux.

Une autre option est la formation en ligneécoles numériques spécialisées telles que SkillFactory. Les étudiants y apprennent non seulement un ensemble de techniques et de techniques, mais aussi apprendre à apprendre. De plus, chaque étudiant aura un mentor qui fournira un soutien et une assistance, et tout le travail effectué dans le processus d'apprentissage ne peut pas seulement être utilisé comme portfolio. Bien qu'il soit encore étudiant chez SkillFactory, le futur data scientist est inclus dans la communauté de l'industrie - cela aide non seulement à trouver un emploi, mais aussi à communiquer avec des collègues et à partager des expériences. L'école en ligne est convaincue qu'il ne suffit pas d'apprendre de nouvelles technologies - il faut maîtriser de nouvelles approches et de nouvelles façons de penser. Et il est difficile d'y faire face seul. Par conséquent, tous les étudiants se donnent des commentaires, échangent du code, aident à trouver des erreurs et partagent des tâches et des cas réels.

Ce qu'un scientifique de données junior devrait être capable de faire:

  • utiliser des constructions algorithmiques de base et des structures de données Python pour concevoir des algorithmes;
  • visualiser les données à l'aide de Pandas, Matplotlib, Seaborne;
  • Créer des modèles de qualité industrielle en utilisant l'apprentissage automatique classique et les réseaux de neurones pour résoudre les problèmes de Data Science;
  • évaluer la qualité du modèle (précision / rappel);
  • intégrer la solution dans la production et les affaires en général;
  • travailler avec des entrepôts de données de différents types;
  • travailler avec des outils d'analyse de Big Data;
  • recevoir des données de sources Web ou via API;
  • appliquer des méthodes d'analyse mathématique, d'algèbre linéaire, de statistiques et de théorie des probabilités pour le traitement des données.

Si ces compétences vous paraissent très difficiles, alors vous pouvez suivre les cours Profession Data Scientist.

Qui est un data scientist et que devrait-il être capable de faire?

À la base, la science des données est la prochaineÉtape «évolutive» de l'humanité dans le travail avec les données Les mathématiciens et statisticiens antérieurs ont résolu des problèmes similaires. Désormais, avec l'avènement de l'intelligence artificielle, l'optimisation et l'informatique sont entrées dans les méthodes d'analyse des données, ce qui signifie qu'une nouvelle approche pour trouver des solutions basées sur les données est devenue beaucoup plus efficace que les méthodes «analogiques» précédentes.

Le travail d'un data scientist commence par la collecteBig Data Sets: structurés et non. Ensuite, ils sont convertis dans un format facile à lire. La prochaine étape: visualisation et travail avec les statistiques. L'apprentissage automatique et en profondeur, l'analyse probabiliste, les modèles prédictifs et les réseaux de neurones sont utilisés comme méthodes analytiques.

Cinq bases pour un data scientist

  • L'intelligence artificielle (IA) est un domainedédié à la création de systèmes intelligents qui fonctionnent et agissent comme des personnes. L'IA est liée à l'objectif similaire d'utiliser des ordinateurs pour comprendre l'intelligence humaine, mais n'est pas nécessairement limitée à des méthodes biologiquement plausibles. Les systèmes intelligents existants aujourd'hui ont des domaines d'application très étroits. Par exemple, les programmes qui peuvent battre une personne aux échecs ne peuvent pas répondre aux questions.
  • Apprentissage automatique -créer un outil pour extraire les connaissances des données. Les modèles ML sont formés sur des données de manière indépendante ou par étapes: formation avec un enseignant sur des données préparées par une personne et sans enseignant - travail avec des données spontanées et bruyantes.
  • L'apprentissage en profondeur -la création de réseaux de neurones multicouches dans des domaines où une analyse plus avancée ou plus rapide est requise et où l'apprentissage automatique traditionnel échoue. La "profondeur" est fournie par un certain nombre de couches cachées de neurones dans le réseau qui effectuent des calculs mathématiques.
  • Big Data - travailler avec le Bigvolume de données souvent non structurées. La spécificité de la sphère réside dans les outils et systèmes capables de résister à des charges élevées.
  • Science des données - dansle cœur du domaine est l'autonomisation des ensembles de données, la visualisation, la collecte d'idées et la prise de décision sur la base de ces données. Les analystes de données utilisent un certain nombre de méthodes d'apprentissage automatique et de Big Data: le cloud computing, des outils pour créer un environnement de développement virtuel, et bien plus encore.

Comme tout autre métier, la maîtrise des donnéesLa science commence par les bases - l'étude des mathématiques, de l'algèbre linéaire et, bien sûr, des statistiques. Pour une compréhension sérieuse de la Data Science, un futur spécialiste aura besoin d'un véritable cours universitaire en théorie des probabilités (y compris le calcul). Heureusement, aujourd'hui, de tels matériels sont faciles à trouver sur Internet ou même à s'inscrire pour un semestre dans les meilleures universités de Russie sur la plate-forme Open Education. Ou suivez un cours complet en science des données chez SkillFactory, où les connaissances de base seront la première étape dans la maîtrise d'un nouveau métier. Les connaissances mathématiques sont principalement importantes pour analyser les résultats de l'application d'algorithmes de traitement de données. Bien sûr, il existe de solides ingénieurs en apprentissage automatique sans une telle formation. Mais ce sont pour la plupart des cas rares.

La deuxième étape pour devenir un data scientist est la programmation. Il suffit d'apprendre au moins une langue, en maîtrisant toutes les nuances de sa syntaxe. Comme mentionné ci-dessus, l'un des langages les plus populaires est Python.

Apprentissage automatique - le troisième composantprofession de data scientist, lorsqu'il n'a plus besoin d'écrire des instructions aux ordinateurs pour effectuer certaines tâches. Le ML se compose de trois formes principales: l'apprentissage supervisé, l'apprentissage non supervisé et l'apprentissage par renforcement. Vous pouvez en savoir plus sur chaque type de formation dans notre grand matériel avec le professeur Jan Lekun.

Et enfin, la dernière étape est le Data Mining (analysedata) et la visualisation des données, qui est un processus de recherche important et comprend l'analyse de modèles de données cachés conformément à diverses options de traduction en informations utiles qui sont collectées et formées dans des entrepôts de données pour faciliter les décisions commerciales conçues pour réduire les coûts et augmenter les revenus.

Malgré le fait que l'éducation peut être obtenue endélais assez courts, un data scientist doit régulièrement confirmer ses qualifications, en passant des cours hautement spécialisés, en participant à des hackathons, des concours ouverts et lors de recherches au travail. Une confirmation indépendante de vos qualifications sera un avantage. Par exemple, le profil avancé sur Kaggle, qui dispose d'un système de classement. Vous pouvez passer de novice à grand maître. Pour une participation réussie à des concours, la publication de scripts et de discussions, vous obtenez des points qui augmentent votre cote. De plus, le site note les compétitions auxquelles vous avez participé et quels sont vos résultats.

Appliquer

Voir aussi:

Voyez où le rover Perseverance vole maintenant

Symptômes du coronavirus chez les enfants. À quoi devez-vous faire attention?

Les astronomes voient comment un trou noir émet des rayons gamma scintillants