Big Data : le défi du nettoyage et de la préparation des données

Les data scientists confrontés à plusieurs grands défis

Les data scientists consacrent près de la moitié de leur temps à la préparation et au nettoyage des données, selon les résultats d’une enquête réalisée récemment par Anaconda, l’éditeur de la distribution Python éponyme pour les applications de calcul scientifique. Pour réaliser cette enquête sur l’état de la science des données – 2020 State Of Data Science, Anaconda avait interrogé 2 360 personnes dans 100 pays, dont presque la moitié travaille aux États-Unis.

Impliqués dans des disciplines liées au Big Data, les ingénieurs logiciels et les data scientists sont souvent confrontés à plusieurs grands défis. Ces professionnels de la gestion des données font face à des difficultés liées à la saisie, à la préparation et au nettoyage des données ainsi que des problèmes en lien avec la confidentialité des données. Enfin, les entreprises du secteur ont du mal à trouver des profils expérimentés en Big Data et ayant les compétences techniques requises pour surmonter ces défis.

Le nettoyage et la préparation des données sont chronophages

Au cours de ces dernières années, de nombreux progrès ont été réalisés dans le domaine de la science des données. Néanmoins, le nettoyage et la préparation des données occupe toujours une part importante du travail des data scientists. Selon les estimations de l’enquête Anaconda, le chargement et le nettoyage des données prennent respectivement 19 % et 26 % du temps des personnes interrogées, soit quasiment une demi-journée de leur travail. Ensuite, la sélection, l’évaluation et le déploiement des modèles prennent environ 34 % du temps des data scientists selon la même enquête, soit environ 11 % pour chacune de ces trois tâches individuellement.

Pour ce qui est de la mise en production de ce travail préparatoire, c’est le manque de respect des normes de sécurité IT par les entreprises qui pose le plus de contraintes, à la fois pour les développeurs, les data scientists et les administrateurs systèmes. Par ailleurs, les applications d’apprentissage machine et de data science ont un cycle de vie présentant des défis assez particuliers, notamment le maintien et la correction des vulnérabilités de plusieurs applications open source.

L’inadéquation des formations avec le besoin du marché

Les personnes interrogées par l’enquête Anaconda soulignent une inadéquation entre les connaissances enseignées dans les filières d’éducation et les compétences recherchées par les entreprises. En effet, la plupart des instituts de formation proposent à leurs étudiants des cours de statistiques et dispensent des enseignements théoriques sur l’apprentissage machine ainsi que des cours de programmation Python.

Mais les entreprises opérant en Big Data ont surtout besoin des compétences en gestion de données et des connaissances avancées en mathématiques qui ne sont que rarement ou souvent pas enseignées aux étudiants. Les enquêtés estiment ainsi que le manque d’expérience (avec 40 % des répondants) et de compétences techniques (avec 26 % des répondants) sont les principaux obstacles à l’emploi dans ce domaine. Selon Anaconda, ces deux lacunes pourraient être mieux comblées à travers des stages solides qui ne servent pas uniquement à enrichir les curriculums vitae des étudiants mais qui vont au-delà des compétences techniques.

C’est pourquoi notre école d’ingénierie informatique propose des formations qui répondent aux besoins du marché ! Le recrutement des professionnels ayant une expertise en science des données est en plein essor, en raison du rôle crucial que l’analyse des données peut jouer dans les performances des entreprises. Venez découvrir nos formations pour mieux préparer votre projet professionnel et profiter de la dynamique d’emploi dans le secteur IT !

Ces articles peuvent aussi vous intéresser