Une expression déjà répandue dans les années 1990, la science des données semble encore loin d’avoir une définition parfaitement définie. De nombreux essayistes du microcosme de la (Big) data et des technologies numériques tentent tour à tour de mettre la main sur les bons mots. Mais il n’en ressort que des acceptions qui ne font pas particulièrement l’unanimité.
Il s’agit d’un sujet pour le moins vaste, et ses applications ne sont pas forcément plus faciles à cerner que la data science elle-même. Cela étant dit, il faut bien avoir une vision unique et précise de ce qu’est cette nouvelle science du 3e millénaire. Par où commencer pour arrêter une bonne définition de la data science ? Et comment ça marche ? Voici quelques précisions.
Quel est l’intérêt de la data science ?
Les données de formes, de formats et de nature variés transitent en plus ou moins grand volume sur les réseaux informatiques et d’internet. Il s’est avéré au fur et à mesure qu’elles ont acquis une place prépondérante dans les technologies des télécommunications et de l’information, le marketing, entre autres domaines. Il devait exister un cadre de travail de recherche et de développement des connaissances et des méthodes permettant de les extraire, de les sélectionner et de les utiliser. Mais pourquoi la data science ? Parce qu’en plus, il s’agit d’une matière à part, donnant lieu à une branche commune de l’informatique, du numérique et de la télécommunication notamment. La data science englobe l’analyse statistique des données pour en tirer des insights significatifs.
La data science permet de découvrir des éléments de prédiction dans les données, de mettre la main sur des valeurs et des informations exploitables. De bout en bout, cela permet de visualiser et de cerner des tendances et des comportements, en vue d’améliorer des services ou des produits, ou d’aider à la prise de décisions plus judicieuses.
Comment définit-on la data science ?
La data science est née bien avant l’avènement d’internet. Mais l’accès très limité aux données a empêché son développement dans les mœurs des technologues. Aujourd’hui, cette discipline à multiples composants et en constante mutation engrange toujours des éléments nouveaux dans son mécanisme, ce qui réduit la possibilité de lui donner une définition claire et un cadre précis. La data science explore les données à travers des méthodes avancées d’analyse statistique afin de dévoiler des tendances, des modèles et des informations stratégiques pour les organisations.
La data science et ses définitions
La littérature de la science des données lui attribue bien des acceptions. Au début des années 2000, des journalistes d’une revue de data science célèbre l’ont défini tout simplement comme « presque tout ce qui a un rapport avec les données ». En 2005, elle est communément reconnue comme un domaine interdisciplinaire qui fait appel à des méthodes scientifiques, des procédés de traitement, des algorithmes et des systèmes informatiques pour extraire des connaissances et des idées à partir d’un grand nombre d’informations. D’autres scientifiques de la data assurent que c’est une nouvelle façon de dénommer les statistiques, mettant en avant son rôle crucial pour prendre des décisions.
Wikipédia avance qu’il s’agit d’un concept visant à unifier plusieurs domaines (les statistiques, l’analyse des données, l’apprentissage automatique et ses méthodes connexes), dans le but d’analyser et de comprendre des phénomènes réels, toujours grâce aux données. Mais on peut aussi trouver des définitions plus simples, dont la plus remarquable : « une discipline pour rendre les données utiles ». Nous allons donc nous en tenir à cette dernière.
Comment fonctionne la data science ?
Où commence et où s’arrête la data science ? Comme sa définition, cette question sur le mécanisme ne trouve pas de réponse définitive. Mais de par les nombreux essais de définition de l’expression, on peut identifier un certain nombre de sous-ensembles de la science des données. On met souvent en évidence : l’analyse des données, les statistiques et le machine learning, soulignant leur rôle crucial pour prendre des décisions.
L’analyse ou le data mining
La science des données consiste aussi en un processus de prise de décisions, encore une fois sur la base de données éclairées et utiles. Mais il va falloir travailler sur des matériaux bruts issus de sources parfois chaotiques et très variées. C’est dans cette première étape de la data science qu’on fait appel au data mining ou analyse exploratoire des données, ou encore analyse descriptive. C’est la partie de la science des données où l’on se charge de la collecte de toutes ces données, de leur épuration, de leur formatage, de leur standardisation, etc, pour les rendre exploitables et utilisables, notamment dans le cadre de projets de data science.
Dans le cadre d’une analyse des données, il existe une certaine règle d’or : s’en tenir à l’existant ! L’idée est de déduire à partir de ce qu’on voit ou ce qu’on sait, et jamais sur l’invisible ou l’inconnu. Le data mining consiste à explorer les données le plus rapidement possible pour voir s’il y a quelque chose sur laquelle s’inspirer. Il ne s’agit donc pas de les analyser de manière approfondie, sachant que ces données n’ont pas encore de sens ou de signification particulière.
Les inférences statistiques
Pour analyser et voir au-delà des données, cela exige une autre expertise centrale : les statistiques, que certains scientifiques ont déjà défini comme une science des données. En tout cas, il s’agit de l’étape la plus délicate et sans doute la plus chronophage d’un mécanisme de data science, notamment dans le cadre de projets de data science. Il s’agit ici en quelque sorte de lisser les valeurs en réduisant les variables au maximum, de mettre les données à l’échelle et de découvrir des données plus lisibles.
Le machine learning
Les statistiques ne sont pas la seule branche des mathématiques utilisée dans un processus de science des données. Aujourd’hui, on utilise aussi des algorithmes mathématiques et informatiques pour permettre d’accélérer l’analyse des données, mais aussi pour mettre en place le machine learning ou apprentissage automatique (supervisé, non supervisé ou par renforcement). Il s’agit d’une des disciplines qui a fait passer la data science à l’étape supérieure. Le machine learning est au centre des activités de science des données. Elle permet au dispositif informatique intelligent d’apprendre de manière autonome grâce aux données. Au lieu des instructions chez les autres algorithmes, on utilise des modèles en lieu et place.
A quoi sert la data science ?
La data science correspond à un certain nombre d’objectifs. Elle sert principalement à créer un moteur de prédictions et de modélisation de tendances à partir des données, afin de produire des recommandations. Cette science des données va ainsi permettre d’optimiser les process internes des entreprises et même de les automatiser, tout en fournissant les meilleurs outils de décisions.
Pourquoi faire de la data science ? Pour l’entreprise, il s’agit tout simplement d’un système prometteur facilitant la croissance. Pour les candidats ou aspirants aux métiers de science des données, c’est une branche aux opportunités immenses, et appelée à devenir un pivot dans tous les secteurs.
Les applications de la data science
La science des données n’a pratiquement plus de limites en ce qui concerne ses applications dans le monde du business, les industries et les services en tout genre. Principalement, on le met en œuvre plus radicalement dans le domaine du commerce, du business et des services en général. En matière de vente de produits et de services par exemple, elle sert à dégager les attentes actuelles ou futures des consommateurs et d’identifier des prospects potentiels. Elle permet de mettre en œuvre des campagnes ciblées et de proposer des recommandations de produits, de mettre en place une organisation de service par rapport au flux d’utilisateurs à certaines heures ou saisons, etc.
La science des données est omniprésente dans certaines industries : maintenance prédictive, processus créatif face aux exigences nouvelles des consommateurs, analyse des conditions logistiques et de production, ainsi de suite. Elle est également de plus en plus implémentée dans le domaine de la santé, dans les recherches toxicologiques et épidémiologiques. La science des données continue de s’étendre à d’autres domaines d’utilisation, donnant lieu à la naissance de nouvelles compétences.
Quelles sont les parties prenantes de la science des données ?
Au fur et à mesure de son expansion exponentielle, la science des données fait appel à une équipe extra large et met à contribution de nombreux autres spécialistes de domaine. Mais dans l’équipe principale de data science, il existe quelques métiers phares.
Le data engineer :
A l’échelle d’internet et de la big data, on a affaire à une quantité incommensurable de données. Le data engineer se donne la responsabilité de gérer les aspects techniques délicats en matière de fourniture de données. Il opère dans des environnements divers pour construire des systèmes de collecte, de gestion, et de conversion des données brutes, en vue de produire des informations exploitables pour les data scientists et les data analysts.
Data analyst
Ce métier vise à exploiter et interpréter les données pour extraire des observations utiles. Il va être amené à mettre en œuvre des méthodes de recoupement, sans pour autant aller au-delà des données en présence. On peut aussi « recruter » un data analyst expert pour les besoins d’avoir des prédictions de manière extrêmement rapide.
Statisticien
Il se charge principalement de l’interprétation de données qu’il aura préalablement collectées et classées. Le statisticien en data science conçoit des méthodes incisives pour rationaliser les décisions, sans prédiction, et en tenant compte des incertitudes.
Le data scientist
C’est quoi le métier de data scientist ? A la différence du statisticien, le data scientist intervient dans un cadre d’usage de la Big data, donc en matière de traitement massif et exploratoire de données. Pour assurer son travail qui doit porter sur une quantité démesurée de données, il devra disposer de compétences majeures en programmation, calcul, etc. En somme, c’est un spécialiste en statistiques et data mining multidisciplinaire.
Ingénieur en machine learning
Il utilise les données et les résultats d’analyse pour choisir, tester et déployer des modèles de ML. Il se charge également du développement d’algorithmes et de programmes logiciels permettant d’extraire des informations pertinentes en vue d’une modélisation. En maniant le « code », l’ingénieur en machine learning va permettre l’intégration des ensembles de données dans le système existant de traitement.
Une bonne liste d’autres compétences est mise à contribution dans les mécanismes, le développement et l’évolution de la data science. Il en est ainsi du Data Quality manager chargé de la vérification, de l’ingénieur logiciel, des métiers de la cybersécurité et de l’éthique, et du spécialiste de la collecte de données entre autres. Mais par-dessus tout, la data science a avant tout besoin d’un décideur, un Chief data scientist par exemple, chargé de la conception des paramètres de prises de décisions, de l’identification des décisions qui doivent être prises à l’aide des résultats, de définir le niveau de rigueur en matière d’analyse de données, ainsi de suite.
Vous souhaitez vous former au Big Data ? Retrouvez les formation Data Full Stack et Data Analyst qui vous forment aux métiers de Data Analyst, Data Scientist, Data Engineer et AI Scientist.
Merci pour votre lecture ! Si vous souhaitez lire nos prochains articles autour de la Data et de l’IA, vous pouvez nous suivre sur Facebook, LinkedIn et Twitter pour être notifié lorsqu’un nouvel article est publié !