ACTUALITÉ SCIENTIFIQUE
ET INNOVATION DE L'ÉTS
La science des données démystifiée - Par : Hamidreza Pourzarei,

La science des données démystifiée


Hamidreza Pourzarei
Hamidreza Pourzarei Profil de l'auteur(e)
Hamidreza Pourzarei est étudiant au doctorat au Département de génie de la construction et des systèmes.

Scientifique des données

L’image d’en-tête a été achetée sur Istock.com et est protégée par des droits d’auteur.

La science des données

De nos jours, les données constituent l’une des valeurs les plus importantes au monde. D’énormes quantités de données sont produites et compilées chaque jour de notre vie. Cette mer de données et d’informations doit être utilisée de manière appropriée pour optimiser les facteurs qui ont une incidence sur notre vie quotidienne.

Pour tirer parti des données ou les considérer comme une valeur, nous devons d’abord les collecter, les analyser et les adapter à des attentes ou à des exigences ciblées. Dans le passé, le concept d’exploration des données (data mining) était considéré comme répondant à ce besoin. L’exploration de données consiste à examiner des mégas bases de données afin de générer de nouvelles informations, utilisées par la suite pour accroître l’efficacité ou résoudre des problèmes complexes.

Avec le temps, ce concept a évolué et a été renommé science des données (data science). La science des données se définit de plusieurs façons. En règle générale, c’est la connaissance multidisciplinaire des données, des mathématiques (statistiques) et des algorithmes, et une technologie visant à proposer des solutions à des situations et à des problèmes complexes. La revue Data Science explique ce concept ainsi :

« La science des données recouvre presque tout ce qui a trait aux données : collecte, analyse, modélisation… Pourtant, la partie la plus importante concerne ses applications, toutes sortes d’applications. »

En d’autres termes, l’objectif de la science des données n’est pas de compliquer les modèles, ni de produire un montage visuel exceptionnel, ni de lire des codes. C’est une science qui peut influer ou créer une valeur ajoutée de différentes façons en utilisant les données à notre avantage. La figure ci-dessous illustre le type de connaissances nécessaires au scientifique, analyste ou ingénieur de données.

Professionnels des données et leurs expertises

 

Cycle de vie de la science des données

Il existe différents types de classification relatifs au cycle de vie de la science des données. Des recherches antérieures démontrent que les étapes de cette classification peuvent se diviser en 5, 6 ou 7 phases. Ici, nous considérons la version complète, soit les sept étapes du cycle de vie de la science des données.

  1. Compréhension des affaires : l’idée sous-jacente ici est d’identifier les besoins et les exigences du système, les facteurs susceptibles d’influencer le projet, les produits, etc. L’objectif ultime sera déterminé à cette étape.
  2. Collecte de données : en gros, données acquises ou collectées. L’important à ce stade est de collecter les données liées aux facteurs déterminés à l’étape précédente.
  3. Préparation des données : ou nettoyage des données, soit améliorer la qualité des données pour l’étape suivante d’analyse. Les incohérences, les attributs mal orthographiés, les valeurs manquantes ou en double seront éliminés.
  4. Analyse exploratoire des données : cette étape vise à trouver un modèle pour les données collectées, en d’autres termes, définir et affiner la sélection des caractéristiques, variables qui seront utilisées dans l’élaboration du modèle. Il convient de mentionner qu’il s’agit de l’étape la plus importante du cycle de vie de la science des données, car toute la modélisation et l’analyse en découleront.
  5. Modélisation : une fois obtenu, l’ensemble des données sera modélisé à l’aide d’une des techniques appropriées, par exemple l’apprentissage automatique (KNN, Arbre de décision, Naive Bayes, etc.).
  6. Évaluation du modèle : chaque modèle proposé sera évalué afin d’en valider la performance. Cette évaluation permet au scientifique des données de choisir le modèle le mieux adapté aux besoins de l’entreprise.
  7. Déploiement du modèle : une fois le modèle validé, un plan de déploiement sera conçu sous la forme d’un résumé de projet, outil ou tableau de bord qui servira de façon régulière.

L’importance de la science des données

La science des données peut répondre à différents types d’exigences dans notre vie quotidienne. Par exemple, voici quelques domaines utilisant la science des données :

  • Les données génomiques permettent de mieux comprendre les enjeux génétiques.
  • Des entreprises de logistique comme DHL ou FedEx peuvent déterminer les meilleurs itinéraires et horaires d’expédition.
  • Les gestionnaires des ressources humaines peuvent prévoir l’attrition des employés et comprendre les variables qui influent sur le roulement du personnel.
  • Les sociétés aériennes peuvent facilement prévoir les retards des vols et informer les passagers.

Vous vous demander peut-être : pourquoi devenir scientifique des données ? En fait, selon des recherches récentes, la science des données est considérée comme le meilleur domaine d’emploi aux États-Unis depuis trois ans (2016, 2017 et 2018), d’après le classement de Glassdoor de 2018. De plus, comme la quantité de données augmente chaque jour, la demande pour ce type de poste augmentera, offrant des opportunités incroyables pour les gens du milieu!

Hamidreza Pourzarei

Profil de l'auteur(e)

Hamidreza Pourzarei est étudiant au doctorat au Département de génie de la construction et des systèmes.

Programme : Génie de la construction 

Profil de l'auteur(e)

Domaines d'expertise :

Mégadonnées et science des données 

Recevez les dernières actualités scientifiques de l'ÉTS
commentaires

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *