Ici archive

La visualisation de données (plus connue sous la version anglophone data visualization) n’est aujourd’hui plus à présenter. Omniprésente dans notre environnement quotidien, la data visualization est pratiquée depuis des centaines d’années. Avec l’avènement de l’ère du numérique, il est aujourd’hui possible de créer très rapidement (et même dynamiquement) des visuels pour représenter la donnée :

  • Plans des transports en commun
  • Courbes d’évolution d’actions boursières
  • Jauges de performance
  • “Camemberts” de répartition
  • Infographies
  • etc…

Ce premier constat étant fait, voyons ensemble pourquoi la data visualization devrait être utilisée (et donc maîtrisée) dans le quotidien professionnel de chacun d’entre nous.

La première réponse venant à l’esprit est de se dire que la data visualization permet de faciliter la communication. C’est vrai, l’un des rôles principaux de la data visualization est de simplifier et résumer de nombreuses données pour les rendre accessibles à tous.

On a l’habitude de dire que 90% de l’information transmise au cerveau est visuelle et que le cerveau est capable de traiter une image 60 000 fois plus vite qu’un texte. Même si ces chiffres ne sont pas exacts et fondés, tout le monde semble s’accorder sur ce point : Il est plus fatiguant de lire un tableau de chiffres plutôt qu’un simple graphique.

Illustrons le point précédent avec un tableau (ne contenant que 8 lignes et 4 colonnes) et un graphique associé.

Les valeurs représentées correspondent au nombre d’utilisateurs fictifs (en millier) de certains assistants graphiques (appelés packages) du langage python.

En moins de 5 secondes, en ce basant sur le tableau, quel package a connu la meilleure progression en terme d’utilisateurs sur ces dernières années ?

Même question en se basant cette fois sur le graphique adapté à la problématique présentée :

Notre crédibilité en présentation dépend de la facilité avec laquelle nous arrivons à faire comprendre à l’auditoire notre message. Comme nous pouvons le constater, il est plus aisé de convaincre une assemblée que le package « Altair » a eu la plus grande croissance en se basant sur le graphique plutôt que sur le tableau.

Le second rôle, non-négligeable, de la data visualization est qu’elle permet de mieux comprendre le comportement de ces données. Elle peut également permettre de mettre en avant des éléments peu visibles (ou invisibles) à partir de données brutes ou de statistiques simples (moyennes, variances, corrélations, etc.).

Pour illustrer ce propos, nous allons exposer le cas d’étude du statisticien Francis Anscombe (1918–2001). Le dataset mis au point représente 4 groupes de données (IIIIII et IV) étudiant l’interaction entre deux variables (x et y). Il permet de démontrer la nécessité de la visualisation dans l’analyse de données. Le voici en détail :

À partir des données brutes il est très difficile, ou même impossible, d’estimer rapidement la répartition des différents jeux de données. Les statistiques de base (présentes à droite) n’aident pas à distinguer les différents jeux de données. Ce n’est bien qu’en visualisant les données que l’on se rend compte des différences :

Si ces petits exemples vous ont convaincus de l’utilité de la data visualization, il ne reste qu’à se lancer !

Cette série d’articles (moins de 5 min de lecture) présentera les principaux risques, meilleures pratiques et conseils pour améliorer l’ensemble de vos visualisations !

Si vous souhaitez être accompagné par nos experts data dans vos démarches de visualisations de données, n’hésitez pas à nous contacter.

Rédigé par Eliot Moll, Consultant Data Driven Business

Thanks to Max Mauray, Nawel Medjkoune, Nicolas Risi, and Clément Moutard.

Aujourd’hui, les initiatives autour de la donnée se multiplient. Les champs du big data et de la datascience ont amené de nombreux cas d’usages, comme la maintenance prédictive, classification de mail, segmentation client, grâce à la quantité de données disponibles et des derniers modèles statistiques.

Mais le chemin jusqu’à la mise en production est souvent délicat et difficile, si bien que de nombreux projets s’arrêtent au stade du POC (Proof Of Concept). C’est là qu’intervient le MLOps.

Le MLOps est une adaptation des pratiques Agiles, principalement Devops, utilisées dans le développement de software, au monde de la donnée, du big data.

La promesse est d’améliorer et d’optimiser le cycle de vie des projets de datascience, d’analyse de donnée, des produits orientés donnée, tant en terme de rapidité que de qualité.

En réalisant ces projets plus rapidement, et de meilleure façon, le MLOps permet de retrouver la confiance des entités métiers dans les projets orientés données en leur fournissant un haut niveau de service. « Confiez-nous des projets, nous les réaliserons de manière rapide et efficace, depuis leur développement jusqu’à leur mise en production ». On va d’une part éviter le “shadow IT” ou l’externalisation et d’autre part, augmenter la quantité de projets exploitables et rendre l’entreprise plus “data driven“.

Pour atteindre cet objectif, il est nécessaire de travailler sur différents axes: la culture, le technique, et l’organisationnel.

#1 L’axe culturel

De même que le DevOps, le MLOps est avant tout un changement culturel. On dit souvent « People over process over tools ». Nous allons tenter d’infuser quelques principes comme le Kaizen (culture de l’amélioration continue), la transparence et le partage. C’est d’autant plus important que de nombreux profils sont impliqués dans ces projets. On retrouve le data scientist, le data engineer, la sécurité, la production et le métier… et tous doivent s’accorder pour collaborer autour du projet.

#2 L’axe technique

Parmi les leviers nous retrouvons des pratiques liées au DevOps:

  • Automatisation (CI / CD)
  • Tests unitaires
  • Bonnes pratiques & normes claires
  • Environnements
  • Gestion de version
  • Starter kit / Boilerplates
  • Monitoring
  • Scalabilité des services

Avec néanmoins des spécificités liées aux projets de datascience:

  • Reproductibilité des résultats
  • Monitoring des performances du modèle, un modèle de prédiction bon aujourd’hui, ne le sera pas forcément demain
  • Mise à disposition de modèles, pour pouvoir utiliser le modèle dans une application, par exemple pour aider un conseiller en agence

#3 L’axe organisationnel

Une fois le modèle prédictif en production, il faut pouvoir le maintenir, résoudre les bugs quand ils arrivent. La datascience nécessitant des compétences spécialisées, l’entière responsabilité des bugs ne peut plus être laissée à une équipe de production. Il faut donc travailler sur l’aspect organisationnel pour redéfinir les rôles et responsabilités, mettre en place une gouvernance autour des projets.

Au-delà de ça, il est nécessaire que tous les acteurs soient mis dans la boucle dès le début du projet, chacun apportant sa pierre à l’édifice. On va chercher à redevenir “project centric”.

Ce sont les 3 principaux axes du MLOps pour garantir la réussite d’un projet data, du développement jusqu’à la mise en production.

Il m’apparaît important d’évoquer deux autres chantiers qui sont souvent gérés séparément mais sont étroitement liés au MLOps.

#4 Gouvernance

Pour faire gagner du temps au DataScientist, qui est un des objectifs du MLOps, il est optimal qu’il puisse trouver la donnée nécessaire à son sujet etsa problématique, de manière simple et efficace. Au lieu d’aller faire le tour des services pour trouver la donnée intéressante, il est plus efficace qu’il puisse explorer la donnée existante, d’une manière qui puisse être autant technique que fonctionnelle. Par exemple, chercher toutes les données relatives au concept de paiement client.

Il est également indispensable avec le RGPD qu’il puisse savoir ce qu’il peut ou ne peut pas utiliser, dans le cadre de son projet.

#5 L’adoption

Une fois que l’on a atteint l’objectif d’offrir un haut niveau de service sur les projets data, il est nécessaire de trouver de plus en plus de cas d’usage. C’est alors la phase d’acculturation et d’adoption auprès des entités métiers qui doit commencer. Il faut leur faire retrouver confiance dans les services proposés mais aussi les inspirer.

C’est indispensable pour réussir à transformer l’entreprise et en faire celle de demain. Si vous voulez en savoir plus, n’hésitez pas à nous contacter !

Rédigé par Nicolas Risi, Consultant Data Driven Business

Thanks to Max Mauray.