Ici archive

La visualisation de données (plus connue sous la version anglophone data visualization) n’est aujourd’hui plus à présenter. Omniprésente dans notre environnement quotidien, la data visualization est pratiquée depuis des centaines d’années. Avec l’avènement de l’ère du numérique, il est aujourd’hui possible de créer très rapidement (et même dynamiquement) des visuels pour représenter la donnée :

  • Plans des transports en commun
  • Courbes d’évolution d’actions boursières
  • Jauges de performance
  • “Camemberts” de répartition
  • Infographies
  • etc…

Ce premier constat étant fait, voyons ensemble pourquoi la data visualization devrait être utilisée (et donc maîtrisée) dans le quotidien professionnel de chacun d’entre nous.

La première réponse venant à l’esprit est de se dire que la data visualization permet de faciliter la communication. C’est vrai, l’un des rôles principaux de la data visualization est de simplifier et résumer de nombreuses données pour les rendre accessibles à tous.

On a l’habitude de dire que 90% de l’information transmise au cerveau est visuelle et que le cerveau est capable de traiter une image 60 000 fois plus vite qu’un texte. Même si ces chiffres ne sont pas exacts et fondés, tout le monde semble s’accorder sur ce point : Il est plus fatiguant de lire un tableau de chiffres plutôt qu’un simple graphique.

Illustrons le point précédent avec un tableau (ne contenant que 8 lignes et 4 colonnes) et un graphique associé.

Les valeurs représentées correspondent au nombre d’utilisateurs fictifs (en millier) de certains assistants graphiques (appelés packages) du langage python.

En moins de 5 secondes, en ce basant sur le tableau, quel package a connu la meilleure progression en terme d’utilisateurs sur ces dernières années ?

Même question en se basant cette fois sur le graphique adapté à la problématique présentée :

Notre crédibilité en présentation dépend de la facilité avec laquelle nous arrivons à faire comprendre à l’auditoire notre message. Comme nous pouvons le constater, il est plus aisé de convaincre une assemblée que le package « Altair » a eu la plus grande croissance en se basant sur le graphique plutôt que sur le tableau.

Le second rôle, non-négligeable, de la data visualization est qu’elle permet de mieux comprendre le comportement de ces données. Elle peut également permettre de mettre en avant des éléments peu visibles (ou invisibles) à partir de données brutes ou de statistiques simples (moyennes, variances, corrélations, etc.).

Pour illustrer ce propos, nous allons exposer le cas d’étude du statisticien Francis Anscombe (1918–2001). Le dataset mis au point représente 4 groupes de données (IIIIII et IV) étudiant l’interaction entre deux variables (x et y). Il permet de démontrer la nécessité de la visualisation dans l’analyse de données. Le voici en détail :

À partir des données brutes il est très difficile, ou même impossible, d’estimer rapidement la répartition des différents jeux de données. Les statistiques de base (présentes à droite) n’aident pas à distinguer les différents jeux de données. Ce n’est bien qu’en visualisant les données que l’on se rend compte des différences :

Si ces petits exemples vous ont convaincus de l’utilité de la data visualization, il ne reste qu’à se lancer !

Cette série d’articles (moins de 5 min de lecture) présentera les principaux risques, meilleures pratiques et conseils pour améliorer l’ensemble de vos visualisations !

Si vous souhaitez être accompagné par nos experts data dans vos démarches de visualisations de données, n’hésitez pas à nous contacter.

Rédigé par Eliot Moll, Consultant Data Driven Business

Thanks to Max Mauray, Nawel Medjkoune, Nicolas Risi, and Clément Moutard.

Aujourd’hui, les initiatives autour de la donnée se multiplient. Les champs du big data et de la datascience ont amené de nombreux cas d’usages, comme la maintenance prédictive, classification de mail, segmentation client, grâce à la quantité de données disponibles et des derniers modèles statistiques.

Mais le chemin jusqu’à la mise en production est souvent délicat et difficile, si bien que de nombreux projets s’arrêtent au stade du POC (Proof Of Concept). C’est là qu’intervient le MLOps.

Le MLOps est une adaptation des pratiques Agiles, principalement Devops, utilisées dans le développement de software, au monde de la donnée, du big data.

La promesse est d’améliorer et d’optimiser le cycle de vie des projets de datascience, d’analyse de donnée, des produits orientés donnée, tant en terme de rapidité que de qualité.

En réalisant ces projets plus rapidement, et de meilleure façon, le MLOps permet de retrouver la confiance des entités métiers dans les projets orientés données en leur fournissant un haut niveau de service. « Confiez-nous des projets, nous les réaliserons de manière rapide et efficace, depuis leur développement jusqu’à leur mise en production ». On va d’une part éviter le “shadow IT” ou l’externalisation et d’autre part, augmenter la quantité de projets exploitables et rendre l’entreprise plus “data driven“.

Pour atteindre cet objectif, il est nécessaire de travailler sur différents axes: la culture, le technique, et l’organisationnel.

#1 L’axe culturel

De même que le DevOps, le MLOps est avant tout un changement culturel. On dit souvent « People over process over tools ». Nous allons tenter d’infuser quelques principes comme le Kaizen (culture de l’amélioration continue), la transparence et le partage. C’est d’autant plus important que de nombreux profils sont impliqués dans ces projets. On retrouve le data scientist, le data engineer, la sécurité, la production et le métier… et tous doivent s’accorder pour collaborer autour du projet.

#2 L’axe technique

Parmi les leviers nous retrouvons des pratiques liées au DevOps:

  • Automatisation (CI / CD)
  • Tests unitaires
  • Bonnes pratiques & normes claires
  • Environnements
  • Gestion de version
  • Starter kit / Boilerplates
  • Monitoring
  • Scalabilité des services

Avec néanmoins des spécificités liées aux projets de datascience:

  • Reproductibilité des résultats
  • Monitoring des performances du modèle, un modèle de prédiction bon aujourd’hui, ne le sera pas forcément demain
  • Mise à disposition de modèles, pour pouvoir utiliser le modèle dans une application, par exemple pour aider un conseiller en agence

#3 L’axe organisationnel

Une fois le modèle prédictif en production, il faut pouvoir le maintenir, résoudre les bugs quand ils arrivent. La datascience nécessitant des compétences spécialisées, l’entière responsabilité des bugs ne peut plus être laissée à une équipe de production. Il faut donc travailler sur l’aspect organisationnel pour redéfinir les rôles et responsabilités, mettre en place une gouvernance autour des projets.

Au-delà de ça, il est nécessaire que tous les acteurs soient mis dans la boucle dès le début du projet, chacun apportant sa pierre à l’édifice. On va chercher à redevenir “project centric”.

Ce sont les 3 principaux axes du MLOps pour garantir la réussite d’un projet data, du développement jusqu’à la mise en production.

Il m’apparaît important d’évoquer deux autres chantiers qui sont souvent gérés séparément mais sont étroitement liés au MLOps.

#4 Gouvernance

Pour faire gagner du temps au DataScientist, qui est un des objectifs du MLOps, il est optimal qu’il puisse trouver la donnée nécessaire à son sujet etsa problématique, de manière simple et efficace. Au lieu d’aller faire le tour des services pour trouver la donnée intéressante, il est plus efficace qu’il puisse explorer la donnée existante, d’une manière qui puisse être autant technique que fonctionnelle. Par exemple, chercher toutes les données relatives au concept de paiement client.

Il est également indispensable avec le RGPD qu’il puisse savoir ce qu’il peut ou ne peut pas utiliser, dans le cadre de son projet.

#5 L’adoption

Une fois que l’on a atteint l’objectif d’offrir un haut niveau de service sur les projets data, il est nécessaire de trouver de plus en plus de cas d’usage. C’est alors la phase d’acculturation et d’adoption auprès des entités métiers qui doit commencer. Il faut leur faire retrouver confiance dans les services proposés mais aussi les inspirer.

C’est indispensable pour réussir à transformer l’entreprise et en faire celle de demain. Si vous voulez en savoir plus, n’hésitez pas à nous contacter !

Rédigé par Nicolas Risi, Consultant Data Driven Business

Thanks to Max Mauray.

Today’s guest blog is from Geoffrey Felix, a Tableau Ambassador and founder of the Paris Tableau User Group. Geoffrey is a Manager at Saegus where he delivers professional services in data visualization. You can find and contact him at saegus.com.

 

I want to share with you my experience of moving to modern BI with Tableau. Tableau was a game changer for decision making; it changed the way people interacted with the data and deeply transformed the company from the inside—not only the IT landscape, but the whole organization. But it also created a governance hurdle. To get the most value from modern analytics, and especially to transform data into information, data and content governance must be assessed.

 

 

Chapter 1: Love at first sight

When you discover Tableau, it is the “wahoo” effect. After a demonstration, everyone wants to do some testing with their own data. At this time, they have just started their journey with Tableau!

I was always amazed by a Tableau demonstration done with Sample Superstore data—it was smooth and beautiful like a good movie. But when people start to use their own files, it is not as easy. First, they realize they need clean and reliable data, and this workload can sometimes be huge (thanks Tableau Prep for making our lives easier). What often happens is that people will use their reporting tools to extract the data and recreate their own dashboards or do visual analysis.

At this point in my journey, Tableau was present in several parts of the company. But people were isolated, as they are most of the time, without governance processes created yet.

 

 

Chapter 2: The governance hurdle

To get to the next level, the IT department needs to be present and assist you in getting the most out of Tableau. Companies will want to integrate Tableau into their information system. Instead of accessing old reporting data extracts, people can connect directly to sources and raw data. This creates a governance hurdle—you have to balance new access with a framework that maintains the integrity and accuracy of the content where the data is used.

 

 

The Tableau governance frameworkSometimes raw data is easy to process because of simple legacy systems or a good data dictionary, and the IT team can create certified data sources for Tableau in several days. Other times—well, let’s be honest… 80% of the time—raw data is a nightmare and you’ll struggle to get processed data to your business. Why? Because there was likely a lack of consistency in the information system and the old reporting tools had all the intelligence that was validated at that time.

It’s not practical for companies to implement modern analytics as a “big bang” project; you need to deliver value fast in a competitive context, and governance must be flexible and iterative to achieve this. Depending on the company context, a new organization can emerge with a defined scope of processes, roles, and responsibilities that span everyone involved in data projects.

 

 

Chapter 3: A new beginning

We faced some challenges on a recent project where some people were a few months into using Tableau and had started questioning the integrity of the data. The same calculations were being recreated across different data sources, and it was kind of funny how the perception of “it’s only a ‘workbook’ in my personal folders” meant nobody felt responsible for discrepancies. However, one day a department manager used one of these workbooks to negotiate with a customer and the product margin was wrong. The customer realized this and we lost a deal.

From that day we’ve learned that people are the key—not the tools—and that governance is not a switch you turn on. We needed to create a framework of governance that would provide clean and correct data to enable visual analysis for better decision making. We started a team to work on these challenges. An audit of Tableau Server was done to map and understand the most-used data sources and certify them as company-trusted.

Training and adoption were also revamped—bye, bye two-day trainings for beginners and advanced users; hello webinars with real use case scenarios and on-demand coaching (more like real-time workshops and prototyping). New activities and presentations were also created during fun events to help people understand Tableau.

 

 
You’ll see real value when Tableau is broadly deployed across the company, but only if your governance framework can ensure accurate data and analytics content. It becomes more than data visualization—it’s a communication system that will link the whole company in making better decisions.

This blog was originally published on tableau.com