Ici archive

Bien que faciles à manipuler et disponibles dans la plupart des outils de manipulation de données (tableurs, outils de data visualization, langages de programmation, etc.) les diagrammes en barres peuvent entièrement perdre leur vocation première de data visualization[1] si certains paramètres sur les axes ne sont pas pris en compte.

#1 Trier les valeurs

Bien que ce premier point semble trivial, beaucoup de présentations utilisent encore des diagrammes en barre non triés ou triés selon un mauvais paramètre ! Outre le fait que les informations sont plus longues à lire, elles peuvent également être faussées par notre esprit.

L’exemple ci-dessous est d’un diagramme en barres (le plus simple possible) représentant l’âge des présidents américains lors de leur première prise de fonction.

L’œil arrive facilement à comparer les éléments proches entre eux. Ainsi il est facile de constater que “Barack Obama a atteint la présidence plus jeune que Bill Clinton”. Quid des autres présidents ?

La loi de la continué, une des lois principales de la Gestalt[2], stipule que notre cerveau interprète les éléments dans leur ensemble et dans leur continuité. Dans le cas du graphique précédent, cela permet de prolonger les extrémités des barres pour les comparer entre elles (ce principe de perception est illustré par la flèche rouge). Cette comparaison naturelle est efficace pour les barres proches, mais beaucoup plus compliquée et moins précise pour les barres éloignées : Qui de Barack Obama, Grover Cleveland ou Ulysses S. Grant a atteint la présidence le plus jeune ? Quels ont été les 5 plus jeunes présidents à prendre leurs fonctions ?

L’intérêt du tri (par ordre croissant ou décroissant, selon le besoin) n’est donc plus à démontrer. Le graphique suivant permet de répondre aux deux questions précédentes bien plus rapidement et sans le moindre effort.

En règle générale, l’analyse de la variable quantitative est la raison d’être du graphique, c’est pourquoi il est donc nécessaire de classer les données selon cette variable.

Quelques exceptions sont quand même notables : lorsque l’autre axe représente des données ordinales, il est de bon ton de classer selon cet axe. Le terme ordinal signifie que la variable qualitative peut être ordonnée, comme par exemple les catégories d’âges, catégories de salaires, les dates, etc.

Ce tri est alors pertinent car il offre au lecteur la possibilité de comparer facilement une modalité de la variable ordinale avec les autres modalités les plus proches. Ce tri permet d’analyser une évolution ou une répartition et a souvent plus de sens que le tri par les valeurs “brutes”.

Cet exemple montre qu’il est plus facile de se représenter la population de cette ville avec le graphique de gauche plutôt qu’avec celui de droite. La lecture du graphique de droite nécessite des allers et retours entre les barres pour reconstruire la vision globale.

Bien entendu, le choix du tri dépendra de la question à laquelle le graphique répond[3].

#2 Couper les axes… ou pas !

Faut-il conserver l’ensemble d’un axe ou est-il possible de le tronquer de son origine (généralement le point “0”) ? Cette question n’a probablement pas de réponse puisque chacun y va de sa préférence. Cette story va cependant en toucher quelques mots !

Bien que les deux graphiques précédents représentent les mêmes données, le fait de tronquer l’axe des ordonnés permet de créer visuellement une forte croissance sur la dernière année. Cependant, une fois ramenée à l’échelle complète cette croissance ne semble pas être si fulgurante (environ 8 à 10% d’augmentation).

Dans ses travaux E. Tufte a introduit le concept de « coefficient de mensonge »[3] représentant un ratio entre l’importance de l’effet visuel et l’importance de l’effet réel. Ainsi, le graphique de gauche ci-dessus aurait un très fort coefficient de mensonge car la barre de 2019 est 300% plus grande que les autres alors que la réalité démontre une augmentation de 8 à 10 % seulement.

L’exemple présenté ci-dessus, ne s’intéresse qu’à la correction du coefficient de mensonge. L’esthétisme de ces barres pleines est discutable et d’autres solutions plus agréables peuvent être utilisées (« Lollipop chart », « dot plot », etc.).

Les graphiques avec de forts coefficients de mensonge sont souvent utilisés par des médias sensationnalistes afin de piéger visuellement les spectateurs/lecteurs novices dans l’analyse de données.

Faut-il pour autant toujours conserver l’ensemble de l’axe ? Non !

A défaut d’avoir des règles prédéfinies quant aux conditions permettant la coupure d’un axe, il est possible de se baser sur le concept du coefficient de mensonge : si la coupure de l’axe n’entraine pas une augmentation du coefficient de mensonge il est alors possible de le couper. Le test du candide[4] peut aider à décider de la conservation de l’axe ou non.

Divers paramètres seront à prendre en compte autant sur la forme que sur le fond du graphique.

  • Le type de graphique est fortement lié à la nécessité de conservation de l’axe. Par exemple, les diagrammes en barres présentent de grands risques d’augmentation du coefficient de mensonge lorsque l’axe est coupé.
  • Si l’intérêt du graphique se porte intégralement sur les variations alors il peut être possible de couper l’axe sans fausser l’interprétation. C’est par exemple le cas des séries temporelles.
  • Les valeurs à afficher sont dé-corrélées de la partie coupée et donc recentrer le graphique apporte une meilleure lisibilité. Par exemple, il est en général de bon ton de recentrer un nuage de point sur les données plutôt que de fixer arbitrairement les valeurs des axes.

Pour ne citer qu’un exemple de graphique pour les points précédents, voici un graphique boursier.

Le cas des graphiques boursiers illustre parfaitement la dé-corrélation entre les données affichées et l’origine du graphique. L’axe principal n’est plus celui des ordonnés mais celui des abscisses : le graphique s’intéresse aux variations entre un point de départ (achat de parts, propre à chaque actionnaire) et le point d’arrivée (moment de la vente ou heure actuelle). Ainsi le “0” de l’axe des ordonnés n’a que peu d’intérêt pour l’auditoire.

En résumé, il faut toujours prêter une attention particulière aux axes, que l’on soit auteur ou lecteur ! Certaines mauvaises pratiques sont délibérément réalisées pour masquer la vérité ou tromper l’auditoire. Prenez garde et ne vous laissez pas avoir !

Rédigé par Eliot Moll, Consultant Data Driven Business

Notes
[1] A savoir, faciliter la compréhension et représenter fidèlement les données.
[2] Plus de détails sur la psychologie de la forme ici.
[3] La notion de “Lie Factor” a été introduit dans son ouvrage “The Visual Display of Quantitative Information”, 1983.
[4] Plus d’information sur cette thématique dans cet article (Medium).

Seriez-vous prêts à croire que 98% des graphiques utilisés dans le monde de l’entreprise sont des diagrammes circulaires (camemberts), diagrammes en barres ou courbes d’évolution ?

C’est pourtant ce qu’a révélé un rapport de recherche de l’ICCA sur l’utilisation des graphiques en entreprise [1].

Certes, un graphique aidera toujours à mieux comprendre les données, mais un graphique adapté au besoin est un élément de communication qui se travaille, tel un discours.

Il est donc impératif de ne plus piocher au hasard dans la boîte magique des graphiques par défaut (d’Excel™ ou d’un autre logiciel). Cette boîte à outils ne fournit généralement que ces 3 types de graphiques, ou des dérivés très proches, comme dans l’exemple.

Ndlr: De manière générale, il serait de bon ton d’arrêter d’utiliser les “camemberts”. Ce graphique (effroyable et utilisé à outrance) fera sûrement l’affaire d’une story Medium dédiée car il est très souvent mal exploité.

Exemple des graphiques proposées par ExcelTM pour un jeu de données

Beaucoup de chercheurs (J. Bertin, E. Tufte, F. Rimlinger, etc.) estiment que la puissance d’un graphique est liée au temps nécessaire à l’assimilation des informations pour obtenir une réponse correcte et complète.

L’œil humain est très perfectionné ; il est le canal principal de la prise d’information pour notre cerveau. Il est donc possible de manipuler de nombreux paramètres pour faire ressortir simplement des informations (même complexes) et ainsi coller à la définition d’un graphique efficace.

C’est à l’auteur du graphique d’expérimenter et de déterminer la meilleure façon de représenter ses données.

Cela se fait par le choix du graphique, qui est indéniablement l’élément principal, mais également par l’ensemble des paramètres annexes (titres, légendes, couleurs, formes, valeurs, axes, etc.).

L’image ci-dessous représente quelques éléments visuels perceptibles par la rétine humaine qui permettent de mettre en avant des notions de différences, de séquences ou de similarités au sein de graphiques [2].

Extrait de "Sémiologie Graphique" de Jacques Bertin.

Plusieurs astuces permettent de s’assurer de la pertinence d’un graphique choisi. En voici deux faciles à appliquer sur n’importe quel graphique.

La première est le test des 3 questions.

Lors de l’élaboration d’un graphique il s’agit de se poser les 3 questions suivantes :

  • À quelle question le graphique doit-il répondre ?
  • Que ressort-il des données ?
  • Quelles conclusions puis-je tirer du graphique ?

Si les réponses entre les deux premières questions et la dernière sont trop éloignées, c’est que le graphique choisi n’est pas adapté ! Il faut ensuite déterminer l’élément trompeur du graphique (une couleur portant à confusion, un axe mal renseigné, un graphique pas adapté, besoin de représenter une information supplémentaire, etc.) et réitérer avec ce test des 3 questions.

La seconde est le test du candide.

Il s’agit de tester le graphique réalisé sur une personne n’ayant aucune connaissance des données représentées. Cela permet de vérifier la bonne transmission du message souhaité.

Cette personne peut avoir des connaissances et compétences dans l’univers de la data. Cela ne pose pas de problèmes du moment qu’il ne connaît pas le message que le graphique doit transmettre. Bien entendu, une personne proche de l’auditoire à qui le graphique s’adresse ferait un meilleur « candide ».

Vous n’avez désormais plus d’excuses pour ne pas réaliser des graphiques pertinents et dans les règles de l’art.

Rédigé par Eliot Moll, Consultant Data Driven Business

Thanks to Max Mauray.

Notes
[1] Rapport de recherche de l’ICCA, “L’utilisation des graphiques dans le cadre de l’information d’entreprise”, décembre 2008.
[2] Cette image est tirée de « Sémiologie Graphique » de Jacques Bertin, l’un des pionniers de l’analyse graphique.