Ici archive

Les couleurs sont des éléments visuels très puissants pouvant faire ou défaire un graphique. Il est donc important de comprendre pourquoi la couleur est une composante aussi utile que risquée. Ces deux thématiques vont donc être abordées, en commençant par l’utilité de la couleur !

#1 Utilité de la couleur

C’est l’un des éléments visuels qui attire le plus le regard. Elle est couramment utilisée dans notre environnement quotidien (signaler les dangers, attirer l’œil sur les affiches publicitaires, distinguer les lignes de métro, etc.). Il est donc naturel de retrouver ce type de distinctions dans des graphiques professionnels.

Nous retiendrons deux utilités principales à la couleur dans les graphiques :

La mise en exergue

L’utilisation de la couleur rouge permet ici d’attirer l’attention de l’auditoire sur l’élément important du graphique. La mise en exergue par la couleur est notamment réalisée dans une optique de storytelling[1].

Dans l’exemple précédent, on pourrait très bien imaginer qu’un directeur souhaite souligner des problèmes d’effectifs en Europe.

Pour optimiser cette mise en exergue, il est conseillé d’utiliser des couleurs vives ou chaudes sur l’élément à mettre en valeur ainsi que des couleurs plus neutres ou froides sur les autres éléments. Cela permet d’attirer et de focaliser le regard du lecteur sur l’élément d’intérêt.

L’ajout d’informations

Les couleurs, tout comme les symboles, permettent d’afficher une dimension supplémentaire sur un graphique. On peut, par exemple, représenter 3 variables sur un graphique en 2 dimensions sans alourdir le visuel.

Le graphique ci-dessous représente la corrélation entre la consommation (axe des ordonnés) et la puissance moteur (axes des abscisses). La couleur permet de rajouter une information concernant le nombre de cylindres dans les moteurs.

Concernant cet ajout de dimension, nous pourrons distinguer 4 types d’échelles de couleurs[2].

– L’échelle binaire utilisable pour distinguer deux états. On cherchera ici à utiliser des couleurs avec de forts contrastes : le noir et le blanc, le jaune et le bleu, le vert et le gris, etc.

– L’échelle nominale pour mettre en avant des différences non-hiérarchisables : départements d’entreprises, lignes de métro, typologie de terrain, etc. Des couleurs ayant de forts contrastes correspondent très bien à cette échelle : bleu, orange et vert.

– L’échelle ordinale (ou séquentielle) permettant de différentier des éléments hiérarchisables (catégories d’âge, niveaux de diplômes, scores, etc.). Pour ce type d’échelle, des dégradés de couleurs permettent de faire la distinction tout en liant les valeurs les plus proches.

– L’échelle divergente pour représenter des écarts par rapport à un état/seuil considéré comme neutre. La notion de satisfaction client peut par exemple être représenté avec ce type d’échelle. L’échelle comportera alors une modalité centrale (intégrée à l’échelle d’évaluation de la satisfaction) ne pouvant être rattachée ni à un sentiment positif ni à un sentiment négatif. Il est important de noter que cette échelle est impaire et possède à minima 3 niveaux. Généralement 3 couleurs sont utilisées : une pour le seuil neutre (couleur plutôt neutre) et deux autres couleurs ayant de forts contrastes (avec leurs dégradés s’il y a 5, 7 ou plus de niveaux) pour les écarts.

Dans l’illustration précédente, une échelle nominale a été sélectionnée alors qu’une échelle ordinale aurait été plus adaptée. Corrigeons cela avec plusieurs valeurs de la couleur bleue !

#2 Les risques associés à la couleur

Les couleurs sont à sélectionner avec la plus grande attention possible. De nombreux biais et contraintes sont à prendre en compte lors de l’élaboration d’un graphique. Les principaux problèmes présentés ci-dessous représentent les principaux risques, sans pour autant rendre cette liste exhaustive.

La lisibilité

Le choix des couleurs doit rester naturel, sans empêcher la lecture ni laisser la place au doute entre deux couleurs ou deux teintes. Pour pallier ce problème, nos yeux et notre attention suffisent (ou ceux de la personne réalisant le test du candide[3]).

Pour nous aider, nous pouvons également mesurer la différence de couleur. Divers calculateurs gratuits sont disponibles sur internet pour nous éviter les calculs manuels.

Limiter le nombre de couleurs utilisées

Un trop grand nombre de couleurs est contraignant pour l’œil, sans compter l’effort visuel qui sera nécessaire pour faire les allers et retours avec la légende.

En conséquence, des palettes restreintes sont à privilégier comprenant au maximum 3 à 5 couleurs différentes. Au besoin, il sera peut-être nécessaire de regrouper des modalités ou changer le type de graphique.

Prendre en compte les biais culturels et psychologiques associés aux couleurs

Dans l’imaginaire collectif, certaines couleurs sont associées à certains éléments au sein de thématiques comme par exemple le cas des partis politiques.

Sans légende il serait possible, dans le cas ci-dessous, d’imaginer quels départements ont été remportés par le Centre/Modem, le FN, le PS ou encore par l’UMP lors d’une élection fictive dans les années 2000.

Il est également possible de citer en exemple le cas des couleurs rouge, orange et verte. Inconsciemment ces couleurs sont associées à l’autorisation et l’interdiction, le bien et le mal.

Dans un contexte plus international, certains sujets ont des couleurs associées différentes. Par exemple, le deuil dans les pays occidentaux est associé à la couleur noire, tandis que les cultures asiatiques y associent le blanc, alors que la culture indienne préfère le marron.

Bien entendu, ces biais sont propres à certains domaines et la couleur rouge, marron ou bleue peuvent être utilisées pour d’autres graphiques décorrélés des sujets évoqués.

Les visualisations peuvent être imprimées

Il est conseillé de vérifier la compatibilité des valeurs des couleurs utilisées pour un passage en noir et blanc. L’exemple ci-dessous montre que des couleurs très différentes visuellement peuvent avoir la même valeur et donc être quasi identiques en noir et blanc.

Le dernier point, et pas des moindres : le cas du daltonisme

Cette anomalie de perception des couleurs ne touche généralement que les hommes et concerne environ 8% d’entre-eux (contre 0,5% des femmes). Cette altération des couleurs peut être pénalisante dans le message qu’une visualisation doit faire ressortir.

Il existe divers outils de simulation gratuits recréant les visions des principaux cas de daltonisme. Il peut être intéressant de vérifier le risque des couleurs utilisées, notamment lors de présentations devant une large audience.

Divers sites permettent d’aider à la création de palettes optimales (en prenant en compte le plus possible les risques présentés ci-dessus). On citera notamment ColorBrewer.com et la Color Wheel d’Adobe.

Il ne vous reste plus qu’à élaborer vos plus belles palettes !

Rédigé par Eliot Moll, Consultant Data Driven Business

Thanks to Max Mauray.

Notes
[1] Le storytelling est une méthode de communication fondée sur une structure narrative du discours permettant de faire passer un message depuis les données le plus facilement possible.
[2] Selon les travaux de Cindy Brewer.
[3] Test du candide expliqué dans cet article (Medium).

Le tableau est probablement la visualisation la plus utilisée de nos quotidiens. Des rapports financiers aux horaires de bus en passant par les calendriers (Cf. l’image ci-dessous) et même certains menus de restaurants, il est difficile voire même impossible de n’avoir jamais croisé ou créé un tableau.

Professionnellement, les tableaux sont les data visualizations les plus utilisées car ils ne nécessitent aucune connaissance ou maîtrise de logiciels. Pour de nombreuses personnes le tableau n’est pas un graphique, ainsi ils ne les (re)travaillent pas avant de les présenter. Ceci engendre souvent des visuels peu optimaux voire repoussants.

Rien de mieux qu’un bon exemple pour illustrer ce propos.

Dans le cas présent, compte tenu du nombre conséquent de variables à afficher (7 variables), le tableau est bel et bien une solution pertinente [1]. Cependant, le manque de mise en forme (ou mise en forme non-optimale) rend l’assimilation de l’information difficile, ce qui s’oppose donc au but principal de la data visualization.

Il est possible d’améliorer la mise en forme afin d’alléger la lecture et de rendre ce tableau plus plaisant à lire :

#1 Alléger le ratio encre-information

Ce qui n’allait pas dans l’exemple précédent :

Le premier aperçu du tableau renvoie une impression de lourdeur par la mise en forme de l’écriture, l’utilisation d’un quadrillage ainsi que d’un encadrement épais et par le remplissage en nuance de gris. L’ensemble de ces éléments vont être perçus inutilement par notre œil et notre cerveau. Il faut donc les éviter tant que possible.

Ce qui peut être fait :

Retirer le quadrillage par défaut et le conserver uniquement lorsqu’il est nécessaire, comme pour distinguer des parties au sein du tableau.

Éviter d’utiliser le remplissage des cases (les fonds) et encore moins des fonds foncés. Ils ne sont pas nécessaires pour les titres, quant aux totaux, il est préférable d’opter pour une couleur claire (type pastel).

Éviter d’utiliser à outrance les mises en forme de texte (type gras et italique). Trop de mises en forme sur le texte a tendance à plus noyer l’information qu’à la mettre en valeur.

#2 Faciliter la lecture par ligne

Ce qui n’allait pas dans l’exemple précédent :

Le fond uni et/ou quadrillé peut facilement perdre un lecteur. Bien qu’il soit peu probable de se tromper avec un tableau aussi simple (7 lignes, 7 colonnes), la difficulté augmente très rapidement avec l’ajout de ligne ou de colonnes et il devient alors très facile pour le lecteur de se tromper de ligne lors de la lecture du tableau.

Ce qui peut être fait :

Utiliser une alternance entre le blanc et une couleur neutre et claire permet d’aider l’œil à suivre une ligne. Cette technique améliore donc la lisibilité tout en retirant des éléments visuels du tableau (e.g. un quadrillage appuyé).

#3 Arrondir les valeurs et utiliser des abréviations

Ce qui n’allait pas dans l’exemple précédent :

Le tableau précédent exprime clairement des budgets en millions générant ainsi de nombreux chiffres dans ce tableau. Que celui qui n’a pas eu à compter le nombre de « 0 » dans la colonne “Budget” (pour en déterminer l’ordre de grandeur) me jette la première pierre !

Ce qui peut être fait :

Arrondir les valeurs si les décimales n’ont pas d’intérêt.

Utiliser des puissances de mille (milliers, millions, milliards, etc.) pour réduire les chiffres présents dans le tableau. Il est courant d’utiliser des abréviations telles que le « k » pour les milliers, « M » pour les millions, « G/B/T » pour les milliards. Les abréviations pour les milliers et millions restent génériques, cependant les milliards peuvent dépendre de la langue utilisée et du domaine d’application (monétaire, informatique, etc.). Il est donc conseillé de bien se renseigner sur l’auditoire possible du tableau.

#4 Spécifier les échelles et les unités, notamment monétaires

Ce qui n’allait pas dans l’exemple précédent :

La colonne Budget est exprimée en millions, il n’y a pas plus d’informations. Inconsciemment le cerveau reconstruit par déduction les informations manquantes, dans l’étendu du possible : Le Budget relève d’une question d’argent, ainsi les valeurs annoncées sont très probablement des montants monétaires. Quid de la devise utilisée ? La réponse est peut-être claire et évidente pour le créateur du graphique mais rarement pour les lecteurs.

Il en est de même pour l’échelle temporelle des colonnes “Évolution”. La période est manquante et rend donc l’analyse impossible (ou potentiellement fausse). S’agit-il d’une évolution mensuelle, annuelle ou trimestrielle ?

Ce qui peut être fait :

Spécifier l’unité monétaire. S’il s’agit d’une monnaie dont le symbole est connu (on pense notamment aux euros (€), dollars ($), etc.) : spécifier le symbole monétaire (moins de texte à lire, tout en conservant la compréhensibilité du graphique).

Toujours spécifier les périodes d’évolution pour éviter toute confusion.

Ajouter un titre pour préciser la période des chiffres annoncés ! Un graphique sans titre n’est qu’un dessin !

#5 Garder de la consistance dans les mises en forme

Ce qui n’allait pas dans l’exemple précédent :

Bien qu’il y ait une consistance dans l’ordre des colonnes (la colonne évolution se situant toujours à droite de la colonne des chiffres annuels. Dans le cas présent, il pourrait être confusant d’avoir une colonne d’évolution entre 2 colonnes de valeurs.

La consistance peut également s’appliquer sur la mise en forme du texte en particulier sur l’utilisation des couleurs. Dans l’exemple initial il est fort possible que la baisse du budget de l’équipe “Logistique” soit totalement passé inaperçu.

Ce qui peut être fait :

La structure de ce tableau permet de lever le doute en plaçant la colonne “Recrutements” en seconde place pour se retrouver avec un enchaînement valeur-évolution pour les effectifs et le budget.

Alignement des codes couleur pour les colonnes du tableau.

#6 Utiliser des symboles divers

Ce qui n’allait pas dans l’exemple précédent :

Jusqu’à présent le tableau a été traité comme une simple mise à plat de chiffres. Pour améliorer le rendu il est également possible d’ajouter des éléments plus visuels.

Ce qui peut être fait :

Deux éléments facilement implémentables peuvent permettre de rendre la lecture plus agréable : Aérer le tableau et utiliser des couleurs moins vives (Anthracite à la place du noir, rouge à tendance bordeaux à la place du rouge vif classique, etc.).

Ajouter des symboles tels que des flèches, courbes ou barres est également possible afin de diriger l’œil sur les éléments important. Dans l’exemple ci-dessous l’utilisation de barres met en valeur la dernière colonne (“performances”) plus efficacement que l’utilisation du gras (initialement utilisé).

Il ne s’agit là que d’un exemple. D’autres choix visuels auraient pu être réalisé sans pour autant être considéré comme des choix « plus mauvais ».

L’ensemble des solutions apportées sur le tableau initial ont été réalisée avec un tableau classique (Excel™, pour ne pas le citer). Il n’est donc pas nécessaire de s’équiper en outil de data visualization pour retravailler ses tableaux comme des graphiques.

Vous avez à présent les clés pour captiver votre audience lors de vos réunions !

Rédigé par Eliot Moll, Consultant Data Driven Business

Notes
[1] Il se peut qu’un tableau ne soit pas la seule solution mais figure cependant parmi les meilleures.

La visualisation de données (plus connue sous la version anglophone data visualization) n’est aujourd’hui plus à présenter. Omniprésente dans notre environnement quotidien, la data visualization est pratiquée depuis des centaines d’années. Avec l’avènement de l’ère du numérique, il est aujourd’hui possible de créer très rapidement (et même dynamiquement) des visuels pour représenter la donnée :

  • Plans des transports en commun
  • Courbes d’évolution d’actions boursières
  • Jauges de performance
  • “Camemberts” de répartition
  • Infographies
  • etc…

Ce premier constat étant fait, voyons ensemble pourquoi la data visualization devrait être utilisée (et donc maîtrisée) dans le quotidien professionnel de chacun d’entre nous.

La première réponse venant à l’esprit est de se dire que la data visualization permet de faciliter la communication. C’est vrai, l’un des rôles principaux de la data visualization est de simplifier et résumer de nombreuses données pour les rendre accessibles à tous.

On a l’habitude de dire que 90% de l’information transmise au cerveau est visuelle et que le cerveau est capable de traiter une image 60 000 fois plus vite qu’un texte. Même si ces chiffres ne sont pas exacts et fondés, tout le monde semble s’accorder sur ce point : Il est plus fatiguant de lire un tableau de chiffres plutôt qu’un simple graphique.

Illustrons le point précédent avec un tableau (ne contenant que 8 lignes et 4 colonnes) et un graphique associé.

Les valeurs représentées correspondent au nombre d’utilisateurs fictifs (en millier) de certains assistants graphiques (appelés packages) du langage python.

En moins de 5 secondes, en ce basant sur le tableau, quel package a connu la meilleure progression en terme d’utilisateurs sur ces dernières années ?

Même question en se basant cette fois sur le graphique adapté à la problématique présentée :

Notre crédibilité en présentation dépend de la facilité avec laquelle nous arrivons à faire comprendre à l’auditoire notre message. Comme nous pouvons le constater, il est plus aisé de convaincre une assemblée que le package « Altair » a eu la plus grande croissance en se basant sur le graphique plutôt que sur le tableau.

Le second rôle, non-négligeable, de la data visualization est qu’elle permet de mieux comprendre le comportement de ces données. Elle peut également permettre de mettre en avant des éléments peu visibles (ou invisibles) à partir de données brutes ou de statistiques simples (moyennes, variances, corrélations, etc.).

Pour illustrer ce propos, nous allons exposer le cas d’étude du statisticien Francis Anscombe (1918–2001). Le dataset mis au point représente 4 groupes de données (IIIIII et IV) étudiant l’interaction entre deux variables (x et y). Il permet de démontrer la nécessité de la visualisation dans l’analyse de données. Le voici en détail :

À partir des données brutes il est très difficile, ou même impossible, d’estimer rapidement la répartition des différents jeux de données. Les statistiques de base (présentes à droite) n’aident pas à distinguer les différents jeux de données. Ce n’est bien qu’en visualisant les données que l’on se rend compte des différences :

Si ces petits exemples vous ont convaincus de l’utilité de la data visualization, il ne reste qu’à se lancer !

Cette série d’articles (moins de 5 min de lecture) présentera les principaux risques, meilleures pratiques et conseils pour améliorer l’ensemble de vos visualisations !

Si vous souhaitez être accompagné par nos experts data dans vos démarches de visualisations de données, n’hésitez pas à nous contacter.

Rédigé par Eliot Moll, Consultant Data Driven Business

Thanks to Max Mauray, Nawel Medjkoune, Nicolas Risi, and Clément Moutard.