Ici archive

Des champs d’application bien différenciés

Les mots “corrélation” et “causalité” sont souvent utilisés de manière égale, bien qu’ils aient des significations très différentes.

  • La corrélation indique une relation : deux variables sont corrélées lorsqu’elles affichent une tendance à la hausse ou à la baisse.
    Exemple : la consommation de mozzarella est corrélée au nombre de doctorats en ingénierie civile, mais l’un n’est sûrement pas la cause de l’autre. 
  • La causalité caractérise un lien de cause à effet. La cause est en partie responsable de l’effet et l’effet dépend en partie de la cause.
    Exemple : une nourriture trop sucrée peut être une des causes de surpoids. 

La corrélation étant une interprétation statistique déjà largement décrite, nous nous attacherons ici à partager quelques champs d’application de l’analyse de causalité, et plus particulièrement le mécanisme d’inférence causale

L’inférence causale est un processus visant à tirer une conclusion entre le lien de causalité et les conditions d’occurrence d’un effet. 

La méthode “logique” pour décrire ce processus est simple :  

  • Il s’agit dans un premier temps d’identifier le “champ des possibles”, c’est-à-dire les variables descriptives liées aux causes potentielles ; 
  • Dans un second temps, de comprendre l’influence de ces causes sur la variable d’effet (ou variable target), et plus exactement le lien de causalité à partir des conditions d’occurrence d’un effet ; 
  • Une fois ce lien établit, il est alors possible d’utiliser cette connaissance pour réaliser des analyses prescriptives

Note : rappel des niveaux de maturité  

  1. Aucune analyse : on parle ici des entreprises n’ayant pas de processus analytique en place ; 
  1. Analyse descriptive : nous permet de savoir ce qu’il s’est passé en rassemblant et visualisant les données historiques ; 
  1. Analyse de diagnostic : identifie les modèles et dépendances dans les données disponibles, c’est-à-dire explique pourquoi quelque chose s’est produit ; 
  1. Analyse prédictive : crée des prévisions probables de ce qui se passera dans le futur, en utilisant des techniques de Machine Learning pour exploiter de gros volumes de données ; 
  1. Analyse prescriptive : fournit des options d’optimisation, une aide à la décision et des informations sur la manière d’obtenir le résultat souhaité. 

Initialement les principaux champs d’application de l’inférence causale étaient scientifiques : économie, médecine, biologie, génétique, sciences sociales… Aujourd’hui, son usage se généralise pour toucher des secteurs divers comme l’industrie du jeu, le retail ou l’e-commerce, ou plus généralement les applications liées aux “jumeaux numériques” (Digital Twin) dont l’objet est de créer des simulations numériques de phénomènes complexes.

Les limites d’une démarche expérimentale

L’analyse de causalité est un domaine qui se prête particulièrement bien à l’expérimentation, dans une approche purement scientifique. 

  • Le phénomène étudié est d’abord reproduit dans plusieurs environnements dans des conditions identiques ; 
  • L’analyste/scientifique modifie ensuite dans l’un des environnements une ou plusieurs variables pour comprendre leur influence sur l’effet recherché (la variable target). 

Néanmoins, il existe en pratique de nombreuses situations où ce scénario n’est pas applicable : 

  • Si les expériences sont contraires à l’éthique (exemple : vous ne pouvez pas faire fumer un enfant pour tester si la cigarette peut être une cause de cancer infantile) ; 
  • Si la cause ne dépend pas de vous (exemple : un concurrent lance un produit et vous souhaitez mesurer son effet sur vos ventes) ; 
  • Si la réalisation de l’expérience est trop coûteuse 
  • Si le phénomène à observer est trop complexe. 

Lorsque l’expérience n’est pas envisageable, l’utilisation de la donnée est un recours indispensable – elle permet de simuler des phénomènes complexes, facilement scalables, et de manière bien moins coûteuse (ressources humaines, logistique, temps d’étude…) qu’une expérimentation plus classique. 

Note : les deux approches peuvent être combinées pour maximiser la fiabilité des résultats, et éprouver la robustesse des modèles data-driven. 

Comment implémenter un moteur d’inférence causale ?

Plusieurs méthodes scientifiques permettent de construire les relations de causalité à partir de données historiques. La plus connue est celle de « PC » (Peter & Clark), qui est basée sur un algorithme de contraintes.

L’objectif est de construire initialement un graphe entièrement connecté (modélisant toutes les relations théoriques entre les variables) et d’utiliser des tests d’indépendance conditionnelle pour simplifier le graphe causal jusqu’à ce qu’il soit cohérent avec les données observées.   

Note : Dans cette approche, l’absence de liaison entre les 2 nœuds du graphe présente également une information précieuse – il est important de déterminer que deux variables n’ont pas de lien de causalité. 

La méthode consiste à rationaliser les résultats d’exploration pour répondre à des questions spécifiques (cibler l’effet à observer). Les informations causales extraites des données brutes sont modélisées sous la forme d’un “diagramme causal”, c’est-à-dire un graphe orienté qui affiche les relations causales entre les variables du modèle. Un diagramme causal comprend un ensemble de variables (ou nœuds). Chaque nœud est relié par une flèche à un ou plusieurs autres nœuds sur lesquels il exerce une influence causale ; un niveau de probabilité de cette influence y est associé. 

Le parcours du graphe entre deux nœuds suivant des flèches causales est un “chemin”. 

Pour les phénomènes complexes, nous recommandons fortement d’utiliser des bases de données graphes, qui permettent de faciliter la modélisation, les calculs et les parcours de graphe. 

Les outils ?

Les librairies de CI (Causal Inference) connaissent une évolution rapide avec de plus en plus de librairies disponibles et une meilleure intégration dans les systèmes d’information « data-driven ».  

Ci-dessous, une liste non-exhaustive des outils que nous recommandons : 

  • Dowhy, une librairie de CI récemment publiée par notre partenaire Microsoft 
  • Causal ML 
  • CausalNex 
  • EconML 
  • causalImpact

Base de données graphe fréquemment utilisée : 

  • Neo4j 
  • Cosmos DB avec l’API Gremlin 

Pour aller plus loin

Attention à l’industrialisation ! 

Comme souvent dans les projets d’intelligence artificielle, il y a un monde entre l’expérimentation sur un sous-ensemble et la capacité à l’automatiser et le rendre scalable sur des données réelles, qui plus est lorsque le phénomène est complexe (ex. Digital Twin pour l’industrie 4.0). 

Notre recommandation est d’intégrer à l’équipe un ingénieur MLOps dès les phases amont pour éviter de se retrouver in fine avec une expérimentation prometteuse mais non-scalable.

L’interprétabilité des algorithmes d’IA : un usage en plein essor  

L’application de l’IA à des usages règlementés (manipulation de données personnelles, octroi de crédits, fraudes…) nécessite un certain niveau de transparence dans la manière dont l’algorithme produit un résultat. 

La transparence et la traçabilité des modèles est un nouveau champ d’application pour les moteurs d’inférence causale. 

Nos experts ont créés à cet effet l’offre “Reliable ML“ : n’hésitez pas à nous contacter pour en savoir plus. 

Rédigé par Alexander Mikheev, Lead Tech Engineer au sein de notre département Data Driven

La sortie de crise Covid, combinée à la guerre en Ukraine a généré une inflation massive, amplifiée par la reprise économique, une relance budgétaire massive, des pénuries sur certaines matières premières et une tension sur le marché énergétique.

Cette inflation, estimée à 6,5% en France depuis un an, est compliquée à objectiver et mesurer tant elle touche de manière inégale les pays et secteurs. Les entreprises sont confrontées à une difficulté majeure : comment acheter au prix juste dans un contexte d’inflation généralisé ? Comment anticiper les effets de cette inflation sur l’activité des mois à venir ?

Martin Alteirac, Responsable Data for Sustainability chez Saegus, nous explique comment les directions procurement peuvent contribuer, en exploitant mieux leurs données, à minimiser les impacts de l’inflation sur la performance de leur entreprise.

Quelles données les entreprises peuvent-elles utiliser pour objectiver l’inflation ?

Les directions achats ont la chance de disposer pour la plupart d’une source de données critique : leur ERP (Enterprise Resource Planning). L’ERP stocke l’historique de la donnée nécessaire pour déterminer ce qu’une entreprise achète, à qui et où elle l’achète, et évidemment à quel prix. L’exercice n’est pas évident pour les entreprises, qui exercent souvent une activité globale dont les fournisseurs sont répartis dans le monde entier.

Cette première étape permet de construire une cartographie macroscopique des achats de l’entreprise et lister les principales catégories de produits, ou matières premières, ainsi que leur provenance. Cette étape est importante car elle permet d’identifier les types de données nécessaires pour mesurer l’impact de l’inflation dans ces pays. Elle permet également d’identifier les principaux marchés (combinaison d’une catégorie de produit et d’un pays de provenance) intéressants à vigiler.

Pour préciser la mesurer de l’inflation, il est intéressant de déterminer si d’autres sources de données peuvent être récupérées – par exemple, si l’entreprise stocke les offres de prix de ses fournisseurs avant même que les commandes soient passées.

Enfin, il est intéressant de mesurer l’impact potentiel de l’inflation sur les prix payés sur un marché en particulier. Si une partie de l’évolution des prix de vente est liée à des facteurs attribuables à l’inflation (évolution du coût des matières premières, coût du travail, coût de l’énergie…), ce n’est jamais le seul driver – l’équilibre de l’offre et la demande ou une situation concurrentielle sont par exemple des facteurs d’influence essentiels. Il est donc fondamental de réserver ce type d’exercice à des marchés au sein desquels l’évolution du prix payé est principalement liée à celui du coût de production (présence de la concurrence, équilibre entre l’offre été la demande, marges stables).

Une fois ces données internes collectées, il faut donc collecter des données économiques permettant la mesure de l’inflation ?

C’est effectivement l’étape suivante. En fonction du secteur d’activité de l’entreprise concernée, il faut identifier un ou plusieurs fournisseurs de données permettant de consulter en temps réel les données relatives à l’évolution des drivers de coûts dans les pays concernés.

Par exemple, si vous achetez du câble de cuivre en Indonésie, vous pouvez identifier les principaux indices ayant un impact sur son coût de fabrication dans le pays étudié : les salaires dans l’industrie, le coût de l’énergie, le coût du cuivre…

Les fournisseurs proposent en général des modèles de coûts associant ces indices unitaires pour reconstituer un modèle représentant l’évolution théorique des coûts de production, produit par produit.

Une fois ces données récoltées, il est alors possible de comparer l’évolution des prix payés à l’évolution du modèle de coût associé, donc d’objectiver l’impact réel de l’inflation dans l’évolution des prix proposée par le fournisseur. Ce type d’indice étant aussi disponible sous forme de forecasts, il est possible de réaliser des projections sur les prochains mois voire les prochaines années, même si le contexte actuel pousse à la prudence.

Ce type de mécanisme permet ensuite d’estimer l’évolution du prix d’achat d’un produit en fonction de l’évolution attendue de ses principaux drivers de coûts, tout en donnant une marge d’erreur sur cette prédiction.

Concrètement, par quel type d’outil ce type de démarche peut-il se matérialiser ?

La première étape constitue à vérifier que l’entreprise dispose de données suffisamment précises pour réaliser ce type d’étude. Cette étape permet en général de fixer un premier périmètre à adresser : une ou plusieurs familles de produits ayant une origine géographique claire.

Une fois que cette première étape est franchie, on construit une matrice associant à chaque couple (produit/provenance) un modèle de coût. Ce modèle est constitué d’une liste d’indices, auxquels sont associés un poids. Une fois que cette matrice est constituée, l’évolution des prix peut être comparée à l’évolution du modèle de coût associé. Il est alors possible d’identifier parmi les fournisseurs :

  • Ceux qui surperforment : dont l’évolution des prix est inférieure à celle de l’inflation théorique liée à l’augmentation de leurs coûts ;
  • Ceux qui sous-performent : dont l’évolution des prix est plus importante que l’inflation.

On va également être capable de produire des prévisions d’évolution des prix des produits en se basant sur les prédictions d’évolution des coûts de production de ces produits.

Il y a ensuite deux manières d’exploiter cette donnée :

  • La première est de l’injecter dans les systèmes d’information existants de l’entreprise. Si vous vous apprêtez à analyser les offres de prix de vos fournisseurs, il est intéressant de disposer d’une estimation du prix cible qui permet automatiquement d’évaluer la pertinence du prix proposé ;
  • La seconde est de développer des tableaux de bord interactifs analysant ce type de données de manière à la fois macro et micro, sur plusieurs types de produits et dans plusieurs pays. Il est ainsi possible de naviguer au sein des données pour faire des analyses à la carte.

L’intérêt de cette seconde approche est d’accéder à une information détaillée utilisable en phase de négociation financière. Si l’un de vos fournisseurs cherche à justifier l’augmentation d’un de ses prix par l’augmentation du coût de l’énergie ou d’une matière première à un certain pourcentage, il vous sera possible d’accéder en quelques clics à une information fiable permettant, le cas échéant, de contrer ses arguments si les hausses annoncées ne sont pas réelles ou si leur impact sur le coût de production est marginal.

Vous souhaitez découvrir comment la data peut outiller votre fonction achat ? Contactez nos expert·e·s.

Rédigé par Martin Alteirac, Responsable Data for Sustainability au sein de notre département Data Driven

Alors que la crise COVID perturbe encore l’économie mondiale, notamment en Chine qui continue à imposer régulièrement des confinements, la crise ukrainienne a déclenché une forte tension et envolée des prix sur les marchés de l’énergie. Dans un même temps, la lutte contre le réchauffement climatique devient une préoccupation majeure de la société, comme l’illustre la multiplication des règlementations sur le sujet.

Un secteur est particulièrement touché car souvent électro-intensif : l’industrie. Pour les industriels, disposer d’une énergie fiable et bon marché est une impérieuse nécessité. Dans un contexte où la disponibilité du parc nucléaire français est mise à mal par des problématiques de maintenance, le prix élevé de l’énergie et risque de pénurie fait peser sur lui une menace importante.

Martin Alteirac, Responsable Data for Sustainability chez Saegus, nous explique comment les industriels peuvent adopter une démarche data driven pour optimiser leur consommation énergétique, réduire leurs émissions de gaz à effet de serre et in fine assurer leur performance économique.

Quel est l’impact de la crise énergétique en cours sur l’industrie ?

Son impact est massif car cette crise, liée à la baisse de l’offre dans un contexte de reprise mondiale de la demande, a pour effet d’augmenter les prix de l’énergie et faire peser sur les entreprises le risque de coupures.

Tout d’abord, il faut se rendre compte que les prix de gros sur les marchés de l’électricité ont été multipliés par 10 entre le premier trimestre 2019 et le dernier trimestre 2022. Évidemment, il est probable que cette hausse massive ne soit qu’un pic à passer, mais les analystes prédisent que les prix de l’énergie resteront durablement à des niveaux élevés : il est probable que le monde post COVID soit un monde ou l’énergie restera près de quatre fois plus chère qu’elle ne l’était auparavant.

Pour l’industrie, un chiffre suffit à mesurer l’impact de cette hausse : pour un industriel dont l’énergie constituait 20% du coût de production avant la crise, cette même énergie représentera demain 50% de son coût de production, engendrant une augmentation de 60% de celui-ci.

Ensuite, sur la disponibilité : alors que les premières températures négatives sont annoncées et que le gouvernement annonce que des plans de délestage (de coupures) sont à l’étude, il est évident que la hausse des prix ne permettra même pas de garantir la disponibilité de l’énergie. C’est une contrainte insurmontable pour un pan de l’industrie qui a besoin de fonctionner en continu pour des raisons de process industriel (aciérie, verrerie…) ou de contraintes en matière de respect de la chaine du froid (industrie agroalimentaire et pharmaceutique).

Pour faire face à ces deux difficultés, la sobriété énergétique est une réponse efficace car elle permet de limiter le risque de pénurie et l’impact économique de cette hausse des tarifs.

Pourquoi sobriété énergétique et décarbonation sont-ils souvent abordés de concert ?

La première raison est mathématique : l’énergie représente (en moyenne) plus de 50% de l’empreinte carbone de l’industrie. Optimiser sa consommation énergétique est donc un moyen très efficace de diminuer son empreinte carbone. L’impact d’une démarche de réduction de consommation énergétique sur l’empreinte carbone dépend néanmoins du mix énergétique de l’industrie concernée.

Son impact est maximal lorsque l’énergie utilisée est majoritairement d’origine fossile : gaz évidemment, mais aussi pétrole même si celui-ci se fait (heureusement) de plus en plus rare. Lorsque l’énergie utilisée est majoritairement électrique, l’impact dépendra alors de l’intensité carbone de l’électricité. Sur cet aspect des disparités importantes existent au niveau mondial et européen.

En France sur les 12 derniers mois, l’intensité carbone était de 117g de CO2 par kwh d’électricité, que l’on peut comparer à quelques autres pays :

  • L’Allemagne : 513g/kwh
  • La Pologne : 875g/kwh
  • La Suède : 21g/kwh
  • Les États Unis : 522g/kwh
  • La Chine : 766g/kwh

En fonction de l’énergie utilisée et de la localisation de la production, l’impact d’une réduction de la consommation énergétique sur l’empreinte carbone sera donc à quantifier précisément.

Une autre raison poussant les entreprises à mutualiser ce type d’initiatives tient à l’autre inflation, règlementaire cette fois, qui demande aux industriels des efforts sur leur consommation énergétique mais également sur leurs émissions de gaz à effet de serre.

La stratégie nationale bas carbone prévoit une diminution des émissions de gaz à effet de serre de près de 35% à l’horizon 2030, ce qui nécessite de réduire tous les ans ces émissions de 3,5%.

Enfin, la dernière raison qui pousse fréquemment à travailler ces sujets de concert tient aux dispositifs de financement permettant d’optimiser le retour sur investissement de projets d’optimisation de la consommation énergétique industrielle. Des fonds sont mis à disposition par l’État dans le cadre du plan France Relance pour décarboner l’industrie, fond qui sert souvent à financer des projets de réduction de la consommation énergétique.

Comment la data peut-elle permettre de réduire sa consommation énergétique et ses émissions de gaz à effet de serre ?

Mesurer la consommation énergétique d’un site industriel avec la finesse nécessaire pour identifier des pistes d’optimisation concrètes et activables n’est pas aisé. Une grande partie des équipements industriels ne sont pas encore connectés voire ne produisent aucune donnée. Il faut donc commencer par identifier les données disponibles et mettre en place ou moderniser les systèmes de récupération, stockage et valorisation de ces données.

Ce dispositif de mesure permet d’abord d’objectiver le point de départ. Une fois cette étape franchie, il devient alors possible d’identifier les postes et les types de production les plus consommateurs. Deux types d’actions peuvent être mises en place :

  • Modernisation ou remplacement de certains équipements du process de production ;
  • Optimisation du process de production : une modification de la stratégie d’ordonnancement ou du réglage du process.

Plus largement, une mesure granulaire en temps réel permettra d’intégrer le critère énergétique, voire le critère carbone, dans l’organisation des opérations.

Enfin, ce dispositif de mesure est essentiel pour mesurer l’impact réel des actions mises en place en permettant de comparer rapidement la réalité des économies réalisées par rapport à celles espérées. Cette mesure est essentielle pour mettre en place une amélioration continue de la performance énergétique, dynamique indispensable pour atteindre chaque année l’objectif de 3,5% d’économies d’énergie fixé par les pouvoirs publics.

Vous souhaitez découvrir comment la data peut vous permettre de mesurer et réduire votre consommation énergétique et vos émissions de gaz à effet de serre ?

Visionnez notre dernier webinar sur le sujet :

Rédigé par Martin Alteirac, Responsable Data for Sustainability au sein de notre département Data Driven

La recherche de valeur, le but ultime

Nouveau paradigme pour les architectures de données, le Data Mesh bouscule les modèles inventés et mis en œuvre ces dernières années qui reposent sur une approche fédératrice et centralisée des données.

Cette recherche de centralisation a pour objectif de casser les silos et stocker dans un espace commun les données pour en tirer un maximum de valeur et permettre de croiser des informations issues de différents domaines métiers. Elle a ainsi conduit à la création de Data Warehouses ou plus récemment de Data Lakes afin de rassembler les données de l’entreprise au sein d’une structure unifiée.

Le Data Mesh introduit une nouvelle approche et une rupture avec le modèle de centralisation, en tirant parti des silos et en s’appuyant sur une organisation distribuée en réponse aux enjeux Data à l’échelle de l’entreprise.

Dans la mise en place d’une stratégie Data-Driven, les freins majeurs rencontrés par les entreprises pour passer à l’échelle sont souvent liés à une maturité Data hétérogène et à une organisation complexifiant les échanges. La recherche de centralisation au sein d’une architecture de type Data Warehouse ou Data Lake devient alors un goulet d’étranglement.

Le Data Mesh répond aux problématiques courantes liées à ces architectures, à savoir :

  • Le manque de connaissance métier au sein des équipes IT qui gèrent les données, ce qui entrainent parfois des incompréhensions et souvent des échanges multiples avec les équipes métiers, ralentissant fortement les processus ;
  • Un manque de flexibilité des plateformes de données centralisées qui conduit parfois à des solutions technologiques complexes ne pouvant répondre parfaitement à l’ensemble des spécificités ;
  • Une complexité et une latence forte dans la gestion des flux de données, chaque demande métiers nécessitant l’intégration des données dans l’architecture centralisée, rigidifiant cette dernière afin de répercuter les changements à tous les niveaux de la chaine de traitement.

La réponse ordinaire de centraliser pour mieux traiter n’est finalement pas la meilleure solution. Le Data Mesh apporte une nouvelle approche : ne pas lutter contre les silos mais s’appuyer dessus pour en tirer parti. Le but n’est pas de revenir à une vision complètement décentralisée mais d’adopter une approche fédérée pour conserver la maitrise du patrimoine informationnel de l’entreprise.

Le Data Mesh en quelques mots

Le Data Mesh repose donc sur une approche décentralisée ou distribuée équivalente à l’approche microservices dans l’architecture logicielle.

La notion de Data Mesh a été évoqué pour la première fois par Zhamak Dehghani (Monolithic Data Lake to a distributed Data Mesh) et a évolué pour devenir un concept établi. Il a fait l’objet d’une publication de référence en début d’année (Data Mesh, O’Reilly).

Logical architecture of Data Mesh Approach (martinfowler.com)

Le Data Mesh ne se résume pas à un concept technique ni à l’implémentation de briques technologiques. Il couvre l’étendue du spectre du Data Management et ses composantes, à savoir : organisation, compétences, méthodologies, gouvernance, architecture… Le Data Mesh se compose d’ensembles d’éléments appelés domaines de données. L’interconnexion de ces domaines formant ainsi le maillage (mesh) permet de donner une vision d’ensemble des informations métiers.

La notion de passage à l’échelle est un élément central et fournit un cadre de réponse aux freins pouvant être rencontrés. Par son approche globale, le Data Mesh constitue donc une approche adaptée pour répondre aux besoins de la stratégie Data-Driven :

  • Les réponses aux demandes de changement doivent être rapides : les modèles de données doivent pouvoir être modifiés rapidement et s’adapter aux besoins d’évolutions ;
  • Le nombre de producteurs de données est en évolution constante : nouvelles applications, nouvelles API…
  • Le nombre de consommateurs de données est en augmentation constante : nouvelles initiatives Data, nouveaux besoins métiers, augmentation des usages IA…

Le Data Mesh repose ainsi sur quatre grands piliers : Domaine, Produit, Plateforme et Gouvernance.

Les quatre piliers du Data Mesh
  • Data Domain : la connaissance est distribuée dans les différents domaines de données (dérivé du Domain Driven Design (DDD) d’Eric Evans). Les métiers, responsables des domaines, sont autonomes et responsables du pilotage de leurs initiatives Data ;
  • Data as a product : la donnée est gérée au sein des domaines comme un produit (Data Product). Avec le Data Mesh, les données deviennent le produit. Il revient à chaque domaine de données de mettre à disposition des produits tenant compte de leurs utilisateurs, leurs caractéristiques spécifiques et leur roadmap de développement. Ces produits sont fournis sous un format standardisé pour être utilisés à travers l’organisation ;
  • Self-service Data Infrastructure as a Platform : une infrastructure self-service est mise en place pour gérer ces Data Products. Le Data Mesh nécessite la gestion d’une plateforme interopérable pour l’ensemble des domaines de données. Cette mutualisation vise à permettre aux différents domaines de provisionner des ressources techniques à la demande pour la création des Data Products. L’objectif recherché est de rationaliser le socle technique et les technologies utilisées à travers l’organisation ;
  • Federated Data Governance : une gouvernance fédérée autour de la donnée est mise en œuvre : la gouvernance des données porte de nombreux enjeux et particulièrement l’interopérabilité entre les domaines. La gouvernance permet de gérer les normes réglementaires et de sécurité de l’information, ainsi que le dictionnaire des données. Les domaines ont pour responsabilité de documenter les données et produits mis à disposition. La gouvernance est donc pilotée de manière hybride avec des responsabilités distribuées et fédérées.

Le Data Mesh redistribue les rôles et responsabilités au sein des entreprises

Le Data Mesh intègre en son sein aussi bien les sujets d’architecture, d’organisation, de méthodologie et de gouvernance dans un but commun : intégrer les composantes et acteurs de l’entreprise sur les enjeux de valorisation des données en tant qu’actif stratégique. Il repose sur une organisation Data distribuée et fédérée et nécessite l’implication de l’ensemble de l’organisation avec un sponsoring fort de la Direction et des directions métiers et fonctionnelles (y compris IT).

Pour les métiers, l’approche Data Mesh leur permet d’acquérir autonomie, agilité et responsabilité dans la création de leurs produits Data, la gestion de leur cycle de vie et la gouvernance des données.

Pour la DSI, sa transformation opérée ces dernières années en tant que fournisseur de services IT se renforceavec la responsabilitéde fournir et opérer une plateforme modulaire, interopérable permettant la mise à disposition d’assets communs. Dans cet approche les solutions cloud et de virtualisation des données constituent des approches d’architecture particulièrement adaptées au Data Mesh. La DSI joue donc un rôle essentiel en étant garant de la modernisation, l’agilisation du SI et de l’apport des innovations technologiques (apportées notamment par les solutions Cloud).

Pour le Data Office, il joue un rôle central d’animation, d’acculturation et de fédération des initiatives Data. Il accompagne la démarche de mutualisation des données, la coordination des actions et la mise en oeuvre de la gouvernance. Le Data Office est donc la tour de contrôle de la fonction Data transverse de l’entreprise et en charge du maintien de la cohérence globale.

Le Data Mesh, une rupture fédératrice

Le Data Mesh apporte une rupture totale avec le dogme Data-Centric qui a porté les réflexions d’architecture et d’organisation Data ces dernières années, mais à laquelle les entreprises se heurtent avec l’explosion des données et les limites en termes de création de valeur et de passage à l’échelle.

Le Data Mesh apporte une approche globale au service de l’entreprise Data-Driven, contrairement aux approches purement technologiques. L’agilité dans la création de produits Data et leur mutualisation donne l’opportunité de raccourcir le time-to-market pour les métiers et leur permet de répondre plus rapidement aux exigences internes ou du marché.

Le Data Mesh réunit donc les éléments nécessaires pour une stratégie Data-Driven réussie :

  • Une approche globale (méthodologie, technologie, architecture…) ;
  • Une répartition et une gestion des compétences Data dans les différents Data domaines ;
  • Une plus grande autonomie des métiers pour la gestion et la valorisation de leurs données.

L’ensemble de ces éléments réunit autour des quatre piliers du Data Mesh :

  • Une organisation en Data Domain métiers ;
  • La création de Data Products ;
  • La mise en place d’une plateforme technologique fédérée ;
  • Une gouvernance des données distribuée et fédérée.

Ils font écho à l’approche de Saegus et sa proposition de valeur sur la modernisation de plateforme de données sur l’ensemble de ces composantes techniques, méthodologiques et organisationnelles. N’hésitez pas à nous contacter pour en savoir plus.

Rédigé par Julien Ayral, Directeur Data Driven

En dehors de quelques start-ups ou spécialistes de la tech, les usages de l’intelligence artificielle se sont développés de façon moins spectaculaire que ce qui était attendu il y a quelques années. On constate une prise de conscience générale sur le fait que l’intelligence artificielle n’est pas une solution magique : l’investissement est relativement couteux pour un ROI qui n’est pas toujours au rendez-vous. Transformer une entreprise Data Driven tient plus en sa capacité à disposer de données fiables (mise en qualité), partagées (gouvernance et catalogue) et utilisées par le plus grand nombre (accessibilité et acculturation) que de sa capacité à réaliser des expérimentations de Deep Learning ou Machine Learning.

Faut-il toujours croire au développement de l’intelligence artificielle dans les entreprises ?

Oui, bien sûr. Bien utilisée, l’intelligence artificielle est un accélérateur puissant pour résoudre des problématiques complexes ou générer plus d’efficacité. Toutefois, l’offre existante sur le marché n’est pas toujours lisible : faut-il aller sur des outils packagés avec des modèles pré-entrainés, choisir du sur-mesure ou utiliser des plateformes de développement dédiées aux Data Scientists comme Dataiku ? Les entreprises hésitent aussi bien sur les solutions à retenir que sur les organisations à mettre en place.

Existe-t-il des freins spécifiques à l’intelligence artificielle ?

Le point prioritaire reste la mise à disposition des données : elles doivent être accessibles, qualitatives et représentatives des phénomènes étudiés. Ce prérequis étant franchi, il reste deux autres problèmes à résoudre qui sont souvent sous-estimés :

  • L’automatisation et l’industrialisation : ou comment sortir du cadre de l’expérimentation pour mettre les services d’intelligence artificielle en production. Il convient de s’inspirer du DevOps et du Software Engineering en mettant en place un cadre MLOps et une chaîne d’intégration continue. Sans ces piliers, il est inenvisageable de faire de l’intelligence artificielle un pilier de croissance des entreprises ;
  • L’intelligence artificielle de confiance : dès lors que la finalité est opérée dans un cadre règlementaire ou éthique (RH par exemple), il est indispensable de « superviser » les modèles d’intelligence artificielle afin de les rendre transparents (mise en évidence du poids des variables dans la décision de l’algorithme). La bonne pratique à adopter – qui est notre conviction – est d’aller encore plus loin en ne se limitant pas à l’explicabilité du modèle. Il est nécessaire de superviser l’ensemble de la chaîne, notamment la représentativité des jeux d’entraînements (un algorithme qui apprend sur un jeu de données comportant des biais aura tendance à les reproduire).

Trouver les bons leviers pour maximiser l’apport de l’intelligence artificielle

La mission que s’est donnée Saegus est simple : « maximiser l’impact de l’intelligence artificielle dans les entreprises ». Comment ? À l’appui de supports :

  • Méthodologiques : la difficulté n’est pas de trouver des cas d’usages, mais de trouver les bons. Pour cela, nos équipes identifient les « Deep Use Cases » ayant un impact mesurable sur les fonctions de l’entreprise : opérations (Supply Chain, logistique, Demand Forecasting), procurement, ressources humaines, Sustainability… ;
  • Technologique : nos équipes apportent une prise de recul nécessaire pour recommander les bonnes solutions à leurs clients en fonction du contexte, de la maturité et de la constitution des équipes, ainsi que de leur écosystème technique ;
  • Organisationnel : en fonction de la taille de la culture et du modèle d’entreprise (centralisé ou décentralisé, répartition des activités entre les équipes core et les domaines métiers), nos experts aident les entreprises à structurer et agiliser leurs équipes Data Science : acculturation, montée en compétences, modèles de gouvernance, collaboration et interactions entre les équipes Business et IT… ;
  • Et d’accélérateur concrets : guides pratiques, démonstrateurs, supports de formations et kits prêts à l’emploi – comme notre Starter Kit MLOPS.

Vous souhaitez en savoir plus ou être accompagnés par notre équipe Data ?

Rédigé par Alexander Mikheev, Manager Data Driven

Signes du dérèglement climatique, les conflits géopolitiques, catastrophes naturelles ou encore les difficultés d’approvisionnement de certaines denrées se multiplient. Ils semblent malheureusement nécessaire à la prise de conscience mondiale sur l’impact environnemental de nos activités, en tant que société et individu. En conséquence, les comportements évoluent : si nous sommes de plus en plus nombreux à ajuster nos comportements, ce changement de mentalité doit désormais s’appliquer à l’échelle de l’entreprise.

Cependant, réduire l’empreinte carbone d’une entreprise grâce à une meilleure gestion de sa consommation énergétique ou une optimisation de ses processus métiers n’est pas aussi simple qu’éteindre ses lumières, trier ses déchets ou limiter l’utilisation de sa voiture.

En conséquence, des réglementations sont mises en place pour aider les entreprises à mieux comprendre et maitriser leurs activités et faciliter le pilotage et l’optimisation de leur empreinte carbone. Depuis 2017, un grand nombre d’entreprises a pour obligation de communiquer sur leur performance RSE (responsabilité sociétale des entreprises), à l’appui d’un reporting extra-financier (remplaçant le rapport RSE).

Cette mesure n’est obligatoire que pour les entreprises de plus de 500 salariés et dont le chiffre d’affaires est supérieur à 40 millions d’euros pour les entreprises cotées en bourse ou 100 millions d’euros pour celles qui ne le sont pas. Toutefois, de nombreuses entreprises qui n’atteignent pas ces seuils font preuve d’initiative pour montrer l’image positive d’un groupe conscient et responsable auprès de ses clients et fournisseurs.

On ne peut que saluer ces initiatives : la conscience écologique doit être au cœur des stratégies des entreprises. Parce que les réglementations évoluent aussi vite que se dérègle le climat, ces mesures seront sans aucun doute appliquées à l’ensemble des entreprises dans les années à venir.

Comment la réglementation va-t-elle évoluer ?

Dès 2024, la CSRD – Corporate Sustainability Reporting Directive (remplaçant l’actuelle NFRD – Non Financial Reporting Directive) imposera la mise en place de nouveaux reporting extra-financiers. On estime qu’environ cinq fois plus d’entreprises seront concernées par cette nouvelle réglementation (par exemple les sociétés de plus de 250 salariés ou toutes les sociétés cotées en bourse).

Les entreprises doivent se préparer dès maintenant : c’est là que la Data entre en jeu. Afin de s’y préparer au mieux, les entreprises n’auront pas d’autres choix que de s’appuyer sur la donnée pour justifier leur conformité face au CSRD. On parle de Data Sustainability.

La Data Sustainability, un réel challenge pour les entreprises

Les lois se durcissent. Elles exigent la mise à disposition d’informations extra-financières, nécessitant plus de transparence dans le reporting et donc dans les données à identifier, collecter, préparer et diffuser. Là est la contradiction de ce système : diminuer l’empreinte carbone des entreprises tout en augmentant sa culture digitale et Data pour pouvoir y faire face.

L’hétérogénéité de la provenance des données, leur raffinement ou leur niveau de qualité est un casse-tête pour les entreprises. Cette complexité est associée à de grands challenges sous-jacents :

  • Le challenge réputationnel pour garantir des collaborations saines et durables auprès des fournisseurs, partenaires et clients, ainsi que des organismes de financement pour assurer les dépenses et la croissance de l’entreprise ;
  • Le challenge culturel de transformation de l’entreprise vers une stratégie digitale centrée sur la Data impliquant de nouvelles organisations pour répondre aux enjeux environnementaux de demain ;
  • Le challenge technologique d’implémentation de plateformes Data décentralisées en tirant parti d’une conception orientée produits, facilitant l’agilité dans la gestion, la maintenance et l’évolution des données.

Pour répondre à ces différents challenges, la mise en place d’une gestion robuste de la donnée est nécessaire. Elle doit être basée sur les 5 piliers de la gouvernance des données.

Les processus Data

Afin de garantir une maitrise des données tout au long de leur cycle de vie, il est indispensable de lancer des chantiers de cartographie des processus Data intégrant les sources internes et externes, des systèmes producteurs de données jusqu’aux systèmes consommateurs (dans l’exemple que nous prenons, jusqu’à l’utilisation des données dans les reportings extra-financiers).

La maitrise des processus Data garantit la traçabilité de la donnée, permet la mise en lumière d’éventuelles causes de non-qualité ou identifie les étapes de collectes manuelles en vue d’une industrialisation technologique.

L’organisation Data

La mise en place d’une organisation Data implique des rôles standardisés et partagés à l’ensemble de l’entreprise. À chaque rôle est affectée une fiche de poste caractérisée et reconnue en tant que position légitime par le management et les ressources humaines. Ces nouveaux rôles doivent être pilotés et accompagnés par un Data Office garant des instances de gouvernance pour assurer la cohérence et vision Data du groupe.

Cette organisation a pour objectif de faciliter les échanges entre les parties prenantes Data et garantir une collaboration étroite entre les domaines fonctionnels et la DSI coordonnée par le Data Office. Elle est indispensable à la mise sous contrôle du patrimoine de données.

La connaissance du patrimoine de données

Le patrimoine de données doit être intelligible et accessible à tous les collaborateurs de l’entreprise. Il assure la véracité et l’intégrité des données transmises lors des exercices extra-financiers. Il se décompose principalement en deux activités : le glossaire des données dans le lequel on retrouve un certain nombre d’attributs permettant de qualifier les objets métiers (définition, responsable, règle de gestion, etc). Il permet de définir un langage commun. Le dictionnaire des données, quant à lui, répertorie la localisation physique des données, les traitements associés et le type de collecte indispensable à la conception des processus Data.

Le catalogue de données apporte de nombreux bénéfices pour la capitalisation du patrimoine. Il a pour rôle d’améliorer la transparence des informations liées à la collecte des données de reporting et, dans notre contexte, prouver la traçabilité en cas d’audit.

La qualité des données

Les équipes Data sont responsables de la formation des collaborateurs aux grand principes de la qualité, aux dimensions suivies ou aux techniques de saisies de la Data. Ils sont indispensables à l’application des processus de qualité intégrant des plans d’actions correctifs et préventifs.

L’implémentation des plans de remédiation repose sur des processus de suivi itératifs à l’appui de tableaux de bord ou outils de gestion de la qualité. L’amélioration de la qualité des données passe par l’implémentation d’outils et de contrôles, mais surtout par la sensibilisation des équipes.

L’augmentation de la quantité, la diversité et la complexité des données des entreprises – dans notre cadre extra-financier où de nombreuses données sont collectées en provenance d’OTI (Organisme Tiers Indépendant) – rendent indispensable la mise en place d’une gestion rigoureuse de la qualité.

L’accessibilité des données

L’accessibilité des données se caractérise comme suit : d’une part elle requiert la définition d’un modèle documenté et partagé d’exploitation des données (Data Operating Model) ; d’autre part elle nécessite la mise à disposition de données qualifiées, dont l’intégrité et la disponibilité est assurée par des systèmes de gestion de la donnée adaptée et une mise en gouvernance robuste.

Le Data Operating Model, couplé à une infrastructure bien pensée, est essentiel dans l’équilibre de la gouvernance de données et favorise l’implémentation de nouveaux usages.

Les équipes de notre département Data vous accompagnent dans l’élaboration de stratégies liées à la Data Sustainability grâce à ses expertises techniques et méthodologiques. L’objectif : vous apporter des solutions Data clés en main répondant à des usages métiers spécifiques comme l’élaboration des reportings extra-financiers ou la mise sous gouvernance des données liées aux stratégies RSE.

Vous souhaitez en savoir plus ou être accompagnés par notre équipe Data for Sustainability ?

Rédigé par Martin Éliard, Manager Data Driven

Cette rentrée 2022 est marquée par une série d’annonces montrant que le rôle de la data dans les initiatives RSE – et en premier lieu celles destinées à lutter contre le réchauffement climatique – est en passe d’être reconnu essentiel par tous les acteurs du secteur.

Martin Alteirac, Senior Manager au sein de notre département Data Driven et en charge de notre offre Data for Sustainability, nous présente la plus impactante d’entre elles : la présentation des conclusions du forum 2022 du Cercle de Giverny.

Qu’est-ce que le Cercle de Giverny ?

Le Cercle de Giverny est un laboratoire d’idées hybride agissant en faveur du déploiement opérationnel de la RSE systémique. Il a dévoilé cette semaine 30 nouvelles propositions pour accélérer la transformation écologique et sociale de notre pays. Parmi ces propositions, 6 d’entre elles témoignent du rôle crucial de la data dans cette transformation.

Le groupe de travail du Cercle de Giverny, co-présidé par Come Perpère (Directeur du développement durable Microsoft France) et Rim Tehraoui (Chief Data Officer BNP Paribas), rappelle quelques chiffres :

  • 9% des entreprises évaluent leur impact environnemental de manière précise et complète, c’est-à-dire en mesurant les scopes 1, 2 et 3. En moyenne, le taux d’erreur dans leurs mesures d’émissions est de 30 % à 40 %. (Source : Rapport « Carbon Measurement Survey » 2021 de BCG Gamma)
  • Dans le monde, seulement 7% des entreprises ont combiné leur stratégie tech, RSE et business. 18% d’entre elles n’ont pas de politique de numérique responsable ou en appliquent les principes basiques. (Source : “Uniting Technology And Sustainability”, Accenture, 2022)

Pour dépasser ce constat, le groupe de travail formule 6 recommandations qui sont des leviers pour rendre actionnables les données nécessaires à la mise à l’échelle du développement durable.

En quoi consiste ces recommandations ?

Ces recommandations constituent les 6 grands axes à travailler au cours des prochaines années pour faciliter la collecte, la valorisation et l’échange des données qui doivent permettre aux entreprises et à la société de diminuer son empreinte environnementale :

  • Créer des consortiums sectoriels multi-parties prenantes pour normaliser les indicateurs d’impact environnemental,
  • Inclure dans le standard CSRD (développé par l’EFRAG) les indicateurs liés à l’empreinte environnementale des produits,
  • Améliorer l’interopérabilité et le partage des données environnementales (ex. : biodiversité et carbone) pour favoriser leur échange,
  • Assurer la qualité et la clarté de la donnée,
  • Rendre le processus de contribution au sourcing et à la gouvernance de la data attrayant pour tous les acteurs de la chaine de valeur,
  • Considérer la data comme un levier pour mesurer et modéliser l’impact extra-financier d’un projet à but social ou environnemental.

Ces grands axes sont ensuite complétés par une série de déclinaisons opérationnelles dont certaines me paraissent particulièrement intéressantes :

  • Imposer aux entreprises européennes la publication de leur empreinte environnementale pour une part croissantes des produits commercialisés : il est essentiel de permettre aux entreprises (comme aux particuliers) de prendre en compte ce critère lorsqu’elles comparent leurs fournisseurs. Comment y arriver si celles-ci ne se plient pas à l’exercice pour leurs propres produits ? Ce premier point commence à être pris en compte dans de plus en plus de solutions technologiques de mesure et réduction d’impact carbone, comme celle de la plateforme Sweep. Cette solution permet à ses clients d’engager leurs fournisseurs dans la démarche en leur permettant de saisir ou d’injecter automatiquement leurs données dans la plateforme. Cette possibilité fournit ainsi une solution de mesure des émissions de Scope 3 efficace et transparente à ses clients.
  • Créer un protocole d’interopérabilité d’échange des données incluant un modèle de données standard qui pourra servir de base à des APIs (Application programming interfaces) et promouvoir l’interopérabilité́ des plateformes inter-médiatrices (plateformes dédiées carbone, plateformes règlementaires) : interopérabilité et automatisation sont des enjeux clés pour déployer la mesure d’impact environnemental à l’échelle. La société Kabaun propose déjà une partie de la solution avec une plateforme entièrement APIsée permettant cette automatisation.
  • Le rôle crucial de la data gouvernance est souligné : la création de dictionnaires et référentiels ad-hoc, la mise en place de contrôle de qualité et d’explicabilité des variations tout comme la mise en place de rôles et responsabilités définis sont des facteurs de succès incontournables.

Comment appliquer concrètement ces recommandations ?

En commençant par prendre conscience de l’importance que vont prendre les données liées à ces sujets au cours des prochaines années, voire mois tant l’urgence à agir sur ces sujets se fait sentir.

Une fois cette prise de conscience effectuée, vient le temps de l’action et la constitution d’équipes réunissant les expertises nécessaires :

  • L’expertise carbone, afin de garantir la qualité et la compliance des analyses effectuées,
  • L’expertise technique indispensable au sourcing, au processing et à la valorisation des données récoltées, qu’il s’agisse de données internes ou de facteurs d’émission,
  • L’expertise méthodologique pour gérer ce type de projets à l’échelle dans des organisations complexes.

Ce tryptique d’expertise est à mon sens la clé pour garantir le fait que les enjeux sur ces sujets, parfaitement résumés par le Cercle de Giverny, puissent être pris en compte.

Vous souhaitez en savoir plus ou être accompagné·e·s par notre équipe Data for Sustainability ?

Rédigé par Martin Alteirac, Senior Manager Data Driven

Nous remarquons qu’il n’existe aujourd’hui pas de solution clé en main pour piloter une mission d’adoption. Si l’on prend comme exemple les outils Microsoft 365, nous avons observé chez nos clients qu’il était compliqué de piloter une mission en analysant de près les usages, comme l’évolution de la communication chez les collaborateurs. Par exemple : l’envoi des emails diminue-t-il au profit de la collaboration sur Teams ?

Se pose alors la question : comment mieux mesurer l’engagement des collaborateurs pour l’utilisation des outils M365 et comment le faire vivre ?

Définir des indicateurs clés pour suivre les actions d’accompagnement sur le terrain

Nous sommes partis de deux constats. Tout d’abord, peu d’indicateurs clés sont aujourd’hui disponibles pour suivre les évolutions d’une mission. Microsoft propose un Dashboard figurant l’évolution et utilisation des outils Office 365, mais il contient beaucoup d’informations qui ne sont pas assez explicites pour nos clients ; granularité d’analyse pas assez fine, méthodes de calculs complexes et la donnée n’est rafraîchie qu’une fois par mois.

Au sein de nos missions, nous accompagnons les collaborateurs en suivant un plan d’adoption sur-mesure défini en accord avec les besoins et la culture de l’entreprise. Or pour en assurer la réussite, il est primordial de suivre les actions d’adoption de près (utilisateurs actifs, récurrents, département) et les actions menées (fréquence des accompagnements, sujets proposés, participants, taux de collaborateurs touchés par les accompagnements). Il était donc nécessaire de développer un outil pour faciliter cette tâche : le Dashboard d’adoption.

Dans le cadre d’une mission au dispositif complexe (24 sites différents en France et à l’étranger, plusieurs langues à traiter, plus de 16 000 collaborateurs), nous avons mis en place un Dashboard pour avoir une vision globale sur les accompagnements menés sur les outils M365 (coachings personnalisés pour prendre en main les options de réunion sur Teams, ateliers d’équipe pour mettre en place un flux automatisé pour des tâches à faible valeur ajoutée par exemple). Les équipes étant décentralisées, le Dashboard a pallié le manque de lien qu’il y avait entre le plan d’adoption établi et les actions sur le terrain. Plusieurs accompagnements avaient par exemple lieu en même temps sur des sites différents, menées par des personnes différentes. Il a donc fallu créer un cadre pour que la remontée d’informations par chaque intervenant soit faite de manière identique.

Nous avions maintenant des chiffres concrets à présenter (le nombre de participants aux accompagnements par site, pays et entité). Sur deux sites d’un même pays, nous avons constaté que l’un était très investi alors que l’autre moins : les chiffres étaient respectivement très élevés et très bas. En comprenant que d’un côté, une personne transmettait les communications aux collaborateurs du site, nous avons mis en place de l’autre les actions adaptées : contacter les relais, comprendre pourquoi les communications n’étaient pas relayées, trouver des solutions et adapter le programme à cette population. C’est le Dashboard qui nous a permis de mieux identifier les zones de risque, ainsi que les actions concrètes à mettre en place en face de résultats non concluants.

Écran d’accueil : vue globale de l’utilisation de Microsoft 365 sur le nombre d’utilisateurs actifs par application sur les 30 derniers jours

Faire vivre l’engagement fait pleinement partie du plan d’adoption. Le piloter de près permet de se rendre compte du niveau d’engagement à des moments clés. La mission précédemment citée a été menée en période de COVID : grâce à ce Dashboard de pilotage, nous avons pu identifier les zones de risque, être plus agiles et restructurer notre stratégie plus rapidement. Le dispositif initial devait avoir lieu en présentiel à 100% (chaque intervenant devait se rendre sur les sites pour accompagner les collaborateurs), mais le confinement nous a obligé à le revoir sur la base de nouveaux indicateurs. Une liste de personnes clé a été formée en priorité aux outils. Nous avons adapté le Dashboard pour suivre de près l’engagement de ces personnes. Avec du recul, nous avons aussi observé les limites des accompagnements à distance. Dès que les conditions sanitaires l’ont permis, nous avons accompagnés sur site les pays qui en avaient le plus besoin.

Forts de cette expérience sur le terrain, nos équipes EMEX et Data ont ensemble créé une solution clé en main visant à donner une vision globale sur l’engagement et utilisation des outils des collaborateurs ainsi que le pilotage des actions menées par les consultants sur le terrain. L’objectif : faciliter la prise de décision en cours de mission et mettre en lumière l’évolution des usages au sein de l’entreprise.

Vue générale de l’utilisation de Teams

L’outil : un Dashboard clé en main au service du client

L’objectif de ce nouvel outil est de répondre aux problématiques d’accompagnement mentionnées, mais aussi d’être une solution flexible. Le déploiement des outils de la suite Office 365 n’est pas toujours fait en une seule fois ; certains clients migrent progressivement leur architecture On-Premises vers le cloud. Cette phase de transition peut être monitorée avec des sources de données différentes (une source On-Premises et une source cloud) en adaptant l’outil à cet effet. Les outils à monitorer ne sont pas forcément tous sur Office (salles de réunions, installation des logiciels sur les postes de travail). Un produit agile est tout naturel dans un tel contexte.

Vue détaillée de l’utilisation des applications Microsoft 365

Cette solution clé en main comporte plusieurs avantages :

  • Le Dashboard clé en main s’adapte aux outils déjà existants dans l’entreprise, sur le principe des “composants sur étagère“. Le client peut choisir les outils qu’il souhaite monitorer ;
  • Un déploiement accéléré de la solution en entreprise grâce à des composants technologiques disponibles par exemple sur la plateforme Azure ;
  • Des choix technologiques variés selon le contexte de déploiement. Le client peut par exemple choisir d’utiliser une base de données déjà existante pour minimiser les coûts de fonctionnement liés à la création et maintenabilité du produit ;
  • La chaine de valeur de la donnée étant totalement maitrisée, il est tout à fait envisageable de se servir de ce produit comme un socle solide pour l’adoption, puis d’y ajouter des extensions pour des usages internes à l’entreprise ;
  • Le produit suit les évolutions des API Microsoft pour que ses indicateurs soient à jour ;
  • Le design visuel du rapport est adaptable aux besoins du client pour qu’il s’intègre au mieux à l’écosystème déjà en place.

Concernant la partie technique :

  • Stockage de données : PostgreSQL sur Azure. La solution est flexible et peu onéreuse ;
  • Extraction des données : nous utilisons l’API Graph de Microsoft ;
  • Langage : nous utilisons Python couplé à Azure Data Factory pour les traitements et Azure Blob Storage pour le stockage des fichiers ;
  • Accès aux données : nous utilisons un Service Principal qui nous donne la possibilité de ne pas attribuer de droits à un utilisateur en particulier ;
  • Visualisation : notre choix s’est naturellement tourné vers Power BI pour compléter cette suite Microsoft/Azure.

Dans ce contexte, l’avantage de Power Bi est qu’il est parfaitement intégré aux outils de la suite Office 365. Nous bénéficions ainsi à la fois de Metrics (visuels d’objectifs de Power BI) et des fonctionnalités d’intégration dans Teams. Les données vont à l’utilisateur – et non l’inverse. L’utilisateur peut par exemple intégrer des visuels dans PowerPoint pour présenter des chiffres clés (grâce à la dernière mise à jour Power BI).

Conclusion

Forts de notre expertise et nos expériences sur le terrain, nous sommes convaincus que ce Dashboard de pilotage clé en main permet à nos clients d’avancer avec une meilleure visibilité. C’est une vraie valeur ajoutée pour piloter plus précisément une mission, identifier des zones de risque plus rapidement et donc être plus agile pour se réorganiser et structurer. Ne l’oublions pas : il est plus simple pour les parties prenantes de se rendre compte de l’évolution des usages au sein de leur entreprise à l’appui d’éléments concrets et résultats clairs.

Vous souhaitez en savoir plus ou être accompagnés par nos équipes EMEX et Data ?

Rédigé par Pauline Zimon, Consultante Employee Experience, et Maxime Mauray, Consultant Data Driven

Le Data Engineering est un maillon clé des projets Data : on peut observer aujourd’hui dans la tech que le métier de Data Engineer a supplanté le très prisé métier de Data Scientist.

Il est établi que la donnée est l’or noir du 21e siècle, mais avant de le raffiner il faut l’extraire, le transporter et l’acheminer jusqu’à son usine de traitement. C’est là qu’intervient le Data Engineer : sans les étapes essentielles de Data Engineering, les projets ne peuvent se concrétiser.

En 2017, Maxime Beauchemin, l’un des premiers Data Engineer chez Facebook et Airbnb, publiait un article, The rise of the Data Engineer, sur l’émergence de ce nouveau métier. Il mettait en lumière ce travail de l’ombre indispensable à la bonne réalisation des initiatives data.

Une transformation progressive s’appuyant sur les services cloud et Modern Data Platforms

Aujourd’hui, l’émergence et la maturité des services cloud a profondément transformé le paysage IT et contribué à la disparition du traditionnel DBA (administrateur de base de données). Avec des services full SaaS, élastiques et gérés directement par les cloud providers (Snowflake, Google Big Query, Azure Synapse, Databricks…), le paramétrage, le tuning et les développements sont aujourd’hui gérés par les Data Engineers.

Cette profonde mutation a été rendue possible par la montée en puissance des services cloud. L’apparition de nouvelles solutions totalement ou partiellement automatisées a facilité la mise en œuvre des chaines de traitements et agilisé la production de données. Le besoin d’accessibilité et de fraicheur de l’information étant devenus des éléments essentiels, la modernisation des infrastructures IT est devenue une priorité pour répondre aux besoins métiers. Le déploiement de nouvelles plateformes de données, les Modern Data Stack, est le sujet stratégique IT du moment.

Modern Data Stack

Ces Modern Data Platform sont caractérisées par 3 principales briques :

  • Une plateforme cloud, datawarehouse/datalake pour bénéficier des performances, de la flexibilité et des capacités de stockage étendu ;
  • Une solution de traitement et transformation des données pour mettre à disposition des datasets qualifiés ;
  • Une solution analytics orientée self-service pour donner une plus grande autonomie aux utilisateurs métiers.

Auxquelles se rajoutent une couche transverse de gouvernance de l’information essentielle pour gérer le patrimoine informationnel.

L’un des points de transformation majeure de ces architectures modernes est la possibilité de traiter les données quelle que soit leur origine – aussi bien on-premise que dans le cloud – et de gérer des flux de données au sein d’architectures hybrides.

Grâce au renforcement des services managés et la migration des bases de données et datawarehouse dans le cloud, la problématique de stockage n’est plus un sujet. Les capacités de calcul sont potentiellement devenues illimitées. Il n‘est donc plus nécessaire de retraiter la donnée en amont.

La majorité des processus de traitement de données est passée du mode ETL (Extract-Transform-Load) au mode ELT. D’une part, ce changement permet de s’affranchir des problématiques business avant la phase d’extraction et chargement en base ; d’autre part, de ne pas limiter les cas d’usages qui pourraient voir le jour. Les données brutes étant à disposition, il est alors possible de les exploiter, de les combiner à des données tierces et de les croiser pour en tirer un maximum de valeur business.

Vers l’émergence de l’Analytics Engineer

Ce besoin de vitesse et d’adaptation rapide aux besoins métiers met en lumière ce travail de l’ombre faisant du profil de Data Engineer l’un des plus prisés actuellement. Il a la capacité de gérer les flux de données, jusqu’à la production d’insights exploitables par les utilisateurs métiers avec un rôle étendu d’Analytics Engineer.

À ce titre, l’Analytics Engineer est une évolution naturelle du Data Engineer, due à la multiplicité des rôles et responsabilités prises par ces derniers, drivée par le développement des Data Platform, services managés et besoins de vitesse demandés par le business. Les Data Engineers ne peuvent plus se cantonner au développement de pipelines de données et la préparation des datasets pour les équipes analytiques.

Désormais intégrés au sein de Data Factories, ils œuvrent dans des squads multidisciplinaires responsables des données qu’ils traitent et produisent. Ces squads sont souvent organisés par domaines métiers – à l’inverse d’une équipe centrale en charge de l’ensemble des données de l’entreprise. Lorsque les données sont partagées entre les entités de l’entreprise et exposées à une plus grande échelle, il est nécessaire d’avoir une bonne connaissance des données manipulées. Cela nécessite une rigueur et méthodologie propres à la fourniture d’APIs, mais aussi d’accompagnement au changement et de structuration des organisations pour mieux répondre aux besoins de fourniture de services data.

En conclusion

Traiter la donnée comme un produit (data as product) est donc devenu une cible de plus en plus recherchée. Cette transformation data-driven devient un enjeu stratégique de nos clients. Comment accompagner le passage à l’échelle et l’industrialisation des processus de Data Engineering et servir les besoins d’informations pour l’ensemble de l’entreprise ? Comment déployer et opérer une Data Factory pour servir les besoins business ? Ces questions auxquelles nous sommes régulièrement confrontés sont cruciales ; nous aurons l’occasion de vous en reparler prochainement à travers nos retours d’expériences.

Vous souhaitez en savoir plus ?

Rédigé par Julien Ayral, Directeur département Data Driven

Presque 6 ans après l’entrée en vigueur de l’accord de Paris sur le climat à la fin de l’année 2016, il reste beaucoup à faire pour que les engagements pris se traduisent en actions concrètes pour limiter le réchauffement climatique et atteindre le “Net Zero” (la neutralité Carbone) en 2050.

Les pays engagés sur cet accord ont décliné leurs engagements en plan d’investissements et réglementations pour mettre la société en mouvement. En Europe, et plus particulièrement en France, cela se traduit par exemple par le décret tertiaire imposant aux entreprises de faire des économies d’énergie dans certains types de bâtiments.

La collecte et valorisation des données est un levier majeur pour identifier, mettre en œuvre et piloter les projets visant à accompagner ces initiatives.

Martin Alteirac, Senior Manager au sein de l’équipe Data Driven chez Saegus, nous éclaire sur la façon dont les données peuvent être mise au service de la transition énergétique.

Comment la data peut-elle contribuer à faciliter et accélérer la transition énergétique ?

William Edwards Deming, célèbre statisticien à l’origine des principes fondateurs de l’amélioration continue, avait pour coutume de dire : “ce qui ne se mesure pas ne s’améliore pas”. Il me semble que cette phrase résume tout. La data a d’abord été un levier utilisé par les scientifiques pour produire les rapports et études ayant provoqué une prise de conscience sociétale et politique. Grâce à ces travaux, le climato-scepticisme a reculé, donnant vie à des initiatives comme celles prises à la suite de l’accord de Paris.

Je suis également persuadé que des initiatives comme Our World in Data contribuent à propager la prise de conscience sur l’urgence écologique. En facilitant l’accès à l’information claire et intelligemment représentée, c’est un véritable levier de mise en mouvement de la société.

Des techniques de visualisation de données avancées ont été utilisées par des organismes comme la NASA pour faciliter l’accès et la compréhension des données rendant compte du réchauffement climatique.

Néanmoins, l’apport de la data dans le domaine de la transition énergétique ne se limite pas à la caractérisation du réchauffement climatique. De nombreuses initiatives y participent en s’appuyant sur l’utilisation et la valorisation des données grâce à des technologies comme l’intelligence artificielle.

Peux-tu nous citer des exemples concrets d’utilisation de la data et/ou de l’intelligence artificielle pour lutter contre le réchauffement climatique ?

Les exemples sont nombreux, que nous pouvons classer en deux catégories.

D’abord, les cas d’usages à “impact direct”, par exemple dans la gestion énergétique. Les grands opérateurs de réseau de transport d’électricité conçoivent les réseaux de demain qui passeront d’un mode distributif (quelques lieux de production, de nombreux lieux de consommation) à collaboratif (l’électricité est produite par de multiples producteurs répartis sur le réseau – installations éoliennes, panneaux photovoltaïques privés – qui sont aussi consommateurs). Il faudra donc être capable de prévoir la production et consommation des points du réseau pour prendre les décisions adaptées pour assurer la répartition de l’énergie. Le pilotage de ces réseaux intelligents ou smart grids sera fait par des algorithmes d’intelligence artificielle intégrant le processus de prise de décision des données externes, comme la météo par exemple.

Ces cas d’usages à impact direct seront cruciaux. Ils devront être complétés par une myriade de cas d’usages à impact indirect qui représenteront des leviers importants.

Celui qui me parait incontournable, car emblématique, est l’optimisation de la Supply Chain. Le transport des biens de consommation, ou des composants nécessaires à leur production, est une source de pollution majeure. Les initiatives innovantes pour réduire les émissions liées à ces activités sont en plein boom : par exemple, la réintroduction de la voile pour propulser les navires de transport de marchandises par des opérateurs maritimes innovants comme Néoline. Pour définir et mettre en œuvre des plans de réduction des émissions polluantes liées à ces activités, la récolte et valorisation des données des entreprises est un impératif.

C’est un chantier d’envergure, les réseaux de production et distribution des biens de consommation s’étant complexifiés et mondialisés. Acquérir une vision fiable des opérations réalisées et émissions liées à ces opérations est donc un challenge. Une fois ce challenge relevé, les techniques de valorisation de données permettront d’optimiser cette logistique.

Quelques exemples :

  • L’optimisation des circuits et tournées de livraison, évitant la consommation inutile de carburants en maximisant le taux de chargement des moyens de transports ou optimisant les distances parcourues ;
  • La fiabilisation de la prévision de la demande, pour produire et stocker le juste niveau de produits nécessaires et éviter les gaspillages ;
  • La gestion et optimisation du trafic sur les réseaux de transports routiers, ferroviaires ou maritimes, conduisant à une meilleure fluidité et efficience globale. À ce titre, la réintroduction de la voile comme moyen de propulsion des navires de transport maritime présentée ci-dessus nécessitera l’inclusion de nouveaux paramètres (direction et force du vent) dans les algorithmes pour proposer de meilleures trajectoires aux navires.

Que peut apporter un cabinet de conseil comme Saegus aux entreprises souhaitant se saisir de leurs données pour contribuer à leur stratégie de décarbonation ?

Projets transversaux par essence, les projets de décarbonation doivent impliquer toutes les strates et fonctions de l’entreprise.

Nous pouvons contribuer de plusieurs manières à leur réussite chez nos clients :

  • La première expertise que notre cabinet met au service de ses clients est sa capacité à cadrer rapidement, en lien avec les fonctions de l’entreprise, des projets complexes nécessitant d’interagir avec les collaborateurs de terrain et décideurs stratégiques. Ces travaux seront nécessaires pour identifier les domaines ou fonctions sur lesquels l’entreprise doit se focaliser, ainsi que son périmètre de responsabilité ;
  • Nous accompagnons nos clients dans la récupération des données leur permettant d’acquérir une vision fiabilisée de leurs émissions. Cette étape est complexe : certaines données internes ne sont pas toujours collectées ou accessibles, d’autres externes nécessitent des modifications de relation contractuelle ou la construction de partenariats avec des sociétés tierces pour être récupérées. La construction d’une data platform regroupant ces données représente à elle seule un projet à part entière ;
  • Nous les assistons également dans la gestion et gouvernance de ces données pour que cet actif stratégique soit exploité à sa juste valeur et que les processus garantissant leur fiabilité et qualité soient robustes. Cette gouvernance inclut la mise en place de process d’échanges des données de ces entreprises avec des tiers, pour étendre l’impact des actions menées aux processus en interactions avec ses fournisseurs ou clients ;
  • Nous les aidons enfin à valoriser ces données : par exemple, en construisant des cockpits digitaux de monitoring de consommation énergétique identifiant les points de progrès sur lesquels se focaliser, mesurant l’impact des actions menées ou aidant à concevoir, déployer et maintenir les algorithmes d’intelligence artificielle réalisant les optimisations précédemment décrites (supervision de la qualité industrielle, maintenance prédictive ou optimisations logistiques). Notre capacité à concevoir des solutions sur mesure et adaptées aux spécificités de nos clients est un atout majeur.

De manière globale, nous avons la capacité de solliciter des expertises complémentaires à celles de la data pour nous adapter aux phases du projet. Par exemple, en sollicitant nos départements Acceleration Tactics sur les phases de cadrage ou Employee Experience sur la mise en place d’outils digitaux à destination des frontline workers.

Vous êtes intéressé de découvrir comment la data peut servir votre ambition en matière de décarbonation ? Restez connectés pour une table ronde sur ce sujet !

Rédigé par Martin Alteirac, Responsable Intelligence artificielle, Département Data Driven