La recherche de valeur, le but ultime
Nouveau paradigme pour les architectures de données, le Data Mesh bouscule les modèles inventés et mis en œuvre ces dernières années qui reposent sur une approche fédératrice et centralisée des données.
Cette recherche de centralisation a pour objectif de casser les silos et stocker dans un espace commun les données pour en tirer un maximum de valeur et permettre de croiser des informations issues de différents domaines métiers. Elle a ainsi conduit à la création de Data Warehouses ou plus récemment de Data Lakes afin de rassembler les données de l’entreprise au sein d’une structure unifiée.
Le Data Mesh introduit une nouvelle approche et une rupture avec le modèle de centralisation, en tirant parti des silos et en s’appuyant sur une organisation distribuée en réponse aux enjeux Data à l’échelle de l’entreprise.
Dans la mise en place d’une stratégie Data-Driven, les freins majeurs rencontrés par les entreprises pour passer à l’échelle sont souvent liés à une maturité Data hétérogène et à une organisation complexifiant les échanges. La recherche de centralisation au sein d’une architecture de type Data Warehouse ou Data Lake devient alors un goulet d’étranglement.
Le Data Mesh répond aux problématiques courantes liées à ces architectures, à savoir :
- Le manque de connaissance métier au sein des équipes IT qui gèrent les données, ce qui entrainent parfois des incompréhensions et souvent des échanges multiples avec les équipes métiers, ralentissant fortement les processus ;
- Un manque de flexibilité des plateformes de données centralisées qui conduit parfois à des solutions technologiques complexes ne pouvant répondre parfaitement à l’ensemble des spécificités ;
- Une complexité et une latence forte dans la gestion des flux de données, chaque demande métiers nécessitant l’intégration des données dans l’architecture centralisée, rigidifiant cette dernière afin de répercuter les changements à tous les niveaux de la chaine de traitement.
La réponse ordinaire de centraliser pour mieux traiter n’est finalement pas la meilleure solution. Le Data Mesh apporte une nouvelle approche : ne pas lutter contre les silos mais s’appuyer dessus pour en tirer parti. Le but n’est pas de revenir à une vision complètement décentralisée mais d’adopter une approche fédérée pour conserver la maitrise du patrimoine informationnel de l’entreprise.
Le Data Mesh en quelques mots
Le Data Mesh repose donc sur une approche décentralisée ou distribuée équivalente à l’approche microservices dans l’architecture logicielle.
La notion de Data Mesh a été évoqué pour la première fois par Zhamak Dehghani (Monolithic Data Lake to a distributed Data Mesh) et a évolué pour devenir un concept établi. Il a fait l’objet d’une publication de référence en début d’année (Data Mesh, O’Reilly).
Le Data Mesh ne se résume pas à un concept technique ni à l’implémentation de briques technologiques. Il couvre l’étendue du spectre du Data Management et ses composantes, à savoir : organisation, compétences, méthodologies, gouvernance, architecture… Le Data Mesh se compose d’ensembles d’éléments appelés domaines de données. L’interconnexion de ces domaines formant ainsi le maillage (mesh) permet de donner une vision d’ensemble des informations métiers.
La notion de passage à l’échelle est un élément central et fournit un cadre de réponse aux freins pouvant être rencontrés. Par son approche globale, le Data Mesh constitue donc une approche adaptée pour répondre aux besoins de la stratégie Data-Driven :
- Les réponses aux demandes de changement doivent être rapides : les modèles de données doivent pouvoir être modifiés rapidement et s’adapter aux besoins d’évolutions ;
- Le nombre de producteurs de données est en évolution constante : nouvelles applications, nouvelles API…
- Le nombre de consommateurs de données est en augmentation constante : nouvelles initiatives Data, nouveaux besoins métiers, augmentation des usages IA…
Le Data Mesh repose ainsi sur quatre grands piliers : Domaine, Produit, Plateforme et Gouvernance.
- Data Domain : la connaissance est distribuée dans les différents domaines de données (dérivé du Domain Driven Design (DDD) d’Eric Evans). Les métiers, responsables des domaines, sont autonomes et responsables du pilotage de leurs initiatives Data ;
- Data as a product : la donnée est gérée au sein des domaines comme un produit (Data Product). Avec le Data Mesh, les données deviennent le produit. Il revient à chaque domaine de données de mettre à disposition des produits tenant compte de leurs utilisateurs, leurs caractéristiques spécifiques et leur roadmap de développement. Ces produits sont fournis sous un format standardisé pour être utilisés à travers l’organisation ;
- Self-service Data Infrastructure as a Platform : une infrastructure self-service est mise en place pour gérer ces Data Products. Le Data Mesh nécessite la gestion d’une plateforme interopérable pour l’ensemble des domaines de données. Cette mutualisation vise à permettre aux différents domaines de provisionner des ressources techniques à la demande pour la création des Data Products. L’objectif recherché est de rationaliser le socle technique et les technologies utilisées à travers l’organisation ;
- Federated Data Governance : une gouvernance fédérée autour de la donnée est mise en œuvre : la gouvernance des données porte de nombreux enjeux et particulièrement l’interopérabilité entre les domaines. La gouvernance permet de gérer les normes réglementaires et de sécurité de l’information, ainsi que le dictionnaire des données. Les domaines ont pour responsabilité de documenter les données et produits mis à disposition. La gouvernance est donc pilotée de manière hybride avec des responsabilités distribuées et fédérées.
Le Data Mesh redistribue les rôles et responsabilités au sein des entreprises
Le Data Mesh intègre en son sein aussi bien les sujets d’architecture, d’organisation, de méthodologie et de gouvernance dans un but commun : intégrer les composantes et acteurs de l’entreprise sur les enjeux de valorisation des données en tant qu’actif stratégique. Il repose sur une organisation Data distribuée et fédérée et nécessite l’implication de l’ensemble de l’organisation avec un sponsoring fort de la Direction et des directions métiers et fonctionnelles (y compris IT).
Pour les métiers, l’approche Data Mesh leur permet d’acquérir autonomie, agilité et responsabilité dans la création de leurs produits Data, la gestion de leur cycle de vie et la gouvernance des données.
Pour la DSI, sa transformation opérée ces dernières années en tant que fournisseur de services IT se renforceavec la responsabilitéde fournir et opérer une plateforme modulaire, interopérable permettant la mise à disposition d’assets communs. Dans cet approche les solutions cloud et de virtualisation des données constituent des approches d’architecture particulièrement adaptées au Data Mesh. La DSI joue donc un rôle essentiel en étant garant de la modernisation, l’agilisation du SI et de l’apport des innovations technologiques (apportées notamment par les solutions Cloud).
Pour le Data Office, il joue un rôle central d’animation, d’acculturation et de fédération des initiatives Data. Il accompagne la démarche de mutualisation des données, la coordination des actions et la mise en oeuvre de la gouvernance. Le Data Office est donc la tour de contrôle de la fonction Data transverse de l’entreprise et en charge du maintien de la cohérence globale.
Le Data Mesh, une rupture fédératrice
Le Data Mesh apporte une rupture totale avec le dogme Data-Centric qui a porté les réflexions d’architecture et d’organisation Data ces dernières années, mais à laquelle les entreprises se heurtent avec l’explosion des données et les limites en termes de création de valeur et de passage à l’échelle.
Le Data Mesh apporte une approche globale au service de l’entreprise Data-Driven, contrairement aux approches purement technologiques. L’agilité dans la création de produits Data et leur mutualisation donne l’opportunité de raccourcir le time-to-market pour les métiers et leur permet de répondre plus rapidement aux exigences internes ou du marché.
Le Data Mesh réunit donc les éléments nécessaires pour une stratégie Data-Driven réussie :
- Une approche globale (méthodologie, technologie, architecture…) ;
- Une répartition et une gestion des compétences Data dans les différents Data domaines ;
- Une plus grande autonomie des métiers pour la gestion et la valorisation de leurs données.
L’ensemble de ces éléments réunit autour des quatre piliers du Data Mesh :
- Une organisation en Data Domain métiers ;
- La création de Data Products ;
- La mise en place d’une plateforme technologique fédérée ;
- Une gouvernance des données distribuée et fédérée.
Ils font écho à l’approche de Saegus et sa proposition de valeur sur la modernisation de plateforme de données sur l’ensemble de ces composantes techniques, méthodologiques et organisationnelles. N’hésitez pas à nous contacter pour en savoir plus.
Rédigé par Julien Ayral, Directeur Data Driven