Ici archive

À la fin du mois d’août, la start-up d’IA Hugging Face levait 235 millions de dollars auprès de Google, Amazon, Nvidia et autres géants de la tech. Spécialisée dans l’IA open source, la start-up a plus que doublé sa valorisation, passant de 2 à 4,5 milliards de dollars. Comment cette entreprise franco-américaine est-elle devenue incontournable en quelques années seulement ?

La levée de fonds

Hugging Face a su attirer plusieurs géants du numérique et de la tech en pleine période d’emballement pour l’intelligence artificielle. C’est un round « écosystème » qui montre l’engouement des grands acteurs de la tech pour exposer des algorithmes d’intelligence artificielle au plus grand nombre et ainsi en favoriser l’usage.

Hugging Face propose aux entreprises des modèles d’intelligence artificielle prêts à l’emploi pour leur permettre de facilement débuter ou accélérer leurs projets d’IA.

Ces services sont ouverts et accessibles à tous ; la plateforme propose toutefois des solutions payantes dédiées à ses clients professionnels comme Training Cluster fait avec la coopération avec Nvidia ou l’extension du service Spaces pour héberger un front-end ou un travail collaboratif. Il est également possible d’héberger l’inférence de modèles via un API.

GitHub de l’IA

Si l’on devait résumer le positionnement de Hugging Face en quelques mots, nous dirions qu’il s’agit du “GitHub de l’IA“. On y retrouve les caractéristiques spécifiques au domaine comme le leaderboard et le regroupement des modèles par classe de tâches.

La plateforme permet de centraliser les ressources ouvertes à tous, les rendant ainsi plus accessibles.

C’est grâce à ce positionnement “ouvert” que l’on peut retrouver les modèles hébergés sur HuggingFace dans la majorité des cloud providers, mais également dans les nombreux projets open source. On y voit aussi l’intégration de modèles HuggingFace avec les outils d’analyse. Snowflake le propose désormais avec Snowpark ML

Perspectives

Chez Saegus, nous sommes convaincus que la transparence et la traçabilité sont des éléments clés pour accélérer l’adoption des outils d’intelligence artificielle dans les entreprises ; un positionnement unique confirmé par la dernière phase de levée de fonds de la nouvelle licorne franco-américaine.

Vous souhaitez en savoir plus ou développer les usages de l’IA dans votre entreprise ? Contactez nos expert·es.

Rédigé par Alexander Mikheev, Tech Lead au sein de notre département Data Driven

Martin Alteirac, en charge des activités d’Intelligence Artificielle chez Saegus, et Brice Lavigne, expert en gouvernance Data et IA nous expliquent comment ils accompagnent leurs clients à l’arrivée de l’AI Act. 

Pouvez-vous nous rappeler rapidement ce qu’est l’IA Act en quelques mots ?

L’AI Act est une proposition de réglementation de l’Union européenne (UE) visant à réguler les systèmes d’intelligence artificielle (IA) au sein de l’UE. Le projet de loi a été présenté par la Commission européenne en avril 2021 et vise à établir des règles spécifiques de l’utilisation de l’IA dans ce cadre. L’AI Act classe les catégories d’intelligence artificielle selon des systèmes allant du haut risque (comme les dispositifs médicaux ou les véhicules autonomes) au moindre risque.

Il impose des obligations telles que la transparence, la traçabilité, la documentation et l’assurance de la conformité aux règles de sécurité établies. Il interdit également certaines applications d’IA considérées comme dangereuses, comme par exemple la manipulation de comportements humains de manière trompeuse. 

Pour en savoir plus, n’hésitez pas à consulter notre premier article sur le sujet : L’AI ACT : une opportunité à saisir pour développer sa stratégie AI Driven.

Comment mettre en place une gouvernance IA ?

Lorsqu’une entreprise décide de mettre en place une gouvernance de l’IA, une approche méthodique est essentielle pour garantir son succès. Elle peut être déclinée selon les étapes suivantes.

Première priorité : acculturer et sensibiliser aux risques de l’IA

La première étape consiste à sensibiliser l’ensemble de l’organisation aux risques associés à l’IA. Il est essentiel que tous les acteurs comprennent les conséquences potentielles des décisions liées à son utilisation, notamment sur la réputation, la conformité légale et les opérations de l’entreprise. Cette prise de conscience permet d’obtenir un soutien et une adhésion plus forts à la gouvernance IA. Notre équipe propose des programmes de formation et sensibilisation ciblés pour mettre en lumière ces risques, que ce soit pour les décideurs à haut niveau, product owners, chefs de projets ou praticiens de l’IA en entreprise.

Après la sensibilisation, nous mettons en œuvre une méthodologie structurée pour guider nos clients dans le processus de gouvernance IA :

  • Diagnostic, analyse de risques et Gap Analysis : nous débutons par un diagnostic approfondi de l’environnement actuel de l’IA au sein de l’entreprise, en mettant l’accent sur les risques potentiels. La Gap Analysis identifie les écarts entre la gestion actuelle des risques liés à l’IA et les normes souhaitées en matière de gouvernance et de conformité ;
  • Plan d’action : sur la base des résultats de la Gap Analysis, nous élaborons un plan d’action précis qui détaille les étapes nécessaires pour atténuer les risques identifiés. Ce plan comprend des échéanciers, des responsabilités claires et des objectifs mesurables ;
  • Implémentation des processus : nous aidons nos clients à mettre en œuvre le plan d’action en créant des équipes dédiées, en mettant en place des politiques et des procédures adéquates, et en communiquant efficacement les changements au sein de l’organisation. Une attention particulière est portée à la gestion des risques tout au long de cette phase ;
  • Implémentation technique : enfin, nous nous assurons que les aspects techniques de la gouvernance IA sont en place, en veillant à ce que les technologies sous-jacentes respectent les principes de transparence, d’équité et de confidentialité des données.

En suivant cette approche méthodique, nos clients sont mieux préparés à gérer les risques associés à l’IA tout en maintenant un contrôle efficace sur leurs initiatives. La gouvernance de l’IA devient ainsi un moyen essentiel de préserver la réputation, de garantir la conformité et de sécuriser les opérations de l’entreprise.

Une fois la gouvernance en place, comment s’assurer de son efficacité sur le long terme ?

La mise en place d’une gouvernance de l’IA est une étape cruciale, mais son succès à long terme repose sur une logique itérative d’amélioration continue. Nous proposons la logique d’amélioration continue suivante :

  • Inspection : la première étape consiste à effectuer des inspections, à la fois aléatoires et planifiées, de l’application de la gouvernance de l’IA. Ces inspections visent à détecter les vulnérabilités potentielles dans le processus de gouvernance. Les inspections aléatoires permettent de repérer des problèmes imprévus, tandis que les inspections planifiées suivent un calendrier défini. Cette étape nous aide à maintenir une surveillance proactive et à identifier les zones qui nécessitent une attention particulière.
  • Gap Analysis : une fois les vulnérabilités détectées, nous les présentons aux parties prenantes de l’entreprise, qu’il s’agisse du conseil d’administration, de l’équipe de direction ou d’autres intervenants clés. Ces vulnérabilités sont examinées en détail et une analyse des écarts est réalisée pour comprendre pourquoi elles sont apparues. Cette étape permet d’impliquer activement les parties prenantes dans le processus de gouvernance et de les préparer à corriger les écarts de manière la plus autonome possible.
  • Mise à jour de la gouvernance de l’IA : suite à la conclusion de l’analyse des écarts, des mesures correctives sont définies en collaboration avec les parties prenantes. Ces mesures visent à résoudre les vulnérabilités identifiées et à renforcer la gouvernance de l’IA. Il peut s’agir de mettre à jour les politiques, les procédures, les outils ou même de former le personnel. Cette phase garantit que les leçons tirées des inspections sont appliquées de manière proactive.
  • Suivi et Hypercare : enfin, une surveillance spécifique est mise en place pour confirmer l’efficacité des mesures correctives. Cela implique un suivi rigoureux pour s’assurer que les vulnérabilités identifiées ne réapparaissent pas et que la gouvernance de l’IA fonctionne comme prévu. L’hypercare consiste à accorder une attention accrue aux processus de gouvernance récemment mis à jour pour s’assurer de leur adaptation en continu.

Cette logique itérative d’amélioration continue garantit que la gouvernance de l’IA reste pertinente, efficace et résiliente face aux défis en constante évolution de l’IA et aux besoins changeants de l’entreprise. Elle permet d’assurer une gestion proactive des risques et de maintenir une conformité continue aux normes et aux réglementations en vigueur.

Vous souhaitez en savoir plus ? Contactez nos expert·es.

Rédigé par Brice Lavigne et Martin Alteirac, Managers Data Gouvernance au sein de notre département Data Driven

Au cours des 10 dernière années, l’intelligence artificielle s’est imposée comme la 4e révolution technologique de notre époque. Aujourd’hui, elle est un levier stratégique pour les entreprises, puisque 44% d’entre elles ont déjà investi dans l’IA et 9 sur 10 d’entre elles ont inclus des projets d’IA dans leur trajectoire de développement (source : NewVantage).

Aux prémices de l’intégration de l’IA dans les processus métiers/stratégies d’entreprise, se trouvent les start-up – aujourd’hui, on compte en France 500 start-up développant des solutions d’IA. En s’appuyant sur des chercheurs et laboratoires, elles ont beaucoup innové sur ces usages en se concentrant sur la disruption des process. Pendant plusieurs années, les grandes entreprises ont ainsi pu avoir un regard privilégié sur les avancées de cette technologie – cependant, si ce modèle réduit le risque pour les entreprises, il augmente le time-to-market de solutions pour le métier.

Depuis quelques années, ce modèle de développement est en train de changer. L’évolution des systèmes cloud, des calculs distribués et l’avènement des AI platforms – comme Vertex AI, Databricks ou Dataiku par exemple – facilite le développement, le déploiement et la maintenance de solutions d’IA. Il devient aujourd’hui simple de passer à l’échelle la production d’applications IA et donc de développer en interne des solutions sur-mesure métiers avec des équipes spécialisées et restreintes.

Cela change le paradigme de l’application IA : elle n’est plus un sujet de R&D – technologie différenciante sur le marché – mais devient un produit développé par les métiers. Les enjeux métiers et la stratégie de l’entreprise s’alignent alors sur la production d’applications IA : nous entrons dans le modèle des entreprises AI Driven.

Plusieurs questions se posent alors sous différents aspects :

  • De sécurité : l’AI Driven est la continuité du Data Driven, puisqu’il s’agit de prendre des décisions à partir des données analysées par des outils d’IA. Dans ce cadre, la question de l’explicabilité de l’IA se pose rapidement. Comment comprendre une décision de l’IA ? Comment la rendre transparente afin qu’elle puisse être sûre ? ;
  • De responsabilité environnementale : les calculs d’IA sont aujourd’hui très consommateurs en énergie. Dans l’inclination qu’on les entreprises pour réduire leur impact carbone, constatable par exemple au travers du reporting ESG, la mise à l’échelle des applications d’IA soulève une seconde question d’une IA responsable et écologique ;
  • D’éthique : quand des prévisions annoncent qu’en 2025, 90% des messages marketing passeront par des outils d’IA pour optimiser les campagnes en qualifiant plus précisément les cibles, une troisième question se pose sur l’impact social positif des solutions d’IA ;
  • D’économie : le développement de l’IA relève aussi d’enjeux économiques internationaux. La sous-exploitation du potentiel de l’IA et des applications développées par les entreprises pourrait faire perdre un avantage concurrentiel à ces dernières et mener ainsi à une stagnation économique. C’est pour cela que la France a investi 2,22 milliards d’euros dans le plan France 2030, avec l’objectif ambitieux de capter 15% du marché mondiale sur l’IA embarquée.

Pour adresser ces problématiques et piloter l’arbitrage de l’IA au sein de notre société, la Commission Européenne a proposé en avril 2021 un cadre réglementaire pour les applications d’intelligence artificielle en Europe : l’« AI ACT ».

Il vise à classer et analyser les risques directs ou indirects présents pour les utilisateurs en veillant à ce que les systèmes d’IA utilisés au sein de l’UE soient sûrs, transparents, traçables, non-discriminatoires et respectueux de l’environnement. Le 14 juin, les députés ont adopté une position sur le cadre de la loi ; un accord devrait être trouvé d’ici décembre 2023.

Quelles sont les projets visés dans cette analyse de risque ?

L’analyse de risque doit être appliquée à des solutions d’IA qui entrent dans deux catégories.

La première concerne les « risques inacceptables ». Elle comprend les cas d’utilisation qui implique un danger pour les individus ou la société. Cela inclut :

  • La manipulation cognitivo-comportementale de personnes vulnérables : par exemple, l’usage de l’IA à l’intérieur de jouets pour enfants ;
  • Le score social basé sur des caractéristiques personnelles : par exemple, la validation d’une attribution de prêt selon un comportement social ;
  • La reconnaissance faciale en temps réel à distance : auprès d’individus lambdas dans une gare ou un centre commercial par exemple. Il existe une exception dans le cadre d’enquêtes criminelles majeures, sous l’approbation d’un tribunal.

Toutes les applications se trouvant dans cet ensemble de risque sont interdites.

La seconde catégorie englobe les cas d’usage représentant un « risque élevé » pour les droits fondamentaux ou la sécurité. Ils sont répartis en deux ensembles.

Le premier, l’IA appliquée aux produits relevant de la sécurité des individus : jouets, aviation, voitures, dispositifs médicaux ou ascenseurs, par exemple. Les entreprises qui développent des produits d’IA dans ces domaines, que ce soit dans le processus de recherche, de développement ou de production, devront justifier d’une analyse de risque et d’une traçabilité pour chaque solution développée.

Le second, l’usage de l’IA appliquée aux domaines ci-dessous devra être référencé et répondre aux aspects réglementaires précédemment cités :

  • L’identification biométrique et la catégorisation des personnes physiques.
  • La gestion et l’exploitation des infrastructures critiques
  • L’éducation et la formation professionnelle
  • L’emploi, la gestion des travailleurs et l’accès au travail indépendant
  • L’accès et la jouissance des services privés essentiels et des services et avantages publics
  • Les forces de l’ordre
  • La gestion de la migration, de l’asile et du contrôle des frontières
  • L’aide à l’interprétation juridique et à l’application de la loi.

Le reste des applications rentreront dans la catégorie des risques limités, signifiant que tout ce qui est généré par une IA doit être notifié à son utilisateur.  

Un règlement s’applique spécialement aux applications utilisant de l’IA générative, comme ChatGPT ou MidJourney. Les modèles devront être configurés de sorte à ne pas générer de contenu illégal ou publier des données protégées par le droit d’auteur.

Comment se préparer à la législation sur l’IA ?

Mettre en place un système réglementaire peut être long et couteux, surtout quand il s’agit de l’appliquer à des solutions d’intelligence artificielle dont la documentation et l’historique n’est pas à jour. Afin d’utiliser la structure de l’AI ACT comme une opportunité plutôt que comme une contrainte, il est important de construire dès maintenant et progressivement un système qui répond aux attentes de la réglementation.

 La collaboration sans couture entre les parties actives du projet de développement de la solution IA est une première piste à aborder. Elle concerne plusieurs parties prenantes :

  • Tout d’abord, la stratégie venant du pôle digital ou de la direction donnera l’impulsion et la direction pour atteindre le but défini. Elle peut s’aider d’un comité pour évaluer l’éthique des projets concernés, en accord avec les métiers ;
  • Ensuite, ceux qui développe la solution, qui se trouve à la limite entre la DSI et le data/digital office. Leur but est de s’assurer que toutes les guidelines techniques du projet répondent à l’explicabilité et à la transparence attendue par la règlementation. Ils sont les garants de la documentation et de l’évolution du projet qui, développé avec des méthodologies agiles, peut le pivoter au fur et à mesure de l’implémentation ;
  • Enfin, la partie réglementaire qui a la responsabilité de valider la présence des livrables et de relancer les métiers si besoin.

La réussite de cette collaboration peut se faire par le biais de deux couches qui doivent fonctionner simultanément. Tout d’abord, la gouvernance de l’IA, vise à designer les processus, établir le format des ateliers, instaurer les règles, évangéliser et former les parties prenantes sur l’importance d’une culture IA responsable. Elle permet également d’attribuer les rôles et actions à chaque collaborateur. Elle facilite ainsi le changement.

La seconde couche est de mettre en place une architecture logicielle fiable et les outils nécessaires qui permettent la collaboration de chacun des parties prenantes du projet. Certains défis techniques sont liés à ces outils – on pense par exemple au versioning des data sets, de la justification de leur qualité à l’explication des décisions prises au cours du projet.

L’enjeu est double : mettre en place une solution technique fiable, tout en réduisant la gestion administrative du projet, mais aussi éviter une dette technique qui pourrait ne pas répondre aux attentes d’efficacité, de robustesse et de complexité auxquels doivent répondre ces plateformes.

Remarque : les pénalités qui pourront s’appliquer auprès des entreprises seront sur du même ordre de grandeur que celui de la RGPD, soit 2 à 6% du chiffre d’affaires. Il existera un plafond pour les jeunes entreprises. Il est donc essentiel de se faire accompagner par des experts aussi bien sur les aspects technologiques que ceux de gouvernance.

En résumé

L’intelligence artificielle apporte des opportunités considérables pour les entreprises, mais sa mise en œuvre et son passage à l’échelle nécessite une approche réfléchie et responsable. L’AI ACT est un cadre qui permet de construire des solutions plus pérennes basées sur la sécurité et la protection des utilisateurs finaux. En adoptant une intégration progressive et proactive tout en construisant sur des outils robustes et de confiance, les entreprises peuvent gagner du temps afin de se préparer au mieux aux enjeux concurrentiels et économiques de demain.

Vous souhaitez découvrir comment l’AI ACT peut transformer votre entreprise en un acteur responsable et compétitif de demain ? Contactez nos expert·es.

Rédigé par Brice Lavigne, Manager Data Gouvernance au sein de notre département Data Driven

Le Data Engineering est un maillon clé des projets Data : on peut observer aujourd’hui dans la tech que le métier de Data Engineer a supplanté le très prisé métier de Data Scientist.

Il est établi que la donnée est l’or noir du 21e siècle, mais avant de le raffiner il faut l’extraire, le transporter et l’acheminer jusqu’à son usine de traitement. C’est là qu’intervient le Data Engineer : sans les étapes essentielles de Data Engineering, les projets ne peuvent se concrétiser.

En 2017, Maxime Beauchemin, l’un des premiers Data Engineer chez Facebook et Airbnb, publiait un article, The rise of the Data Engineer, sur l’émergence de ce nouveau métier. Il mettait en lumière ce travail de l’ombre indispensable à la bonne réalisation des initiatives data.

Une transformation progressive s’appuyant sur les services cloud et Modern Data Platforms

Aujourd’hui, l’émergence et la maturité des services cloud a profondément transformé le paysage IT et contribué à la disparition du traditionnel DBA (administrateur de base de données). Avec des services full SaaS, élastiques et gérés directement par les cloud providers (Snowflake, Google Big Query, Azure Synapse, Databricks…), le paramétrage, le tuning et les développements sont aujourd’hui gérés par les Data Engineers.

Cette profonde mutation a été rendue possible par la montée en puissance des services cloud. L’apparition de nouvelles solutions totalement ou partiellement automatisées a facilité la mise en œuvre des chaines de traitements et agilisé la production de données. Le besoin d’accessibilité et de fraicheur de l’information étant devenus des éléments essentiels, la modernisation des infrastructures IT est devenue une priorité pour répondre aux besoins métiers. Le déploiement de nouvelles plateformes de données, les Modern Data Stack, est le sujet stratégique IT du moment.

Modern Data Stack

Ces Modern Data Platform sont caractérisées par 3 principales briques :

  • Une plateforme cloud, datawarehouse/datalake pour bénéficier des performances, de la flexibilité et des capacités de stockage étendu ;
  • Une solution de traitement et transformation des données pour mettre à disposition des datasets qualifiés ;
  • Une solution analytics orientée self-service pour donner une plus grande autonomie aux utilisateurs métiers.

Auxquelles se rajoutent une couche transverse de gouvernance de l’information essentielle pour gérer le patrimoine informationnel.

L’un des points de transformation majeure de ces architectures modernes est la possibilité de traiter les données quelle que soit leur origine – aussi bien on-premise que dans le cloud – et de gérer des flux de données au sein d’architectures hybrides.

Grâce au renforcement des services managés et la migration des bases de données et datawarehouse dans le cloud, la problématique de stockage n’est plus un sujet. Les capacités de calcul sont potentiellement devenues illimitées. Il n‘est donc plus nécessaire de retraiter la donnée en amont.

La majorité des processus de traitement de données est passée du mode ETL (Extract-Transform-Load) au mode ELT. D’une part, ce changement permet de s’affranchir des problématiques business avant la phase d’extraction et chargement en base ; d’autre part, de ne pas limiter les cas d’usages qui pourraient voir le jour. Les données brutes étant à disposition, il est alors possible de les exploiter, de les combiner à des données tierces et de les croiser pour en tirer un maximum de valeur business.

Vers l’émergence de l’Analytics Engineer

Ce besoin de vitesse et d’adaptation rapide aux besoins métiers met en lumière ce travail de l’ombre faisant du profil de Data Engineer l’un des plus prisés actuellement. Il a la capacité de gérer les flux de données, jusqu’à la production d’insights exploitables par les utilisateurs métiers avec un rôle étendu d’Analytics Engineer.

À ce titre, l’Analytics Engineer est une évolution naturelle du Data Engineer, due à la multiplicité des rôles et responsabilités prises par ces derniers, drivée par le développement des Data Platform, services managés et besoins de vitesse demandés par le business. Les Data Engineers ne peuvent plus se cantonner au développement de pipelines de données et la préparation des datasets pour les équipes analytiques.

Désormais intégrés au sein de Data Factories, ils œuvrent dans des squads multidisciplinaires responsables des données qu’ils traitent et produisent. Ces squads sont souvent organisés par domaines métiers – à l’inverse d’une équipe centrale en charge de l’ensemble des données de l’entreprise. Lorsque les données sont partagées entre les entités de l’entreprise et exposées à une plus grande échelle, il est nécessaire d’avoir une bonne connaissance des données manipulées. Cela nécessite une rigueur et méthodologie propres à la fourniture d’APIs, mais aussi d’accompagnement au changement et de structuration des organisations pour mieux répondre aux besoins de fourniture de services data.

En conclusion

Traiter la donnée comme un produit (data as product) est donc devenu une cible de plus en plus recherchée. Cette transformation data-driven devient un enjeu stratégique de nos clients. Comment accompagner le passage à l’échelle et l’industrialisation des processus de Data Engineering et servir les besoins d’informations pour l’ensemble de l’entreprise ? Comment déployer et opérer une Data Factory pour servir les besoins business ? Ces questions auxquelles nous sommes régulièrement confrontés sont cruciales ; nous aurons l’occasion de vous en reparler prochainement à travers nos retours d’expériences.

Vous souhaitez en savoir plus ?

Rédigé par Julien Ayral, Directeur département Data Driven

Presque 6 ans après l’entrée en vigueur de l’accord de Paris sur le climat à la fin de l’année 2016, il reste beaucoup à faire pour que les engagements pris se traduisent en actions concrètes pour limiter le réchauffement climatique et atteindre le “Net Zero” (la neutralité Carbone) en 2050.

Les pays engagés sur cet accord ont décliné leurs engagements en plan d’investissements et réglementations pour mettre la société en mouvement. En Europe, et plus particulièrement en France, cela se traduit par exemple par le décret tertiaire imposant aux entreprises de faire des économies d’énergie dans certains types de bâtiments.

La collecte et valorisation des données est un levier majeur pour identifier, mettre en œuvre et piloter les projets visant à accompagner ces initiatives.

Martin Alteirac, Senior Manager au sein de l’équipe Data Driven chez Saegus, nous éclaire sur la façon dont les données peuvent être mise au service de la transition énergétique.

Comment la data peut-elle contribuer à faciliter et accélérer la transition énergétique ?

William Edwards Deming, célèbre statisticien à l’origine des principes fondateurs de l’amélioration continue, avait pour coutume de dire : “ce qui ne se mesure pas ne s’améliore pas”. Il me semble que cette phrase résume tout. La data a d’abord été un levier utilisé par les scientifiques pour produire les rapports et études ayant provoqué une prise de conscience sociétale et politique. Grâce à ces travaux, le climato-scepticisme a reculé, donnant vie à des initiatives comme celles prises à la suite de l’accord de Paris.

Je suis également persuadé que des initiatives comme Our World in Data contribuent à propager la prise de conscience sur l’urgence écologique. En facilitant l’accès à l’information claire et intelligemment représentée, c’est un véritable levier de mise en mouvement de la société.

Des techniques de visualisation de données avancées ont été utilisées par des organismes comme la NASA pour faciliter l’accès et la compréhension des données rendant compte du réchauffement climatique.

Néanmoins, l’apport de la data dans le domaine de la transition énergétique ne se limite pas à la caractérisation du réchauffement climatique. De nombreuses initiatives y participent en s’appuyant sur l’utilisation et la valorisation des données grâce à des technologies comme l’intelligence artificielle.

Peux-tu nous citer des exemples concrets d’utilisation de la data et/ou de l’intelligence artificielle pour lutter contre le réchauffement climatique ?

Les exemples sont nombreux, que nous pouvons classer en deux catégories.

D’abord, les cas d’usages à “impact direct”, par exemple dans la gestion énergétique. Les grands opérateurs de réseau de transport d’électricité conçoivent les réseaux de demain qui passeront d’un mode distributif (quelques lieux de production, de nombreux lieux de consommation) à collaboratif (l’électricité est produite par de multiples producteurs répartis sur le réseau – installations éoliennes, panneaux photovoltaïques privés – qui sont aussi consommateurs). Il faudra donc être capable de prévoir la production et consommation des points du réseau pour prendre les décisions adaptées pour assurer la répartition de l’énergie. Le pilotage de ces réseaux intelligents ou smart grids sera fait par des algorithmes d’intelligence artificielle intégrant le processus de prise de décision des données externes, comme la météo par exemple.

Ces cas d’usages à impact direct seront cruciaux. Ils devront être complétés par une myriade de cas d’usages à impact indirect qui représenteront des leviers importants.

Celui qui me parait incontournable, car emblématique, est l’optimisation de la Supply Chain. Le transport des biens de consommation, ou des composants nécessaires à leur production, est une source de pollution majeure. Les initiatives innovantes pour réduire les émissions liées à ces activités sont en plein boom : par exemple, la réintroduction de la voile pour propulser les navires de transport de marchandises par des opérateurs maritimes innovants comme Néoline. Pour définir et mettre en œuvre des plans de réduction des émissions polluantes liées à ces activités, la récolte et valorisation des données des entreprises est un impératif.

C’est un chantier d’envergure, les réseaux de production et distribution des biens de consommation s’étant complexifiés et mondialisés. Acquérir une vision fiable des opérations réalisées et émissions liées à ces opérations est donc un challenge. Une fois ce challenge relevé, les techniques de valorisation de données permettront d’optimiser cette logistique.

Quelques exemples :

  • L’optimisation des circuits et tournées de livraison, évitant la consommation inutile de carburants en maximisant le taux de chargement des moyens de transports ou optimisant les distances parcourues ;
  • La fiabilisation de la prévision de la demande, pour produire et stocker le juste niveau de produits nécessaires et éviter les gaspillages ;
  • La gestion et optimisation du trafic sur les réseaux de transports routiers, ferroviaires ou maritimes, conduisant à une meilleure fluidité et efficience globale. À ce titre, la réintroduction de la voile comme moyen de propulsion des navires de transport maritime présentée ci-dessus nécessitera l’inclusion de nouveaux paramètres (direction et force du vent) dans les algorithmes pour proposer de meilleures trajectoires aux navires.

Que peut apporter un cabinet de conseil comme Saegus aux entreprises souhaitant se saisir de leurs données pour contribuer à leur stratégie de décarbonation ?

Projets transversaux par essence, les projets de décarbonation doivent impliquer toutes les strates et fonctions de l’entreprise.

Nous pouvons contribuer de plusieurs manières à leur réussite chez nos clients :

  • La première expertise que notre cabinet met au service de ses clients est sa capacité à cadrer rapidement, en lien avec les fonctions de l’entreprise, des projets complexes nécessitant d’interagir avec les collaborateurs de terrain et décideurs stratégiques. Ces travaux seront nécessaires pour identifier les domaines ou fonctions sur lesquels l’entreprise doit se focaliser, ainsi que son périmètre de responsabilité ;
  • Nous accompagnons nos clients dans la récupération des données leur permettant d’acquérir une vision fiabilisée de leurs émissions. Cette étape est complexe : certaines données internes ne sont pas toujours collectées ou accessibles, d’autres externes nécessitent des modifications de relation contractuelle ou la construction de partenariats avec des sociétés tierces pour être récupérées. La construction d’une data platform regroupant ces données représente à elle seule un projet à part entière ;
  • Nous les assistons également dans la gestion et gouvernance de ces données pour que cet actif stratégique soit exploité à sa juste valeur et que les processus garantissant leur fiabilité et qualité soient robustes. Cette gouvernance inclut la mise en place de process d’échanges des données de ces entreprises avec des tiers, pour étendre l’impact des actions menées aux processus en interactions avec ses fournisseurs ou clients ;
  • Nous les aidons enfin à valoriser ces données : par exemple, en construisant des cockpits digitaux de monitoring de consommation énergétique identifiant les points de progrès sur lesquels se focaliser, mesurant l’impact des actions menées ou aidant à concevoir, déployer et maintenir les algorithmes d’intelligence artificielle réalisant les optimisations précédemment décrites (supervision de la qualité industrielle, maintenance prédictive ou optimisations logistiques). Notre capacité à concevoir des solutions sur mesure et adaptées aux spécificités de nos clients est un atout majeur.

De manière globale, nous avons la capacité de solliciter des expertises complémentaires à celles de la data pour nous adapter aux phases du projet. Par exemple, en sollicitant nos départements Acceleration Tactics sur les phases de cadrage ou Employee Experience sur la mise en place d’outils digitaux à destination des frontline workers.

Vous êtes intéressé de découvrir comment la data peut servir votre ambition en matière de décarbonation ? Restez connectés pour une table ronde sur ce sujet !

Rédigé par Martin Alteirac, Responsable Intelligence artificielle, Département Data Driven

Le concept de limite planétaire, théorisé au début des années 2000, définit l’espace dans lequel la vie humaine peut se développer de manière sûre et juste. À l’inverse du concept de jour de dépassement, qui est une comparaison entre le niveau de ressources naturelles produites par la terre en un an et le niveau de ressources consommées par les activités humaines, le concept de limite planétaire illustre l’impact des activités humaines sur 9 composantes essentielles à la vie sur Terre.

Sur les 9 limites planétaires définies, 6 sont déjà franchies…

Ces limites planétaires sont aujourd’hui au nombre de neuf :

  • Le changement climatique
  • L’érosion de la biodiversité
  • La perturbation des cycles biogéochimiques de l’azote et du phosphore
  • Les changements d’utilisation des sols
  • L’acidification des océans
  • L’utilisation mondiale de l’eau
  • L’appauvrissement de l’ozone stratosphérique
  • L’augmentation des aérosols dans l’atmosphère
  • L’introduction d’entités nouvelles dans la biosphère

Sur ces neuf limites, six sont franchies, dont deux l’ont été sur l’année 2022 – la limite concernant l’acidification des océans en janvier 2022 et celle concernant l’utilisation mondiale de l’eau en avril 2022. Vous trouverez plus d’informations sur le concept de limite planétaire sur le site du ministère de l’Environnement.

Le digital, menace ou atout pour la sauvegarde des limites planétaires ?

Bien que consommateur de ressources, le digital doit être un atout pour favoriser l’évolution de la société vers un modèle plus responsable et respectueux de l’environnement. Tout d’abord en limitant sur son impact en intensifiant les efforts pour que le stockage, le traitement et la circulation de l’information se fasse avec des infrastructures plus efficientes. Mais aussi en développant les technologies qui permettront de lutter concrètement contre les dégradations de l’environnement, illustrées par les limites planétaires :

  • Limiter le besoin en déplacements de courte, moyenne et longue distance grâce aux outils collaboratifs en ligne ;
  • Permettre l’étude précise des phénomènes physiques causant la dégradation des écosystèmes naturels grâce au big data ;
  • Rendre accessibles à chacun et chacune des pistes concrètes de réduction de son impact sur l’environnement, grâce à la valorisation intelligente des données de consommation d’énergie électrique ou fossile ;
  • Optimiser l’efficience des systèmes de production et de transport des biens de consommation grâce à l’intelligence artificielle.

Ces leviers doivent permettre de mieux caractériser, comprendre et lutter contre les sources de pollution à l’origine des phénomènes mesurés par les limites planétaires et parvenir au “Net Zero 2050”, l’objectif de la neutralité carbone introduit lors des négociations ayant mené à la mise en place de l’Accord de Paris, réaffirmé par les récents rapports du GIEC comme la priorité numéro une.

Vous souhaitez étudier les leviers digitaux que vous pouvez mettre au service de votre ambition en matière de changement climatique ?

Rédigé par Martin Alteirac, Responsable Intelligence artificielle

En décembre 2021 avait lieu NeurIPS, l’une des conférences majeures dans le domaine de l’intelligence artificielle et du Machine Learning. Cette édition a mis en lumière une nouvelle tendance : le focus sur les données utilisées pour l’apprentissage, plutôt que sur les modèles d’intelligence artificielle permettant de valoriser ces données, est de plus en plus important – c’est la Data-centric AI. Découvrons ensemble ses tenants et aboutissants.

Une tendance qui émerge

La progression des performances des modèles d’intelligence artificielle au cours des dernières années est fascinante. Les nouveaux modèles comme BERT, DALL-E ou GPT-3 montrent des progrès significatifs, notamment grâce à leur capacité à être entrainés sur des vastes volumes de données. Néanmoins, cet entrainement massif a un coût que peu d’entreprises peuvent soutenir. La plupart des cas d’usages réalisés en entreprise ont recours aux méthodes de Transfer Learning. Ces méthodes se basent sur des modèles pré-entrainés pour réduire le temps d’apprentissage, et donc son coût. Ce Transfer Learning permet de profiter d’un haut niveau de performance, rendu possible par l’apprentissage massif, tout en étant peu coûteux à entraîner et utiliser sur des données réelles.

L’expérience prouve néanmoins qu’il est souvent plus simple d’augmenter la performance des modèles les plus répandus en améliorant la qualité des données utilisées lors de l’apprentissage – plutôt que par l’optimisation du modèle lui-même. Andrew NG en donne un très bon exemple dans sa dernière interview pour IEEE Spectrum : “dans de nombreux secteurs où les grands ensembles de données n’existent tout simplement pas, je pense que l’accent doit être déplacé du Big Data vers le Good Data. Avoir 50 exemples bien pensés peut suffire à expliquer au réseau de neurones ce que vous voulez qu’il apprenne.

Cela implique de construire des jeux de données spécifiques pour qu’ils soient consommés par des modèles de Machine Learning. Si dans le monde scientifique les jeux de données sont souvent bien explorés et leurs limitations et spécificités bien connues, c’est une activité qui reste à développer pour la plupart des acteurs de l’industrie.

Comment améliorer la qualité des données présentes dans l’industrie ?

La première étape consiste à s’assurer que le phénomène ciblé est bien présent dans les données. Par exemple, si l’objectif est de détecter les anomalies, il faut vérifier qu’il y a suffisamment d’observations présentes dans l’échantillon. Si l’on travaille sur un problème de classification par exemple, il est intéressant de calculer la classe sous-échantillonnée. Une fois que l’on sait qu’il est théoriquement possible d’avoir un modèle opérationnel, on peut passer à l’étape d’évaluation de la qualité du Dataset.

Avant de vouloir améliorer la qualité des données, il est nécessaire de la mesurer. Plusieurs critères communs sont traduisibles en métriques numériques : on peut par exemple compter le pourcentage de lignes dupliquées ou le pourcentage de lignes aux valeurs nulles. Il faut également penser aux paramètres business : par exemple, sur une base de données manufacturing, une date de commande doit toujours antérieure à une date de livraison. À partir de ces critères, il est possible de mesurer la précision, intégrité, fiabilité et cohérence des données. La difficulté est qu’assurer la qualité des données est une activité qui doit s’exercer lors de toutes les phases d’un projet : dès la phase de cadrage et ce, jusqu’à la phase de monitoring et d’exécution.

La redondance est un levier clé pour mesurer la qualité des données : elle permet de détecter les problèmes potentiels et d’assurer la cohérence des indicateurs mesurés par différents moyens. Il est ensuite possible d’agir sur la qualité des données et d’avoir un feedback sur la pertinence des actions réalisées. La standardisation et l’automatisation sont deux outils bien connus pour contribuer à la qualité de données.

Cet effort de construire un bon Dataset a plusieurs avantages, notamment sur les coûts indirects. Par ailleurs, les Data Analysts et Data Scientists passent moins de temps à nettoyer le Dataset et à adapter les analyses et modèles à cause de l’imperfection des données, favorisant ainsi un gain de temps. Un Dataset propre augmente la confiance des utilisateurs au sein d’une démarche Data-driven, facilitant à terme son adoption. Si l’on pousse plus loin cette approche, on pourrait imaginer un label “AI-ready” comme le fait Kaggle avec son indice d’utilisabilité.

Il est possible d’introduire de nouveaux rôles contribuant à l’amélioration de la qualité de données, comme ceux de Data Steward ou Data Quality Manager. Ces activités peuvent s’intégrer dans le cadre plus large de la Data Governance ; on parle alors de Master Data Management. Pour en savoir plus, retrouvez notre article sur le sujet : https://saegus.com/deployer-la-gouvernance-de-la-donnee-en-agile/.

En conclusion

La Data-centric AI se propage rapidement dans le monde de la Data Science. La qualité des données devient un impératif car elle reflète l’organisation d’une entreprise autour des sujets data, ainsi que sa capacité à adresser de nouveaux cas d’usage. Il est important d’adopter les best practices et surtout de les intégrer à la structure existante.

Notre cabinet a confirmé sa capacité à accompagner ses clients leaders de l’industrie pour réussir leurs projets Data et ce, à travers des réalisations concrètes. Vous souhaitez être accompagnés à votre tour par nos équipes Data ?

Rédigé par Alexander Mikheev, Manager Data

Le métavers est un réseau d’environnements graphiques virtuels en ligne, accessible grâce à des équipements de réalité virtuelle ou augmentée. Les utilisateurs sont plongés dans une expérience immersive au sein de laquelle ils ont la liberté d’être qui ils souhaitent et d’aller et de faire ce qu’ils veulent sans limite. Le film “Ready Player One” est un bon exemple pour illustrer le métavers – les personnages vivent dans l’Oasis, une société virtuelle accessible grâce aux mêmes technologies. La réalité a donc rattrapé la science-fiction : il est aujourd’hui possible de basculer dans ce monde parallèle…

L’intention de Mark Zuckerberg de transformer l’entreprise Facebook en un métavers est devenu un sujet incontournable pour les entrepreneurs, et plus particulièrement les acteurs du marketing. En effet, le monde virtuel offre des opportunités commerciales générant de la valeur : il est essentiel de s’y adapter rapidement ! L’exposition des marques et des produits dans le métavers est aujourd’hui la clé pour se positionner sur ce nouveau champ de bataille. Mais comment procéder ?

La publicité OOH virtuelle

L’espace de publicité est le modèle principal de sources de revenus du métavers (ex-Facebook, donc). Les designers et ingénieurs qui créent ces mondes virtuels travaillent ensemble pour permettre aux marketers et publicitaires de diffuser leurs annonces dans des espaces dédiés. À l’image des publicités out-of-home (OOH) que l’on retrouve sur les immeubles, les panneaux publicitaires ou dans les transports en commun, les annonces sont exposées sous des formats multiples non-contraints par les lois de la physique.

Les événements virtuels

En 2019, Marshmello réalisait pour la première fois un concert de musique électronique dans le jeu vidéo Fornite, rassemblant ainsi les joueurs autour d’une expérience musicale immersive. Ce concert a levé les contraintes logistiques et de capacité d’accueil pour laisser place à la créativité. Il a ouvert la porte à de nouvelles opportunités événementielles pour les marques comme l’organisation de défilés de mode, de premières de films ou d’évènements sportifs. Les possibilités sont infinies… sky is the limit !

Le placement de produit virtuel

Le métavers n’est pas qu’un lieu de jeu : il est possible d’y créer son avatar en lui donnant l’apparence et le style que l’on souhaite. Certaines marques de luxes comme Balenciaga et Gucci se sont déjà positionnées sur ce marché en intégrant leurs produits dans le monde virtuel : des boutiques offrent aux clients une nouvelle expérience, ayant pour objectif d’accroitre à terme les ventes dans la réalité.

L’avenir du placement de produit dans le métavers

Notre conviction est que les marques et organisations seront une partie intégrante du métavers dès lors que son usage sera mainstream. Ainsi, nous pouvons imaginer que les entreprises et marques loueront des espaces virtuels pour déployer leurs activités. Mercedes y lancera des véhicules virtuels, Starbucks offrira des espaces virtuels où se retrouver…

Saegus saisit l’opportunité de valoriser les données marketing du métavers pour augmenter les insights consommateur en fournissant un conseil en stratégie. Nos experts du data marketing vous accompagnent sur l’analyse des données du métavers (comportement utilisateur et médias digitaux), la mise en place de stratégie marketing dans le métavers et la réalisation de contenus créatifs digitaux. Le futur est déjà le présent : nous sommes prêts, et vous ?

Vous souhaitez en savoir plus ou être accompagnés par nos équipes Data ?

Rédigé par Tanasit Mahakittikun, Consultant Data

Maximiser l’efficience et l’efficacité opérationnelle dans un monde en constante évolution est un défi pour toutes les entreprises aujourd’hui, quel que soit leur secteur d’activité. Les challenges opérationnels sont de plus en plus nombreux et complexes : perturbation des chaînes d’approvisionnement, numérisation massive des modes de consommation, augmentation ininterrompue des exigences qualité et guerre concurrentielle pour offrir les meilleurs prix ne sont que quelques-uns d’entre eux. Dans ce contexte, les données de l’entreprise sont un asset qu’il n’est plus possible de ne pas exploiter et valoriser à sa juste valeur.

Martin Alteirac, Senior Manager en charge du secteur Industriel au sein de l’équipe Data Driven Business chez Saegus, répond à nos questions.

Comment les nouveaux usages de la data peuvent-ils contribuer à l’excellence opérationnelle ?

Avant d’être une démarche, l’excellence opérationnelle est un état d’esprit. Un des piliers de cet état d’esprit est à mon sens la faculté à objectiver les problèmes, à être pragmatique, à raisonner sur des faits et pas sur des idées préconçues ou des préjugés.

La data est donc un atout majeur dans la quête de cette excellence car elle permet de mettre en évidence de manière factuelle les points de faiblesses d’une organisation. Deux grands usages peuvent contribuer à l’excellence opérationnelle des entreprises :

  • L’analytics, par sa faculté à apporter à chaque collaborateur·rice une information personnalisée et actionnable et à faire rayonner dans l’entreprise une culture de la mesure de la performance ;
  • La data science, par sa capacité à optimiser et/ou automatiser certains processus métier complexes ou à aider à la conception de nouveaux produits ou services.

Le premier enjeu est d’identifier les fonctions d’une entreprise les plus à même de bénéficier de ces nouveaux usages de la data.

Quelles sont les fonctions de l’entreprises les plus propices au déploiement de ce type de démarche ?

Toutes les fonctions de l’entreprise peuvent bénéficier d’une démarche Data Driven Ops :

  • La production ou les opérations pour délivrer des produits ou services d’une qualité irréprochable tout en optimisant leur coût de production ;
  • La Supply Chain pour servir ses clients toujours plus vite en sollicitant le minimum de ressources ;
  • La maintenance pour garantir que les moyens de production soient les plus productifs possible ;
  • Le procurement où la transformation digitale permet d’acheter toujours mieux et au meilleur prix ;
  • Les ressources humaines pour booster l’efficacité des équipes ;
  • La recherche et le développement pour développer les produits et services de demain.

Bien évidemment l’intérêt de ces différentes fonctions dépend généralement du secteur d’activité concerné :

  • Le secteur du manufacturing sera intéressé par les cas d’usages autour de la valorisation des données issues des équipements ou des systèmes d’information liés à la production : optimisation des rendements, qualité ou maintenance prédictive, optimisation de la planification… ;
  • Le secteur de la distribution B2B ou B2C sera friand de cas d’usages autour de la supply chain, du procurement ou du pricing ;
  • Enfin le secteur énergétique sera concerné par la récupération et l’exploitation de données physiques mesurées par des capteurs posés au niveau des équipements de production et de consommation d’énergie pour prévoir la demande ou la production en temps réel.

D’autres cas d’usages existent (gestion des ressources humaines, des achats) ; chaque entreprise pourra également imaginer des cas d’usages spécifiques sur les problématiques qui lui sont propres. C’est souvent le cas lorsqu’on touche à des sujets de R&D ou d’innovation ayant pour objectif le développement de produits ou services visant à développer son activité.

Comment mettre en place une démarche Data Driven Ops ?

Les données de l’entreprise sont une mine d’or mais, comme pour l’or, les obstacles à franchir sont nombreux pour passer de leur découverte à leur valorisation.

Pour qu’une démarche Data Driven aboutisse il faut donc fédérer des acteurs à même d’apporter les expertises nécessaires :

  • Une expertise métier pour s’assurer que la démarche soit menée par la recherche de valeur ajoutée concrète, qu’elle soit technique, économique ou opérationnelle ;
  • Une expertise technique qui permette de sélectionner les bons outils et les bonnes technologies à mettre au service des métiers ;
  • Une expertise méthodologique sans laquelle les chances de voir la démarche aboutir s’amenuisent à cause des freins techniques, organisationnels ou culturels que ce type de démarche rencontrera à un moment ou à un autre.

Qu’est-ce qui fait de Saegus un partenaire de choix pour ce type de projet ?

Saegus est capable d’apporter à ses clients l’expertise et les ressources nécessaires pour initier, conduire et pérenniser une démarche Data Driven. D’une part, les directeurs et managers du cabinet ont conduit de vastes programmes de transformation au sein des plus grandes entreprises françaises ; d’autre part, ses consultant·e·s possèdent les expertises sectorielles, fonctionnelles et technologiques requises et sont continuellement formé·e·s aux nouvelles technologies et solutions du marché.

Mais plus que tout, nos équipes placent les utilisateurs et les usages au centre de la démarche Data Driven. Cela garantit la meilleure adéquation possible entre les choix technologiques et les besoins de l’entreprise et surtout l’adoption la plus large et durable possible des outils développés.

J’aurai l’occasion de vous parler de nos cas d’usages les plus emblématiques dans de futurs articles. Stay tuned !

Envie d’en savoir plus ou d’être accompagné·e·s par nos équipes Data ?

La business intelligence est aujourd’hui “drivée” par plusieurs éditeurs de logiciels – les principaux étant Microsoft avec Power BI, Tableau et Domo :

Ces outils fournissent des tableaux de bord opérationnels sur différents domaines à plusieurs niveaux hiérarchiques pouvant aller jusqu’au CODIR. Conscients des enjeux de cyber sécurité qu’implique ce type de projets, les architectes groupes réfléchissent aux solutions les plus adaptées.

Comment ces outils fonctionnent-ils ? Concrètement, dans une première démarche, un outil de BI stocke la donnée collectée dans ses propres bases de données dont le client ne peut souvent pas choisir le fournisseur et la localisation. Par exemple, un Power BI récupère de la donnée dans une base de données client chez Google Cloud et la stocke dans sa base de données Azure.

C’est ainsi que la plupart des outils de BI proposent à présent au moins deux modes de connexion : l’Import Query et le Direct Query.

Plusieurs défis se posent alors :

  • Est-ce un problème que ma donnée soit stockée dans deux bases de données différentes ? On pense par exemple à une donnée très sensible telle que la donnée financière ;
  • Les connecteurs Live Query sont-ils assez robustes pour interroger un très gros volume de données ?
  • Quels sont les coûts engendrés par le choix de l’architecture ?

Définition : Import Query et Direct Query

Tout d’abord, quelle est la différence entre ces deux notions, qui peuvent varier selon les outils de BI ?

Import Query : le fait de collecter la donnée stockée dans une database dédiée et qui appartient à l’outil de BI.

Direct Query : le fait de lire de la donnée en direct dans la database source sans la stocker ailleurs.

Import Query

La majorité des outils de BI propose ce mode de collecte de la donnée et ce, pour plusieurs raisons.

Mindset

Cela crée de la valeur pour l’outil en question. Évidemment, l’outil de BI garantit la sécurité de la donnée collectée (elle ne la diffusera ou ne la vendra pas), mais elle possède bien une donnée qui ne lui appartient pas et qui est importante aux yeux d’une entreprise. Cette dernière aura donc tendance à se fidéliser auprès de cet éditeur.

Bénéfices pour l’utilisateur

Une fois que la donnée est stockée, l’outil de BI propose aux éditeurs qui la traitent d’y apporter des transformations, comme des jointures avec d’autres bases de données. Il s’agit ici de transformer la donnée brute en une donnée qui répond parfaitement aux besoins de la visualisation dans un tableau de bord.

En matière de performance, la donnée étant stockée chez l’éditeur, les requêtes permettant d’afficher les visualisations lors d’un changement de page seront plus rapides.

Coût

Enfin, un dernier aspect non négligeable, le coût du tableau de bord. Généralement, lorsque vous souscrivez à un outil de BI, vous payez une licence qui vous donne le droit à un certain volume de stockage. Power BI est par exemple gratuit jusqu’à 1 go par jeu de données. Il faut passer sur une licence premium pour augmenter ce volume de stockage à 10 go ou plus. Vous payez donc un volume maximum.

Ainsi, vos frais relatifs à la donnée s’arrêtent là (exceptés donc les autres coûts liés par exemple aux accès utilisateurs). Peu importe le nombre de fois qu’un utilisateur requête une visualisation, votre coût sera fixe. À noter que l’entreprise paiera donc deux fois le stockage de sa donnée, une fois via l’outil de BI et une fois via le serveur où est stockée sa donnée source.

Direct Query

Une entreprise souhaitant stocker sa donnée à un seul endroit n’aura donc pas d’autre choix que d’utiliser ce mode de collecte. Le Direct Query est moins avantageux pour un éditeur d’outils de BI car il perd les points expliqués ci-dessus.

Mindset

La seule valeur ajoutée de l’outil de BI devient la visualisation.

Bénéfices pour l’utilisateur

  • Afficher la donnée la plus fraîche provenant de la base de données ;
  • Un seul point de stockage de la donnée (préférable si la donnée est sensible).

Inconvénients pour l’utilisateur

  • Avec le Direct Query, la majorité des outils de BI ne proposent plus la possibilité de faire des transformations. La donnée devra donc être traitée avant d’être collectée par l’outil de BI dans un BigQuery ou un Snowflake par exemple ;
  • La performance sera impactée en fonction du temps de réponse entre le serveur source et l’outil de BI, qui sera généralement plus long que la méthode Import. Sur un très gros volume de données, le temps d’affichage des visualisations sera trop long et deviendra un frein à l’adoption et la navigation.

Coût

En matière de coût, l’éditeur de l’outil de BI est le grand perdant. Le grand gagnant est en fait le fournisseur de base de données qui contient la donnée source. Par exemple, GCP facture à la requête, même dans un data studio qui appartient à Google, chaque nouvelle requête sur ce tableau de bord engendre des coûts d’utilisation au client. Plus la volumétrie est importante, plus les coûts le seront. Une architecture mal optimisée au sein de GCP sera vraiment coûteuse au quotidien, comme un Direct Query sur une vue classique faisant la jointure entre deux tables très volumineuses. Il sera important de porter une attention particulière à la performance et au nombre de requêtes effectuées. C’est le prix à payer pour avoir la main totale sur sa donnée et être maître de sa localisation.

Bonus : Hybrid Query

Chez certains éditeurs, notamment Power BI, il existe un troisième type nommé “Hybride”. Ce mode combine les modes import Query et Direct Query au sein d’une même table.

Concrètement, vous pouvez cibler une partie de votre table pour qu’elle vous renvoie la donnée en live query – comme les données du mois précédent, tandis que la donnée antérieure à ce mois sera récupérée via l’import Query.

Bénéfice pour l’utilisateur

Dans le cas où l’utilisateur requête une base de données avec une très grosse volumétrie, cela améliorera le temps d’affichage de son tableau de bord en lisant la plus grosse partie de la base (la donnée historique par exemple) via l’Import Query. Il pourra tout de même avoir de la donnée en temps réel (la donnée la plus fraîche par exemple) via le Direct Query sur une partie ciblée de la base de données.

Conclusion

La sensibilité de la donnée et le coût à terme sont deux points essentiels à considérer pour choisir une approche adaptée afin d’ingérer de la donnée dans des outils de BI pour réaliser un tableau de bord.

D’un point de vue relatif à la sécurité, une entreprise n’a pas intérêt à stocker sa donnée dans plusieurs base de données.

Cependant, un connecteur Direct Query n’est pas assez robuste sur des très gros volumes de données : nous l’avons vu, le temps de chargement sur une page sera un frein à la navigation sur le tableau de bord. En revanche, il est très efficace sur des petits volumes de données, si les tables alimentant les visualisations ont été factorisées en amont au sein de l’entrepôt de données. Il pourra également répondre au besoin d’afficher de la donnée en temps réel.

À ce jour, la solution la plus pertinente, notamment pour de gros volumes de données, est de choisir un même fournisseur pour stocker et lire la donnée. Par exemple, un Power BI ingérant de la donnée en Import Query depuis Azure la stocke également dans Azure – si le serveur est différent, il s’agit bien du même fournisseur.

Pour résumer :

Vous souhaitez en savoir plus ou être accompagné·e·s par nos équipes Data ?

Rédigé par Maxime Rousseau, Consultant Senior Data

Sources
(1) https://www.qlik.com/fr-fr/gartner-magic-quadrant-business-intelligence