Ici archive

La quantité et la complexité des données n’ont jamais été aussi importantes. Les évolutions technologiques ont cependant rendu la mise à disposition des données dans l’entreprise beaucoup plus simple et rapide. Le développement de l’utilisation des technologies IoT, du cloud, de la Business Intelligence ou encore de l’intelligence artificielle génère et consomme une quantité de données transformées de manière croissante dans l’entreprise.

En parallèle, le contexte règlementaire ne cesse de se renforcer. Nous pouvons par exemple citer l’entrée en vigueur, depuis 2018, du Règlement Général sur la Protection des Données (RGPD) qui impose un cadre sur la gestion des données personnelles des ressortissants de l’Union Européenne. Les sanctions encourues en cas de non-respect de cette réglementation sont colossales, avec des amendes s’élevant jusqu’à 4% du chiffre d’affaires annuel de l’entreprise contrevenante.

Pour répondre à ces nouveaux challenges et parce que la donnée est un asset stratégique, les entreprises s’organisent pour trouver de nouveaux modèles et valoriser au mieux cet actif. Pour atteindre cet objectif, il est nécessaire de connaître, comprendre et contrôler son patrimoine de données et c’est là qu’intervient la gouvernance des données.

Elle consiste à définir un ensemble d’activités au sein desquelles les équipes métiers et IT travaillent ensemble pour harmoniser, nettoyer, diffuser et contrôler les données partagées au sein de l’organisation. La donnée doit être managée et sa gestion professionnalisée. L’émergence des data offices permet la création de nouveaux rôles dans l’entreprise tels que les Data Owner, Data Steward ou encore Data Custodians. La gouvernance vise donc à assurer la cohérence, la fiabilité, et la sécurité du patrimoine de données.

Quels bénéfices pour les entreprises ?

Le déploiement de la gouvernance de la donnée est un levier de contextualisation de l’information, notamment à travers la création d’un catalogue de données. En associant une vision transverse des sources d’information de l’entreprise à un glossaire de termes métiers, il augmente la confiance dans l’information mise à disposition et réduit le risque d’erreurs en facilitant la compréhension transversale de la signification des données et en alignant l’ensemble des collaborateurs autour d’un langage commun. Ainsi, la gouvernance de la donnée est la fondation indispensable au Data Litteracy et à l’exploitation de la donnée pour en extraire toute sa valeur.

Maîtriser son patrimoine c’est également avoir une vision complète du cycle de vie des données depuis les systèmes de production jusqu’à la multiplicité des usages en documentant l’ensemble des traitements qui leur sont appliqués. Comprendre ce cycle de vie est à la fois primordial pour pouvoir garantir l’accès aux données dans les outils d’aide à la décision (Business Intelligence) mais encore encourager l’interprétabilité des modèles d’intelligence artificielle, indispensable pour répondre aux requis règlementaires de plus en plus importants.

Enfin, déployer la gouvernance de la donnée c’est également mettre en place une organisation, des rôles et des processus autour des données qui garantissent la qualité du patrimoine dans le temps.  En définissant les responsabilités de chacun vis-à-vis des données, on diffuse cette culture data centric.

La gouvernance des données est aujourd’hui une réponse à un grand nombre d’enjeux rencontrés par les entreprises. Elle est catalysée par des évolutions technologiques majeures, par le développement des solutions techniques de gouvernance et par le besoin de réussir le virage de la transformation digitale.

Les principaux bénéfices :

  • Assurer le contrôle au sein de l’entreprise
    • Fournir une organisation, des politiques partagées & des processus clés
    • Améliorer le contrôle sur l’ensemble du cycle de vie de la donnée
    • Définir des responsabilités sur un ensemble de processus data
    • Standardiser les référentiels de données
  • Encourager & faciliter l’accès au patrimoine
    • Documenter les données pour les rendre compréhensibles et exploitables par un grand nombre d’utilisateurs
    • Augmenter la confiance des utilisateurs dans les systèmes d’analyse
    • Améliorer l’accessibilité à des données standardisées et des sources fiables
  • Favoriser la collaboration au sein d’une organisation
    • Encourager une collaboration plus forte entre les équipes
    • Responsabiliser les utilisateurs à l’usage des données et au partage des données
    • Responsabiliser les utilisateurs à l’usage des données et au partage des données
  • Permettre la réalisation de nouveaux cas d’usage
    • Permettre la réalisation de cas d’usage utilisant des données avec un impact maximal sur la top line (maximiser les revenus, améliorer l’expérience client) et/ou la bottom line (améliorer l’efficacité opérationnelle)
  • Sécuriser les investissements IT
    • Fluidifier les transitions vers de nouveaux systèmes/ applications IT (e.g. transition vers de nouveaux systèmes business, agrégation de sources de données disparates dans un Data Lake) et évaluer les impacts en termes de production et génération de données

Chez Saegus nous accompagnons nos clients dans le déploiement d’activités de gouvernance de la donnée. Grâce à notre savoir-faire et nos partenaires privilégiés Data Galaxy et Microsoft Purview, nous sommes en mesure de proposer des démarches tant organisationnelles qu’opérationnelles reposant sur une méthodologie agile.

Retrouvez notre table ronde exceptionnelle sur l’introduction de l’Agilité dans les processus de Data Gouvernance le jeudi 7 octobre à 18h, en ligne. Inscriptions : https://bit.ly/3lx0Unn.

Et vous souhaitez être accompagnés par nos équipes Data ? Contactez-nous !

Rédigé par Martin Éliard, Manager Data, et Marc Gabet, Consultant Data

Les solutions d’intelligence artificielle se démocratisent depuis quelques années. Utilisées initialement à des fins marketing ou d’optimisation (production, supply chain…), de plus en plus de fonctions régaliennes y trouvent un intérêt, notamment les directions des ressources humaines.

En effet, les solutions d’aide au recrutement faisant usage de l’IA et de la donnée se sont massivement développées au cours de la dernière décennie – le profiling, la recherche par mots-clés ou l’utilisation d’un réseau comme LinkedIn en sont les exemples. La première étape d’un processus de recrutement est principalement basée sur l’utilisation de données caractérisant le candidat (diplôme, expérience, compétences, ancienneté dans un poste, etc). Toutes ces informations, accessible sur un CV ou un profil, permettent d’effectuer efficacement des recherches, des filtrages, et aboutissent à une pré-sélection de candidats à rencontrer. L’utilisation des technologies permet d’automatiser tout ou partie de cette première phase avec une grande efficacité. Dans ce cadre, les outils d’IA établissent des scores de pertinence sur les profils, en fonction des fiches de poste (rapprochement par similarité par exemple).

Cependant, la crise sanitaire a été un accélérateur de nouveaux cas d’utilisation, jusque-là confidentiels. Dès mars 2020, 89% des employeurs américains ont commencé à réaliser des entretiens en ligne (source journal du net, mars 2021). Pour pallier l’impossibilité de se rencontrer, et puisque l’enregistrement vidéo était quasi-systématique, les méthodes d’analyse par intelligence artificielle post-entretien ont été massivement utilisées. L’éditeur HireVue, spécialiste de l’analyse de video « comportementales » a communiqué sur une hausse de 80% de sa technologie par rapport à l’année précédente (en nombre de video analysées). Si cette adoption s’est majoritairement faite aux États-Unis, ce mouvement est nettement engagé en Europe.

Les ressources humaines sont un domaine par nature profondément humain, et donc variant. L’intelligence artificielle, a contrario, est systématique et analytique. Dans l’usage, quelles problématiques techniques et éthiques cela pose-t-il ? Quelles sont les limites ?

Interprétabilité et variables : les biais possibles de l’intelligence artificielle

Pour réaliser une prédiction (par exemple recommandation d’embauche ou non), l’intelligence artificielle va apprendre à faire sa prédiction sur l’analyse de différentes variables descriptives du phénomène observé. Ces variables sont déterminées par les data scientists, ou directement par l’IA (on parle alors d’approche non supervisée), en fonction du jeu de donnée d’apprentissage soumis.

Comme le souligne Frédéric Brajon, Co-fondateur de Saegus en charge de la Data et de l’IA, cette phase critique est souvent sous-estimée : “l’attention est trop souvent portée sur la performance des modèles mathématiques ; mais les premiers biais, absolument majeurs, apparaissent dans les phases préparatoires. La pertinence des variables descriptives retenues bien-sûr, mais également la nature même des données d’apprentissage ; les données sont-elles représentatives du phénomène observé ? Y a-t-il un risque de discrimination dans l’échantillonnage retenu ? Un risque éthique ? Ces questions fondamentales sont souvent négligées, par manque de temps, limite de budget ou inexpérience. Or, le meilleur modèle mathématique produira toujours des recommandations biaisées s’il n’a pas appris sur une base solide. Par exemple, dans le cas de recrutements, si ma base d’apprentissage a une sur-représentation d’un genre ou d’une tranche d’âge, il y a fort à parier que l’algorithme “pénalise” les candidatures différentes (pas parce qu’elles sont moins pertinentes pour le poste, mais parce que l’apprentissage a montré que celles-ci étaient moins fréquemment recrutées dans le jeu de données).”

L’apprentissage des modèles est donc essentiel, et le champ des possibles est large : quelles caractéristiques définir pour recruter ou non un candidat ? Quel poids leur donner les unes par rapport aux autres ? Comment prendre en compte des notions subjectives (le feeling), ou non liées directement à la personne (un candidat possédant un peu moins d’expertise qu’un autre, peut-être meilleur pour le poste, en raison d’une compatibilité de caractère avec le personnel en poste). En ce sens, l’intelligence artificielle aura tendance à reproduire les mêmes recommandations, or la richesse humaine d’une entreprise tient également à sa multidisciplinarité et sa multiculturalité ; comment prendre en compte ces paramètres ?

Julien Cotte, Directeur des Talents de Saegus, appuie ce point : “l’essence même d’une entreprise est représentée par ses salariés dans toutes leurs singularités. Les idées viennent parce que nous sommes différents, parce que nous avons des expériences différentes et une vision qui nous est propre sur les sujets à adresser dans notre domaine de compétences. Si l’intelligence artificielle suit à la lettre les critères de sélection, deux biais peuvent apparaître : l’impossibilité de recruter car personne ne pourra répondre totalement aux exigences du poste et l’homogénéisation des salariés ce qui, au final, appauvrirait les compétences de l’entreprise. Certes, il s’agit d’une vision très négative de l’utilisation de l’intelligence artificielle mais c’est le risque que je vois si nous souhaitons aller vers le tout IA pour le recrutement. L’IA doit être un outil d’aide, pas la seule décisionnaire. Le manager doit prendre en compte son envie de travailler avec le candidat, le recruteur doit pouvoir identifier si la personne s’intègrera bien à la culture de l’entreprise. Tout cela, en prenant en compte que l’IA n’est pas infaillible et que l’homme non plus.”

Par ailleurs, les exigences de recrutement peuvent varier d’un pays à l’autre et d’une entreprise à l’autre. Il est donc légitime de se poser la question de savoir si un traitement d’IA mis au point au US sera pertinent en France ? Faut-il ré-entrainer les algorithmes en fonction du pays ? Du secteur ? De la culture d’entreprise ?

Enfin, l’expérience du candidat est également à prendre en compte. L’usage de l’intelligence artificielle, invisible, peut être déstabilisante. En Europe, tout candidat doit être informé de l’usage de l’intelligence artificielle dans le cadre de son entretien d’embauche, et donner son accord. On peut s’interroger sur la liberté d’accepter ou de refuser dont dispose réellement le candidat, et sur l’impact de sa décision sur sa candidature.

Un cadre légal qui s’impose

Face à ces possibles discriminations, un cadre légal est nécessaire et commence à se dessiner.

Face à ce phénomène, une proposition de loi a été déposée aux États-Unis, l’Algorithmic Accountability Act, mais n’a finalement pas été adoptée. Toutefois le débat est ouvert.

L’Europe est quant-à elle précurseur de la préservation des droits à l’usage des données personnelles avec la réglementation RGPD. Mais cette règlementation ne protège pas d’une potentielle dérive éthique. En effet, dans le cas cité en exemple (recrutement), l’analyse des données personnelles du candidat peuvent être totalement anonymisées et détruites post traitement (donc en conformité avec la loi), n’en reste pas moins le problème éthique.

En France, certaines commissions parlementaires se sont emparées de ce sujet, et proposeront à l’avenir des recommandations législatives pour encadrer l’éthique non pas de l’IA, mais des usages que l’on en fait.

Car c’est certainement là que se trouve la clé de la solution. Encadrer les usages plutôt que la technologie brute.

“Comme toute nouvelle technologie, il y a du bon et du moins bon. Il est donc essentiel que les pouvoirs publics se saisissent de ce sujet pour encadrer la pratique et permettre une utilisation saine et efficace. Que ce soit le recruteur ou le candidat, je reste persuadé que les nouvelles technologies comme l’Intelligence Artificielle vont permettre de renforcer la relation candidat/recruteur. La technologie avançant très vite, la législation se doit d’être agile et en veille permanent sur ce sujet”, souligne Julien Cotte.

L’intelligence artificielle, une voix décisionnelle ou secondaire ?

Quel poids faut-il donc donner à la recommandation de l’algorithme ? Sa voix doit-elle être décisionnelle ou secondaire ?

L’exhaustivité de l’Intelligence Artificielle la place en dehors de la logique et des spécificités humaines. Les possibilités qu’elle offre sont intéressantes et challengeantes, mais l’IA doit rester une aide. La décision finale doit être humaine, dans toutes les finesses que cela comprend. A minima, une action humaine sera toujours nécessaire à certaines étapes du processus, par exemple par le manager qui travaillera en lien étroit avec la personne recrutée.

Et inversement, l’objectivité de l’intelligence artificielle peut avoir un impact positif : si le recruteur dispose d’un biais négatif ou discriminant, l’IA peut au contraire le contre-balancer.

L’idéal serait de trouver une complémentarité entre l’Intelligence Artificielle et l’humain. La vision de remplacer l’humain par l’Intelligence Artificielle dans le domaine des ressources humaines ne semble pas être la bonne voie. Par contre, identifier les écueils de l’humain dans le domaine du recrutement (lecture trop rapide des CV, non prise en compte des lettres de motivation, fatigue lors d’un entretien, biais culturel…) reste une piste d’innovation et d’optimisation qui pourrait être bénéfique à tous.

Une autre évolution semble nécessaire à explorer : si les recruteurs se dotent de cette technologie, ne serait-il pas intéressant que le candidat puisse avoir le même outil à sa disposition ? Le candidat pourrait alors obtenir une recommandation de l’IA pour identifier si le manager qu’il rencontre semble correspondre à ses attentes, si la présentation de l’entreprise rentre dans ses critères…

Ainsi, toutes les parties prenantes pourraient avoir le même outillage pour mener leurs entretiens. N’est-ce pas ça la véritable innovation ?

Conclusion

Quelles perspectives donner à la place de l’intelligence artificielle dans les processus de recrutement ?  

Comme dans quasiment toutes les fonctions, l’IA a une utilité certaine dans le cadre des ressources humaines et doit être intégrée aux réflexions.

Le paradoxe est que pour rendre une IA réellement efficace… Il faut l’utiliser. On voit bien ce phénomène avec les services de reconnaissance vocale ou visuelle proposés par les GAFA (notamment avec les assistants personnels). Les commandes vocales étaient très succinctes il y a 10 ans, alors que maintenant l’on peut parler et dicter des messages en langage naturel avec son smartphone.

Le phénomène d’apprentissage sera le même avec le domaine RH, plus l’on soumettra des vidéos de recrutement à l’IA, plus son analyse sera pertinente dans la durée.

Par contre, il convient que le législateur harmonise un cadre éthique d’utilisation de ces outils (opt-in du candidat, sans qu’un refus de sa part n’élimine la candidature par exemple), et que chaque entreprise place l’utilisation de ces technologies à la place qui convient, en assistance et en complémentarité à l’humain, et non en remplacement total, particulièrement pour ces domaines ou l’informel, le « bien-être ensemble » et la confiance ont tant de valeur pour construire des équipes performantes et durables. Il est également souhaitable que les candidats puissent également bénéficier des avantages de l’IA afin de rendre l’exercice du recrutement le plus équitable possible.

Envie d’en savoir plus ? Retrouvez notre table ronde sur les enjeux de la reconnaissance faciale par l’intelligence artificielle avec comme invité d’honneur Didier Baichère, Député et Vice-Président de l’Office parlementaire d’évaluation des choix scientifiques et technologiques. Pour vous inscrire , c’est ici !

Rédigé par Frédéric Brajon, Associé et Co-fondateur, et Julien Cotte, Directeur des talents

« La donnée est l’or noir du 21ème siècle » formule beaucoup entendue depuis l’avènement des technologies Big Data au début des années 2010. De grandes promesses, qui, si l’on s’en réfère à l’analogie pétrolière nécessite :

  1. de la matière première ;
  2. l’acheminement de cette matière (l’extraction) vers des unités de traitement (raffinage) pour la rendre utilisable ;
  3. une capacité à la distribuer pour la rendre accessible au plus grand nombre.

Le « véhicule » (produit de consommation) étant quant à lui caractérisé par les outils de visualisation, les applications métiers, ou des services. Ses interfaces doivent être savamment pensées pour garantir au « conducteur » une utilisation fiable, agréable et sécurisée.

Depuis longtemps les entreprises ont appris à traiter l’information interne générée par leur propre fonctionnement : activités de production (supply, fabrication), corporate (finance, RH, marketing,…), sales (CRM, ecommerce, ….) ou autres pour servir des usages également internes (Business Intelligence dans les années 90 et 2000, et maintenant Big et Smart Data). De fait, le marché de la « Data » était caractérisé comme un marché de solutions. Cette orientation est particulièrement bien représentée par les fameux quadrants proposés par Gartner, qui répertorient et classifient les éditeurs de logiciels (voir ci-dessous).

Et si nous imaginions une classification des distributeurs de données, qu’en serait-il ?

La distribution d’information n’est pas à proprement parler une nouveauté non plus. Depuis plusieurs années ce mouvement est porté par l’Open Data, dont les services publics ont été précurseurs avec la plateforme Open Data gouv. Des sociétés ont également fondé tout ou partie de leur modèle économique sur la revente de données, à l’image de sociétés telles que Duns and Bradstreet, Bloomberg, ou encore des spécialistes des données météo, dont Météo France.

Mais cela reste du point à point ; la donnée vendue par un distributeur à un consommateur en relation commerciale directe.

La prise de conscience collective que la donnée (y compris personnelle) est un marché à part entière favorise l’émergence d’un nouveau type d’acteurs – les « data plateformistes ». Cette prise de conscience est bien entendue fortement portée par l’action des GAFAM et BATX qui ont construit leur puissance sur la revente de données d’utilisation de leurs services. Cela a d’ailleurs conduit à la mise en place de règlementations (la RGPD en Europe par exemple) visant à protéger les personnes d’une utilisation abusive de leurs données personnelles.

Mais nous assistons à la montée en puissance d’un autre phénomène. La structuration des activités de « raffinage » et de revente des données sur des Data Market Place, véritables Hub de données B to B, B to C ou pourquoi pas C to B. Les fonds d’investissement ne s’y trompent pas et soutiennent ce mouvement. Nous pouvons citer à ce titre des plateformes telles que Refinitiv ou plus récemment des jeunes pousses françaises comme Dawex.

Des initiatives ont même émergé sur des marchés spécifiques, à l’image du service de notation de la santé des sols proposé par Greenback, fondé par le créateur de DeVialet, ou même l’investissement de l’État Français (financement de 3,2 M€ via la BPI) dans la plateforme AgDataHub qui partage les données numériques de 280 000 exploitations agricoles.

Fait particulièrement intéressant, ce mouvement a bien été compris est anticipé par des acteurs innovants du marché de la donnée, tel que l’éditeur Snowflake. Acteur majeur du big Data, et plus précisément des outils dits de « modern Datawarehouse », solution de stockage et de traitement de données nativement conçus pour le Cloud, Snowflake partage une vision très intéressante. Fort d’une adoption massive de sa technologie dans le monde entier, Snowflake propose à ses clients des services de « Data Sharing ». Il s’agit de la possibilité de publier nativement des données (et d’en acquérir) soit en point à point, soit en publiant ses données sur la bibliothèque d’échanges de données (Snowflake Data Market Place) de la plate-forme, à l’image de « First American Data & Analytics » qui vient d’y publier son catalogue.

Ce principe de Marketplace commence également à percer sur l’IA, et plus précisément via l’émergence de plateforme Low Code permettant d’accéder à des services de Machine Learning pré-packagés (tels que Azure Cognitive Services, Prevision.io, en encore Dataiku qui enrichit sa bibliothèque) – nous creuserons cet aspect dans un article à venir.

Les solutions se structurent, mais les entreprises seront-elles capables de s’approprier et de créer de nouveaux services en mettant à disposition leurs données ?

Quels nouveaux usages observons-nous ?

Pour rester sur des analogies avec le marché de l’énergie, quittons l’or noir pour nous pencher sur l’énergie solaire. Nous observons une transformation profonde des usages, dans lesquels les consommateurs d’hier deviennent des « micro » producteurs, partiellement autonomes, voire totalement autonomes, parfois même excédentaires – auquel cas le surplus d’énergie est revendu pour être redistribué.

Cette démocratisation des fonctions de partage ou de distribution des données via des marketplaces est similaire.  Les entreprises productrices de données peuvent revendre leur « surplus » d’information, ou même créer des services spécifiques de données « prêtes à l’emploi » (comme GreenFlex dont la valorisation des données est le produit principal). La donnée n’est plus uniquement la source, elle devient le produit.

Comment se structurera le marché ?

Il est encore difficile d’imaginer une marketplace qui dominerait le marché mondial de l’échange de données, même si cette option n’est pas à exclure à long terme (vers un « Amazon du Data set ? »). Il nous semble plus probable que nous voyions émerger dans un premier temps multitude de « commercialisateurs » à l’image du e-commerce. Il est facilement imaginable que chaque entreprise crée une offre « donnée » accessible sur son site institutionnel ou e-commerce.

Le défi à relever sera alors l’exposition et le référencement de ces catalogues de données ainsi que les modèles économiques qui en découleront (à l’unité, au To, à la requête, à l’abonnement).

Les marketplaces révèleront alors tout leur potentiel puisqu’elles pourront garantir une meilleure exposition, la gestion financière des transactions, une couverture juridique, et pourquoi pas proposer des services additionnels (bouquets de données complémentaires ou recommandations / priorisation de jeux de données en fonction de leur intérêt fonctionnel, note de qualité, prix, feedbacks utilisateurs, etc).

Il serait même opportun d’associer deux types de services : l’accès aux Data Sets, plus un service d’IA (low code) qui permettrait de le valoriser ou de contextualiser l’information, et d’en faire bénéficier de plus petits acteurs (PME, ETI,…) qui n’ont pas la capacité d’investissement suffisante pour s’équiper en interne.

Un mouvement lancé…

Les solutions existent, le besoin de consommation également ; donc même si les entreprises sont encore réticentes à l’idée « d’ouvrir » leurs assets, gageons que la loi du marché s’appliquera à nouveau. Si la demande existe ; l’offre se structurera rapidement. C’est en tout cas notre conviction, et la raison pour laquelle nos experts Saegus accompagnent d’ores et déjà de grandes entreprises et organisations à prendre ce virage et à réfléchir à de nouveaux modèles.

Rédigé par Frédéric Brajon, Associé et Co-fondateur de Saegus

La difficile valorisation des projets de MLOps

Dans un monde numérique bouleversé par une digitalisation généralisée, les entreprises font de plus en plus appel aux nouvelles technologies afin d’augmenter leur efficacité. Les Nouvelles Technologies d’Information et de Communication (NTIC) s’intègrent progressivement depuis les années 70 avec, par exemple, l’apparition des micro-ordinateurs, puis plus fortement à la fin du XXe siècle avec l’utilisation d’internet et des courriers électroniques. Plus récemment, les entreprises profitent d’outils ERP (Enterprise Ressource Planning) pour faciliter leur gestion, ou encore s’appuient sur des objets connectés pour suivre, harmoniser et automatiser leurs activités.

Ces nouveautés génèrent de très nombreuses données devenant ainsi le nouvel or noir du numérique. Les entreprises ont à leur disposition de nombreuses solutions permettant de les valoriser : « modern Datawarehouse », Business Intelligence, Data Viz, etc. Les domaines d’applications sont nombreux et touchent tous les secteurs. En particulier, sur la base de ces données, il devient ainsi possible de mettre en place des analyses descriptives, diagnostiques, prédictives, voire prescriptives. Ce type d’approche mobilise très souvent des solutions basées sur le Machine Learning qui a suscité un fort engouement ces dernières années.

En effet, selon une étude de NewVantage Partners, on observe que 55% des 65 entreprises de FORTUNE 1000 ont investi en 2019 au moins 50 millions de dollars dans des projets Big Data et IA. Cependant, aux vues des investissements des entreprises dans ce domaine, il est inacceptable de constater que – selon Gartner – jusqu’en 2020 seulement 13% des projets de Machine Learning ont été industrialisés.

Pour expliquer ce paradoxe, Saegus a étudié les nombreux freins à l’épanouissement de la Science des Données dans les organisations : la délicate gestion des Data Scientists, un usage sous-optimal des ressources (outils, données et humaines), des enjeux culturels ralentissant l’adoption de la culture Data par toutes les parties prenantes, etc. Tous ces facteurs contribuent à la dégradation de la rentabilité des initiatives en Sciences des Données (voir notre article correspondant). Parmi ces freins, l’opérationnalisation des modèles constitue une difficulté majeure. Autrement dit, le grand enjeu que rencontre cette discipline est la mise en production des solutions de ML et tout ce que cela implique. Par analogie, cet enjeu est comparable à ceux de la culture DevOps qui est présentée plus en détail dans la suite de l’article.

Zoom sur le DevOps

Les problèmes de l’ancien modèle

Comme décrit dans la précédente section, depuis l’émergence de l’informatique, les entreprises s’appuient massivement sur les outils et les services liés au numérique, secteur en perpétuelle évolution. Le déploiement de ces derniers est complexe, voire problématique et nécessite une méthodologie élaborée. Par exemple, en génie logiciel, 66% des projets dépassent le budget et un tiers des projets ne tiennent pas les délais selon une étude de McKinsey & Oxford. Avant l’apparition du DevOps, comme nous pouvons le voir sur le schéma ci-dessous, deux équipes indépendantes intervenaient lors de la création de nouveaux produits digitaux. Une équipe de développement se chargeait de collecter les besoins métiers et de développer le produit, puis de tester le bon fonctionnement de celui-ci. S’il était conforme aux attentes, une autre équipe « opérationnelle » prenait le relais et assurait son exploitation dans un environnement de production.

Cette approche pose de nombreux problèmes. Tout d’abord, la présence de deux équipes a divisé les responsabilités et a créé des objectifs antagonistes. L’équipe de développement a pour objectif de modifier et faire évoluer l’application le plus rapidement pour suivre les exigences et les besoins des utilisateurs. Elle corrige les bugs, et ajoute de nouvelles fonctionnalités – parfois dans un délai court, tentant de minimiser les coûts et en n’attachant pas toujours une priorité maximale à la qualité. L’équipe des opérationnels assure le maintien de l’application et garantie sa stabilité et sa qualité. Pour cela, elle utilisera plus de temps et augmentera le coût nécessaire pour le déploiement d’une nouvelle version. Cette dissonance de priorité et d’objectifs peut entraîner des blocages et des allers-retours entre les deux équipes, ayant des conséquences néfastes sur le projet.

De plus, il arrive qu’il y ait peu de communications continues entre les deux équipes sur les problèmes rencontrés et les besoins changeants. Pour être performante, l’entreprise doit déployer sa solution le plus rapidement possible. Celle-ci présentera par la suite de nombreuses mises à jour permettant de corriger les bugs et d’améliorer le contenu. Le manque de communication pénalise le rythme de développement et d’exploitation de tels projets, rendant la surveillance et le déploiement des applications ardus, alimentant ainsi le risque de blocages.

Pour résoudre les dysfonctionnements de cette approche, la méthodologie du « DevOps » est apparue en 2007, imaginée par Patrick Debois.

Qu’est-ce que le DevOps ?

Le DevOps est avant tout une philosophie qui permet aux entreprises d’évoluer vers une approche dynamique orientée client pour le développement et la livraison de leurs applications, complétée par un contrôle de la qualité de la production irréprochable. Ainsi, les nouvelles évolutions sont intégrées et déployées continument et itérativement sur tout le cycle de vie du projet. La conception et la gestion du cadre d’opération des solutions sont traitées tout au long du projet, des prémices lors de la phase de cadrage jusqu’à la surveillance post-production. Cette méthodologie permet à l’entreprise de gagner en agilité et d’accélérer le « Time to Market » des produits. Pour cela, elle combine les compétences entre les équipes de « développement » et « opérationnelles » autrefois séparées, qui suivront des principes communs :

  • Culture : améliorer les attitudes de l’entreprise au service du développement
  • Automatisation : automatiser le plus possible les différentes procédures
  • Lean : optimiser l’utilisation des ressources afin de diminuer les coûts
  • Mesure : localiser rapidement les erreurs, analyser le comportement des utilisateurs en mettant en place des remontées d’informations efficaces
  • Testing : mise en place de nombreux tests (unitaires, fonctionnels, d’intégration) garantissant le bon déroulement des développements itératifs
  • Partage : mieux communiquer entre les équipes sur les problèmes et les améliorations possibles de l’application

Les composantes du DevOps sont présentées dans le schéma ci-dessous. Les deux équipes « Dev » et « Ops » sont imbriquées et partagent un même cycle sur lequel les différents segments du DevOps se suivent chronologiquement. Sa représentation, sous la forme du symbole de l’infini, témoigne d’une logique d’itération dans le temps : à la fin d’un cycle, un autre redémarre.

Grâce à l’automatisation des tâches, le DevOps fluidifie et accélère les interactions entre les parties prenantes du projet, ce qui supprime les temps morts. Le déploiement continu associé à l’automatisation des tests accélèrent le développement. Ces gains de temps provoquent mécaniquement une réduction des coûts et accélèrent la mise à disposition de l’application.

Un métier pluridisciplinaire a émergé de cette philosophie : l’ingénieur DevOps. Tout d’abord, il doit posséder des compétences techniques de développement et d’exploitation de logiciel. Il présente également une expertise sur de nombreux outils spécifiques au DevOps.  Il doit également faire preuve de compétences « humaines » : il sait prendre du recul pour comprendre le point de vue des autres, et en faire la synthèse afin de mener à bien le projet.

Généralisation de la culture “Ops”

De nouveaux besoins

Ainsi, cette culture Ops s’est développée en réponse aux besoins rencontrés lors du développement logiciel et d’applications. De nos jours, ces solutions sont souvent constituées de nouveaux types de composants leur permettant d’être plus modulables, sécurisées, innovantes et intelligentes (cloud, ML, grande quantité de données, …). Or, l’intégration de ces nouvelles technologies dans les applications a augmenté les risques pour le bon déroulement des projets. Bien souvent, ce type de produits nécessite l’intervention de nouveaux métiers – Data Scientist / Data Engineer / Data Analyst… Cela ravive les difficultés rencontrées par le passé dans la gestion du cycle de vie des projets. C’est particulièrement le cas lors de l’accompagnement d’un produit d’une phase de développement à une phase de production, a fortiori étant donnée cette nouvelle diversité fonctionnelle de parties prenantes.

Les insuffisances du DevOps au service de la Data et du Machine Learning

L’intégration de modèles d’intelligence artificielle et plus particulièrement de Machine Learning dans des applications a soulevé de nouveaux enjeux. La philosophie DevOps a essayé de s’adapter pour pouvoir répondre à ces nouveaux défis, mais les principes DevOps initialement définis ne suffisent plus pour mener à bien un projet ML. En effet, ces projets présentent de nombreuses spécificités qui ne sont pas couvertes ou sont mal traitées par le DevOps (voir le tableau ci-dessous).

Ainsi le DevOps ne permet pas de répondre à tous les besoins de ces nouvelles technologies, induisant l’émergence de nouvelles disciplines.

Pour prévenir au mieux les risques et accélérer l’intégration de nouvelles fonctionnalités, de nouvelles perspectives et tendances émergent chaque jour autour des idées du DevOps, déclinées pour chaque usage et générant une véritable ère des Ops : « MLOps », « DataOps », « SecOps », « ITOps », etc. Ces différentes notions sont décrites brièvement dans le tableau ci-dessous.

Pour mieux comprendre les dynamiques associées à ces nouvelles disciplines, nous avons mené une étude sur l’évolution de leur popularité sur Twitter, acteur majeur dans l’émergence, l’exposition et la popularité des nouvelles technologies. Après avoir récupéré l’ensemble des tweets mentionnant chacun des termes associés (DevOps, MLOps, DataOps, etc.), nous avons quantifié et dénombré leur nombre comme mesure de leur popularité sur les dernières années. Les courbes de popularité de ces différents termes sont présentées dans le graphique ci-dessous, avec le terme DevOps qui est présenté à part du fait de ses particularités (voir cadrant en haut à gauche).

Dans le monde de la Tech, le mouvement DevOps se positionne comme précurseur et semble être à l’origine des autres disciplines. En effet, nous observons sur le graphique que la première apparition du terme sur Twitter est en 2007, soit deux ans avant l’apparition d’autres mouvements Ops. De plus, nous observons qu’il y a une augmentation pseudo-exponentielle de sa popularité jusqu’à 2015, suivi d’une augmentation plus faible jusqu’à 2017, portant à 725 000 tweets sur le DevOps en une année (soit 2 000 tweets par jour !). L’inversion de la tendance de popularité à partir de 2017 peut s’expliquer en partie par la création de nouveaux mouvements Ops, entraînant un effet de vases communiquant. Ces mouvements complètent la philosophie du DevOps dans certains domaines nécessitant des pratiques plus spécifiques.

Pour autant, les nouveaux termes associés sont nettement moins représentés sur la Twittosphère avec un rapport de x40 par rapport au nombre de tweets sur le DevOps. Cela peut s’expliquer par le fait qu’avant le DevOps, la communauté des ingénieurs logiciels était déjà massive. Les autres disciplines (Big Data, Machine Learning, …), nettement plus jeunes, n’ont pas encore de communauté mature et manquent d’ailleurs de nombreuses ressources.

À l’origine de tout projet Data, une problématique forte qui s’impose aux organisations est la collecte, le stockage et le raffinage d’une grande variété de données volumineuses. C’est probablement l’une des raisons pour lesquelles nous pouvons voir que la popularité du DataOps augmente fortement dès 2015. Cela a également posé des questions relatives à la sécurité de ces données, d’où l’augmentation de la popularité en parallèle du concept de SecOps.

Il est très intéressant de remarquer que le développement de la popularité du MLOps est postérieur à celle du DataOps. Une première explication de cet ordonnancement fait écho à ce que nous avons décrit précédemment : la première difficulté d’un projet Data est la récupération automatisée de données qualifiées, d’où la primauté du DataOps. Une autre explication complémentaire relève du fait que le DataOps englobait initialement toutes les problématiques liées à l’opérationnalisation des données : du Data Engineering à la Data Science. La stagnation puis la diminution de la popularité du DataOps sur Twitter pourraient s’expliquer par la différenciation des problématiques opérationnelles associées à chaque segment fonctionnel (Data Engineering et Data Science), cédant donc un peu d’espace au MLOps.

En effet, le MLOps s’attache à travailler sur les spécificités d’un projet d’IA et de Machine Learning qui ne sont pas couvertes par le DataOps tels que le versionning, ou encore le monitoring des modèles de ML. La forte augmentation depuis 2018 du nombre de tweets sur le MLOps est un indicateur confortant notre vision sur l’intérêt porté à ce nouveau métier, et en même temps souligne sa prime jeunesse. Par ailleurs, contrairement au DevOps ou au DataOps, ce terme ne semble pas avoir atteint son plateau de popularité sur Twitter, montrant ainsi que le sujet reste pleinement d’actualité. Enfin, les courbes du DataOps et du MLOps se croisent en 2020, laissant penser que les enjeux du MLOps présentent actuellement une importance quelque peu supérieure au DataOps aux yeux de la communauté.

Chacun de ces mouvements est pour la plupart très récent, et de fait, il n’existe pas au sein de la communauté de consensus sur la définition de leurs périmètres, de leurs modus operandi, et des bonnes pratiques associées. En particulier, le MLOps apparaît comme le concept le plus juvénile, et pas des moins complexes. L’impérieuse nécessité d’une vision Ops se résume parfaitement par cette citation de Klaus Schwab, ingénieur, économiste et président du Forum Économique Mondial :

Dans le nouveau monde, ce n’est pas le gros poisson qui manque le petit ; c’est le plus rapide qui mange le plus lent.

Définition, objectifs, périmètre, outils… Retrouvez-nous bientôt pour la suite de cette tétralogie dédiée au MLOps ! En attendant, contactez nos expert·e·s Data pour en savoir plus.

Rédigé par Clément Moutard, Manager Data, et Martin Cudicio, Consultant Data

Dans un monde numérique en plein bouleversement, les entreprises font de plus en plus appel aux nouvelles technologies afin de tirer de la valeur de leurs données.  Cependant, selon Gartner, seulement 13% des projets de Machine Learning (ML) seraient industrialisés aujourd’hui.

L’un des principaux problèmes empêchant les modèles d’être exploités est lié à la difficulté de les opérationnaliser. Autrement dit, le grand enjeu que rencontre la Data Science est la mise en production des solutions de ML.

Le cycle de vie d’un projet ML est constitué de nombreuses phases et convoquent de nombreux métiers : aux côtés du Data Scientist et du Data Engineer qui modèlent la solution, le rôle du ML Engineer est essentiel dans la gestion à terme du projet.

Ses objectifs sont les suivants :

  • Accélérer l’avancement des projets de ML en gérant le cycle de vie des modèles, de leur phase de développement à la post-production ;
  • En amont, co-articuler le projet avec les pipelines de données qualifiées (pertinentes, fiables, de qualité) développées par le Data Engineer. Ces données sont remises au·à la Data Scientist afin qu’il puisse travailler au développement des modèles de ML ;
  • Organiser la phase d’entraînement des modèles pour faciliter la phase d’intégration et de déploiement (selon des règles comme A/B testing, Canary Rollout) dans des environnements de production. Cela permet au·à la Data Scientist de versionner les modèles pour assurer leur gestion systématique ;
  • Suivre la performance des modèles et des données et, s’il y a lieu, faire remonter les écarts, erreurs et métriques au Data Scientist pour assurer l’absence de semantic/concept drift. Le cas échéant, il est envisageable d’y remédier par un réentraînement des modèles, si possible automatiquement ;
  • Suivre la bonne exposition des services ML, par exemple via l’encapsulation des modèles dans une application en collaboration avec une équipe de développement (DevOps et/ou Cloud Architect).

Le ML Engineer maîtrise les librairies de Data Science (Tensorflow, Scikit-Learn) et les outils de développement (Python, R. Jupyter), de DevOps (Airflow, Git, Ansible), de versionning et de ML Management (MLflow, AutoML, Kubeflow). Il est également à l’aise avec la méthodologie Agile afin d’assurer la gestion de projets (Scrum).

C’est un métier facilitateur et pluridisciplinaire qui s’appuie sur des frameworks de gestion de workflows, de versionning, et de ML management. Son rôle est clé, car il crée de la valeur rapidement.

En conclusion

La discipline du MLOps est récente et les pratiques ne sont pas encore harmonisées au sein de la communauté. Toujours en développement, elle garantit des activités très concrètes et innovantes. Si ces perspectives à la fois ouvertes et challengeantes vous intéressent, n’hésitez pas à contacter nos experts Data ou à candidater pour nous rejoindre ici. Au plaisir d’échanger !

Rédigé par Clément Moutard, Manager Data, et Martin Cudicio, Consultant Data

La plus grande entrée en bourse de l’année 2020 a eu lieu le 16 Septembre dernier, celle de la licorne californienne, fondée par deux français ; Snowflake, une étape pourtant logique lorsqu’on se penche sur la croissance vertigineuse de l’entreprise ces deux dernières années (cf. graphique ci-dessous).

Afin de mieux comprendre la popularité de cette solution je propose dans ce premier article de présenter rapidement Snowflake :

  • Nous expliciterons un des concepts phares de Snowflake : les virtual warehouses ;
  • Puis nous nous pencherons sur la tarification ;
  • Enfin, nous regarderons la performance de Snowflake par rapport aux autres principaux acteurs du marché.

#1 Présentation et architecture

Snowflake est une solution Software-as-a-Service qui propose un Data Warehouse reposant entièrement sur une infrastructure cloud. Pour rappel, une solution SaaS ne nécessite en outre aucune installation physique ou virtuelle de matériel ni de logiciel. Tout est installé, configuré et mis à jour dans le cloud, et aucun frais de maintenance n’est à prévoir : cette partie est entièrement gérée par Snowflake. Aussi, une interface très simple à prendre en main est proposée clé en main par l’éditeur, comme illustré ci-dessous.

La principale force de Snowflake repose sur son architecture hybride qui combine deux éléments :

  • La simplicité d’utilisation des bases de données traditionnelles à disques partagés (shared-disks), où toute la donnée est centralisée sur un disque et partagée entre tous les noeuds. Néanmoins cette architecture est difficilement scalable car le serveur aura tendance a vite être saturé dès que les données seront requêtées simultanément par plusieurs noeuds ;
  • La performance des architectures dites « shared-nothing » qui s’appuient sur des traitements massivement parallèles. Les calculs sont partagés sur plusieurs noeuds qui appliquent les requêtes sur différents sous-ensembles de données.

En outre, la donnée, entièrement stockée de manière optimisée dans le cloud, n’est disponible que par des requêtes SQL spécifiques à Snowflake, comme résumé dans le schéma ci-dessous. L’analyse et le traitement de ces requêtes se font via des objets appelés Virtual Warehouses (ou Entrepôts Virtuels en français) qui représentent la partie calculatoire de Snowflake.

Ces virtual warehouses sont des « clusters de calculs » propres à Snowflake, constitués eux-mêmes de plusieurs noeuds et sont redimensionnables à volonté. Ainsi, il est possible de (re)configurer très simplement et à la volée ces unités de calcul directement via l’interface web de snowflake :

Plusieurs paramètres sont donc disponibles :

  • La taille du virtual warehouse, c’est-à-dire le nombre de serveurs qui composent chaque cluster dans un entrepôt qui va établir le coût d’utilisation en crédit, la facturation sera mise en avant ci-dessous ;
  • Le nombre minimum/maximum de clusters qui sont des paramètres de scale-in : au fur et à mesure que l’on reçoit des requêtes, Snowflake va allouer dynamiquement des ressources (clusters) pour les traiter le plus efficacement et le plus économiquement possible ;
  • Le choix de la politique de mise à l’échelle : l’un va favoriser la performance, l’autre va minimiser les coûts d’utilisations ;
  • La politique de mise à l’arrêt automatique : la durée après laquelle le warehouse s’arrête si elle n’a pas reçu de requête à traiter entre temps, et donc aucun crédit n’est consommé.

Il est à noter qu’il est possible de modifier les paramètres d’un virtual warehouse alors même qu’il est en train d’effectuer des calculs. Il est aussi possible de les configurer, comme d’ailleurs tout objet sur Snowflake, via des requêtes SQL, sans même avoir à passer par l’interface.

#2 Facturation

Dans les technologies cloud, il est parfois difficile de s’y retrouver dans les systèmes de facturation tant ils varient d’un éditeur à un autre, d’un service à un autre, et il est rapide de se retrouver avec de mauvaises surprises dans ses coûts finaux. Les frais de Snowflake se décomposent seulement en coûts de stockage et en coûts de calculs.

Le coût de stockage est fixe et déterminé par le package de Snowflake choisi (à partir de 23$ par TB par mois). Le coût de calcul correspond à la durée d’utilisation (à la minute près) et à la taille des Virtual Warehouses utilisés, ces deux notions sont résumées sous la forme de “crédits”. Ainsi, l’utilisateur n’est facturé que pour ce qu’il consomme.

Snowflake propose ainsi différentes tailles de warehouses, qui se découpent en huit paliers et décrivent le nombre de serveurs qui composent un cluster (sachant que l’on peut paramétrer le nombre minimal et maximal de clusters qui composent un virtual warehouse).

Ainsi, si avec mon virtual warehouse XL j’effectue un traitement mobilisant 1 cluster pendant 1 heure, puis 2 clusters l’heure qui suit, j’aurais alors dépensé 1×16+2×16=48 crédits sur ces 2 heures.

Remarque : Augmenter la taille d’un cluster permet d’effectuer plus de requêtes en parallèle, cette solution de scale-out est donc plutôt à privilégier dans des cas où l’on ingère beaucoup de fichiers en parallèle ou pour effectuer des requêtes complexes sur une multitude de tables. A l’inverse, augmenter la taille d’un Virtual Warehouse pour effectuer des requêtes SQL de base aura peu d’influence sur sa rapidité d’exécution.

Remarque 2 : Snowflake a un système de cache ; les résultats des requêtes sont gardés en mémoire pendant 24h. Il est donc possible de réexécuter des requêtes onéreuses à moindres coûts.

#3 Performances et positionnement sur le marché

Pour comparer Snowflake à ses concurrents, je vais dans cette section m’appuyer sur les résultats de l’étude de Fivetran publiée en septembre 2020. Ce benchmark s‘inspire de l’analyse comparative standard TPC-DS, qui consiste à utiliser des requêtes SQL complexes (beaucoup de jointures, d’aggregations, de sous-requêtes etc…) sur des bases de données de retail plus ou moins larges. Ici, ces requêtes sont appliquées à un schéma de 24 tables, pour un total d’1TB — ce qui peut paraître peu en termes de volume mais l’idée est avant tout de tester la performance du traitement de bases de données à la structure complexe.

Ces requêtes sont testées sur des warehouses équivalents chez quatre grands acteurs de datawarehousing : Snowflake, Presto, Redshift d’AWS, et BigQuery de GCP. En particulier, le temps d’exécution et le coût associé pour chacun d’eux sont comparés.

Nous constatons trois choses :

  • Quel que soit la datawarehouse utilisée, les temps d’execution sont excellents et peuvent notamment convenir à du requêtage interactif ;
  • Les prix des requêtes sont à peu près équivalents d’un datawarehouse à une autre ;
  • Snowflake a un avantage minime sur ses concurrents au niveau du temps d’execution et du prix.

La principale différence réside dans la façon dont les calculs sont effectués ; Snowflake et Redshift sont similaires puisqu’ils proposent dans les 2 cas de configurer en détails des clusters de calculs. Redshift permet de paramétrer la mémoire, le stockage et la puissance de chaque cluster, tandis que, de par son architecture qui sépare stockage et calculs, Snowflake gère la mémoire et la puissance comme indiqué dans les parties précédentes.

BigQuery quant à lui ne laisse pas le choix dans la configuration d’un cluster de calcul : l’utilisateur envoie les requêtes une par une directement sur le serveur. Il a néanmoins le choix dans la tarification : soit “à la demande” qui s’adaptera mieux aux requêtes gourmandes mais ponctuelles. Soit en taux-fixe pour une utilisation continue du service de GCP.

Conclusion

Nous avons passé en revue les principaux atouts de Snowflake : cette solution se détache de la concurrence par la simplicité qu’offre le SaaS et sa flexibilité. En effet, nous avons vu qu’il était très facile de configurer des clusters de calculs de manière instantanée.

Snowflake offre en outre une plus grande lisibilité sur sa tarification, qui ne dépend que de la puissance de calcul déployée plus le stockage utilisé. L’utilisateur pourra donc très simplement adapter ses paramètres pour répondre au mieux, et à moindres coûts, à son besoin.

Enfin, Snowflake présente d’autres concepts clés, comme le time travel, le clustering de données, snowpipe etc… qui feront l’objet de futurs articles, auxquels il faudra bientôt ajouter les grandes évolutions prévues lors de son dernier Data Cloud Summit 2020.

Rédigé par Simon Coulet, Consultant Data Driven Business.

(1) Source
(2) Source

Avec le lancement d’Azure Purview, Microsoft devient le premier cloud provider majeur à faire son entrée dans un domaine aujourd’hui incontournable pour les entreprises : la gouvernance des données.

L’exploitation des données et des analytics est devenue de plus en plus critique et stratégique, que ce soit pour optimiser les ressources, revoir les processus et les produits ou réviser les business models, afin d’en tirer un avantage concurrentiel ou comme prendre les bonnes décisions pour traverser les crises.

La gouvernance, maillon essentiel dans la stratégie des entreprises pour accomplir leur objectif de transformation « data-driven », nécessite la mise en place d’une organisation dédiée, la définition et la distribution de rôles à l’ensemble des acteurs qui manipulent, créent ou utilisent de l’information. Elle a pour objet d’établir la connaissance du patrimoine de données et d’assurer la fiabilité des informations mises à disposition.

« La réalisation de cet objectif est un défi constant dans l’histoire des données et de l’analyse, car son écosystème continue à être complexe et hétérogène » comme l’a souligné Julia White lors du lancement de Purview en décembre dernier.

Ce concept n’est en effet pas nouveau et a toujours été un immense challenge, porté par la mise en œuvre de grands projets décisionnels puis par l’émergence des plateformes Big Data.

Microsoft avait déjà fait ses premiers pas dans ce domaine, avec la mise en œuvre des systèmes BI avec sa solution MDS sur SQL server 2008 R2, puis avec l’émergence des solutions cloud et l’ouverture du service Azure Data Catalog en 2016.

Microsoft effectue aujourd’hui une avancée majeure dans le domaine de la gouvernance (Azure Data Catalog se limitant à la découverte et la compréhension des données), en proposant avec Azure Purview une plateforme unifiée de gouvernance des données qui automatise les fonctions de discovery, de catalogue, de cartographie, et de suivi du cycle de vie des données.

La promesse d’Azure Purview est de centraliser la gestion de grands volumes de données et surtout de les répertorier de manière automatisée.

En effet, la solution dispose de fonctionnalités pour classer et cataloguer les données, qu’elles proviennent d’applications internes, hébergées en mode SaaS (via l’API d’Apache Atlas), stockées dans le cloud ou On-Premise ou encore provenant d’applications de reporting comme Power BI.

Grâce à des fonctionnalités d’IA, Purview permet également de reconnaitre automatiquement les données qu’elles soient structurées ou non ce qui permet d’identifier leurs liens et de les classifier ce qui facilite ainsi leur utilisation.

Le service fournit en complément un moteur sémantique pour la recherche des données par mot-clé, par type (numérique, texte, date…) ou par format (csv, json, document…), issu de glossaires gérés directement par les entreprises ou bien grâce à des templates qui sont proposés par la solution.

Enfin Purview permet aussi de reconnaitre différentes typologies de données (comme des données personnelles ou sensibles) afin d’assurer le respect des règles de sécurité et compliance et fournit également des fonctionnalités de gestion des rôles et des accès grâce à l’intégration dans Azure AD.

Microsoft fait ainsi une entrée remarquée dans un domaine concurrentiel ou se côtoient des poids lourds tels qu’Informatica, Talend, Collibra ou bien des startups récentes comme Zeenea ou Data Galaxy.

La valeur ajoutée du nouveau service Microsoft réside dans son probable impact auprès des entreprises dont Azure est le principal service cloud. Son adoption pourrait donc rapidement lui permettre de gagner des parts de marché, et d’asseoir définitivement Microsoft comme le leader des systèmes de gestion de l’information.

Rohan Kumar, Vice-Président en charge des activités Azure Data précise que « l’investissement dans Purview va durer plusieurs semestres et la prochaine étape sera davantage axée sur les politiques de gouvernance », démontrant la volonté de Microsoft de se placer comme un acteur incontournable du domaine de la gouvernance des données.

Avec le lancement de Purview, le géant du cloud a également annoncé la disponibilité générale de Synapse Analytics, qui lui permet de se doter d’une plateforme unique et complète, rassemblant l’intégration, le stockage, l’analyse et donc la gouvernance des données d’entreprise.

Si vous voulez en savoir plus, n’hésitez pas à nous contacter.

Rédigé par Julien Ayral, Manager Data Driven Business.

Qu’est-ce que le Knowledge Mining ?

 

Aujourd’hui l’ensemble des entreprises tous secteurs confondus, de la santé, de l’énergie,  des médias, du retail… sont à la recherche de nouveaux moyens d’exploiter leurs gisements de connaissances.

Parmi ceux-ci, la capacité de recherche cognitive permettant la reconnaissance de textes, d’images ou l’analyse de sentiments sont en vogue. Ces nouvelles techniques avancées sont désormais utilisées pour analyser des informations aujourd’hui non exploitées, afin de faciliter et accélérer la recherche de données clés, dans le but de gagner du temps et d’accélérer les projets.

 

 

Trop de détails, d’informations, pas assez de temps…

Prenons le cas d’une réponse à un appel d’offres ou d’un projet d’ingénierie.

Chaque nouveau projet nécessite la création d’une proposition d’offre ou d’un dossier technique comprenant un grand nombre de documents. Chaque offre/ dossier peut contenir différents documents contenant des milliers de pages dans différents formats (Word, PDF, Images…).  Le processus manuel prend beaucoup de temps, exige beaucoup de travail et crée de multiples possibilités d’erreurs humaines.

Dans le cas d’un client tel que TechnipFMC, où il est parfois nécessaire de parcourir un ensemble de documents techniques et d’analyser les spécifications détaillées des projets en cours ou passés, pour comprendre les différents paramètres influant sur des structures off-shore, l’aide de ces techniques peut être précieuse.

 

 

L’exhaustivité des détails techniques doit en effet permettre de produire des études précises. Si ces études manquent des détails clés ou critiques, cela peut influer sur les conclusions des études.

 

Les solutions Azure de Knowledge Mining permettent donc aux développeurs d’appliquer rapidement des techniques d’intelligence artificielle et offrent la possibilité d’utiliser les fonctions avancées de recherche IA de Microsoft Azure pour parcourir tous types de données (PDF, courriels, documents numérisés, images, etc.) afin d’obtenir un aperçu.

 

 

Azure Search

La solution Azure Search, solution SaaS dans Azure possède des capacités cognitives intégrées. La reconnaissance et l’extraction du texte et de l’identité à partir d’images, la mise en évidence des éléments de discussion clés du texte et la capacité de reconnaître et de classifier les individus, lieux et les éléments clés à partir du texte et des images mis à disposition.

 

 

Knowledge Mining

Le Knowledge Mining est une technique cognitive basée sur la recherche pour extraire des informations à partir de données non structurées. L’objectif est d’utiliser des techniques automatisées d’analyse et de recherche pour remplacer les équipes d’experts nécessaires pour explorer les documents les plus importants. Cette capacité de compréhension du contenu peut être utilisée pour créer des ressources de recherche approfondies qui permettent de fournir les informations pertinentes.

 

En combinant Azure Search et Knowledge Mining, il est ainsi possible de fournir un accès rapide à des informations qu’une équipe de personnes aurait mis des heures ou jours à identifier.

 

 

Les services cognitifs intégrés se répartissent selon les catégories suivantes :

  • Les services de traitement du langage naturel qui comprennent la reconnaissance d’entités, la détection du langage, l’extraction de phrases clés, la manipulation de texte et la détection de sentiments. Il est ainsi possible de rendre le texte non structuré en texte structuré, mappé à des champs requêtables et filtrables dans un index.

 

  • Les services de traitement d’images qui comprennent des services OCR et l’identification des caractéristiques visuelles, telles que la reconnaissance faciale, l’interprétation des images, la reconnaissance des images (personnages célèbres et points de repère) ou des attributs comme les couleurs ou l’orientation des images. Par la suite avec Azure Search, il est possible de créer des représentations textuelles du contenu de l’image, consultables avec les fonctions de recherche.

 

  • Les services personnalisés qui permettent d’insérer des transformations uniques au contenu de l’application. Ces services s’exécutent indépendamment, en appliquant les étapes d’enrichissements désirées. Il est ainsi possible de créer des entités personnalisées spécifiques à un domaine, créer des modèles de classification personnalisés pour différencier des contrats de documents commerciaux ou techniques, ou encore ajouter une compétence de reconnaissance vocale pour analyser plus en détail des fichiers audio pour un contenu plus pertinent.

 

 

Un exemple des capacités de la plateforme est issu d’une étude réalisée au moyen de cette plateforme et mise en ligne vers le lien suivant.

 

Les techniques de Knowledge Mining permettent donc aujourd’hui d’aller rechercher de l’information pertinente dans un ensemble de sources de données non structurées et d’en tirer la valeur afin d’accélérer les processus de l’entreprise.

 

N’hésitez pas à contacter les experts Saegus pour en apprendre davantage et voir comment mettre en place ces typologies de projets.

 

 

 

Contexte

La MAIF a ouvert son Datalab à la fin de l’année 2017 pour mener à bien des projets de DataScience et d’innovation. Le Datalab a voulu mettre l’accent sur la production et l’industrialisation de ses travaux, afin de tirer une réelle valeur de ses projets et éviter l’écueil du « Shadow IT » dans les entités qu’elle doit servir.

Saegus a ainsi été sollicité pour cadrer et réaliser ces processus de mise en production et d’industrialisation, mais aussi pour accompagner et acculturer les entités utilisatrices à ces nouvelles méthodes.

Nous avons ainsi pu travailler d’une manière macro en définissant les process, les normes et bonnes pratiques, mais aussi à des niveaux projets, plus micro, où nous avons développé et réalisé les mises en production de modèles prédictifs et de flux de transformation de données.

 

Réalisations

Pour répondre à ce type de problématique, nous avons réalisé les actions suivantes :

  • Création d’un cadre de référence technique (sélection et recommandation d’assemblages technologiques en fonction des uses cases) ;
  • Mise en place des normes et bonnes pratiques de développement pour les Data Engineers et Data Scientists ;
  • Création de Starter Kit pour les différentes technologies (Starter Pyspark, Starter Python, Starter API prédictive …) ;
  • Coaching des Data Scientist sur les projets pour leur appropriation de ces nouvelles normes ;
  • Déploiement d’un environnement et des pratiques « Data Ops » sur tous les projets Data ;
  • Acculturation et adoption des nouveaux processus aux différentes entités ;
  • Utilisation de Git dans les projets.

 

Bénéfices

  • Processus de mise en production

  • Meilleure gestion des versions (Git)

  • Cycles de vies raccourcis (intégration et déploiement continus)

  • Rapidité au démarrage des projets grâce aux Starter Kits

 

 

 

 

Retrouvez l’ensemble du business case avec des informations complémentaires en le téléchargeant :


 

Découvrez l’intégralité des expertises de nos experts Data sur médium !

Contexte et défis

Suite à la fusion des départements IT et marketing, Nexity a profité de cette révolution numérique pour moderniser, simplifier et repenser les services immobiliers à travers le digital.

Dans ce cadre Nexity a souhaité faire appel à Saegus afin de renforcer son orientation Data Driven.

Le principal enjeu du projet consistait à utiliser des technologies de Data Science pour proposer des services personnalisés aux clients de Nexity.

 

Démarche

  • Réalisation d’un cadre de référence technologique permettant de répondre aux cas d’usages métiers et aux contraintes du système d’information.
  • Fédérer un ensemble de sources d’information dans un socle commun, le Data Lake.
  • Prouver, dans un laps de temps court, que des modèles de machines learning couplés à une architecture haute performance sont pertinents sur des cas d’usages de détection de « Churn » et d’analyse du « parcours de vie ».

« Saegus nous accompagne sur la construction de la stratégie de la donnée. Ils ont une vraie vision de l’ensemble de la stratégie de l’entreprise et une approche très pragmatique. L’équipe est extrêmement experte sur ces sujets ce qui est très rassurant d’autant qu’ils sont très attentifs au fait qu’il y ait des résultats. Je recommande Saegus car c’est une société qui possède de vraies qualités de conseil. »

Muriel Lemesre, Responsable Expérience Client et CRM, Direction du Digital

 

Résultats

  • 1 Data Lake & 2 projets de Data Science industrialisés en 3 mois
  • Analyse descriptive des parcours de vie client
  • Prédiction de l’attrition client
  • Une vision 360° du client

 

Facteurs clés de succès

  • Une démarche agile offrant l’assurance d’obtenir des résultats rapidement, en parfaite adéquation avec les besoins de Nexity.
  • Grâce aux compétences d’une équipe pluri-disciplinaire (Data Engineer, Data Analyst, Data Scientist, Architecte).
  • Un transfert de compétences personnalisé garantissant l’autonomie des équipes.
  • La mise en place d’un cadre de référence technique, de normes et de bonnes pratiques.

 

 

Pour en savoir plus sur notre offre d’accompagnement, n’hésitez pas à demander un rdv à gaelle.pommereau@saegus.com.