Ici archive

L’impact de la transformation digitale

La consommation de services numériques (particuliers et entreprises confondus) est en augmentation constante depuis plusieurs décennies. La crise sanitaire actuelle a favorisé et accéléré ce phénomène. Les entreprises ont massivement déployé des solutions de collaboration, accru leur consommation de données dans toutes leurs formes, et font appel à des solutions de traitement et de calculs toujours plus puissantes, notamment d’intelligence artificielle.

Il est vrai que l’enseignement de l’année 2020 a été qu’une utilisation massive du digital permet de réduire les déplacements physiques, y compris transcontinentaux ; reste à savoir si ce phénomène sera durable ou si la reprise d’une vie “normale” ne viendra pas juste s’ajouter à l’intensification de ces usages numériques maintenant “acquis”.

Plusieurs études montrent que l’empreinte du numérique est estimée, à l’horizon 2025, à 10% (contre 4% actuellement (1)) de la consommation électrique mondiale, soit celle d’un pays faisant 2 à 3 fois la taille de la France. La consommation d’énergie liée aux cryptomonnaies dans le monde équivaut à la consommation d’un pays tel que l’Égypte (2). Plus à notre échelle, une box internet de particulier consomme autant d’énergie qu’un grand réfrigérateur.

Il est extrêmement difficile de savoir si l’innovation technologique aura à terme un impact environnemental positif et négatif. Cet article n’a d’ailleurs pas l’ambition d’adresser ce problème de manière holistique, mais de s’intéresser plus particulièrement à l’impact (positif) que pourrait avoir le développement de services d’intelligence artificielle dédiés à l’optimisation d’une consommation énergétique plus environnementale.

L’IA ne résoudra pas la problématique de production d’une électricité décarbonnée : il s’agit là d’un enjeu planétaire, complexe, dont la résolution ne peut se faire qu’en alignant progrès technologique, volonté politique et équilibre économique.

Toutefois, nous pouvons envisager à court terme des impacts positifs pour l’environnement. Cela se traduirait notamment par l’utilisation de l’IA sur des cas d’usages appropriés, via une méthode de gestion de l’IA raisonnée.

Quels cas d’usage pour une IA vertueuse ?

L’utilisation d’algorithmes (base de machine learning ou deep learning) est efficace dans un très grand nombre de cas d’utilisation. Initialement éprouvés sur des axes marketing (segmentation, scoring, recommandation), bancaire (risques, fraudes, optimisations), recherche (élaboration de molécules, traitement d’image, diagnostics médicaux), industrie (opérations de maintenances, logistique), ces programmes peuvent également être “entraînés” sur des tâches à impact positif.

À titre d’exemple, nous pouvons citer de manière générale :

  • La lutte contre l’obsolescence programmée (recommandation d’utilisation de produits, détection de dysfonctionnement, maintenance prédictive) ;
  • La maîtrise de la consommation d’énergie (optimisation domotique : gestion de la lumière, de la chaleur), pour le particulier mais également à l’échelle d’une entreprise, d’une ville, d’un pays ;
  • La gestion des ressources naturelles (supervision de parcelles agricoles, détection de maladie sur base d’images, gestion des espaces forestiers, analyse de l’air, de l’eau, impact du réchauffement, érosion des côtes) ;
  • Les impacts de phénomènes climatiques extrêmes (prédictions de dégâts, inondations) ;
  • L’optimisation de la supply chain – les traitements sont actuellement orientés sur le rendement, mais ils pourraient inclurent une composante “impact environnemental” dans le calcul d’optimisation.

Cette liste n’est évidemment pas exhaustive, mais illustre qu’il existe énormément de possibilités, peu ou pas explorées à date.

Une gouvernance mondiale “raisonnée” est-elle possible ?

Comme indiqué précédemment, la consommation énergétique liée aux services numériques est très élevée. Il en est bien sûr de même pour l’IA qui nécessite de très grand volumes de données et de fortes puissances de calcul.

La gestion des infrastructures et de l’énergie sous-jacente n’est évidemment pas un levier à la main des équipes de développement, et ne l’est qu’en partie pour les grandes entreprises.

Il existe cependant d’autres leviers de rationalisation :

  • La gestion et le partage de l’information : pour répondre aux besoins applicatifs la donnée a toujours été dupliquée, copiée, redondée, que ce soit dans des bases de données, systèmes de fichiers ou applications. Les facilités offertes par le Cloud et la baisse du coût de stockage ont encore accéléré ce phénomène. Le premier levier à l’échelle de l’entreprise est de gérer cette information comme un capital, de limiter les duplications en gérant mieux la description et le partage. Cela s’opère par une gouvernance adaptée mais également par des modèles d’architecture et d’urbanisation des données (gestion des méta-données, apisation, industrialisation des datalayers) ;
  • La gestion des algorithmes : c’est un sujet encore assez neuf, dont peu d’entreprises se sont saisies. La première vague a visé à démultiplier les initiatives et les expérimentations pour en prouver la valeur. La seconde vague, actuelle, a pour objectif l’automatisation et l’industrialisation. La troisième vague pourrait être celle de la réutilisation et du partage ;
  • À l’échelle de l’entreprise, cela signifie la mise en place d’une gouvernance algorithmique, permettant de cartographier les assets existants, de mutualiser les phases d’entraînement et de mise au point, et de démultiplier l’usage des algorithmes (sans repasser par de la recréation, de la duplication de données, de la multiplication fastidieuse de phase d’optimisation). L’objectif final serait la création d’une librairie d’algorithmes prêts à l’emploi ;
  • Au-delà du cadre de l’entreprise, cela pourrait prendre la forme d’une “Algo Market Place” au sein de laquelle les entreprises pourraient monétiser la mise à disposition d’algorithmes performants et pré-entraînés – sur le même modèle que les Data Market Place.

Enfin, il convient de faire appel à ces technologies de manière raisonnée. Dans de nombreux cas, des traitements plus simples, statistiques ou règles donnent des résultats tout aussi fiables avec un bilan efficacité/consommation de ressources beaucoup plus efficient.

Notre mission, au sein du cabinet Saegus, est autant d’identifier et de mettre en œuvre des services d’IA sur des cas d’usages à impact sociaux-environnemental positifs, que d’aider les entreprises à renforcer ou établir des règles de gouvernance efficaces et responsables.

Rédigé par Frédéric Brajon, Associé et Co-fondateur, et Clément Moutard, Manager Data

Sources :
(1) Agence de la Transition Écologique : https://bit.ly/3waPB7V
(2) Cambridge Bitcoin Electricity Consumption Index : https://cbeci.org

Les solutions d’intelligence artificielle se démocratisent depuis quelques années. Utilisées initialement à des fins marketing ou d’optimisation (production, supply chain…), de plus en plus de fonctions régaliennes y trouvent un intérêt, notamment les directions des ressources humaines.

En effet, les solutions d’aide au recrutement faisant usage de l’IA et de la donnée se sont massivement développées au cours de la dernière décennie – le profiling, la recherche par mots-clés ou l’utilisation d’un réseau comme LinkedIn en sont les exemples. La première étape d’un processus de recrutement est principalement basée sur l’utilisation de données caractérisant le candidat (diplôme, expérience, compétences, ancienneté dans un poste, etc). Toutes ces informations, accessible sur un CV ou un profil, permettent d’effectuer efficacement des recherches, des filtrages, et aboutissent à une pré-sélection de candidats à rencontrer. L’utilisation des technologies permet d’automatiser tout ou partie de cette première phase avec une grande efficacité. Dans ce cadre, les outils d’IA établissent des scores de pertinence sur les profils, en fonction des fiches de poste (rapprochement par similarité par exemple).

Cependant, la crise sanitaire a été un accélérateur de nouveaux cas d’utilisation, jusque-là confidentiels. Dès mars 2020, 89% des employeurs américains ont commencé à réaliser des entretiens en ligne (source journal du net, mars 2021). Pour pallier l’impossibilité de se rencontrer, et puisque l’enregistrement vidéo était quasi-systématique, les méthodes d’analyse par intelligence artificielle post-entretien ont été massivement utilisées. L’éditeur HireVue, spécialiste de l’analyse de video « comportementales » a communiqué sur une hausse de 80% de sa technologie par rapport à l’année précédente (en nombre de video analysées). Si cette adoption s’est majoritairement faite aux États-Unis, ce mouvement est nettement engagé en Europe.

Les ressources humaines sont un domaine par nature profondément humain, et donc variant. L’intelligence artificielle, a contrario, est systématique et analytique. Dans l’usage, quelles problématiques techniques et éthiques cela pose-t-il ? Quelles sont les limites ?

Interprétabilité et variables : les biais possibles de l’intelligence artificielle

Pour réaliser une prédiction (par exemple recommandation d’embauche ou non), l’intelligence artificielle va apprendre à faire sa prédiction sur l’analyse de différentes variables descriptives du phénomène observé. Ces variables sont déterminées par les data scientists, ou directement par l’IA (on parle alors d’approche non supervisée), en fonction du jeu de donnée d’apprentissage soumis.

Comme le souligne Frédéric Brajon, Co-fondateur de Saegus en charge de la Data et de l’IA, cette phase critique est souvent sous-estimée : “l’attention est trop souvent portée sur la performance des modèles mathématiques ; mais les premiers biais, absolument majeurs, apparaissent dans les phases préparatoires. La pertinence des variables descriptives retenues bien-sûr, mais également la nature même des données d’apprentissage ; les données sont-elles représentatives du phénomène observé ? Y a-t-il un risque de discrimination dans l’échantillonnage retenu ? Un risque éthique ? Ces questions fondamentales sont souvent négligées, par manque de temps, limite de budget ou inexpérience. Or, le meilleur modèle mathématique produira toujours des recommandations biaisées s’il n’a pas appris sur une base solide. Par exemple, dans le cas de recrutements, si ma base d’apprentissage a une sur-représentation d’un genre ou d’une tranche d’âge, il y a fort à parier que l’algorithme “pénalise” les candidatures différentes (pas parce qu’elles sont moins pertinentes pour le poste, mais parce que l’apprentissage a montré que celles-ci étaient moins fréquemment recrutées dans le jeu de données).”

L’apprentissage des modèles est donc essentiel, et le champ des possibles est large : quelles caractéristiques définir pour recruter ou non un candidat ? Quel poids leur donner les unes par rapport aux autres ? Comment prendre en compte des notions subjectives (le feeling), ou non liées directement à la personne (un candidat possédant un peu moins d’expertise qu’un autre, peut-être meilleur pour le poste, en raison d’une compatibilité de caractère avec le personnel en poste). En ce sens, l’intelligence artificielle aura tendance à reproduire les mêmes recommandations, or la richesse humaine d’une entreprise tient également à sa multidisciplinarité et sa multiculturalité ; comment prendre en compte ces paramètres ?

Julien Cotte, Directeur des Talents de Saegus, appuie ce point : “l’essence même d’une entreprise est représentée par ses salariés dans toutes leurs singularités. Les idées viennent parce que nous sommes différents, parce que nous avons des expériences différentes et une vision qui nous est propre sur les sujets à adresser dans notre domaine de compétences. Si l’intelligence artificielle suit à la lettre les critères de sélection, deux biais peuvent apparaître : l’impossibilité de recruter car personne ne pourra répondre totalement aux exigences du poste et l’homogénéisation des salariés ce qui, au final, appauvrirait les compétences de l’entreprise. Certes, il s’agit d’une vision très négative de l’utilisation de l’intelligence artificielle mais c’est le risque que je vois si nous souhaitons aller vers le tout IA pour le recrutement. L’IA doit être un outil d’aide, pas la seule décisionnaire. Le manager doit prendre en compte son envie de travailler avec le candidat, le recruteur doit pouvoir identifier si la personne s’intègrera bien à la culture de l’entreprise. Tout cela, en prenant en compte que l’IA n’est pas infaillible et que l’homme non plus.”

Par ailleurs, les exigences de recrutement peuvent varier d’un pays à l’autre et d’une entreprise à l’autre. Il est donc légitime de se poser la question de savoir si un traitement d’IA mis au point au US sera pertinent en France ? Faut-il ré-entrainer les algorithmes en fonction du pays ? Du secteur ? De la culture d’entreprise ?

Enfin, l’expérience du candidat est également à prendre en compte. L’usage de l’intelligence artificielle, invisible, peut être déstabilisante. En Europe, tout candidat doit être informé de l’usage de l’intelligence artificielle dans le cadre de son entretien d’embauche, et donner son accord. On peut s’interroger sur la liberté d’accepter ou de refuser dont dispose réellement le candidat, et sur l’impact de sa décision sur sa candidature.

Un cadre légal qui s’impose

Face à ces possibles discriminations, un cadre légal est nécessaire et commence à se dessiner.

Face à ce phénomène, une proposition de loi a été déposée aux États-Unis, l’Algorithmic Accountability Act, mais n’a finalement pas été adoptée. Toutefois le débat est ouvert.

L’Europe est quant-à elle précurseur de la préservation des droits à l’usage des données personnelles avec la réglementation RGPD. Mais cette règlementation ne protège pas d’une potentielle dérive éthique. En effet, dans le cas cité en exemple (recrutement), l’analyse des données personnelles du candidat peuvent être totalement anonymisées et détruites post traitement (donc en conformité avec la loi), n’en reste pas moins le problème éthique.

En France, certaines commissions parlementaires se sont emparées de ce sujet, et proposeront à l’avenir des recommandations législatives pour encadrer l’éthique non pas de l’IA, mais des usages que l’on en fait.

Car c’est certainement là que se trouve la clé de la solution. Encadrer les usages plutôt que la technologie brute.

“Comme toute nouvelle technologie, il y a du bon et du moins bon. Il est donc essentiel que les pouvoirs publics se saisissent de ce sujet pour encadrer la pratique et permettre une utilisation saine et efficace. Que ce soit le recruteur ou le candidat, je reste persuadé que les nouvelles technologies comme l’Intelligence Artificielle vont permettre de renforcer la relation candidat/recruteur. La technologie avançant très vite, la législation se doit d’être agile et en veille permanent sur ce sujet”, souligne Julien Cotte.

L’intelligence artificielle, une voix décisionnelle ou secondaire ?

Quel poids faut-il donc donner à la recommandation de l’algorithme ? Sa voix doit-elle être décisionnelle ou secondaire ?

L’exhaustivité de l’Intelligence Artificielle la place en dehors de la logique et des spécificités humaines. Les possibilités qu’elle offre sont intéressantes et challengeantes, mais l’IA doit rester une aide. La décision finale doit être humaine, dans toutes les finesses que cela comprend. A minima, une action humaine sera toujours nécessaire à certaines étapes du processus, par exemple par le manager qui travaillera en lien étroit avec la personne recrutée.

Et inversement, l’objectivité de l’intelligence artificielle peut avoir un impact positif : si le recruteur dispose d’un biais négatif ou discriminant, l’IA peut au contraire le contre-balancer.

L’idéal serait de trouver une complémentarité entre l’Intelligence Artificielle et l’humain. La vision de remplacer l’humain par l’Intelligence Artificielle dans le domaine des ressources humaines ne semble pas être la bonne voie. Par contre, identifier les écueils de l’humain dans le domaine du recrutement (lecture trop rapide des CV, non prise en compte des lettres de motivation, fatigue lors d’un entretien, biais culturel…) reste une piste d’innovation et d’optimisation qui pourrait être bénéfique à tous.

Une autre évolution semble nécessaire à explorer : si les recruteurs se dotent de cette technologie, ne serait-il pas intéressant que le candidat puisse avoir le même outil à sa disposition ? Le candidat pourrait alors obtenir une recommandation de l’IA pour identifier si le manager qu’il rencontre semble correspondre à ses attentes, si la présentation de l’entreprise rentre dans ses critères…

Ainsi, toutes les parties prenantes pourraient avoir le même outillage pour mener leurs entretiens. N’est-ce pas ça la véritable innovation ?

Conclusion

Quelles perspectives donner à la place de l’intelligence artificielle dans les processus de recrutement ?  

Comme dans quasiment toutes les fonctions, l’IA a une utilité certaine dans le cadre des ressources humaines et doit être intégrée aux réflexions.

Le paradoxe est que pour rendre une IA réellement efficace… Il faut l’utiliser. On voit bien ce phénomène avec les services de reconnaissance vocale ou visuelle proposés par les GAFA (notamment avec les assistants personnels). Les commandes vocales étaient très succinctes il y a 10 ans, alors que maintenant l’on peut parler et dicter des messages en langage naturel avec son smartphone.

Le phénomène d’apprentissage sera le même avec le domaine RH, plus l’on soumettra des vidéos de recrutement à l’IA, plus son analyse sera pertinente dans la durée.

Par contre, il convient que le législateur harmonise un cadre éthique d’utilisation de ces outils (opt-in du candidat, sans qu’un refus de sa part n’élimine la candidature par exemple), et que chaque entreprise place l’utilisation de ces technologies à la place qui convient, en assistance et en complémentarité à l’humain, et non en remplacement total, particulièrement pour ces domaines ou l’informel, le « bien-être ensemble » et la confiance ont tant de valeur pour construire des équipes performantes et durables. Il est également souhaitable que les candidats puissent également bénéficier des avantages de l’IA afin de rendre l’exercice du recrutement le plus équitable possible.

Envie d’en savoir plus ? Retrouvez notre table ronde sur les enjeux de la reconnaissance faciale par l’intelligence artificielle avec comme invité d’honneur Didier Baichère, Député et Vice-Président de l’Office parlementaire d’évaluation des choix scientifiques et technologiques. Pour vous inscrire , c’est ici !

Rédigé par Frédéric Brajon, Associé et Co-fondateur, et Julien Cotte, Directeur des talents

La plus grande entrée en bourse de l’année 2020 a eu lieu le 16 Septembre dernier, celle de la licorne californienne, fondée par deux français ; Snowflake, une étape pourtant logique lorsqu’on se penche sur la croissance vertigineuse de l’entreprise ces deux dernières années (cf. graphique ci-dessous).

Afin de mieux comprendre la popularité de cette solution je propose dans ce premier article de présenter rapidement Snowflake :

  • Nous expliciterons un des concepts phares de Snowflake : les virtual warehouses ;
  • Puis nous nous pencherons sur la tarification ;
  • Enfin, nous regarderons la performance de Snowflake par rapport aux autres principaux acteurs du marché.

#1 Présentation et architecture

Snowflake est une solution Software-as-a-Service qui propose un Data Warehouse reposant entièrement sur une infrastructure cloud. Pour rappel, une solution SaaS ne nécessite en outre aucune installation physique ou virtuelle de matériel ni de logiciel. Tout est installé, configuré et mis à jour dans le cloud, et aucun frais de maintenance n’est à prévoir : cette partie est entièrement gérée par Snowflake. Aussi, une interface très simple à prendre en main est proposée clé en main par l’éditeur, comme illustré ci-dessous.

La principale force de Snowflake repose sur son architecture hybride qui combine deux éléments :

  • La simplicité d’utilisation des bases de données traditionnelles à disques partagés (shared-disks), où toute la donnée est centralisée sur un disque et partagée entre tous les noeuds. Néanmoins cette architecture est difficilement scalable car le serveur aura tendance a vite être saturé dès que les données seront requêtées simultanément par plusieurs noeuds ;
  • La performance des architectures dites « shared-nothing » qui s’appuient sur des traitements massivement parallèles. Les calculs sont partagés sur plusieurs noeuds qui appliquent les requêtes sur différents sous-ensembles de données.

En outre, la donnée, entièrement stockée de manière optimisée dans le cloud, n’est disponible que par des requêtes SQL spécifiques à Snowflake, comme résumé dans le schéma ci-dessous. L’analyse et le traitement de ces requêtes se font via des objets appelés Virtual Warehouses (ou Entrepôts Virtuels en français) qui représentent la partie calculatoire de Snowflake.

Ces virtual warehouses sont des « clusters de calculs » propres à Snowflake, constitués eux-mêmes de plusieurs noeuds et sont redimensionnables à volonté. Ainsi, il est possible de (re)configurer très simplement et à la volée ces unités de calcul directement via l’interface web de snowflake :

Plusieurs paramètres sont donc disponibles :

  • La taille du virtual warehouse, c’est-à-dire le nombre de serveurs qui composent chaque cluster dans un entrepôt qui va établir le coût d’utilisation en crédit, la facturation sera mise en avant ci-dessous ;
  • Le nombre minimum/maximum de clusters qui sont des paramètres de scale-in : au fur et à mesure que l’on reçoit des requêtes, Snowflake va allouer dynamiquement des ressources (clusters) pour les traiter le plus efficacement et le plus économiquement possible ;
  • Le choix de la politique de mise à l’échelle : l’un va favoriser la performance, l’autre va minimiser les coûts d’utilisations ;
  • La politique de mise à l’arrêt automatique : la durée après laquelle le warehouse s’arrête si elle n’a pas reçu de requête à traiter entre temps, et donc aucun crédit n’est consommé.

Il est à noter qu’il est possible de modifier les paramètres d’un virtual warehouse alors même qu’il est en train d’effectuer des calculs. Il est aussi possible de les configurer, comme d’ailleurs tout objet sur Snowflake, via des requêtes SQL, sans même avoir à passer par l’interface.

#2 Facturation

Dans les technologies cloud, il est parfois difficile de s’y retrouver dans les systèmes de facturation tant ils varient d’un éditeur à un autre, d’un service à un autre, et il est rapide de se retrouver avec de mauvaises surprises dans ses coûts finaux. Les frais de Snowflake se décomposent seulement en coûts de stockage et en coûts de calculs.

Le coût de stockage est fixe et déterminé par le package de Snowflake choisi (à partir de 23$ par TB par mois). Le coût de calcul correspond à la durée d’utilisation (à la minute près) et à la taille des Virtual Warehouses utilisés, ces deux notions sont résumées sous la forme de “crédits”. Ainsi, l’utilisateur n’est facturé que pour ce qu’il consomme.

Snowflake propose ainsi différentes tailles de warehouses, qui se découpent en huit paliers et décrivent le nombre de serveurs qui composent un cluster (sachant que l’on peut paramétrer le nombre minimal et maximal de clusters qui composent un virtual warehouse).

Ainsi, si avec mon virtual warehouse XL j’effectue un traitement mobilisant 1 cluster pendant 1 heure, puis 2 clusters l’heure qui suit, j’aurais alors dépensé 1×16+2×16=48 crédits sur ces 2 heures.

Remarque : Augmenter la taille d’un cluster permet d’effectuer plus de requêtes en parallèle, cette solution de scale-out est donc plutôt à privilégier dans des cas où l’on ingère beaucoup de fichiers en parallèle ou pour effectuer des requêtes complexes sur une multitude de tables. A l’inverse, augmenter la taille d’un Virtual Warehouse pour effectuer des requêtes SQL de base aura peu d’influence sur sa rapidité d’exécution.

Remarque 2 : Snowflake a un système de cache ; les résultats des requêtes sont gardés en mémoire pendant 24h. Il est donc possible de réexécuter des requêtes onéreuses à moindres coûts.

#3 Performances et positionnement sur le marché

Pour comparer Snowflake à ses concurrents, je vais dans cette section m’appuyer sur les résultats de l’étude de Fivetran publiée en septembre 2020. Ce benchmark s‘inspire de l’analyse comparative standard TPC-DS, qui consiste à utiliser des requêtes SQL complexes (beaucoup de jointures, d’aggregations, de sous-requêtes etc…) sur des bases de données de retail plus ou moins larges. Ici, ces requêtes sont appliquées à un schéma de 24 tables, pour un total d’1TB — ce qui peut paraître peu en termes de volume mais l’idée est avant tout de tester la performance du traitement de bases de données à la structure complexe.

Ces requêtes sont testées sur des warehouses équivalents chez quatre grands acteurs de datawarehousing : Snowflake, Presto, Redshift d’AWS, et BigQuery de GCP. En particulier, le temps d’exécution et le coût associé pour chacun d’eux sont comparés.

Nous constatons trois choses :

  • Quel que soit la datawarehouse utilisée, les temps d’execution sont excellents et peuvent notamment convenir à du requêtage interactif ;
  • Les prix des requêtes sont à peu près équivalents d’un datawarehouse à une autre ;
  • Snowflake a un avantage minime sur ses concurrents au niveau du temps d’execution et du prix.

La principale différence réside dans la façon dont les calculs sont effectués ; Snowflake et Redshift sont similaires puisqu’ils proposent dans les 2 cas de configurer en détails des clusters de calculs. Redshift permet de paramétrer la mémoire, le stockage et la puissance de chaque cluster, tandis que, de par son architecture qui sépare stockage et calculs, Snowflake gère la mémoire et la puissance comme indiqué dans les parties précédentes.

BigQuery quant à lui ne laisse pas le choix dans la configuration d’un cluster de calcul : l’utilisateur envoie les requêtes une par une directement sur le serveur. Il a néanmoins le choix dans la tarification : soit “à la demande” qui s’adaptera mieux aux requêtes gourmandes mais ponctuelles. Soit en taux-fixe pour une utilisation continue du service de GCP.

Conclusion

Nous avons passé en revue les principaux atouts de Snowflake : cette solution se détache de la concurrence par la simplicité qu’offre le SaaS et sa flexibilité. En effet, nous avons vu qu’il était très facile de configurer des clusters de calculs de manière instantanée.

Snowflake offre en outre une plus grande lisibilité sur sa tarification, qui ne dépend que de la puissance de calcul déployée plus le stockage utilisé. L’utilisateur pourra donc très simplement adapter ses paramètres pour répondre au mieux, et à moindres coûts, à son besoin.

Enfin, Snowflake présente d’autres concepts clés, comme le time travel, le clustering de données, snowpipe etc… qui feront l’objet de futurs articles, auxquels il faudra bientôt ajouter les grandes évolutions prévues lors de son dernier Data Cloud Summit 2020.

Rédigé par Simon Coulet, Consultant Data Driven Business.

(1) Source
(2) Source

La concurrence exacerbée qui s’observe dans le monde commercial impose aux différents acteurs d’affirmer leurs propres différentiants pour capter et consolider leurs parts de marché. Pour cela, le recours au marketing est devenu presque indispensable, permettant de s’adresser à tous les consommateurs ciblés et de développer avec eux un lien particulier. Mais ces démarches ont un coût, et il est fondamental de vérifier l’efficacité des campagnes marketing afin d’optimiser la rentabilité de ces projets. À cette fin, il faut bien souvent s’appuyer sur des études statistiques, qui doivent être conduites avec méticulosité et esprit critique.

En effet, il existe de nombreux risques pouvant fausser les conclusions de telles études. Cet article présente ainsi un cas usage des statistiques pour mesurer la performance d’une campagne de marketing opérationnelle. Elle est réalisée en deux temps : d’abord une analyse comparative avec contrôle, puis une modélisation afin de mesurer l’impact d’un biais de sélection dans les résultats précédents. En fin d’article, la méthode de rééchantillonnage correspondante est décrite accompagnée du code Python correspondant, afin de remédier à ce biais.

Cet article s’adresse tant à des responsables marketing qui souhaitent parfaire leur culture statistique, qu’à des Data Analysts / Data Scientists qui apprécient l’inspiration que peut apporter une étude de cas pour leurs activités.

#1 Cas d’usage des statistiques en marketing opérationnel : clienteling et mesure de performance

Dans le retail, le clienteling est une pratique du marketing opérationnel visant à assurer une plus grande proximité avec le client en magasin, avec une approche la plus personnalisée possible. Une des stratégies de clienteling d’une enseigne renommée a été de mettre à disposition, sur les bons supports, au bon moment du parcours client, les bonnes data « actionnables » (produit et client) par les conseillers de vente afin d’améliorer le CA par client identifié. Voici deux exemples d’incitation client-centrique que peuvent formuler les vendeurs :

  • À un très bon client : s’assurer qu’il a l’application mobile de l’enseigne ou l’inciter à la télécharger.
  • À un client achetant principalement un type de produits : proposer des produits identifiés comme connexes et disponibles en magasin.

Une étude fut menée dans différents magasins pour évaluer l’impact de cette campagne de clienteling sur le comportement d’achat des clients. Ces comportements étant mus par de très nombreuses variables, il est indispensable d’écarter les éventuels facteurs confondants pour éviter des conclusions hâtives sur les effets de la campagne. Il a donc fallu déterminer une méthodologie d’analyse robuste. Pour cela, l’enseigne a été accompagnée de l’expertise de Saegus pour mener à bien cette étude qui est décrite dans le présent article.

#2 Méthodologie : l’importance des contrôles comme garde-fous

Déterminer une méthodologie d’analyses robuste commence par la détermination des KPIs (Key Performance Indicators) d’intérêts. Le plus important d’entre eux est le Chiffre d’Affaires (CA) généré par chaque client sur la période associée. Mais le CA se décompose en au moins deux autres variables : le Panier Moyen (PM) et la fréquence d’achat. Pour une plus grande précision dans la compréhension des éventuels effets de la campagne, ce sont ces deux KPIs qui sont retenus.

Afin de mesurer les éventuels effets de la campagne, nous avons procédé à une double vérification sur les deux KPIs étudiés : « 1) ont-ils progressé d’une année sur l’autre pour les clients ciblés ? 2) Les éventuelles progressions observées sur les clients ciblés se distinguent-elles des possibles progressions observées chez un groupe de clients non-ciblés ? ». Ces contrôles croisés sont fondamentaux puisqu’il faut pouvoir rapporter les éventuels effets (point 1) à une tendance de références (point 2) permettant d’exclure les effets contextuels (inflation, particularité des collections d’une année sur l’autre, particularités inopinées des clients ciblés, etc.).

En pratique, pour le 2e point, une cohorte de clients non-ciblés — dite “témoin” ou encore “contrôle” — issus du même magasin a été constituée a posteriori, reflétant avec la plus grande fidélité le groupe de clients ciblés. Pour cela, un groupe de clients n’ayant pas bénéficié de la campagne de clienteling a été constitué à partir de la population de façon à correspondre le plus fidèlement au groupe cible (données socio-démographiques, scores variés, comportement d’achat, etc.). Concrètement, pour construire ce groupe contrôle, nous avons utilisé la librairie Python pymatch. Le groupe cible compte 3622 clients, le groupe témoin 2039 clients, pour une population de clients de 20323.

#3 Résultats : évaluation de la significativité statistique de la progression des KPIs

Dans le tableau ci-dessous se trouvent les résultats pour les 2 KPIs, confrontés entre l’année N-1 et l’année N, sur le groupe cible et le groupe témoin. La significativité statistique des différences d’une année sur l’autre, ainsi qu’entre les deux groupes (dernière ligne “Diff. T – C”) est indiquée par un code couleur : un fond vert exprime une différence significative contrairement à un fond rouge.

Cette significativité exprimée par la p-value est aisément calculée grâce à des tests statistiques via le module stats de la librairie scipy :

  • t-test à deux échantillons appariés pour les tests appliqués à un même groupe sur les deux années consécutives pour mesurer la progression du KPI
  • t-test à deux échantillons non-appariés pour comparer la progression du KPI chez les deux groupes

Cette p-value mesure la probabilité que cette différence soit fortuite : si elle est inférieure à 0.05, nous pourrons conclure avec un risque d’erreur de moins de 5% qu’il y a effectivement un effet. Autrement dit, dans ce cas, l’affirmation « la différence est notable » est associée à un indice de certitude d’au moins 95%. Il est important de noter qu’a priori, un résultat significatif n’exclue donc pas la possibilité qu’il s’agisse en fait d’une coïncidence statistique (mais d’autant moins probable que la p-value est proche de 0).

L’étude de la significativité est fondamentale dans le cadre de petits échantillons car elle permet de donner du relief aux chiffres, avec des conclusions quantitatives. Elle n’est pas une fin en soi et a ses limites – par exemple elle ne dit rien de l’intensité de l’effet qui est également crucial – mais facilite l’interprétation, comme nous le montrons dans la suite de l’article. Nous pouvons notamment constater que le PM présente une contraction significative d’une année sur l’autre pour les deux groupes, mais la différence d’amplitude entre les deux groupes n’est pas statistiquement significative : les résultats ne permettent pas de conclure que les missions de clienteling influent le PM (mais n’exclue pas non plus en l’état cette éventualité). En ce qui concerne l’autre KPI relatif à la fréquence d’achat, alors que le groupe témoin voit sa fréquence diminuer significativement, ce KPI progresse nettement dans le sens inverse pour le groupe cible, celui de l’augmentation. La différence de tendance entre les deux groupes est extrêmement significative. Ce résultat en apparence concluant va être analysé plus finement dans la suite de l’article.

#4 Rectification des résultats en estimant l’impact du biais de sélection

Après toutes les précautions prises, nous pourrions nous targuer d’un résultat positif : les campagnes semblent doper la fréquence d’achat des clients. Mais une telle conclusion n’est-elle pas trop prématurée ? Il semblerait que si, puisqu’il y a ce qu’on appelle un biais de sélection du groupe cible : plus un client vient au magasin, plus il a de chances de se voir solliciter par une incitation liée à la campagne. Ainsi, le groupe cible risque fortement de ne pas refléter fidèlement la population sur ce KPI puisque la fréquence moyenne de ce groupe aura tendance à être plus élevée. Mais comment distinguer les effets de ce biais de sélection avec les éventuels effets de la campagne de clienteling ?

Il faut pour cela faire appel à la technique du bootstrap. Cette méthode de rééchantillonage permet d’estimer la valeur moyenne de fréquence d’achat sur un sous-groupe de la population en tenant compte du seul biais de sélection. Concrètement, on effectue de nombreuses fois une attribution aléatoire des 5032 missions réalisées au cours de la campagne auprès de la population des clients du magasin. Pour simuler ces attributions, il faut pouvoir représenter la population de clients. La table des effectifs de ces derniers et de leurs fréquences d’achat sur la durée de la campagne est présentée ci-dessous.

En effectuant cette attribution aléatoire de missions auprès de cette population un très grand nombre de fois (ici, le processus est répété 1000 fois), il est possible de visualiser la distribution statistique de la moyenne d’échantillon de la fréquence d’achat. Dans ces conditions, cette distribution permet de refléter le biais de sélection mentionné précédemment. Cette distribution et sa moyenne sont donc ensuite comparées aux valeurs moyennes de la population, du groupe témoin et du groupe cible. Pour faciliter la discussion, ces valeurs sont représentées sur le graphique ci-dessous.

Sur le graphique, la distribution des moyennes d’échantillon présente une moyenne à 3.15 (en rouge). Il y est également représenté (voir légende) : la moyenne de fréquence d’achat du groupe cible, celle du groupe témoin et celle de la population de laquelle sont extraits les groupes cibles et témoins. Il est à noter sans trop de surprise que la moyenne de fréquence d’achat du groupe témoin – qui est à 2.08 – est très proche de celle de la population (2.12). Par ailleurs, la moyenne des échantillons liés au bootstrap est largement supérieure à celle de la population et du groupe témoin, mettant en exergue la réalité du biais de sélection.

En ce qui concerne le groupe cible, il apparaît que sa moyenne est très nettement au-dessus de la distribution de moyennes d’échantillons liée au seul biais de sélection. Un test statistique (t-test à un échantillon appliqué à la distribution vis-à-vis de la moyenne du groupe cible) révèle la significativité majeure de cet écart (p << 0.001). Ce biais de sélection ne suffit donc pas à lui seul à expliquer l’écart de la fréquence d’achat moyenne du groupe cible au groupe témoin. Ainsi, seulement après toutes ces vérifications et ces nombreux contrôles, nous pouvons finalement conclure que les missions de clienteling semblent accroître la fréquence d’achat des clients.

#5 Présentation du code Python associé à la méthode de bootstrap

Nous présentons ici l’implémentation de ce qui a été décrit précédemment concernant l’usage du bootstrap pour estimer l’effet du biais de sélection. Cette partie du projet, singulière et spécifique, a été codée “à la main” pour garantir une analyse sur-mesure. Le code correspondant est détaillé ci-dessous, et vous permet de répliquer et d’adapter la démarche. Si cet aspect technique vous parle moins, vous pouvez directement passer à la conclusion ci-bas.

La première section de code présentée ci-dessous permet de charger les données liées aux effectifs de clients par fréquence d’achat (autrement dit la table présentée précédemment). Par ailleurs, deux listes sont créées :

  • clients_visit : cette liste énumère exhaustivement chacune des visites de tous les clients de la population, ces dernières étant référencées par le numéro du client (de 1 à 20323, ordonnés par ordre ascendant de fréquence d’achat). Par exemple, si le client numéro 1515 est venu 3 fois sur la période, son identifiant (1515) apparaîtra 3 fois dans la liste.
  • clients_freq : cette liste associe à chaque identifiant client encodé par l’index dans le tableau la fréquence d’achat de ce dernier sur la période (en valeur). Ainsi, la 100e valeur du tableau correspond à la fréquence d’achat du client 99 (la numérotation des clients commencent à 1, rendant la première valeur d’index 0 du tableau “silencieuse”).

La section de code ci-dessous permet de définir la fonction get_sampled_mean_freq qui attribue aléatoirement les 5032 missions de clienteling à l’ensemble des visites représenté par le paramètre clients_visit. Pour refléter au mieux la réalité terrain, un même client étant venu de nombreuses fois au magasin peut se voir solliciter plusieurs fois dans le cadre de cette campagne. Il est cependant important de ne les compter qu’une seule fois au moment de calculer la moyenne de la fréquence d’achat de l’échantillon (d’où l’usage de la fonction unique). Une fois l’échantillonnage effectué, les fréquences d’achat des clients sélectionnés sont récupérées (grâce au paramètre clients_freq). Cela permet ainsi le calcul de la moyenne correspondante qui est retournée par la fonction.

Grâce aux sections précédentes, il suffit désormais d’appliquer 1000 fois la fonction get_sampled_mean_freq afin d’obtenir 1000 moyennes de fréquence d’achat associées chacunes à différents échantillons. Elles sont stockées dans la liste sampled_mean_freqs qui permettra de décrire la distribution de ces moyennes. C’est précisémment l’histogramme de sampled_mean_freqs qui est représenté sur la figure ci-haut.

Et voilà comment en quelques lignes de code et grâce à la méthode de bootstrap, il est possible de révéler la contribution du biais de sélection à la valeur moyenne d’un KPI, ici la fréquence d’achat.

Conclusion

Pour résumer, mesurer l’impact du clienteling sur le comportement d’achat des clients s’est avéré moins trivial qu’il n’y paraissait, avec de nombreuses étapes d’analyses. Il aura fallu notamment :

  • Appliquer une méthodologie rigoureuse et systématique afin de définir clairement les objets d’étude
  • Mettre en place les contrôles nécessaires à l’exclusion d’effets contextuels biaisant les résultats
  • Mesurer quantitativement les effets d’intérêts
  • Prendre de la hauteur sur le résultat ce qui permit d’identifier un autre biais caché lié à la “sélection” des cibles
  • Mesurer l’effet isolé de ce biais pour pouvoir préciser l’impact de la campagne de clienteling
  • Communiquer les résultats aux métiers et les convertir en action (phase essentielle non retranscrite dans cet article)

L’usage des statistiques se révèle donc indispensable à la bonne compréhension de certains phénomènes, et garantissent des histoires à rebondissements palpitantes. Et vous, quelle est votre histoire ? N’hésitez pas à venir nous la partager en prenant contact avec nous !

Rédigé par Clément Moutard, Consultant Data Driven Business.

Notes
Thanks to Eliot Moll.

Saegus est heureux de vous annoncer que vous pouvez dès à présent retrouver les expertises de nos experts Data sur Médium. De nombreux sujets vous attendent : Data ops, Machine Learning, Visualization et bien plus encore…

 

 

Vous pouvez également télécharger notre dossier sur le Deep Learning ! 

 

Très bonne lecture !

Ces derniers jours, différentes réalisations de deep learning (apprentissage profond) ont été massivement relayées sur les réseaux sociaux. Vous avez peut-être découvert notamment des algorithmes permettant de générer des visages et des annonces de location de logement entre particuliers n’ayant jamais existé. Ces applications reposent sur une technologie toute récente – 2014 –, dénommée Generative Adversarial Network (GAN). Comme tout modèle de Deep Learning, elle exploite en empilement de nombreuses couches de neurones artificiels (d’où les termes « deep »/« profond »), qui permet l’extraction et la manipulation de représentations complexes issues de modalités variées (images, sons, données numériques, etc.). La particularité de cette technologie est sa capacité à générer des exemplaires fictifs d’une classe d’éléments : en quelque sorte, la machine se dote d’une imagination.

Saegus n’a pas attendu ces buzz pour développer une expertise sur ce sujet novateur garantissant de nombreux leviers de croissance. Ce dossier vise à présenter notre vision sur cette nouvelle technologie, notamment en l’inscrivant dans son contexte et en la comparant aux modèles discriminants (et non-génératifs) qui l’ont précédée dans un premier article. Nous présentons dans un second article plus en détails le fonctionnement des GANs ainsi que certaines de nos réalisations. Pour finir, un troisième article prend du recul sur ces innovations pour considérer les portées éthiques cruciales de ces changements de paradigme. Si vous voulez savoir à quoi ressembleront vos enfants, ou comment vieillira votre peau, nous vous invitons à plonger dans l’univers passionnant du deep learning et des GANs.

 

Téléchargez notre dossier pour découvrir l’intégralité de l’étude !

 


 
 

Découvrez l’intégralité des expertises de nos experts Data sur médium !

Nous sommes fiers d’avoir la confiance de nos clients et enthousiastes de leur apporter notre aide, voici nos derniers « success unlocked » :

 

  • Mise en place d’un centre de services Data à la Direction Architecture d’Entreprise Groupe de Crédit Agricole

Au sein de l’équipe SIG/CTA/AE de Crédit Agricole SA, nos consultants réalisent des missions visant à assurer la cohérence des architectures et à garantir l’interopérabilité entre les nombreux SI du groupe, en construisant et portant les normes Crédit Agricole. Compte tenu de la pluridisciplinarité des expertises nécessaires, nous intervenons via un dispositif novateur avec la mise en place d’un SPOC présent en 2/5ème sur place qui assure la qualification des besoins et fait suivre les sujets aux bons spécialistes Saegus. Ce système permet au client de faire appel de façon ponctuelle à des expertises diverses tout en étant engagé sur un nombre minimum de sollicitations.

 

  • Mise en place d’une plateforme permettant d’organiser les déplacements et les réunions des collaborateurs d’Orange Book and Go

Au sein de l’entité RH Corporate, le projet mené par Saegus concerne la mise en place d’une plateforme unique permettant de faciliter et d’optimiser l’organisation des déplacements et des réunions des collaborateurs. Plus précisément, cette mission a pour mandat de cadrer le besoin en tenant compte des solutions déjà existantes et en proposant une interface qui permet de toutes les agréger et d’en tirer le meilleur parti.

 

  • Accompagnement de Sanofi Espoir sur un projet humanitaire

Le projet consiste à accompagner la Fondation (qui a un rôle de mécène) sur des territoires dont l’accès à la santé est encore très modeste (Afrique, Amérique du Sud, à commencer par le Sénégal) et à diagnostiquer les problèmes que rencontrent les ONG, associations, instances étatiques, etc; dans leur lutte contre ce problème afin de proposer de actions/méthodologies/outils permettant d’améliorer la situation. Notre équipe Acceleration Tactics a la charge de ce projet et de réfléchir aux meilleurs leviers grâce aux compétences en design thinking notamment.

 

  • Accompagnement de l’Oréal dans la mise en place d’ateliers collaboratifs

Au sein de L’Oréal R&I, RAV-Plateforme Clinique, la mission de Saegus est l’optimisation du processus de centralisation de documents relatifs à la mise au point, à la mise en œuvre et à la valorisation des études cliniques (synopsis, protocole, data validation plan, statistical plan, rapports, notes…). L’objectif à court terme est de valider et prioriser les besoins pour les différentes typologies d’utilisateurs, et de définir quel pourrait être l’apport du digital dans le contexte. Pour parvenir à ce résultat, L’Oréal souhaiterait être accompagné dans une démarche d’ateliers collaboratifs, suivis potentiellement d’une phase de Design.

 

  •  Conception d’une offre de services Digital Workplace à la Société Générale

En adoptant une approche Design Thinking, Saegus a accompagné l’entité SGSS de la Société Générale dans la conception de son offre de services Workplace. Des ateliers d’idéation et d’immersion ont permis de récolter les réels besoins des collaborateurs, leurs irritants et leurs attentes que nous avons associés aux applications dont dispose la Société Générale pour définir le contenu du catalogue de services.

 

  • Création d’un intranet pour un leader du capital investissement

Un groupe leader du capital investissement, souhaite se doter d’un intranet moderne. Après présentation de différentes plateformes, Saegus a été choisi pour mettre en place un nouvel intranet social et collaboratif basé sur Office 365. Afin d’optimiser les différents parcours, Saegus a proposé 3 sprints d’une semaine pour enrichir au fur et à mesure plusieurs parcours utilisateurs.

 

  • Mise en place d’un centre d’excellence PowerBI au sein de la direction Data/Digital de Malakoff Médéric 

Dans le cadre de sa stratégie Data, le groupe Malakoff Médéric souhaite  généraliser l’utilisation de la solution Power Bi et a confié la création de son centre d’excellence à Saegus. L’objectif est de généraliser l’utilisation de la solution au sein des équipes métiers en partant de leurs principaux usages quotidiens.

 

  • Création d’une application pour gérer l’absentéisme au travail du groupe Malakoff Médéric

Malakoff Médéric cherche à fidéliser ses clients. Pour cela, l’entreprise souhaite créer une application afin de prévenir l’absentéisme en entreprise. La première étape consiste en l’aboutissement d’un MVP en deux mois qui se concentra sur un premier parcours. Sur ce parcours, plusieurs fonctionnalités liées à la data visualisation seront présentées et notamment la possibilité d’avoir un tableau de bord interactif dès la page d’accueil. Nous intervenons donc pour définir et accompagner Malakoff Médéric sur la création de ces Dashboards et l’utilisation de Power BI.

 

  • Mise en place de modèles prédictifs de détection de fraude et d’appétence à la prospection

Malakoff Médéric a lancé de nombreuses initiatives s’inscrivant dans une stratégie de transformation digitale. L’entreprise possédait un datalake et souhaitait renforcer ses équipes pour pouvoir industrialiser rapidement des projets analytiques.

 

 

Si vous souhaitez davantage d’informations sur la conduite de ces missions et notre méthodologie, n’hésitez pas à solliciter un rendez-vous avec nos experts.

 

Saegus vous présente Dataiku !

 

Dataiku, qu’est-ce que c’est ?

C’est une entreprise française qui développe une plateforme logicielle permettant aux équipes data d’accélérer le prototypage et le déploiement d’applications prédictives. Dataiku DSS est une solution qui agrège l’ensemble des étapes du processus : de l’acquisition de données au déploiement de modèles de machine learning en production, et qui permet à des utilisateurs de tous niveaux – métier, analystes, data scientists – de collaborer efficacement.
 
Depuis sa création en 2013, Dataiku a connu une très forte croissance et compte aujourd’hui 120 employés et plus de 100 clients répartis sur 3 continents. En 2017, Dataiku a triplé ses revenus et doublé ses effectifs, et début 2018, Dataiku a été nommé Visionnaire dans le Magic Quadrant de Gartner pour les plateformes Data Science, pour la 2ème année consécutive.

 

En quoi ce type de solution s’inscrit-elle dans notre stratégie ?

Le fondement de la proposition de valeur de Dataiku DSS est d’accélérer la conception et l’operationalisation de “data products”, à travers 2 éléments clés:
  • Simplifier la manipulation d’algorithmes et d’environnements techniques complexes pour permettre d’accélérer le déploiement de nouvelles solutions 
  • Briser les silos de données et faciliter la collaboration entre les parties prenantes de la chaîne de valeur de la data
 
Partageant un ADN fortement lean startup, Dataiku et Saegus ont une vision commune des bonnes pratiques pour transformer les organisations et créer de la valeur par les data: experiment, fail fast, focus on value. En proposant DSS à ses clients, Saegus accélère l’impact de projets data et améliore l’adhésion des différentes parties prenantes aux innovations proposées. 

 

A quel client propose-t-on ce genre de solution ?

Dataiku s’adresse aussi bien à des grands comptes qui souhaitent accélérer leur transformation Data-Driven sur des cas d’usages multiples (notamment en mettant en place des structures type Data Lab) qu’à des organisations plus petites dont la data est au coeur de l’activité : e-commerce, gaming, Fintech…
 
Parmi les clients existants,  on retrouve donc des sociétés comme GE, Pfizer, La Poste ou Santander, mais aussi OVH, Ventes Privées, Ubisoft…avec des cas d’usages allant de la recommandation de produits à la maintenance prédictive sur des chaînes de production.
 
Dataiku est particulièrement présent dans le domaine Banques/ Assurances (LCL, Axa, Santander, BNPP) avec un focus fort sur les cas d’usages autour de la connaissance client et de la gestion des risques : analyse d’attrition, segmentation comportementale, ventes croisées, détection de fraudes…

 

 

Questions à Vincent de Stoecklin – Directeur des partenariats chez Dataiku

 

Comment est né Dataiku ?

Dataiku a été crée par 4 co-fondateurs vétérans de la Data (2xExalead, Apple, CGI) qui sont partis du constat suivant:
– la multiplicité des technis big data est dure à appréhender et à mettre en oeuvre pour la plupart des organisations
– les data scientists sont en forte demande, et parfois mal exploités à des tâches de préparation de données vs modélisations
– les modèles dépassent rarement le stade du prototypage, très peu sont effectivement déployés en production
 
La plateforme Dataiku DSS vient adresser en priorité ces points. 

 

Pourquoi avoir noué un partenariat avec Saegus ?

Dès le départ, le positionnement de Saegus nous a séduit par sa volonté d’emmener rapidement les organisations vers une meilleure compréhension et priorisation des enjeux liés à la data, ainsi que de déclencher des expérimentations concrètes.
De plus, leur expertise des technologies Big Data, les techniques Data Science, et leur connaissance métier nous apporte un vrai complément dans la capacité à délivrer des solutions bout en bout chez des clients.

 

Sur quel sujet êtes-vous intervenus ensemble ?

Saegus fait partie des partenaires historiques de Dataiku en France, et nous avons notamment pu implémenter les projets suivants: 
– Lyreco : analyse d’attrition sur les clients B2B
– Ministère Intérieur : détection de fraude aux titres nationaux
– Coyote : analyse attrition et segmentation client
– L’Oréal : dashboard marketing omnicanal
– et bien d’autres

 

Pour en savoir plus sur notre offre data Driven Business, n’hésitez pas à demander un rdv à gaelle.pommereau@saegus.com.

Et pour découvrir notre partenaire Dataiku, c’est par ici !

 

 

L’un de nos datascientist, Nicolas Risi, est intervenu le 8 juin dernier au Meetup Big Data et Machine Learning aux côtés de VERTICA.

Il a expliqué les avantages offerts par une plate-forme analytique orientée colonne dans une démarche de Data Science, en développant son argumentaire sur chaque étape de construction d’un Data Project. Nicolas a notamment partagé quelques clés de succès pour prendre en compte très en amont les contraintes d’industrialisation des modèles algorithmiques !

Pour en savoir plus, n’hésitez pas à nous écrire ici 

En Mars 2017, Saegus est invité à réagir autour du sujet passionnant de l’Intelligence Artificielle. 

Frédéric Brajon, Directeur Général, détaille nos convictions : approche pragmatique, micro services et liens avec la Data Science.

Pour regarder l’émission dans on intégralité, cliquez ici

Pour en savoir davantage sur nos expertises dont la Data Science, cliquez ici