Ici archive

La plus grande entrée en bourse de l’année 2020 a eu lieu le 16 Septembre dernier, celle de la licorne californienne, fondée par deux français ; Snowflake, une étape pourtant logique lorsqu’on se penche sur la croissance vertigineuse de l’entreprise ces deux dernières années (cf. graphique ci-dessous).

Afin de mieux comprendre la popularité de cette solution je propose dans ce premier article de présenter rapidement Snowflake :

  • Nous expliciterons un des concepts phares de Snowflake : les virtual warehouses ;
  • Puis nous nous pencherons sur la tarification ;
  • Enfin, nous regarderons la performance de Snowflake par rapport aux autres principaux acteurs du marché.

#1 Présentation et architecture

Snowflake est une solution Software-as-a-Service qui propose un Data Warehouse reposant entièrement sur une infrastructure cloud. Pour rappel, une solution SaaS ne nécessite en outre aucune installation physique ou virtuelle de matériel ni de logiciel. Tout est installé, configuré et mis à jour dans le cloud, et aucun frais de maintenance n’est à prévoir : cette partie est entièrement gérée par Snowflake. Aussi, une interface très simple à prendre en main est proposée clé en main par l’éditeur, comme illustré ci-dessous.

La principale force de Snowflake repose sur son architecture hybride qui combine deux éléments :

  • La simplicité d’utilisation des bases de données traditionnelles à disques partagés (shared-disks), où toute la donnée est centralisée sur un disque et partagée entre tous les noeuds. Néanmoins cette architecture est difficilement scalable car le serveur aura tendance a vite être saturé dès que les données seront requêtées simultanément par plusieurs noeuds ;
  • La performance des architectures dites « shared-nothing » qui s’appuient sur des traitements massivement parallèles. Les calculs sont partagés sur plusieurs noeuds qui appliquent les requêtes sur différents sous-ensembles de données.

En outre, la donnée, entièrement stockée de manière optimisée dans le cloud, n’est disponible que par des requêtes SQL spécifiques à Snowflake, comme résumé dans le schéma ci-dessous. L’analyse et le traitement de ces requêtes se font via des objets appelés Virtual Warehouses (ou Entrepôts Virtuels en français) qui représentent la partie calculatoire de Snowflake.

Ces virtual warehouses sont des « clusters de calculs » propres à Snowflake, constitués eux-mêmes de plusieurs noeuds et sont redimensionnables à volonté. Ainsi, il est possible de (re)configurer très simplement et à la volée ces unités de calcul directement via l’interface web de snowflake :

Plusieurs paramètres sont donc disponibles :

  • La taille du virtual warehouse, c’est-à-dire le nombre de serveurs qui composent chaque cluster dans un entrepôt qui va établir le coût d’utilisation en crédit, la facturation sera mise en avant ci-dessous ;
  • Le nombre minimum/maximum de clusters qui sont des paramètres de scale-in : au fur et à mesure que l’on reçoit des requêtes, Snowflake va allouer dynamiquement des ressources (clusters) pour les traiter le plus efficacement et le plus économiquement possible ;
  • Le choix de la politique de mise à l’échelle : l’un va favoriser la performance, l’autre va minimiser les coûts d’utilisations ;
  • La politique de mise à l’arrêt automatique : la durée après laquelle le warehouse s’arrête si elle n’a pas reçu de requête à traiter entre temps, et donc aucun crédit n’est consommé.

Il est à noter qu’il est possible de modifier les paramètres d’un virtual warehouse alors même qu’il est en train d’effectuer des calculs. Il est aussi possible de les configurer, comme d’ailleurs tout objet sur Snowflake, via des requêtes SQL, sans même avoir à passer par l’interface.

#2 Facturation

Dans les technologies cloud, il est parfois difficile de s’y retrouver dans les systèmes de facturation tant ils varient d’un éditeur à un autre, d’un service à un autre, et il est rapide de se retrouver avec de mauvaises surprises dans ses coûts finaux. Les frais de Snowflake se décomposent seulement en coûts de stockage et en coûts de calculs.

Le coût de stockage est fixe et déterminé par le package de Snowflake choisi (à partir de 23$ par TB par mois). Le coût de calcul correspond à la durée d’utilisation (à la minute près) et à la taille des Virtual Warehouses utilisés, ces deux notions sont résumées sous la forme de “crédits”. Ainsi, l’utilisateur n’est facturé que pour ce qu’il consomme.

Snowflake propose ainsi différentes tailles de warehouses, qui se découpent en huit paliers et décrivent le nombre de serveurs qui composent un cluster (sachant que l’on peut paramétrer le nombre minimal et maximal de clusters qui composent un virtual warehouse).

Ainsi, si avec mon virtual warehouse XL j’effectue un traitement mobilisant 1 cluster pendant 1 heure, puis 2 clusters l’heure qui suit, j’aurais alors dépensé 1×16+2×16=48 crédits sur ces 2 heures.

Remarque : Augmenter la taille d’un cluster permet d’effectuer plus de requêtes en parallèle, cette solution de scale-out est donc plutôt à privilégier dans des cas où l’on ingère beaucoup de fichiers en parallèle ou pour effectuer des requêtes complexes sur une multitude de tables. A l’inverse, augmenter la taille d’un Virtual Warehouse pour effectuer des requêtes SQL de base aura peu d’influence sur sa rapidité d’exécution.

Remarque 2 : Snowflake a un système de cache ; les résultats des requêtes sont gardés en mémoire pendant 24h. Il est donc possible de réexécuter des requêtes onéreuses à moindres coûts.

#3 Performances et positionnement sur le marché

Pour comparer Snowflake à ses concurrents, je vais dans cette section m’appuyer sur les résultats de l’étude de Fivetran publiée en septembre 2020. Ce benchmark s‘inspire de l’analyse comparative standard TPC-DS, qui consiste à utiliser des requêtes SQL complexes (beaucoup de jointures, d’aggregations, de sous-requêtes etc…) sur des bases de données de retail plus ou moins larges. Ici, ces requêtes sont appliquées à un schéma de 24 tables, pour un total d’1TB — ce qui peut paraître peu en termes de volume mais l’idée est avant tout de tester la performance du traitement de bases de données à la structure complexe.

Ces requêtes sont testées sur des warehouses équivalents chez quatre grands acteurs de datawarehousing : Snowflake, Presto, Redshift d’AWS, et BigQuery de GCP. En particulier, le temps d’exécution et le coût associé pour chacun d’eux sont comparés.

Nous constatons trois choses :

  • Quel que soit la datawarehouse utilisée, les temps d’execution sont excellents et peuvent notamment convenir à du requêtage interactif ;
  • Les prix des requêtes sont à peu près équivalents d’un datawarehouse à une autre ;
  • Snowflake a un avantage minime sur ses concurrents au niveau du temps d’execution et du prix.

La principale différence réside dans la façon dont les calculs sont effectués ; Snowflake et Redshift sont similaires puisqu’ils proposent dans les 2 cas de configurer en détails des clusters de calculs. Redshift permet de paramétrer la mémoire, le stockage et la puissance de chaque cluster, tandis que, de par son architecture qui sépare stockage et calculs, Snowflake gère la mémoire et la puissance comme indiqué dans les parties précédentes.

BigQuery quant à lui ne laisse pas le choix dans la configuration d’un cluster de calcul : l’utilisateur envoie les requêtes une par une directement sur le serveur. Il a néanmoins le choix dans la tarification : soit “à la demande” qui s’adaptera mieux aux requêtes gourmandes mais ponctuelles. Soit en taux-fixe pour une utilisation continue du service de GCP.

Conclusion

Nous avons passé en revue les principaux atouts de Snowflake : cette solution se détache de la concurrence par la simplicité qu’offre le SaaS et sa flexibilité. En effet, nous avons vu qu’il était très facile de configurer des clusters de calculs de manière instantanée.

Snowflake offre en outre une plus grande lisibilité sur sa tarification, qui ne dépend que de la puissance de calcul déployée plus le stockage utilisé. L’utilisateur pourra donc très simplement adapter ses paramètres pour répondre au mieux, et à moindres coûts, à son besoin.

Enfin, Snowflake présente d’autres concepts clés, comme le time travel, le clustering de données, snowpipe etc… qui feront l’objet de futurs articles, auxquels il faudra bientôt ajouter les grandes évolutions prévues lors de son dernier Data Cloud Summit 2020.

Rédigé par Simon Coulet, Consultant Data Driven Business.

(1) Source
(2) Source

La semaine dernière, certain.e.s de nos saegusien.ne.s ont participé à un atelier pour mieux comprendre les enjeux environnementaux actuels du numérique – en équipe et de manière ludique. On vous explique  !

Cet atelier a été imaginé depuis le format original : La Fresque du Climat. La Fresque du Numérique consiste à comprendre en équipe et de manière ludique les enjeux environnementaux du numérique. Le format en distanciel se déroule sur 3h30 via Zoom et sur l’outil collaboratif Mural. 

Fresque du Numérique

Un atelier en deux temps 

La première partie consiste à reconstituer en équipe toutes les étapes de la chaîne digitale depuis nos usages (se divertir, calculer, etc.) jusqu’aux impacts : des échecs du recyclage aux répercussions sur la faune et la flore en passant par les impacts sociaux. 

La seconde permet aux participants d’analyser les différentes solutions pour améliorer nos usages digitaux tout en réduisant nos impacts environnementaux en les classant entre force de l’impact et facilité d’implémentation. 

Une démarche de sensibilisation nécessaire 

Le Green IT, aussi appelé le numérique responsable, est l’ensemble des technologies de l’information et de la communication dont l’empreinte économique, écologique, sociale et sociétale a été volontairement réduite, notamment dans le but d’atteindre les objectifs du développement durable. 

Cet atelier s’inscrit dans notre démarche de mieux comprendre les enjeux Green IT autant d’un point de vue personnel que professionnel. Sa promesse de sensibilisation et de compréhension des usages numériques est totalement remplie ! Le formateur, pédagogue et patient, a su diriger nos réflexions avec discrétion mais justesse. Les exercices vont appel à notre capacité à raisonner de manière logique et remettent en question nos idées reçues sur la place du numérique dans le combat environnemental. 

Nous sommes ressortis de l’atelier ravis. À notre tour de sensibiliser notre entourage personnel et professionnel aux enjeux du numérique responsable ! 

Cet article vous intéresse ? Découvrez l’ensemble de nos actualités en cliquant ici !

Envie d’en savoir plus sur la Fresque du Numérique et de nous rejoindre ? Cliquez-ici. Le prix est libre ! (minimum de 10 euros)

Annoncée il y a quelques jours, la plateforme Microsoft Viva fait déjà beaucoup réagir sur les réseaux. D’une révolution dans le monde de l’expérience employé à une imbrication de fonctions existantes, les équipes Saegus partagent leur point de vue sur la preview du produit et vous explique pourquoi c’est un sujet à suivre… de près !  

Un lancement tant attendu

Voilà le genre d’annonce qui nous fait adorer notre métier : l’expérience salarié, et le digital workplace ne cessent d’évoluer et les acteurs du marché ne manquent ni d’idées, ni d’innovations pour s’adapter aux évolutions de notre société. 

Chez Saegus, cela fait quelques années maintenant que nous prédisons l’arrivée du Working Hub – espace de travail qui centralise tout l’environnement dont le collaborateur a besoin pour ses tâches professionnelles quotidiennes – mais nous n’imaginions pas une telle annonce de Microsoft si rapidement. 

Et le timing est en effet parfait. 

Qui pourrait encore douter, après cette pandémie, que les collaborateurs sont l’actif premier de l’entreprise et que la qualité des interactions entre eux, mais aussi avec leur écosystème de clients et partenaires, est le premier facteur de réussite – ou de survie – de l’entreprise ? Qui pourra arguer contre le fait que les nouveaux modes de travail imposés, et subis pour s’adapter aux contraintes sanitaires, n’appelleront pas à une modification profonde et durables des usages collaboratifs en entreprise ? 

Microsoft présente ainsi Viva comme la première plateforme d’expérience salarié (EXP Employee eXperience Platform) disponible sur le marché. 

 Alors, vraie révolution ou nouveau packaging d’offres existantes ? Nous vous partageons nos premiers sentiments sur les previews auxquelles nous avons pu assister. 

Un rapide tour du propriétaire

Viva s’articule autour de 4 piliers :  

  • Viva Insights  dont la promesse est d’améliorer le bien-être en entreprise sur la base d’analytics permettant de suivre l’activité de l’équipe en proposant pro activement des aménagements et améliorations dans l’organisation du travail  
  • Viva Topics  qui propose d’accéder à l’information pertinente, en fonction de son profil, de ses centres d’intérêts et publications, pour améliorer la pertinence et réduire le temps de recherche d’information  
  • Viva Learning  qui regroupe des modules de formations proposés par Microsoft, LinkedIn, mais permet également d’intégrer des formations produites par l’entreprise, tout en gérant les parcours de formation et leur suivi  
  • Viva Connections  qui regroupera les contenus publiés par l’entreprise ou les collaborateurs, à destination des populations au bureau ou sur le terrain 

Un air de déjà-vu ?

Alors évidemment Microsoft Viva ne part pas de la page blanche et ces piliers rappellent des usages déjà existants au travers de services au sein de l’offre existante Microsoft365 tels que :  

  • Microsoft Delve pour Viva Topics 
  • Microsoft Workplace Analytics pour Viva Insights 
  • Microsoft Sharepoint et Yammer pour Viva Connections 
  • Microsoft Learning pour … Viva learning 

Ce dernier semble néanmoins pousser la promesse plus loin que le service existant, puisqu’il permettrait non seulement d’agréger plusieurs sources de contenu, mais également d’intégrer des LMS (Learning Management System) tiers. 

Enfin l’ensemble de ces services est proposé dans une coquille ressemblant très fortement au Teams que nous connaissons aujourd’hui (avec le système de navigation à gauche et les onglets en haut). 

De nombreuses nouveautés

Viva incarne certainement la première solution dont le potentiel est d’aller jusqu’au bout de la vision que nous avions chez Saegus du Working Hub :  

  • ne plus avoir besoin de passer d’un environnement à l’autre pour réaliser ses tâches 
  • pouvoir poursuivre son travail en passant d’un device à un autre, ou d’un endroit à l’autre 
  • disposer d’un socle commun de contenus, mais sachant se contextualiser selon notre actualité immédiate pour optimiser notre temps 
  • intégrer de façon holistique des systèmes tiers, facilement 

Et finalement l’enjeu est bien là : 

  • Avoir une plateforme de travail qui ne nous fasse pas travailler plus, mais mieux 
  • Avoir une aide du digital pour améliorer notre confort et l’équilibre pro/ perso, et non pas pour rester ultra connectés au monde professionnel tout le temps 
  • Avoir une plateforme qui ne soit pas pensée que pour et par des collaborateurs au bureau, mais également pour tous ceux qui ont été oubliés du Digital Workplace de première génération : les collaborateurs sur le terrain 

What’s next ?

Comme le cloud a été un prérequis pour activer le digital workplace, le working hub en est un pour évoluer vers le smart workplace. Pour préciser, la notion de smart workplace poussée par Saegus n’est pas encore aboutie à ce jour, mais préfigure d’un modèle où l’environnement de travail du salarié sera amélioré, soutenu par une intelligence artificielle, capable de prendre à sa charge dans un premier temps les charges routinières du salarié (pose de congés, organisation de rdv…), pour pouvoir, dans un second temps, proposer pro activement de prendre en charge des actions plus complexes (arbitrages sur un dossier en cours, proposition de réunion avec les personnes concernées…) sous la direction/ validation du salarié. 

Pour ce faire, et comme pour tout sujet lié à l’IA, c’est d’abord le volume de données et leur qualité qui définira la performance de cette intelligence. Le Working Hub visant justement à centraliser tous les services nécessaires au salarié, il est naturellement imaginable que l’exploitation des données sera rendue plus simple, et que donc, les services proposés par l’IA s’enrichissent pour se prévaloir d’une appellation Smart Workplace.  

Dans le monde professionnel, peu d’acteurs peuvent se targuer de disposer d’autant de données que Microsoft qui traite les données des salariés : mails, agendas, publications, réseaux d’interlocuteurs pour ne citer que ceux-là. Viva Insights est une première étape vers le smart workplace, et même si cela reste à ce jour un service d’analytics, nous pouvons être amenés à penser que Microsoft est en bonne position pour être l’un des tout premiers acteurs à pouvoir proposer demain un Smart Workplace, fort des données traitées au travers de l’ensemble des services de Viva. Reste, comme pour toute évolution majeure, la gestion de l’adoption de ces nouveaux usages qui apparaissent souvent bien plus rapidement que la capacité d’adaptation de la structure qui les accueille. Il ne faudrait pas que cette solution qui promet d’améliorer la qualité de notre vie professionnelle deviennent une source d’angoisse supplémentaire… 

Cet article vous a intéressé ? Retrouvez l’ensemble de nos articles d’actualités en cliquant ici.

Avec le lancement d’Azure Purview, Microsoft devient le premier cloud provider majeur à faire son entrée dans un domaine aujourd’hui incontournable pour les entreprises : la gouvernance des données.

L’exploitation des données et des analytics est devenue de plus en plus critique et stratégique, que ce soit pour optimiser les ressources, revoir les processus et les produits ou réviser les business models, afin d’en tirer un avantage concurrentiel ou comme prendre les bonnes décisions pour traverser les crises.

La gouvernance, maillon essentiel dans la stratégie des entreprises pour accomplir leur objectif de transformation « data-driven », nécessite la mise en place d’une organisation dédiée, la définition et la distribution de rôles à l’ensemble des acteurs qui manipulent, créent ou utilisent de l’information. Elle a pour objet d’établir la connaissance du patrimoine de données et d’assurer la fiabilité des informations mises à disposition.

« La réalisation de cet objectif est un défi constant dans l’histoire des données et de l’analyse, car son écosystème continue à être complexe et hétérogène » comme l’a souligné Julia White lors du lancement de Purview en décembre dernier.

Ce concept n’est en effet pas nouveau et a toujours été un immense challenge, porté par la mise en œuvre de grands projets décisionnels puis par l’émergence des plateformes Big Data.

Microsoft avait déjà fait ses premiers pas dans ce domaine, avec la mise en œuvre des systèmes BI avec sa solution MDS sur SQL server 2008 R2, puis avec l’émergence des solutions cloud et l’ouverture du service Azure Data Catalog en 2016.

Microsoft effectue aujourd’hui une avancée majeure dans le domaine de la gouvernance (Azure Data Catalog se limitant à la découverte et la compréhension des données), en proposant avec Azure Purview une plateforme unifiée de gouvernance des données qui automatise les fonctions de discovery, de catalogue, de cartographie, et de suivi du cycle de vie des données.

La promesse d’Azure Purview est de centraliser la gestion de grands volumes de données et surtout de les répertorier de manière automatisée.

En effet, la solution dispose de fonctionnalités pour classer et cataloguer les données, qu’elles proviennent d’applications internes, hébergées en mode SaaS (via l’API d’Apache Atlas), stockées dans le cloud ou On-Premise ou encore provenant d’applications de reporting comme Power BI.

Grâce à des fonctionnalités d’IA, Purview permet également de reconnaitre automatiquement les données qu’elles soient structurées ou non ce qui permet d’identifier leurs liens et de les classifier ce qui facilite ainsi leur utilisation.

Le service fournit en complément un moteur sémantique pour la recherche des données par mot-clé, par type (numérique, texte, date…) ou par format (csv, json, document…), issu de glossaires gérés directement par les entreprises ou bien grâce à des templates qui sont proposés par la solution.

Enfin Purview permet aussi de reconnaitre différentes typologies de données (comme des données personnelles ou sensibles) afin d’assurer le respect des règles de sécurité et compliance et fournit également des fonctionnalités de gestion des rôles et des accès grâce à l’intégration dans Azure AD.

Microsoft fait ainsi une entrée remarquée dans un domaine concurrentiel ou se côtoient des poids lourds tels qu’Informatica, Talend, Collibra ou bien des startups récentes comme Zeenea ou Data Galaxy.

La valeur ajoutée du nouveau service Microsoft réside dans son probable impact auprès des entreprises dont Azure est le principal service cloud. Son adoption pourrait donc rapidement lui permettre de gagner des parts de marché, et d’asseoir définitivement Microsoft comme le leader des systèmes de gestion de l’information.

Rohan Kumar, Vice-Président en charge des activités Azure Data précise que « l’investissement dans Purview va durer plusieurs semestres et la prochaine étape sera davantage axée sur les politiques de gouvernance », démontrant la volonté de Microsoft de se placer comme un acteur incontournable du domaine de la gouvernance des données.

Avec le lancement de Purview, le géant du cloud a également annoncé la disponibilité générale de Synapse Analytics, qui lui permet de se doter d’une plateforme unique et complète, rassemblant l’intégration, le stockage, l’analyse et donc la gouvernance des données d’entreprise.

Si vous voulez en savoir plus, n’hésitez pas à nous contacter.

Rédigé par Julien Ayral, Manager Data Driven Business.