dataiku Archives

Ici archive

« La donnée est l’or noir du 21ème siècle » formule beaucoup entendue depuis l’avènement des technologies Big Data au début des années 2010. De grandes promesses, qui, si l’on s’en réfère à l’analogie pétrolière nécessite :

de la matière première ;
l’acheminement de cette matière (l’extraction) vers des unités de traitement (raffinage) pour la rendre utilisable ;
une capacité à la distribuer pour la rendre accessible au plus grand nombre.

Le « véhicule » (produit de consommation) étant quant à lui caractérisé par les outils de visualisation, les applications métiers, ou des services. Ses interfaces doivent être savamment pensées pour garantir au « conducteur » une utilisation fiable, agréable et sécurisée.

Depuis longtemps les entreprises ont appris à traiter l’information interne générée par leur propre fonctionnement : activités de production (supply, fabrication), corporate (finance, RH, marketing,…), sales (CRM, ecommerce, ….) ou autres pour servir des usages également internes (Business Intelligence dans les années 90 et 2000, et maintenant Big et Smart Data). De fait, le marché de la « Data » était caractérisé comme un marché de solutions. Cette orientation est particulièrement bien représentée par les fameux quadrants proposés par Gartner, qui répertorient et classifient les éditeurs de logiciels (voir ci-dessous).

Et si nous imaginions une classification des distributeurs de données, qu’en serait-il ?

La distribution d’information n’est pas à proprement parler une nouveauté non plus. Depuis plusieurs années ce mouvement est porté par l’Open Data, dont les services publics ont été précurseurs avec la plateforme Open Data gouv. Des sociétés ont également fondé tout ou partie de leur modèle économique sur la revente de données, à l’image de sociétés telles que Duns and Bradstreet, Bloomberg, ou encore des spécialistes des données météo, dont Météo France.

Mais cela reste du point à point ; la donnée vendue par un distributeur à un consommateur en relation commerciale directe.

La prise de conscience collective que la donnée (y compris personnelle) est un marché à part entière favorise l’émergence d’un nouveau type d’acteurs – les « data plateformistes ». Cette prise de conscience est bien entendue fortement portée par l’action des GAFAM et BATX qui ont construit leur puissance sur la revente de données d’utilisation de leurs services. Cela a d’ailleurs conduit à la mise en place de règlementations (la RGPD en Europe par exemple) visant à protéger les personnes d’une utilisation abusive de leurs données personnelles.

Mais nous assistons à la montée en puissance d’un autre phénomène. La structuration des activités de « raffinage » et de revente des données sur des Data Market Place, véritables Hub de données B to B, B to C ou pourquoi pas C to B. Les fonds d’investissement ne s’y trompent pas et soutiennent ce mouvement. Nous pouvons citer à ce titre des plateformes telles que Refinitiv ou plus récemment des jeunes pousses françaises comme Dawex.

Des initiatives ont même émergé sur des marchés spécifiques, à l’image du service de notation de la santé des sols proposé par Greenback, fondé par le créateur de DeVialet, ou même l’investissement de l’État Français (financement de 3,2 M€ via la BPI) dans la plateforme AgDataHub qui partage les données numériques de 280 000 exploitations agricoles.

Fait particulièrement intéressant, ce mouvement a bien été compris est anticipé par des acteurs innovants du marché de la donnée, tel que l’éditeur Snowflake. Acteur majeur du big Data, et plus précisément des outils dits de « modern Datawarehouse », solution de stockage et de traitement de données nativement conçus pour le Cloud, Snowflake partage une vision très intéressante. Fort d’une adoption massive de sa technologie dans le monde entier, Snowflake propose à ses clients des services de « Data Sharing ». Il s’agit de la possibilité de publier nativement des données (et d’en acquérir) soit en point à point, soit en publiant ses données sur la bibliothèque d’échanges de données (Snowflake Data Market Place) de la plate-forme, à l’image de « First American Data & Analytics » qui vient d’y publier son catalogue.

Ce principe de Marketplace commence également à percer sur l’IA, et plus précisément via l’émergence de plateforme Low Code permettant d’accéder à des services de Machine Learning pré-packagés (tels que Azure Cognitive Services, Prevision.io, en encore Dataiku qui enrichit sa bibliothèque) – nous creuserons cet aspect dans un article à venir.

Les solutions se structurent, mais les entreprises seront-elles capables de s’approprier et de créer de nouveaux services en mettant à disposition leurs données ?

Quels nouveaux usages observons-nous ?

Pour rester sur des analogies avec le marché de l’énergie, quittons l’or noir pour nous pencher sur l’énergie solaire. Nous observons une transformation profonde des usages, dans lesquels les consommateurs d’hier deviennent des « micro » producteurs, partiellement autonomes, voire totalement autonomes, parfois même excédentaires – auquel cas le surplus d’énergie est revendu pour être redistribué.

Cette démocratisation des fonctions de partage ou de distribution des données via des marketplaces est similaire. Les entreprises productrices de données peuvent revendre leur « surplus » d’information, ou même créer des services spécifiques de données « prêtes à l’emploi » (comme GreenFlex dont la valorisation des données est le produit principal). La donnée n’est plus uniquement la source, elle devient le produit.

Comment se structurera le marché ?

Il est encore difficile d’imaginer une marketplace qui dominerait le marché mondial de l’échange de données, même si cette option n’est pas à exclure à long terme (vers un « Amazon du Data set ? »). Il nous semble plus probable que nous voyions émerger dans un premier temps multitude de « commercialisateurs » à l’image du e-commerce. Il est facilement imaginable que chaque entreprise crée une offre « donnée » accessible sur son site institutionnel ou e-commerce.

Le défi à relever sera alors l’exposition et le référencement de ces catalogues de données ainsi que les modèles économiques qui en découleront (à l’unité, au To, à la requête, à l’abonnement).

Les marketplaces révèleront alors tout leur potentiel puisqu’elles pourront garantir une meilleure exposition, la gestion financière des transactions, une couverture juridique, et pourquoi pas proposer des services additionnels (bouquets de données complémentaires ou recommandations / priorisation de jeux de données en fonction de leur intérêt fonctionnel, note de qualité, prix, feedbacks utilisateurs, etc).

Il serait même opportun d’associer deux types de services : l’accès aux Data Sets, plus un service d’IA (low code) qui permettrait de le valoriser ou de contextualiser l’information, et d’en faire bénéficier de plus petits acteurs (PME, ETI,…) qui n’ont pas la capacité d’investissement suffisante pour s’équiper en interne.

Un mouvement lancé…

Les solutions existent, le besoin de consommation également ; donc même si les entreprises sont encore réticentes à l’idée « d’ouvrir » leurs assets, gageons que la loi du marché s’appliquera à nouveau. Si la demande existe ; l’offre se structurera rapidement. C’est en tout cas notre conviction, et la raison pour laquelle nos experts Saegus accompagnent d’ores et déjà de grandes entreprises et organisations à prendre ce virage et à réfléchir à de nouveaux modèles.

Rédigé par Frédéric Brajon, Associé et Co-fondateur de Saegus

Le EGG Paris, un événement Dataiku consacré à l’IA d’entreprise, revient le 7 novembre prochain. Au programme de cette journée, des témoignages et retours d’expériences concrets de clients Dataiku, des ateliers de travail et des discussions autour de la Data Science et de l’Enterprise AI.

Notre équipe Data Driven Business, représentée par Frédéric Brajon Cofondateur et Responsable des activités Data Driven chez Saegus et Urszula Czerwinska, PhD Experte IA, interviendront sur le sujet du “Named Entity Recognition : la personnalisation de suggestions d’articles tech”.

Inspirée d’une solution développée pour un client dans l’industrie Pharma, cette année nous allons présenter une application de la technologie NLP (Natural Language Processing). Plus précisément, nous avons entrainé un modèle deep learning à reconnaitre les mots clés d’un article de blog (technologie, business, cloud).

A titre d’exemple, un article tagué : “Data Science, IA, Machine Learning, Python” peut concerner des technologies très différentes. Notre algorithme est capable de détecter une technologie précise, par exemple “GAN” ou “reinforcement learning”, les noms des librairies python ou autre. Il garde également la capacité d’un modèle de base à reconnaitre les lieux, les noms d’organisations et les noms de personnes.

Ce type d’approche nommé NER (Named Entity Recognition) est dotée d’une haute précision (>0.95 situé sur une échelle de 0 à 1). Optimisé, il permet le traitement de milliers de documents par seconde. Il est aussi très flexible et apprend des nouvelles catégories de mots assez rapidement. D’où son intérêt pour différentes industries permettant de détecter les noms de produits, les noms de substances ou bien plusieurs catégories en même temps.

Cette solution appliquée aux articles de blog peut servir à générer automatiquement des tags et/ ou des mots-clés afin que les contenus proposés par les plateformes soient personnalisés et répondent aux attentes des lecteurs, tenant ainsi compte de leurs centres d’intérêts. Au sens large, la détection des entités permet une analyse automatisée et intelligente d’un texte, utile surtout pour les documents longs et complexes comme les documents scientifiques ou juridiques.

En ce qui concerne la partie technique, lors de la conférence, nous allons présenter notre approche et son fonctionnement sur la plate-forme DSS de Dataiku. DSS permet de gérer tout le cycle de vie d’un projet data, d’une partie gestion de données vers une interface utilisateur. Grâce à Dataiku nos experts data ont pu collaborer en temps réel avec les développeurs et les managers d’une manière simple et efficace.

Nous allons partager avec les participants le « flow Dataiku », les « recettes python » et les fonctionnalités natives DSS que nous avons employées. Notre intervention sera illustrée par une “live demo” d’une application web à l’aide de cette plate-forme qui permet, à partir d’une requête dans le langage naturel, d’obtenir une sélection d’articles Medium personnalisée.

Saegus vous présente Dataiku !

Dataiku, qu’est-ce que c’est ?

C’est une entreprise française qui développe une plateforme logicielle permettant aux équipes data d’accélérer le prototypage et le déploiement d’applications prédictives. Dataiku DSS est une solution qui agrège l’ensemble des étapes du processus : de l’acquisition de données au déploiement de modèles de machine learning en production, et qui permet à des utilisateurs de tous niveaux – métier, analystes, data scientists – de collaborer efficacement.

Depuis sa création en 2013, Dataiku a connu une très forte croissance et compte aujourd’hui 120 employés et plus de 100 clients répartis sur 3 continents. En 2017, Dataiku a triplé ses revenus et doublé ses effectifs, et début 2018, Dataiku a été nommé Visionnaire dans le Magic Quadrant de Gartner pour les plateformes Data Science, pour la 2ème année consécutive.

En quoi ce type de solution s’inscrit-elle dans notre stratégie ?

Le fondement de la proposition de valeur de Dataiku DSS est d’accélérer la conception et l’operationalisation de “data products”, à travers 2 éléments clés:

Simplifier la manipulation d’algorithmes et d’environnements techniques complexes pour permettre d’accélérer le déploiement de nouvelles solutions
Briser les silos de données et faciliter la collaboration entre les parties prenantes de la chaîne de valeur de la data

Partageant un ADN fortement lean startup, Dataiku et Saegus ont une vision commune des bonnes pratiques pour transformer les organisations et créer de la valeur par les data: experiment, fail fast, focus on value. En proposant DSS à ses clients, Saegus accélère l’impact de projets data et améliore l’adhésion des différentes parties prenantes aux innovations proposées.

A quel client propose-t-on ce genre de solution ?

Dataiku s’adresse aussi bien à des grands comptes qui souhaitent accélérer leur transformation Data-Driven sur des cas d’usages multiples (notamment en mettant en place des structures type Data Lab) qu’à des organisations plus petites dont la data est au coeur de l’activité : e-commerce, gaming, Fintech…

Parmi les clients existants, on retrouve donc des sociétés comme GE, Pfizer, La Poste ou Santander, mais aussi OVH, Ventes Privées, Ubisoft…avec des cas d’usages allant de la recommandation de produits à la maintenance prédictive sur des chaînes de production.

Dataiku est particulièrement présent dans le domaine Banques/ Assurances (LCL, Axa, Santander, BNPP) avec un focus fort sur les cas d’usages autour de la connaissance client et de la gestion des risques : analyse d’attrition, segmentation comportementale, ventes croisées, détection de fraudes…

Questions à Vincent de Stoecklin – Directeur des partenariats chez Dataiku

Comment est né Dataiku ?

Dataiku a été crée par 4 co-fondateurs vétérans de la Data (2xExalead, Apple, CGI) qui sont partis du constat suivant:

– la multiplicité des technis big data est dure à appréhender et à mettre en oeuvre pour la plupart des organisations

– les data scientists sont en forte demande, et parfois mal exploités à des tâches de préparation de données vs modélisations

– les modèles dépassent rarement le stade du prototypage, très peu sont effectivement déployés en production

La plateforme Dataiku DSS vient adresser en priorité ces points.

Pourquoi avoir noué un partenariat avec Saegus ?

Dès le départ, le positionnement de Saegus nous a séduit par sa volonté d’emmener rapidement les organisations vers une meilleure compréhension et priorisation des enjeux liés à la data, ainsi que de déclencher des expérimentations concrètes.

De plus, leur expertise des technologies Big Data, les techniques Data Science, et leur connaissance métier nous apporte un vrai complément dans la capacité à délivrer des solutions bout en bout chez des clients.

Sur quel sujet êtes-vous intervenus ensemble ?

Saegus fait partie des partenaires historiques de Dataiku en France, et nous avons notamment pu implémenter les projets suivants:

– Lyreco : analyse d’attrition sur les clients B2B

– Ministère Intérieur : détection de fraude aux titres nationaux

– Coyote : analyse attrition et segmentation client

– L’Oréal : dashboard marketing omnicanal

– et bien d’autres

Pour en savoir plus sur notre offre data Driven Business, n’hésitez pas à demander un rdv à gaelle.pommereau@saegus.com.

Et pour découvrir notre partenaire Dataiku, c’est par ici !

Saegus sera heureux de vous accueillir à Big Data Paris 2019 aux côtés de notre partenaire Dataiku.
Retrouvez-nous au stand #A21 !

Nous vous invitons à venir nous rencontrer sur le stand où nous présenterons des cas pratiques et des retours clients. La scène sera animée pendant les 2 jours !

Vous pouvez également en profiter pour rencontrer nos experts qui seront ravis de répondre à toutes vos questions et de vous offrir quelques goodies 🙂

Pour en savoir plus sur la data chez Saegus, c’est par ici.

Suivez-nous

Inscrivez-vous à notre newsletter

Rencontrons-nous

Une tendance de marché qui se confirme : les “Data Market Place”

Étiquette : dataiku

Et si nous imaginions une classification des distributeurs de données, qu’en serait-il ?

Quels nouveaux usages observons-nous ?

Comment se structurera le marché ?

Un mouvement lancé…

Saegus sera heureux de vous accueillir à Big Data Paris 2019 aux côtés de notre partenaire Dataiku.
Retrouvez-nous au stand #A21 !

Suivez-nous

Inscrivez-vous à notre newsletter

Rencontrons-nous

Et si nous imaginions une classification des distributeurs de données, qu’en serait-il ?

Quels nouveaux usages observons-nous ?

Comment se structurera le marché ?

Un mouvement lancé…

Saegus sera heureux de vous accueillir à Big Data Paris 2019 aux côtés de notre partenaire Dataiku. Retrouvez-nous au stand #A21 !

Saegus sera heureux de vous accueillir à Big Data Paris 2019 aux côtés de notre partenaire Dataiku.
Retrouvez-nous au stand #A21 !