En décembre 2021 avait lieu NeurIPS, l’une des conférences majeures dans le domaine de l’intelligence artificielle et du Machine Learning. Cette édition a mis en lumière une nouvelle tendance : le focus sur les données utilisées pour l’apprentissage, plutôt que sur les modèles d’intelligence artificielle permettant de valoriser ces données, est de plus en plus important – c’est la Data-centric AI. Découvrons ensemble ses tenants et aboutissants.

Une tendance qui émerge

La progression des performances des modèles d’intelligence artificielle au cours des dernières années est fascinante. Les nouveaux modèles comme BERT, DALL-E ou GPT-3 montrent des progrès significatifs, notamment grâce à leur capacité à être entrainés sur des vastes volumes de données. Néanmoins, cet entrainement massif a un coût que peu d’entreprises peuvent soutenir. La plupart des cas d’usages réalisés en entreprise ont recours aux méthodes de Transfer Learning. Ces méthodes se basent sur des modèles pré-entrainés pour réduire le temps d’apprentissage, et donc son coût. Ce Transfer Learning permet de profiter d’un haut niveau de performance, rendu possible par l’apprentissage massif, tout en étant peu coûteux à entraîner et utiliser sur des données réelles.

L’expérience prouve néanmoins qu’il est souvent plus simple d’augmenter la performance des modèles les plus répandus en améliorant la qualité des données utilisées lors de l’apprentissage – plutôt que par l’optimisation du modèle lui-même. Andrew NG en donne un très bon exemple dans sa dernière interview pour IEEE Spectrum : “dans de nombreux secteurs où les grands ensembles de données n’existent tout simplement pas, je pense que l’accent doit être déplacé du Big Data vers le Good Data. Avoir 50 exemples bien pensés peut suffire à expliquer au réseau de neurones ce que vous voulez qu’il apprenne.

Cela implique de construire des jeux de données spécifiques pour qu’ils soient consommés par des modèles de Machine Learning. Si dans le monde scientifique les jeux de données sont souvent bien explorés et leurs limitations et spécificités bien connues, c’est une activité qui reste à développer pour la plupart des acteurs de l’industrie.

Comment améliorer la qualité des données présentes dans l’industrie ?

La première étape consiste à s’assurer que le phénomène ciblé est bien présent dans les données. Par exemple, si l’objectif est de détecter les anomalies, il faut vérifier qu’il y a suffisamment d’observations présentes dans l’échantillon. Si l’on travaille sur un problème de classification par exemple, il est intéressant de calculer la classe sous-échantillonnée. Une fois que l’on sait qu’il est théoriquement possible d’avoir un modèle opérationnel, on peut passer à l’étape d’évaluation de la qualité du Dataset.

Avant de vouloir améliorer la qualité des données, il est nécessaire de la mesurer. Plusieurs critères communs sont traduisibles en métriques numériques : on peut par exemple compter le pourcentage de lignes dupliquées ou le pourcentage de lignes aux valeurs nulles. Il faut également penser aux paramètres business : par exemple, sur une base de données manufacturing, une date de commande doit toujours antérieure à une date de livraison. À partir de ces critères, il est possible de mesurer la précision, intégrité, fiabilité et cohérence des données. La difficulté est qu’assurer la qualité des données est une activité qui doit s’exercer lors de toutes les phases d’un projet : dès la phase de cadrage et ce, jusqu’à la phase de monitoring et d’exécution.

La redondance est un levier clé pour mesurer la qualité des données : elle permet de détecter les problèmes potentiels et d’assurer la cohérence des indicateurs mesurés par différents moyens. Il est ensuite possible d’agir sur la qualité des données et d’avoir un feedback sur la pertinence des actions réalisées. La standardisation et l’automatisation sont deux outils bien connus pour contribuer à la qualité de données.

Cet effort de construire un bon Dataset a plusieurs avantages, notamment sur les coûts indirects. Par ailleurs, les Data Analysts et Data Scientists passent moins de temps à nettoyer le Dataset et à adapter les analyses et modèles à cause de l’imperfection des données, favorisant ainsi un gain de temps. Un Dataset propre augmente la confiance des utilisateurs au sein d’une démarche Data-driven, facilitant à terme son adoption. Si l’on pousse plus loin cette approche, on pourrait imaginer un label “AI-ready” comme le fait Kaggle avec son indice d’utilisabilité.

Il est possible d’introduire de nouveaux rôles contribuant à l’amélioration de la qualité de données, comme ceux de Data Steward ou Data Quality Manager. Ces activités peuvent s’intégrer dans le cadre plus large de la Data Governance ; on parle alors de Master Data Management. Pour en savoir plus, retrouvez notre article sur le sujet : https://saegus.com/deployer-la-gouvernance-de-la-donnee-en-agile/.

En conclusion

La Data-centric AI se propage rapidement dans le monde de la Data Science. La qualité des données devient un impératif car elle reflète l’organisation d’une entreprise autour des sujets data, ainsi que sa capacité à adresser de nouveaux cas d’usage. Il est important d’adopter les best practices et surtout de les intégrer à la structure existante.

Notre cabinet a confirmé sa capacité à accompagner ses clients leaders de l’industrie pour réussir leurs projets Data et ce, à travers des réalisations concrètes. Vous souhaitez être accompagnés à votre tour par nos équipes Data ?

Rédigé par Alexander Mikheev, Manager Data

Articles recents