Dans un monde numérique en plein bouleversement, les entreprises font de plus en plus appel aux nouvelles technologies afin de tirer de la valeur de leurs données. Cependant, selon Gartner, seulement 13% des projets de Machine Learning (ML) seraient industrialisés aujourd’hui.
L’un des principaux problèmes empêchant les modèles d’être exploités est lié à la difficulté de les opérationnaliser. Autrement dit, le grand enjeu que rencontre la Data Science est la mise en production des solutions de ML.
Le cycle de vie d’un projet ML est constitué de nombreuses phases et convoquent de nombreux métiers : aux côtés du Data Scientist et du Data Engineer qui modèlent la solution, le rôle du ML Engineer est essentiel dans la gestion à terme du projet.
Ses objectifs sont les suivants :
- Accélérer l’avancement des projets de ML en gérant le cycle de vie des modèles, de leur phase de développement à la post-production ;
- En amont, co-articuler le projet avec les pipelines de données qualifiées (pertinentes, fiables, de qualité) développées par le Data Engineer. Ces données sont remises au·à la Data Scientist afin qu’il puisse travailler au développement des modèles de ML ;
- Organiser la phase d’entraînement des modèles pour faciliter la phase d’intégration et de déploiement (selon des règles comme A/B testing, Canary Rollout) dans des environnements de production. Cela permet au·à la Data Scientist de versionner les modèles pour assurer leur gestion systématique ;
- Suivre la performance des modèles et des données et, s’il y a lieu, faire remonter les écarts, erreurs et métriques au Data Scientist pour assurer l’absence de semantic/concept drift. Le cas échéant, il est envisageable d’y remédier par un réentraînement des modèles, si possible automatiquement ;
- Suivre la bonne exposition des services ML, par exemple via l’encapsulation des modèles dans une application en collaboration avec une équipe de développement (DevOps et/ou Cloud Architect).
Le ML Engineer maîtrise les librairies de Data Science (Tensorflow, Scikit-Learn) et les outils de développement (Python, R. Jupyter), de DevOps (Airflow, Git, Ansible), de versionning et de ML Management (MLflow, AutoML, Kubeflow). Il est également à l’aise avec la méthodologie Agile afin d’assurer la gestion de projets (Scrum).
C’est un métier facilitateur et pluridisciplinaire qui s’appuie sur des frameworks de gestion de workflows, de versionning, et de ML management. Son rôle est clé, car il crée de la valeur rapidement.
En conclusion
La discipline du MLOps est récente et les pratiques ne sont pas encore harmonisées au sein de la communauté. Toujours en développement, elle garantit des activités très concrètes et innovantes. Si ces perspectives à la fois ouvertes et challengeantes vous intéressent, n’hésitez pas à contacter nos experts Data ou à candidater pour nous rejoindre ici. Au plaisir d’échanger !
Rédigé par Clément Moutard, Manager Data, et Martin Cudicio, Consultant Data