Défis liés aux MLOps Avantages des MLOps

Pourquoi devriez-vous utiliser des MLOps ?

Lorsque vous passez de la gestion de projets individuels d'intelligence artificielle et d'apprentissage automatique (AI/ML) AI/ML à la transformation de votre entreprise à grande échelle, la discipline des opérations ML (MLops) peut vous aider. MLOps prend en compte les aspects uniques des AI/ML projets en matière de gestion de projet et d'assurance qualité CI/CD, en vous aidant à améliorer les délais de livraison, à réduire les défauts et à rendre la science des données plus productive. MLops fait référence à une méthodologie basée sur l'application de DevOps pratiques aux charges de travail d'apprentissage automatique. Pour une discussion sur les DevOps principes, voir le white paper Introduction to DevOps on AWS. Pour en savoir plus sur la mise en œuvre à l'aide de AWS services, consultez AWS Practizing CI/CD on et Infrastructure as Code.

Par exemple DevOps, MLOps repose sur une approche collaborative et rationalisée du cycle de vie du développement de l'apprentissage automatique, dans laquelle l'intersection des personnes, des processus et de la technologie optimise les activités de bout en bout nécessaires pour développer, créer et exploiter des charges de travail d'apprentissage automatique.

MLops se concentre sur l'intersection de la science des données et de l'ingénierie des données en combinaison avec les DevOps pratiques existantes afin de rationaliser la fourniture de modèles tout au long du cycle de développement de l'apprentissage automatique. Le MLOps est la discipline qui consiste à intégrer les charges de travail du machine learning dans la gestion des versions et CI/CD les opérations. Les MLOps nécessitent l'intégration du développement logiciel, des opérations, de l'ingénierie des données et de la science des données.

Défis liés aux MLOps

Bien que les MLOps puissent fournir des outils précieux pour vous aider à faire évoluer votre entreprise, vous pouvez être confronté à certains problèmes lorsque vous intégrez les MLOps à vos charges de travail de machine learning.

Gestion de projets

Les projets de ML impliquent des scientifiques des données, un rôle relativement nouveau et qui n'est pas souvent intégré dans des équipes interfonctionnelles. Ces nouveaux membres de l’équipe parlent souvent un langage technique très différent de celui des propriétaires de produits et des Software Engineers, ce qui complique le problème habituel de la traduction des exigences métier en exigences techniques.

Communication et collaboration

DevOps Il est de plus en plus important de renforcer la visibilité des projets de ML et de permettre la collaboration entre les différentes parties prenantes telles que les ingénieurs des données, les scientifiques des données, les ingénieurs du ML pour garantir des résultats réussis.

Tout est du code

Utilisation des données de production dans les activités de développement, cycles de vie d'expérimentation plus longs, dépendances des pipelines de données, nouvel entraînement des pipelines de déploiement et métriques uniques dans l'évaluation des performances d'un modèle.
Les modèles ont souvent un cycle de vie indépendant des applications et de l'intégration de systèmes à ces modèles.
L'ensemble du système de bout en bout est reproductible grâce à du code versionné et à des artefacts. DevOps les projets utilisent Infrastructure-as-Code (IaC) et Configuration-as-Code (CaC) pour créer des environnements, et Pipelines-as-Code (PaC) pour garantir CI/CD des modèles cohérents. Les pipelines doivent s’intégrer aux flux d’entraînement Big Data et ML. Cela signifie souvent que le pipeline est une combinaison d'un CI/CD outil traditionnel et d'un autre moteur de flux de travail. Il existe d'importantes préoccupations en matière de politique pour de nombreux projets de ML, donc le pipeline peut également devoir appliquer ces politiques. Les données d’entrée biaisées produisent des résultats biaisés, ce qui inquiète de plus en plus les parties prenantes professionnelles.

CI/CD

Dans les MLOps, les données source sont une entrée de première classe, tout comme le code source. C'est pourquoi les MLOps exigent de versionner les données source et à lancer les exécutions de pipeline lorsque les données source ou d'inférence changent.
Les pipelines doivent également versionner les modèles de ML, ainsi que les entrées et autres sorties, afin d'assurer la traçabilité.
Les tests automatisés doivent inclure une validation appropriée du modèle de ML pendant les phases de création et lorsque le modèle est en production.
Les phases de création peuvent comprendre un entraînement et un nouvel entraînement du modèle, un processus qui prend beaucoup de temps et exige beaucoup de ressources. Les pipelines doivent être suffisamment détaillés pour effectuer un cycle d’entraînement complet uniquement lorsque les données source ou le code de ML changent, et non lorsque les composants associés changent.
Étant donné que le code de machine learning représente généralement une petite partie d'une solution globale, un pipeline de déploiement peut également intégrer les étapes supplémentaires requises pour contenir un modèle en vue de sa consommation en tant qu'API par d'autres applications et systèmes.

Surveillance et journalisation

Les phases d'ingénierie des fonctionnalités et d'entraînement du modèle devaient capturer les métriques d'entraînement du modèle, ainsi que les expériences de modèles. Le réglage d’un modèle de ML nécessite de manipuler la forme des données d’entrée, ainsi que les hyperparamètres d’algorithme, et la capture systématique de ces expériences. Le suivi des expériences aide les scientifiques des données à travailler plus efficacement et donne un instantané reproductible de leur travail.
Les modèles de ML déployés nécessitent une surveillance des données transmises au modèle à des fins d’inférence, ainsi que des métriques de stabilité et de performance standard du point de terminaison. Le système de surveillance doit également saisir la qualité de la sortie du modèle, telle qu'elle est évaluée au moyen d'une métrique de ML appropriée.

Avantages des MLOps

L’adoption de pratiques de MLOps vous donne un délai de mise sur le marché plus rapide pour les projets de ML en offrant les avantages suivants.

Productivité : la fourniture d'environnements en libre-service avec accès à des jeux de données organisés permet aux ingénieurs de données et aux scientifique des données d'agir plus rapidement et de perdre moins de temps avec des données manquantes ou non valides.
Répétabilité : l'automatisation de toutes les étapes du MLDC vous permet de garantir un processus reproductible, y compris la façon dont le modèle est entraîné, évalué, versionné et déployé.
Fiabilité : L'intégration de CI/CD pratiques permet non seulement un déploiement rapide, mais également une qualité et une cohérence accrues.
Auditabilité : la gestion des versions de toutes les entrées et sorties, des expériences de science des données aux données sources en passant par le modèle entraîné, signifie que nous pouvons démontrer exactement comment le modèle a été créé et où il a été déployé.
Qualité des données et du modèle : les MLOps nous permettent d’appliquer des politiques qui protègent contre les biais des modèles et suivent les modifications apportées aux propriétés statistiques des données et à la qualité du modèle au fil du temps.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Implémentation de MLOps

Expériences