Présentation de l'apprentissage automatique avec Amazon SageMaker - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Présentation de l'apprentissage automatique avec Amazon SageMaker

Cette section décrit un flux de travail d'apprentissage automatique (ML) typique et explique comment accomplir ces tâches avec Amazon SageMaker.

Dans le cadre de l'apprentissage automatique, vous apprenez à un ordinateur à faire des prédictions ou à faire des inférences. Tout d'abord, vous utilisez un algorithme et des exemples de données pour entraîner un modèle. Vous intégrez ensuite votre modèle dans votre application pour générer des inférences en temps réel et à grande échelle.

Le schéma suivant montre le flux de travail typique pour créer un modèle de machine learning. Il comprend trois étapes dans un flux circulaire que nous abordons plus en détail en suivant le schéma :

  • Générer des exemples de données

  • Entraînez un mannequin

  • Déployer le modèle

Les trois étapes de la création d'un modèle ML.

Le diagramme montre comment effectuer les tâches suivantes dans les scénarios les plus courants :

  1. Générer des exemples de données — Pour entraîner un modèle, vous avez besoin d'exemples de données. Le type de données dont vous avez besoin dépend du problème métier que le modèle doit résoudre. Cela concerne les inférences que vous souhaitez que le modèle génère. Par exemple, si vous souhaitez créer un modèle qui prédit un nombre à partir de l'image d'entrée d'un chiffre manuscrit. Pour entraîner ce modèle, vous avez besoin d'exemples d'images de nombres écrits à la main.

    Les data scientists consacrent souvent du temps à explorer et à prétraiter des exemples de données avant de les utiliser pour l'entraînement des modèles. Pour prétraiter des données, vous effectuez généralement les opérations suivantes :

    1. Récupérez les données : vous pouvez disposer d'exemples de référentiels de données internes ou utiliser des ensembles de données accessibles au public. En général, vous placez les ensembles de données dans un référentiel unique.

    2. Nettoyer les données : pour améliorer la formation des modèles, inspectez les données et nettoyez-les, selon les besoins. Par exemple, si vos données ont un country name attribut avec des valeurs United States etUS, vous pouvez modifier les données pour qu'elles soient cohérentes.

    3. Préparer ou transformer les données : pour améliorer les performances, vous pouvez effectuer des transformations de données supplémentaires. Par exemple, vous pouvez choisir de combiner les attributs d'un modèle qui prédit les conditions nécessitant le dégivrage d'un avion. Au lieu d'utiliser les attributs de température et d'humidité séparément, vous pouvez combiner ces attributs dans un nouvel attribut pour obtenir un meilleur modèle.

    Dans SageMaker, vous pouvez prétraiter des données d'exemple à l'SageMaker APIsaide du SageMaker Python SDK dans un environnement de développement intégré (IDE). Avec SDK for Python (Boto3), vous pouvez récupérer, explorer et préparer vos données pour l'entraînement des modèles. Pour plus d'informations sur la préparation, le traitement et la transformation des données Recommandations pour choisir le bon outil de préparation des données dans SageMakerUtiliser des tâches de traitement pour exécuter des charges de travail de transformation de données, reportez-vous aux sections etCréez, stockez et partagez des fonctionnalités avec Feature Store.

  2. Entraîner un modèle — La formation sur le modèle comprend à la fois la formation et l'évaluation du modèle, comme suit :

    • Entraînement du modèle — Pour entraîner un modèle, vous avez besoin d'un algorithme ou d'un modèle de base préentraîné. Le choix de votre algorithme dépend de plusieurs facteurs. Pour une solution intégrée, vous pouvez utiliser l'un des algorithmes SageMaker fournis. Pour une liste des algorithmes fournis par SageMaker et des considérations connexes, voirUtilisez les algorithmes SageMaker intégrés d'Amazon ou des modèles préentraînés. Pour obtenir une solution d'entraînement basée sur l'interface utilisateur qui fournit des algorithmes et des modèles, consultez Formez, déployez et évaluez des modèles préentraînés avec SageMaker JumpStart.

      Vous devez également calculer les ressources nécessaires à l'entraînement. L'utilisation de vos ressources dépend de la taille de votre jeu de données d'entraînement et de la rapidité avec laquelle vous avez besoin des résultats. Vous pouvez utiliser des ressources allant d'une instance unique à usage général à un cluster d'GPUinstances distribué. Pour de plus amples informations, veuillez consulter Entraînez un modèle avec Amazon SageMaker.

    • Évaluation du modèle : après avoir entraîné votre modèle, vous l'évaluez pour déterminer si la précision des inférences est acceptable. Pour entraîner et évaluer votre modèle, utilisez le SageMaker Python SDK pour envoyer des demandes d'inférences au modèle via l'un des outils disponiblesIDEs. Pour plus d'informations sur l'évaluation de votre modèle, consultezSurveillez la qualité des données et des modèles avec Amazon SageMaker Model Monitor.

  3. Déployer le modèle : vous reconcevez traditionnellement un modèle avant de l'intégrer à votre application et de le déployer. Avec les services SageMaker d'hébergement, vous pouvez déployer votre modèle de manière indépendante, ce qui le dissocie du code de votre application. Pour de plus amples informations, veuillez consulter Déploiement de modèles pour l'inférence.

Le machine learning est un cycle continu. Après avoir déployé un modèle, vous surveillez les inférences, collectez davantage de données de haute qualité et évaluez le modèle pour identifier la dérive. Vous augmentez ensuite la précision de vos inférences en mettant à jour vos données d'entraînement pour inclure les données de haute qualité récemment collectées. Au fur et à mesure que de nouvelles données d'exemple sont disponibles, vous continuez à réentraîner votre modèle pour en augmenter la précision.