Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisez Amazon SageMaker Jobs
Cette section est basée sur la version originale d'SageMaker Operators for Kubernetes
Important
Nous arrêtons le développement et le support technique de la version originale d' SageMaker Operators for Kubernetes
Si vous utilisez actuellement la version v1.2.2
ou une version inférieure d' SageMaker Operators for Kubernetes
Pour en savoir plus sur les étapes de migration, consultez Migrer les ressources vers la dernière version d'Operators.
Pour obtenir les réponses aux questions fréquemment posées concernant la fin du support de la version originale d' SageMaker Operators for Kubernetes, voir Annonce de la fin du support de la version originale des SageMaker opérateurs pour Kubernetes
Pour exécuter une SageMaker tâche Amazon à l'aide des opérateurs pour Kubernetes, vous pouvez appliquer un YAML fichier ou utiliser les Helm Charts fournis.
Tous les exemples de tâches d'opérateur présentés dans les didacticiels suivants utilisent des exemples de données provenant d'un ensemble de MNIST données public. Pour exécuter ces exemples, téléchargez le jeu de données dans votre compartiment Amazon S3. Vous pouvez trouver le jeu de données dans Télécharger le MNIST jeu de données.
Table des matières
L' TrainingJob opérateur
Les opérateurs de tâches de formation concilient les spécifications du poste de formation que vous avez spécifiées en le SageMaker lançant pour vous dans SageMaker. Pour en savoir plus sur les métiers SageMaker de formation, SageMaker CreateTrainingJob APIconsultez la documentation.
Rubriques
Création d'un à TrainingJob l'aide d'un YAML fichier
-
Téléchargez le YAML fichier d'exemple pour l'entraînement à l'aide de la commande suivante :
wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/xgboost-mnist-trainingjob.yaml
-
Modifiez le
xgboost-mnist-trainingjob.yaml
fichier pour remplacer leroleArn
paramètre par votre<sagemaker-execution-role>
compartiment Amazon S3 etoutputPath
par le compartiment Amazon S3 auquel le rôle SageMaker d'exécution a accès en écriture. IlsroleArn
doivent disposer d'autorisations pour SageMaker accéder à Amazon S3 CloudWatch, Amazon et à d'autres services en votre nom. Pour plus d'informations sur la création d'un SageMaker ExecutionRole, consultez la section SageMaker Rôles. Appliquez le YAML fichier à l'aide de la commande suivante :kubectl apply -f xgboost-mnist-trainingjob.yaml
Création d'un graphique TrainingJob à l'aide d'un helm
Vous pouvez utiliser Helm Charts pour exécuter TrainingJobs.
-
Clonez le GitHub dépôt pour obtenir le code source à l'aide de la commande suivante :
git clone https://github.com/aws/amazon-sagemaker-operator-for-k8s.git
-
Accédez au dossier
amazon-sagemaker-operator-for-k8s/hack/charts/training-jobs/
et modifiez le fichiervalues.yaml
pour remplacer des valeurs commerolearn
etoutputpath
par des valeurs qui correspondent à votre compte. Le rôle ARN doit disposer d'autorisations afin de SageMaker pouvoir accéder à Amazon S3 CloudWatch, Amazon et à d'autres services en votre nom. Pour plus d'informations sur la création d'un SageMaker ExecutionRole, consultez la section SageMaker Rôles.
Créez le TrainingJob
Lorsque les rôles et les compartiments Amazon S3 ont été remplacés par des valeurs appropriées dans values.yaml
, vous pouvez créer une tâche d'entraînement à l'aide de la commande suivante :
helm install . --generate-name
Le résultat doit être similaire à ce qui suit :
NAME: chart-12345678 LAST DEPLOYED: Wed Nov 20 23:35:49 2019 NAMESPACE: default STATUS: deployed REVISION: 1 TEST SUITE: None NOTES: Thanks for installing the sagemaker-k8s-trainingjob.
Vérification de votre Chart de Helm d'entraînement
Pour vérifier que le Chart de Helm a bien été créé, exécutez :
helm ls
Le résultat doit être similaire à ce qui suit :
NAME NAMESPACE REVISION UPDATED STATUS CHART APP VERSION chart-12345678 default 1 2019-11-20 23:35:49.9136092 +0000 UTC deployed sagemaker-k8s-trainingjob-0.1.0 rolebased-12345678 default 1 2019-11-20 23:14:59.6777082 +0000 UTC deployed sagemaker-k8s-operator-0.1.0
helm install
crée une ressource Kubernetes TrainingJob
. L'opérateur lance la tâche de formation proprement dite dans SageMaker et met à jour la ressource TrainingJob
Kubernetes pour refléter le statut de la tâche dans. SageMaker Vous devez payer des frais pour les SageMaker ressources utilisées pendant la durée de votre travail. Vous ne payez pas de frais une fois votre tâche terminée ou arrêtée.
Remarque : SageMaker ne vous permet pas de mettre à jour une tâche d'entraînement en cours d'exécution. Vous ne pouvez pas modifier un paramètre et réappliquer le fichier de configuration. Modifiez le nom des métadonnées ou supprimez la tâche existante et créez-en une autre. Tout comme dans le cas de la formation existante, les opérateurs de tâches, comme TFJob dans Kubeflow, ne update
sont pas pris en charge.
Liste TrainingJobs
Utilisez la commande suivante pour répertorier toutes les tâches créées à l'aide de l'opérateur Kubernetes :
kubectl get TrainingJob
Le résultat pour toutes les tâches répertoriées doit ressembler à ce qui suit :
kubectl get trainingjobs NAME STATUS SECONDARY-STATUS CREATION-TIME SAGEMAKER-JOB-NAME xgboost-mnist-from-for-s3 InProgress Starting 2019-11-20T23:42:35Z xgboost-mnist-from-for-s3-examplef11eab94e0ed4671d5a8f
Une tâche d'entraînement reste répertoriée après son achèvement ou son échec. Vous pouvez supprimer une tâche TrainingJob
de la liste en suivant la procédure Supprimer TrainingJobs. Les tâches terminées ou interrompues ne sont pas facturées pour les SageMaker ressources.
TrainingJob valeurs de statut
Le champ STATUS
peut comporter l'une des valeurs suivantes :
-
Completed
-
InProgress
-
Failed
-
Stopped
-
Stopping
Ces statuts proviennent directement de la APIdocumentation SageMaker officielle.
En plus du SageMaker statut officiel, il est possible de STATUS
l'êtreSynchronizingK8sJobWithSageMaker
. Cela signifie que l'opérateur n'a pas encore traité la tâche.
Valeurs du statut secondaire
Les statuts secondaires proviennent directement de la APIdocumentation SageMaker officielle. Ils contiennent des informations plus détaillées sur le statut de la tâche.
Décrivez un TrainingJob
Vous pouvez obtenir plus d'informations sur la tâche d'entraînement en utilisant la commande describe
kubectl
. Elle est généralement utilisée pour déboguer un problème ou vérifier les paramètres d'une tâche d'entraînement. Pour obtenir des informations sur votre tâche d'entraînement, utilisez la commande suivante :
kubectl describe trainingjob xgboost-mnist-from-for-s3
Le résultat de votre tâche d'entraînement doit ressembler à ce qui suit :
Name: xgboost-mnist-from-for-s3 Namespace: default Labels: <none> Annotations: <none> API Version: sagemaker.aws.amazon.com/v1 Kind: TrainingJob Metadata: Creation Timestamp: 2019-11-20T23:42:35Z Finalizers: sagemaker-operator-finalizer Generation: 2 Resource Version: 23119 Self Link: /apis/sagemaker.aws.amazon.com/v1/namespaces/default/trainingjobs/xgboost-mnist-from-for-s3 UID: 6d7uiui-0bef-11ea-b94e-0ed467example Spec: Algorithm Specification: Training Image: 8256416981234.dkr.ecr.us-east-2.amazonaws.com/xgboost:1 Training Input Mode: File Hyper Parameters: Name: eta Value: 0.2 Name: gamma Value: 4 Name: max_depth Value: 5 Name: min_child_weight Value: 6 Name: num_class Value: 10 Name: num_round Value: 10 Name: objective Value: multi:softmax Name: silent Value: 0 Input Data Config: Channel Name: train Compression Type: None Content Type: text/csv Data Source: S 3 Data Source: S 3 Data Distribution Type: FullyReplicated S 3 Data Type: S3Prefix S 3 Uri: https://s3-us-east-2.amazonaws.com/amzn-s3-demo-bucket/sagemaker/xgboost-mnist/train/ Channel Name: validation Compression Type: None Content Type: text/csv Data Source: S 3 Data Source: S 3 Data Distribution Type: FullyReplicated S 3 Data Type: S3Prefix S 3 Uri: https://s3-us-east-2.amazonaws.com/amzn-s3-demo-bucket/sagemaker/xgboost-mnist/validation/ Output Data Config: S 3 Output Path: s3://amzn-s3-demo-bucket/sagemaker/xgboost-mnist/xgboost/ Region: us-east-2 Resource Config: Instance Count: 1 Instance Type: ml.m4.xlarge Volume Size In GB: 5 Role Arn: arn:aws:iam::12345678910:role/service-role/AmazonSageMaker-ExecutionRole Stopping Condition: Max Runtime In Seconds: 86400 Training Job Name: xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0example Status: Cloud Watch Log URL: https://us-east-2.console.aws.amazon.com/cloudwatch/home?region=us-east-2#logStream:group=/aws/sagemaker/TrainingJobs;prefix=<example>;streamFilter=typeLogStreamPrefix Last Check Time: 2019-11-20T23:44:29Z Sage Maker Training Job Name: xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94eexample Secondary Status: Downloading Training Job Status: InProgress Events: <none>
Afficher les journaux de TrainingJobs
Utilisez la commande suivante pour consulter les journaux depuis la tâche d'entraînement kmeans-mnist
:
kubectl smlogs trainingjob xgboost-mnist-from-for-s3
Votre sortie doit ressembler à ce qui suit : Les journaux des instances sont classés par ordre chronologique.
"xgboost-mnist-from-for-s3" has SageMaker TrainingJobName "xgboost-mnist-from-for-s3-123456789" in region "us-east-2", status "InProgress" and secondary status "Starting" xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0ed46example/algo-1-1574293123 2019-11-20 23:45:24.7 +0000 UTC Arguments: train xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0ed46example/algo-1-1574293123 2019-11-20 23:45:24.7 +0000 UTC [2019-11-20:23:45:22:INFO] Running standalone xgboost training. xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0ed46example/algo-1-1574293123 2019-11-20 23:45:24.7 +0000 UTC [2019-11-20:23:45:22:INFO] File size need to be processed in the node: 1122.95mb. Available memory size in the node: 8586.0mb xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0ed46example/algo-1-1574293123 2019-11-20 23:45:24.7 +0000 UTC [2019-11-20:23:45:22:INFO] Determined delimiter of CSV input is ',' xgboost-mnist-from-for-s3-6d7fa0af0bef11eab94e0ed46example/algo-1-1574293123 2019-11-20 23:45:24.7 +0000 UTC [23:45:22] S3DistributionType set as FullyReplicated
Supprimer TrainingJobs
Utilisez la commande suivante pour arrêter une tâche de formation sur Amazon SageMaker :
kubectl delete trainingjob xgboost-mnist-from-for-s3
Cette commande supprime la tâche de SageMaker formation de Kubernetes. Cette commande renvoie le résultat suivant :
trainingjob.sagemaker.aws.amazon.com "xgboost-mnist-from-for-s3" deleted
Si la tâche est toujours en cours SageMaker, elle s'arrête. Aucuns frais ne vous seront facturés pour les SageMaker ressources une fois votre travail arrêté ou terminé.
Remarque : SageMaker ne supprime pas les tâches de formation. Les tâches arrêtées continuent de s'afficher sur la SageMaker console. La delete
commande prend environ 2 minutes pour nettoyer les ressources SageMaker.
L' HyperParameterTuningJobopérateur
Les opérateurs de tâches de réglage des hyperparamètres concilient la spécification de la tâche de réglage des hyperparamètres spécifiée SageMaker en la lançant. SageMaker Pour en savoir plus sur les tâches de réglage des SageMaker hyperparamètres, SageMaker CreateHyperParameterTuningJob APIconsultez la documentation.
Rubriques
Création d'un à HyperparameterTuningJob l'aide d'un YAML fichier
-
Téléchargez le YAML fichier d'exemple pour la tâche de réglage des hyperparamètres à l'aide de la commande suivante :
wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/xgboost-mnist-hpo.yaml
-
Modifiez le fichier
xgboost-mnist-hpo.yaml
pour remplacer le paramètreroleArn
par votresagemaker-execution-role
. Pour que la tâche de réglage d'hyperparamètre aboutisse, vous devez également modifier les valeurss3InputPath
ets3OutputPath
qui correspondent à votre compte. Appliquez le YAML fichier de mises à jour à l'aide de la commande suivante :kubectl apply -f xgboost-mnist-hpo.yaml
Création d'un graphique HyperparameterTuningJob à l'aide d'un Helm
Vous pouvez utiliser les Charts de Helm pour exécuter des tâches de réglage d'hyperparamètre.
-
Clonez le GitHub dépôt pour obtenir le code source à l'aide de la commande suivante :
git clone https://github.com/aws/amazon-sagemaker-operator-for-k8s.git
-
Accédez au dossier
amazon-sagemaker-operator-for-k8s/hack/charts/hyperparameter-tuning-jobs/
. -
Modifiez le fichier
values.yaml
pour remplacer le paramètreroleArn
par votresagemaker-execution-role
. Pour que la tâche de réglage d'hyperparamètre aboutisse, vous devez également modifier les valeurss3InputPath
ets3OutputPath
qui correspondent à votre compte.
Créez le HyperparameterTuningJob
Lorsque les rôles et les chemins Amazon S3 ont été remplacés par des valeurs appropriées dans values.yaml
, vous pouvez créer une tâche de réglage d'hyperparamètre à l'aide de la commande suivante :
helm install . --generate-name
Votre sortie doit ressembler à ce qui suit :
NAME: chart-1574292948 LAST DEPLOYED: Wed Nov 20 23:35:49 2019 NAMESPACE: default STATUS: deployed REVISION: 1 TEST SUITE: None NOTES: Thanks for installing the sagemaker-k8s-hyperparametertuningjob.
Vérification de l'installation du Chart
Pour vérifier que le Chart de Helm a bien été créé, exécutez la commande suivante :
helm ls
Le résultat doit être similaire à ce qui suit :
NAME NAMESPACE REVISION UPDATED chart-1474292948 default 1 2019-11-20 23:35:49.9136092 +0000 UTC deployed sagemaker-k8s-hyperparametertuningjob-0.1.0 STATUS CHART APP VERSION chart-1574292948 default 1 2019-11-20 23:35:49.9136092 +0000 UTC deployed sagemaker-k8s-trainingjob-0.1.0 rolebased-1574291698 default 1 2019-11-20 23:14:59.6777082 +0000 UTC deployed sagemaker-k8s-operator-0.1.0
helm install
crée une ressource Kubernetes HyperParameterTuningJob
. L'opérateur lance la tâche d'optimisation des hyperparamètres proprement dite dans SageMaker et met à jour la ressource HyperParameterTuningJob
Kubernetes pour refléter le statut de la tâche dans. SageMaker Vous devez payer des frais pour les SageMaker ressources utilisées pendant la durée de votre travail. Vous ne payez pas de frais une fois votre tâche terminée ou arrêtée.
Remarque : SageMaker ne vous permet pas de mettre à jour une tâche de réglage d'hyperparamètres en cours d'exécution. Vous ne pouvez pas modifier un paramètre et réappliquer le fichier de configuration. Vous devez modifier le nom des métadonnées ou supprimer la tâche existante et en créer une autre. À l'instar des opérateurs de tâche d'entraînement existants tels que TFJob
dans Kubeflow, update
n'est pas pris en charge.
Liste HyperparameterTuningJobs
Utilisez la commande suivante pour répertorier toutes les tâches créées à l'aide de l'opérateur Kubernetes :
kubectl get hyperparametertuningjob
Le résultat doit être similaire à ce qui suit :
NAME STATUS CREATION-TIME COMPLETED INPROGRESS ERRORS STOPPED BEST-TRAINING-JOB SAGEMAKER-JOB-NAME xgboost-mnist-hpo Completed 2019-10-17T01:15:52Z 10 0 0 0 xgboostha92f5e3cf07b11e9bf6c06d6-009-4c7a123 xgboostha92f5e3cf07b11e9bf6c123
Une tâche de réglage d'hyperparamètre reste répertoriée après son achèvement ou son échec. Vous pouvez supprimer une tâche hyperparametertuningjob
de la liste en suivant la procédure Supprimer un HyperparameterTuningJob. Les tâches terminées ou interrompues ne sont pas facturées pour les SageMaker ressources.
Valeurs de statut de tâche de réglage des hyperparamètres
Le champ STATUS
peut comporter l'une des valeurs suivantes :
-
Completed
-
InProgress
-
Failed
-
Stopped
-
Stopping
Ces statuts proviennent directement de la APIdocumentation SageMaker officielle.
En plus du SageMaker statut officiel, il est possible de STATUS
l'êtreSynchronizingK8sJobWithSageMaker
. Cela signifie que l'opérateur n'a pas encore traité la tâche.
Compteurs de statut
Le résultat a plusieurs compteurs, comme COMPLETED
et INPROGRESS
. Il s'agit du nombre de tâches d'entraînement terminées et en cours, respectivement. Pour plus d'informations sur la façon dont ils sont déterminés, consultez TrainingJobStatusCountersla SageMaker API documentation.
Meilleur TrainingJob
Cette colonne contient le nom de la TrainingJob
qui optimisait le mieux la métrique sélectionnée.
Pour afficher un résumé des hyperparamètres réglés, exécutez :
kubectl describe hyperparametertuningjob xgboost-mnist-hpo
Pour afficher des informations détaillées sur les TrainingJob
, exécutez :
kubectl describe trainingjobs
<job name>
Engendré TrainingJobs
Vous pouvez également suivre les 10 tâches d'entraînement à Kubernetes démarrées par HyperparameterTuningJob
en exécutant la commande suivante :
kubectl get trainingjobs
Décrivez un HyperparameterTuningJob
Vous pouvez obtenir des détails de débogage à l'aide de la commande describe
kubectl
.
kubectl describe hyperparametertuningjob xgboost-mnist-hpo
Outre les informations relatives à la tâche de réglage, l' SageMaker opérateur pour Kubernetes présente également la meilleure tâche de formation trouvée par la tâche de réglage des hyperparamètres dans la sortie, comme suit : describe
Name: xgboost-mnist-hpo Namespace: default Labels: <none> Annotations: kubectl.kubernetes.io/last-applied-configuration: {"apiVersion":"sagemaker.aws.amazon.com/v1","kind":"HyperparameterTuningJob","metadata":{"annotations":{},"name":"xgboost-mnist-hpo","namespace":... API Version: sagemaker.aws.amazon.com/v1 Kind: HyperparameterTuningJob Metadata: Creation Timestamp: 2019-10-17T01:15:52Z Finalizers: sagemaker-operator-finalizer Generation: 2 Resource Version: 8167 Self Link: /apis/sagemaker.aws.amazon.com/v1/namespaces/default/hyperparametertuningjobs/xgboost-mnist-hpo UID: a92f5e3c-f07b-11e9-bf6c-06d6f303uidu Spec: Hyper Parameter Tuning Job Config: Hyper Parameter Tuning Job Objective: Metric Name: validation:error Type: Minimize Parameter Ranges: Integer Parameter Ranges: Max Value: 20 Min Value: 10 Name: num_round Scaling Type: Linear Resource Limits: Max Number Of Training Jobs: 10 Max Parallel Training Jobs: 10 Strategy: Bayesian Training Job Early Stopping Type: Off Hyper Parameter Tuning Job Name: xgboostha92f5e3cf07b11e9bf6c06d6 Region: us-east-2 Training Job Definition: Algorithm Specification: Training Image: 12345678910.dkr.ecr.us-east-2.amazonaws.com/xgboost:1 Training Input Mode: File Input Data Config: Channel Name: train Content Type: text/csv Data Source: s3DataSource: s3DataDistributionType: FullyReplicated s3DataType: S3Prefix s3Uri: https://s3-us-east-2.amazonaws.com/amzn-s3-demo-bucket/sagemaker/xgboost-mnist/train/ Channel Name: validation Content Type: text/csv Data Source: s3DataSource: s3DataDistributionType: FullyReplicated s3DataType: S3Prefix s3Uri: https://s3-us-east-2.amazonaws.com/amzn-s3-demo-bucket/sagemaker/xgboost-mnist/validation/ Output Data Config: s3OutputPath: https://s3-us-east-2.amazonaws.com/amzn-s3-demo-bucket/sagemaker/xgboost-mnist/xgboost Resource Config: Instance Count: 1 Instance Type: ml.m4.xlarge Volume Size In GB: 5 Role Arn: arn:aws:iam::123456789012:role/service-role/AmazonSageMaker-ExecutionRole Static Hyper Parameters: Name: base_score Value: 0.5 Name: booster Value: gbtree Name: csv_weights Value: 0 Name: dsplit Value: row Name: grow_policy Value: depthwise Name: lambda_bias Value: 0.0 Name: max_bin Value: 256 Name: max_leaves Value: 0 Name: normalize_type Value: tree Name: objective Value: reg:linear Name: one_drop Value: 0 Name: prob_buffer_row Value: 1.0 Name: process_type Value: default Name: rate_drop Value: 0.0 Name: refresh_leaf Value: 1 Name: sample_type Value: uniform Name: scale_pos_weight Value: 1.0 Name: silent Value: 0 Name: sketch_eps Value: 0.03 Name: skip_drop Value: 0.0 Name: tree_method Value: auto Name: tweedie_variance_power Value: 1.5 Stopping Condition: Max Runtime In Seconds: 86400 Status: Best Training Job: Creation Time: 2019-10-17T01:16:14Z Final Hyper Parameter Tuning Job Objective Metric: Metric Name: validation:error Value: Objective Status: Succeeded Training End Time: 2019-10-17T01:20:24Z Training Job Arn: arn:aws:sagemaker:us-east-2:123456789012:training-job/xgboostha92f5e3cf07b11e9bf6c06d6-009-4sample Training Job Name: xgboostha92f5e3cf07b11e9bf6c06d6-009-4c7a3059 Training Job Status: Completed Training Start Time: 2019-10-17T01:18:35Z Tuned Hyper Parameters: Name: num_round Value: 18 Hyper Parameter Tuning Job Status: Completed Last Check Time: 2019-10-17T01:21:01Z Sage Maker Hyper Parameter Tuning Job Name: xgboostha92f5e3cf07b11e9bf6c06d6 Training Job Status Counters: Completed: 10 In Progress: 0 Non Retryable Error: 0 Retryable Error: 0 Stopped: 0 Total Error: 0 Events: <none>
Afficher les journaux de HyperparameterTuningJobs
Les tâches de réglage d'hyperparamètre n'ont pas de journaux, mais toutes les tâches d'entraînement qu'ils démarrent ont des journaux. Ces journaux sont accessibles comme s'il s'agissait d'une tâche d'entraînement normale. Pour de plus amples informations, veuillez consulter Afficher les journaux de TrainingJobs.
Supprimer un HyperparameterTuningJob
Utilisez la commande suivante pour arrêter une tâche d'hyperparamètre dans SageMaker.
kubectl delete hyperparametertuningjob xgboost-mnist-hpo
Cette commande supprime la tâche de réglage des hyperparamètres et les tâches de formation associées de votre cluster Kubernetes et les arrête. SageMaker Les tâches qui ont été arrêtées ou terminées n'entraînent aucun frais de SageMaker ressources. SageMaker ne supprime pas les tâches de réglage des hyperparamètres. Les tâches arrêtées continuent de s'afficher sur la SageMaker console.
Le résultat doit être similaire à ce qui suit :
hyperparametertuningjob.sagemaker.aws.amazon.com "xgboost-mnist-hpo" deleted
Remarque : La commande de suppression prend environ 2 minutes pour nettoyer les ressources SageMaker.
L' BatchTransformJob opérateur
Les opérateurs de tâches de transformation par lots concilient les spécifications de tâche de transformation SageMaker par lots que vous avez spécifiées en les lançant dans SageMaker. Vous pouvez en savoir plus sur le travail de transformation SageMaker par lots dans la SageMaker CreateTransformJob APIdocumentation.
Rubriques
Création d'un à BatchTransformJob l'aide d'un YAML fichier
Téléchargez le YAML fichier d'exemple pour la tâche de transformation par lots à l'aide de la commande suivante :
wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/xgboost-mnist-batchtransform.yaml
-
Modifiez le fichier
xgboost-mnist-batchtransform.yaml
pour modifier les paramètres nécessaires afin de lesinputdataconfig
remplacer par vos données d'entrée ets3OutputPath
par vos compartiments Amazon S3 auxquels le rôle SageMaker d'exécution a accès en écriture. -
Appliquez le YAML fichier à l'aide de la commande suivante :
kubectl apply -f xgboost-mnist-batchtransform.yaml
Création d'un graphique BatchTransformJob à l'aide d'un Helm
Vous pouvez utiliser les Charts de Helm pour exécuter des tâches de transformation par lots.
Obtenir le répertoire du programme d'installation de Helm
Clonez le GitHub dépôt pour obtenir le code source à l'aide de la commande suivante :
git clone https://github.com/aws/amazon-sagemaker-operator-for-k8s.git
Configuration du Chart de Helm
Accédez au dossier amazon-sagemaker-operator-for-k8s/hack/charts/batch-transform-jobs/
.
Modifiez le values.yaml
fichier pour le inputdataconfig
remplacer par vos données d'entrée et outputPath par vos compartiments S3 auxquels le rôle SageMaker d'exécution a accès en écriture.
Créez un BatchTransformJob
-
Utilisez la commande suivante pour créer une tâche de transformation par lots :
helm install . --generate-name
Le résultat doit être similaire à ce qui suit :
NAME: chart-1574292948 LAST DEPLOYED: Wed Nov 20 23:35:49 2019 NAMESPACE: default STATUS: deployed REVISION: 1 TEST SUITE: None NOTES: Thanks for installing the sagemaker-k8s-batch-transform-job.
-
Pour vérifier que le Chart de Helm a bien été créé, exécutez la commande suivante :
helm ls NAME NAMESPACE REVISION UPDATED STATUS CHART APP VERSION chart-1474292948 default 1 2019-11-20 23:35:49.9136092 +0000 UTC deployed sagemaker-k8s-batchtransformjob-0.1.0 chart-1474292948 default 1 2019-11-20 23:35:49.9136092 +0000 UTC deployed sagemaker-k8s-hyperparametertuningjob-0.1.0 chart-1574292948 default 1 2019-11-20 23:35:49.9136092 +0000 UTC deployed sagemaker-k8s-trainingjob-0.1.0 rolebased-1574291698 default 1 2019-11-20 23:14:59.6777082 +0000 UTC deployed sagemaker-k8s-operator-0.1.0
Cette commande crée une ressource Kubernetes
BatchTransformJob
. L'opérateur lance la tâche de transformation proprement dite dans SageMaker et met à jour la ressourceBatchTransformJob
Kubernetes pour refléter le statut de la tâche dans. SageMaker Vous devez payer des frais pour les SageMaker ressources utilisées pendant la durée de votre travail. Vous ne payez pas de frais une fois votre tâche terminée ou arrêtée.
Remarque : SageMaker ne vous permet pas de mettre à jour une tâche de transformation par lots en cours d'exécution. Vous ne pouvez pas modifier un paramètre et réappliquer le fichier de configuration. Vous devez modifier le nom des métadonnées ou supprimer la tâche existante et en créer une autre. À l'instar des opérateurs de tâche d'entraînement existants tels que TFJob
dans Kubeflow, update
n'est pas pris en charge.
Liste BatchTransformJobs
Utilisez la commande suivante pour répertorier toutes les tâches créées à l'aide de l'opérateur Kubernetes :
kubectl get batchtransformjob
Le résultat doit être similaire à ce qui suit :
NAME STATUS CREATION-TIME SAGEMAKER-JOB-NAME xgboost-mnist-batch-transform Completed 2019-11-18T03:44:00Z xgboost-mnist-a88fb19809b511eaac440aa8axgboost
Une tâche de transformation par lots reste répertoriée après son achèvement ou son échec. Vous pouvez supprimer une tâche hyperparametertuningjob
de la liste en suivant la procédure Supprimer un BatchTransformJob. Les tâches terminées ou interrompues ne sont pas facturées pour les SageMaker ressources.
Valeurs de statut de transformation par lots
Le champ STATUS
peut comporter l'une des valeurs suivantes :
-
Completed
-
InProgress
-
Failed
-
Stopped
-
Stopping
Ces statuts proviennent directement de la APIdocumentation SageMaker officielle.
En plus du SageMaker statut officiel, il est possible de STATUS
l'êtreSynchronizingK8sJobWithSageMaker
. Cela signifie que l'opérateur n'a pas encore traité la tâche.
Décrivez un BatchTransformJob
Vous pouvez obtenir des détails de débogage à l'aide de la commande describe
kubectl
.
kubectl describe batchtransformjob xgboost-mnist-batch-transform
Le résultat doit être similaire à ce qui suit :
Name: xgboost-mnist-batch-transform Namespace: default Labels: <none> Annotations: kubectl.kubernetes.io/last-applied-configuration: {"apiVersion":"sagemaker.aws.amazon.com/v1","kind":"BatchTransformJob","metadata":{"annotations":{},"name":"xgboost-mnist","namespace"... API Version: sagemaker.aws.amazon.com/v1 Kind: BatchTransformJob Metadata: Creation Timestamp: 2019-11-18T03:44:00Z Finalizers: sagemaker-operator-finalizer Generation: 2 Resource Version: 21990924 Self Link: /apis/sagemaker.aws.amazon.com/v1/namespaces/default/batchtransformjobs/xgboost-mnist UID: a88fb198-09b5-11ea-ac44-0aa8a9UIDNUM Spec: Model Name: TrainingJob-20190814SMJOb-IKEB Region: us-east-1 Transform Input: Content Type: text/csv Data Source: S 3 Data Source: S 3 Data Type: S3Prefix S 3 Uri: s3://amzn-s3-demo-bucket/mnist_kmeans_example/input Transform Job Name: xgboost-mnist-a88fb19809b511eaac440aa8a9SMJOB Transform Output: S 3 Output Path: s3://amzn-s3-demo-bucket/mnist_kmeans_example/output Transform Resources: Instance Count: 1 Instance Type: ml.m4.xlarge Status: Last Check Time: 2019-11-19T22:50:40Z Sage Maker Transform Job Name: xgboost-mnist-a88fb19809b511eaac440aaSMJOB Transform Job Status: Completed Events: <none>
Afficher les journaux de BatchTransformJobs
Utilisez la commande suivante pour consulter les journaux depuis la tâche de transformation par lots xgboost-mnist
:
kubectl smlogs batchtransformjob xgboost-mnist-batch-transform
Supprimer un BatchTransformJob
Utilisez la commande suivante pour arrêter une tâche de transformation par lots dans SageMaker.
kubectl delete batchTransformJob xgboost-mnist-batch-transform
Le résultat doit être similaire à ce qui suit :
batchtransformjob.sagemaker.aws.amazon.com "xgboost-mnist" deleted
Cette commande supprime la tâche de transformation par lots de votre cluster Kubernetes et l'arrête. SageMaker Les tâches qui ont été arrêtées ou terminées n'entraînent aucun frais de SageMaker ressources. Supprimer prend environ 2 minutes pour nettoyer les ressources SageMaker.
Remarque : SageMaker ne supprime pas les tâches de transformation par lots. Les tâches arrêtées continuent de s'afficher sur la SageMaker console.
L' HostingDeployment opérateur
HostingDeployment les opérateurs prennent en charge la création et la suppression d'un point de terminaison, ainsi que la mise à jour d'un point de terminaison existant, pour une inférence en temps réel. L'opérateur de déploiement d'hébergement concilie les spécifications de la tâche de déploiement d'hébergement que vous avez spécifiée en SageMaker créant des modèles, des configurations de points de terminaison et des points de terminaison dans. SageMaker Pour en savoir plus sur l' SageMaker inférence, SageMaker CreateEndpointAPIconsultez la documentation.
Rubriques
Configuration d'une HostingDeployment ressource
Téléchargez le YAML fichier d'exemple pour la tâche de déploiement de l'hébergement à l'aide de la commande suivante :
wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/xgboost-mnist-hostingdeployment.yaml
Le fichier xgboost-mnist-hostingdeployment.yaml
contient les composants suivants qui peuvent être modifiés selon les besoins :
-
ProductionVariants. Une variante de production est un ensemble d'instances servant un seul modèle. SageMaker équilibres de charge entre toutes les variantes de production en fonction des poids définis.
-
Modèles. Un modèle est le conteneur et le rôle d'exécution ARN nécessaires pour servir un modèle. Il nécessite au moins un seul conteneur.
-
Conteneurs. Un conteneur spécifie le jeu de données et l'image de service. Si vous utilisez votre propre algorithme personnalisé au lieu d'un algorithme fourni par SageMaker, le code d'inférence doit répondre aux SageMaker exigences. Pour plus d'informations, consultez la section Utilisation de vos propres algorithmes avec SageMaker.
Créez un HostingDeployment
Pour créer un HostingDeployment, utilisez kubectl
pour appliquer le fichier à l'hosting.yaml
aide de la commande suivante :
kubectl apply -f hosting.yaml
SageMaker crée un point de terminaison avec la configuration spécifiée. Les SageMaker ressources utilisées pendant la durée de vie de votre terminal vous sont facturées. Vous ne payez pas de frais une fois votre point de terminaison supprimé.
Le processus de création prend environ 10 minutes.
Liste HostingDeployments
Pour vérifier que le HostingDeployment a été créé, utilisez la commande suivante :
kubectl get hostingdeployments
Le résultat doit être similaire à ce qui suit :
NAME STATUS SAGEMAKER-ENDPOINT-NAME host-xgboost Creating host-xgboost-def0e83e0d5f11eaaa450aSMLOGS
HostingDeployment valeurs de statut
Le champ d'état peut avoir l'une des valeurs suivantes :
-
SynchronizingK8sJobWithSageMaker
: l'opérateur se prépare à créer le point de terminaison. -
ReconcilingEndpoint
: l'opérateur crée, met à jour ou supprime des ressources de point de terminaison. S'il HostingDeployment reste dans cet état, utilisez-lekubectl describe
pour en voir la raison dans leAdditional
champ. -
OutOfService
: le point de terminaison n'est pas disponible pour recevoir les demandes entrantes. -
Creating
: CreateEndpointest en cours d'exécution. -
Updating
: UpdateEndpointou UpdateEndpointWeightsAndCapacitiesest en cours d'exécution. -
SystemUpdating
: le point de terminaison fait l'objet d'une maintenance et ne peut pas être mis à jour, supprimé ou remis à l'échelle tant qu'il n'est pas terminé. Cette opération de maintenance ne modifie aucune valeur spécifiée par le client, telle que la VPC configuration, le AWS KMS chiffrement, le modèle, le type d'instance ou le nombre d'instances. -
RollingBack
: le point de terminaison ne parvient pas à effectuer une augmentation ou une réduction d'échelle, ni à modifier son poids de variante et il est en cours de restauration vers sa configuration précédente. Une fois la restauration terminée, le point de terminaison revient à un statutInService
. Ce statut de transition s'applique uniquement à un point de terminaison sur lequel le dimensionnement automatique est activé et qui subit des modifications de pondération ou de capacité dans le cadre d'un UpdateEndpointWeightsAndCapacitiesappel ou lorsque l'UpdateEndpointWeightsAndCapacitiesopération est appelée explicitement. -
InService
: le point de terminaison est disponible pour traiter les demandes entrantes. -
Deleting
: DeleteEndpointest en cours d'exécution. -
Failed
: le point de terminaison n'a pas pu être créé, mis à jour ou remis à l'échelle. Utilisation DescribeEndpoint: FailureReason pour obtenir des informations sur l'échec. DeleteEndpointest la seule opération qui peut être effectuée sur un point de terminaison défaillant.
Décrivez un HostingDeployment
Vous pouvez obtenir des détails de débogage à l'aide de la commande describe
kubectl
.
kubectl describe hostingdeployment
Le résultat doit être similaire à ce qui suit :
Name: host-xgboost Namespace: default Labels: <none> Annotations: kubectl.kubernetes.io/last-applied-configuration: {"apiVersion":"sagemaker.aws.amazon.com/v1","kind":"HostingDeployment","metadata":{"annotations":{},"name":"host-xgboost","namespace":"def..." API Version: sagemaker.aws.amazon.com/v1 Kind: HostingDeployment Metadata: Creation Timestamp: 2019-11-22T19:40:00Z Finalizers: sagemaker-operator-finalizer Generation: 1 Resource Version: 4258134 Self Link: /apis/sagemaker.aws.amazon.com/v1/namespaces/default/hostingdeployments/host-xgboost UID: def0e83e-0d5f-11ea-aa45-0a3507uiduid Spec: Containers: Container Hostname: xgboost Image: 123456789012.dkr.ecr.us-east-2.amazonaws.com/xgboost:latest Model Data URL: s3://amzn-s3-demo-bucket/inference/xgboost-mnist/model.tar.gz Models: Containers: xgboost Execution Role Arn: arn:aws:iam::123456789012:role/service-role/AmazonSageMaker-ExecutionRole Name: xgboost-model Primary Container: xgboost Production Variants: Initial Instance Count: 1 Instance Type: ml.c5.large Model Name: xgboost-model Variant Name: all-traffic Region: us-east-2 Status: Creation Time: 2019-11-22T19:40:04Z Endpoint Arn: arn:aws:sagemaker:us-east-2:123456789012:endpoint/host-xgboost-def0e83e0d5f11eaaaexample Endpoint Config Name: host-xgboost-1-def0e83e0d5f11e-e08f6c510d5f11eaaa450aexample Endpoint Name: host-xgboost-def0e83e0d5f11eaaa450a350733ba06 Endpoint Status: Creating Endpoint URL: https://runtime.sagemaker.us-east-2.amazonaws.com/endpoints/host-xgboost-def0e83e0d5f11eaaaexample/invocations Last Check Time: 2019-11-22T19:43:57Z Last Modified Time: 2019-11-22T19:40:04Z Model Names: Name: xgboost-model Value: xgboost-model-1-def0e83e0d5f11-df5cc9fd0d5f11eaaa450aexample Events: <none>
Le champ de statut fournit plus d'informations à l'aide des champs suivants :
-
Additional
: informations supplémentaires sur l'état du déploiement d'hébergement. Ce champ est facultatif et n'est renseigné qu'en cas d'erreur. -
Creation Time
: Lorsque le point de terminaison a été créé dans SageMaker. -
Endpoint ARN
: Le SageMaker point de terminaisonARN. -
Endpoint Config Name
: SageMaker nom de la configuration du point de terminaison. -
Endpoint Name
: SageMaker nom du point de terminaison. -
Endpoint Status
: état du point de terminaison. -
Endpoint URL
: HTTPS URL qui peut être utilisé pour accéder au point de terminaison. Pour plus d'informations, voir Déployer un modèle sur les services SageMaker d'hébergement. -
FailureReason
: si une commande de création, de mise à jour ou de suppression échoue, la cause est indiquée ici. -
Last Check Time
: dernière fois que l'opérateur a vérifié l'état du point de terminaison. -
Last Modified Time
: date et heure de la dernière modification du point de terminaison. -
Model Names
: une paire clé-valeur entre les noms de HostingDeployment modèles et les noms de SageMaker modèles.
Invocation du point de terminaison
Une fois que l'état du point de terminaison est atteintInService
, vous pouvez invoquer le point de terminaison de deux manières : en utilisant le AWS CLI, qui effectue l'authentification et la signature des URL demandes, ou en utilisant un HTTP client tel que URL c. Si vous utilisez votre propre client, vous devez effectuer vous-même URL la signature et l'authentification AWS v4.
Pour appeler le point de terminaison à l'aide de AWS CLI, exécutez la commande suivante. Assurez-vous de remplacer la région et le nom du point de terminaison par la région et le nom du point de terminaison de votre point de SageMaker terminaison. Ces informations peuvent être obtenues à partir du résultat de kubectl describe
.
# Invoke the endpoint with mock input data. aws sagemaker-runtime invoke-endpoint \ --region us-east-2 \ --endpoint-name
<endpoint name>
\ --body $(seq 784 | xargs echo | sed 's/ /,/g') \ >(cat) \ --content-type text/csv > /dev/null
Par exemple, si votre région est us-east-2
et votre nom de configuration de point de terminaison est host-xgboost-f56b6b280d7511ea824b129926example
, la commande suivante invoquerait le point de terminaison :
aws sagemaker-runtime invoke-endpoint \ --region us-east-2 \ --endpoint-name host-xgboost-f56b6b280d7511ea824b1299example \ --body $(seq 784 | xargs echo | sed 's/ /,/g') \ >(cat) \ --content-type text/csv > /dev/null 4.95847082138
Ici, 4.95847082138
est la prédiction du modèle pour les données simulées.
Mettre à jour HostingDeployment
-
Une fois qu'un HostingDeployment a un statut de
InService
, il peut être mis à jour. La mise en service peut prendre environ 10 minutes. HostingDeployment Utilisez la commande suivante pour vérifier que l'état estInService
:kubectl get hostingdeployments
-
Ils HostingDeployment peuvent être mis à jour avant que le statut ne le soit
InService
. L'opérateur attend que le point de SageMaker terminaison soit disponibleInService
avant d'appliquer la mise à jour.Pour appliquer une mise à jour, modifiez le fichier
hosting.yaml
. Par exemple, remplacez le champinitialInstanceCount
de 1 à 2 comme suit :apiVersion: sagemaker.aws.amazon.com/v1 kind: HostingDeployment metadata: name: host-xgboost spec: region: us-east-2 productionVariants: - variantName: all-traffic modelName: xgboost-model initialInstanceCount: 2 instanceType: ml.c5.large models: - name: xgboost-model executionRoleArn: arn:aws:iam::123456789012:role/service-role/AmazonSageMaker-ExecutionRole primaryContainer: xgboost containers: - xgboost containers: - containerHostname: xgboost modelDataUrl: s3://amzn-s3-demo-bucket/inference/xgboost-mnist/model.tar.gz image: 123456789012.dkr.ecr.us-east-2.amazonaws.com/xgboost:latest
-
Enregistrez le fichier, puis utilisez
kubectl
pour appliquer votre mise à jour comme suit. Vous devez voir l'état passer deInService
àReconcilingEndpoint
, puis àUpdating
.$ kubectl apply -f hosting.yaml hostingdeployment.sagemaker.aws.amazon.com/host-xgboost configured $ kubectl get hostingdeployments NAME STATUS SAGEMAKER-ENDPOINT-NAME host-xgboost ReconcilingEndpoint host-xgboost-def0e83e0d5f11eaaa450a350abcdef $ kubectl get hostingdeployments NAME STATUS SAGEMAKER-ENDPOINT-NAME host-xgboost Updating host-xgboost-def0e83e0d5f11eaaa450a3507abcdef
SageMaker déploie un nouvel ensemble d'instances avec vos modèles, modifie le trafic pour utiliser les nouvelles instances et vide les anciennes instances. Dès que ce processus commence, l'état devient Updating
. Une fois la mise à jour terminée, votre point de terminaison devient InService
. Ce processus prend environ 10 minutes.
Supprimez le HostingDeployment
kubectl
À utiliser pour supprimer un à l' HostingDeployment aide de la commande suivante :kubectl delete hostingdeployments host-xgboost
Le résultat doit être similaire à ce qui suit :
hostingdeployment.sagemaker.aws.amazon.com "host-xgboost" deleted
-
Pour vérifier que le déploiement d'hébergement a été supprimé, utilisez la commande suivante :
kubectl get hostingdeployments No resources found.
Les points de terminaison qui ont été supprimés ne sont pas facturés pour les SageMaker ressources.
L' ProcessingJob opérateur
ProcessingJob les opérateurs sont utilisés pour lancer les tâches SageMaker de traitement Amazon. Pour plus d'informations sur le SageMaker traitement des tâches, consultez CreateProcessingJob.
Rubriques
Création d'un à ProcessingJob l'aide d'un YAML fichier
Pour créer une tâche de SageMaker traitement Amazon à l'aide d'un YAML fichier, procédez comme suit :
-
Téléchargez le script de pré-traitement
kmeans_preprocessing.py
.wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/kmeans_preprocessing.py
-
Dans l'un de vos compartiments Amazon Simple Storage Service (Amazon S3), créez un dossier
mnist_kmeans_example/processing_code
et téléchargez-y le script. -
Téléchargez le fichier
kmeans-mnist-processingjob.yaml
.wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/kmeans-mnist-processingjob.yaml
-
Modifiez le YAML fichier pour spécifier votre compartiment S3
sagemaker-execution-role
et remplacez toutes les instances deamzn-s3-demo-bucket
par celui-ci.... metadata: name: kmeans-mnist-processing ... roleArn: arn:aws:iam::
<acct-id>
:role/service-role/<sagemaker-execution-role>
... processingOutputConfig: outputs: ... s3Output: s3Uri: s3://<amzn-s3-demo-bucket>
/mnist_kmeans_example/output/ ... processingInputs: ... s3Input: s3Uri: s3://<amzn-s3-demo-bucket>
/mnist_kmeans_example/processing_code/kmeans_preprocessing.pyIls
sagemaker-execution-role
doivent disposer d'autorisations pour SageMaker accéder à votre compartiment S3, à Amazon CloudWatch et à d'autres services en votre nom. Pour plus d'informations sur la création d'un rôle d'exécution, consultez la section SageMakerRôles. -
Appliquez le YAML fichier à l'aide de l'une des commandes suivantes.
Pour l'installation à portée de cluster :
kubectl apply -f kmeans-mnist-processingjob.yaml
Pour l'installation à portée de l'espace de noms :
kubectl apply -f kmeans-mnist-processingjob.yaml -n
<NAMESPACE>
Liste ProcessingJobs
Utilisez l'une des commandes suivantes pour répertorier toutes les tâches créées à l'aide de l' ProcessingJob opérateur. SAGEMAKER-JOB-NAME
provient de la metadata
section du YAML fichier.
Pour l'installation à portée de cluster :
kubectl get ProcessingJob kmeans-mnist-processing
Pour l'installation à portée de l'espace de noms :
kubectl get ProcessingJob -n
<NAMESPACE>
kmeans-mnist-processing
Votre sortie doit ressembler à ce qui suit :
NAME STATUS CREATION-TIME SAGEMAKER-JOB-NAME kmeans-mnist-processing InProgress 2020-09-22T21:13:25Z kmeans-mnist-processing-7410ed52fd1811eab19a165ae9f9e385
Le résultat répertorie toutes les tâches, quel que soit leur statut. Pour supprimer une tâche de la liste, veuillez consulter Delete a Processing Job.
ProcessingJob État
-
SynchronizingK8sJobWithSageMaker
– La tâche est d'abord envoyée au cluster. L'opérateur a reçu la demande et se prépare à créer la tâche de traitement. -
Reconciling
– L'opérateur est en train d'initialiser ou de récupérer des erreurs transitoires, avec d'autres. Si la tâche de traitement reste dans cet état, utilisez la commandekubectl
describe
pour connaître la raison dans le champAdditional
. -
InProgress | Completed | Failed | Stopping | Stopped
— État de la tâche SageMaker de traitement. Pour plus d'informations, consultez DescribeProcessingJob. -
Error
– L'opérateur ne peut pas récupérer via un rapprochement.
Les tâches terminées, arrêtées ou échouées n'entraînent pas de frais supplémentaires pour les SageMaker ressources.
Décrivez un ProcessingJob
Utilisez l'une des commandes suivantes pour obtenir plus de détails sur une tâche de traitement. Ces commandes sont généralement utilisées pour déboguer un problème ou vérifier les paramètres d'une tâche de traitement.
Pour l'installation à portée de cluster :
kubectl describe processingjob kmeans-mnist-processing
Pour l'installation à portée de l'espace de noms :
kubectl describe processingjob kmeans-mnist-processing -n
<NAMESPACE>
Le résultat de votre tâche de traitement doit ressembler à ce qui suit :
$ kubectl describe ProcessingJob kmeans-mnist-processing Name: kmeans-mnist-processing Namespace: default Labels: <none> Annotations: kubectl.kubernetes.io/last-applied-configuration: {"apiVersion":"sagemaker.aws.amazon.com/v1","kind":"ProcessingJob","metadata":{"annotations":{},"name":"kmeans-mnist-processing",... API Version: sagemaker.aws.amazon.com/v1 Kind: ProcessingJob Metadata: Creation Timestamp: 2020-09-22T21:13:25Z Finalizers: sagemaker-operator-finalizer Generation: 2 Resource Version: 21746658 Self Link: /apis/sagemaker.aws.amazon.com/v1/namespaces/default/processingjobs/kmeans-mnist-processing UID: 7410ed52-fd18-11ea-b19a-165ae9f9e385 Spec: App Specification: Container Entrypoint: python /opt/ml/processing/code/kmeans_preprocessing.py Image Uri: 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:1.5.0-cpu-py36-ubuntu16.04 Environment: Name: MYVAR Value: my_value Name: MYVAR2 Value: my_value2 Network Config: Processing Inputs: Input Name: mnist_tar s3Input: Local Path: /opt/ml/processing/input s3DataType: S3Prefix s3InputMode: File s3Uri: s3://<s3bucket>-us-west-2/algorithms/kmeans/mnist/mnist.pkl.gz Input Name: source_code s3Input: Local Path: /opt/ml/processing/code s3DataType: S3Prefix s3InputMode: File s3Uri: s3://<s3bucket>/mnist_kmeans_example/processing_code/kmeans_preprocessing.py Processing Output Config: Outputs: Output Name: train_data s3Output: Local Path: /opt/ml/processing/output_train/ s3UploadMode: EndOfJob s3Uri: s3://<s3bucket>/mnist_kmeans_example/output/ Output Name: test_data s3Output: Local Path: /opt/ml/processing/output_test/ s3UploadMode: EndOfJob s3Uri: s3://<s3bucket>/mnist_kmeans_example/output/ Output Name: valid_data s3Output: Local Path: /opt/ml/processing/output_valid/ s3UploadMode: EndOfJob s3Uri: s3://<s3bucket>/mnist_kmeans_example/output/ Processing Resources: Cluster Config: Instance Count: 1 Instance Type: ml.m5.xlarge Volume Size In GB: 20 Region: us-west-2 Role Arn: arn:aws:iam::<acct-id>:role/m-sagemaker-role Stopping Condition: Max Runtime In Seconds: 1800 Tags: Key: tagKey Value: tagValue Status: Cloud Watch Log URL: https://us-west-2.console.aws.amazon.com/cloudwatch/home?region=us-west-2#logStream:group=/aws/sagemaker/ProcessingJobs;prefix=kmeans-mnist-processing-7410ed52fd1811eab19a165ae9f9e385;streamFilter=typeLogStreamPrefix Last Check Time: 2020-09-22T21:14:29Z Processing Job Status: InProgress Sage Maker Processing Job Name: kmeans-mnist-processing-7410ed52fd1811eab19a165ae9f9e385 Events: <none>
Supprimer un ProcessingJob
Lorsque vous supprimez une tâche de traitement, la tâche de SageMaker traitement est supprimée de Kubernetes, mais elle n'est pas supprimée de. SageMaker Si le statut de la tâche SageMaker est InProgress
le suivant, la tâche est arrêtée. Les tâches de traitement qui sont arrêtées n'entraînent aucun frais de SageMaker ressources. Utilisez l'une des commandes suivantes pour supprimer une tâche de traitement.
Pour l'installation à portée de cluster :
kubectl delete processingjob kmeans-mnist-processing
Pour l'installation à portée de l'espace de noms :
kubectl delete processingjob kmeans-mnist-processing -n
<NAMESPACE>
Le résultat de votre tâche de traitement doit ressembler à ce qui suit :
processingjob.sagemaker.aws.amazon.com "kmeans-mnist-processing" deleted
Note
SageMaker ne supprime pas la tâche de traitement. Les tâches arrêtées continuent de s'afficher dans la SageMaker console. La delete
commande prend quelques minutes pour nettoyer les ressources de SageMaker.
HostingAutoscalingPolicy (HAP) Opérateur
L'opérateur HostingAutoscalingPolicy (HAP) prend une liste de ressources IDs en entrée et applique la même politique à chacune d'elles. Chaque ID de ressource est une combinaison d'un nom de point de terminaison et d'un nom de variante. L'HAPopérateur effectue deux étapes : il enregistre la ressource, IDs puis applique la politique de dimensionnement à chaque ID de ressource. Delete
annule les deux actions. Vous pouvez l'appliquer HAP à un point de SageMaker terminaison existant ou vous pouvez créer un nouveau SageMaker point de terminaison à l'aide de l'HostingDeployment opérateur. Pour en savoir plus sur la mise à SageMaker l'échelle automatique, consultez la documentation relative à la politique de mise à l'échelle automatique des applications.
Note
Dans vos commandes kubectl
, vous pouvez utiliser le format court, hap
, à la place de hostingautoscalingpolicy
.
Rubriques
Création d'un à HostingAutoscalingPolicy l'aide d'un YAML fichier
Utilisez un YAML fichier pour créer un HostingAutoscalingPolicy (HAP) qui applique une métrique prédéfinie ou personnalisée à un ou plusieurs SageMaker points de terminaison.
Amazon a SageMaker besoin de valeurs spécifiques pour appliquer l'autoscaling à votre variante. Si ces valeurs ne sont pas spécifiées dans la YAML spécification, l'HAPopérateur applique les valeurs par défaut suivantes.
# Do not change Namespace = "sagemaker" # Do not change ScalableDimension = "sagemaker:variant:DesiredInstanceCount" # Only one supported PolicyType = "TargetTrackingScaling" # This is the default policy name but can be changed to apply a custom policy DefaultAutoscalingPolicyName = "SageMakerEndpointInvocationScalingPolicy"
Utilisez les exemples suivants pour créer un HAP qui applique une métrique prédéfinie ou personnalisée à un ou plusieurs points de terminaison.
Exemple 1 : Application d'une métrique prédéfinie à une variante de point de terminaison unique
-
Téléchargez le YAML fichier d'exemple pour une métrique prédéfinie à l'aide de la commande suivante :
wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/hap-predefined-metric.yaml
-
Modifiez le YAML fichier pour spécifier votre
endpointName
,variantName
, etRegion
. -
Utilisez l'une des commandes suivantes pour appliquer une métrique prédéfinie à un seul ID de ressource (combinaison de nom de point de terminaison et de nom de variante).
Pour l'installation à portée de cluster :
kubectl apply -f hap-predefined-metric.yaml
Pour l'installation à portée de l'espace de noms :
kubectl apply -f hap-predefined-metric.yaml -n
<NAMESPACE>
Exemple 2 : Application d'une métrique personnalisée à une variante de point de terminaison unique
-
Téléchargez le YAML fichier d'exemple pour une métrique personnalisée à l'aide de la commande suivante :
wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/hap-custom-metric.yaml
-
Modifiez le YAML fichier pour spécifier votre
endpointName
,variantName
, etRegion
. -
Utilisez l'une des commandes suivantes pour appliquer une métrique personnalisée à un seul ID de ressource (combinaison de nom de point de terminaison et de nom de variante) à la place de la
SageMakerVariantInvocationsPerInstance
recommandée.Note
Amazon SageMaker ne vérifie pas la validité de vos YAML spécifications.
Pour l'installation à portée de cluster :
kubectl apply -f hap-custom-metric.yaml
Pour l'installation à portée de l'espace de noms :
kubectl apply -f hap-custom-metric.yaml -n
<NAMESPACE>
Exemple 3 : Application d'une politique de mise à l'échelle à plusieurs points de terminaison et variantes
Vous pouvez utiliser l'HAPopérateur pour appliquer la même politique de dimensionnement à plusieurs ressourcesIDs. Une demande scaling_policy
distincte est créée pour chaque ID de ressource (combinaison de nom de point de terminaison et de nom de variante).
-
Téléchargez le YAML fichier d'exemple pour une métrique prédéfinie à l'aide de la commande suivante :
wget https://raw.githubusercontent.com/aws/amazon-sagemaker-operator-for-k8s/master/samples/hap-predefined-metric.yaml
-
Modifiez le YAML fichier pour spécifier vos
variantName
valeursRegion
endpointName
et vos multiples. -
Utilisez l'une des commandes suivantes pour appliquer une métrique prédéfinie à plusieurs ressources IDs (combinaisons de nom de point de terminaison et de nom de variante).
Pour l'installation à portée de cluster :
kubectl apply -f hap-predefined-metric.yaml
Pour l'installation à portée de l'espace de noms :
kubectl apply -f hap-predefined-metric.yaml -n
<NAMESPACE>
Considérations HostingAutoscalingPolicies relatives à plusieurs terminaux et variantes
Les considérations suivantes s'appliquent lorsque vous utilisez plusieurs ressources IDs :
-
Si vous appliquez une seule stratégie à plusieurs ressourcesIDs, une stratégie ARN est créée par ID de ressource. Cinq points d'extrémité ont cinq P. olicyARNs Lorsque vous exécutez la commande
describe
sur la politique, les réponses apparaissent comme une tâche et incluent un statut de tâche unique. -
Si vous appliquez une métrique personnalisée à plusieurs ressourcesIDs, la même dimension ou valeur est utilisée pour toutes les valeurs d'ID de ressource (variante). Par exemple, si vous appliquez une métrique client pour les instances 1 à 5 et que la dimension de variante de point de terminaison est mappée à la variante 1, lorsque la variante 1 dépasse les métriques, tous les points de terminaison sont augmentés ou réduits.
-
L'HAPopérateur prend en charge la mise à jour de la liste des ressourcesIDs. Si vous modifiez, ajoutez ou supprimez une ressource dans la spécification, la politique de mise IDs à l'échelle automatique est supprimée de la liste de variantes précédente et appliquée aux nouvelles combinaisons d'identifiants de ressources spécifiées. Utilisez la
describe
commande pour répertorier la ressource IDs à laquelle la politique est actuellement appliquée.
Liste HostingAutoscalingPolicies
Utilisez l'une des commandes suivantes pour répertorier toutes les HostingAutoscalingPolicies (HAPs) créées à l'aide de l'HAPopérateur.
Pour l'installation à portée de cluster :
kubectl get hap
Pour l'installation à portée de l'espace de noms :
kubectl get hap -n
<NAMESPACE>
Votre sortie doit ressembler à ce qui suit :
NAME STATUS CREATION-TIME hap-predefined Created 2021-07-13T21:32:21Z
Utilisez la commande suivante pour vérifier l'état de votre HostingAutoscalingPolicy (HAP).
kubectl get hap
<job-name>
L'une des valeurs suivantes est renvoyée :
-
Reconciling
– Certains types d'erreurs affichent l'étatReconciling
au lieu deError
. Certains exemples sont des erreurs côté serveur et des points de terminaison à l'étatCreating
ouUpdating
. Vérifiez le champAdditional
dans les journaux d'état ou d'opérateur pour plus d'informations. Created
Error
Pour afficher le point de terminaison de scalabilité automatique auquel vous avez appliqué la politique
-
Ouvrez la SageMaker console Amazon à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Dans le panneau latéral gauche, développez Inférence (Inférence).
-
Choisissez Endpoints (Points de terminaison).
-
Sélectionnez le nom du point de terminaison qui vous intéresse.
-
Faites défiler jusqu'à la section Endpoint runtime settings (Paramètres d'exécution du point de terminaison).
Décrivez un HostingAutoscalingPolicy
Utilisez la commande suivante pour obtenir plus de détails sur a HostingAutoscalingPolicy (HAP). Ces commandes sont généralement utilisées pour résoudre un problème ou vérifier la ressource IDs (combinaisons de nom de point de terminaison et de nom de variante) d'unHAP.
kubectl describe hap
<job-name>
Mettre à jour un HostingAutoscalingPolicy
L'opérateur HostingAutoscalingPolicy (HAP) prend en charge les mises à jour. Vous pouvez modifier votre YAML spécification pour changer les valeurs, puis appliquer à nouveau la politique. L'HAPopérateur supprime la politique existante et applique la nouvelle politique.
Supprimer un HostingAutoscalingPolicy
Utilisez l'une des commandes suivantes pour supprimer une politique HostingAutoscalingPolicy (HAP).
Pour l'installation à portée de cluster :
kubectl delete hap hap-predefined
Pour l'installation à portée de l'espace de noms :
kubectl delete hap hap-predefined -n
<NAMESPACE>
Cette commande supprime la politique de mise à l'échelle et annule l'enregistrement de la cible de mise à l'échelle de Kubernetes. Cette commande renvoie le résultat suivant :
hostingautoscalingpolicies.sagemaker.aws.amazon.com "hap-predefined" deleted
Mettre à jour ou supprimer un point de terminaison avec un HostingAutoscalingPolicy
Pour mettre à jour un point de terminaison doté d'un HostingAutoscalingPolicy (HAP), utilisez la kubectl
delete
commande pour supprimerHAP, mettre à jour le point de terminaison, puis réappliquez leHAP.
Pour supprimer un point de terminaison doté d'unHAP, utilisez la kubectl
delete
commande pour le supprimer HAP avant de supprimer le point de terminaison.