Guide de compatibilité des formats de données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Guide de compatibilité des formats de données

Ce guide décrit les types de formats de données compatibles avec les tâches de traitement SageMaker Clarify. Les types de formats de données pris en charge incluent les extensions de fichier, la structure des données et les exigences ou restrictions spécifiques pour les ensembles de données tabulaires, d'images et de séries chronologiques. Ce guide explique également comment vérifier si votre jeu de données est conforme à ces exigences.

À un niveau élevé, la tâche de traitement SageMaker Clarify suit le modèle entrée-processus-sortie pour calculer les métriques de biais et les attributions de fonctionnalités. Consultez les exemples suivants pour plus de détails.

L'entrée de la tâche de traitement SageMaker Clarify comprend les éléments suivants :

Au cours de la phase de traitement, SageMaker Clarify calcule les métriques de biais et les attributions de fonctionnalités. La tâche de traitement SageMaker Clarify effectue les étapes suivantes dans le backend :

  • La tâche de traitement SageMaker Clarify analyse votre configuration d'analyse et charge votre ensemble de données.

  • Pour calculer les métriques de biais et les attributions de fonctionnalités de post-entraînement, la tâche nécessite des prédictions de modèle à partir de votre modèle. La tâche de traitement SageMaker Clarify sérialise vos données et les envoie sous forme de demande à votre modèle, qui est déployée sur un point de terminaison d'inférence SageMaker en temps réel. Ensuite, la tâche de traitement SageMaker Clarify extrait les prédictions de la réponse.

  • La tâche de traitement SageMaker Clarify effectue l'analyse du biais et de l'explicabilité, puis produit les résultats.

Pour plus d'informations, consultez Comment fonctionnent les tâches de traitement SageMaker Clarify.

Le paramètre que vous utilisez pour spécifier le format des données dépend de l'endroit où les données sont utilisées dans le flux de traitement, comme suit :

  • Pour un jeu de données en entrée, utilisez le dataset_type paramètre pour spécifier le format ou le MIME type.

  • Pour une demande adressée à un point de terminaison, utilisez le paramètre content_type pour spécifier le format.

  • Pour une réponse provenant d'un point de terminaison, utilisez le paramètre accept_type pour spécifier le format.

Le jeu de données en entrée, la demande et la réponse en direction et en provenance du point de terminaison ne nécessitent pas le même format. Par exemple, vous pouvez utiliser un jeu de données Parquet avec une charge utile de CSV demande et une charge utile de réponse JSON Lines dans les conditions suivantes.

  • Votre analyse est correctement configurée.

  • Votre modèle prend en charge les formats de demande et de réponse.

Note

S'content_typeaccept_typeils ne sont pas fournis, le conteneur SageMaker Clarify en déduit le content_type etaccept_type.