Intégration des SageMaker modèles Amazon à Amazon QuickSight - Amazon QuickSight

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Intégration des SageMaker modèles Amazon à Amazon QuickSight

Note

Vous n'avez pas besoin d'expérience technique en apprentissage automatique (ML) pour créer des analyses et des tableaux de bord utilisant les fonctionnalités basées sur le machine learning d'Amazon. QuickSight

Vous pouvez augmenter les données de votre édition Amazon QuickSight Enterprise grâce aux modèles d'apprentissage SageMaker automatique d'Amazon. Vous pouvez effectuer des inférences sur les données stockées ou SPICE importées à partir de n'importe quelle source de données prise en charge par Amazon QuickSight. Pour obtenir la liste complète des sources de données prises en charge, consultez Sources de données prises en charge.

L'utilisation d'Amazon QuickSight avec SageMaker des modèles peut vous faire gagner du temps que vous pourriez autrement passer à gérer le mouvement des données et à écrire du code. Les résultats sont utiles à la fois pour évaluer le modèle et pour le partager avec les décideurs lorsque vous êtes satisfait des résultats. Vous pouvez commencer immédiatement après la création du modèle. Cette opération révèle les modèles prédéfinis de vos spécialistes des données et vous permet d'appliquer la science des données à vos ensembles de données. Vous pouvez ensuite partager ces informations dans vos tableaux de bord prédictifs. Grâce à l'approche QuickSight sans serveur d'Amazon, le processus évolue de manière fluide, vous n'avez donc pas à vous soucier de la capacité d'inférence ou de requête.

Amazon QuickSight prend en charge SageMaker les modèles qui utilisent des algorithmes de régression et de classification. Vous pouvez appliquer cette fonctionnalité pour obtenir des prévisions pour presque n'importe quel cas d'utilisation professionnelle. Parmi les exemples, on peut citer les prévisions concernant la probabilité de désaffectation des clients, le taux de départ des employés, la notation des clients potentiels et l'évaluation des risques de crédit. Pour utiliser Amazon QuickSight pour fournir des prédictions, les données du SageMaker modèle en entrée et en sortie doivent être au format tabulaire. Dans les cas d'utilisation de la classification avec plusieurs classes ou étiquettes, chaque colonne de sortie doit contenir une valeur unique. Amazon QuickSight ne prend pas en charge les valeurs multiples dans une seule colonne.

Comment fonctionne SageMaker l'intégration

En général, le processus fonctionne comme ceci :

  1. Un QuickSight administrateur Amazon ajoute des autorisations d'accès QuickSight à Amazon SageMaker. Pour ce faire, ouvrez les paramètres de sécurité et d'autorisations depuis la QuickSight page Gérer. Accédez à QuickSightl'accès aux AWS services, puis ajoutez SageMaker.

    Lorsque vous ajoutez ces autorisations, Amazon QuickSight est ajouté à un rôle AWS Identity and Access Management (IAM) qui permet d'accéder à la liste de tous les SageMaker modèles de votre AWS compte. Il fournit également des autorisations pour exécuter SageMaker des tâches dont le nom est préfixé parquicksight-auto-generated-.

  2. Nous vous recommandons de vous connecter à un SageMaker modèle doté d'un pipeline d'inférence, car celui-ci effectue automatiquement le prétraitement des données. Pour de plus amples informations, veuillez consulter Déployer un pipeline d'inférence dans le Guide du développeur SageMaker .

  3. Après avoir identifié les données et le modèle préformé que vous souhaitez utiliser ensemble, le propriétaire du modèle crée et fournit un fichier de schéma. Ce fichier JSON est un contrat avec SageMaker. Il fournit des métadonnées sur les champs, les types de données, l'ordre des colonnes, la sortie et les paramètres que le modèle attend. Le composant de paramètres facultatifs fournit la taille de l’instance et le nombre d'instances de calcul à utiliser pour la tâche.

    Si vous êtes le spécialiste des données qui a créé le modèle, créez ce fichier de schéma en utilisant le format décrit ci-dessous. Si vous êtes un consommateur du modèle, récupérez le fichier de schéma auprès du propriétaire du modèle.

  4. Dans Amazon QuickSight, vous commencez par créer un nouvel ensemble de données contenant les données sur lesquelles vous souhaitez faire des prédictions. Si vous chargez un fichier, vous pouvez ajouter le modèle SageMaker sur l'écran des paramètres de chargement. Sinon, ajoutez le modèle sur la page de préparation des données.

    Avant de continuer, vérifiez les mappages entre l’ensemble de données et le modèle.

  5. Une fois les données importées dans le jeu de données, les champs de sortie contiennent les données renvoyées par SageMaker. Ces champs peuvent être utilisés comme vous utilisez d'autres champs, conformément aux directives décrites à la section Directives d'utilisation.

    Lorsque vous exécutez SageMaker l'intégration, Amazon QuickSight transmet une demande pour exécuter des tâches SageMaker de transformation par lots avec des pipelines d'inférence. Amazon QuickSight commence à approvisionner et à déployer les instances nécessaires à votre AWS compte. Une fois le traitement terminé, ces instances sont arrêtées et mises hors service. La capacité de calcul entraîne des coûts uniquement lorsqu'elle traite des modèles.

    Pour vous permettre de les identifier plus facilement, Amazon QuickSight nomme toutes ses SageMaker tâches par le préfixequicksight-auto-generated-.

  6. La sortie de l'inférence est stockée dans SPICE et ajoutée au jeu de données. Dès que l'inférence est terminée, vous pouvez utiliser l’ensemble de données pour créer des visualisations et des tableaux de bord à l'aide des données de prédictions.

  7. L'actualisation des données démarre chaque fois que vous enregistrez l’ensemble de données. Vous pouvez démarrer manuellement le processus d'actualisation des données en actualisant le jeu de données SPICE, ou vous pouvez le programmer pour qu'il s'exécute à intervalles réguliers. À chaque actualisation des données, le système appelle automatiquement la transformation SageMaker par lots pour mettre à jour les champs de sortie avec de nouvelles données.

    Vous pouvez utiliser les opérations de QuickSight SPICE l'API d'ingestion Amazon pour contrôler le processus d'actualisation des données. Pour plus d'informations sur l'utilisation de ces opérations d'API, consultez le Amazon QuickSight API Reference.

Coûts engagés (pas de coûts supplémentaires avec l'intégration elle-même)

L'utilisation de cette fonctionnalité ne nécessite pas de frais supplémentaires en soi. Vos coûts incluent entre autres :

  • Le coût du déploiement du modèle SageMaker, qui n'est encouru que lorsque le modèle est en cours d'exécution. L'enregistrement d'un jeu de données (après sa création ou sa modification) ou l'actualisation de ses données démarre le processus d'ingestion de données. Ce processus inclut l'appel SageMaker si l'ensemble de données contient des champs déduits. Les frais sont encourus sur le même AWS compte que celui utilisé pour votre QuickSight abonnement.

  • Vos frais QuickSight d'abonnement sont les suivants :

    • Le coût du stockage de vos données dans le moteur de calcul en mémoire dans QuickSight (SPICE). Si vous ajoutez de nouvelles données à SPICE, vous devrez peut-être acheter suffisamment de capacité SPICE pour les prendre en charge.

    • QuickSight abonnements pour les auteurs ou les administrateurs qui créent les ensembles de données.

    • P ay-per-session facture aux spectateurs (lecteurs) l'accès aux tableaux de bord interactifs.

Directives d'utilisation

Sur Amazon QuickSight, les directives d'utilisation suivantes s'appliquent à cette fonctionnalité de l'édition Enterprise :

  • Le traitement du modèle se produit dans SPICE. Par conséquent, il ne peut s'appliquer qu'aux jeux de données stockés dans SPICE. Le processus prend actuellement en charge jusqu'à 500 millions de lignes par jeu de données.

  • Seuls les QuickSight administrateurs ou les auteurs peuvent enrichir les ensembles de données avec des modèles ML. Les lecteurs ne peuvent afficher les résultats que lorsqu'ils font partie d'un tableau de bord.

  • Chaque ensemble de données peut fonctionner avec un seul modèle d’apprentissage-machine.

  • Les champs de sortie ne peuvent pas être utilisés pour calculer de nouveaux champs.

  • Les ensembles de données ne peuvent pas être filtrés sur des champs intégrés au modèle. En d'autres termes, si votre champ de jeu de données est actuellement mappé au modèle de machine learning, vous ne pouvez pas appliquer de filtre sur ce champ.

Dans SageMaker, les directives d'utilisation suivantes s'appliquent à un modèle préentraîné que vous utilisez avec Amazon QuickSight :

  • Lorsque vous créez le modèle, associez-le au Amazon Resource Name (ARN) du rôle IAM approprié. Le rôle IAM du SageMaker modèle doit avoir accès au compartiment Amazon S3 QuickSight utilisé par Amazon.

  • Assurez-vous que votre modèle prend en charge les fichiers .csv pour l'entrée et la sortie. Assurez-vous que vos données sont sous forme de tableau.

  • Fournissez un fichier de schéma contenant des métadonnées sur le modèle, y compris la liste des champs d'entrée et de sortie. Actuellement, vous devez créer ce fichier de schéma manuellement.

  • Considérez le temps qu'il faut pour compléter votre inférence, qui dépend d'un certain nombre de facteurs. Ceux-ci incluent notamment la complexité du modèle, la quantité de données et la capacité de calcul définie. La réalisation de l'inférence peut prendre de plusieurs minutes à plusieurs heures. Amazon QuickSight limite toutes les tâches d'ingestion de données et d'inférence à un maximum de 10 heures. Pour réduire le temps nécessaire à l'exécution d'une inférence, envisagez d'augmenter la taille de l'instance ou le nombre d'instances.

  • Actuellement, vous ne pouvez utiliser que des transformations par lots pour l'intégration avec des données SageMaker, et non des données en temps réel. Vous ne pouvez pas utiliser de SageMaker point de terminaison.

Définition du fichier de schéma

Avant d'utiliser un SageMaker modèle avec des QuickSight données Amazon, créez le fichier de schéma JSON qui contient les métadonnées QuickSight dont Amazon a besoin pour traiter le modèle. L' QuickSight auteur ou l'administrateur Amazon télécharge le fichier de schéma lors de la configuration de l'ensemble de données.

Les champs de schéma sont définis comme suit. Tous les champs sont obligatoires, sauf indication contraire dans la description suivante. Les attributs sont sensibles à la casse.

inputContentType

Type de contenu attendu par ce SageMaker modèle pour les données d'entrée. La seule valeur prise en charge pour ce type de contenu est "text/csv". QuickSight n'inclut aucun des noms d'en-tête que vous ajoutez au fichier d'entrée.

outputContentType

Type de contenu de la sortie produite par le SageMaker modèle que vous souhaitez utiliser. La seule valeur prise en charge pour ce type de contenu est "text/csv".

input

Liste des fonctionnalités attendues par le modèle dans les données d’entrée. QuickSight produit les données d'entrée exactement dans le même ordre. La liste contient les attributs suivants :

  • name : nom de la colonne. Si possible, identifiez-le au nom de la colonne correspondante dans le QuickSight jeu de données. Cet attribut est limité à 100 caractères.

  • type : le type de données de cette colonne. Cet attribut prend les valeurs "INTEGER", "STRING" et "DECIMAL".

  • nullable : (Facultatif) possibilité de valeur NULL pour le champ. La valeur par défaut est true. Si vous définissez cette nullable optionfalse, QuickSight supprime les lignes qui ne contiennent pas cette valeur avant d'appeler SageMaker. Cela permet d'éviter de provoquer une défaillance SageMaker en cas de données requises manquantes.

output

Liste des colonnes de sortie produites par le SageMaker modèle. QuickSightattend ces champs exactement dans le même ordre. La liste contient les attributs suivants :

  • nom — Ce nom devient le nom par défaut de la nouvelle colonne correspondante créée dans QuickSight. Vous pouvez remplacer le nom spécifié ici dans QuickSight. Cet attribut est limité à 100 caractères.

  • type : le type de données de cette colonne. Cet attribut prend les valeurs "INTEGER", "STRING" et "DECIMAL".

instanceTypes

Liste des types d'instances ML qui SageMaker peuvent être provisionnés pour exécuter la tâche de transformation. La liste est fournie à l' QuickSight utilisateur pour qu'il puisse choisir. Cette liste est limitée aux types pris en charge par SageMaker. Pour plus d'informations sur les types pris TransformResourcesen charge, consultez le guide du SageMaker développeur.

defaultInstanceType

(Facultatif) Type d'instance présenté comme option par défaut dans l' SageMaker assistant dans QuickSight. Incluez ce type d'instance dans instanceTypes.

instanceCount

(Facultatif) Le nombre d'instances définit le nombre d'instances sélectionnées SageMaker à provisionner pour exécuter la tâche de transformation. Cette valeur doit être un nombre entier positif.

description

Ce champ permet à la personne propriétaire du SageMaker modèle de communiquer avec la personne qui utilise ce modèle dans QuickSight. Utilisez ce champ afin de fournir des conseils pour une utilisation efficace de ce modèle. Par exemple, ce champ peut contenir des informations sur la sélection d'un type d'instance effectif à choisir dans la liste instanceTypes, en fonction de la taille de l’ensemble de données. Ce champ est limité à 1 000 caractères.

Version

Version du schéma, par exemple "1.0".

L'exemple suivant montre la structure du JSON dans le fichier de schéma.

{ "inputContentType": "CSV", "outputContentType": "CSV", "input": [ { "name": "buying", "type": "STRING" }, { "name": "maint", "type": "STRING" }, { "name": "doors", "type": "INTEGER" }, { "name": "persons", "type": "INTEGER" }, { "name": "lug_boot", "type": "STRING" }, { "name": "safety", "type": "STRING" } ], "output": [ { "name": "Acceptability", "type": "STRING" } ], "description": "Use ml.m4.xlarge instance for small datasets, and ml.m4.4xlarge for datasets over 10 GB", "version": "1.0", "instanceCount": 1, "instanceTypes": [ "ml.m4.xlarge", "ml.m4.4xlarge" ], "defaultInstanceType": "ml.m4.xlarge" }

La structure du fichier de schéma est liée au type de modèle utilisé dans les exemples fournis par SageMaker.

Ajouter un SageMaker modèle à votre QuickSight jeu de données

À l'aide de la procédure suivante, vous pouvez ajouter un SageMaker modèle préentraîné à votre jeu de données afin de pouvoir utiliser des données prédictives dans les analyses et les tableaux de bord.

Avant de commencer, préparez les éléments suivants :

  • Données que vous souhaitez utiliser pour créer l’ensemble de données.

  • Nom du SageMaker modèle que vous souhaitez utiliser pour augmenter le jeu de données.

  • Schéma du modèle. Ce schéma inclut les mappages de noms de champs et les types de données. Il est utile s'il contient également des paramètres recommandés pour le type d'instance et le nombre d'instances à utiliser.

Pour compléter votre ensemble de QuickSight données Amazon avec SageMaker
  1. Créez un nouveau jeu de données à partir de la page d'accueil en choisissant Jeux de données, puis sélectionnez Nouveau jeu de données.

    Vous pouvez également modifier un ensemble de données existant.

  2. Choisissez Augmenter avec SageMaker sur l'écran de préparation des données.

  3. Dans Select your model (Sélectionnez votre modèle), choisissez les paramètres suivants :

    • Modèle — Choisissez le SageMaker modèle à utiliser pour déduire des champs.

    • Nom : fournissez un nom descriptif pour le modèle.

    • Schéma : chargez le fichier de schéma JSON fourni pour le modèle.

    • Paramètres avancés : QuickSight recommande les valeurs par défaut sélectionnées en fonction de votre ensemble de données. Vous pouvez utiliser des paramètres d'exécution spécifiques pour équilibrer la vitesse et le coût de votre tâche. Pour ce faire, entrez les types d'instances SageMaker ML pour le type d'instance et le nombre d'instances pour le nombre d'instances pour le nombre.

    Choisissez Next (Suivant) pour continuer.

  4. Pour les entrées de révision, passez en revue les champs mappés à votre ensemble de données. QuickSight tente de mapper automatiquement les champs de votre schéma aux champs de votre jeu de données. Vous pouvez apporter des modifications ici si le mappage a besoin d'être ajusté.

    Choisissez Next (Suivant) pour continuer.

  5. Dans Revoir les sorties, passez en revue les champs ajoutés à votre jeu de données.

    Choisissez Save and prepare data (Enregistrer et préparer les données) pour confirmer vos choix.

  6. Pour actualiser les données, choisissez l’ensemble de données pour en afficher les détails. Choisissez ensuite Refresh Now (Actualiser maintenant) pour actualiser manuellement les données, ou choisissez Schedule refresh (Programmer l'actualisation) pour définir un intervalle d'actualisation régulier. Lors de chaque actualisation des données, le système exécute automatiquement la tâche de transformation SageMaker par lots pour mettre à jour les champs de sortie avec les nouvelles données.