Créez un modèle de travail d'évaluation faisant appel à des travailleurs humains

Important

Les IAM politiques personnalisées qui autorisent Amazon SageMaker Studio ou Amazon SageMaker Studio Classic à créer des SageMaker ressources Amazon doivent également accorder des autorisations pour ajouter des balises à ces ressources. L'autorisation d'ajouter des balises aux ressources est requise car Studio et Studio Classic balisent automatiquement toutes les ressources qu'ils créent. Si une IAM politique autorise Studio et Studio Classic à créer des ressources mais n'autorise pas le balisage, des erreurs « AccessDenied » peuvent se produire lors de la tentative de création de ressources. Pour de plus amples informations, veuillez consulter Fournir des autorisations pour le balisage des ressources SageMaker.

AWS Politiques gérées pour Amazon SageMakerqui donnent des autorisations pour créer des SageMaker ressources incluent déjà des autorisations pour ajouter des balises lors de la création de ces ressources.

Pour créer une tâche d'évaluation de modèle faisant appel à des travailleurs humains, vous devez configurer votre environnement de manière à disposer des autorisations appropriées. Vous pouvez ensuite utiliser l'assistant de tâche d'évaluation de modèles dans Studio pour sélectionner les modèles que vous souhaitez utiliser, puis définir les paramètres et le personnel que vous souhaitez utiliser dans le travail d'évaluation de modèles.

Lorsque le travail est terminé, vous pouvez consulter un rapport pour comprendre comment votre personnel a évalué les modèles que vous avez sélectionnés. Les résultats sont également enregistrés dans Amazon S3 sous forme de fichier jsonlines de sortie.

Dans un travail d'évaluation de modèles qui fait appel à des travailleurs humains, vous avez la possibilité d'importer des données d'inférence à partir de modèles hébergés à l'extérieur SageMaker et de modèles hébergés à l' AWS extérieur. Pour en savoir plus, consultez Utilisation de vos propres données d'inférence dans des tâches d'évaluation de modèles faisant appel à des travailleurs humains.

Lorsque vos tâches sont terminées, les résultats sont enregistrés dans le compartiment Amazon S3 spécifié lors de la création de la tâche. Pour savoir comment interpréter vos résultats, consultezComprenez les résultats de votre travail d'évaluation de modèles.

Prérequis

Pour exécuter une évaluation de modèle dans l'interface utilisateur d'Amazon SageMaker Studio, votre rôle AWS Identity and Access Management (IAM) et tous les ensembles de données d'entrée doivent disposer des autorisations appropriées. Si vous n'avez pas de SageMaker domaine ou de IAM rôle, suivez les étapes décrites dansGuide de configuration avec Amazon SageMaker.

Configuration de vos autorisations

La section suivante explique comment créer un compartiment Amazon S3 et comment spécifier les autorisations de partage de ressources inter-origines (CORS) correctes.

Pour créer un compartiment Amazon S3 et spécifier les CORS autorisations

Ouvrez la SageMaker console Amazon à l'adresse https://console.aws.amazon.com/sagemaker/.
Dans le volet de navigation, S3 entrez dans la barre de recherche en haut de la page.
Choisissez S3 sous Services.
Choisissez Buckets dans le volet de navigation.
Dans la section Compartiments à usage général, sous Nom, choisissez le nom du compartiment S3 que vous souhaitez utiliser pour stocker les entrées et sorties de votre modèle dans la console. Si vous ne possédez pas de compartiment S3, procédez comme suit.
1. Sélectionnez Créer un compartiment pour ouvrir une nouvelle page de création de compartiment.
2. Dans la section Configuration générale, sous AWS Région, sélectionnez la AWS région dans laquelle se trouve votre modèle de base.
3. Nommez votre compartiment S3 dans la zone de saisie sous Nom du compartiment.
4. Acceptez tous les choix par défaut.
5. Sélectionnez Créer un compartiment.
6. Dans la section Compartiments à usage général, sous Nom, sélectionnez le nom du compartiment S3 que vous avez créé.
Choisissez l’onglet Permissions (Autorisations).
Accédez à la section Partage de ressources entre origines (CORS) en bas de la fenêtre. Choisissez Modifier.

Voici la CORS politique minimale requise que vous devez ajouter à votre compartiment Amazon S3. Copiez et collez ce qui suit dans la zone de saisie.


[
{
    "AllowedHeaders": ["*"],
    "AllowedMethods": [
        "GET",
        "HEAD",
        "PUT"
    ],
    "AllowedOrigins": [
        "*"
    ],
    "ExposeHeaders": [
      "Access-Control-Allow-Origin"
    ],
    "MaxAgeSeconds": 3000
}
]

Sélectionnez Enregistrer les modifications.

Pour ajouter des autorisations à votre IAM politique

Vous souhaiterez peut-être prendre en compte le niveau d'autorisations à attribuer à votre IAM rôle.

Vous pouvez créer une IAM politique personnalisée qui autorise les autorisations minimales requises adaptées à ce service.
Vous pouvez associer les AmazonS3FullAccesspolitiques existantes AmazonSageMakerFullAccessà votre IAM rôle existant, ce qui est plus permissif. Pour plus d'informations sur cette AmazonSageMakerFullAccess politique, consultez AmazonSageMakerFullAccess.

Si vous souhaitez associer les politiques existantes à votre IAM rôle, vous pouvez ignorer les instructions définies ici et continuer à suivre les instructions de la section Pour ajouter des autorisations à votre IAM rôle.

Les instructions suivantes créent une IAM politique personnalisée adaptée à ce service avec un minimum d'autorisations.

Ouvrez la SageMaker console Amazon à l'adresse https://console.aws.amazon.com/sagemaker/.
Dans la barre de recherche en haut de la page, entrezIAM.
Sous Services, sélectionnez Identity and Access Management (IAM).
Choisissez Policies dans le volet de navigation.
Choisissez Create Policy (Créer une politique). Lorsque l'éditeur de politiques s'ouvre, choisissez JSON.

Assurez-vous que les autorisations suivantes apparaissent dans l'éditeur de politiques. Vous pouvez également copier et coller ce qui suit dans l'éditeur de politiques.


{
"Version": "2012-10-17",
"Statement":
    [{
        "Effect": "Allow",
        "Action": [
            "s3:GetObject",
            "s3:PutObject",
            "s3:ListBucket"
        ],
        "Resource": [
            "arn:aws:s3:::{input_bucket}/*",
            "arn:aws:s3:::{input_bucket}",
            "arn:aws:s3:::{output_bucket}/*",
            "arn:aws:s3:::{output_bucket}",
            "arn:aws:s3:::jumpstart-cache-prod-{region}/*",
            "arn:aws:s3:::jumpstart-cache-prod-{region}"
        ]
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:CreateEndpoint",
            "sagemaker:DeleteEndpoint",
            "sagemaker:CreateEndpointConfig",
            "sagemaker:DeleteEndpointConfig"
        ],
        "Resource": [
            "arn:aws:sagemaker:{region}:{account-id}:endpoint/sm-margaret-*",
            "arn:aws:sagemaker:{region}:{account-id}:endpoint-config/sm-margaret-*"
        ],
        "Condition": {
            "ForAnyValue:StringEquals": {
                "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id"
            }
        }
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeProcessingJob",
            "sagemaker:DescribeEndpoint",
            "sagemaker:InvokeEndpoint"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeInferenceComponent",
            "sagemaker:AddTags",
            "sagemaker:CreateModel",
            "sagemaker:DeleteModel"
        ],
        "Resource": "arn:aws:sagemaker:{region}:{account-id}:model/*",
        "Condition": {
            "ForAnyValue:StringEquals": {
                "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id"
            }
        }
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeFlowDefinition",
            "sagemaker:StartHumanLoop",
            "sagemaker:DescribeHumanLoop"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "logs:CreateLogStream",
            "logs:PutLogEvents",
            "logs:CreateLogGroup",
            "logs:DescribeLogStreams"
        ],
        "Resource": "arn:aws:logs:{region}:{account-id}:log-group:/aws/sagemaker/ProcessingJobs:*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData"
        ],
        "Resource":"*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "ecr:GetAuthorizationToken",
            "ecr:BatchCheckLayerAvailability",
            "ecr:GetDownloadUrlForLayer",
            "ecr:BatchGetImage"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "kms:DescribeKey",
            "kms:GetPublicKey",
            "kms:Decrypt",
            "kms:Encrypt"
        ],
        "Resource": [
            "arn:aws:kms:{region}:{account-id}:key/{kms-key-id}"
        ]
    },
    {
        "Effect": "Allow",
        "Action": [
            "iam:PassRole"
        ],
        "Resource": "arn:aws:iam::{account-id}:role/{this-role-created-by-customer}",
        "Condition": {
            "StringEquals": {
                "aws:PrincipalAccount": [
                    "account-id"
                ]
            }
        }
    }]
}

Choisissez Suivant.
Entrez le nom de la politique dans la section Détails de la politique, sous Nom de la politique. Vous pouvez également saisir une description facultative. Vous rechercherez le nom de cette politique lorsque vous l'attribuerez à un rôle.
Choisissez Create Policy (Créer une politique).

Pour ajouter des autorisations à votre IAM rôle

Ouvrez la SageMaker console Amazon à l'adresse https://console.aws.amazon.com/sagemaker/.
Dans la barre de recherche en haut de la page, entrezIAM.
Sous Services, sélectionnez Identity and Access Management (IAM).
Choisissez Rôles dans le panneau de navigation.
Si vous créez un nouveau rôle :
1. Sélectionnez Créer un rôle.
2. À l'étape Sélectionner une entité de confiance, sous Type d'entité fiable, sélectionnez Politique de confiance personnalisée.
3. Dans l'éditeur de politique de confiance personnalisée, à côté de Ajouter un principal, choisissez Ajouter.
4. Dans la fenêtre contextuelle Ajouter un élément principal, sous Type principal, sélectionnez les AWS services dans la liste déroulante des options.
5. En cours de ARNremplacement {ServiceName} parsagemaker.
6. Choisissez Ajouter un principal.
7. Choisissez Suivant.
8. (Facultatif) Sous Politiques d'autorisations, sélectionnez les politiques que vous souhaitez ajouter à votre rôle.
9. (Facultatif) Sous Définir la limite des autorisations - facultatif, choisissez votre paramètre de limite d'autorisation.
10. Choisissez Suivant.
11. À l'étape Nom, révision et création, sous Détails du rôle, saisissez le nom et la description de votre rôle.
12. (Facultatif) Sous Ajouter des balises (facultatif), vous pouvez ajouter des balises en choisissant Ajouter une nouvelle balise et en saisissant une paire clé et valeur (facultatif).
13. Vérifiez vos paramètres.
14. Sélectionnez Créer un rôle.
Si vous ajoutez la politique à un rôle existant :
1. Sélectionnez le nom du rôle sous Nom du rôle. La fenêtre principale change pour afficher les informations relatives à votre rôle.
2. Dans la section Politiques d'autorisations, cliquez sur la flèche vers le bas à côté de Ajouter des autorisations.
3. Parmi les options qui s'affichent, choisissez Joindre des politiques.
4. Dans la liste des politiques qui s'affichent, recherchez et sélectionnez la politique que vous avez créée sous Pour ajouter des autorisations à votre IAM politique et cochez la case à côté du nom de votre politique. Si vous n'avez pas créé de IAM politique personnalisée, recherchez et cochez les cases situées à côté AmazonSageMakerFullAccessdes AmazonS3FullAccesspolitiques AWS fournies. Vous souhaiterez peut-être prendre en compte le niveau d'autorisations à attribuer à votre IAM rôle. Les instructions relatives à la IAM politique personnalisée sont moins permissives, tandis que cette dernière est plus permissive. Pour plus d'informations sur cette AmazonSageMakerFullAccess politique, consultez AmazonSageMakerFullAccess.
5. Choisissez Add permissions (Ajouter des autorisations). Une bannière en haut de la page doit indiquer que la politique a été correctement attachée au rôle. une fois terminé.

Pour ajouter une politique de confiance à votre IAM rôle

La politique de confiance suivante permet aux administrateurs SageMaker d'accepter ce rôle. Vous devez ajouter la politique à votre IAM rôle. Pour ce faire, suivez les étapes ci-dessous.

Ouvrez la SageMaker console Amazon à l'adresse https://console.aws.amazon.com/sagemaker/.
Dans la barre de recherche en haut de la page, entrezIAM.
Sous Services, sélectionnez Identity and Access Management (IAM).
Choisissez Rôles dans le panneau de navigation.
Sélectionnez le nom du rôle sous Nom du rôle. La fenêtre principale change pour afficher les informations relatives à votre rôle.
Choisissez l'onglet Relation de confiance.
Choisissez Edit trust policy (Modifier la politique d’approbation).

Assurez-vous que la politique suivante apparaît sous Modifier la politique de confiance. Vous pouvez également copier-coller ce qui suit dans l'éditeur.


{
"Version": "2012-10-17",
"Statement": [
    {
        "Sid": "",
        "Effect": "Allow",
        "Principal": {
            "Service": [
                "sagemaker.amazonaws.com"
            ]
        },
        "Action": "sts:AssumeRole"
    }
]
}

Choisissez Mettre à jour une politique. Une bannière en haut de la page doit indiquer que la politique de confiance a été mise à jour. une fois terminé.

Vous pouvez créer une tâche d'évaluation humaine à l'aide d'un modèle textuel disponible dans JumpStart ou vous pouvez utiliser un JumpStart modèle que vous avez précédemment déployé sur un terminal.

Pour lancer JumpStart

Ouvrez la SageMaker console Amazon à l'adresse https://console.aws.amazon.com/sagemaker/.
Dans la barre de recherche en haut de la page, entrezSageMaker.
Sous Services, sélectionnez Amazon SageMaker.
Choisissez Studio dans le volet de navigation.
Choisissez votre domaine dans la section Commencer, après avoir développé la flèche vers le bas sous Sélectionner un domaine.
Choisissez votre profil utilisateur dans la section Commencer après avoir développé la flèche vers le bas sous Sélectionner le profil utilisateur.
Choisissez Open Studio pour ouvrir la page d'accueil de Studio.
Choisissez Jobs dans le volet de navigation.

Pour configurer une tâche d'évaluation

Sur la page d'accueil de l'évaluation du modèle, sélectionnez Évaluer un modèle
Spécifiez les détails de la tâche.
1. Entrez le nom de l'évaluation de votre modèle. Ce nom vous permet d'identifier la tâche d'évaluation de votre modèle une fois qu'elle a été soumise.
2. Entrez une description pour ajouter plus de contexte au nom.
3. Choisissez Suivant.
Configurer l'évaluation
1. Sous Choisir un type d'évaluation, sélectionnez le bouton radio à côté de Humain.
2. Sous Choisissez le ou les modèles que vous souhaitez évaluer, choisissez Ajouter un modèle à l'évaluation. Vous pouvez évaluer jusqu'à deux modèles pour chaque évaluation.
  1. Pour utiliser un modèle pré-entraîné, choisissez le JumpStart modèle de JumpStart base pré-entraîné. Si vous souhaitez utiliser un JumpStart modèle que vous avez précédemment déployé sur un point de terminaison, choisissez Endpoints with JumpStart foundation models.
  2. Si le modèle nécessite un accord légal, cochez la case pour confirmer que vous êtes d'accord.
  3. Si vous souhaitez ajouter un autre modèle, répétez l'étape précédente.
3. Pour modifier le comportement du modèle lors de l'inférence, choisissez Définir les paramètres.
  
  Les paramètres définis contiennent une liste de paramètres d'inférence qui affectent le degré de caractère aléatoire de la sortie de votre modèle, la longueur de la sortie de votre modèle et les mots que le modèle choisira ensuite.
4. Sélectionnez ensuite un type de tâche. Vous pouvez sélectionner l'une des options suivantes :
  - Récapitulatif du texte
  - Réponse aux questions (Q&R)
  - Classification du texte
  - Génération ouverte
  - Personnalisé
5. Dans la section Mesures d'évaluation, choisissez une dimension d'évaluation et entrez un contexte supplémentaire concernant la dimension dans la zone de texte sous Description. Vous pouvez choisir parmi les dimensions suivantes :
  - Fluidité — Mesure la qualité linguistique d'un texte généré.
  - Cohérence — Mesure l'organisation et la structure d'un texte généré.
  - Toxicité — Mesure la nocivité d'un texte généré.
  - Précision — Indique la précision d'un texte généré.
  - Dimension d'évaluation personnalisée dont vous pouvez définir le nom et la description pour votre équipe de travail.
    
    Pour ajouter une dimension d'évaluation personnalisée, procédez comme suit :
    Choisissez Ajouter une dimension d'évaluation.
    
    Dans la zone de texte contenant Fournir une dimension d'évaluation, saisissez le nom de votre dimension personnalisée.
    
    Dans la zone de texte contenant Fournir une description pour cette dimension d'évaluation, saisissez une description afin que votre équipe de travail sache comment évaluer votre dimension personnalisée.
  Sous chacune de ces mesures se trouvent des mesures de reporting que vous pouvez sélectionner à l'aide de la flèche vers le bas Choisissez un type de métrique. Si vous avez deux modèles à évaluer, vous pouvez choisir des indicateurs de reporting comparatifs ou individuels. Si vous avez un modèle à évaluer, vous ne pouvez choisir que des indicateurs de reporting individuels. Vous pouvez choisir les types de mesures de reporting suivants pour chacune des mesures ci-dessus.
  - Échelle de Likert (comparative) - comparaison — Un évaluateur humain indiquera sa préférence entre deux réponses sur une échelle de Likert à 5 points conformément à vos instructions. Les résultats du rapport final se présentent sous la forme d’un histogramme des degrés de préférence établis par les évaluateurs pour l’ensemble du jeu de données. Définissez les points importants de l'échelle à 5 points dans vos instructions afin que vos évaluateurs sachent comment évaluer les réponses en fonction de vos attentes. Dans la JSON sortie enregistrée dans Amazon S3, ce choix est représenté par ComparisonLikertScale la paire clé-valeur"evaluationResults":"ComparisonLikertScale".
  - Boutons de choix (comparatif) : permettent à un évaluateur humain d'indiquer sa réponse préférée par rapport à une autre. Les évaluateurs indiquent leur préférence entre deux réponses conformément à vos instructions à l'aide de boutons radio. Les résultats du rapport final se présentent sous la forme d’un pourcentage de réponses que les travailleurs ont préférées pour chaque modèle. Expliquez clairement votre méthode d'évaluation dans vos instructions. Dans la JSON sortie enregistrée dans Amazon S3, ce choix est représenté par ComparisonChoice la paire clé-valeur"evaluationResults":"ComparisonChoice".
  - Rang ordinal (comparatif) — Permet à un évaluateur humain de classer ses réponses préférées à une invite dans l'ordre, en commençant par1, conformément à vos instructions. Les résultats du rapport final se présentent sous la forme d’un histogramme des classements des évaluateurs pour l’ensemble du jeu de données. Définissez ce que 1 signifie un rang de dans vos instructions. Dans la JSON sortie enregistrée dans Amazon S3, ce choix est représenté par ComparisonRank la paire clé-valeur"evaluationResults":"ComparisonRank".
  - (Individuel) Pouce vers le haut ou vers le bas : permet à un évaluateur humain d'évaluer chaque réponse d'un modèle comme étant acceptable ou inacceptable conformément à vos instructions. Les résultats du rapport final se présentent sous la forme d’un pourcentage du nombre total d’évaluations approuvées (pouce vers le haut) par les évaluateurs, pour chaque modèle. Vous pouvez utiliser cette méthode d’évaluation pour évaluer un ou plusieurs modèles. Si vous l'utilisez dans une évaluation contenant deux modèles, votre équipe de travail recevra une réponse positive ou négative pour chaque modèle et le rapport final présentera les résultats agrégés pour chaque modèle individuellement. Définissez ce qui est acceptable comme note positive ou négative dans vos instructions. Dans la JSON sortie enregistrée dans Amazon S3, ce choix est représenté par ThumbsUpDown la paire clé-valeur"evaluationResults":"ThumbsUpDown".
  - Échelle de Likert (individuelle) - individuelle — Permet à un évaluateur humain d'indiquer dans quelle mesure il approuve la réponse du modèle en fonction de vos instructions sur une échelle de Likert à 5 points. Les résultats du rapport final seront présentés sous forme d'histogramme des notes à 5 points attribuées par les évaluateurs sur l'ensemble de votre ensemble de données. Vous pouvez utiliser cette échelle pour une évaluation contenant un ou plusieurs modèles. Si vous sélectionnez cette méthode de notation dans une évaluation contenant plusieurs modèles, une échelle de Likert à 5 points sera présentée à votre équipe de travail pour chaque réponse du modèle et le rapport final affichera les résultats agrégés pour chaque modèle individuellement. Définissez les points importants sur l'échelle de 5 points dans vos instructions afin que vos évaluateurs sachent comment évaluer les réponses en fonction de vos attentes. Dans la JSON sortie enregistrée dans Amazon S3, ce choix est représenté par IndividualLikertScale la paire clé-valeur"evaluationResults":"IndividualLikertScale".
6. Choisissez un jeu de données Prompt. Cet ensemble de données est obligatoire et sera utilisé par votre équipe de travail humaine pour évaluer les réponses de votre modèle. Fournissez le S3 URI à un compartiment Amazon S3 contenant votre ensemble de données d'invite dans la zone de texte située sous S3 URI pour votre fichier de jeu de données d'entrée. Votre jeu de données doit être au jsonlines format et contenir les clés suivantes pour identifier les parties de votre jeu de données que l'interface utilisateur utilisera pour évaluer votre modèle :
  - prompt— La demande à laquelle vous souhaitez que votre modèle génère une réponse.
  - (Facultatif) category — - Les libellés des catégories pour votre message. La category clé est utilisée pour classer vos demandes afin que vous puissiez filtrer les résultats de votre évaluation ultérieurement par catégorie afin de mieux comprendre les résultats de l'évaluation. Il ne participe pas à l'évaluation elle-même et les travailleurs ne le voient pas sur l'interface utilisateur de l'évaluation.
  - (Facultatif) referenceResponse — La réponse de référence pour vos évaluateurs humains. La réponse de référence n'est pas évaluée par vos employés, mais elle peut être utilisée pour comprendre quelles réponses sont acceptables ou inacceptables, en fonction de vos instructions.
  - (Facultatif) responses — Utilisé pour spécifier des inférences à partir d'un modèle extérieur SageMaker ou extérieur à. AWS
    
    Cet objet nécessite deux paires "modelIdentifier clé-valeur supplémentaires, à savoir une chaîne identifiant le modèle et "text" constituant l'inférence du modèle.
    
    Si vous spécifiez une "responses" clé dans une entrée du jeu de données d'invite personnalisé, elle doit être spécifiée dans toutes les entrées.
  - L'exemple de json code suivant montre les paires clé-valeur acceptées dans un jeu de données d'invite personnalisé. La case à cocher Apportez votre propre inférence doit être cochée si une clé de réponse est fournie. Si cette case est cochée, la responses clé doit toujours être spécifiée dans chaque invite. L'exemple suivant peut être utilisé dans un scénario de questions-réponses.
```
{
    "prompt": {
        "text": "Aurillac is the capital of"
    },
    "category": "Capitals",
    "referenceResponse": {
        "text": "Cantal"
    },
    "responses": [
        // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required.
        {
            "modelIdentifier": "meta-textgeneration-llama-codellama-7b",
            "text": "The capital of Aurillac is Cantal."
        }
    ]
}
```
7. Entrez un emplacement de compartiment S3 où vous souhaitez enregistrer les résultats de l'évaluation de sortie dans la zone de texte sous Choisissez un emplacement S3 pour enregistrer les résultats de votre évaluation. Le fichier de sortie écrit dans cet emplacement S3 sera au JSON format, se terminant par l'extension,.json.
8. Note
  Si vous souhaitez inclure vos propres données d'inférence dans la tâche d'évaluation du modèle, vous ne pouvez utiliser qu'un seul modèle.
  
  (Facultatif) Cochez la case située sous Apportez votre propre inférence pour indiquer que votre jeu de données d'invite contient la responses clé. Si vous spécifiez la responses clé dans le cadre d'une invite, elle doit être présente dans chacune d'elles.
9. Configurez votre processeur dans la section Configuration du processeur à l'aide des paramètres suivants :
  - Utilisez le nombre d'instances pour spécifier le nombre d'instances de calcul à utiliser pour exécuter votre modèle. Si vous utilisez plusieurs 1 instances, votre modèle s'exécutera dans des instances parallèles.
  - Utilisez le type d'instance pour choisir le type d'instance de calcul que vous souhaitez utiliser pour exécuter votre modèle. AWS possède des instances de calcul générales et des instances optimisées pour le calcul et la mémoire. Pour plus d'informations sur les types d'instances, consultezTypes d'instances disponibles pour une utilisation avec Studio Classic.
  - Si vous SageMaker souhaitez utiliser votre propre clé de chiffrement AWS Key Management Service (AWS KMS) au lieu de la clé de service AWS géré par défaut, sélectionnez Activé sous KMSClé de volume, puis saisissez la AWS KMS clé. SageMaker utilisera votre AWS KMS clé pour chiffrer les données du volume de stockage. Pour plus d'informations sur les clés, consultez AWS Key Management Service.
  - Si vous SageMaker souhaitez utiliser votre propre clé de chiffrement AWS Key Management Service (AWS KMS) au lieu de la clé de service AWS géré par défaut, sélectionnez Activé sous KMSClé de sortie et saisissez la AWS KMS clé. SageMaker utilisera votre AWS KMS clé pour chiffrer le résultat de la tâche de traitement.
  - Utilisez un IAM rôle pour spécifier l'accès et les autorisations pour le processeur par défaut. Entrez le IAM rôle que vous avez défini dans la section Configurer votre IAM rôle dans cette section Exécuter une évaluation humaine.
10. Après avoir défini votre modèle et vos critères, sélectionnez Suivant.

Votre équipe de travail est composée des personnes qui évaluent votre modèle. Une fois votre équipe de travail créée, elle persiste indéfiniment et vous ne pouvez pas modifier ses attributs. Voici comment démarrer avec votre équipe de travail.

Configurez votre équipe de travail

Choisissez une équipe existante ou créez une nouvelle équipe dans la zone de texte de saisie Sélectionner une équipe.
Spécifiez le nom de votre organisation dans Nom de l'organisation. Ce champ n'apparaît que lorsque vous créez la première équipe de travail dans le compte.
Spécifiez une adresse e-mail de contact. Vos employés utiliseront cet e-mail pour communiquer avec vous au sujet de la tâche d'évaluation que vous leur confierez. Ce champ n'apparaît que lorsque vous créez la première équipe de travail dans le compte.
Spécifiez le nom de l'équipe. Vous ne pourrez pas modifier ce nom ultérieurement.
Spécifiez une liste d'adresses e-mail pour chacun de vos travailleurs humains qui évaluera votre grand modèle linguistique (LLM). Lorsque vous spécifiez les adresses e-mail de votre équipe, celle-ci n'est informée d'une nouvelle tâche que lorsqu'elle vient d'être ajoutée à une équipe de travail. Si vous faites appel à la même équipe pour une tâche ultérieure, vous devez l'en informer manuellement.
Spécifiez ensuite le nombre de travailleurs par invite

Fournissez des instructions à votre équipe de travail

Fournissez des instructions détaillées à votre personnel humain afin qu'il puisse évaluer votre modèle selon vos indicateurs et normes. Un modèle dans la fenêtre principale présente des exemples d'instructions que vous pouvez fournir. Pour plus d'informations sur la manière de donner des instructions, consultez la section Création de bonnes instructions de travail.
Pour minimiser les biais dans votre évaluation humaine, cochez la case à côté de Randomiser les positions de réponse.
Sélectionnez Suivant.

Vous pouvez consulter le résumé des sélections que vous avez effectuées pour votre travail humain. Si vous devez changer de tâche, choisissez Précédent pour revenir à une sélection précédente.

Soumettez votre demande de travail d'évaluation et consultez l'avancement du travail

Pour soumettre votre demande de travail d'évaluation, choisissez Créer une ressource.
Pour voir le statut de toutes vos tâches, choisissez Jobs dans le volet de navigation. Choisissez ensuite Évaluation du modèle. Le statut de l'évaluation s'affiche comme Terminé, Échec ou En cours.

Ce qui suit s'affiche également :
- Exemples de carnets pour effectuer une évaluation de modèle dans Amazon SageMaker Bedrock et Amazon.
- Liens vers des informations supplémentaires, notamment de la documentation, des vidéos, des actualités et des blogs sur le processus d'évaluation des modèles.
- Le portail URL vers votre travailleur privé est également disponible.
Sélectionnez l'évaluation de votre modèle sous Nom pour afficher un résumé de votre évaluation.
- Le résumé fournit des informations sur le statut de la tâche, le type de tâche d'évaluation que vous avez exécutée sur quel modèle et la date de son exécution. Après le résumé, les scores des évaluations humaines sont triés et résumés par métrique.

Consultez le bulletin de votre projet d'évaluation de modèles qui fait appel à des travailleurs humains

Pour consulter le rapport correspondant à vos tâches, choisissez Jobs dans le volet de navigation.
Choisissez ensuite Évaluation du modèle. Sur la page d'accueil des évaluations de modèles, utilisez le tableau pour trouver votre tâche d'évaluation de modèles. Une fois que le statut du travail est passé à Terminé, vous pouvez consulter votre bulletin scolaire.
Choisissez le nom de la tâche d'évaluation du modèle sur son bulletin.

Lorsque vous créez une tâche d'évaluation de modèle qui utilise des travailleurs humains, vous avez la possibilité d'apporter vos propres données d'inférence et de demander à vos travailleurs humains de comparer ces données d'inférence aux données produites par un autre JumpStart modèle ou un JumpStart modèle que vous avez déployé sur un terminal.

Cette rubrique décrit le format requis pour les données d'inférence, ainsi qu'une procédure simplifiée pour ajouter ces données à votre tâche d'évaluation de modèles.

Choisissez un jeu de données Prompt. Cet ensemble de données est obligatoire et sera utilisé par votre équipe de travail humaine pour évaluer les réponses de votre modèle. Fournissez le S3 URI à un compartiment Amazon S3 contenant votre ensemble de données d'invite dans la zone de texte située sous Choisissez un emplacement S3 pour enregistrer les résultats de votre évaluation. Votre jeu de données doit être .jsonl formaté. Chaque enregistrement doit être un JSON objet valide et contenir les clés obligatoires suivantes :

prompt— JSON Objet contenant le texte à transmettre au modèle.
(Facultatif) category — - Les libellés des catégories pour votre message. La category clé est utilisée pour classer vos demandes afin que vous puissiez filtrer les résultats de votre évaluation ultérieurement par catégorie afin de mieux comprendre les résultats de l'évaluation. Il ne participe pas à l'évaluation elle-même et les travailleurs ne le voient pas sur l'interface utilisateur de l'évaluation.
(Facultatif) referenceResponse : JSON objet contenant la réponse de référence pour vos évaluateurs humains. La réponse de référence n'est pas évaluée par vos employés, mais elle peut être utilisée pour comprendre quelles réponses sont acceptables ou inacceptables, en fonction de vos instructions.
responses— Utilisé pour spécifier des inférences individuelles à partir d'un modèle extérieur SageMaker ou extérieur à. AWS

Cet objet nécessite deux paires clé-valeur supplémentaires, "modelIdentifier qui sont une chaîne identifiant le modèle et "text" qui est l'inférence du modèle.

Si vous spécifiez une "responses" clé dans une entrée du jeu de données d'invite personnalisé, elle doit être spécifiée dans toutes les entrées.

L'exemple de json code suivant montre les paires clé-valeur acceptées dans un jeu de données d'invite personnalisé qui contient vos propres données d'inférence.


{
    "prompt": {
        "text": "Who invented the airplane?"
    },
    "category": "Airplanes",
    "referenceResponse": {
        "text": "Orville and Wilbur Wright"
    },
    "responses":
        // All inference must come from a single model
        [{
            "modelIdentifier": "meta-textgeneration-llama-codellama-7b" ,
            "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane."
        }]

}

Pour commencer, lancez Studio, puis sélectionnez Évaluation du modèle sous Tâches dans la navigation principale.

Pour ajouter vos propres données d'inférence à une tâche d'évaluation de modèles humains.

À l'étape 1 : Spécifiez les détails de la tâche, ajoutez le nom de la tâche d'évaluation de votre modèle et une description facultative.
À l'étape 2 : Configurer l'évaluation, choisissez Humain.
Ensuite, sous Choisissez le ou les modèles que vous souhaitez évaluer, vous pouvez choisir le modèle que vous souhaitez utiliser. Vous pouvez utiliser un JumpStart modèle déjà déployé ou choisir un modèle de base Jumpstart pré-entraîné.
Choisissez ensuite un type de tâche.
Vous pouvez ensuite ajouter des métriques d'évaluation.
Ensuite, sous Prompt dataset, cochez la case sous Apportez votre propre inférence pour indiquer que vos invites contiennent des touches de réponse.
Poursuivez ensuite la configuration de votre tâche d'évaluation de modèles.

Pour en savoir plus sur la façon dont les réponses de votre tâche d'évaluation de modèles faisant appel à des travailleurs humains sont enregistrées, voir Comprendre les résultats d'un travail d'évaluation humaine

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Toxicité

Évaluation automatique du modèle