Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Emplois d'évaluation de modèles basés sur l'humain

Mode de mise au point
Emplois d'évaluation de modèles basés sur l'humain - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les exemples suivants montrent comment créer un modèle de travail d'évaluation faisant appel à des travailleurs humains. Dans l'API, vous pouvez également inclure un profil d'inférence dans la tâche en spécifiant son ARN dans le modelIdentifier champ.

Console

Pour créer une tâche d’évaluation de modèle faisant appel à des travailleurs humains
  1. Ouvrez la console Amazon Bedrock : https://console.aws.amazon.com/bedrock/

  2. Dans le volet de navigation, choisissez Évaluation de modèle.

  3. Dans la section Créer une carte d'évaluation, sous Humain : apportez votre propre équipe, choisissez Créer une évaluation basée sur l'humain.

  4. Sur la page Spécifier les détails de la tâche, fournissez les informations suivantes.

    1. Nom de l’évaluation : donnez un nom descriptif à la tâche d’évaluation de modèle. Ce nom s’affiche dans votre liste de tâches d’évaluation de modèle. Il doit être unique dans votre compte et au sein d’une Région AWS.

    2. Description (facultatif) : fournissez éventuellement une description.

  5. Ensuite, choisissez Suivant.

  6. Sur la page Configurer l’évaluation, fournissez les informations suivantes.

    1. Modèles : vous ne pouvez pas choisir plus de deux modèles à utiliser dans la tâche d’évaluation de modèle.

      Pour en savoir plus sur les modèles disponibles dans Amazon Bedrock, consultez Accédez aux modèles de fondations Amazon Bedrock.

    2. (Facultatif) Pour modifier la configuration d'inférence pour les modèles sélectionnés, choisissez Mettre à jour.

      Le fait de modifier la configuration de l’inférence a pour effet de modifier les réponses générées par les modèles sélectionnés. Pour en savoir plus sur les paramètres d’inférence disponibles, consultez Paramètres de demande d'inférence et champs de réponse pour les modèles de base.

    3. Type de tâche : choisissez le type de tâche que le modèle doit tenter d’effectuer dans la tâche d’évaluation de modèle. Toutes les instructions relatives au modèle doivent être incluses dans les requêtes proprement dites. Le type de tâche n’influe pas sur les réponses du modèle.

    4. Métriques d’évaluation : la liste des métriques recommandées change en fonction de la tâche sélectionnée. Pour chaque métrique recommandée, vous devez sélectionner une Méthode d’évaluation. Vous êtes limité à 10 métriques d’évaluation par tâche d’évaluation de modèle.

    5. (Facultatif) Choisissez Ajouter une métrique pour ajouter une métrique. Vous devez définir les éléments Métrique, Description et Méthode d’évaluation.

    6. Dans la fiche Datasets, vous devez fournir les informations suivantes.

      1. Choisissez un jeu de données d'invite : spécifiez l'URI S3 de votre fichier d'ensemble de données d'invite ou choisissez Parcourir S3 pour voir les compartiments S3 disponibles. Un jeu de données de requêtes personnalisé peut comporter un maximum de 1 000 requêtes.

      2. Destination des résultats d'évaluation : vous devez spécifier l'URI S3 du répertoire dans lequel vous souhaitez enregistrer les résultats de la tâche d'évaluation de votre modèle, ou choisir Parcourir S3 pour voir les compartiments S3 disponibles.

    7. AWS KMS Clé (facultative) — Fournissez l'ARN de la clé gérée par le client que vous souhaitez utiliser pour chiffrer votre tâche d'évaluation de modèle.

    8. Dans la carte Amazon Bedrock IAM role — Permissions, vous devez effectuer les opérations suivantes. Pour en savoir plus sur les autorisations nécessaires aux évaluations de modèle, consultez Exigences de fonction du service pour les tâches d’évaluation de modèle.

      1. Pour utiliser un rôle de service Amazon Bedrock existant, choisissez Utiliser un rôle existant. Sinon, utilisez Créer un nouveau rôle pour spécifier les détails de votre nouveau rôle de service IAM.

      2. Dans Nom du rôle de service, spécifiez le nom de votre rôle de service IAM.

      3. Lorsque vous êtes prêt, choisissez Create role pour créer le nouveau rôle de service IAM.

  7. Ensuite, choisissez Suivant.

  8. Dans la carte Autorisations, spécifiez ce qui suit. Pour en savoir plus sur les autorisations nécessaires aux évaluations de modèle, consultez Exigences de fonction du service pour les tâches d’évaluation de modèle.

  9. Rôle IAM dans le flux de travail humain : spécifiez un rôle de service d' SageMaker IA doté des autorisations requises.

  10. Dans la carte Équipe de travail, spécifiez ce qui suit.

    Exigences de notification des employés humains

    Lorsque vous ajoutez un nouveau travailleur humain à une tâche d’évaluation de modèle, il reçoit automatiquement un e-mail d’invitation à participer à cette tâche. Lorsque vous ajoutez un travailleur humain existant à une tâche d’évaluation de modèle, vous devez le notifier et lui fournir l’URL du portail des travailleurs prévu pour la tâche. Le travailleur existant ne reçoit pas de notification automatique par e-mail l’informant qu’il a été ajouté à la nouvelle tâche d’évaluation de modèle.

    1. Dans le menu déroulant Sélectionnez une équipe, sélectionnez Créer une équipe de travail ou indiquez le nom d’une équipe de travail existante.

    2. (Facultatif) Nombre de travailleurs par prompt : mettez à jour le nombre de travailleurs chargés d’évaluer chaque requête. Une fois que les réponses à chaque requête ont été examinées par le nombre de travailleurs sélectionné, la requête et ses réponses sont retirées de la circulation pour l’équipe de travail. Les résultats finaux incluent l’ensemble des évaluations réalisées par chaque travailleur.

    3. (Facultatif) Adresse e-mail du travailleur existant : choisissez cette option pour copier un modèle d’e-mail contenant l’URL du portail des travailleurs.

    4. (Facultatif) Adresse e-mail du nouveau travailleur : choisissez cette option pour afficher l’e-mail que les nouveaux travailleurs reçoivent automatiquement.

      Important

      Les grands modèles de langage sont connus pour avoir parfois des hallucinations et produire du contenu toxique ou déplaisant. Au cours de cette évaluation, vos travailleurs peuvent être en contact avec du texte toxique ou déplaisant. Veillez à prendre des mesures appropriées pour former et notifier les évaluateurs avant de travailler sur l’évaluation. Ils ont la possibilité de refuser et de libérer des tâches ou de faire des pauses en cours d’évaluation pendant qu’ils accèdent à l’outil d’évaluation humaine.

  11. Ensuite, choisissez Suivant.

  12. Sur la page Fournir des instructions, utilisez l’éditeur de texte pour fournir les instructions nécessaires à l’exécution de la tâche. Vous pouvez afficher un aperçu de l’interface utilisateur d’évaluation que votre équipe de travail utilisera pour évaluer les réponses, notamment les métriques, les méthodes d’évaluation et vos instructions. Cet aperçu est basé sur la configuration que vous avez créée pour cette tâche.

  13. Ensuite, choisissez Suivant.

  14. Sur la page Vérifier et créer, vous pouvez afficher un récapitulatif des options que vous avez sélectionnées aux étapes précédentes.

  15. Pour démarrer votre tâche d’évaluation de modèle, choisissez Créer.

    Note

    Une fois la tâche démarrée, le statut passe à En cours. Lorsque la tâche se termine, le statut devient Terminé. Pendant qu'une tâche d'évaluation de modèle est toujours en cours, vous pouvez choisir d'arrêter la tâche avant que toutes les réponses des modèles n'aient été évaluées par votre équipe de travail. Pour ce faire, sélectionnez Arrêter l'évaluation sur la page d'accueil de l'évaluation du modèle. Cela fera passer le statut de la tâche d'évaluation du modèle à Arrêter. Une fois que le travail d'évaluation du modèle s'est arrêté avec succès, vous pouvez supprimer le travail d'évaluation du modèle.

API et AWS CLI

Lorsque vous créez une tâche d'évaluation de modèle basée sur l'humain en dehors de la console Amazon Bedrock, vous devez créer un ARN de définition de flux Amazon SageMaker AI.

L'ARN de définition de flux est l'endroit où le flux de travail d'une tâche d'évaluation de modèle est défini. La définition du flux est utilisée pour définir l'interface de travail et l'équipe de travail que vous souhaitez affecter à la tâche, ainsi que pour vous connecter à Amazon Bedrock.

Pour les tâches d'évaluation de modèles lancées à l'aide des opérations de l'API Amazon Bedrock, vous devez créer un ARN de définition de flux à l'aide du SDK AWS CLI ou d'un AWS SDK compatible. Pour en savoir plus sur le fonctionnement des définitions de flux et sur leur création par programmation, consultez la section Créer un flux de travail de révision humaine (API) dans le guide du développeur d'SageMaker IA.

Dans le, CreateFlowDefinitionvous devez spécifier AWS/Bedrock/Evaluation comme entrée dans leAwsManagedHumanLoopRequestSource. Le rôle de service Amazon Bedrock doit également être autorisé à accéder au compartiment de sortie de la définition du flux.

Voici un exemple de demande utilisant le AWS CLI. Dans la demande, il HumanTaskUiArn s'agit d'un ARN appartenant à l' SageMaker IA. Dans l'ARN, vous ne pouvez modifier que le Région AWS.

aws sagemaker create-flow-definition --cli-input-json ' { "FlowDefinitionName": "human-evaluation-task01", "HumanLoopRequestSource": { "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation" }, "HumanLoopConfig": { "WorkteamArn": "arn:aws:sagemaker:Région AWS:111122223333:workteam/private-crowd/my-workteam", ## The Task UI ARN is provided by the service team, you can only modify the AWS Region. "HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation" "TaskTitle": "Human review tasks", "TaskDescription": "Provide a real good answer", "TaskCount": 1, "TaskAvailabilityLifetimeInSeconds": 864000, "TaskTimeLimitInSeconds": 3600, "TaskKeywords": [ "foo" ] }, "OutputConfig": { "S3OutputPath": "s3://your-output-bucket" }, "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn" }'

Après avoir créé votre ARN de définition de flux, utilisez les exemples suivants pour créer une tâche d'évaluation de modèle basée sur l'homme à l'aide du SDK AWS CLI ou d'un AWS SDK compatible.

SDK for Python

L'exemple de code suivant vous montre comment créer une tâche d'évaluation de modèle qui utilise des travailleurs humains via le SDK pour Python.

import boto3 client = boto3.client('bedrock') job_request = client.create_evaluation_job( jobName="111122223333-job-01", jobDescription="two different task types", roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role", inferenceConfig={ ## You must specify and array of models "models": [ { "bedrockModel": { "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1", "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}" } }, { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}" } } ] }, outputDataConfig={ "s3Uri":"s3://job-bucket/outputs/" }, evaluationConfig={ "human": { "humanWorkflowConfig": { "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn", "instructions": "some human eval instruction" }, "customMetrics": [ { "name": "IndividualLikertScale", "description": "testing", "ratingMethod": "IndividualLikertScale" } ], "datasetMetricConfigs": [ { "taskType": "Summarization", "dataset": { "name": "Custom_Dataset1", "datasetLocation": { "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl" } }, "metricNames": [ "IndividualLikertScale" ] } ] } } ) print(job_request)

L'exemple de code suivant vous montre comment créer une tâche d'évaluation de modèle qui utilise des travailleurs humains via le SDK pour Python.

import boto3 client = boto3.client('bedrock') job_request = client.create_evaluation_job( jobName="111122223333-job-01", jobDescription="two different task types", roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role", inferenceConfig={ ## You must specify and array of models "models": [ { "bedrockModel": { "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1", "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}" } }, { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}" } } ] }, outputDataConfig={ "s3Uri":"s3://job-bucket/outputs/" }, evaluationConfig={ "human": { "humanWorkflowConfig": { "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn", "instructions": "some human eval instruction" }, "customMetrics": [ { "name": "IndividualLikertScale", "description": "testing", "ratingMethod": "IndividualLikertScale" } ], "datasetMetricConfigs": [ { "taskType": "Summarization", "dataset": { "name": "Custom_Dataset1", "datasetLocation": { "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl" } }, "metricNames": [ "IndividualLikertScale" ] } ] } } ) print(job_request)
ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.