Création d’une tâche d’évaluation de modèle faisant appel à des travailleurs humains - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d’une tâche d’évaluation de modèle faisant appel à des travailleurs humains

Dans une tâche d'évaluation de modèles faisant appel à des travailleurs humains, vous pouvez évaluer et comparer les réponses de deux modèles au maximum. Vous pouvez effectuer un choix parmi la liste des métriques recommandées ou utiliser les métriques que vous avez vous-même définies. Vous pouvez avoir un maximum de 20 tâches d'évaluation de modèles faisant appel à des travailleurs humains en cours dans votre Compte AWS entreprise Région AWS.

Pour chaque métrique que vous utilisez, vous devez définir une Méthode d’évaluation. La méthode d'évaluation définit la manière dont vos travailleurs humains évalueront les réponses qu'ils obtiennent dans les modèles que vous avez sélectionnés. Pour en savoir plus sur les différentes méthodes de notation disponibles et sur la manière de créer des instructions de haute qualité pour les travailleurs, consultezCréation et gestion d’équipes de travail dans Amazon Bedrock.

Prérequis

Pour effectuer la procédure ci-après, vous devez respecter les points suivants. Les tâches d'évaluation de modèles créées dans la console Amazon Bedrock nécessitent que CORS les autorisations soient configurées sur les compartiments Amazon S3 spécifiés lors de la création de la tâche.

Pour les tâches d'évaluation de modèles qui utilisent des travailleurs humains, les ensembles de données intégrés ne sont pas pris en charge. Pour en savoir plus sur la création de jeux de données d'invite personnalisés, consultezExigences concernant les jeux de données de requêtes personnalisés dans les tâches d’évaluation de modèle faisant appel à des travailleurs humains.

  1. Vous devez avoir accès aux modèles dans Amazon Bedrock.

  2. Vous devez disposer d’une fonction du service Amazon Bedrock. Si aucun rôle de service n'est déjà créé, vous pouvez le créer dans la console Amazon Bedrock lors de la configuration de votre tâche d'évaluation de modèles. La politique ci-jointe doit accorder l'accès à tous les compartiments S3 utilisés dans le travail d'évaluation du modèle, ainsi qu'à tous les ARNs modèles spécifiés dans le travail. Les sagemaker:DescribeFlowDefinition SageMaker IAM actionssagemaker:StartHumanLoop,sagemaker:StopHumanLoop, sagemaker:DescribeHumanLoop et doivent également être définies dans la politique. Amazon Bedrock doit également être défini en tant que principal du service dans la politique de confiance de la fonction du service. Pour en savoir plus, consultez Rôles de service.

  3. Vous devez avoir un rôle SageMaker de service Amazon. Si aucun rôle de service n'est déjà créé, vous pouvez le créer dans la console Amazon Bedrock lors de la configuration de votre tâche d'évaluation de modèles. La politique ci-jointe doit accorder l'accès aux ressources et IAM actions suivantes. les compartiments S3 éventuellement utilisés dans la tâche d’évaluation de modèle. La politique de confiance du rôle doit avoir été SageMaker définie comme le principal du service. Pour en savoir plus, consultez Autorisations nécessaires.

  4. L’utilisateur, le groupe ou le rôle qui accède à la console Amazon Bedrock doit disposer des autorisations nécessaires pour accéder aux compartiments Amazon S3 requis.

  5. Les CORS autorisations requises doivent être ajoutées au compartiment Amazon S3 en sortie et à tout compartiment de jeu de données d'invite personnalisé. Pour en savoir plus sur les CORS autorisations requises, consultezAutorisation de partage de ressources entre origines (CORS) requise sur les compartiments S3.

Tutoriel : Création de modèles d'évaluation utilisant des travailleurs humains

Utilisez le didacticiel suivant pour créer un modèle de tâche d'évaluation faisant appel à des travailleurs humains.

Consultation des résultats d’une tâche d’évaluation de modèle à l’aide de la console Amazon Bedrock

Lorsqu’une tâche d’évaluation de modèle se termine, les résultats sont stockés dans le compartiment Amazon S3 que vous avez spécifié. Si vous modifiez l’emplacement des résultats de quelque manière que ce soit, le bulletin d’évaluation du modèle n’est plus visible dans la console.

Pour créer une tâche d’évaluation de modèle faisant appel à des travailleurs humains
  1. Ouvrez la console Amazon Bedrock : accueil https://console.aws.amazon.com/bedrock/

  2. Dans le volet de navigation, choisissez Évaluation de modèle.

  3. Dans la section Créer une carte d'évaluation, sous Humain : apportez votre propre équipe, choisissez Créer une évaluation basée sur l'humain.

  4. Sur la page Spécifier les détails de la tâche, fournissez les informations suivantes.

    1. Nom de l’évaluation : donnez un nom descriptif à la tâche d’évaluation de modèle. Ce nom s’affiche dans votre liste de tâches d’évaluation de modèle. Le nom doit être unique dans votre nom Compte AWS dans un Région AWS.

    2. Description (facultatif) : fournissez éventuellement une description.

  5. Ensuite, choisissez Suivant.

  6. Sur la page Configurer l’évaluation, fournissez les informations suivantes.

    1. Modèles : vous ne pouvez pas choisir plus de deux modèles à utiliser dans la tâche d’évaluation de modèle.

      Pour en savoir plus sur les modèles disponibles dans Amazon Bedrock, consultez Gérez l'accès aux modèles de fondation Amazon Bedrock.

    2. (Facultatif) Pour modifier la configuration d'inférence pour les modèles sélectionnés, choisissez Mettre à jour.

      Le fait de modifier la configuration de l’inférence a pour effet de modifier les réponses générées par les modèles sélectionnés. Pour en savoir plus sur les paramètres d’inférence disponibles, consultez Paramètres d’inférence pour les modèles de fondation.

    3. Type de tâche : choisissez le type de tâche que le modèle doit tenter d’effectuer dans la tâche d’évaluation de modèle. Toutes les instructions relatives au modèle doivent être incluses dans les requêtes proprement dites. Le type de tâche n’influe pas sur les réponses du modèle.

    4. Métriques d’évaluation : la liste des métriques recommandées change en fonction de la tâche sélectionnée. Pour chaque métrique recommandée, vous devez sélectionner une Méthode d’évaluation. Vous êtes limité à 10 métriques d’évaluation par tâche d’évaluation de modèle.

    5. (Facultatif) Choisissez Ajouter une nouvelle métrique pour ajouter une nouvelle métrique. Vous devez définir les éléments Métrique, Description et Méthode d’évaluation.

    6. Dans la fiche Datasets, vous devez fournir les informations suivantes.

      1. Choisissez un jeu de données d'invite : spécifiez le S3 URI de votre fichier de jeu de données d'invite ou choisissez Parcourir S3 pour voir les compartiments S3 disponibles. Un jeu de données de requêtes personnalisé peut comporter un maximum de 1 000 requêtes.

      2. Destination des résultats d'évaluation : vous devez spécifier le S3 URI du répertoire dans lequel vous souhaitez enregistrer les résultats de la tâche d'évaluation de votre modèle, ou choisir Parcourir S3 pour voir les compartiments S3 disponibles.

    7. AWS KMS Clé (facultative) — Fournissez ARN la clé gérée par le client que vous souhaitez utiliser pour chiffrer votre tâche d'évaluation de modèle.

    8. Dans la carte Amazon Bedrock IAM role — Permissions, vous devez effectuer les opérations suivantes. Pour en savoir plus sur les autorisations nécessaires aux évaluations de modèle, consultez Autorisations et rôles IAM de service requis pour créer une tâche d'évaluation de modèle.

      1. Pour utiliser un rôle de service Amazon Bedrock existant, choisissez Utiliser un rôle existant. Sinon, utilisez Créer un nouveau rôle pour spécifier les détails de votre nouveau rôle de IAM service.

      2. Dans Nom du rôle de service, spécifiez le nom de votre rôle de IAM service.

      3. Lorsque vous êtes prêt, choisissez Create role pour créer le nouveau rôle IAM de service.

  7. Ensuite, choisissez Suivant.

  8. Dans la carte Autorisations, spécifiez ce qui suit. Pour en savoir plus sur les autorisations nécessaires aux évaluations de modèle, consultez Autorisations et rôles IAM de service requis pour créer une tâche d'évaluation de modèle.

  9. IAMRôle humain dans le flux de travail : spécifiez un rôle de SageMaker service doté des autorisations requises.

  10. Dans la carte Équipe de travail, spécifiez ce qui suit.

    Exigences de notification des employés humains

    Lorsque vous ajoutez un nouveau travailleur humain à une tâche d’évaluation de modèle, il reçoit automatiquement un e-mail d’invitation à participer à cette tâche. Lorsque vous ajoutez un travailleur humain existant à une tâche d'évaluation de modèle, vous devez lui en informer et lui fournir un portail de travail URL pour la tâche d'évaluation de modèle. Le travailleur existant ne reçoit pas de notification automatique par e-mail l’informant qu’il a été ajouté à la nouvelle tâche d’évaluation de modèle.

    1. Dans le menu déroulant Sélectionnez une équipe, sélectionnez Créer une équipe de travail ou indiquez le nom d’une équipe de travail existante.

    2. (Facultatif) Nombre de travailleurs par prompt : mettez à jour le nombre de travailleurs chargés d’évaluer chaque requête. Une fois que les réponses à chaque requête ont été examinées par le nombre de travailleurs sélectionné, la requête et ses réponses sont retirées de la circulation pour l’équipe de travail. Les résultats finaux incluent l’ensemble des évaluations réalisées par chaque travailleur.

    3. (Facultatif) E-mail du travailleur existant : choisissez cette option pour copier un modèle d'e-mail contenant le portail du travailleurURL.

    4. (Facultatif) Adresse e-mail du nouveau travailleur : choisissez cette option pour afficher l’e-mail que les nouveaux travailleurs reçoivent automatiquement.

      Important

      Les grands modèles de langage sont connus pour avoir parfois des hallucinations et produire du contenu toxique ou déplaisant. Au cours de cette évaluation, vos travailleurs peuvent être en contact avec du texte toxique ou déplaisant. Veillez à prendre des mesures appropriées pour former et notifier les évaluateurs avant de travailler sur l’évaluation. Ils ont la possibilité de refuser et de libérer des tâches ou de faire des pauses en cours d’évaluation pendant qu’ils accèdent à l’outil d’évaluation humaine.

  11. Ensuite, choisissez Suivant.

  12. Sur la page Fournir des instructions, utilisez l’éditeur de texte pour fournir les instructions nécessaires à l’exécution de la tâche. Vous pouvez afficher un aperçu de l’interface utilisateur d’évaluation que votre équipe de travail utilisera pour évaluer les réponses, notamment les métriques, les méthodes d’évaluation et vos instructions. Cet aperçu est basé sur la configuration que vous avez créée pour cette tâche.

  13. Ensuite, choisissez Suivant.

  14. Sur la page Vérifier et créer, vous pouvez afficher un récapitulatif des options que vous avez sélectionnées aux étapes précédentes.

  15. Pour démarrer votre tâche d’évaluation de modèle, choisissez Créer.

Une fois la tâche démarrée, le statut passe à En cours. Lorsque la tâche se termine, le statut devient Terminé. Pendant qu'une tâche d'évaluation de modèle est toujours en cours, vous pouvez choisir d'arrêter la tâche avant que toutes les réponses des modèles n'aient été évaluées par votre équipe de travail. Pour ce faire, choisissez Arrêter l'évaluation sur la page d'accueil de l'évaluation du modèle. Cela fera passer le statut de la tâche d'évaluation du modèle à Arrêter. Une fois que le travail d'évaluation du modèle s'est arrêté avec succès, vous pouvez supprimer le travail d'évaluation du modèle.

Pour savoir comment évaluer, examiner et télécharger les résultats de votre tâche d’évaluation de modèle, consultez Résultats des tâches d’évaluation de modèle.