Crea un modello di lavoro di valutazione che utilizzi lavoratori umani - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Crea un modello di lavoro di valutazione che utilizzi lavoratori umani

Importante

IAMLe politiche personalizzate che consentono ad Amazon SageMaker Studio o Amazon SageMaker Studio Classic di creare SageMaker risorse Amazon devono inoltre concedere le autorizzazioni per aggiungere tag a tali risorse. L'autorizzazione per aggiungere tag alle risorse è necessaria perché Studio e Studio Classic taggano automaticamente tutte le risorse che creano. Se una IAM politica consente a Studio e Studio Classic di creare risorse ma non consente l'aggiunta di tag, si possono verificare errori AccessDenied "" durante il tentativo di creare risorse. Per ulteriori informazioni, consulta Fornisci le autorizzazioni per etichettare le risorse SageMaker.

AWS Policy gestite per Amazon SageMakerche concedono le autorizzazioni per creare SageMaker risorse includono già le autorizzazioni per aggiungere tag durante la creazione di tali risorse.

Per creare un processo di valutazione del modello che utilizzi lavoratori umani, è necessario configurare l'ambiente in modo da disporre delle autorizzazioni corrette. È quindi possibile utilizzare la procedura guidata per il processo di valutazione dei modelli in Studio per selezionare i modelli da utilizzare e quindi definire i parametri e la forza lavoro da utilizzare nel processo di valutazione del modello.

Una volta completato il lavoro, è possibile visualizzare un rapporto per comprendere in che modo la forza lavoro ha valutato i modelli selezionati. I risultati vengono inoltre salvati in Amazon S3 come file di jsonlines output.

In un processo di valutazione dei modelli che utilizza lavoratori umani, hai la possibilità di importare dati di inferenza da modelli ospitati all'esterno SageMaker e da modelli ospitati all'esterno. AWS Per ulteriori informazioni, consulta Utilizzo dei dati di inferenza personali in lavori di valutazione dei modelli che utilizzano lavoratori umani.

Una volta completati i processi, i risultati vengono salvati nel bucket Amazon S3 specificato al momento della creazione del lavoro. Per informazioni su come interpretare i risultati, consulta. Comprendi i risultati del tuo lavoro di valutazione del modello

Prerequisiti

Per eseguire una valutazione del modello nell'interfaccia utente di Amazon SageMaker Studio, il tuo ruolo AWS Identity and Access Management (IAM) e tutti i set di dati di input devono disporre delle autorizzazioni corrette. Se non disponi di un SageMaker dominio o di un IAM ruolo, segui i passaggi indicati. Guida alla configurazione con Amazon SageMaker

Configurazione delle autorizzazioni

La sezione seguente mostra come creare un bucket Amazon S3 e come specificare le autorizzazioni corrette di condivisione delle risorse tra le origini (). CORS

Per creare un bucket Amazon S3 e specificare le autorizzazioni CORS
  1. Apri la SageMaker console Amazon all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nel riquadro di navigazione, S3 accedi alla barra di ricerca nella parte superiore della pagina.

  3. Scegli S3 in Servizi.

  4. Scegli Bucket dal pannello di navigazione.

  5. Nella sezione General Purpose Bucket, sotto Nome, scegli il nome del bucket S3 che desideri utilizzare per memorizzare l'input e l'output del modello nella console. Se non disponi di un bucket S3, procedi come segue.

    1. Seleziona Crea bucket per aprire una nuova pagina Crea bucket.

    2. Nella sezione Configurazione generale, in AWS Regione, seleziona la AWS regione in cui si trova il modello di base.

    3. Assegna un nome al bucket S3 nella casella di immissione sotto Nome del bucket.

    4. Accetta tutte le scelte predefinite.

    5. Seleziona Crea bucket.

    6. Nella sezione General Purpose bucket, sotto Nome, seleziona il nome del bucket S3 che hai creato.

  6. Scegli la scheda Autorizzazioni.

  7. Scorri fino alla sezione Cross-origin resource sharing (CORS) nella parte inferiore della finestra. Scegli Modifica.

  8. Di seguito è riportata la CORS politica minima richiesta da aggiungere al bucket Amazon S3. Copia e incolla quanto segue nella casella di input.

    [ { "AllowedHeaders": ["*"], "AllowedMethods": [ "GET", "HEAD", "PUT" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ], "MaxAgeSeconds": 3000 } ]
  9. Scegli Save changes (Salva modifiche).

Per aggiungere autorizzazioni alla tua politica IAM

Potresti prendere in considerazione il livello di autorizzazioni da assegnare al tuo IAM ruolo.

  • Puoi creare una IAM politica personalizzata che consenta le autorizzazioni minime richieste su misura per questo servizio.

  • Puoi allegare le AmazonS3FullAccesspolitiche esistenti AmazonSageMakerFullAccesse quelle esistenti al tuo IAM ruolo esistente, il che è più permissivo. Per ulteriori informazioni sulla AmazonSageMakerFullAccess politica, consulta. AmazonSageMakerFullAccess

Se desideri allegare le politiche esistenti al tuo IAM ruolo, puoi saltare le istruzioni qui riportate e continuare a seguire le istruzioni riportate nella sezione Per aggiungere autorizzazioni al tuo IAM ruolo.

Le seguenti istruzioni creano una IAM politica personalizzata adattata a questo servizio con autorizzazioni minime.

  1. Apri la SageMaker console Amazon all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nella barra di ricerca nella parte superiore della pagina, inserisciIAM.

  3. In Servizi, selezionare Identity and Access Management (IAM).

  4. Scegli Politiche dal riquadro di navigazione.

  5. Scegli Create Policy (Crea policy). Quando si apre l'editor delle politiche, scegli JSON.

  6. Assicurati che le seguenti autorizzazioni siano visualizzate nell'editor delle politiche. Puoi anche copiare e incollare quanto segue nell'editor delle politiche.

    { "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::{input_bucket}/*", "arn:aws:s3:::{input_bucket}", "arn:aws:s3:::{output_bucket}/*", "arn:aws:s3:::{output_bucket}", "arn:aws:s3:::jumpstart-cache-prod-{region}/*", "arn:aws:s3:::jumpstart-cache-prod-{region}" ] }, { "Effect": "Allow", "Action": [ "sagemaker:CreateEndpoint", "sagemaker:DeleteEndpoint", "sagemaker:CreateEndpointConfig", "sagemaker:DeleteEndpointConfig" ], "Resource": [ "arn:aws:sagemaker:{region}:{account-id}:endpoint/sm-margaret-*", "arn:aws:sagemaker:{region}:{account-id}:endpoint-config/sm-margaret-*" ], "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeProcessingJob", "sagemaker:DescribeEndpoint", "sagemaker:InvokeEndpoint" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeInferenceComponent", "sagemaker:AddTags", "sagemaker:CreateModel", "sagemaker:DeleteModel" ], "Resource": "arn:aws:sagemaker:{region}:{account-id}:model/*", "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeFlowDefinition", "sagemaker:StartHumanLoop", "sagemaker:DescribeHumanLoop" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams" ], "Resource": "arn:aws:logs:{region}:{account-id}:log-group:/aws/sagemaker/ProcessingJobs:*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData" ], "Resource":"*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:GetPublicKey", "kms:Decrypt", "kms:Encrypt" ], "Resource": [ "arn:aws:kms:{region}:{account-id}:key/{kms-key-id}" ] }, { "Effect": "Allow", "Action": [ "iam:PassRole" ], "Resource": "arn:aws:iam::{account-id}:role/{this-role-created-by-customer}", "Condition": { "StringEquals": { "aws:PrincipalAccount": [ "account-id" ] } } }] }
  7. Scegli Next (Successivo).

  8. Inserisci il nome di una politica nella sezione Dettagli della politica, sotto Nome della politica. Puoi anche inserire una descrizione opzionale. Cercherai il nome di questo criterio quando lo assegni a un ruolo.

  9. Scegli Create Policy (Crea policy).

Per aggiungere autorizzazioni al tuo ruolo IAM
  1. Apri la SageMaker console Amazon all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nella barra di ricerca nella parte superiore della pagina, inserisciIAM.

  3. In Servizi, selezionare Identity and Access Management (IAM).

  4. Nel riquadro di navigazione scegliere Roles (Ruoli).

  5. Se stai creando un nuovo ruolo:

    1. Scegliere Crea ruolo.

    2. Nel passaggio Seleziona entità attendibile, in Tipo di entità affidabile scegli Criteri di attendibilità personalizzati.

    3. Nell'editor di criteri di fiducia personalizzati, accanto a Aggiungi principale scegli Aggiungi.

    4. Nella casella pop-up Aggiungi principale, in Tipo principale, seleziona AWS i servizi dall'elenco a discesa delle opzioni.

    5. In ARNSostituisci {ServiceName} con. sagemaker

    6. Scegli Aggiungi principale.

    7. Scegli Next (Successivo).

    8. (Facoltativo) In Politiche di autorizzazione seleziona le politiche che desideri aggiungere al tuo ruolo.

    9. (Facoltativo) In Imposta i limiti delle autorizzazioni: facoltativo, scegli l'impostazione dei limiti delle autorizzazioni.

    10. Scegli Next (Successivo).

    11. Nella fase Nome, revisione e creazione, in Dettagli del ruolo inserisci il nome e la descrizione del ruolo.

    12. (Facoltativo) In Aggiungi tag - opzionale, puoi aggiungere tag scegliendo Aggiungi nuovo tag e inserisci una chiave e un valore, coppia opzionale.

    13. Verificare le impostazioni.

    14. Scegliere Crea ruolo.

  6. Se stai aggiungendo la politica a un ruolo esistente:

    1. Seleziona il nome del ruolo in Nome ruolo. La finestra principale cambia per mostrare le informazioni sul tuo ruolo.

    2. Nella sezione Politiche di autorizzazione, scegli la freccia rivolta verso il basso accanto a Aggiungi autorizzazioni.

    3. Tra le opzioni visualizzate, scegli Allega politiche.

    4. Dall'elenco delle politiche visualizzate, cerca e seleziona la politica che hai creato in Per aggiungere autorizzazioni alla tua IAM politica e seleziona la casella di controllo accanto al nome della politica. Se non hai creato una IAM politica personalizzata, cerca e seleziona le caselle di controllo accanto a quella AWS fornita AmazonSageMakerFullAccesse alle AmazonS3FullAccesspolitiche. Potresti prendere in considerazione il livello di autorizzazioni da assegnare al tuo IAM ruolo. Le istruzioni per la IAM politica personalizzata sono meno permissive, mentre la seconda è più permissiva. Per ulteriori informazioni sulla politica, vedere. AmazonSageMakerFullAccess AmazonSageMakerFullAccess

    5. Scegli Aggiungi autorizzazioni. Un banner nella parte superiore della pagina dovrebbe indicare che Policy è stata correttamente associata al ruolo. una volta completato.

Per aggiungere una politica di fiducia al tuo IAM ruolo

La seguente politica di fiducia consente agli amministratori di consentire SageMaker l'assunzione del ruolo. È necessario aggiungere la politica al proprio IAM ruolo. A tale scopo, segui i passaggi seguenti.

  1. Apri la SageMaker console Amazon all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nella barra di ricerca nella parte superiore della pagina, inserisciIAM.

  3. In Servizi, selezionare Identity and Access Management (IAM).

  4. Nel riquadro di navigazione scegliere Roles (Ruoli).

  5. Seleziona il nome del ruolo in Nome ruolo. La finestra principale cambia per mostrare le informazioni sul tuo ruolo.

  6. Scegli la scheda Relazione di fiducia.

  7. Seleziona Modifica policy di attendibilità.

  8. Assicurati che la seguente politica sia visualizzata in Modifica politica di fiducia. Puoi anche copiare e incollare quanto segue nell'editor.

    { "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Principal": { "Service": [ "sagemaker.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }
  9. Scegli Aggiorna policy. Un banner nella parte superiore della pagina dovrebbe indicare che la politica di fiducia è stata aggiornata. una volta completata.

Puoi creare un lavoro di valutazione umana utilizzando un modello basato su testo disponibile in JumpStart oppure puoi utilizzare un JumpStart modello che hai precedentemente distribuito su un endpoint.

Per avviare JumpStart
  1. Apri la SageMaker console Amazon all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nella barra di ricerca nella parte superiore della pagina, inserisciSageMaker.

  3. In Servizi, seleziona Amazon SageMaker.

  4. Scegli Studio dal pannello di navigazione.

  5. Scegli il tuo dominio dalla sezione Guida introduttiva, dopo aver espanso la freccia rivolta verso il basso sotto Seleziona dominio.

  6. Scegli il tuo profilo utente dalla sezione Guida introduttiva dopo aver espanso la freccia rivolta verso il basso sotto Seleziona profilo utente.

  7. Scegli Open Studio per aprire la pagina di destinazione di Studio.

  8. Scegli Jobs dal pannello di navigazione.

Per impostare un lavoro di valutazione
  1. Nella home page di valutazione del modello, scegli Valuta un modello

  2. Specificate i dettagli del lavoro.

    1. Immettete il nome di valutazione del modello di valutazione. Questo nome consente di identificare il lavoro di valutazione del modello dopo l'invio.

    2. Inserite una descrizione per aggiungere altro contesto al nome.

    3. Scegli Next (Successivo).

  3. Imposta la valutazione

    1. In Scegli un tipo di valutazione, seleziona il pulsante di opzione accanto a Umano.

    2. In Scegli il modello o i modelli che desideri valutare, scegli Aggiungi modello alla valutazione. Puoi valutare fino a due modelli per ogni valutazione.

      1. Per utilizzare un modello pre-addestrato, scegli JumpStart Modello JumpStart base pre-addestrato. Se desideri utilizzare un JumpStart modello che hai precedentemente distribuito su un endpoint, scegli Endpoints with foundation models. JumpStart

      2. Se il modello richiede un accordo legale, seleziona la casella di controllo per confermare che sei d'accordo.

      3. Se desideri aggiungere un altro modello, ripeti il passaggio precedente.

    3. Per modificare il comportamento del modello durante l'inferenza, scegliete, Imposta parametri.

      Set parameters contiene un elenco di parametri di inferenza che influiscono sul grado di casualità nell'output del modello, sulla lunghezza dell'output del modello e sulle parole che il modello sceglierà successivamente.

    4. Quindi, seleziona un tipo di attività. È possibile selezionare una delle seguenti opzioni:

      • Riepilogo del testo

      • Risposta alle domande (domande e risposte)

      • Classificazione del testo

      • Generazione aperta

      • Personalizza

    5. Nella sezione Metriche di valutazione, scegli una dimensione di valutazione e inserisci un contesto aggiuntivo sulla dimensione nella casella di testo sotto Descrizione. Puoi scegliere tra le seguenti dimensioni:

      • Fluidità: misura la qualità linguistica di un testo generato.

      • Coerenza: misura l'organizzazione e la struttura di un testo generato.

      • Tossicità: misura la nocività di un testo generato.

      • Precisione: indica la precisione di un testo generato.

      • Una dimensione di valutazione personalizzata di cui puoi definire il nome e la descrizione per il tuo team di lavoro.

        Per aggiungere una dimensione di valutazione personalizzata, procedi come segue:

        • Scegli Aggiungi una dimensione di valutazione.

        • Nella casella di testo contenente Fornisci la dimensione di valutazione, inserisci il nome della dimensione personalizzata.

        • Nella casella di testo contenente Fornisci una descrizione per questa dimensione di valutazione, inserisci una descrizione in modo che il team di lavoro comprenda come valutare la dimensione personalizzata.

      Sotto ciascuna di queste metriche ci sono metriche di reporting che puoi scegliere dalla freccia rivolta verso il basso Scegli un tipo di metrica. Se hai due modelli da valutare, puoi scegliere metriche di reporting comparative o individuali. Se hai un modello da valutare, puoi scegliere solo metriche di reporting individuali. Puoi scegliere i seguenti tipi di metriche di reporting per ciascuna delle metriche precedenti.

      • Scala Likert (comparativa) - confronto: un valutatore umano indicherà la propria preferenza tra due risposte su una scala Likert a 5 punti in base alle istruzioni fornite. I risultati del report finale verranno visualizzati sotto forma di istogramma delle valutazioni di intensità delle preferenze fornite dai valutatori sull'intero set di dati. Definite i punti importanti della scala a 5 punti nelle vostre istruzioni in modo che i valutatori sappiano come valutare le risposte in base alle vostre aspettative. Nell'JSONoutput salvato in Amazon S3 questa scelta è rappresentata come coppia ComparisonLikertScale chiave-valore. "evaluationResults":"ComparisonLikertScale"

      • Pulsanti di scelta (comparativi): consentono a un valutatore umano di indicare la propria risposta preferita rispetto a un'altra risposta. I valutatori indicano la loro preferenza tra due risposte in base alle istruzioni fornite dall'utente utilizzando i pulsanti di opzione. I risultati del report finale verranno visualizzati come percentuale delle risposte preferite dai lavoratori per ciascun modello. Spiegate chiaramente il vostro metodo di valutazione nelle istruzioni. Nell'JSONoutput salvato in Amazon S3 questa scelta è rappresentata come coppia ComparisonChoice chiave-valore. "evaluationResults":"ComparisonChoice"

      • Classificazione ordinale (comparativa): consente a un valutatore umano di classificare le proprie risposte preferite a un prompt in ordine, a partire da, in base alle istruzioni 1 fornite. I risultati del report finale verranno visualizzati sotto forma di istogramma delle classificazioni fornite dai valutatori sull'intero set di dati. Definisci il 1 significato di un rango nelle tue istruzioni. Nell'JSONoutput salvato in Amazon S3 questa scelta è rappresentata come coppia ComparisonRank chiave-valore. "evaluationResults":"ComparisonRank"

      • (Individuale) Pollice su/giù: consente a un valutatore umano di valutare ogni risposta di un modello come accettabile o inaccettabile in base alle istruzioni fornite. I risultati del report finale saranno mostrati come percentuale del numero totale di valutazioni da parte dei valutatori che hanno ricevuto un pollice in su per ciascun modello. Puoi utilizzare questo metodo di valutazione per valutare uno o più modelli. Se lo utilizzate in una valutazione che contiene due modelli, al team di lavoro verrà mostrato un pollice rivolto verso l'alto o verso il basso per ogni risposta del modello e il rapporto finale mostrerà i risultati aggregati per ogni modello individualmente. Definisci cosa è accettabile come valutazione con il pollice su o il pollice verso il basso nelle tue istruzioni. Nell'JSONoutput salvato in Amazon S3 questa scelta è rappresentata come coppia ThumbsUpDown chiave-valore. "evaluationResults":"ThumbsUpDown"

      • Scala Likert (individuale) - individuale: consente a un valutatore umano di indicare in che misura approva la risposta del modello in base alle istruzioni fornite su una scala Likert a 5 punti. I risultati del rapporto finale verranno visualizzati sotto forma di istogramma delle valutazioni a 5 punti fornite dai valutatori sull'intero set di dati. È possibile utilizzare questa scala per una valutazione contenente uno o più modelli. Se selezionate questo metodo di valutazione in una valutazione che contiene più di un modello, al team di lavoro verrà presentata una scala Likert a 5 punti per ogni risposta del modello e il rapporto finale mostrerà i risultati aggregati per ogni modello individualmente. Definite i punti importanti sulla scala a 5 punti nelle vostre istruzioni in modo che i vostri valutatori sappiano come valutare le risposte in base alle vostre aspettative. Nell'JSONoutput salvato in Amazon S3 questa scelta è rappresentata come coppia IndividualLikertScale chiave-valore. "evaluationResults":"IndividualLikertScale"

    6. Scegli un set di dati Prompt. Questo set di dati è obbligatorio e verrà utilizzato dal team di lavoro umano per valutare le risposte del modello. Fornisci S3 URI a un bucket Amazon S3 che contiene il tuo set di dati prompt nella casella di testo sotto URI S3 per il file del set di dati di input. Il set di dati deve essere in jsonlines formato e contenere le seguenti chiavi per identificare quali parti del set di dati verranno utilizzate dall'interfaccia utente per valutare il modello:

      • prompt— La richiesta a cui desideri che il modello generi una risposta.

      • (Facoltativo) category — - Le etichette delle categorie per il tuo prompt. La category chiave viene utilizzata per classificare i prompt in modo da poter filtrare i risultati della valutazione in un secondo momento per categoria per una comprensione più approfondita dei risultati della valutazione. Non partecipa alla valutazione stessa e gli operatori non lo vedono nell'interfaccia utente di valutazione.

      • (Facoltativo)referenceResponse: la risposta di riferimento per i valutatori umani. La risposta di riferimento non viene valutata dai dipendenti, ma può essere utilizzata per capire quali risposte sono accettabili o inaccettabili, in base alle istruzioni fornite.

      • (Facoltativo) responses — Utilizzato per specificare inferenze da un modello esterno SageMaker o esterno a. AWS

        Questo oggetto richiede due coppie chiave-valore aggiuntive, "modelIdentifier ovvero una stringa che identifica il modello e l'"text"inferenza del modello.

        Se si specifica una "responses" chiave in qualsiasi input del set di dati del prompt personalizzato, questa deve essere specificata in tutti gli input.

      • Il seguente esempio di json codice mostra le coppie chiave-valore accettate in un set di dati prompt personalizzato. La casella di controllo Bring your own inference deve essere selezionata se viene fornita una chiave di risposta. Se selezionata, la responses chiave deve essere sempre specificata in ogni prompt. L'esempio seguente potrebbe essere utilizzato in uno scenario di domande e risposte.

        { "prompt": { "text": "Aurillac is the capital of" }, "category": "Capitals", "referenceResponse": { "text": "Cantal" }, "responses": [ // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required. { "modelIdentifier": "meta-textgeneration-llama-codellama-7b", "text": "The capital of Aurillac is Cantal." } ] }
    7. Inserisci la posizione del bucket S3 in cui desideri salvare i risultati della valutazione in uscita nella casella di testo sotto Scegli una posizione S3 per salvare i risultati della valutazione. Il file di output scritto in questa posizione S3 sarà in JSON formato e terminerà con l'estensione,. .json

    8. Nota

      Se si desidera includere i dati di inferenza personalizzati nel processo di valutazione del modello, è possibile utilizzare un solo modello.

      (Facoltativo) Scegliete la casella di controllo sotto Porta la vostra inferenza per indicare che il set di dati del prompt contiene la chiave. responses Se specificate la responses chiave come parte di un prompt, deve essere presente in tutti i prompt.

    9. Configura il processore nella sezione Configurazione del processore utilizzando i seguenti parametri:

      • Utilizza Instance count per specificare il numero di istanze di calcolo da utilizzare per eseguire il modello. Se utilizzi più di 1 un'istanza, il tuo modello verrà eseguito in istanze parallele.

      • Usa il tipo di istanza per scegliere il tipo di istanza di calcolo che desideri utilizzare per eseguire il tuo modello. AWS dispone di istanze di calcolo generali e istanze ottimizzate per l'elaborazione e la memoria. Per ulteriori informazioni sui tipi di istanze, consulta. Tipi di istanze disponibili per l'uso con Studio Classic

      • Se desideri SageMaker utilizzare la tua chiave di crittografia AWS Key Management Service (AWS KMS) anziché la chiave di servizio AWS gestito predefinita, seleziona Attiva in KMS Chiave Volume e inserisci la AWS KMS chiave. SageMaker utilizzerà la tua AWS KMS chiave per crittografare i dati sul volume di archiviazione. Per ulteriori informazioni sulle chiavi, vedere AWS Key Management Service.

      • Se desideri SageMaker utilizzare la tua chiave di crittografia AWS Key Management Service (AWS KMS) anziché la chiave di servizio AWS gestito predefinita, seleziona Attiva sotto Chiave di output e inserisci la KMS AWS KMS chiave. SageMaker utilizzerà la tua AWS KMS chiave per crittografare l'output del processo di elaborazione.

      • Utilizzate un IAM ruolo per specificare l'accesso e le autorizzazioni per il processore predefinito. Inserisci il IAM ruolo che hai impostato nella sezione Configura il tuo IAM ruolo in questa sezione Esegui una valutazione umana.

    10. Dopo aver specificato il modello e i criteri, seleziona Avanti.

Il team di lavoro è composto dalle persone che stanno valutando il modello. Una volta creato, il team di lavoro persiste all'infinito e non è possibile modificarne gli attributi. Di seguito viene illustrato come iniziare a lavorare con il team di lavoro.

Configura il tuo team di lavoro
  1. Scegli un team esistente o crea un nuovo team nella casella di testo di input Seleziona team.

  2. Specificate un nome della vostra organizzazione in Nome dell'organizzazione. Questo campo viene visualizzato solo quando crei il primo team di lavoro nell'account.

  3. Specificare un'email di contatto. I tuoi dipendenti utilizzeranno questa e-mail per comunicare con te in merito all'attività di valutazione che fornirai loro. Questo campo viene visualizzato solo quando crei il primo team di lavoro nell'account.

  4. Specificare il nome del team. Non è possibile modificare questo nome in un secondo momento.

  5. Specificate un elenco di indirizzi e-mail per ciascuno dei vostri collaboratori umani che valuteranno il vostro modello linguistico di grandi dimensioni (LLM). Quando specifichi gli indirizzi e-mail per il tuo team, questi ricevono una notifica di un nuovo lavoro solo quando vengono aggiunti di recente a un team di lavoro. Se utilizzi lo stesso team per un lavoro successivo, devi notificarlo manualmente.

  6. Quindi, specifica il numero di lavoratori per prompt

Fornisci istruzioni per il tuo team di lavoro
  1. Fornisci istruzioni dettagliate alla tua forza lavoro umana in modo che possa valutare il tuo modello in base alle tue metriche e ai tuoi standard. Un modello nella finestra principale mostra esempi di istruzioni che puoi fornire. Per ulteriori informazioni su come fornire istruzioni, vedi Creazione di buone istruzioni per i lavoratori.

  2. Per ridurre al minimo le distorsioni nella valutazione umana, seleziona la casella di controllo accanto a Randomizza le posizioni di risposta.

  3. Seleziona Avanti.

Puoi rivedere il riepilogo delle selezioni che hai effettuato per il tuo lavoro umano. Se devi cambiare lavoro, scegli Precedente per tornare a una selezione precedente.

Invia la tua richiesta di lavoro di valutazione e visualizza lo stato di avanzamento del lavoro
  1. Per inviare la tua richiesta di lavoro di valutazione, scegli Crea risorsa.

  2. Per visualizzare lo stato di tutti i tuoi lavori, scegli Lavori nel riquadro di navigazione. Quindi, scegli Valutazione del modello. Lo stato di valutazione viene visualizzato come Completato, Non riuscito o In corso.

    Viene inoltre visualizzato quanto segue:

    • Notebook di esempio per eseguire una valutazione del modello in SageMaker Amazon Bedrock.

    • Collegamenti a informazioni aggiuntive tra cui documentazione, video, notizie e blog sul processo di valutazione del modello.

    • È disponibile anche il portale URL to your Private worker.

  3. Seleziona la valutazione del modello in Nome per visualizzare un riepilogo della valutazione.

    • Il riepilogo fornisce informazioni sullo stato del lavoro, sul tipo di attività di valutazione eseguita su quale modello e quando è stata eseguita. Dopo il riepilogo, i punteggi della valutazione umana vengono ordinati e riepilogati per metrica.

Visualizza la pagella del tuo lavoro di valutazione modello che utilizza lavoratori umani
  1. Per visualizzare il rapporto relativo ai tuoi lavori, scegli Lavori nel riquadro di navigazione.

  2. Quindi, scegli Valutazione del modello. Nella home page delle valutazioni dei modelli, utilizza la tabella per trovare il lavoro di valutazione del modello. Una volta che lo stato del lavoro è passato a Completato, puoi visualizzare la tua pagella.

  3. Scegli il nome del lavoro di valutazione del modello nella sua pagella.

Quando crei un processo di valutazione del modello che utilizza lavoratori umani, hai la possibilità di portare i tuoi dati di inferenza e fare in modo che i tuoi lavoratori umani confrontino tali dati di inferenza con i dati prodotti da un altro JumpStart modello o da un JumpStart modello che hai distribuito su un endpoint.

Questo argomento descrive il formato richiesto per i dati di inferenza e una procedura semplificata per aggiungere tali dati al processo di valutazione del modello.

Scegliete un set di dati Prompt. Questo set di dati è obbligatorio e verrà utilizzato dal team di lavoro umano per valutare le risposte del modello. Fornisci S3 URI a un bucket Amazon S3 che contiene il set di dati richiesto nella casella di testo sotto Scegli una posizione S3 per salvare i risultati della valutazione. Il set di dati deve essere in formato. .jsonl Ogni record deve essere un JSON oggetto valido e contenere le seguenti chiavi obbligatorie:

  • prompt— Un JSON oggetto che contiene il testo da passare al modello.

  • (Facoltativo) category — - Le etichette delle categorie per il prompt. La category chiave viene utilizzata per classificare i prompt in modo da poter filtrare i risultati della valutazione in un secondo momento per categoria per una comprensione più approfondita dei risultati della valutazione. Non partecipa alla valutazione stessa e gli operatori non lo vedono nell'interfaccia utente di valutazione.

  • (Facoltativo)referenceResponse: un JSON oggetto che contiene la risposta di riferimento per i valutatori umani. La risposta di riferimento non viene valutata dai dipendenti, ma può essere utilizzata per capire quali risposte sono accettabili o inaccettabili, in base alle istruzioni fornite.

  • responses— Utilizzato per specificare inferenze individuali da un modello esterno SageMaker o esterno a. AWS

    Questo oggetto richiede due coppie chiave-valore aggiuntive"modelIdentifier, che è una stringa che identifica il modello e "text" che è l'inferenza del modello.

    Se si specifica una "responses" chiave in qualsiasi input del set di dati del prompt personalizzato, questa deve essere specificata in tutti gli input.

Il seguente esempio di json codice mostra le coppie chiave-valore accettate in un set di dati di prompt personalizzato che contiene i propri dati di inferenza.

{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier": "meta-textgeneration-llama-codellama-7b" , "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }

Per iniziare, avvia Studio e nella sezione Valutazione del modello in Jobs nella navigazione principale.

Per aggiungere i tuoi dati di inferenza a un lavoro di valutazione di modelli umani.
  1. Nella Fase 1: Specificate i dettagli del lavoro aggiungete il nome del lavoro di valutazione del modello e una descrizione facoltativa.

  2. Nel Passaggio 2: Imposta la valutazione scegli Human.

  3. Successivamente, in Scegli il modello o i modelli che desideri valutare, puoi scegliere il modello che desideri utilizzare. Puoi utilizzare un JumpStart modello già distribuito oppure puoi scegliere un modello base Jumpstart pre-addestrato.

  4. Quindi, scegli un tipo di attività.

  5. Successivamente, puoi aggiungere metriche di valutazione.

  6. Successivamente, in Richiedi set di dati, seleziona la casella di controllo sotto Porta la tua inferenza per indicare che i prompt contengono chiavi di risposta.

  7. Quindi continua a configurare il tuo lavoro di valutazione del modello.

Per ulteriori informazioni su come vengono salvate le risposte del processo di valutazione dei modelli che utilizza lavoratori umani, consulta Comprendi i risultati di un lavoro di valutazione umana