Prerequisiti Tutorial: creazione di valutazioni di modelli che utilizzano lavoratori umani

Creazione di un processo di valutazione del modello che utilizza lavoratori umani

In un lavoro di valutazione di modelli che utilizza lavoratori umani, puoi valutare e confrontare le risposte di un massimo di due modelli. Puoi scegliere da un elenco di metriche consigliate o utilizzare metriche che definisci tu stesso. Puoi avere un massimo di 20 lavori di valutazione dei modelli che utilizzano lavoratori umani In corso presso il tuo Account AWS posto di lavoro Regione AWS.

Per ogni metrica utilizzata, è necessario definire un metodo di valutazione. Il metodo di valutazione definisce in che modo i lavoratori umani valuteranno le risposte che riceveranno dai modelli che hai selezionato. Per ulteriori informazioni sui diversi metodi di valutazione disponibili e su come creare istruzioni di alta qualità per i lavoratori, consultaCreazione e gestione di team di lavoro in Amazon Bedrock.

Prerequisiti

Per completare la procedura seguente, devi eseguire queste operazioni: I processi di valutazione del modello creati nella console Amazon Bedrock richiedono la configurazione CORS delle autorizzazioni sui bucket Amazon S3 specificati al momento della creazione del lavoro.

Per i lavori di valutazione dei modelli che utilizzano lavoratori umani, i set di dati integrati non sono supportati. Per ulteriori informazioni sulla creazione di set di dati prompt personalizzati, consulta. Requisiti per set di dati dei prompt personalizzati in processi di valutazione del modello che utilizzano lavoratori umani

Devi avere accesso ai modelli in Amazon Bedrock.
Devi avere un ruolo di servizio Amazon Bedrock. Se non hai già creato un ruolo di servizio, puoi crearlo nella console Amazon Bedrock durante la configurazione del processo di valutazione del modello. La policy allegata deve consentire l'accesso a tutti i bucket S3 utilizzati nel processo di valutazione del modello e a tutti i ARNs modelli specificati nel processo. Deve inoltre avere le sagemaker:DescribeFlowDefinition SageMaker IAM azioni sagemaker:StartHumanLoop sagemaker:DescribeHumanLoop e sagemaker:StopHumanLoop le azioni definite nella policy. Il ruolo di servizio deve inoltre avere Amazon Bedrock definito come principale del servizio nella policy di attendibilità del ruolo. Per ulteriori informazioni, consulta Ruoli di servizio.
Devi avere un ruolo di SageMaker servizio Amazon. Se non hai già creato un ruolo di servizio, puoi crearlo nella console Amazon Bedrock durante la configurazione del processo di valutazione del modello. La policy allegata deve consentire l'accesso alle seguenti risorse e IAM azioni. Tutti i bucket S3 utilizzati nel processo di valutazione del modello. La politica di fiducia del ruolo deve essere SageMaker stata definita come principale del servizio. Per ulteriori informazioni, consulta Autorizzazioni richieste.
L'utente, il gruppo o il ruolo che accede alla console Amazon Bedrock deve disporre delle autorizzazioni necessarie per accedere ai bucket Amazon S3 richiesti.
Al bucket Amazon S3 di output e a qualsiasi bucket di set di dati prompt personalizzato devono essere aggiunte le autorizzazioni richieste. CORS Per ulteriori informazioni sulle autorizzazioni richieste, consulta. CORS Autorizzazione Cross Origin Resource Sharing (CORS) richiesta sui bucket S3

Tutorial: creazione di valutazioni di modelli che utilizzano lavoratori umani

Usa il seguente tutorial per creare un lavoro di valutazione dei modelli che utilizzi lavoratori umani.

Visualizzazione dei risultati del processo di valutazione del modello utilizzando la console Amazon Bedrock

Al termine di un processo di valutazione del modello, i risultati vengono archiviati nel bucket Amazon S3 specificato. Se modifichi in qualche modo la posizione dei risultati, la scheda del report di valutazione del modello non è più visibile nella console.

Per creare un processo di valutazione del modello che utilizza lavoratori umani

Apri la console Amazon Bedrock: home https://console.aws.amazon.com/bedrock/
Nel riquadro di navigazione seleziona Valutazione del modello.
Nella scheda di valutazione Crea una scheda di valutazione, in Umano: porta il tuo team, scegli Crea una valutazione basata sull'uomo.
Nella pagina Specifica i dettagli dei processi, procedi come segue:
1. Nome di valutazione: assegna al processo di valutazione del modello un nome che descriva il processo. Questo nome viene mostrato nell'elenco dei processi del modello di valutazione. Il nome deve essere unico Account AWS nel tuo nome. Regione AWS
2. Descrizione (facoltativa): fornisci una descrizione facoltativa.
Quindi, seleziona Next (Successivo).
Nella pagina Configura la valutazione, fornisci quanto segue.
1. Modelli: puoi scegliere fino a due modelli che desideri utilizzare nel processo di valutazione del modello.
  
  Per ulteriori informazioni sui modelli disponibili in Amazon Bedrock, consulta Gestisci l'accesso ai modelli Amazon Bedrock Foundation.
2. (Facoltativo) Per modificare la configurazione di inferenza per i modelli selezionati, scegliete aggiorna.
  
  La modifica della configurazione di inferenza cambia le risposte generate dai modelli selezionati. Per ulteriori informazioni sui parametri di inferenza disponibili, consulta Parametri di inferenza per modelli di fondazione.
3. Tipo di attività: scegli il tipo di attività che desideri che il modello tenti di eseguire durante il processo di valutazione del modello. Tutte le istruzioni per il modello devono essere incluse nei prompt stessi. Il tipo di attività non controlla le risposte del modello.
4. Metriche di valutazione: l'elenco delle metriche consigliate cambia in base all'attività selezionata. Per ogni metrica consigliata, devi selezionare un metodo di valutazione. Puoi definire un massimo di 10 metriche di valutazione per processo di valutazione del modello.
5. (Facoltativo) Scegliete Aggiungi nuova metrica per aggiungere una nuova metrica. Devi definire Parametro, Descrizione e Metodo di valutazione.
6. Nella scheda Datasets devi fornire quanto segue.
  1. Scegli un set di dati richiesto: specifica l'S3 del file del set di dati URI del prompt o scegli Sfoglia S3 per vedere i bucket S3 disponibili. In un set di dati dei prompt personalizzato, puoi avere un massimo di 1.000 prompt.
  2. Destinazione dei risultati della valutazione: è necessario specificare l'S3 URI della directory in cui si desidera salvare i risultati del processo di valutazione del modello oppure scegliere Browse S3 per visualizzare i bucket S3 disponibili.
7. Chiave (Facoltativa): fornisci la AWS KMS ARNchiave gestita dal cliente che desideri utilizzare per crittografare il processo di valutazione del modello.
8. Nel IAMruolo Amazon Bedrock — scheda Autorizzazioni, devi fare quanto segue. Per ulteriori informazioni sulle autorizzazioni necessarie per le valutazioni del modello, consulta Autorizzazioni e ruoli IAM di servizio richiesti per creare un processo di valutazione del modello.
  1. Per utilizzare un ruolo di servizio Amazon Bedrock esistente, scegli Usa un ruolo esistente. Altrimenti, usa Crea un nuovo ruolo per specificare i dettagli del tuo nuovo ruolo di IAM servizio.
  2. In Nome del ruolo di servizio, specifica il nome del tuo ruolo di IAM servizio.
  3. Quando sei pronto, scegli Crea ruolo per creare il nuovo ruolo IAM di servizio.
Quindi, seleziona Next (Successivo).
Nella scheda Autorizzazioni, specifica quanto segue. Per ulteriori informazioni sulle autorizzazioni necessarie per le valutazioni del modello, consulta Autorizzazioni e ruoli IAM di servizio richiesti per creare un processo di valutazione del modello.
IAMRuolo umano del flusso di lavoro: specifica un ruolo di SageMaker servizio con le autorizzazioni richieste.
Nella scheda Team di lavoro, specifica quanto segue.

Requisiti di notifica per i lavoratori umani
Quando aggiungi un nuovo lavoratore umano a un processo di valutazione del modello, quest'ultimo riceve automaticamente un'email che lo invita a partecipare al processo di valutazione del modello. Quando aggiungi un lavoratore umano esistente a un lavoro di valutazione del modello, devi notificarlo e fornire loro un portale URL per il lavoro di valutazione del modello. Il lavoratore esistente non riceverà una notifica automatica via e-mail con la quale gli si comunica che è stato aggiunto al nuovo processo di valutazione del modello.
1. Utilizzando il menu a discesa Seleziona team, specifica Crea un nuovo team di lavoro o il nome di un team di lavoro esistente.
2. (Facoltativo) Numero di lavoratori per prompt: aggiorna il numero di lavoratori che valutano ogni prompt. Dopo aver esaminato le risposte a ciascun prompt in base al numero di lavoratori selezionato, il prompt e le relative risposte verranno ritirati dal team di lavoro. Il report sui risultati finali includerà tutte le valutazioni di ciascun lavoratore.
3. (Facoltativo) E-mail esistente del lavoratore: scegliete questa opzione per copiare un modello di e-mail contenente il portale per i lavoratoriURL.
4. (Facoltativo) E-mail per nuovo lavoratore: scegli questa opzione per visualizzare l'e-mail che i nuovi lavoratori ricevono automaticamente.
  
  Importante
  I modelli linguistici di grandi dimensioni sono noti per produrre occasionalmente contenuti pericolosi o offensivi. Durante questa valutazione, ai tuoi dipendenti potrebbe essere mostrato materiale pericoloso o offensivo. Assicurati di prendere le misure adeguate per prepararli e informarli prima che lavorino alla valutazione. Possono rifiutare e interrompere le attività o fare delle pause durante la valutazione accedendo allo strumento di valutazione umana.
Quindi, seleziona Next (Successivo).
Nella pagina Fornisci le istruzioni, utilizza l'editor di testo per fornire istruzioni per completare l'attività. Puoi visualizzare in anteprima l'interfaccia utente di valutazione utilizzata dal team di lavoro per valutare risposte, incluse le metriche, metodi di valutazione e istruzioni. Questa anteprima si basa sulla configurazione che hai creato per questo processo.
Quindi, seleziona Next (Successivo).
Nella pagina Rivedi e crea, puoi visualizzare un riepilogo delle opzioni selezionate nei passaggi precedenti.
Per iniziare il processo di valutazione del modello, scegli Crea.

Una volta avviato correttamente il processo, lo stato passa a In corso. Al termine del processo, lo stato cambia in Completato. Mentre un processo di valutazione del modello è ancora in corso, puoi scegliere di interromperlo prima che tutte le risposte dei modelli siano state valutate dal team di lavoro. A tale scopo, scegli Interrompi la valutazione nella pagina di destinazione sulla valutazione del modello. Questo cambierà lo stato del processo di valutazione del modello in Arresto. Una volta che il processo di valutazione del modello è stato interrotto correttamente, è possibile eliminare il processo di valutazione del modello.

Per informazioni su come valutare, visualizzare e scaricare i risultati del processo di valutazione del modello, consulta Risultati del processo di valutazione del modello.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Valutazioni del modello automatiche

Utilizzo dei processi

Creazione di un processo di valutazione del modello che utilizza lavoratori umani

Prerequisiti

Tutorial: creazione di valutazioni di modelli che utilizzano lavoratori umani

Visualizzazione dei risultati del processo di valutazione del modello utilizzando la console Amazon Bedrock

Per creare un processo di valutazione del modello che utilizza lavoratori umani

Requisiti di notifica per i lavoratori umani

Importante