Creare un processo di valutazione automatica del modello in Studio - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creare un processo di valutazione automatica del modello in Studio

La procedura guidata disponibile in Studio ti guida nella scelta di un modello da valutare, nella selezione di un tipo di attività, nella scelta di metriche e set di dati e nella configurazione delle risorse necessarie. I seguenti argomenti mostrano come formattare un set di dati di input personalizzato opzionale, configurare l'ambiente e creare il processo di valutazione del modello in Studio.

Se utilizzate un set di dati integrato per valutare il modello in Studio, il set di dati viene formattato correttamente. Per utilizzare il proprio set di dati di prompt personalizzato, deve essere un jsonlines file, in cui ogni riga è un oggetto valido. JSON Ogni JSON oggetto deve contenere un solo prompt.

Per garantire il corretto funzionamento del JumpStart modello selezionato, SageMaker Clarify formatta automaticamente tutti i set di dati dei prompt nel formato più adatto alle dimensioni di valutazione del modello selezionate. Per i set di dati di prompt incorporati, SageMaker Clarify aggiungerà anche del testo didattico aggiuntivo. Per vedere come SageMaker Clarify modificherà i prompt, scegliete il modello di prompt in una delle dimensioni di valutazione che avete aggiunto al processo di valutazione del modello. Per vedere un esempio di come modificare un modello di prompt, vedete Esempio di modello di prompt.

L'interruttore consente di disattivare o attivare il supporto automatico per la creazione di modelli di prompt fornito da Clarify per i set di dati integrati. SageMaker La disattivazione del modello di prompt automatico consente di specificare modelli di prompt personalizzati che verranno applicati a tutti i prompt del set di dati.

Per sapere quali chiavi sono disponibili per un set di dati personalizzato nell'interfaccia utente, consulta i seguenti elenchi di attività.

  • model_input— Obbligatorio per indicare l'input per le seguenti attività.

    • Richiesta a cui il modello deve rispondere nelle attività aperte di generazione, tossicità e precisione.

    • La domanda a cui il modello dovrebbe rispondere nelle attività di risposta alle domande e le attività di conoscenza dei fatti.

    • Il testo che il modello dovrebbe riassumere nelle attività di riepilogo del testo.

    • Il testo che il modello deve classificare nelle attività di classificazione.

    • Il testo che desiderate che il modello modifichi nelle attività di robustezza semantica.

  • target_output— Obbligatorio per indicare la risposta rispetto alla quale il modello viene valutato per le seguenti attività.

    • La risposta per la risposta alle domande, l'accuratezza, la robustezza semantica e le attività di valutazione fattuale.

    • Per le attività di precisione e robustezza semantica, separa le risposte accettabili con un. <OR> La valutazione accetta come corrette tutte le risposte separate da una virgola. Ad esempio, usatarget_output="UK<OR>England<OR>United Kingdom", se vuoi accettare una delle due UK England o due United Kingdom come risposte accettabili.

  • (Facoltativo)category: genera punteggi di valutazione riportati per ogni categoria.

  • sent_less_input— Obbligatorio per indicare il prompt che contiene meno pregiudizi per le attività di rapida stereotipizzazione.

  • sent_more_input— Obbligatorio per indicare il prompt che contiene più pregiudizi per le attività di stereotipizzazione dei prompt.

Una valutazione fattuale delle conoscenze richiede sia la domanda da porre sia la risposta per confrontare la risposta del modello. Usa la chiave model_input con il valore contenuto nella domanda e la chiave target_output con il valore contenuto nella risposta come segue:

{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}

L'esempio precedente è un singolo JSON oggetto valido che costituisce un record in un file jsonlines di input. Ogni JSON oggetto viene inviato al modello come richiesta. Per effettuare più richieste, includi più righe. Il seguente esempio di input di dati riguarda un'attività di risposta a domande che utilizza una chiave category opzionale per la valutazione.

{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"} {"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"} {"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}

Se si valuta l'algoritmo nell'interfaccia utente, vengono impostati i seguenti valori predefiniti per il set di dati di input:

  • Il numero di record utilizzati dalla valutazione è fisso. L'algoritmo campiona questo numero di richieste in modo casuale dal set di dati di input.

    • Per modificare questo numero: utilizzate la fmeval libreria come descritto in Personalizzare il flusso di lavoro utilizzando la fmeval libreria e impostate il parametro sul numero di campioni desiderato o num_records -1 per specificare l'intero set di dati. Il numero predefinito di record che vengono valutati 100 riguarda l'accuratezza, la rapida stereotipizzazione, la tossicità, la classificazione e la robustezza semantica. Il numero predefinito di record per un'attività di conoscenza dei fatti è. 300

  • Il delimitatore di output di destinazione, come descritto in precedenza nel target_output parametro, è impostato su <OR> nell'interfaccia utente.

    • Per separare le risposte accettabili utilizzando un altro delimitatore: utilizzate la fmeval libreria come descritto in Personalizzare il flusso di lavoro utilizzando la fmeval libreria e impostate il parametro target_output_delimiter sul delimitatore desiderato.

  • È necessario utilizzare un modello JumpStart linguistico basato su testo disponibile per la valutazione del modello. Questi modelli hanno diversi parametri di configurazione per l'immissione dei dati che vengono passati automaticamente al FMeval processo.

    • Per utilizzare un altro tipo di modello: utilizzate la fmeval libreria per definire la configurazione dei dati per il set di dati di input.

Per eseguire una valutazione automatica per un modello di linguaggio di grandi dimensioni (LLM), è necessario configurare l'ambiente in modo da disporre delle autorizzazioni corrette per eseguire una valutazione. Quindi, puoi utilizzare l'interfaccia utente per guidarti attraverso i passaggi del flusso di lavoro ed eseguire una valutazione. Le seguenti sezioni mostrano come utilizzare l'interfaccia utente per eseguire una valutazione automatica.

Prerequisiti
  • Per eseguire una valutazione del modello in un'interfaccia utente di Studio, il ruolo AWS Identity and Access Management (IAM) e tutti i set di dati di input devono disporre delle autorizzazioni corrette. Se non disponi di un SageMaker dominio o di un IAM ruolo, segui i passaggi indicati in. Guida alla configurazione con Amazon SageMaker

Per impostare le autorizzazioni per il tuo bucket S3

Dopo aver creato il dominio e il ruolo, segui i passaggi seguenti per aggiungere le autorizzazioni necessarie per valutare il tuo modello.

  1. Apri la SageMaker console Amazon all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nel riquadro di navigazione, S3 accedi alla barra di ricerca nella parte superiore della pagina.

  3. Scegli S3 in Servizi.

  4. Scegli Bucket dal pannello di navigazione.

  5. Nella sezione General purpose bucket, in Nome, scegli il nome del bucket Amazon S3 che desideri utilizzare per archiviare il tuo set di dati prompt personalizzato e dove vuoi salvare i risultati del processo di valutazione del modello. Il bucket Amazon S3 deve trovarsi nella stessa istanza di Regione AWS Studio. Se non disponi di un bucket Amazon S3, procedi come segue.

    1. Seleziona Crea bucket per aprire una nuova pagina Crea bucket.

    2. Nella sezione Configurazione generale, in AWS Regione, seleziona la AWS regione in cui si trova il modello di base.

    3. Assegna un nome al bucket S3 nella casella di immissione sotto Nome del bucket.

    4. Accetta tutte le scelte predefinite.

    5. Seleziona Crea bucket.

    6. Nella sezione General Purpose bucket, sotto Nome, seleziona il nome del bucket S3 che hai creato.

  6. Scegli la scheda Autorizzazioni.

  7. Scorri fino alla sezione Cross-origin resource sharing (CORS) nella parte inferiore della finestra. Scegli Modifica.

  8. Per aggiungere le CORS autorizzazioni al tuo bucket, copia il seguente codice nella casella di input.

    [ { "AllowedHeaders": [ "*" ], "AllowedMethods": [ "GET", "PUT", "POST", "DELETE" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ] } ]
  9. Scegli Save changes (Salva modifiche).

Per aggiungere autorizzazioni alla tua politica IAM
  1. Nella barra di ricerca nella parte superiore della pagina, inserisciIAM.

  2. In Servizi, selezionare Identity and Access Management (IAM).

  3. Scegli Politiche dal riquadro di navigazione.

  4. Scegli Create Policy (Crea policy). Quando si apre l'editor delle politiche, scegli JSON.

  5. Scegli Next (Successivo).

  6. Assicurati che le seguenti autorizzazioni siano visualizzate nell'editor delle politiche. Puoi anche copiare e incollare quanto segue nell'editor delle politiche.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams", "s3:GetObject", "s3:PutObject", "s3:ListBucket", "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:Search", "sagemaker:CreateProcessingJob", "sagemaker:DescribeProcessingJob" ], "Resource": "*" } ] }
  7. Scegli Next (Successivo).

  8. Inserisci il nome di una politica nella sezione Dettagli della politica, sotto Nome della politica. Puoi anche inserire una descrizione opzionale. Cercherai il nome di questo criterio quando lo assegni a un ruolo.

  9. Scegli Create Policy (Crea policy).

Per aggiungere autorizzazioni al tuo ruolo IAM
  1. Nel riquadro di navigazione scegliere Roles (Ruoli). Inserisci il nome del ruolo che desideri utilizzare.

  2. Seleziona il nome del ruolo in Nome ruolo. La finestra principale cambia per mostrare le informazioni sul tuo ruolo.

  3. Nella sezione Politiche di autorizzazione, scegli la freccia rivolta verso il basso accanto a Aggiungi autorizzazioni.

  4. Tra le opzioni visualizzate, scegli Allega politiche.

  5. Dall'elenco delle politiche visualizzate, cerca la politica che hai creato nel passaggio 5. Seleziona la casella di controllo accanto al nome della polizza.

  6. Scegli la freccia rivolta verso il basso accanto a Azioni.

  7. Tra le opzioni visualizzate, seleziona Allega.

  8. Cerca il nome del ruolo che hai creato. Seleziona la casella di controllo accanto al nome.

  9. Scegli Aggiungi autorizzazioni. Un banner nella parte superiore della pagina dovrebbe indicare che Policy è stata correttamente associata al ruolo.

  • .

Quando crei un processo di valutazione automatica del modello, puoi scegliere tra i JumpStart modelli basati su testo disponibili oppure puoi utilizzare un JumpStart modello basato su testo che hai precedentemente distribuito su un endpoint.

Per creare un processo automatico di valutazione del modello, utilizzare la procedura seguente.

Per avviare un processo di valutazione automatica del modello in Studio.
  1. Apri la SageMaker console Amazon all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nella barra di ricerca nella parte superiore della pagina, inserisciSageMaker.

  3. In Servizi, seleziona Amazon SageMaker.

  4. Scegli Studio dal pannello di navigazione.

  5. Scegli il tuo dominio dalla sezione Guida introduttiva, dopo aver espanso la freccia rivolta verso il basso sotto Seleziona dominio.

  6. Scegli il tuo profilo utente dalla sezione Guida introduttiva dopo aver espanso la freccia rivolta verso il basso sotto Seleziona profilo utente.

  7. Scegli Open Studio per aprire la pagina di destinazione di Studio.

  8. Scegli Jobs dal pannello di navigazione principale.

  9. Quindi, scegli Valutazione del modello.

Per impostare un lavoro di valutazione
  1. Quindi, scegli Valuta un modello,.

  2. Nel passaggio 1: Specificare i dettagli del lavoro, procedi come segue:

    1. Inserite il nome della valutazione del modello. Questo nome consente di identificare il lavoro di valutazione del modello dopo l'invio.

    2. Inserite una descrizione per aggiungere altro contesto al nome.

    3. Scegli Next (Successivo).

  3. Nel Passaggio 2: Impostazione della valutazione, procedi come segue:

    1. In Tipo di valutazione scegli Automatico.

    2. Quindi, scegli Aggiungi modello alla valutazione

    3. Nella modalità Aggiungi modello puoi scegliere di utilizzare un modello base Jumpstart o un endpoint pre-addestrato. SageMaker Se hai già distribuito un modello, scegli SageMaker endpoint, altrimenti scegli il JumpStart modello base Jumpstart pre-addestrato.

    4. Quindi, scegliere Save (Salva).

    5. (Facoltativo) Dopo aver aggiunto il modello, scegli Prompt template per visualizzare il formato di input previsto per i prompt in base al modello selezionato. Per informazioni su come configurare un modello di prompt per un set di dati, vedere. Modelli di prompt

      • Per utilizzare il modello di prompt predefinito, completa i seguenti passaggi:

        1. Attiva Usa i modelli di prompt predefiniti forniti dai set di dati.

        2. (Facoltativo) Per ogni set di dati, consultate il prompt fornito da Clarify.

        3. Seleziona Salva.

      • Per utilizzare un modello di prompt personalizzato, completate i seguenti passaggi:

        1. Disattiva Utilizza i modelli di prompt predefiniti forniti dai set di dati.

        2. Se Clarify visualizza un prompt predefinito, è possibile personalizzarlo o rimuoverlo e fornire un prompt personalizzato. È necessario includere la $model_input variabile nel modello di prompt.

        3. Seleziona Salva.

    6. Quindi, in Tipo di attività, scegli un tipo di attività.

      Per ulteriori informazioni sui tipi di attività e sulle dimensioni di valutazione associate, consulta la sezione Valutazione automatica in Utilizzo di set di dati rapidi e dimensioni di valutazione disponibili nei lavori di valutazione dei modelli .

    7. Nella sezione Metriche di valutazione, scegli una dimensione di valutazione. La casella di testo sotto Descrizione contiene un contesto aggiuntivo sulla dimensione.

      Dopo aver selezionato un'attività, le metriche associate all'attività vengono visualizzate in Metriche. In questa sezione, procedi come segue.

    8. Seleziona una dimensione di valutazione dalla freccia rivolta verso il basso in Dimensione di valutazione.

    9. Scegli un set di dati di valutazione. Puoi scegliere di utilizzare il tuo set di dati o utilizzare un set di dati integrato. Se si desidera utilizzare il proprio set di dati per valutare il modello, è necessario formattarlo in un modo utilizzabile. FMEval Inoltre, deve essere collocato in un bucket S3 con le CORS autorizzazioni a cui si fa riferimento nella sezione precedente. Configurazione dell'ambiente Per ulteriori informazioni su come formattare un set di dati personalizzato, consulta. Usa un set di dati di input personalizzato

    10. Inserisci la posizione del bucket S3 in cui desideri salvare i risultati della valutazione dell'output. Questo file è in formato jsonlines (.jsonl).

    11. Configura il processore nella sezione Configurazione del processore utilizzando i seguenti parametri:

      • Utilizza Instance count per specificare il numero di istanze di calcolo che desideri utilizzare per eseguire il modello. Se utilizzi più di 1 un'istanza, il tuo modello viene eseguito in istanze parallele.

      • Usa il tipo di istanza per scegliere il tipo di istanza di calcolo che desideri utilizzare per eseguire il tuo modello. Per ulteriori informazioni sui tipi di istanze, consultaTipi di istanze disponibili per l'uso con Studio Classic.

      • Utilizzate KMS la chiave Volume per specificare la chiave di crittografia AWS Key Management Service (AWS KMS). SageMaker utilizza la tua AWS KMS chiave per crittografare il traffico in entrata dal modello e dal tuo bucket Amazon S3. Per ulteriori informazioni sulle chiavi, consulta. AWS Key Management Service

      • Utilizza KMSla chiave di output per specificare la chiave di AWS KMS crittografia per il traffico in uscita.

      • Usa IAMRole per specificare l'accesso e le autorizzazioni per il processore predefinito. Inserisci il IAM ruolo che hai impostato Configurazione dell'ambiente

    12. Dopo aver specificato il modello e i criteri, scegli Avanti. La finestra principale passa al Passaggio 5 Rivedi e salva.

Rivedi ed esegui il processo di valutazione
  1. Rivedi tutti i parametri, il modello e i dati che hai selezionato per la valutazione.

  2. Scegli Crea risorsa per eseguire la valutazione.

  3. Per verificare lo stato del tuo lavoro, vai all'inizio della sezione Valutazioni dei modelli della pagina.