Cosa sono le valutazioni dei modelli di base? - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Cosa sono le valutazioni dei modelli di base?

FMEvalpuò aiutarti a quantificare i rischi del modello, come contenuti imprecisi, tossici o distorti. La valutazione LLM aiuta a rispettare le linee guida internazionali sull'IA generativa responsabile, come lo standard ISO42001 per i sistemi di gestione dell'intelligenza artificiale e l'AI Risk Management Framework. NIST

Le sezioni seguenti offrono un'ampia panoramica dei metodi supportati per la creazione di valutazioni dei modelli, la visualizzazione dei risultati di un processo di valutazione dei modelli e l'analisi dei risultati.

Attività di valutazione del modello

In un processo di valutazione del modello, un'attività di valutazione è un'attività che si desidera che il modello esegua in base alle informazioni contenute nei prompt. È possibile scegliere un tipo di attività per ogni processo di valutazione del modello

Tipi di attività supportati nei lavori di valutazione dei modelli
  • Generazione aperta: la produzione di risposte umane naturali al testo che non hanno una struttura predefinita.

  • Riepilogo del testo: generazione di un riepilogo conciso e condensato che conservi il significato e le informazioni chiave contenute in un testo più grande.

  • Risposta alle domande: generazione di una risposta pertinente e accurata a una richiesta.

  • Classificazione: assegnazione di una categoria, ad esempio un'etichetta o una partitura, al testo, in base al suo contenuto.

  • Personalizzato: consente di definire dimensioni di valutazione personalizzate per il processo di valutazione del modello.

A ogni tipo di attività sono associate metriche specifiche che è possibile utilizzare in processi di valutazione automatizzati del modello. Per ulteriori informazioni sulle metriche associate ai processi di valutazione automatica dei modelli e ai lavori di valutazione dei modelli che utilizzano lavoratori umani, consulta. Utilizzo di set di dati rapidi e dimensioni di valutazione disponibili nei lavori di valutazione dei modelli

Aggiornamento dei parametri di inferenza

I parametri di inferenza sono un modo per influenzare l'output di un modello senza dover riaddestrare o perfezionare il modello.

Nel processo di valutazione automatica del modello, è possibile modificare i nuovi token Temperature, Top P e Max del modello.

Temperatura

Modifica la quantità di casualità nelle risposte del modello. Abbassa la temperatura predefinita per diminuire la quantità di casualità e aumentala per aumentarla.

Top P

Durante l'inferenza, il modello genera testo e sceglie da un elenco di parole per inserire la parola successiva. L'aggiornamento di Top P modifica il numero di parole in quell'elenco in base a una percentuale. Diminuendo Top P si ottengono campioni più deterministici, mentre un valore più alto consentirà una maggiore variabilità e creatività nel testo generato.

Numero massimo di nuovi token

Modifica la durata della risposta che il modello può fornire.

È possibile aggiornare i parametri di inferenza in Studio dopo aver aggiunto il modello al processo di valutazione del modello.

Processi di valutazione del modello automatica

I processi di valutazione automatica dei modelli utilizzano metriche basate su benchmark per misurare le risposte tossiche, dannose o comunque scadenti ai clienti. Le risposte dei modelli vengono valutate utilizzando set di dati integrati specifici per l'attività oppure è possibile specificare un set di dati di prompt personalizzato.

Per creare un processo di valutazione automatica del modello, puoi utilizzare Studio o la libreria. fmeval I processi di valutazione automatica del modello supportano l'uso di un singolo modello. In Studio, è possibile utilizzare un JumpStart modello o utilizzare un JumpStart modello precedentemente distribuito su un endpoint.

In alternativa, puoi distribuire la fmeval libreria nella tua base di codice e personalizzare il processo di valutazione del modello per i tuoi casi d'uso.

Per comprendere meglio i risultati, utilizzate il report generato. Il rapporto include visualizzazioni ed esempi. Vengono inoltre visualizzati i risultati salvati nel bucket Amazon S3 specificato durante la creazione del job. Per ulteriori informazioni sulla struttura dei risultati, consulta. Comprendi i risultati di un processo di valutazione automatico

Per utilizzare un modello non disponibile pubblicamente in JumpStart , è necessario utilizzare la fmeval libreria per eseguire il processo di valutazione automatica del modello. Per un elenco di JumpStart modelli, vedereModelli di fondazione disponibili.

Modelli di prompt

Per garantire che il JumpStart modello selezionato risponda correttamente a tutti i prompt, SageMaker Clarify amplia automaticamente i prompt di input in un formato che funzioni meglio per il modello e le dimensioni di valutazione selezionate. Per visualizzare il modello di prompt predefinito fornito da Clarify, scegliete Modello di richiesta nella scheda per la dimensione di valutazione. Se si seleziona, ad esempio, il tipo di attività Riepilogo del testo nell'interfaccia utente, Clarify visualizza per impostazione predefinita una scheda per ciascuna delle dimensioni di valutazione associate, in questo caso, Precisione, Tossicità e Robustezza semantica. In queste schede, è possibile configurare i set di dati e i modelli di prompt utilizzati da Clarify per misurare tale dimensione di valutazione. Puoi anche rimuovere qualsiasi dimensione che non desideri utilizzare.

Modelli di prompt predefiniti

Clarify fornisce una selezione di set di dati che è possibile utilizzare per misurare ogni dimensione di valutazione. È possibile scegliere di utilizzare uno o più di questi set di dati oppure fornire un set di dati personalizzato. Se utilizzate i set di dati forniti da Clarify, potete anche utilizzare i modelli di prompt inseriti da Clarify come predefiniti. Abbiamo derivato questi prompt predefiniti analizzando il formato di risposta in ogni set di dati e determinando gli aumenti delle query necessari per ottenere lo stesso formato di risposta.

Il modello di prompt fornito da Clarify dipende anche dal modello selezionato. È possibile scegliere un modello ottimizzato in modo che preveda istruzioni in punti specifici del prompt. Ad esempio, scegliendo il modello meta-textgenerationneuron-llama-2-7b, il tipo di attività Riepilogo del testo e Gigaword dataset, mostra un modello di prompt predefinito composto da quanto segue:

Summarize the following text in one sentence: Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...

La scelta del modello di chat lama meta-textgenerationneuron-llama-2-7b-f, invece, mostra il seguente modello di prompt predefinito:

[INST]<<SYS>>Summarize the following text in one sentence:<</SYS>>Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...[/INST]

Modelli di prompt personalizzati

Nella finestra di dialogo dei modelli di prompt, è possibile attivare o disattivare il supporto automatico per la creazione di modelli di prompt fornito da Clarify. SageMaker Se disattivate i modelli di prompt automatici, Clarify fornisce il prompt predefinito (come base per tutti i set di dati all'interno della stessa dimensione di valutazione) che potete modificare. Ad esempio, se il modello di prompt predefinito include l'istruzione Riassumi quanto segue in una frase, è possibile modificarla in Riassumi quanto segue in meno di 100 parole o qualsiasi altra istruzione che si desidera utilizzare.

Inoltre, se si modifica un prompt per una dimensione di valutazione, lo stesso prompt viene applicato a tutti i set di dati che utilizzano la stessa dimensione. Quindi, se scegli di applicare il prompt, riassumi il testo seguente in 17 frasi al set di dati Gigaword per misurare la tossicità, questa stessa istruzione viene utilizzata per il set di dati Government report per misurare la tossicità. Se si desidera utilizzare un prompt diverso per un set di dati diverso (utilizzando lo stesso tipo di attività e la stessa dimensione di valutazione), è possibile utilizzare i pacchetti python forniti da. FMEval Per informazioni dettagliate, consultare Personalizza il tuo flusso di lavoro utilizzando la libreria fmeval.

Esempio di modello di prompt aggiornato utilizzando il modello Prompt

Immagina uno scenario semplice in cui hai un semplice set di dati composto da solo due prompt e desideri valutarli utilizzando. meta-textgenerationneuron-llama-2-7b-f

{ "model_input": "Is himalaya the highest mountain in the world?", "target_output": "False, Mt. Everest is the highest mountain in the world", "category": "Geography" }, { "model_input": "Is Olympia the capital of Washington?", "target_output": "True", "category": "Capitals" }

Poiché i prompt sono coppie di domande e risposte, scegli il tipo di attività Domande e risposte.

Scegliendo il modello Prompt in Studio, potete vedere come SageMaker Clarify formatterà i prompt in modo che soddisfino i requisiti del modello. meta-textgenerationneuron-llama-2-7b-f JumpStart

[INST]<<SYS>>Respond to the following question. Valid answers are "True" or "False".<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Per questo modello, SageMaker Clarify integrerà i prompt in modo da contenere il formato corretto dei prompt aggiungendo i tag and. [INST] <<SYS>> Inoltre, aumenterà la richiesta iniziale aggiungendo ulteriori elementi Respond to the following question. Valid answers are "True" or "False". per aiutare il modello a rispondere meglio.

Il testo fornito da SageMaker Clarify potrebbe non essere adatto al tuo caso d'uso. Per disattivare i modelli di prompt predefiniti, fai scorrere l'interruttore dei modelli di prompt predefiniti di Dataset su Off.

Puoi modificare il modello di prompt in modo che sia allineato al tuo caso d'uso. Ad esempio, è possibile richiedere una risposta breve anziché un formato di risposta Vero/Falso, come illustrato nella riga seguente:

[INST]<<SYS>>Respond to the following question with a short response.<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Ora tutti i set di dati di prompt incorporati o personalizzati nella dimensione di valutazione specificata utilizzeranno il modello di prompt specificato.

Modella i lavori di valutazione che utilizzano lavoratori umani

Puoi anche impiegare lavoratori umani per valutare manualmente le risposte del modello per aspetti più soggettivi, come la disponibilità o lo stile. Per creare un processo di valutazione del modello che utilizzi lavoratori umani, è necessario utilizzare Studio.

In un processo di valutazione dei modelli che utilizza lavoratori umani, è possibile confrontare le risposte di un massimo di due JumpStart modelli. Facoltativamente, puoi anche specificare le risposte da modelli esterni a. AWS Tutti i lavori di valutazione dei modelli che utilizzano lavoratori umani richiedono la creazione di un set di dati prompt personalizzato e l'archiviazione in Amazon S3. Per ulteriori informazioni su come creare dati di prompt personalizzati, consulta. Creazione di un processo di valutazione del modello che utilizza lavoratori umani

In Studio, puoi definire i criteri utilizzati dalla forza lavoro umana per valutare le risposte dei modelli. È inoltre possibile documentare le istruzioni di valutazione utilizzando un modello disponibile in Studio. Inoltre, puoi creare un team di lavoro in Studio. Il team di lavoro è composto da persone a cui desideri che partecipino al tuo lavoro di valutazione dei modelli.