Inizia con le valutazioni dei modelli

Un modello linguistico di grandi dimensioni (LLM) è un modello di apprendimento automatico in grado di analizzare e generare testo in linguaggio naturale. Se si desidera valutare unLLM, SageMaker fornisce le seguenti tre opzioni tra cui scegliere:

Imposta valutazioni manuali per una forza lavoro umana utilizzando Studio.
Valuta il tuo modello con un algoritmo utilizzando Studio.
Valuta automaticamente il tuo modello con un flusso di lavoro personalizzato utilizzando la fmeval libreria.

Puoi utilizzare un algoritmo per valutare automaticamente il tuo modello di base o chiedere a un team di lavoro umano di valutare le risposte dei modelli.

I team di lavoro umano possono valutare e confrontare fino a due modelli contemporaneamente utilizzando metriche che indicano la preferenza per una risposta rispetto a un'altra. Il flusso di lavoro, le metriche e le istruzioni per una valutazione umana possono essere personalizzati per adattarsi a un caso d'uso particolare. Gli esseri umani possono anche fornire una valutazione più raffinata rispetto a una valutazione algoritmica.

È inoltre possibile utilizzare un algoritmo per valutare l'LLMutilizzo di benchmark per assegnare rapidamente un punteggio alle risposte del modello in Studio. Studio offre un flusso di lavoro guidato per valutare le risposte di un JumpStart modello utilizzando metriche predefinite. Queste metriche sono specifiche per le attività di intelligenza artificiale generativa. Questo flusso guidato utilizza set di dati integrati o personalizzati per valutare i tuoi. LLM

In alternativa, puoi utilizzare la fmeval libreria per creare un flusso di lavoro più personalizzato utilizzando valutazioni automatiche rispetto a quello disponibile in Studio. Utilizzo Python è possibile valutare qualsiasi codice e la fmeval libreria basati su testoLLM, inclusi i modelli creati all'esterno di. JumpStart

I seguenti argomenti forniscono una panoramica delle valutazioni dei modelli di base, un riepilogo dei flussi di lavoro automatici e umani di Foundation Model Evaluation (FMEval), come eseguirli e come visualizzare un rapporto di analisi dei risultati. L'argomento relativo alla valutazione automatica mostra come configurare ed eseguire sia una valutazione iniziale che una valutazione personalizzata.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Valutazioni del modello

Set di dati e dimensioni di valutazione rapidi