Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Valuta un modello di base per la generazione di testo in Studio
Nota
Foundation Model Evaluations (FMEval) è disponibile in anteprima per Amazon SageMaker Clarify ed è soggetto a modifiche.
Importante
Per utilizzare SageMaker Clarify Foundation Model Evaluations, è necessario eseguire l'aggiornamento alla nuova esperienza Studio. A partire dal 30 novembre 2023, la precedente esperienza Amazon SageMaker Studio è ora denominata Amazon SageMaker Studio Classic. La funzionalità di valutazione di base può essere utilizzata solo nell'esperienza aggiornata. Per informazioni su come aggiornare Studio, consultaMigrazione da Amazon SageMaker Studio Classic. Per informazioni sull'utilizzo dell'applicazione Studio Classic, vedereAmazon SageMaker Studio Classic.
Amazon SageMaker JumpStart dispone di integrazioni con SageMaker Clarify Foundation Model Evaluations (FMEval) in Studio. Se un JumpStart modello dispone di funzionalità di valutazione integrate, puoi scegliere Evaluate nell'angolo in alto a destra della pagina di dettaglio del modello nell'interfaccia utente di JumpStart Studio. Per ulteriori informazioni sulla navigazione nell'interfaccia utente di JumpStart Studio, consultaApri e usa in Studio JumpStart ,
Usa Amazon SageMaker JumpStart per valutare modelli di base basati su testo con. FMEval Puoi utilizzare queste valutazioni dei modelli per confrontare le metriche di qualità e responsabilità dei modelli per un modello, tra due modelli o tra diverse versioni dello stesso modello, per aiutarti a quantificare i rischi del modello. FMEvalpuò valutare modelli basati su testo che svolgono le seguenti attività:
-
Generazione aperta: la produzione di risposte umane naturali al testo che non hanno una struttura predefinita.
-
Riepilogo del testo: generazione di un riepilogo conciso e condensato, pur mantenendo il significato e le informazioni chiave contenute in un testo più grande.
-
Risposta a una domanda: generazione di una risposta in linguaggio naturale a una domanda.
-
Classificazione: l'assegnazione di una classe, ad esempio
positive
rispettonegative
a un passaggio di testo in base al suo contenuto.
È possibile utilizzarlo FMEval per valutare automaticamente le risposte del modello sulla base di benchmark specifici. È inoltre possibile valutare le risposte del modello in base ai propri criteri utilizzando set di dati personalizzati. FMEvalfornisce un'interfaccia utente (UI) che guida l'utente nella configurazione e configurazione di un processo di valutazione. Puoi anche usare la FMEval libreria all'interno del tuo codice.
Ogni valutazione richiede una quota per due istanze:
-
Istanza di hosting: un'istanza che ospita e distribuisce un. LLM
-
Istanza di valutazione: un'istanza utilizzata per richiedere ed eseguire una valutazione di un'istanza LLM sull'hosting.
Se la tua LLM è già distribuita, fornisci l'endpoint e SageMaker AI utilizzerà la tua istanza di hosting per ospitare e distribuire la. LLM
Se stai valutando un JumpStart modello che non è ancora stato distribuito nel tuo account, FMEval crea un'istanza di hosting temporanea nel tuo account e la mantiene implementata solo per la durata della valutazione. FMEvalutilizza l'istanza predefinita JumpStart consigliata per l'istanza di LLM hosting scelta. È necessario disporre di una quota sufficiente per questa istanza consigliata.
Ogni valutazione utilizza anche un'istanza di valutazione per fornire suggerimenti e assegnare un punteggio alle risposte di. LLM È inoltre necessario disporre di una quota e di una memoria sufficienti per eseguire gli algoritmi di valutazione. I requisiti di quota e memoria dell'istanza di valutazione sono generalmente inferiori a quelli richiesti per un'istanza di hosting. Consigliamo di selezionare l'ml.m5.2xlarge
istanza. Per ulteriori informazioni su quota e memoria, vedereRisolvi gli errori durante la creazione di un processo di valutazione del modello in Amazon SageMaker AI.
Le valutazioni automatiche possono essere utilizzate per ottenere punteggi LLMs nelle seguenti dimensioni:
-
Precisione: per il riepilogo del testo, la risposta alle domande e la classificazione del testo
-
Robustezza semantica: per attività aperte di generazione, riepilogo e classificazione del testo
-
Conoscenza fattuale: per una generazione aperta
-
Stereotipi rapidi: per una generazione a tempo indeterminato
-
Tossicità: per la generazione a tempo indeterminato, il riepilogo del testo e la risposta a domande
È inoltre possibile utilizzare le valutazioni umane per valutare manualmente le risposte dei modelli. L'FMEvalinterfaccia utente guida l'utente attraverso un flusso di lavoro che prevede la selezione di uno o più modelli, la fornitura di risorse, la stesura di istruzioni e il contatto con la forza lavoro umana. Una volta completata la valutazione umana, i risultati vengono visualizzati in. FMEval
È possibile accedere alla valutazione del modello tramite la pagina di JumpStart destinazione di Studio selezionando un modello da valutare e quindi scegliendo Evaluate. Tieni presente che non tutti i JumpStart modelli dispongono di funzionalità di valutazione. Per ulteriori informazioni su come configurare, fornire ed eseguireFMEval, vedi Cosa sono le valutazioni dei modelli Foundation?