Comprendi le opzioni per valutare modelli linguistici di grandi dimensioni con Clarify SageMaker - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Comprendi le opzioni per valutare modelli linguistici di grandi dimensioni con Clarify SageMaker

Importante

Per utilizzare SageMaker Clarify Foundation Model Evaluations, è necessario eseguire l'aggiornamento alla nuova esperienza Studio. A partire dal 30 novembre 2023, la precedente esperienza Amazon SageMaker Studio è ora denominata Amazon SageMaker Studio Classic. La funzionalità di valutazione di base può essere utilizzata solo nell'esperienza aggiornata. Per informazioni su come aggiornare Studio, consultaMigrazione da Amazon SageMaker Studio Classic. Per informazioni sull'utilizzo dell'applicazione Studio Classic, vedereAmazon SageMaker Studio Classic.

Con Amazon SageMaker Clarify puoi valutare modelli linguistici di grandi dimensioni (LLMs) creando processi di valutazione dei modelli. Un lavoro di valutazione dei modelli consente di valutare e confrontare le metriche di qualità e responsabilità dei modelli di base basati su testo di. JumpStart I lavori di valutazione dei modelli supportano anche l'uso di JumpStart modelli che sono già stati implementati su un endpoint.

È possibile creare un processo di valutazione del modello utilizzando tre approcci diversi.

  • Crea un processo di valutazione automatizzato del modello in Studio: i lavori di valutazione automatica del modello consentono di valutare rapidamente la capacità di un modello di eseguire un'attività. Puoi fornire il tuo set di dati dei prompt personalizzato che hai adattato a un caso d'uso specifico oppure puoi utilizzare un set di dati integrato disponibile.

  • Crea processi di valutazione dei modelli che utilizzano lavoratori umani in Studio: i lavori di valutazione dei modelli che utilizzano lavoratori umani consentono di apportare il contributo umano al processo di valutazione del modello. Questi possono essere dipendenti dell'azienda o un gruppo di soggetti esperti del settore.

  • Crea un processo di valutazione automatizzato del modello utilizzando la fmeval libreria: la creazione di un lavoro fmeval utilizzando il offre il controllo più preciso sui processi di valutazione dei modelli. Supporta anche l'uso di modelli LLMs esterni AWS o non JumpStart basati su altri servizi.

I lavori di valutazione dei modelli supportano casi d'uso comuni LLMs come la generazione di testo, la classificazione del testo, la risposta a domande e risposte e il riepilogo del testo.

  • Generazione aperta: la produzione di risposte umane naturali al testo che non hanno una struttura predefinita.

  • Riepilogo del testo: generazione di un riepilogo conciso e condensato che conservi il significato e le informazioni chiave contenute in un testo più grande.

  • Risposta alle domande: generazione di una risposta pertinente e accurata a una richiesta.

  • Classificazione: assegnazione di una categoria, ad esempio un'etichetta o una partitura, al testo, in base al suo contenuto.

Gli argomenti seguenti descrivono le attività di valutazione del modello disponibili e i tipi di metriche che è possibile utilizzare. Descrivono inoltre i set di dati integrati disponibili e come specificare il set di dati.