Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configura il comportamento di risposta in streaming per filtrare i contenuti
L'InvokeModelWithResponseStreamAPI restituisce i dati in un formato di streaming. Ciò consente di accedere alle risposte in blocchi senza attendere l'intero risultato. Quando si utilizzano guardrail con una risposta in streaming, esistono due modalità operative: sincrona e asincrona.
modalità sincrona
Nella modalità sincrona predefinita, i guardrail memorizzeranno nel buffer e applicheranno le politiche configurate a uno o più blocchi di risposta prima che la risposta venga rispedita all'utente. La modalità di elaborazione sincrona introduce una certa latenza nei blocchi di risposta, in quanto significa che la risposta viene ritardata fino al completamento della scansione dei guardrail. Tuttavia, offre una maggiore precisione, poiché ogni blocco di risposta viene scansionato da guardrail prima di essere inviato all'utente.
modalità asincrona
In modalità asincrona, guardrails invia i blocchi di risposta all'utente non appena diventano disponibili, mentre applica in modo asincrono le politiche configurate in background. Il vantaggio è che i blocchi di risposta vengono forniti immediatamente senza alcun impatto sulla latenza, ma i blocchi di risposta possono contenere contenuti inappropriati fino al completamento della scansione dei guardrails. Non appena viene identificato un contenuto inappropriato, i blocchi successivi verranno bloccati dai guardrail.
avvertimento
Amazon Bedrock Guardrails non supporta il mascheramento di informazioni sensibili con la modalità asincrona.
Attivazione della modalità asincrona
Per abilitare la modalità asincrona, è necessario includere il streamProcessingMode
parametro nell'oggetto della richiesta: amazon-bedrock-guardrailConfig
InvokeModelWithResponseStream
{ "amazon-bedrock-guardrailConfig": { "streamProcessingMode": "ASYNCHRONOUS" } }
Comprendendo i compromessi tra la modalità sincrona e quella asincrona, è possibile scegliere la modalità appropriata in base ai requisiti dell'applicazione in termini di latenza e precisione della moderazione dei contenuti.