Important : Configuration du délai d'expiration Sujets d'inférence de base

Inférence de base

L'inférence est le processus qui consiste à envoyer une demande à un modèle Amazon Nova et à recevoir une réponse générée. Les modèles Amazon Nova prennent en charge l'inférence via deux options d'API :

API Converse (Converse, ConverseStream) : fournit une interface cohérente entre les différents modèles, ce qui facilite le passage d'un modèle à l'autre ou la création d'applications compatibles avec plusieurs modèles. Recommandé pour la plupart des cas d'utilisation.
Invoke API (InvokeModel, InvokeModelWithResponseStream) : les charges utiles des requêtes sont structurées spécifiquement pour le format natif de chaque modèle. Exécute l'inférence à l'aide des paramètres d'invite et d'inférence fournis dans le corps de la demande.

Les deux APIs prennent en charge les mêmes fonctionnalités de base, notamment :

Conversations complexes
Entrées multimodales (texte, images, vidéo, audio)
Utilisation d’outil
Barrières de protection
Réponses en streaming

La structure de demande est presque identique entre les deux APIs, ne différant que par la manière dont les données en octets (documents, images, vidéo et audio) sont encodées. Pour les paramètres de demande de modèle propres aux modèles Amazon Nova, tels que reasoningConfig etTopK, ils sont placés dans un inferenceConfig objet supplémentaire au sein du. additionalModelRequestFields Il s'agit de paramètres de haut niveau pour InvokeModel et. InvokeModelWithResponseStream

Note

Consultez les exemples de code et le dépannage pour obtenir une liste d'exemples de code relatifs aux modèles Nova 2.

Définissez l'une modelId des valeurs suivantes pour utiliser les modèles Amazon Nova :

Modèle	ID du modèle
Nova 2 Lite	global.amazon.nova-2-lite-v 1:0 us.amazon.nova-2-lite-v 1:0
Nova 2 Sonic	global.amazon.nova-2-sonic-v 1:0 us.amazon.nova-2-sonic-v 1:0
Intégrations multimodales Nova	amazon.nova-2- 1:0 multimodal-embeddings-v

Important : Configuration du délai d'expiration

Important

Le traitement des demandes d'inférence Amazon Nova peut prendre jusqu'à 60 minutes. Configurez les paramètres de délai d'expiration de votre client en conséquence :

L'exemple suivant est du code Python. Les utilisateurs peuvent consulter la documentation de leur version linguistique préférée du SDK dans la documentation de l'API de ce SDK.


from botocore.config import Config

bedrock = boto3.client(
    'bedrock-runtime',
    region_name='us-east-1',
    config=Config(
        read_timeout=3600  # 60 minutes
    )
)

Sujets d'inférence de base

Cette section aborde les sujets suivants :

Utilisation de l'API converse : une interface cohérente offrant une compatibilité avec la plupart des modèles Bedrock
Utilisation de l'API d'invocation : une interface unique aux modèles Nova et non portable pour les autres modèles Bedrock
Réponses en streaming : génération de réponses en temps réel
Utilisation des intégrations Amazon Nova : fonctionnalités d'intégration de texte
Inférence à la demande : Pay-per-use modèle d'inférence

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Démarrez avec l'API

Utilisation de l’API Converse