Optimisation de l’inférence de modèle pour la latence

Note

La fonctionnalité d'inférence optimisée pour la latence est en version préliminaire Amazon Bedrock et est sujette à modification.

Latency-optimized l'inférence pour les modèles de base Amazon Bedrock permet d'accélérer les temps de réponse et d'améliorer la réactivité des applications d'IA. Les versions optimisées de Amazon Nova Pro, le modèle Claude 3.5 Haiku d’Anthropic et les modèles Meta’s Llama 3.1 405B and 70B présentent une latence fortement réduite sans compromis sur la précision.

L’accès à la fonctionnalité d’optimisation de la latence ne nécessite aucune configuration supplémentaire ni aucun peaufinage précis du modèle, ce qui permet d’améliorer immédiatement les applications existantes avec des temps de réponse plus rapides. Vous pouvez définir le paramètre « Latence » sur « optimisé » lorsque vous appelez l’API d’exécution d’Amazon Bedrock. Si vous sélectionnez « standard » comme option d’invocation, vos demandes seront traitées par inférence standard. Par défaut, toutes les demandes sont acheminées en « standard ».


"performanceConfig" : {
    "latency" : "standard | optimized" 
}

Une fois que vous avez atteint le quota d’utilisation pour l’optimisation de la latence pour un modèle, nous essaierons de répondre à la demande avec une latence standard. Dans de tels cas, la demande sera facturée aux tarifs de latence standard. La configuration de latence pour une demande traitée est visible dans les réponses et les AWS CloudTrail journaux de l'API. Vous pouvez également consulter les métriques des demandes optimisées pour la latence dans les Amazon CloudWatch journaux sous « model-id+latency-optimized ».

L’inférence optimisée pour la latence est disponible pour les modèles Llama 3.1 70B et 405B de Meta, ainsi que pour les modèles Claude 3.5 Haiku d’Anthropic dans les régions USA Est (Ohio) et USA Ouest (Oregon) via une inférence interrégionale.

L’inférence optimisée est disponible pour Amazon Nova Pro dans les régions USA Est (Virginie du Nord), USA Est (Ohio) et USA Ouest (Oregon) via l’inférence interrégionale.

Pour plus d’informations sur la tarification, visitez la page de tarification.

Note

L’inférence optimisée pour la latence pour le modèle Llama 3.1 405B prend actuellement en charge les demandes avec un nombre total de jetons d’entrée et de sortie allant jusqu’à 11 000. Pour les demandes de nombre de jetons plus important, nous allons revenir au mode standard.

Le tableau suivant présente les profils d'inférence qui prennent en charge l'optimisation de la latence :

Fournisseur	Modèle	ID du modèle	Cross-region prise en charge des profils d'inférence
Amazon	Nova Pro	amazon.nova-pro-v1:0	us-east-1 us-east-2
Anthropic	Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	us-east-2 us-west-2
Meta	Llama 3.1 405B Instruct	meta.llama3-1-405b-instruct-v1:0	us-east-2
Meta	Llama 3.1 70B Instruct	meta.llama3-1-70b-instruct-v1:0	us-east-2 us-west-2

Pour plus d'informations sur les profils d'inférence, consultezRégions et modèles pris en charge pour les profils d'inférence.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Raisonnement par inférence

Régions et modèles pris en charge