翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
注記
レイテンシー最適化推論機能は のプレビューリリースであり Amazon Bedrock 、変更される可能性があります。
の基盤モデルのレイテンシー最適化推論 Amazon Bedrock により、AI アプリケーションの応答時間が短縮され、応答性が向上します。の最適化バージョンAmazon Nova Pro、Anthropic の Claude 3.5 Haiku モデル
レイテンシー最適化機能にアクセスすると、追加のセットアップやモデルの微調整が不要になり、応答時間を短縮して既存のアプリケーションをすぐに強化できます。Amazon Bedrock ランタイム API を呼び出すときに、「レイテンシー」パラメータを「最適化」に設定できます。呼び出しオプションとして「標準」を選択した場合、リクエストは標準推論によって処理されます。デフォルトでは、すべてのリクエストは「標準」を介して にルーティングされます。
“performanceConfig” : { “latency” : “standard | optimized” }
モデルのレイテンシー最適化の使用クォータに達すると、標準レイテンシーでリクエストを処理しようとします。このような場合、リクエストは標準レイテンシーレートで課金されます。サービスされたリクエストのレイテンシー設定は、API レスポンスと AWS CloudTrail ログに表示されます。また、「model-id+latency-optimized」の Amazon CloudWatch ログにレイテンシー最適化リクエストのメトリクスを表示することもできます。
レイテンシー最適化推論は、メタの Llama 3.1 70B および 405B、およびクロスリージョン推論による米国東部 (オハイオ) および米国西部 (オレゴン) リージョンの Anthropic の Claude 3.5 Haiku で利用できます。
レイテンシー最適化推論は、クロスリージョン推論を介して、米国東部 (バージニア北部)、米国東部 (オハイオ)、および米国西部 (オレゴン) リージョンAmazon Nova Proで利用できます。
料金の詳細については、料金ページ
注記
Llama 3.1 405B のレイテンシー最適化推論は現在、入力トークンと出力トークンの合計数が最大 11K のリクエストをサポートしています。トークン数リクエストが大きい場合は、標準モードに戻ります。
プロバイダー | モデル | 推論プロファイルをサポートするリージョン |
---|---|---|
Amazon | Nova Pro |
us-east-1 us-east-2 |
Anthropic | Claude 3.5 Haiku |
us-east-2 us-west-2 |
Meta | Llama 3.1 405B Instruct |
us-east-2 |
Meta | Llama 3.1 70B Instruct |
us-east-2 us-west-2 |