レイテンシーのモデル推論を最適化する

フォーカスモード

レイテンシーのモデル推論を最適化する - Amazon Bedrock

注記

レイテンシー最適化推論機能はのプレビューリリースであり Amazon Bedrock 、変更される可能性があります。

の基盤モデルのレイテンシー最適化推論 Amazon Bedrock により、AI アプリケーションの応答時間が短縮され、応答性が向上します。の最適化バージョンAmazon Nova Pro、Anthropic の Claude 3.5 Haiku モデル、Meta の Llama 3.1 405B および 70B モデルは、精度を損なうことなくレイテンシーを大幅に短縮します。

レイテンシー最適化機能にアクセスすると、追加のセットアップやモデルの微調整が不要になり、応答時間を短縮して既存のアプリケーションをすぐに強化できます。Amazon Bedrock ランタイム API を呼び出すときに、「レイテンシー」パラメータを「最適化」に設定できます。呼び出しオプションとして「標準」を選択した場合、リクエストは標準推論によって処理されます。デフォルトでは、すべてのリクエストは「標準」を介してにルーティングされます。


“performanceConfig” : {
    “latency” : “standard | optimized” 
}

モデルのレイテンシー最適化の使用クォータに達すると、標準レイテンシーでリクエストを処理しようとします。このような場合、リクエストは標準レイテンシーレートで課金されます。サービスされたリクエストのレイテンシー設定は、API レスポンスと AWS CloudTrail ログに表示されます。また、「model-id+latency-optimized」の Amazon CloudWatch ログにレイテンシー最適化リクエストのメトリクスを表示することもできます。

レイテンシー最適化推論は、メタの Llama 3.1 70B および 405B、およびクロスリージョン推論による米国東部 (オハイオ) および米国西部 (オレゴン) リージョンの Anthropic の Claude 3.5 Haiku で利用できます。

レイテンシー最適化推論は、クロスリージョン推論を介して、米国東部 (バージニア北部）、米国東部 (オハイオ）、および米国西部 (オレゴン) リージョンAmazon Nova Proで利用できます。

料金の詳細については、料金ページを参照してください。

注記

Llama 3.1 405B のレイテンシー最適化推論は現在、入力トークンと出力トークンの合計数が最大 11K のリクエストをサポートしています。トークン数リクエストが大きい場合は、標準モードに戻ります。

プロバイダー	モデル	推論プロファイルをサポートするリージョン
Amazon	Nova Pro	us-east-1 us-east-2
Anthropic	Claude 3.5 Haiku	us-east-2 us-west-2
Meta	Llama 3.1 405B Instruct	us-east-2
Meta	Llama 3.1 70B Instruct	us-east-2 us-west-2