使用跨區域推論提高輸送量

在隨需模式下執行模型推論時，您的請求可能會受到服務配額或尖峰使用時間的限制。跨區域推論可讓您透過跨不同的運算，無縫管理意外流量爆增 AWS 區域。使用跨區域推論，您可以將流量分散到多個區域 AWS 區域，從而提高輸送量。

若要使用跨區域推論，在執行模型推論時，請以下列方式包含推論描述檔：

隨需模型推論 – 在傳送 InvokeModel、InvokeModelWithResponseStream、Converse 或 ConverseStream 請求modelId時，將推論設定檔的 ID 指定為。推論描述檔會定義一或多個區域，其可將源自來源區域的推論請求路由至這些區域。使用跨區域推論，透過動態路由模型調用請求至推論描述檔中定義的區域，來提高輸送量和效能。使用者流量、需求和資源使用率的路由因素。如需詳細資訊，請參閱使用模型推論提交提示並產生回應
批次推論 – 在傳送 CreateModelInvocationJob 請求modelId時，將推論描述檔的 ID 指定為，以批次推論非同步方式提交請求。使用推論描述檔可讓您跨多個使用運算 AWS 區域，並為您的批次任務縮短處理時間。任務完成後，您可以從來源區域中的 Amazon S3 儲存貯體擷取輸出檔案。
知識庫回應產生 – 您可以在查詢知識庫之後產生回應時使用跨區域推論。如需詳細資訊，請參閱使用查詢和回應測試您的知識庫。
模型評估 – 您可以提交推論描述檔做為模型，以在提交模型評估任務時進行評估。如需詳細資訊，請參閱評估 Amazon Bedrock 資源的效能。
提示管理 – 您可以在產生提示管理中建立的提示的回應時使用跨區域推論。如需詳細資訊，請參閱在 Amazon Bedrock 中使用提示管理來建構和存放可重複使用的提示
提示流程 – 您可以在為提示產生回應時使用跨區域推論，以便在提示流程中的提示節點中內嵌定義。如需詳細資訊，請參閱使用 end-to-end生成式 AI 工作流程。

若要查看您可以使用推論設定檔來執行跨區域推論的區域和模型，請參閱推論描述檔支援的區域和模型。

您也可以購買佈建輸送量來增加模型的輸送量。推論設定檔目前不支援佈建輸送量。

若要了解如何使用推論設定檔跨區域傳送模型調用請求，請參閱在模型調用中使用推論描述檔。

請注意下列有關跨區域推論的資訊：

使用跨區域推論無需額外的路由成本。價格是根據您呼叫推論描述檔的區域計算。如需定價的詳細資訊，請參閱 Amazon Bedrock 定價。
使用跨區域推論時，您的輸送量最多可達到推論設定檔所在區域中預設配額的兩倍。增加的輸送量僅適用於透過推論設定檔執行的調用，如果您選擇區域模型調用請求，則一般配額仍然適用。例如，如果您在 us-east-1 中調用美國AnthropicClaude 3 Sonnet推論設定檔，您的輸送量每分鐘可以達到 1，000 個請求和 2，000，000 個字符。若要查看隨需輸送量的預設配額，請參閱中的執行期配額區段，Amazon Bedrock 的配額或使用 Service Quotas 主控台。
跨區域推論請求會保留在所使用的推論描述檔一部分的區域中。例如，使用歐盟推論描述檔提出的請求會保留在歐盟區域。

若要進一步了解跨區域推論，請參閱 Amazon Bedrock 中的跨區域推論入門。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

在 Bedrock 資料自動化中標記推論和資源

使用佈建輸送量增加模型調用容量