

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# SageMaker 推論
<a name="nova-model-sagemaker-inference"></a>

自訂 Amazon Nova 模型現在可在 SageMaker 推論上使用。使用 SageMaker 上的 Amazon Nova，您可以從訓練過的自訂 Amazon Nova 模型開始取得預測或推論。SageMaker 提供廣泛的機器學習 (ML) 基礎架構和模型部署選項，有助於滿足您所有的機器學習推論需求。使用 SageMaker 推論，您可以擴展模型部署、更有效地在生產環境中管理模型，並減少營運負擔。

SageMaker 為您提供各種推論選項，例如用於取得低延遲推論的即時端點，以及用於批次請求的非同步端點。透過為您的使用案例利用適當的推論選項，您可以確保高效的模型部署和推論。如需 SageMaker 推論的詳細資訊，請參閱[部署模型以進行推論](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html)。

**重要**  
SageMaker 推論僅支援全階自訂模型和 LoRA 合併模型。對於未合併的 LoRA 模型和基礎模型，請使用 Amazon Bedrock。

## 功能
<a name="nova-sagemaker-inference-features"></a>

下列功能適用於 SageMaker 推論上的 Amazon Nova 模型：

**模型功能**
+ 產生文字

**部署和擴展**
+ 具有自訂執行個體選擇的即時端點
+ Auto Scaling – 根據流量模式自動調整容量，以最佳化成本和 GPU 使用率。如需詳細資訊，請參閱[自動擴展 Amazon SageMaker 模型](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html)。
+ 串流 API 支援即時產生字符

**監控和最佳化**
+ 用於監控和警示的 Amazon CloudWatch 整合
+ 透過 VPC 組態的可用區域感知延遲最佳化

**開發工具**
+ AWS CLI 支援 – 如需詳細資訊，請參閱 [AWS SageMaker 的 CLI 命令參考](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/)。
+  透過 SDK 支援進行筆記本整合

## 支援的模型和執行個體
<a name="nova-sagemaker-inference-supported"></a>

建立 SageMaker 推論端點時，您可以設定兩個環境變數來設定部署： `CONTEXT_LENGTH`和 `MAX_CONCURRENCY`。
+ `CONTEXT_LENGTH` – 每個請求的總字符長度上限 （輸入 \+ 輸出）
+ `MAX_CONCURRENCY` – 端點將服務的並行請求數目上限

下表列出支援的 Amazon Nova 模型、執行個體類型和支援的組態。MAX\_CONCURRENCY 值代表每個 CONTEXT\_LENGTH 設定支援的並行上限：


****  


- **Amazon Nova Micro**
  - **執行個體類型:** ml.g5.12xlarge / **支援的組態:** CONTEXT\_LENGTH：4000，MAX\_CONCURRENCY：12<br />CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：6 / **需要 FP8 量化:** 否
  - **執行個體類型:** ml.g5.24xlarge / **支援的組態:** CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：8 / **需要 FP8 量化:** 否
  - **執行個體類型:** ml.g6e.xlarge / **支援的組態:** CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：2 / **需要 FP8 量化:** 否
  - **執行個體類型:** ml.g6e.2xlarge / **支援的組態:** CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：2 / **需要 FP8 量化:** 否
  - **執行個體類型:** ml.g6e.4xlarge / **支援的組態:** CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：4 / **需要 FP8 量化:** 否
  - **執行個體類型:** ml.g6.12xlarge / **支援的組態:** CONTEXT\_LENGTH：4000，MAX\_CONCURRENCY：12<br />CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：6 / **需要 FP8 量化:** 否
  - **執行個體類型:** ml.g6.24xlarge / **支援的組態:** CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：8 / **需要 FP8 量化:** 否
  - **執行個體類型:** ml.g6.48xlarge / **支援的組態:** CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：12 / **需要 FP8 量化:** 否
  - **執行個體類型:** ml.p5.48xlarge / **支援的組態:** CONTEXT\_LENGTH：16000，MAX\_CONCURRENCY：128<br />CONTEXT\_LENGTH：64000，MAX\_CONCURRENCY：32<br />CONTEXT\_LENGTH：128000，MAX\_CONCURRENCY：8 / **需要 FP8 量化:** 否

- **Amazon Nova Lite**
  - **執行個體類型:** ml.g6.12xlarge / **支援的組態:** CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：2 / **需要 FP8 量化:** 是 - 預設啟用
  - **執行個體類型:** ml.g6.24xlarge / **支援的組態:** CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：4 / **需要 FP8 量化:** 是 - 預設啟用
  - **執行個體類型:** ml.g6.48xlarge / **支援的組態:** CONTEXT\_LENGTH：4000，MAX\_CONCURRENCY：16<br />CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：8 / **需要 FP8 量化:** 否
  - **執行個體類型:** ml.p5.48xlarge / **支援的組態:** CONTEXT\_LENGTH：16000，MAX\_CONCURRENCY：128<br />CONTEXT\_LENGTH：60000，MAX\_CONCURRENCY：8 / **需要 FP8 量化:** 否

- **Nova 2 Lite**
  - **執行個體類型:** ml.g6.48xlarge / **支援的組態:** CONTEXT\_LENGTH：8000，MAX\_CONCURRENCY：8 / **需要 FP8 量化:** 是 - 預設啟用
  - **執行個體類型:** ml.p5.48xlarge / **支援的組態:** CONTEXT\_LENGTH：16000，MAX\_CONCURRENCY：128<br />CONTEXT\_LENGTH：64000，MAX\_CONCURRENCY：32<br />CONTEXT\_LENGTH：128000，MAX\_CONCURRENCY：8<br />CONTEXT\_LENGTH：256000，MAX\_CONCURRENCY：2 / **需要 FP8 量化:** 否



**注意**  
對於需要 FP8 量化的執行個體，預設會啟用。  
顯示的 MAX\_CONCURRENCY 值是每個 CONTEXT\_LENGTH 設定的上限。您可以使用相同並行的較低內容長度，但超過這些值會導致 SageMaker 端點建立失敗。  
例如，在具有 ml.g5.12xlarge 的 Amazon Nova Micro 上：  
`CONTEXT_LENGTH=2000`、→ `MAX_CONCURRENCY=12` 有效
`CONTEXT_LENGTH=8000`、`MAX_CONCURRENCY=12`→ 已拒絕 （內容長度為 8000 的並行限制為 6)
`CONTEXT_LENGTH=8000`、→ `MAX_CONCURRENCY=4` 有效
`CONTEXT_LENGTH=8000`、→ `MAX_CONCURRENCY=6` 有效
`CONTEXT_LENGTH=10000` → 拒絕 （此執行個體的最大內容長度為 8000)

## 推論元件
<a name="nova-sagemaker-inference-components"></a>

您可以使用 SageMaker 推論元件部署 Amazon Nova 模型，這可讓您在單一端點上託管多個模型，並最佳化資源使用率。推論元件可讓您指定每個模型所需的運算資源 (CPU、記憶體、GPU)，在共用基礎設施上實現高效的多模型託管。

下表列出使用推論元件時，每個 Amazon Nova 模型的最低運算資源需求：


****  

| 模型 | 最小 CPU 核心 | 最小記憶體 (MB) | 最小 GPU 計數 | 
| --- | --- | --- | --- | 
| Amazon Nova Micro | 15 | 25000 | 4 | 
| Amazon Nova Lite | 20 | 35000 | 4 | 
| Nova 2 Lite | 20 | 100000 | 4 | 

**注意**  
對於您要部署的模型，這些`ComputeResourceRequirements`值必須符合或超過上表中列出的最低需求。使用低於最小值的值會導致推論元件建立失敗。  
您可以在同一個端點上部署多個推論元件，只要總資源需求不超過執行個體的容量即可。  
您可以在單一端點上託管的推論元件數量取決於執行個體類型的可用資源和每個模型的最低需求。例如，在 `ml.p5.48xlarge`(8 個 GPUs、192 vCPUs、\~1 TB 記憶體） 上：  
1 個 Amazon Nova Micro 推論元件 (4 GPUs、15 個 CPU 核心、25000 MB) → 有效
2 個 Amazon Nova Micro 推論元件 （總共 8 GPUs，30 個 CPU 核心，50000 MB) → 有效 （適用於執行個體容量）
1 Nova 2 Lite 推論元件 (4 GPUs、20 個 CPU 核心、100000 MB) → 有效
2 Nova 2 Lite 推論元件 （總共 8 GPUs，40 個 CPU 核心，200000 MB) → 有效
3 個 Amazon Nova Micro 推論元件 （總共 12 GPUs) → 已拒絕 （超過 8 個可用的 GPUs)

## 支援 AWS 的區域
<a name="nova-sagemaker-inference-regions"></a>

下表列出可在 SageMaker 推論上使用 Amazon Nova 模型 AWS 的區域：


****  

| 區域名稱 | 區域代碼 | 可用性 | 
| --- | --- | --- | 
| 美國東部 (維吉尼亞北部) | us-east-1 | Available | 
| 美國西部 (奧勒岡) | us-west-2 | Available | 

## 支援的容器映像
<a name="nova-sagemaker-inference-container-images"></a>

下表依區域列出 SageMaker 推論上 Amazon Nova 模型的容器映像 URIs。`SM-Inference-latest` 標籤目前指向 `v1.4`。


****  

| 區域 | 容器映像 URIs | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## 最佳實務
<a name="nova-sagemaker-inference-best-practices"></a>

如需在 SageMaker 上部署和管理模型的最佳實務，請參閱 [ SageMaker 的最佳實務](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html)。

## 支援
<a name="nova-sagemaker-inference-support"></a>

如需 SageMaker 推論上 Amazon Nova 模型的問題和支援，請透過主控台或您的 AWS 客戶經理聯絡 AWS Support。

**Topics**
+ [功能](#nova-sagemaker-inference-features)
+ [支援的模型和執行個體](#nova-sagemaker-inference-supported)
+ [推論元件](#nova-sagemaker-inference-components)
+ [支援 AWS 的區域](#nova-sagemaker-inference-regions)
+ [支援的容器映像](#nova-sagemaker-inference-container-images)
+ [最佳實務](#nova-sagemaker-inference-best-practices)
+ [支援](#nova-sagemaker-inference-support)
+ [開始使用](nova-sagemaker-inference-getting-started.md)
+ [推論容器功能](nova-sagemaker-inference-container-features.md)
+ [API 參考](nova-sagemaker-inference-api-reference.md)
+ [評估託管在 SageMaker 推論上的模型](nova-eval-on-sagemaker-inference.md)
+ [在 Amazon SageMaker 推論濫用偵測中部署 Amazon Nova Forge 模型](nova-sagemaker-inference-abuse-detection.md)