

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 影像理解
<a name="modalities-image"></a>

**注意**  
本文件適用於 Amazon Nova 第 1 版。如需 Amazon Nova 2 映像理解指南，請造訪[映像理解](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-multimodal-models.html#image-understanding)。

Amazon Nova 模型可讓您在負載中包含多個影像，總負載限制為 25 MB。不過，您可以指定 Amazon S3 URI，其中包含用於影像理解的影像。此方法可讓您利用模型來處理較大的影像和更多的影像，而不受 25 MB 負載限制的限制。Amazon Nova 模型可以分析已傳遞的影像，並根據您提供的指示回答問題、分類影像和總結影像。

## 影像大小資訊
<a name="modalities-image-resolution"></a>

為了提供最佳結果，Amazon Nova 會根據輸入影像的長寬比和原始解析度，自動向上或向下擴展輸入影像。對於每個影像，Amazon Nova 會先從 1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、2:3、2:4 及其轉置中識別最接近的長寬比。然後，影像會重新調整大小，讓影像的至少一個邊大於 896 像素或原始影像較短邊的長度，同時維持最接近的長寬比。解析度上限為 8,000 x 8,000 像素

## 週框方塊偵測
<a name="modalities-image-bounding"></a>

Amazon Nova Lite 和 Amazon Nova Pro 模型經過訓練，可精確偵測影像中的週框方塊。當目標是取得感興趣的特定物件的座標時，此功能可能很有價值。Amazon Nova 模型憑藉週框方塊偵測功能成為影像依據任務的合適候選者，從而增強對螢幕擷取畫面的了解。Amazon Nova 模型會以 [0, 1000) 的尺度輸出週框方塊，並在取得這些座標之後，根據影像維度調整大小，作為後續處理步驟。

## 影像到詞元轉換
<a name="modalities-image-tokens"></a>

如前所述，影像會調整大小以最大化資訊擷取，同時仍維持長寬比。以下是範例影像維度和近似詞元計算的一些範例。


| image\$1resolution (HxW 或 WxH) | 900 x 450 | 900 x 900 | 1400 x 900 | 1.8K x 900 | 1.3K x 1.3K | 
| --- |--- |--- |--- |--- |--- |
| 預估詞元計數 | \$1800 | \$11300 | \$11800 | \$12400 | \$12600 | 

例如，請考慮大小為 800x400 的範例影像，而且您想要預估此影像的詞元計數。根據維度，若要維持 1:2 的長寬比，最接近的解析度為 900x450。因此，此影像的大致詞元計數約為 800 個詞元。