本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
用於追蹤非同步端點指標的警示和日誌
您可以使用 SageMaker Amazon 進行監控 CloudWatch,它會收集原始資料並將其處理為可讀取的近乎即時的指標。使用 Amazon 時 CloudWatch,您可以存取歷史資訊,並更深入了解 Web 應用程式或服務的效能。如需 Amazon 的詳細資訊 CloudWatch,請參閱什麼是 Amazon CloudWatch?
使用 監控 CloudWatch
以下指標位於AWS/SageMaker
命名空間,是非同步端點的完整指標清單。如果端點已啟用非同步推論,則不會發布下方未列出的任何計量資料。這類指標包括 (但不限於):
OverheadLatency
調用
InvocationsPerInstance
常用端點指標
這些指標與目前針對即時端點發布的指標相同。如需 Amazon 中其他指標的詳細資訊 CloudWatch,請參閱 SageMaker 使用 Amazon 監控 CloudWatch。
指標名稱 | 描述 | 單位/統計資料 |
---|---|---|
|
模型傳回 4xx HTTP回應碼的請求數目。對於每個 4xx 回應,將傳送 1,否則傳送 0。 |
單位:無 有效的統計資訊:平均、總和 |
|
模型傳回 5xx HTTP回應碼的 InvokeEndpoint 請求數目。對於每個 5xx 回應,將傳送 1,否則傳送 0。 |
單位:無 有效的統計資訊:平均、總和 |
|
模型回應所需的時間間隔,如從 所檢視 SageMaker。這個間隔包含傳送請求和從模型容器擷取回應的本機通訊時間,以及在容器中完成推論的時間。 |
單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
非同步推論端點指標
啟用非同步推論的端點會發布這些指標。以下指標發布時包含 EndpointName
維度:
指標名稱 | 描述 | 單位/統計資料 |
---|---|---|
|
目前正在處理或尚未處理之端點佇列中的項目數。 |
單位:計數 有效的統計資料:平均、上限、下限 |
|
佇列中的項目數除以端點後面的執行個體數目。此指標主要用於為啟用異步的端點設定應用程式自動擴充。 |
單位:計數 有效的統計資料:平均、上限、下限 |
|
佇列中最舊要求的年齡。 |
單位:秒 有效的統計資料:平均、上限、下限 |
|
佇列中有要求,但端點後面沒有執行個體時,這個指標的值是 |
單位:計數 有效的統計資訊:平均 |
以下指標發布時包含 EndpointName
和 VariantName
維度:
指標名稱 | 描述 | 單位/統計資料 |
---|---|---|
|
從 Amazon S3 下載請求時發生問題,因此發生推論失敗。 |
單位:計數 有效的統計資訊:總和 |
|
將回應上傳到 Amazon S3 時有問題,因此推論失敗。 |
單位:計數 有效的統計資訊:總和 |
|
發生問題時發布通知。 |
單位:計數 有效的統計資訊:總和 |
|
下載請求承載的總時間。 |
單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
|
上傳回應承載的總時間。 |
單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
|
佇列中因達到指定的請求而失敗的請求數量TTL。 |
單位:計數 有效的統計資訊:總和 |
|
如果調用由於任何原因失敗。 |
單位:計數 有效的統計資訊:總和 |
|
端點處理的非同步調用數目。 |
單位:計數 有效的統計資訊:總和 |
|
要求處理前排入佇列的總時間。這不包括實際處理時間 (即下載時間』上傳時間』模型延遲)。 |
單位:毫秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
|
推論請求接收 SageMaker 到請求完成處理的時間。這包括排入待處理項目的時間,以及上傳和傳送回應通知 (如果有) 的時間。 |
單位:毫秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
Amazon SageMaker 非同步推論也包含主機層級指標。如需主機層級指標的資訊,請參閱SageMaker 任務和端點指標 。
日誌
除了 CloudWatch 在帳戶中發佈至 Amazon 的模型容器日誌之外,您還可以取得用於追蹤和偵錯推論請求的新平台日誌。
新日誌以端點日誌群組的名義發布:
/aws/sagemaker/Endpoints/
[EndpointName]
日誌串流名稱包含:
[production-variant-name]
/[instance-id]
/data-log.
日誌行包含請求的推論 ID,因此輕輕鬆鬆即可將錯誤對應到特定請求。