本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
監控是維護 SageMaker AI 和其他 AWS 解決方案可靠性、可用性和效能的重要部分。 AWS 提供下列監控工具來監看 SageMaker AI、在發生錯誤時報告,並在適當時採取自動動作:
-
Amazon CloudWatch AWS 會即時監控您的 AWS 資源和您在 上執行的應用程式。您可以收集和追蹤指標、建立自訂儀板表,以及設定警示,在特定指標達到您指定的閾值時通知您或採取動作。例如,您可以讓 CloudWatch 追蹤 CPU 使用量或其他 Amazon EC2 執行個體指標,並在需要時自動啟動新的執行個體。如需詳細資訊,請參閱 Amazon CloudWatch 使用者指南。
-
Amazon CloudWatch Logs 可讓您從 EC2 執行個體和其他來源監控 AWS CloudTrail、存放和存取您的日誌檔案。CloudWatch Logs 可監控日誌檔案中的資訊,並在達到特定閾值時通知您。您也可以將日誌資料存檔在高耐用性的儲存空間。如需詳細資訊,請參閱 Amazon CloudWatch Logs 使用者指南。
-
AWS CloudTrail 會擷取由您的帳戶或代表 AWS 您的帳戶發出的 API 呼叫和相關事件,並將日誌檔案交付至您指定的 Amazon S3 儲存貯體。您可以識別呼叫的使用者和帳戶 AWS、進行呼叫的來源 IP 地址,以及呼叫的時間。如需詳細資訊,請參閱《AWS CloudTrail 使用者指南》https://docs.aws.amazon.com/awscloudtrail/latest/userguide/。
-
CloudWatch Events 提供近乎即時的系統事件串流,描述 AWS 資源的變更。建立 CloudWatch Events 規則會回應 SageMaker AI 訓練、超參數調校或批次轉換任務中的狀態變更