本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
用於監控使用 Amazon SageMaker AI 時佈建 AWS 之資源的工具
監控是維護 SageMaker AI 和其他 AWS 解決方案的可靠性、可用性和效能的重要部分。 AWS 提供下列監控工具來監看 SageMaker AI、在發生錯誤時報告,以及適時採取自動動作:
-
Amazon CloudWatch 會 AWS 即時監控您的 AWS 資源和您在 上執行的應用程式。您可以收集和追蹤指標、建立自訂儀板表,以及設定警示,在特定指標達到您指定的閾值時通知您或採取動作。例如,您可以 CloudWatch 追蹤 Amazon EC2執行個體的CPU用量或其他指標,並在需要時自動啟動新的執行個體。如需詳細資訊,請參閱 Amazon CloudWatch 使用者指南。
-
Amazon CloudWatch Logs 可讓您監控、存放和存取EC2執行個體 AWS CloudTrail和其他來源的日誌檔案。 CloudWatch Logs 可以監控日誌檔案中的資訊,並在達到特定閾值時通知您。您也可以將日誌資料存檔在高耐用性的儲存空間。如需詳細資訊,請參閱 Amazon CloudWatch Logs 使用者指南。
-
AWS CloudTrail 會擷取由您的帳戶或代表 AWS 您的帳戶發出的API呼叫和相關事件,並將日誌檔案交付至您指定的 Amazon S3 儲存貯體。您可以識別呼叫哪些使用者和帳戶 AWS、進行呼叫的來源 IP 地址,以及呼叫的時間。如需詳細資訊,請參閱《AWS CloudTrail 使用者指南》https://docs.aws.amazon.com/awscloudtrail/latest/userguide/。
-
CloudWatch 事件提供近乎即時的系統事件串流,描述 AWS 資源的變更。建立 CloudWatch 事件規則會回應 SageMaker AI 訓練、超參數調校或批次轉換任務中的狀態變更