歷程追蹤實體 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

歷程追蹤實體

追蹤實體會保留機器學習工作流程所有元素的 end-to-end表示法。您可以使用此表現形式來建立模型控管、重現工作流程,以及維護工作歷程記錄。

當您建立處理任務、訓練任務和批次轉換任務等 SageMaker 任務時,Amazon SageMaker 會自動為試驗元件及其相關聯的試驗和實驗建立追蹤實體。除了自動追蹤之外,您還可以手動建立追蹤實體,為工作流程中的自訂步驟建立模型。如需詳細資訊,請參閱Studio Classic 中的 Amazon SageMaker Experiments

SageMaker 也會自動為工作流程中的其他步驟建立追蹤實體,以便您可以端對端追蹤工作流程。如需詳細資訊,請參閱Amazon SageMaker– 建立的追蹤實體

您可以建立其他實體來補充 建立的實體 SageMaker。如需詳細資訊,請參閱手動建立追蹤實體

SageMaker 會重複使用任何現有的實體,而不是建立新的實體。例如,只能有一個成品具有唯一的 SourceUri

查詢歷程的重要概念
  • 歷程 - 追蹤機器學習 (ML) 工作流程中各個實體之間關係的中繼資料。

  • QueryLineage – 檢查譜系並探索實體之間關係的動作。

  • 歷程實體 - 組成歷程所的中繼資料元素。

  • 跨帳戶歷程 - 您的機器學習 (ML) 工作流程可能跨越多個帳戶。透過跨帳戶譜系,您可以設定多個帳戶,以在共用實體資源之間自動建立譜系關聯。 QueryLineage 然後,即使從這些共用帳戶傳回實體。

已定義下列追蹤實體:

實驗實體
  • 試用元件 - 一個機器學習試用階段。包括處理工作、訓練工作和批次轉換工作。

  • 試用 - 試用元件的組合,通常會產生模型。

  • 實驗 - 一組試用,通常著重於解決特定用例。

歷程實體
  • 試用元件 - 代表歷程中的處理、訓練和轉換工作。也是實驗管理的一部分。

  • 內容 - 提供其他追蹤或實驗實體的邏輯群組。從概念上講,實驗和試驗都屬於內容。有些範例是端點和模型套件。

  • 動作 - 代表動作或活動。一般而言,動作至少涉及一個輸入成品或輸出成品。例如,工作流程步驟和模型部署。

  • 偽影 – 代表可URI定址的物件或資料。成品通常是試驗元件或動作的輸入或輸出。一些範例包括資料集 (S3 儲存貯體 URI) 或映像 (Amazon ECR登錄檔路徑)。

  • 關聯 - 連結其他追蹤或實驗實體,例如訓練資料位置與訓練工作之間的關聯。

    關聯具有可選的 AssociationType 屬性。下列值與每種類型的建議用途一起提供。 對其使用 SageMaker 沒有限制:

    • ContributedTo - 此來源對目標作出貢獻或對目標的啟用發揮作用。例如,訓練資料對訓練工作作出貢獻。

    • AssociatedWith - 此來源與目標連接。例如,核准工作流程與模型部署相關聯。

    • DerivedFrom - 目標是對此來源的修改。例如,處理工作的通道輸入摘要輸出是從原始輸入衍生出來的。

    • Produced - 目標是由此來源產生的。例如,訓練工作產生了模型成品。

    • SameAs - 在不同帳戶中使用相同的歷程實體。

一般屬性

  • 類型屬性

    動作、成品和內容實體分別具有類型屬性 ActionTypeArtifactTypeContextType。此屬性是自訂字串,可將有意義的資訊與實體建立關聯,並用作清單 中的篩選條件APIs。

  • 來源屬性

    動作、成品和內容實體具有 Source 屬性。此屬性提供實體代表URI的基礎 。部分範例如下:

    • 來源為 EndpointArnUpdateEndpoint 動作。

    • 來源為 ImageUri 之處理工作的映像成品。

    • 來源為 EndpointArnEndpoint 內容。

  • 中繼資料屬性

    動作和成品實體具有可選的 Metadata 屬性,可提供下列資訊:

    • ProjectId – 例如,模型所屬專案 SageMaker MLOps的 ID。

    • GeneratedBy – 例如,註冊模型套件版本的 SageMaker 管道執行。

    • Repository - 例如,包含演算法的儲存庫。

    • CommitId - 例如,演算法版本的遞交 ID。