Amazon 中的資料譜系 DataZone (預覽) - Amazon DataZone

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon 中的資料譜系 DataZone (預覽)

重要

目前,Amazon 中的資料譜系功能 DataZone 處於預覽版本中。

Amazon 中的資料譜系 DataZone 是一項 API驅動 OpenLineage、相容的功能,可協助您擷取和視覺化來自已啟用 OpenLineage的系統或至 的譜系事件APIs,以追蹤資料原始伺服器、追蹤轉換,以及檢視跨組織的資料耗用。它可讓您全面檢視資料資產,以查看資產的來源及其連線鏈。譜系資料包含 Amazon DataZone業務資料目錄中的活動相關資訊,包括目錄化資產、這些資產訂閱者的相關資訊,以及使用 以程式設計方式擷取之業務資料目錄外的活動APIs。

網域管理員和資料生產者可以使用 Amazon DataZone的 OpenLineage相容的 APIs,擷取和儲存超出 Amazon 中可用範圍的譜系事件 DataZone,包括 Amazon S3、 AWS Glue 和其他 服務的轉換。這可為資料消費者提供全面的檢視,並幫助他們獲得資產來源的信心,而資料生產者可以透過了解資產的使用量來評估資產變更的影響。此外,Amazon DataZone 版本譜系會伴隨每個事件,讓使用者能夠在任何時間點視覺化譜系,或比較資產或任務歷史記錄的轉換。此歷史譜系可更深入了解資料如何演變,對於疑難排解、稽核和確保資料資產的完整性至關重要。

使用資料譜系,您可以在 Amazon 中完成下列操作 DataZone:

  • 了解資料的來源:了解資料的來源,讓您清楚了解資料的來源、相依性和轉換,進而培養對資料的信任。這種透明度有助於做出自信的資料驅動型決策。

  • 了解資料管道變更的影響:當對資料管道進行變更時,可以使用譜系來識別所有要受影響的下游取用者。這有助於確保在不中斷關鍵資料流程的情況下進行變更。

  • 識別資料品質問題的根本原因:如果在下游報告中偵測到資料品質問題,則譜系,特別是資料欄層級譜系,可用於追蹤資料返回 (資料欄層級),以將問題識別回其來源。這可協助資料工程師識別和修正問題。

  • 改善資料管理和合規:資料欄層級譜系可用於示範是否符合資料管理和隱私權法規。例如,資料欄層級譜系可用來顯示敏感資料 (例如 PII) 的存放位置,以及下游活動如何處理。

Amazon 中的譜系節點類型 DataZone

在 Amazon 中 DataZone,資料譜系資訊會顯示在代表資料表和檢視的節點中。根據專案的內容,例如,在資料入口網站左上角選取的專案,生產者可以同時檢視庫存和已發佈的資產,而消費者只能檢視已發佈的資產。當您第一次在資產詳細資訊頁面中開啟譜系索引標籤時,目錄化資料集節點是瀏覽譜系圖的譜系節點上游或下游的起點。

以下是 Amazon 中支援的資料譜系節點類型 DataZone:

  • 資料集節點 - 此節點類型包含特定資料資產的資料譜系資訊。

    • 包含 Amazon DataZone 目錄中發佈的 AWS Glue 或 Amazon Redshift 資產相關資訊的資料集節點會自動產生,並在節點中包含對應的 AWS Glue 或 Amazon Redshift 圖示。

    • 包含未在 Amazon DataZone 目錄中發佈之資產相關資訊的資料集節點,是由網域管理員 (生產者) 手動建立,並由節點內的預設自訂資產圖示表示。

  • 任務 (執行) 節點 - 此節點類型會顯示任務的詳細資訊,包括特定任務的最新執行和執行詳細資訊。此節點也會擷取任務的多個執行,並且可以在節點詳細資訊的歷史記錄索引標籤中檢視。您可以選擇節點圖示來檢視節點詳細資訊。

譜系節點中的關鍵屬性

譜系節點中的sourceIdentifier屬性代表資料集上發生的事件。譜系節點sourceIdentifier的 是資料集的識別符 (資料表/檢視等)。它用於譜系節點的唯一性強制執行。例如,不能有兩個具有相同 的譜系節點sourceIdentifier。以下是不同節點類型sourceIdentifier值的範例:

  • 對於具有個別資料集類型的資料集節點:

    • 資產:amazon.datazone.asset/<assetId>

    • 清單 (已發佈的資產):amazon.datazone.listing/<listingId>

    • AWS Glue 資料表:arn:aws:glue:<region>:<account-id>:table/<database>/<table-name>

    • Amazon Redshift 資料表/檢視:arn:aws:<redshift/redshift-serverless>:<region>:<account-id>:<table-type(table/view 等)>/<clusterIdentifier/workgroupName>/<database>/<schema>/<table-name>

    • 對於使用開放線性執行事件匯入的任何其他類型資料集節點,從sourceIdentifier節點開始會使用 <namespace>/<name> 的輸入/輸出資料集。

  • 對於任務:

    • 對於使用開放式執行事件匯入的任務節點,<jobs_namespace>.<job_name> 會用作 sourceIdentifier。

  • 對於任務執行:

    • 對於使用開放式執行事件匯入的任務執行節點,<jobs_namespace>.<job_name>/<run_id> 會用作 sourceIdentifier。

對於使用 createAsset 建立的資產API,sourceIdentifier必須使用 更新 createAssetRevisionAPI,以啟用將資產映射到上游資源。

視覺化資料譜系

Amazon DataZone的資產詳細資訊頁面提供資料譜系的圖形化表示法,讓您更輕鬆地視覺化上游或下游的資料關係。資產詳細資訊頁面提供下列導覽圖形的功能:

  • 資料欄層級譜系:在資料集節點中可用時,展開資料欄層級譜系。如果來源資料欄資訊可用,這會自動顯示與上游或下游資料集節點的關係。

  • 資料欄搜尋:當資料欄數量的預設顯示為 10 時。如果超過 10 個資料欄,分頁會啟動,以導覽至其餘的資料欄。若要快速檢視特定資料欄,您可以在只列出搜尋資料欄的資料集節點上進行搜尋。

  • 僅檢視資料集節點:如果您想要切換為僅檢視資料集譜系節點並篩選出任務節點,您可以選擇圖形檢視器左上方的開啟檢視控制項圖示,並切換僅顯示資料集節點選項。這將從圖形中移除所有任務節點,並讓您僅導覽資料集節點。請注意,當僅開啟檢視資料集節點時,圖形無法在上游或下游展開。

  • 詳細資訊窗格:每個譜系節點都有選取時擷取和顯示的詳細資訊。

    • 資料集節點具有詳細資訊窗格,可顯示該節點為指定時間戳記擷取的所有詳細資訊。每個資料集節點都有 3 個索引標籤,即:系列資訊、結構描述和歷史記錄索引標籤。歷史記錄索引標籤會列出為該節點擷取的不同版本譜系事件。從 擷取的所有詳細資訊API都會使用中繼資料表單或JSON檢視器顯示。

    • 任務節點具有詳細資訊窗格,可顯示包含索引標籤的任務詳細資訊,即:任務資訊和歷史記錄。詳細資訊窗格也會擷取作為任務執行一部分擷取的查詢或表達式。歷史記錄索引標籤會列出針對該任務擷取的不同版本任務執行事件。從 擷取的所有詳細資訊API都會使用中繼資料表單或JSON檢視器顯示。

  • 版本索引標籤:Amazon DataZone 資料譜系中的所有譜系節點都有版本控制。對於每個資料集節點或任務節點,版本會擷取為歷史記錄,可讓您在不同版本之間導覽,以識別加班發生了哪些變化。每個版本都會在譜系頁面中開啟新索引標籤,以協助比較或對比。

Amazon 中的資料譜系授權 DataZone

寫入許可 - 若要將譜系資料發佈至 Amazon DataZone,您必須具有包含 ALLOW動作的許可政策IAM角色PostLineageEventAPI。此IAM授權發生在 API Gateway 層。

讀取許可 - 有兩種操作: GetLineageNodeListLineageNodeHistory 包含在 AmazonDataZoneDomainExecutionRolePolicy 受管政策中,因此 Amazon DataZone 網域中的每個使用者都可以調用這些操作來周遊資料譜系圖。

Amazon 中的資料譜系範例體驗 DataZone

您可以使用資料譜系範例體驗來瀏覽和了解 Amazon 中的資料譜系 DataZone,包括在您的資料譜系圖表中上游或下游周遊、探索版本和資料欄層級譜系。

完成下列程序,嘗試 Amazon 中的資料譜系體驗範例 DataZone:

  1. 導覽至 Amazon DataZone 資料入口網站URL,並使用單一登入 (SSO) 或您的 AWS 憑證登入。如果您是 Amazon DataZone 管理員,您可以導覽至位於 https://console.aws.amazon.com/datazone 的 Amazon DataZone 主控台,並使用建立網域 AWS 帳戶 的 登入,然後選擇開啟資料入口網站

  2. 選擇任何可用的資料資產以開啟資產的詳細資訊頁面。

  3. 在資產的詳細資訊頁面上,選擇種類索引標籤,然後選擇預覽 ,然後選擇嘗試範例種類

  4. 在資料譜系快顯視窗中,選擇開始引導式資料譜系導覽

    此時會顯示全螢幕索引標籤,提供所有譜系資訊的空間。範例資料譜系圖一開始會與基礎節點一起顯示,兩端、上游和下游為 1 深度。您可以在上游或下游展開圖形。這些資料欄資訊也可供您選擇,並查看譜系如何流經節點。

以程式設計方式使用 Amazon DataZone 資料譜系

若要在 Amazon 中使用資料譜系功能 DataZone,您可以叫用下列 APIs: