Amazon のデータ系統 DataZone (プレビュー) - Amazon DataZone

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon のデータ系統 DataZone (プレビュー)

重要

現在、Amazon のデータ系統機能はプレビューリリース DataZone 中です。

Amazon のデータ系統 DataZone は、 API駆動型の OpenLineage互換性のある機能であり、 OpenLineage対応システムまたは から までの系統イベントをキャプチャして視覚化しAPIs、データオリジンの追跡、変換の追跡、組織間のデータ消費の表示に役立ちます。これにより、データアセットの包括的なビューが表示され、アセットのオリジンとその接続チェーンを確認できます。系統データには、カタログ化されたアセット、それらのアセットのサブスクライバー、 を使用してプログラムでキャプチャされたビジネスデータカタログ外で発生するアクティビティに関する情報など、Amazon DataZoneのビジネスデータカタログ内のアクティビティに関する情報が含まれますAPIs。

Amazon DataZoneの OpenLineageと互換性のある を使用するとAPIs、ドメイン管理者とデータプロデューサーは、Amazon S3、 AWS Glue、その他の サービスの変換など DataZone、Amazon で利用可能なものを超えて系統イベントをキャプチャして保存できます。これにより、データコンシューマーの包括的なビューが提供され、アセットのオリジンの信頼性を高めることができます。一方、データプロデューサーは、アセットの使用状況を理解することで、アセットの変更の影響を評価できます。さらに、Amazon DataZone バージョンは各イベントと系統を結び、ユーザーは任意の時点で系統を視覚化したり、アセットまたはジョブの履歴全体の変換を比較したりできます。この歴史的な系統は、データの進化方法をより深く理解し、トラブルシューティング、監査、データアセットの整合性の確保に不可欠です。

データ系統を使用すると、Amazon で以下を実行できます DataZone。

  • データの出所を理解する: データがどこから発信されたかを知ることで、その出所、依存関係、変換を明確に理解できます。この透明性は、自信を持ってデータ主導型の意思決定を行うのに役立ちます。

  • データパイプラインへの変更の影響を理解します。データパイプラインに変更を加えると、系統を使用して、影響を受けるすべてのダウンストリームコンシューマーを特定できます。これにより、重要なデータフローを中断することなく変更が行われるようになります。

  • データ品質問題の根本原因を特定する: データ品質問題がダウンストリームレポートで検出された場合、系統、特に列レベルの系統を使用してデータをトレースバックし (列レベルで)、問題を特定してソースに戻すことができます。これにより、データエンジニアは問題を特定して修正できます。

  • データガバナンスとコンプライアンスの向上: 列レベルの系統を使用して、データガバナンスとプライバシー規制へのコンプライアンスを示すことができます。例えば、列レベルの系統を使用して、機密データ ( などPII) がどこに保存され、ダウンストリームアクティビティでどのように処理されるかを表示できます。

Amazon の系統ノードのタイプ DataZone

Amazon では DataZone、データ系統情報はテーブルとビューを表すノードに表示されます。例えば、データポータルの左上で選択されたプロジェクトなど、プロジェクトのコンテキストに応じて、プロデューサーはインベントリアセットと公開アセットの両方を表示できますが、コンシューマーは公開アセットのみを表示できます。アセットの詳細ページで系統タブを初めて開くと、カタログ化されたデータセットノードが系統グラフの系統ノードを上流または下流に移動する出発点になります。

Amazon でサポートされているデータ系統ノードのタイプを次に示します DataZone。

  • データセットノード - このノードタイプには、特定のデータアセットに関するデータ系統情報が含まれます。

    • Amazon DataZone カタログに公開されている AWS Glue または Amazon Redshift アセットに関する情報を含むデータセットノードは、自動的に生成され、ノード内に対応する AWS Glue または Amazon Redshift アイコンが含まれます。

    • Amazon DataZone カタログに公開されていないアセットに関する情報を含むデータセットノードは、ドメイン管理者 (プロデューサー) によって手動で作成され、ノード内のデフォルトのカスタムアセットアイコンで表されます。

  • ジョブ (実行) ノード - このノードタイプには、特定のジョブの最新実行や実行の詳細など、ジョブの詳細が表示されます。このノードはジョブの複数の実行もキャプチャし、ノードの詳細の履歴タブで表示できます。ノードアイコンを選択すると、ノードの詳細を表示できます。

系統ノードの主要な属性

系統ノードのsourceIdentifier属性は、データセットで発生するイベントを表します。系統ノードsourceIdentifierの は、データセットの識別子 (テーブル/ビューなど) です。系統ノードでの一意性の適用に使用されます。例えば、同じ を持つ 2 つの系統ノードを使用することはできませんsourceIdentifier。以下は、さまざまなタイプのノードsourceIdentifierの値の例です。

  • それぞれのデータセットタイプを持つデータセットノードの場合:

    • アセット: amazon.datazone.asset/<assetId>

    • リスト (公開されたアセット): amazon.datazone.listing/<listingId>

    • AWS Glue テーブル: arn:aws:glue:<region>:<account-id>:table/<database>/<table-name>

    • Amazon Redshift table/view: arn:aws:<redshift/redshift-serverless>:<region>:<account-id>:<table-type(table/view etc)>/<clusterIdentifier/workgroupName>/<database>/<schema>/<table-name>

    • オープン系統実行イベントを使用してインポートされた他のタイプのデータセットノードでは、入出力データセットの <namespace>/<name> がノードsourceIdentifierの として使用されます。

  • ジョブの場合:

    • オープン系統実行イベントを使用してインポートされたジョブノードの場合、<jobs_namespace>.<job_name> が として使用されますsourceIdentifier。

  • ジョブ実行の場合:

    • オープンライン実行イベントを使用してインポートされたジョブ実行ノードの場合、<jobs_namespace>.<job_name>/<run_id> が として使用されますsourceIdentifier。

を使用して作成されたアセットの場合createAssetAPI、 を使用して更新createAssetRevisionAPIし、アセットをアップストリームリソースにマッピングできるようにsourceIdentifierする必要があります。

データ系統の視覚化

Amazon DataZoneのアセット詳細ページでは、データ系統をグラフィカルに表現できるため、アップストリームまたはダウンストリームのデータ関係を簡単に視覚化できます。アセットの詳細ページには、グラフをナビゲートするための以下の機能があります。

  • 列レベルの系統: データセットノードで使用可能な場合は、列レベルの系統を拡張します。これにより、ソース列情報が利用可能な場合、アップストリームまたはダウンストリームのデータセットノードとの関係が自動的に表示されます。

  • 列検索: 列数のデフォルト表示が 10 の場合。列が 10 列を超える場合、ページ分割は残りの列に移動するためにアクティブ化されます。特定の列をすばやく表示するには、検索した列のみを一覧表示するデータセットノードで検索できます。

  • データセットノードのみを表示する: データセット系統ノードのみを表示してジョブノードを除外するように切り替える場合は、グラフビューワーの左上にあるオープンビューコントロールアイコンを選択し、データセットノードのみを表示するオプションを切り替えることができます。これにより、すべてのジョブノードがグラフから削除され、データセットノードのみをナビゲートできます。ビューのみのデータセットノードがオンになっている場合、グラフをアップストリームまたはダウンストリームに拡張することはできません。

  • 詳細ペイン: 各系統ノードには詳細がキャプチャされ、選択時に表示されます。

    • データセットノードには詳細ペインがあり、特定のタイムスタンプでそのノードについてキャプチャされたすべての詳細が表示されます。すべてのデータセットノードには、系統情報、スキーマ、履歴タブの 3 つのタブがあります。履歴タブには、そのノードでキャプチャされた系統イベントのさまざまなバージョンが一覧表示されます。からキャプチャされたすべての詳細はAPI、メタデータフォームまたはJSONビューワーを使用して表示されます。

    • ジョブノードには、ジョブ情報と履歴というタブでジョブの詳細を表示する詳細ペインがあります。詳細ペインは、ジョブ実行の一部としてキャプチャされたクエリまたは式もキャプチャします。履歴タブには、そのジョブでキャプチャされたジョブ実行イベントのさまざまなバージョンが一覧表示されます。からキャプチャされたすべての詳細はAPI、メタデータフォームまたはJSONビューワーを使用して表示されます。

  • バージョンタブ: Amazon DataZone データ系統内のすべての系統ノードにバージョニングがあります。すべてのデータセットノードまたはジョブノードについて、バージョンは履歴としてキャプチャされ、異なるバージョン間を移動して、時間の経過とともに何が変更されたかを特定できます。各バージョンは、比較または対照に役立つ新しいタブを系統ページに開きます。

Amazon でのデータ系統認証 DataZone

書き込みアクセス許可 - 系統データを Amazon に発行するには DataZone、 PostLineageEvent に対するALLOWアクションを含むアクセス許可ポリシーを持つIAMロールが必要ですAPI。このIAM承認は API Gateway レイヤーで行われます。

読み取りアクセス許可 - 2 つのオペレーションがあります。 GetLineageNodeListLineageNodeHistoryAmazonDataZoneDomainExecutionRolePolicy マネージドポリシーに含まれているため、Amazon DataZone ドメインのすべてのユーザーがこれらを呼び出してデータ系統グラフをトラバースできます。

Amazon でのデータ系統のサンプルエクスペリエンス DataZone

データ系統サンプルエクスペリエンスを使用して、データ系統グラフのアップストリームまたはダウンストリームのトラバース DataZone、バージョンと列レベルの系統の探索など、Amazon のデータ系統を参照および理解できます。

Amazon でサンプルデータ系統エクスペリエンスを試すには、以下の手順を実行します DataZone。

  1. Amazon DataZone データポータルに移動URLし、シングルサインオン (SSO) または AWS 認証情報を使用してサインインします。Amazon DataZone 管理者の場合は、https://console.aws.amazon.com/datazone の Amazon DataZone コンソールに移動し、ドメインが作成された AWS アカウント でサインインしてから、Open data portal を選択します。

  2. 使用可能なデータアセットを選択して、アセットの詳細ページを開きます。

  3. アセットの詳細ページで、系統タブを選択し、プレビュー を選択しサンプル系統を試す を選択します。

  4. データ系統ポップアップウィンドウで、「ガイド付きデータ系統ツアーの開始」を選択します。

    この時点で、系統情報のすべてのスペースを提供する全画面タブが表示されます。サンプルデータ系統グラフは、最初は、アップストリームとダウンストリームの両端に 1 深度のベースノードで表示されます。グラフはアップストリームまたはダウンストリームに展開できます。列情報は、系統がノードをどのように流れるかを選択して確認することもできます。

Amazon DataZone データ系統のプログラムによる使用

Amazon でデータ系統機能を使用するには DataZone、次の を呼び出しますAPIs。