翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon のデータ品質 DataZone
Amazon のデータ品質メトリクスは、データソースの完全性、適時性、精度など、さまざまな品質メトリクスを理解する DataZone のに役立ちます。Amazon DataZone は AWS Glue Data Quality と統合し、サードパーティーのデータ品質ソリューションのデータ品質メトリクスを統合しAPIsます。データユーザーは、サブスクライブされたアセットのデータ品質メトリクスが時間の経過とともにどのように変化するかを確認できます。データ品質ルールを作成および実行するには、 AWS Glue データ品質などの任意のデータ品質ツールを使用できます。Amazon のデータ品質メトリクスを使用すると DataZone、データコンシューマーはアセットと列のデータ品質スコアを視覚化できるため、意思決定に使用するデータの信頼性を構築できます。
前提条件とIAMロールの変更
Amazon DataZoneの AWS マネージドポリシーを使用している場合、追加の設定手順はなく、これらの マネージドポリシーは自動的に更新され、データ品質がサポートされます。サポートされているサービスと相互運用するために必要なアクセス許可 DataZone を Amazon に付与するロールに独自のポリシーを使用している場合は、これらのロールにアタッチされているポリシーを更新して、 で AWS Glue データ品質情報を読み取るためのサポートを有効にAWS マネージドポリシー:AmazonDataZoneGlueManageAccessRolePolicyし、 AWS マネージドポリシー:AmazonDataZoneDomainExecutionRolePolicy と APIsで時系列のサポートを有効にする必要がありますAWS マネージドポリシー: AmazonDataZoneFullUserAccess。
AWS Glue アセットのデータ品質の有効化
Amazon DataZone は、ビジネスデータカタログ検索中など、特定の時点にコンテキストを提供するために、 AWS Glue からデータ品質メトリクスを取得します。データユーザーは、サブスクライブされたアセットのデータ品質メトリクスが時間の経過とともにどのように変化するかを確認できます。データプロデューサーは、スケジュールに従って AWS Glue データ品質スコアを取り込むことができます。Amazon DataZone ビジネスデータカタログには、データ品質 を通じてサードパーティーシステムからのデータ品質メトリクスを表示することもできますAPIs。詳細については、AWS 「Glue Data Quality」および「Data Catalog の」の AWS 「Glue Data Quality の開始方法」を参照してください。
Amazon DataZone アセットのデータ品質メトリクスは、次の方法で有効にできます。
-
データポータルまたは Amazon DataZone APIs を使用して、新規または既存の AWS Glue データソースの作成中に、Amazon DataZone データポータルを介して AWS Glue データソースのデータ品質を有効にします。
ポータル経由でデータソースのデータ品質を有効にする方法の詳細については、「」を参照してくださいの Amazon DataZone データソースを作成して実行する AWS Glue Data Catalog。
注記
データポータルを使用して、Glue インベントリアセットのデータ品質のみを有効にできます AWS 。このリリースでは、データポータル経由で Amazon Redshift またはカスタムタイプのアセットのデータ品質 DataZone を有効にすることはサポートされていません。
を使用してAPIs、新規または既存のデータソースのデータ品質を有効にすることもできます。これを行うには、 CreateDataSourceまたは を呼び出しUpdateDataSource、
autoImportDataQualityResult
パラメータを「True」に設定します。データ品質が有効になったら、オンデマンドまたはスケジュールに従ってデータソースを実行できます。各実行では、アセットごとに最大 100 個のメトリクスを取得できます。データソースをデータ品質に使用するときは、フォームを作成したり、メトリクスを手動で追加したりする必要はありません。アセットが公開されると、データ品質フォームに対して行われた更新 (履歴ルールごとに最大 30 データポイント) がコンシューマーのリストに反映されます。その後、アセットにメトリクスが新しく追加されるたびに、 が自動的にリストに追加されます。コンシューマーが最新のスコアを使用できるように、アセットを再発行する必要はありません。
カスタムアセットタイプのデータ品質の有効化
Amazon DataZone APIs を使用して、任意のカスタムタイプのアセットのデータ品質を有効にできます。詳細については、次を参照してください。
次の手順では、 APIs または CLI を使用して Amazon のアセットのサードパーティーメトリクスをインポートする例を示します DataZone。
-
PostTimeSeriesDataPoints
API を次のように呼び出します。aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \
次のペイロードを使用します。
"domainId": "dzd_5oo7xzoqltu8mf", "entityId": "4wyh64k2n8czaf", "entityType": "ASSET", "form": { "content": "{\n \"evaluations\" : [ {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingState\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCity\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"BillingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n \"details\" : {\n \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n },\n \"applicableFields\" : [ \"biLlingcountry\" ],\n \"status\" : \"FAIL\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n \"details\" : { },\n \"applicableFields\" : [ \"Billingstreet\" ],\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 88.0,\n \"evaluationsCount\" : 8\n}", "formName": "shortschemaruleset", "id": "athp9dyw75gzhj", "timestamp": 1.71700477757E9, "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "typeRevision": "8" }, "formName": "shortschemaruleset" }
このペイロードを取得するには、
GetFormType
アクションを呼び出します。aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
-
DeleteTimeSeriesDataPoints
API を次のように呼び出します。aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \