

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon 的数据质量 DataZone
<a name="datazone-data-quality"></a>

Amazon 中的数据质量指标 DataZone 可帮助您了解不同的质量指标，例如数据源的完整性、及时性和准确性。Amazon DataZone AWS 与 Glue 数据质量集成 APIs ，并提供集成来自第三方数据质量解决方案的数据质量指标。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。要编写和运行数据质量规则，您可以使用自己选择的数据质量工具，例如 AWS Glue 数据质量。借助 Amazon 中的数据质量指标 DataZone，数据使用者可以可视化资产和列的数据质量分数，从而帮助建立对他们用于决策的数据的信任。

**先决条件和 IAM 角色更改**

如果您使用的是Amazon DataZone 的 AWS 托管策略，则无需执行其他配置步骤，并且这些托管策略会自动更新以支持数据质量。如果您对角色使用自己的策略来授予 Amazon DataZone 与支持的服务互操作所需的权限，则必须更新附加到这些角色的策略，以支持读取中的 AWS Glue 数据质量信息，[AWS 托管策略：AmazonDataZoneGlueManageAccessRolePolicy](security-iam-awsmanpol-AmazonDataZoneGlueManageAccessRolePolicy.md)并启用对[AWS 托管策略：AmazonDataZoneDomainExecutionRolePolicy](security-iam-awsmanpol-AmazonDataZoneDomainExecutionRolePolicy.md)和 APIs 中的时间序列的支持。[AWS 托管策略： AmazonDataZoneFullUserAccess](security-iam-awsmanpol-AmazonDataZoneFullUserAccess.md)

## 为 AWS Glue 资产启用数据质量
<a name="datazone-data-quality-glue"></a>

亚马逊从 AWS G DataZone lue 中提取数据质量指标是为了提供某一时间点的背景信息，例如在搜索业务数据目录期间。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。数据生成者可以按计划获 AWS 取 Glue 数据质量分数。Amazon B DataZone usiness 数据目录还可以通过数据质量显示来自第三方系统的数据质量指标 APIs。有关更多信息，请参阅 [AWS Glue 数据质量](https://docs.aws.amazon.com/glue/latest/dg/glue-data-quality.html)和数据[目录的 AWS Glue 数据质量入门](https://docs.aws.amazon.com/glue/latest/dg/data-quality-getting-started.html)。

您可以通过以下方式为您的 Amazon DataZone 资产启用数据质量指标：
+ 在创建新的 AWS Glue DataZone APIs 数据源或编辑现有 Glue 数据源时，使用数据门户或 Amazon 通过亚马逊 DataZone 数据门户启用 AWS Glue 数据源的数据质量。

  有关通过门户为数据来源启用数据质量的更多信息，请参阅[为创建并运行 Amazon DataZone 数据源 AWS Glue Data Catalog](create-glue-data-source.md)。
**注意**  
可以使用数据门户仅为 AWS Glue 库存资产启用数据质量。在此版本的 Amazon 中，不支持通过数据门户为 Amazon Redshift 或自定义类型资产 DataZone 启用数据质量。

  您也可以使用 APIs 为新数据源或现有数据源启用数据质量。为此，您可以调用[CreateDataSource](https://docs.aws.amazon.com/datazone/datazone/latest/APIReference/API_CreateDataSource.htmlAPI)或[UpdateDataSource](https://docs.aws.amazon.com/datazone/datazone/latest/APIReference/API_UpdateDataSource.htmlAPI)并将`autoImportDataQualityResult`参数设置为 “True”。

  启用数据质量后，您可以按需或按时间表运行数据来源。每次运行最多可以为每个资产引入 100 个指标。在将数据来源用于数据质量时，无需手动创建表单或添加指标。在发布资产后，对数据质量表单所做的更新（每条历史记录规则最多 30 个数据点）将反映在面向使用者的清单中。随后，向资产添加的每一个新指标都会自动添加到清单中。无需重新发布资产即可向使用者提供最新的分数。

## 为自定义资产类型启用数据质量
<a name="datazone-data-quality-third-party"></a>

您可以使用 Amazon DataZone APIs 为您的任何自定义类型资产启用数据质量。有关更多信息，请参阅下列内容：
+ [PostTimeSeriesDataPoints](https://docs.aws.amazon.com/datazone/latest/APIReference/API_PostTimeSeriesDataPoints.html)
+ [ListTimeSeriesDataPoints](https://docs.aws.amazon.com/datazone/latest/APIReference/API_ListTimeSeriesDataPoints.html)
+ [GetTimeSeriesDataPoint](https://docs.aws.amazon.com/datazone/latest/APIReference/API_GetTimeSeriesDataPoint.html)
+ [DeleteTimeSeriesDataPoints](https://docs.aws.amazon.com/datazone/latest/APIReference/API_DeleteTimeSeriesDataPoints.html)

以下步骤提供了使用 APIs 或 CLI 导入亚马逊资产的第三方指标的示例 DataZone：

1. 按如下方式调用 `PostTimeSeriesDataPoints` API：

   ```
   aws datazone post-time-series-data-points  \
   --cli-input-json file://createTimeSeriesPayload.json \
   ```

   具有以下有效载荷：

   ```
   "domainId": "dzd_5oo7xzoqltu8mf",
       "entityId": "4wyh64k2n8czaf",
       "entityType": "ASSET",
       "form": {
           "content": "{\n  \"evaluations\" : [ {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingCountry\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingState\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingCity\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"Completeness\" ],\n    \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingStreet\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingStreet\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"BillingCountry\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"Completeness\" ],\n    \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n    \"details\" : {\n      \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n    },\n    \"applicableFields\" : [ \"biLlingcountry\" ],\n    \"status\" : \"FAIL\"\n  }, {\n    \"types\" : [ \"Completeness\" ],\n    \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"Billingstreet\" ],\n    \"status\" : \"PASS\"\n  } ],\n  \"passingPercentage\" : 88.0,\n  \"evaluationsCount\" : 8\n}",
           "formName": "shortschemaruleset",
           "id": "athp9dyw75gzhj",
           "timestamp": 1.71700477757E9,
           "typeIdentifier": "amazon.datazone.DataQualityResultFormType",
           "typeRevision": "8"
       },
       "formName": "shortschemaruleset"
   }
   ```

   您可以通过调用以下 `GetFormType` 操作来获取此有效载荷：

   ```
   aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
   ```

1. 按如下方式调用 `DeleteTimeSeriesDataPoints` API：

   ```
   aws datazone delete-time-series-data-points\
   --domain-identifier dzd_bqqlk3nz21zp2f \
   --entity-identifier dzd_bqqlk3nz21zp2f \
   --entity-type ASSET \
   --form-name rulesET1 \
   ```