本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon 的数据质量 DataZone
Amazon 中的数据质量指标 DataZone 可帮助您了解不同的质量指标,例如数据源的完整性、及时性和准确性。Amazon DataZone AWS 与 Glue 数据质量集成 APIs ,并提供集成来自第三方数据质量解决方案的数据质量指标。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。要编写和运行数据质量规则,您可以使用自己选择的数据质量工具,例如 AWS Glue 数据质量。借助 Amazon 中的数据质量指标 DataZone,数据使用者可以可视化资产和列的数据质量分数,从而帮助建立对他们用于决策的数据的信任。
先决条件和 IAM 角色更改
如果您使用的是Amazon DataZone 的 AWS 托管策略,则无需执行其他配置步骤,并且这些托管策略会自动更新以支持数据质量。如果您对角色使用自己的策略来授予 Amazon DataZone 与支持的服务互操作所需的权限,则必须更新附加到这些角色的策略,以支持读取中的 AWS Glue 数据质量信息,AWS 托管策略:AmazonDataZoneGlueManageAccessRolePolicy并启用对AWS 托管策略:AmazonDataZoneDomainExecutionRolePolicy和 APIs 中的时间序列的支持。AWS 托管策略: AmazonDataZoneFullUserAccess
为 AWS Glue 资产启用数据质量
亚马逊从 AWS G DataZone lue 中提取数据质量指标是为了提供某一时间点的背景信息,例如在搜索业务数据目录期间。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。数据生成者可以按计划获 AWS 取 Glue 数据质量分数。Amazon B DataZone usiness 数据目录还可以通过数据质量显示来自第三方系统的数据质量指标 APIs。有关更多信息,请参阅 AWS Glue 数据质量和数据目录的 AWS Glue 数据质量入门。
您可以通过以下方式为您的 Amazon DataZone 资产启用数据质量指标:
-
在创建新的 AWS Glue DataZone APIs 数据源或编辑现有 Glue 数据源时,使用 DataZone 数据门户或亚马逊通过亚马逊数据门户为 Glue 数据 AWS 源启用数据质量。
有关通过门户为数据来源启用数据质量的更多信息,请参阅为创建并运行 Amazon DataZone 数据源 AWS Glue Data Catalog。
注意
可以使用数据门户仅为 AWS Glue 库存资产启用数据质量。在此版本的 Amazon 中,不支持通过数据门户为 Amazon Redshift 或自定义类型资产 DataZone 启用数据质量。
您也可以使用 APIs 为新数据源或现有数据源启用数据质量。为此,您可以调用CreateDataSource或UpdateDataSource并将
autoImportDataQualityResult
参数设置为 “True”。启用数据质量后,您可以按需或按时间表运行数据来源。每次运行最多可以为每个资产引入 100 个指标。在将数据来源用于数据质量时,无需手动创建表单或添加指标。在发布资产后,对数据质量表单所做的更新(每条历史记录规则最多 30 个数据点)将反映在面向使用者的清单中。随后,向资产添加的每一个新指标都会自动添加到清单中。无需重新发布资产即可向使用者提供最新的分数。
为自定义资产类型启用数据质量
您可以使用 Amazon DataZone APIs 为您的任何自定义类型资产启用数据质量。有关更多信息,请参阅下列内容:
以下步骤提供了使用 APIs 或 CLI 导入亚马逊资产的第三方指标的示例 DataZone:
-
按如下方式调用
PostTimeSeriesDataPoints
API:aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \
具有以下有效载荷:
"domainId": "dzd_5oo7xzoqltu8mf", "entityId": "4wyh64k2n8czaf", "entityType": "ASSET", "form": { "content": "{\n \"evaluations\" : [ {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingState\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCity\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"BillingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n \"details\" : {\n \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n },\n \"applicableFields\" : [ \"biLlingcountry\" ],\n \"status\" : \"FAIL\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n \"details\" : { },\n \"applicableFields\" : [ \"Billingstreet\" ],\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 88.0,\n \"evaluationsCount\" : 8\n}", "formName": "shortschemaruleset", "id": "athp9dyw75gzhj", "timestamp": 1.71700477757E9, "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "typeRevision": "8" }, "formName": "shortschemaruleset" }
您可以通过调用以下
GetFormType
操作来获取此有效载荷:aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
-
按如下方式调用
DeleteTimeSeriesDataPoints
API:aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \