本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon 中的資料品質 DataZone
Amazon 中的資料品質指標 DataZone 可協助您了解不同的品質指標,例如資料來源的完整性、及時性和準確性。Amazon DataZone 與 AWS Glue Data Quality 整合APIs,並提供整合第三方資料品質解決方案的資料品質指標。資料使用者可查看其訂閱資產的資料品質指標如何隨時間變化。若要撰寫和執行資料品質規則,您可以使用您選擇的資料品質工具,例如 AWS Glue 資料品質。透過 Amazon 中的資料品質指標 DataZone,資料取用者可以視覺化資產和資料欄的資料品質分數,協助建立對決策所用資料的信任。
先決條件和IAM角色變更
如果您使用的是 Amazon DataZone的 AWS 受管政策,則沒有額外的組態步驟,而且這些受管政策會自動更新以支援資料品質。如果您將自己的政策用於授予 Amazon DataZone 必要許可以與支援的服務交互操作的角色,則必須更新連接到這些角色的政策,以啟用支援讀取 中的 AWS Glue 資料品質資訊AWS 受管政策:AmazonDataZoneGlueManageAccessRolePolicy,並啟用支援 AWS 受管政策:AmazonDataZoneDomainExecutionRolePolicy和 APIs中的時間序列AWS 受管政策: AmazonDataZoneFullUserAccess。
啟用 AWS Glue 資產的資料品質
Amazon 從 AWS Glue DataZone 提取資料品質指標,以便在某個時間點提供內容,例如在業務資料目錄搜尋期間。資料使用者可查看其訂閱資產的資料品質指標如何隨時間變化。資料生產者可以按排程擷取 AWS Glue 資料品質分數。Amazon DataZone 商業資料目錄也可以透過資料品質 顯示第三方系統的資料品質指標APIs。如需詳細資訊,請參閱 AWS Data Catalog 的 Glue Data Quality 和 AWS Glue Data Quality 入門。
您可以透過下列方式啟用 Amazon DataZone 資產的資料品質指標:
-
在建立新的或編輯現有的 AWS Glue 資料來源時,請使用 Data Portal 或 Amazon DataZone APIs 透過 Amazon DataZone 資料入口網站啟用 AWS Glue 資料來源的資料品質。
如需透過 入口網站啟用資料來源資料品質的詳細資訊,請參閱 建立和執行 的 Amazon DataZone 資料來源 AWS Glue Data Catalog。
注意
您只能使用 Data Portal 為您的 AWS Glue 庫存資產啟用資料品質。在此版本中,不支援透過 DataZone 資料入口網站啟用 Amazon Redshift 或自訂類型資產的資料品質。
您也可以使用 APIs為新的或現有的資料來源啟用資料品質。您可以透過叫用 CreateDataSource或 並將
autoImportDataQualityResult
參數UpdateDataSource設定為 'True' 來執行此操作。啟用資料品質後,您可以隨需或按排程執行資料來源。每次執行最多可以為每個資產帶來 100 個指標。使用資料來源取得資料品質時,不需要手動建立表單或新增指標。發佈資產時,對資料品質表單所做的更新 (每個歷史記錄規則最多 30 個資料點) 會反映在消費者的清單中。隨後,資產的每個新增指標都會自動新增至清單中。不需要重新發佈資產,即可為消費者提供最新的分數。
啟用自訂資產類型的資料品質
您可以使用 Amazon DataZone APIs 來啟用任何自訂類型資產的資料品質。如需詳細資訊,請參閱下列內容:
下列步驟提供使用 APIs或 在 Amazon 中CLI匯入資產的第三方指標範例 DataZone:
-
如下所示叫用
PostTimeSeriesDataPoints
API:aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \
具有下列承載:
"domainId": "dzd_5oo7xzoqltu8mf", "entityId": "4wyh64k2n8czaf", "entityType": "ASSET", "form": { "content": "{\n \"evaluations\" : [ {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingState\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCity\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"BillingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n \"details\" : {\n \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n },\n \"applicableFields\" : [ \"biLlingcountry\" ],\n \"status\" : \"FAIL\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n \"details\" : { },\n \"applicableFields\" : [ \"Billingstreet\" ],\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 88.0,\n \"evaluationsCount\" : 8\n}", "formName": "shortschemaruleset", "id": "athp9dyw75gzhj", "timestamp": 1.71700477757E9, "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "typeRevision": "8" }, "formName": "shortschemaruleset" }
您可以叫用
GetFormType
動作來取得此承載:aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
-
叫用
DeleteTimeSeriesDataPoints
API ,如下所示:aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \