Amazon의 데이터 품질 DataZone - Amazon DataZone

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon의 데이터 품질 DataZone

Amazon의 데이터 품질 지표는 데이터 소스의 완전성, 적시성 및 정확성과 같은 다양한 품질 지표를 이해하는 데 DataZone 도움이 됩니다. Amazon DataZone은 AWS Glue 데이터 품질과 통합하고 를 제공하여 타사 데이터 품질 솔루션의 데이터 품질 지표APIs를 통합합니다. 데이터 사용자는 구독한 자산에 대해 시간이 지남에 따라 데이터 품질 지표가 어떻게 변화하는지 확인할 수 있습니다. 데이터 품질 규칙을 작성하고 실행하려면 AWS Glue 데이터 품질과 같이 선택한 데이터 품질 도구를 사용할 수 있습니다. Amazon 의 데이터 품질 지표를 사용하면 DataZone데이터 소비자는 자산 및 열의 데이터 품질 점수를 시각화하여 결정에 사용하는 데이터에 대한 신뢰를 구축할 수 있습니다.

사전 조건 및 IAM 역할 변경

Amazon DataZone의 AWS 관리형 정책을 사용하는 경우 추가 구성 단계가 없으며 이러한 관리형 정책은 데이터 품질을 지원하기 위해 자동으로 업데이트됩니다. Amazon에 지원되는 서비스와 상호 운용하는 데 DataZone 필요한 권한을 부여하는 역할에 대해 자체 정책을 사용하는 경우, 에서 AWS Glue 데이터 품질 정보를 읽을 수 있도록 지원하고 AWS 관리형 정책: AmazonDataZoneGlueManageAccessRolePolicy 및 APIs AWS 관리형 정책: AmazonDataZoneDomainExecutionRolePolicy 에서 시계열에 대한 지원을 활성화하도록 이러한 역할에 연결된 정책을 업데이트해야 합니다AWS 관리형 정책: AmazonDataZoneFullUserAccess.

AWS Glue 자산에 대한 데이터 품질 활성화

Amazon은 AWS Glue에서 데이터 품질 지표를 DataZone 가져와서 특정 시점, 예를 들어 비즈니스 데이터 카탈로그 검색 중에 컨텍스트를 제공합니다. 데이터 사용자는 구독한 자산에 대해 시간이 지남에 따라 데이터 품질 지표가 어떻게 변화하는지 확인할 수 있습니다. 데이터 생산자는 일정에 따라 AWS Glue 데이터 품질 점수를 수집할 수 있습니다. Amazon DataZone 비즈니스 데이터 카탈로그는 데이터 품질 을 통해 타사 시스템의 데이터 품질 지표를 표시할 수도 있습니다APIs. 자세한 내용은 AWS Glue 데이터 품질데이터 카탈로그 의 AWS Glue 데이터 품질 시작하기를 참조하세요.

다음과 같은 방법으로 Amazon DataZone 자산에 대한 데이터 품질 지표를 활성화할 수 있습니다.

  • 데이터 포털 또는 Amazon DataZone APIs을 사용하여 새 AWS Glue 데이터 소스를 생성하거나 기존 Glue 데이터 소스를 편집하는 동안 Amazon DataZone 데이터 포털을 통해 AWS Glue 데이터 소스에 대한 데이터 품질을 활성화합니다.

    포털을 통해 데이터 소스에 대한 데이터 품질을 활성화하는 방법에 대한 자세한 내용은 섹션을 참조하세요에 대한 Amazon DataZone 데이터 소스 생성 및 실행 AWS Glue Data Catalog.

    참고

    Data Portal을 사용하여 Glue 인벤토리 자산에 대해서만 데이터 품질을 활성화할 수 있습니다 AWS . 이번 릴리스에서는 데이터 포털을 통해 Amazon Redshift 또는 사용자 지정 유형 자산에 대한 데이터 품질 DataZone 활성화가 지원되지 않습니다.

    APIs 를 사용하여 새 또는 기존 데이터 소스에 대한 데이터 품질을 활성화할 수도 있습니다. CreateDataSource 또는 를 호출UpdateDataSource하고 autoImportDataQualityResult 파라미터를 'True'로 설정하여 이 작업을 수행할 수 있습니다.

    데이터 품질이 활성화된 후 필요에 따라 또는 일정에 따라 데이터 소스를 실행할 수 있습니다. 각 실행은 자산당 최대 100개의 지표를 가져올 수 있습니다. 데이터 품질을 위해 데이터 소스를 사용할 때는 양식을 생성하거나 지표를 수동으로 추가할 필요가 없습니다. 자산이 게시되면 데이터 품질 양식(이력 규칙당 최대 30개의 데이터 포인트)에 대한 업데이트가 소비자 목록에 반영됩니다. 그런 다음 자산에 지표를 새로 추가할 때마다 목록에 자동으로 추가됩니다. 소비자가 최신 점수를 사용할 수 있도록 자산을 다시 게시할 필요가 없습니다.

사용자 지정 자산 유형에 대한 데이터 품질 활성화

Amazon DataZone APIs을 사용하여 사용자 지정 유형 자산에 대한 데이터 품질을 활성화할 수 있습니다. 자세한 내용은 다음 자료를 참조하세요.

다음 단계에서는 APIs 또는 CLI 를 사용하여 Amazon 의 자산에 대한 타사 지표를 가져오는 예를 제공합니다. DataZone

  1. 다음과 PostTimeSeriesDataPoints API 같이 를 호출합니다.

    aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \

    다음 페이로드 포함:

    "domainId": "dzd_5oo7xzoqltu8mf", "entityId": "4wyh64k2n8czaf", "entityType": "ASSET", "form": { "content": "{\n \"evaluations\" : [ {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingState\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCity\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"BillingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n \"details\" : {\n \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n },\n \"applicableFields\" : [ \"biLlingcountry\" ],\n \"status\" : \"FAIL\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n \"details\" : { },\n \"applicableFields\" : [ \"Billingstreet\" ],\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 88.0,\n \"evaluationsCount\" : 8\n}", "formName": "shortschemaruleset", "id": "athp9dyw75gzhj", "timestamp": 1.71700477757E9, "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "typeRevision": "8" }, "formName": "shortschemaruleset" }

    GetFormType 작업을 호출하여 이 페이로드를 가져올 수 있습니다.

    aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
  2. 다음과 DeleteTimeSeriesDataPoints API 같이 를 호출합니다.

    aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \