Datenqualität bei Amazon DataZone - Amazon DataZone

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenqualität bei Amazon DataZone

Datenqualitätskennzahlen in Amazon DataZone helfen Ihnen dabei, die verschiedenen Qualitätskennzahlen wie Vollständigkeit, Aktualität und Genauigkeit Ihrer Datenquellen zu verstehen. Amazon DataZone integriert sich in AWS Glue Data Quality und bietet APIs die Integration von Datenqualitätsmetriken aus Datenqualitätslösungen von Drittanbietern an. Datennutzer können sehen, wie sich die Datenqualitätskennzahlen für ihre abonnierten Ressourcen im Laufe der Zeit ändern. Um die Datenqualitätsregeln zu erstellen und auszuführen, können Sie das Datenqualitätstool Ihrer Wahl wie AWS Glue Data Quality verwenden. Mit Datenqualitätskennzahlen in Amazon DataZone können Datenkonsumenten die Datenqualitätswerte für die Ressourcen und Spalten visualisieren und so Vertrauen in die Daten aufbauen, die sie für Entscheidungen verwenden.

Voraussetzungen und Rollenänderungen IAM

Wenn Sie die AWS verwalteten Richtlinien DataZone von Amazon verwenden, gibt es keine zusätzlichen Konfigurationsschritte und diese verwalteten Richtlinien werden automatisch aktualisiert, um die Datenqualität zu unterstützen. Wenn Sie Ihre eigenen Richtlinien für die Rollen verwenden, die Amazon DataZone die erforderlichen Berechtigungen für die Zusammenarbeit mit unterstützten Diensten gewähren, müssen Sie die mit diesen Rollen verknüpften Richtlinien aktualisieren, um die Unterstützung für das Lesen der AWS Glue-Datenqualitätsinformationen in der AWS verwaltete Richtlinie: AmazonDataZoneGlueManageAccessRolePolicy und die Unterstützung für die Zeitreihen APIs in AWS verwaltete Richtlinie: AmazonDataZoneDomainExecutionRolePolicy und die AWS verwaltete Richtlinie: AmazonDataZoneFullUserAccess zu aktivieren.

Datenqualität für AWS Glue-Assets aktivieren

Amazon DataZone bezieht die Datenqualitätskennzahlen von AWS Glue, um zu einem bestimmten Zeitpunkt Kontext bereitzustellen, z. B. bei einer Suche nach einem Geschäftsdatenkatalog. Datennutzer können sehen, wie sich die Datenqualitätskennzahlen für ihre abonnierten Ressourcen im Laufe der Zeit ändern. Datenproduzenten können die Datenqualitätswerte von AWS Glue nach einem Zeitplan aufnehmen. Der DataZone Amazon-Geschäftsdatenkatalog kann auch Datenqualitätskennzahlen aus Systemen von Drittanbietern über Datenqualität anzeigenAPIs. Weitere Informationen finden Sie unter AWS Glue Data Quality und Erste Schritte mit AWS Glue Data Quality für den Datenkatalog.

Sie können Datenqualitätsmetriken für Ihre DataZone Amazon-Ressourcen auf folgende Weise aktivieren:

  • Verwenden Sie das Datenportal oder Amazon DataZone APIs, um die Datenqualität für Ihre AWS Glue-Datenquelle über das DataZone Amazon-Datenportal zu aktivieren, während Sie entweder eine neue AWS Glue-Datenquelle erstellen oder eine bestehende bearbeiten.

    Weitere Informationen zur Aktivierung der Datenqualität für eine Datenquelle über das Portal finden Sie unterErstellen und betreiben Sie eine DataZone Amazon-Datenquelle für AWS Glue Data Catalog.

    Anmerkung

    Sie können das Datenportal verwenden, um die Datenqualität nur für Ihre AWS Glue-Inventarressourcen zu aktivieren. In dieser Version von Amazon wird DataZone die Aktivierung der Datenqualität für Amazon Redshift oder Assets mit benutzerdefinierten Typen über das Datenportal nicht unterstützt.

    Sie können den auch verwendenAPIs, um die Datenqualität für Ihre neuen oder vorhandenen Datenquellen zu aktivieren. Sie können dies tun, indem Sie das CreateDataSourceOder aufrufen UpdateDataSourceund den autoImportDataQualityResult Parameter auf „True“ setzen.

    Nachdem die Datenqualität aktiviert wurde, können Sie die Datenquelle bei Bedarf oder nach einem Zeitplan ausführen. Bei jedem Lauf können bis zu 100 Messwerte pro Asset erfasst werden. Es ist nicht erforderlich, Formulare zu erstellen oder Metriken manuell hinzuzufügen, wenn die Datenquelle aus Gründen der Datenqualität verwendet wird. Wenn das Asset veröffentlicht wird, werden die Aktualisierungen, die am Datenqualitätsformular vorgenommen wurden (bis zu 30 Datenpunkte pro historischer Regel), in der Liste für die Verbraucher wiedergegeben. Anschließend wird jedes neue Hinzufügen von Metriken zum Asset automatisch zur Liste hinzugefügt. Es ist nicht erforderlich, das Asset erneut zu veröffentlichen, um den Verbrauchern die neuesten Ergebnisse zur Verfügung zu stellen.

Aktivierung der Datenqualität für benutzerdefinierte Asset-Typen

Sie können Amazon verwenden DataZone APIs, um die Datenqualität für jedes Ihrer benutzerdefinierten Assets zu aktivieren. Weitere Informationen finden Sie hier:

Die folgenden Schritte bieten ein Beispiel für die Verwendung APIs oder CLI den Import von Drittanbieter-Metriken für Ihre Assets in Amazon DataZone:

  1. Rufen Sie das PostTimeSeriesDataPoints API wie folgt auf:

    aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \

    mit der folgenden Nutzlast:

    "domainId": "dzd_5oo7xzoqltu8mf", "entityId": "4wyh64k2n8czaf", "entityType": "ASSET", "form": { "content": "{\n \"evaluations\" : [ {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingState\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCity\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"BillingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n \"details\" : {\n \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n },\n \"applicableFields\" : [ \"biLlingcountry\" ],\n \"status\" : \"FAIL\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n \"details\" : { },\n \"applicableFields\" : [ \"Billingstreet\" ],\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 88.0,\n \"evaluationsCount\" : 8\n}", "formName": "shortschemaruleset", "id": "athp9dyw75gzhj", "timestamp": 1.71700477757E9, "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "typeRevision": "8" }, "formName": "shortschemaruleset" }

    Sie können diese Payload abrufen, indem Sie die Aktion aufrufen: GetFormType

    aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
  2. Rufen Sie wie folgt auf DeleteTimeSeriesDataPointsAPI:

    aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \