Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kualitas data di Amazon DataZone
Metrik kualitas data di Amazon DataZone membantu Anda memahami berbagai metrik kualitas seperti kelengkapan, ketepatan waktu, dan keakuratan sumber data Anda. Amazon DataZone terintegrasi dengan AWS Glue Data Quality dan menawarkan APIs untuk mengintegrasikan metrik kualitas data dari solusi kualitas data pihak ketiga. Pengguna data dapat melihat bagaimana metrik kualitas data berubah dari waktu ke waktu untuk aset berlangganan mereka. Untuk membuat dan menjalankan aturan kualitas data, Anda dapat menggunakan alat kualitas data pilihan Anda seperti kualitas data AWS Glue. Dengan metrik kualitas data di Amazon DataZone, konsumen data dapat memvisualisasikan skor kualitas data untuk aset dan kolom, membantu membangun kepercayaan pada data yang mereka gunakan untuk keputusan.
Prasyarat dan perubahan peran IAM
Jika Anda menggunakan kebijakan DataZone AWS terkelola Amazon, tidak ada langkah konfigurasi tambahan dan kebijakan terkelola ini diperbarui secara otomatis untuk mendukung kualitas data. Jika Anda menggunakan kebijakan Anda sendiri untuk peran yang memberikan Amazon DataZone izin yang diperlukan untuk beroperasi dengan layanan yang didukung, Anda harus memperbarui kebijakan yang dilampirkan pada peran ini untuk mengaktifkan dukungan untuk membaca informasi kualitas data AWS Glue di AWS kebijakan terkelola: AmazonDataZoneGlueManageAccessRolePolicy dan mengaktifkan dukungan untuk rangkaian waktu APIs di AWS kebijakan terkelola: AmazonDataZoneDomainExecutionRolePolicy dan. AWS kebijakan terkelola: AmazonDataZoneFullUserAccess
Mengaktifkan kualitas data untuk aset AWS Glue
Amazon DataZone menarik metrik kualitas data dari AWS Glue untuk memberikan konteks selama suatu titik waktu, misalnya, selama pencarian katalog data bisnis. Pengguna data dapat melihat bagaimana metrik kualitas data berubah dari waktu ke waktu untuk aset berlangganan mereka. Produsen data dapat menelan skor kualitas data AWS Glue sesuai jadwal. Katalog data DataZone bisnis Amazon juga dapat menampilkan metrik kualitas data dari sistem pihak ketiga melalui kualitas APIs data. Untuk informasi selengkapnya, lihat AWS Glue Data Quality dan Memulai AWS Glue Data Quality untuk Katalog Data.
Anda dapat mengaktifkan metrik kualitas data untuk DataZone aset Amazon Anda dengan cara berikut:
-
Gunakan Portal Data atau Amazon DataZone APIs untuk mengaktifkan kualitas data untuk sumber data AWS Glue Anda melalui portal DataZone data Amazon baik saat membuat baru atau mengedit sumber data AWS Glue yang ada.
Untuk informasi selengkapnya tentang mengaktifkan kualitas data untuk sumber data melalui portal, lihatMembuat dan menjalankan sumber DataZone data Amazon untuk AWS Glue Data Catalog.
catatan
Anda dapat menggunakan Portal Data untuk mengaktifkan kualitas data hanya untuk aset inventaris AWS Glue Anda. Dalam rilis Amazon ini DataZone mengaktifkan kualitas data untuk Amazon Redshift atau jenis kustom aset melalui portal data tidak didukung.
Anda juga dapat menggunakan APIs untuk mengaktifkan kualitas data untuk sumber data baru atau yang sudah ada. Anda dapat melakukan ini dengan memanggil CreateDataSourceatau UpdateDataSourcedan mengatur
autoImportDataQualityResult
parameter ke 'Benar'.Setelah kualitas data diaktifkan, Anda dapat menjalankan sumber data sesuai permintaan atau sesuai jadwal. Setiap proses dapat menghasilkan hingga 100 metrik per aset. Tidak perlu membuat formulir atau menambahkan metrik secara manual saat menggunakan sumber data untuk kualitas data. Ketika aset dipublikasikan, pembaruan yang dibuat pada formulir kualitas data (hingga 30 titik data per aturan sejarah) tercermin dalam daftar untuk konsumen. Selanjutnya, setiap penambahan metrik baru ke aset, secara otomatis ditambahkan ke daftar. Tidak perlu mempublikasikan ulang aset untuk membuat skor terbaru tersedia bagi konsumen.
Mengaktifkan kualitas data untuk jenis aset kustom
Anda dapat menggunakan Amazon DataZone APIs untuk mengaktifkan kualitas data untuk semua jenis aset kustom Anda. Untuk informasi selengkapnya, lihat berikut ini:
Langkah-langkah berikut memberikan contoh penggunaan APIs atau CLI mengimpor metrik pihak ketiga untuk aset Anda di Amazon DataZone:
-
Memanggil
PostTimeSeriesDataPoints
API sebagai berikut:aws datazone post-time-series-data-points \ --cli-input-json file://createTimeSeriesPayload.json \
dengan muatan berikut:
"domainId": "dzd_5oo7xzoqltu8mf", "entityId": "4wyh64k2n8czaf", "entityType": "ASSET", "form": { "content": "{\n \"evaluations\" : [ {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingState\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingCity\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n \"details\" : { },\n \"applicableFields\" : [ \"ShippingStreet\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"MaximumLength\" ],\n \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n \"details\" : { },\n \"applicableFields\" : [ \"BillingCountry\" ],\n \"status\" : \"PASS\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n \"details\" : {\n \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n },\n \"applicableFields\" : [ \"biLlingcountry\" ],\n \"status\" : \"FAIL\"\n }, {\n \"types\" : [ \"Completeness\" ],\n \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n \"details\" : { },\n \"applicableFields\" : [ \"Billingstreet\" ],\n \"status\" : \"PASS\"\n } ],\n \"passingPercentage\" : 88.0,\n \"evaluationsCount\" : 8\n}", "formName": "shortschemaruleset", "id": "athp9dyw75gzhj", "timestamp": 1.71700477757E9, "typeIdentifier": "amazon.datazone.DataQualityResultFormType", "typeRevision": "8" }, "formName": "shortschemaruleset" }
Anda dapat memperoleh muatan ini dengan menjalankan tindakan:
GetFormType
aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
-
Memanggil
DeleteTimeSeriesDataPoints
API sebagai berikut:aws datazone delete-time-series-data-points\ --domain-identifier dzd_bqqlk3nz21zp2f \ --entity-identifier dzd_bqqlk3nz21zp2f \ --entity-type ASSET \ --form-name rulesET1 \