Guía de DataZone inicio rápido de Amazon con los datos de Amazon Redshift - Amazon DataZone

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Guía de DataZone inicio rápido de Amazon con los datos de Amazon Redshift

Complete los siguientes pasos de inicio rápido para recorrer todos los flujos de trabajo de productores y consumidores de datos en Amazon DataZone con ejemplos de datos de Amazon Redshift.

Paso 1: Crea el portal de DataZone dominios y datos de Amazon

Complete el siguiente procedimiento para crear un DataZone dominio de Amazon. Para obtener más información sobre DataZone los dominios de Amazon, consulte DataZone Terminología y conceptos de Amazon.

  1. Ve a la DataZone consola de Amazon en https://console.aws.amazon.com/datazone, inicia sesión y, a continuación, selecciona Crear dominio.

    nota

    Si quieres usar un DataZone dominio de Amazon existente para este flujo de trabajo, selecciona Ver dominios, elige el dominio que quieres usar y, a continuación, continúa con el paso 2 de creación de un proyecto de publicación.

  2. En la página Crear dominio, proporciona valores para los siguientes campos:

    • Nombre: especifique un nombre para su dominio. A los efectos de este flujo de trabajo, puede llamar a este dominioMarketing.

    • Descripción: especifique una descripción de dominio opcional.

    • Cifrado de datos: sus datos se cifran de forma predeterminada con una clave que le AWS pertenece y administra por usted. Para este tutorial, puede dejar la configuración de cifrado de datos predeterminada.

      Para obtener más información sobre el uso de claves administradas por el cliente, consulteEl cifrado de datos en reposo para Amazon DataZone. Si utiliza su propia KMS clave para el cifrado de datos, debe incluir la siguiente declaración en la configuración predeterminadaAmazonDataZoneDomainExecutionRole.

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • Acceso al servicio: elija la opción Usar un rol de servicio personalizado y, a continuación, elija AmazonDataZoneDomainExecutionRoleuno en el menú desplegable.

    • En Configuración rápida, selecciona Configurar esta cuenta para el consumo y la publicación de datos. Esta opción habilita los DataZone planos integrados de Amazon para Data Lake y Data Warehouse, y configura los permisos y recursos necesarios para completar el resto de los pasos de este flujo de trabajo. Para obtener más información sobre los DataZone blueprints de Amazon, consulte DataZone Terminología y conceptos de Amazon.

    • Mantén el resto de los campos de los detalles de los permisos y las etiquetas sin cambios y, a continuación, selecciona Crear dominio.

  3. Una vez que el dominio se haya creado correctamente, elija este dominio y, en la página de resumen del dominio, anote el portal de datos URL de este dominio. Puedes usarlo URL para acceder a tu portal de DataZone datos de Amazon y completar el resto de los pasos de este flujo de trabajo.

nota

En la versión actual de Amazon DataZone, una vez creado el dominio, no se puede modificar lo URL generado para el portal de datos.

La creación del dominio puede tardar varios minutos en completarse. Espere a que el dominio tenga el estado Disponible antes de continuar con el siguiente paso.

Paso 2: Crea el proyecto de publicación

En la siguiente sección se describen los pasos para crear el proyecto de publicación en este flujo de trabajo.

  1. Una vez que complete el paso 1, navegue hasta el portal de DataZone datos de Amazon utilizando el portal de datos URL e inicie sesión con su inicio de sesión único (SSO) o AWS IAM sus credenciales.

  2. Elija Crear proyecto, especifique el nombre del proyecto, por ejemplo, para este flujo de trabajo, puede asignarle un nombre SalesDataPublishingProject, dejar el resto de los campos sin cambios y, a continuación, elegir Crear.

Paso 3: Crea el entorno

En la siguiente sección se describen los pasos para crear un entorno en este flujo de trabajo.

  1. Cuando complete el paso 2, en el portal de DataZone datos de Amazon, elija el SalesDataPublishingProject proyecto que creó en el paso anterior, elija la pestaña Entornos y, por último, elija Crear entorno.

  2. En la página Crear entorno, especifique lo siguiente y, a continuación, elija Crear entorno.

    • Nombre: especifique el nombre del entorno. Para este tutorial, puede llamarlo. Default data warehouse environment

    • Descripción: especifique una descripción para el entorno.

    • Perfil de entorno: elija el perfil de DataWarehouseProfileentorno.

    • Proporcione el nombre del clúster de Amazon Redshift, el nombre de la base de datos y el secreto del clúster ARN de Amazon Redshift en el que se almacenan los datos.

      nota

      Asegúrese de que su secreto en AWS Secrets Manager incluya las siguientes etiquetas (clave/valor):

      • Para el clúster de Amazon Redshift, datazone.rs.cluster: <cluster_name:database name>

        Para el grupo de trabajo Amazon Redshift Serverless: datazone.rs.workgroup: <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      Para obtener más información, consulte Almacenamiento de credenciales de bases de datos en AWS Secrets Manager.

      El usuario de la base de datos que proporcione en AWS Secrets Manager debe tener permisos de superusuario.

Paso 4: Producir datos para su publicación

En la siguiente sección se describen los pasos para producir datos para publicarlos en este flujo de trabajo.

  1. Cuando complete el paso 3, en el portal de DataZone datos de Amazon, elija el SalesDataPublishingProject proyecto y, a continuación, en el panel de la derecha, en Herramientas de análisis, elija Amazon Redshift. Esto abre el editor de consultas de Amazon Redshift con las credenciales del proyecto para la autenticación.

  2. En este tutorial, utilizará el script de consulta Create Table as Select (CTAS) para crear una tabla nueva que desee publicar en Amazon DataZone. En su editor de consultas, ejecute este CTAS script para crear una mkt_sls_table tabla que pueda publicar y poner a disposición para su búsqueda y suscripción.

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    Asegúrese de que la tabla mkt_sls_table se ha creado correctamente. Ahora tienes un activo de datos que se puede publicar en el DataZone catálogo de Amazon.

Paso 5: Reunir metadatos de Amazon Redshift

En la siguiente sección se describen los pasos para recopilar metadatos de Amazon Redshift.

  1. Una vez que complete el paso 4, en el portal de DataZone datos de Amazon, elija el SalesDataPublishingProject proyecto, luego elija la pestaña Datos y, por último, elija Fuentes de datos.

  2. Elija la fuente que se creó como parte del proceso de creación del entorno.

  3. Selecciona Ejecutar junto al menú desplegable Acción y, a continuación, selecciona el botón de actualización. Una vez finalizada la ejecución de la fuente de datos, los activos se añaden al DataZone inventario de Amazon.

Paso 6: Seleccione y publique el activo de datos

En la siguiente sección se describen los pasos para conservar y publicar el activo de datos en este flujo de trabajo.

  1. Cuando hayas completado el paso 5, en el portal de DataZone datos de Amazon, selecciona el SalesDataPublishingProject proyecto y, a continuación, selecciona la pestaña Datos, selecciona Datos de inventario y localiza la mkt_sls_table tabla.

  2. Abre la página de detalles del mkt_sls_table activo para ver los nombres comerciales generados automáticamente. Seleccione el icono de metadatos generados automáticamente para ver los nombres generados automáticamente para los activos y las columnas. Puede aceptar o rechazar cada nombre de forma individual o seleccionar Aceptar todos para aplicar los nombres generados. Si lo desea, también puede añadir el formulario de metadatos disponible a su activo y seleccionar los términos del glosario para clasificar los datos.

  3. Elija Publicar para publicar el mkt_sls_table recurso.

Paso 7: Cree el proyecto para el análisis de datos

En la siguiente sección se describen los pasos para crear el proyecto para el análisis de datos en este flujo de trabajo.

  1. Cuando complete el paso 6, en el portal de DataZone datos de Amazon, elija Crear proyecto.

  2. En la página Crear proyecto, especifique el nombre del proyecto, por ejemplo, para este flujo de trabajo, puede asignarle un nombre MarketingDataAnalysisProject, dejar el resto de los campos sin cambios y, por último, elegir Crear.

Paso 8: Crear un entorno para el análisis de datos

En la siguiente sección se describen los pasos para crear un entorno para el análisis de datos en este flujo de trabajo.

  1. Cuando complete el paso 7, en el portal de DataZone datos de Amazon, elija el MarketingDataAnalysisProject proyecto que creó en el paso anterior, elija la pestaña Entornos y, a continuación, elija Agregar entorno.

  2. En la página Crear entorno, especifique lo siguiente y, a continuación, elija Crear entorno.

    • Nombre: especifique el nombre del entorno. Para este tutorial, puede llamarlo. Default data warehouse environment

    • Descripción: especifique una descripción para el entorno.

    • Perfil de entorno: elija DataWarehouseProfileel perfil de entorno.

    • Proporcione el nombre del clúster de Amazon Redshift, el nombre de la base de datos y el secreto del clúster ARN de Amazon Redshift en el que se almacenan los datos.

      nota

      Asegúrese de que su secreto en AWS Secrets Manager incluya las siguientes etiquetas (clave/valor):

      • Para el clúster de Amazon Redshift, datazone.rs.cluster: <cluster_name:database name>

        Para el grupo de trabajo Amazon Redshift Serverless: datazone.rs.workgroup: <workgroup_name:database_name>

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      Para obtener más información, consulte Almacenamiento de credenciales de bases de datos en AWS Secrets Manager.

      El usuario de la base de datos que proporcione en AWS Secrets Manager debe tener permisos de superusuario.

    • Para este tutorial, mantenga el resto de los campos sin cambios.

Paso 9: busque en el catálogo de datos y suscríbase a los datos

En la siguiente sección se describen los pasos para buscar en el catálogo de datos y suscribirse a los datos.

  1. Cuando complete el paso 8, en el portal de DataZone datos de Amazon, busque activos de datos mediante palabras clave (p. ej., «catálogo» o «ventas») en la barra de búsqueda del portal de datos.

    Si es necesario, aplique filtros o clasifique y, una vez que encuentre el activo de datos de ventas de productos, podrá seleccionarlo para abrir la página de detalles del activo.

  2. En la página de detalles del activo de datos de ventas de productos, selecciona Suscribirse.

  3. En el cuadro de diálogo, elige tu proyecto de consumidor en el menú desplegable, indica el motivo de la solicitud de acceso y, a continuación, selecciona Suscribirse.

Paso 10: Aprueba la solicitud de suscripción

En la siguiente sección se describen los pasos para aprobar la solicitud de suscripción en este flujo de trabajo.

  1. Una vez que complete el paso 9, en el portal de DataZone datos de Amazon, elija el SalesDataPublishingProjectproyecto con el que publicó su activo.

  2. Selecciona la pestaña Datos, luego Datos publicados y, por último, Solicitudes entrantes.

  3. Selecciona el enlace para ver la solicitud y, a continuación, selecciona Aprobar.

Paso 11: Cree una consulta y analice los datos en Amazon Redshift

Ahora que has publicado correctamente un activo en el DataZone catálogo de Amazon y te has suscrito a él, puedes analizarlo.

  1. En el panel derecho del portal de DataZone datos de Amazon, haz clic en el enlace Amazon Redshift. Esto abre el editor de consultas Amazon Redshift con la credencial del proyecto para la autenticación.

  2. Ahora puede ejecutar una consulta (sentencia de selección) en la tabla suscrita. Puede hacer clic en la tabla (three-vertical-dots opción) y elegir la vista previa para que la declaración seleccionada aparezca en la pantalla del editor. Ejecute la consulta para ver los resultados.