Importación - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Importación

Puede utilizar Amazon SageMaker Data Wrangler para importar datos de las siguientes fuentes de datos: Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift y Snowflake. El conjunto de datos que importe puede incluir un máximo de 1000 columnas.

Algunos orígenes de datos permiten agregar varias conexiones de datos:

  • Puede conectarse a varios clústeres de Amazon Redshift. Cada clúster se convierte en un origen de datos.

  • Puede consultar cualquier base de datos de Athena de su cuenta para importar datos de esa base de datos.

Al importar un conjunto de datos de un origen de datos, aparece en el flujo de datos. Data Wrangler infiere automáticamente el tipo de datos de cada columna en su conjunto de datos. Para modificar estos tipos, seleccione el paso Tipos de datos y seleccione Editar tipos de datos.

Al importar datos de Athena o Amazon Redshift, los datos importados se almacenan automáticamente en el bucket de S3 SageMaker predeterminado de la región en AWS la que utilice Studio Classic. Además, Athena almacena los datos que previsualiza en Data Wrangler en este bucket. Para obtener más información, consulte Almacenamiento de datos importados.

importante

Es posible que el bucket Amazon S3 predeterminado no tenga la configuración de seguridad menos permisiva, como la política del bucket y el cifrado del lado del servidor (). SSE Se recomienda encarecidamente Agregar una política de bucket para restringir el acceso a los conjuntos de datos importados a Data Wrangler.

importante

Además, si utiliza la política gestionada SageMaker, le recomendamos encarecidamente que la limite a la política más restrictiva que le permita llevar a cabo su caso de uso. Para obtener más información, consulte Otorgue un permiso a un IAM rol para usar Data Wrangler.

Todas las fuentes de datos, excepto Amazon Simple Storage Service (Amazon S3), requieren que especifique SQL una consulta para importar los datos. Para cada consulta, debe especificar lo siguiente:

  • Catálogo de datos

  • Base de datos

  • Tabla

Puede especificar el nombre de la base de datos o del catálogo de datos en los menús desplegables o dentro de la consulta. A continuación, se muestran algunas consultas de ejemplo:

  • select * from example-data-catalog-name.example-database-name.example-table-name: la consulta no utiliza nada especificado en los menús desplegables de la interfaz de usuario (UI) para ejecutarse. Realiza consultas example-table-name dentro de example-database-name dentro de example-data-catalog-name.

  • select * from example-database-name.example-table-name: la consulta utiliza el catálogo de datos que especificó en el menú desplegable Catálogo de datos para ejecutarse. Realiza consultas example-table-name dentro de example-database-name dentro del catálogo de datos que haya especificado.

  • select * from example-table-name: la consulta requiere que seleccione campos para los menús desplegables Catálogo de datos y Nombre de la base de datos. Realiza consultas example-table-name dentro del catálogo de datos dentro de la base de datos y el catálogo de datos que haya especificado.

El enlace entre Data Wrangler y el origen de datos es una conexión. La conexión se utiliza para importar datos del origen de datos.

Existen los siguientes tipos de conexiones:

  • Directa

  • Catalogada

Data Wrangler siempre tiene acceso a los datos más recientes en una conexión directa. Si los datos del origen de datos se han actualizado, puede usar la conexión para importar los datos. Por ejemplo, si alguien agrega un archivo a uno de los buckets de Amazon S3, puede importar el archivo.

Una conexión catalogada es el resultado de una transferencia de datos. Los datos de la conexión catalogada no tienen necesariamente los datos más recientes. Por ejemplo, puede configurar una transferencia de datos entre Salesforce y Amazon S3. Si hay una actualización de los datos de Salesforce, debe volver a transferirlos. Puede automatizar el proceso de transferencia de datos. Para obtener más información sobre las transferencias de datos, consulte Importación de datos de plataformas de software como servicio (SaaS).

Importación de datos de Amazon S3

Puede usar Amazon Simple Storage Service (Amazon S3) para almacenar y recuperar cualquier cantidad de datos en cualquier momento y desde cualquier parte de la web. Puede realizar estas tareas mediante la AWS Management Console, que es una interfaz web sencilla e intuitiva, y Amazon S3API. Si ha almacenado su conjunto de datos de forma local, se recomienda agregarlo a un bucket de S3 para importarlo a Data Wrangler. Para obtener instrucciones, consulte Cargar un objeto en el bucket en la Guía del usuario de Amazon Simple Storage Service.

Data Wrangler usa S3 Select para que pueda previsualizar sus archivos de Amazon S3 en Data Wrangler. Se incurre en cargos estándar por cada vista previa de archivos. Para obtener más información sobre los precios, consulte la pestaña Solicitudes y recuperaciones de datos en Precios de Amazon S3.

importante

Si planea exportar un flujo de datos y lanzar un trabajo de Data Wrangler, incorporar datos a una SageMaker feature store o crear un SageMaker pipeline, tenga en cuenta que estas integraciones requieren que los datos de entrada de Amazon S3 estén ubicados en la misma región. AWS

importante

Si va a importar un CSV archivo, asegúrese de que cumpla los siguientes requisitos:

  • Un registro de un conjunto de datos no puede tener más de una línea.

  • El único carácter de escape válido es una barra invertida, \.

  • El conjunto de datos debe utilizar uno de los siguientes delimitadores:

    • Coma: ,

    • Dos puntos: :

    • Punto y coma: ;

    • Barra: |

    • Tabulador: [TAB]

Para ahorrar espacio, puedes importar CSV archivos comprimidos.

Data Wrangler le permite importar todo el conjunto de datos o tomar una muestra de una parte del mismo. Para Amazon S3, proporciona las siguientes opciones de muestreo:

  • Ninguno: se importa todo el conjunto de datos.

  • Primeros K: toma una muestra de las primeras filas K del conjunto de datos, donde K es un número entero que especifique.

  • Aleatorio: toma una muestra aleatoria del tamaño que especifique.

  • Estratificado: toma una muestra aleatoria estratificada. Una muestra estratificada conserva la relación de valores de una columna.

Después de importar los datos, también puede usar el transformador de muestreo para tomar una o más muestras de todo el conjunto de datos. Para obtener más información sobre el transformador de muestreo, consulte Muestreo.

Puede utilizar uno de los siguientes identificadores de recursos para importar los datos:

  • Un Amazon S3 URI que utilice un bucket de Amazon S3 o un punto de acceso de Amazon S3

  • Un alias de punto de acceso de Amazon S3

  • Un nombre de recurso de Amazon (ARN) que utiliza un punto de acceso de Amazon S3 o un bucket de Amazon S3

Los puntos de acceso de Amazon S3 son puntos de conexión de red con nombre que están asociados a los buckets. Cada punto de acceso tiene permisos y controles de red distintos. Para obtener más información acerca de los puntos de acceso, consulte Administración del acceso a datos con puntos de acceso de Amazon S3.

importante

Si utiliza un nombre de recurso de Amazon (ARN) para importar los datos, debe ser para un recurso ubicado en el mismo Región de AWS lugar que utiliza para acceder a Amazon SageMaker Studio Classic.

Puede importar un solo archivo o varios archivos como un conjunto de datos. Puede utilizar la operación de importación de varios archivos si tiene un conjunto de datos que está particionado en archivos independientes. Toma todos los archivos de un directorio de Amazon S3 y los importa como un único conjunto de datos. Para obtener información sobre los tipos de archivos que puede importar y cómo importarlos, consulte las siguientes secciones.

Single File Import

Puede importar archivos individuales en los siguientes formatos:

  • Valores separados por comas () CSV

  • Parquet

  • Notación de objetos de Javascript () JSON

  • Columnar de fila optimizada () ORC

  • Imagen: Data Wrangler usa OpenCV para importar imágenes. Para obtener más información sobre los formatos de imagen compatibles, consulte Image file reading and writing.

Para los archivos formateados enJSON, Data Wrangler admite tanto JSON líneas (.jsonl) como documentos (.json). JSON Al previsualizar los datos, los muestra automáticamente en formato tabular. JSON Para JSON los documentos anidados de más de 5 MB, Data Wrangler muestra el esquema de la estructura y las matrices como valores en el conjunto de datos. Utilice los operadores Consulta estructurada y Desglosar matriz para mostrar los valores anidados en formato tabular. Para obtener más información, consulte Datos no anidados JSON y Desglosar matriz.

Al elegir un conjunto de datos, puede cambiarle el nombre, especificar el tipo de archivo e identificar la primera fila como un encabezado.

Puede importar un conjunto de datos que haya particionado en varios archivos en un bucket de Amazon S3 en un solo paso de importación.

Para importar un conjunto de datos a Data Wrangler desde un único archivo que haya almacenado en Amazon S3:
  1. Si no se encuentra actualmente en la pestaña Importar, elija Importar.

  2. En Disponible, seleccione Amazon S3.

  3. En la sección Importar datos tabulares, de imágenes o de series temporales de S3, realice una de las siguientes acciones:

    • Elija un bucket de Amazon S3 de la vista tabular y vaya al archivo que va a importar.

    • Para el origen S3, especifique un bucket de Amazon S3 o un Amazon S3 URI y seleccione Ir. El Amazon S3 URIs puede tener uno de los siguientes formatos:

      • s3://amzn-s3-demo-bucket/example-prefix/example-file

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3 alias/conjuntos de datos/example-file

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix/example-file

  4. Elija el conjunto de datos para abrir el panel Configuración de importación.

  5. Si el CSV archivo tiene un encabezado, selecciona la casilla de verificación situada junto a Añadir encabezado a la tabla.

  6. Usa la tabla Vista previa para obtener una vista previa del conjunto de datos. En esta tabla se muestran un máximo de 100 filas.

  7. En el panel Detalles, compruebe o cambie el Nombre y el Tipo de archivo del conjunto de datos. Si agrega un Nombre que contenga espacios, estos espacios se sustituirán por guiones bajos al importar el conjunto de datos.

  8. Especifique la configuración de muestreo que desee utilizar.

  9. Seleccione Importar.

Multifile Import

Los requisitos para importar varios archivos son los siguientes:

  • Los archivos deben estar en la misma carpeta que el bucket de Amazon S3.

  • Los archivos deben compartir el mismo encabezado o no tenerlo.

El ARN debe estar en uno de los siguientes formatos:

  • CSV

  • Parquet

  • Columnar de fila optimizada () ORC

  • Imagen: Data Wrangler usa OpenCV para importar imágenes. Para obtener más información sobre los formatos de imagen compatibles, consulte Image file reading and writing.

Utilice el siguiente procedimiento para importar varios archivos.

Para importar un conjunto de datos a Data Wrangler desde varios archivos que haya almacenado en un directorio de Amazon S3
  1. Si no se encuentra actualmente en la pestaña Importar, elija Importar.

  2. En Disponible, seleccione Amazon S3.

  3. En la sección Importar datos tabulares, de imágenes o de series temporales de S3, realice una de las siguientes acciones:

    • Elija un bucket de Amazon S3 de la vista tabular y vaya a la carpeta que contiene los archivos que va a importar.

    • Para el origen de S3, especifique el bucket de Amazon S3 o un Amazon S3 URI con sus archivos y seleccione Ir. Son válidos los siguientes datosURIs:

      • s3://amzn-s3-demo-bucket/example-prefix/example-prefix

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/example-prefix/

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix

  4. Seleccione la carpeta que contiene los archivos que desea importar. Cada archivo debe estar en uno de los siguientes formatos: Los archivos deben ser del mismo tipo de datos.

  5. Si la carpeta contiene CSV archivos con encabezados, active la casilla de verificación situada junto a La primera fila es el encabezado.

  6. Si los archivos están anidados en otras carpetas, seleccione la casilla de verificación situada junto a Incluir directorios anidados.

  7. De forma opcional, puede seleccionar la columna Agregar columna de nombre de archivo y agregue una columna al conjunto de datos que muestre el nombre de archivo de cada observación.

  8. (Opcional) De forma predeterminada, Data Wrangler no muestra una vista previa de una carpeta. Para activar la vista previa, pulse el botón azul de Desactivación de vista previa. Una vista previa muestra las 10 primeras filas de los 10 primeros archivos de la carpeta.

  9. En el panel Detalles, compruebe o cambie el Nombre y el Tipo de archivo del conjunto de datos. Si agrega un Nombre que contenga espacios, estos espacios se sustituirán por guiones bajos al importar el conjunto de datos.

  10. Especifique la configuración de muestreo que desee utilizar.

  11. Elija Importar conjunto de datos.

También puede usar parámetros para importar un subconjunto de archivos que se correspondan con un patrón. Los parámetros le ayudan a seleccionar de forma más selectiva los archivos que va a importar. Para empezar a utilizar los parámetros, edite el origen de datos y aplíquelos a la ruta que va a utilizar para importar los datos. Para obtener más información, consulte Reutilización de flujos de datos para diferentes conjuntos de datos.

Importación de datos de Athena

Utilice Amazon Athena para importar los datos de Amazon Simple Storage Service (Amazon S3) a Data Wrangler. En Athena, escribe SQL consultas estándar para seleccionar los datos que va a importar de Amazon S3. Para obtener más información, consulte ¿Qué es Amazon Athena?

Puede utilizarla AWS Management Console para configurar Amazon Athena. Debe crear al menos una base de datos en Athena antes de comenzar a ejecutar consultas. Para obtener más información sobre cómo empezar a utilizar Athena, consulte Introducción.

Athena se integra directamente con Data Wrangler. Puede escribir consultas de Athena sin tener que salir de la interfaz de usuario de Data Wrangler.

Además de escribir consultas sencillas de Athena en Data Wrangler, también puede usar:

Consulta a Athena en Data Wrangler

nota

Data Wrangler no admite consultas federadas.

Si lo usa AWS Lake Formation con Athena, asegúrese de que sus permisos de Lake Formation no anulen IAM los permisos de la base de IAM datos. sagemaker_data_wrangler

Data Wrangler le permite importar todo el conjunto de datos o tomar una muestra de una parte del mismo. Para Athena, proporciona las siguientes opciones de muestreo:

  • Ninguno: se importa todo el conjunto de datos.

  • Primeros K: toma una muestra de las primeras filas K del conjunto de datos, donde K es un número entero que especifique.

  • Aleatorio: toma una muestra aleatoria del tamaño que especifique.

  • Estratificado: toma una muestra aleatoria estratificada. Una muestra estratificada conserva la relación de valores de una columna.

En el procedimiento siguiente, se muestra cómo importar un conjunto de datos de Athena a Data Wrangler.

Para importar un conjunto de datos a Data Wrangler desde Athena
  1. Inicia sesión en Amazon SageMaker Console.

  2. Elija Studio.

  3. Elija Lanzar aplicación.

  4. En la lista desplegable, seleccione Studio.

  5. Elija el icono Inicio.

  6. Elija Datos.

  7. Elija Data Wrangler.

  8. Elija Importar datos.

  9. En Disponible, seleccione Amazon Athena.

  10. En Catálogo de datos, elija un catálogo de datos.

  11. Utilice la lista desplegable Base de datos para seleccionar la base de datos que desea consultar. Al seleccionar una base de datos, puede obtener una vista previa de todas las tablas de la base de datos mediante las Tablas que aparecen en Detalles.

  12. De forma opcional, elija Configuración avanzada.

    1. Elija un Grupo de trabajo.

    2. Si su grupo de trabajo no ha impuesto la ubicación de salida de Amazon S3 o si no utiliza un grupo de trabajo, especifique un valor para la Ubicación de Amazon S3 de los resultados de la consulta.

    3. De forma opcional, para Período de retención de datos, seleccione la casilla de verificación para establecer un período de retención de datos y especifique el número de días que se almacenarán los datos antes de que se eliminen.

    4. (Opcional) De forma predeterminada, Data Wrangler guarda la conexión. Puede optar por quitar la marca de selección de la casilla de verificación y no guardar la conexión.

  13. En muestreo, elija un método de muestreo. Elija Ninguno para desactivar el muestreo.

  14. Ingrese la consulta en el editor de consultas y utilice el botón Ejecutar para ejecutar la consulta. Una vez que la consulta se haya realizado correctamente, puede obtener una vista previa del resultado en el editor.

    nota

    Los datos de Salesforce utilizan el tipo timestamptz. Si va a consultar la columna de fecha y hora que ha importado a Athena desde Salesforce, asigne los datos de la columna al tipo timestamp. La siguiente consulta convierte la columna de fecha y hora en el tipo correcto.

    # cast column timestamptz_col as timestamp type, and name it as timestamp_col select cast(timestamptz_col as timestamp) as timestamp_col from table
  15. Para importar los resultados de la consulta, seleccione Importar.

Tras completar el procedimiento anterior, el conjunto de datos que ha consultado e importado aparece en el flujo de Data Wrangler.

De forma predeterminada, Data Wrangler guarda la configuración de conexión como una conexión nueva. Al importar los datos, la consulta que ya especificó aparece como una conexión nueva. Las conexiones guardadas almacenan información sobre los grupos de trabajo de Athena y los buckets de Amazon S3 que utiliza. Cuando vuelva a conectarse al origen de datos, podrá elegir la conexión guardada.

Administración de resultados de las consultas

Data Wrangler admite el uso de grupos de trabajo de Athena para administrar los resultados de las consultas dentro de una cuenta de AWS . Puede especificar una ubicación de salida de Amazon S3 para cada grupo de trabajo. También puede especificar si el resultado de la consulta puede ir a diferentes ubicaciones de Amazon S3. Para obtener más información, consulte Uso de grupos de trabajo para controlar el acceso a las consultas y los costos.

Es posible que el grupo de trabajo esté configurado para aplicar la ubicación de salida de la consulta de Amazon S3. No puede cambiar la ubicación de salida de los resultados de la consulta para esos grupos de trabajo.

Si no utilizas un grupo de trabajo ni especificas una ubicación de salida para tus consultas, Data Wrangler utiliza el bucket predeterminado de Amazon S3 en la misma AWS región en la que se encuentra tu instancia de Studio Classic para almacenar los resultados de las consultas de Athena. Crea tablas temporales en esta base de datos para mover el resultado de la consulta a este bucket de Amazon S3. Elimina estas tablas después de importar los datos; sin embargo, la base de datos, sagemaker_data_wrangler, persiste. Para obtener más información, consulte Almacenamiento de datos importados.

Para usar los grupos de trabajo de Athena, configure la IAM política que da acceso a los grupos de trabajo. Si utiliza un SageMaker-Execution-Role, se recomienda agregar la política al rol. Para obtener más información sobre IAM las políticas para los grupos de trabajo, consulte las IAMpolíticas de acceso a los grupos de trabajo. Para ver ejemplos de políticas de grupos de trabajo, consulte Ejemplos de políticas de grupos de trabajo.

Configuración de periodo de retención de datos

Data Wrangler establece automáticamente un período de retención de datos para los resultados de la consulta. Los resultados se eliminan una vez transcurrido el período de retención. Por ejemplo, el período de retención predeterminado es de cinco días. Los resultados de la consulta se eliminan al cabo de cinco días. Esta configuración está diseñada para ayudarle a limpiar los datos que ya no utiliza. La limpieza de los datos evita que usuarios no autorizados accedan a ellos. También ayuda a controlar los costos de almacenamiento de los datos en Amazon S3.

Si no establece un período de retención, la configuración del ciclo de vida de Amazon S3 determina el tiempo durante el que se almacenan los objetos. La política de retención de datos que especificó para la configuración del ciclo de vida elimina los resultados de las consultas que sean anteriores a la configuración del ciclo de vida que especificó. Para obtener más información, consulte Configurar el ciclo de vida de un bucket.

Data Wrangler utiliza las configuraciones del ciclo de vida de Amazon S3 para administrar la retención y el vencimiento de los datos. Debe conceder permisos a su función de IAM ejecución de Amazon SageMaker Studio Classic para gestionar las configuraciones del ciclo de vida de los buckets. Utilice el siguiente procedimiento para conceder permisos.

Para conceder permisos para administrar la configuración del ciclo de vida, haga lo siguiente.

  1. Inicie sesión en AWS Management Console y abra la IAM consola en https://console.aws.amazon.com/iam/.

  2. Elija Roles.

  3. En la barra de búsqueda, especifique la función de SageMaker ejecución de Amazon que utiliza Amazon SageMaker Studio Classic.

  4. Elija el rol .

  5. Elija Añadir permisos.

  6. Elija Crear política insertada.

  7. En Servicio, especifique S3 y elíjalo.

  8. En la sección Leer, selecciona GetLifecycleConfiguration.

  9. En la sección Escribir, selecciona PutLifecycleConfiguration.

  10. En Recursos, elija Específico.

  11. En Acciones, seleccione el icono de flecha situado junto a Administración de permisos.

  12. Elige PutResourcePolicy.

  13. En Recursos, elija Específico.

  14. Elija la casilla de verificación situada junto a Cualquiera de esta cuenta.

  15. Elija Revisar política.

  16. En Nombre, especifique un nombre.

  17. Elija Crear política.

Importación de datos de Amazon Redshift

Amazon Redshift es un servicio de almacenamiento de datos administrado a escala de petabytes en la nube . El primer paso para crear un almacenamiento de datos es el lanzamiento de un conjunto de nodos, llamado un clúster de Amazon Redshift. Después de aprovisionar el clúster, puede cargar su conjunto de datos y, luego, realizar consultas de análisis de datos.

Puede conectarse a uno o más clústeres de Amazon Redshift y consultarlos en Data Wrangler. Para utilizar esta opción de importación, debe crear al menos un clúster en Amazon Redshift. Para obtener información sobre cómo hacerlo, consulte Introducción a Amazon Redshift.

Puede enviar los resultados de la consulta de Amazon Redshift a una de las siguientes ubicaciones:

  • El bucket de Amazon S3 predeterminado

  • Una ubicación de salida de Amazon S3 que especifique

Puede importar todo el conjunto de datos o tomar una muestra de una parte del mismo. Para Amazon Redshift, proporciona las siguientes opciones de muestreo:

  • Ninguno: se importa todo el conjunto de datos.

  • Primeros K: toma una muestra de las primeras filas K del conjunto de datos, donde K es un número entero que especifique.

  • Aleatorio: toma una muestra aleatoria del tamaño que especifique.

  • Estratificado: toma una muestra aleatoria estratificada. Una muestra estratificada conserva la relación de valores de una columna.

El bucket de Amazon S3 predeterminado se encuentra en la misma AWS región en la que se encuentra la instancia de Studio Classic para almacenar los resultados de las consultas de Amazon Redshift. Para obtener más información, consulte Almacenamiento de datos importados.

Para el bucket de Amazon S3 predeterminado o para el bucket que especifique, dispone de las siguientes opciones de cifrado:

  • El cifrado predeterminado del AWS lado del servicio con una clave gestionada de Amazon S3 (SSE-S3)

  • Una clave AWS Key Management Service (AWS KMS) que especifique

Una AWS KMS clave es una clave de cifrado que usted crea y administra. Para obtener más información sobre KMS las claves, consulte AWS Key Management Service.

Puede especificar una AWS KMS clave utilizando la clave ARN o la ARN de su AWS cuenta.

Si utiliza la política IAM gestionadaAmazonSageMakerFullAccess, para conceder a un rol permiso para usar Data Wrangler en Studio Classic, el nombre de usuario de la base de datos debe tener el prefijo. sagemaker_access

Utilice los siguientes procedimientos para obtener información sobre cómo agregar un nuevo clúster.

nota

Data Wrangler usa Amazon Redshift API Data con credenciales temporales. Para obtener más información al respectoAPI, consulte Uso de los datos de Amazon Redshift API en la Guía de administración de Amazon Redshift.

Para conectarse a un clúster de Amazon Redshift
  1. Inicia sesión en Amazon SageMaker Console.

  2. Elija Studio.

  3. Elija Lanzar aplicación.

  4. En la lista desplegable, seleccione Studio.

  5. Elija el icono Inicio.

  6. Elija Datos.

  7. Elija Data Wrangler.

  8. Elija Importar datos.

  9. En Disponible, seleccione Amazon Athena.

  10. Elija Amazon Redshift.

  11. Selecciona Credenciales temporales (IAM) como Tipo.

  12. Introduzca un nombre de conexión. Data Wrangler utiliza este nombre para identificar esta conexión.

  13. Ingrese el Identificador del clúster para especificar a qué clúster desea conectarse. Nota: Ingrese solo el identificador del clúster y no el punto de conexión completo del clúster de Amazon Redshift.

  14. Especifique el Nombre de la base de datos a la que desea conectarse.

  15. Ingrese un Usuario de la base de datos para identificar el usuario que desea utilizar para conectarse a la base de datos.

  16. En UNLOADIAMRol, introduzca el IAM rol ARN del rol que debe asumir el clúster de Amazon Redshift para mover y escribir datos en Amazon S3. Para obtener más información sobre esta función, consulte Autorizar a Amazon Redshift a acceder a AWS otros servicios en su nombre en la Guía de administración de Amazon Redshift.

  17. Elija Conectar.

  18. (Opcional) Para la ubicación de salida de Amazon S3, especifique el S3 URI para almacenar los resultados de la consulta.

  19. (Opcional) Para el ID de KMS clave, especifique el ARN de la AWS KMS clave o el alias. La siguiente imagen muestra dónde se encuentra cada clave en la AWS Management Console.

    La ubicación del AWS KMS aliasARN, el nombre del alias y la clave ARN en la AWS KMS consola.

La imagen siguiente muestra todos los campos del procedimiento anterior.

El panel de conexión Add Amazon Redshift.

Cuando la conexión se haya establecido correctamente, aparecerá como origen de datos en la sección Importación de datos. Seleccione este origen de datos para consultar la base de datos e importar datos.

Para consultar e importar datos de Amazon Redshift
  1. Seleccione la conexión que desee consultar de Orígenes de datos.

  2. Seleccione un Esquema. Para obtener más información acerca de los esquemas de Amazon Redshift, consulte Esquemas en la Guía para desarrolladores de bases de datos de Amazon Redshift.

  3. De forma opcional, en Configuración avanzada, especifique el método de Muestreo que desee utilizar.

  4. Ingrese la consulta en el editor de consultas y elija Ejecutar para ejecutar la consulta. Una vez que la consulta se haya realizado correctamente, puede obtener una vista previa del resultado en el editor.

  5. Seleccione Importar conjunto de datos para importar el conjunto de datos que se ha consultado.

  6. Introduzca un Nombre del conjunto de datos. Si agrega un Nombre del conjunto de datos que contenga espacios, estos espacios se sustituirán por guiones bajos al importar el conjunto de datos.

  7. Elija Añadir.

Para editar un conjunto de datos, haga lo siguiente.

  1. Vaya a su flujo de Data Wrangler.

  2. Elija el signo + situado junto a Origen: muestreado.

  3. Cambie los datos que está importando.

  4. Seleccione Apply (Aplicar)

Importar datos de Amazon EMR

Puede utilizar Amazon EMR como fuente de datos para su flujo de Amazon SageMaker Data Wrangler. Amazon EMR es una plataforma de clústeres gestionada que puede utilizar para procesar y analizar grandes cantidades de datos. Para obtener más información sobre AmazonEMR, consulta ¿Qué es AmazonEMR? . Para importar un conjunto de datosEMR, debe conectarse a él y consultarlo.

importante

Debes cumplir los siguientes requisitos previos para conectarte a un EMR clúster de Amazon:

Requisitos previos
  • Configuraciones de red
    • Tienes un Amazon VPC en la región que utilizas para lanzar Amazon SageMaker Studio Classic y AmazonEMR.

    • EMRTanto Amazon como Amazon SageMaker Studio Classic deben lanzarse en subredes privadas. Pueden estar en la misma subred o en subredes diferentes.

    • Amazon SageMaker Studio Classic debe estar en modo VPC solo.

      Para obtener más información sobre cómo crear unVPC, consulte Crear un VPC.

      Para obtener más información sobre la creación de unVPC, consulte Connect SageMaker Studio Classic Notebooks en VPC a External Resources.

    • Los EMR clústeres de Amazon que estás ejecutando deben estar en el mismo AmazonVPC.

    • Los EMR clústeres de Amazon y Amazon VPC deben estar en la misma AWS cuenta.

    • Tus EMR clústeres de Amazon ejecutan Hive o Presto.

      • Los clústeres de Hive deben permitir el tráfico entrante de los grupos de seguridad de Studio Classic en el puerto 10000.

      • Los clústeres de Presto deben permitir el tráfico entrante de los grupos de seguridad de Studio Classic en el puerto 8889.

        nota

        El número de puerto es diferente para los EMR clústeres de Amazon que utilizan IAM roles. Vaya al final de la sección de requisitos previos para obtener más información.

  • SageMaker Studio Classic
    • Amazon SageMaker Studio Classic debe ejecutar la versión 3 de Jupyter Lab. Para obtener información sobre la actualización de la versión de Jupyter Lab, consulte Vea y actualice la JupyterLab versión de una aplicación desde la consola.

    • Amazon SageMaker Studio Classic tiene una IAM función que controla el acceso de los usuarios. El IAM rol predeterminado que utilizas para ejecutar Amazon SageMaker Studio Classic no tiene políticas que puedan darte acceso a EMR los clústeres de Amazon. Debe adjuntar la política que concede los permisos al IAM rol. Para obtener más información, consulte Configurar listados de EMR clústeres de Amazon.

    • El IAM rol también debe tener adjunta la siguiente políticasecretsmanager:PutResourcePolicy.

    • Si utilizas un dominio de Studio Classic que ya has creado, asegúrate de que AppNetworkAccessType esté en modo VPC exclusivo. Para obtener información sobre cómo actualizar un dominio para que utilice solo el modo VPC -solo, consulte. Cierre y actualice SageMaker Studio Classic

  • EMRClústeres de Amazon
    • Debe tener Hive o Presto instalados en el clúster.

    • La versión EMR de Amazon debe ser la 5.5.0 o posterior.

      nota

      Amazon EMR admite la terminación automática. La terminación automática impide que los clústeres inactivos se ejecuten y evita que usted incurra en costos. Las siguientes versiones admiten la terminación automática:

      • Para las versiones 6.x, versión 6.1.0 o posterior.

      • Para las versiones 5.x, versión 5.30.0 o posterior.

  • Amazon EMR agrupa con roles IAM de tiempo de ejecución

Una Amazon VPC es una red virtual que está aislada de forma lógica de otras redes en la AWS nube. Amazon SageMaker Studio Classic y tu EMR clúster de Amazon solo existen en AmazonVPC.

Utilice el siguiente procedimiento para lanzar Amazon SageMaker Studio Classic en AmazonVPC.

Para lanzar Studio Classic dentro de unVPC, haga lo siguiente.

  1. Dirígete a la SageMaker consola en https://console.aws.amazon.com/sagemaker/.

  2. Elige Launch SageMaker Studio Classic.

  3. Elija Configuración estándar.

  4. En el rol de ejecución predeterminado, elija el IAM rol para configurar Studio Classic.

  5. Elige el VPC lugar en el que has lanzado los EMR clústeres de Amazon.

  6. En Subred, elija una subred privada.

  7. En el caso de los grupos de seguridad, especifique los grupos de seguridad que va a utilizar para controlar entre sus miembrosVPC.

  8. Elija VPCSolo.

  9. (Opcional) AWS utiliza una clave de cifrado predeterminada. También puede especificar una clave de AWS Key Management Service para cifrar los datos.

  10. Elija Next (Siguiente).

  11. En Configuración de Studio, elija las configuraciones que mejor se adapten a su caso.

  12. Elija Siguiente para omitir la configuración de SageMaker Canvas.

  13. Elija Siguiente para omitir los RStudio ajustes.

Si no tienes un EMR clúster de Amazon preparado, puedes usar el siguiente procedimiento para crear uno. Para obtener más información sobre AmazonEMR, consulta ¿Qué es AmazonEMR?

Para crear un clúster, haga lo siguiente.

  1. Vaya a AWS Management Console.

  2. En la barra de búsqueda, especifique Amazon EMR.

  3. Elija Create cluster.

  4. En Nombre del clúster, ingrese el nombre del clúster.

  5. En Versión, seleccione la versión de lanzamiento del clúster.

    nota

    Amazon EMR admite la terminación automática en las siguientes versiones:

    • Para las versiones 6.x, versión 6.1.0 o posterior

    • Para las versiones 5.x, versión 5.30.0 o posterior

    La terminación automática impide que los clústeres inactivos se ejecuten y evita que usted incurra en costos.

  6. De forma opcional, en Aplicaciones, elija Presto.

  7. Elija la aplicación que está ejecutando en el clúster.

  8. En Redes, para Configuración de hardware, especifique las opciones de configuración del hardware.

    importante

    Para redes, elija la VPC que ejecuta Amazon SageMaker Studio Classic y elija una subred privada.

  9. En Seguridad y acceso, especifique la configuración de seguridad.

  10. Seleccione Crear.

Para ver un tutorial sobre cómo crear un EMR clúster de Amazon, consulta Cómo empezar con Amazon EMR. Para obtener información sobre las prácticas recomendadas para configurar un clúster, consulte Consideraciones y prácticas recomendadas.

nota

Para conocer las mejores prácticas de seguridad, Data Wrangler solo puede conectarse a VPCs subredes privadas. No puedes conectarte al nodo principal a menos que lo utilices AWS Systems Manager para tus EMR instancias de Amazon. Para obtener más información, consulta Cómo proteger el acceso a EMR los clústeres mediante AWS Systems Manager.

Actualmente puedes usar los siguientes métodos para acceder a un EMR clúster de Amazon:

  • Sin autenticación

  • Protocolo ligero de acceso a directorios (LDAP)

  • IAM(Función de tiempo de ejecución)

Si no se utiliza la autenticación o el uso, es LDAP posible que tengas que crear varios clústeres y perfiles de EC2 instancias de Amazon. Si es un administrador, es posible que deba proporcionar a grupos de usuarios diferentes niveles de acceso a los datos. Estos métodos pueden generar una sobrecarga administrativa que dificulte la administración de los usuarios.

Recomendamos utilizar un rol IAM de tiempo de ejecución que permita a varios usuarios conectarse al mismo EMR clúster de Amazon. Un rol en tiempo de ejecución es un IAM rol que puedes asignar a un usuario que se está conectando a un EMR clúster de Amazon. Puede configurar el IAM rol de tiempo de ejecución para que tenga permisos específicos para cada grupo de usuarios.

Usa las siguientes secciones para crear un EMR clúster de Amazon de Presto o Hive con LDAP activado.

Presto
importante

Para usarlo AWS Glue como metaalmacén para tablas de Presto, selecciona Usar metadatos de tablas de Presto para almacenar los resultados de tus EMR consultas de Amazon en un catálogo de AWS Glue datos cuando lances un clúster. EMR Almacenar los resultados de las consultas en un catálogo de AWS Glue datos puede ahorrarle gastos.

Para consultar conjuntos de datos de gran tamaño en EMR los clústeres de Amazon, debe añadir las siguientes propiedades al archivo de configuración de Presto de sus clústeres de AmazonEMR:

[{"classification":"presto-config","properties":{ "http-server.max-request-header-size":"5MB", "http-server.max-response-header-size":"5MB"}}]

También puedes modificar los ajustes de configuración al lanzar el EMR clúster de Amazon.

El archivo de configuración de su EMR clúster de Amazon se encuentra en la siguiente ruta:/etc/presto/conf/config.properties.

Utilice el siguiente procedimiento para crear un clúster de Presto con LDAP activado.

Para crear un clúster, haga lo siguiente.

  1. Vaya a AWS Management Console.

  2. En la barra de búsqueda, especifique Amazon EMR.

  3. Elija Create cluster.

  4. En Nombre del clúster, ingrese el nombre del clúster.

  5. En Versión, seleccione la versión de lanzamiento del clúster.

    nota

    Amazon EMR admite la terminación automática en las siguientes versiones:

    • Para las versiones 6.x, versión 6.1.0 o posterior

    • Para las versiones 5.x, versión 5.30.0 o posterior

    La terminación automática impide que los clústeres inactivos se ejecuten y evita que usted incurra en costos.

  6. Elija la aplicación que está ejecutando en el clúster.

  7. En Redes, para Configuración de hardware, especifique las opciones de configuración del hardware.

    importante

    Para redes, elija la VPC que ejecuta Amazon SageMaker Studio Classic y elija una subred privada.

  8. En Seguridad y acceso, especifique la configuración de seguridad.

  9. Seleccione Crear.

Hive
importante

Para usarlo AWS Glue como metaalmacén para las tablas de Hive, selecciona Usar para metadatos de tablas de Hive para almacenar los resultados de tus EMR consultas de Amazon en un catálogo de AWS Glue datos cuando lances un clúster. EMR Almacenar los resultados de las consultas en un catálogo de AWS Glue datos puede ahorrarle gastos.

Para poder consultar conjuntos de datos de gran tamaño en los EMR clústeres de Amazon, añade las siguientes propiedades al archivo de configuración de Hive en tus clústeres de AmazonEMR:

[{"classification":"hive-site", "properties" :{"hive.resultset.use.unique.column.names":"false"}}]

También puedes modificar los ajustes de configuración al lanzar el EMR clúster de Amazon.

El archivo de configuración de su EMR clúster de Amazon se encuentra en la siguiente ruta:/etc/hive/conf/hive-site.xml. Puede especificar la siguiente propiedad y reiniciar el clúster:

<property> <name>hive.resultset.use.unique.column.names</name> <value>false</value> </property>

Utilice el siguiente procedimiento para crear un clúster de Hive con LDAP activado.

Para crear un clúster de colmenas con la opción LDAP activada, haga lo siguiente.

  1. Vaya a AWS Management Console.

  2. En la barra de búsqueda, especifique Amazon EMR.

  3. Elija Create cluster.

  4. Elija Go to advanced options (Ir a las opciones avanzadas).

  5. En Release, selecciona una versión de EMR lanzamiento de Amazon.

  6. La opción de configuración Hive está seleccionada de forma predeterminada. Asegúrese de que la opción Hive tenga una casilla de verificación a su lado.

  7. De forma opcional, también puede seleccionar Presto como opción de configuración para activar Hive y Presto en el clúster.

  8. (Opcional) Selecciona Usar para los metadatos de la tabla Hive para almacenar los resultados de tus EMR consultas de Amazon en un catálogo de AWS Glue datos. Almacenar los resultados de las consultas en un AWS Glue catálogo puede ahorrarle gastos. Para obtener más información, consulte Uso del catálogo AWS Glue de datos como metaalmacén de Hive.

    nota

    Para almacenar los resultados de la consulta en un catálogo de datos, se requiere la EMR versión 5.8.0 o posterior de Amazon.

  9. En Introducir la configuración, especifique lo siguiente: JSON

    [ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]
    nota

    Como práctica recomendada de seguridad, se recomienda SSL HiveServer habilitarlo añadiendo algunas propiedades en el subsuelo anterior. JSON Para obtener más información, consulte Enable SSL on HiveServer 2.

  10. Especifique el resto de la configuración del clúster y cree un clúster.

Usa las siguientes secciones para usar la LDAP autenticación para EMR los clústeres de Amazon que ya hayas creado.

LDAP for Presto

Para usarlo LDAP en un clúster que ejecute Presto, es necesario acceder al coordinador de Presto a través de él. HTTPS Para otorgar acceso, haga lo siguiente:

  • Active el acceso en el puerto 636

  • Habilitar SSL para el coordinador de Presto

Utilice la siguiente plantilla para configurar Presto:

- Classification: presto-config ConfigurationProperties: http-server.authentication.type: 'PASSWORD' http-server.https.enabled: 'true' http-server.https.port: '8889' http-server.http.port: '8899' node-scheduler.include-coordinator: 'true' http-server.https.keystore.path: '/path/to/keystore/path/for/presto' http-server.https.keystore.key: 'keystore-key-password' discovery.uri: 'http://master-node-dns-name:8899' - Classification: presto-password-authenticator ConfigurationProperties: password-authenticator.name: 'ldap' ldap.url: !Sub 'ldaps://ldap-server-dns-name:636' ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org" internal-communication.authentication.ldap.user: "ldap-user-name" internal-communication.authentication.ldap.password: "ldap-password"

Para obtener información sobre la configuración LDAP en Presto, consulte los siguientes recursos:

nota

Como práctica recomendada de seguridad, recomendamos activar SSL Presto. Para obtener más información, consulte Secure Internal Communication.

LDAP for Hive

LDAPPara usar Hive en un clúster que hayas creado, sigue el siguiente procedimiento para reconfigurar un grupo de instancias en la consola.

Va a especificar el nombre del clúster al que se está conectando.

[ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]

Utilice el siguiente procedimiento para importar datos de un clúster.

Para importar datos de un clúster, haga lo siguiente.

  1. Abra un flujo de Data Wrangler.

  2. Elija Create Connection (Crear conexión).

  3. Elige Amazon EMR.

  4. Aplique alguna de las siguientes acciones.

    • (Opcional) ARN En Secrets, especifique el número de recurso de Amazon (ARN) de la base de datos del clúster. Los secretos proporcionan seguridad adicional. Para obtener más información sobre los secretos, consulte ¿Qué es AWS Secrets Manager? Para obtener más información acerca de la creación de un secreto para el clúster, consulte Crear un AWS Secrets Manager secreto para el clúster.

      importante

      Debe especificar un secreto si utiliza un rol de IAM tiempo de ejecución para la autenticación.

    • Seleccione un clúster de la lista desplegable.

  5. Elija Next (Siguiente).

  6. Para Seleccione un punto final para example-cluster-name clúster, elija un motor de consultas.

  7. De forma opcional, seleccione Guardar conexión.

  8. Elija Siguiente, seleccione inicio de sesión y elija una de estas opciones:

    • Sin autenticación

    • LDAP

    • IAM

  9. Para iniciar sesión en example-cluster-name clúster, especifique el nombre de usuario y la contraseña del clúster.

  10. Elija Conectar.

  11. En el editor de consultas, especifique una SQL consulta.

  12. Elija Ejecutar.

  13. Seleccione Importar.

Crear un AWS Secrets Manager secreto para el clúster

Si utilizas un rol de tiempo de IAM ejecución para acceder a tu EMR clúster de Amazon, debes almacenar las credenciales que utilizas para acceder al secreto de Amazon EMR como Secrets Manager. Todas las credenciales que utiliza para acceder al clúster se almacenan en el secreto.

Debe almacenar la siguiente información en el secreto:

  • JDBCpunto final — jdbc:hive2://

  • DNSname: el DNS nombre de tu EMR clúster de Amazon. Puede ser el punto de conexión del nodo principal o el nombre de host.

  • Puerto: 8446.

También puede almacenar la siguiente información adicional en el secreto:

  • IAMrol: el IAM rol que utilizas para acceder al clúster. Data Wrangler usa tu rol de SageMaker ejecución de forma predeterminada.

  • Ruta del almacén de confianza: de forma predeterminada, Data Wrangler crea una ruta del almacén de confianza para usted. También puede utilizar su propia ruta del almacén de confianza. Para obtener más información sobre las rutas de los almacenes de confianza, consulte Cifrado en tránsito en 2. HiveServer

  • Contraseña del almacén de confianza: de forma predeterminada, Data Wrangler crea una contraseña del almacén de confianza para usted. También puede utilizar su propia ruta del almacén de confianza. Para obtener más información sobre las rutas de los almacenes de confianza, consulte Cifrado en tránsito en la sección 2. HiveServer

Utilice el siguiente procedimiento para almacenar las credenciales en un secreto de Secrets Manager.

Para almacenar las credenciales como un secreto, haga lo siguiente.

  1. Vaya a AWS Management Console.

  2. En la barra de búsqueda, especifique Secrets Manager.

  3. Elija AWS Secrets Manager.

  4. Elija Almacenar un secreto nuevo.

  5. En Secret type (Tipo de secreto), elija Other type of secret (Otro tipo de secreto).

  6. En pares clave-valor, seleccione Texto sin formato.

  7. Para los clústeres que ejecutan Hive, puedes usar la siguiente plantilla para la autenticación. IAM

    {"jdbcURL": "" "iam_auth": {"endpoint": "jdbc:hive2://", #required "dns": "ip-xx-x-xxx-xxx.ec2.internal", #required "port": "10000", #required "cluster_id": "j-xxxxxxxxx", #required "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional "truststore_password": "changeit" #optional }}
    nota

    Después de importar los datos, se les aplican transformaciones. A continuación, exporta los datos que ha transformado a una ubicación específica. Si utiliza un cuaderno de Jupyter para exportar los datos transformados a Amazon S3, debe utilizar la ruta del almacén de confianza especificada en el ejemplo anterior.

Un secreto de Secrets Manager guarda el EMR clúster JDBC URL de Amazon como secreto. El uso de un secreto es más seguro que introducir directamente las credenciales.

Utilice el siguiente procedimiento para JDBC URL guardarlo como secreto.

Para guardarlo JDBC URL como secreto, haga lo siguiente.

  1. Vaya a AWS Management Console.

  2. En la barra de búsqueda, especifique Secrets Manager.

  3. Elija AWS Secrets Manager.

  4. Elija Almacenar un secreto nuevo.

  5. En Secret type (Tipo de secreto), elija Other type of secret (Otro tipo de secreto).

  6. Para los pares clave/valor, especifique jdbcURL como clave y un valor válido JDBCURL.

    El formato de un código válido JDBC URL depende de si se utiliza la autenticación y de si se utiliza Hive o Presto como motor de consulta. La siguiente lista muestra los JBDC URL formatos válidos para las diferentes configuraciones posibles.

    • Hive, sin autenticación: jdbc:hive2://emr-cluster-master-public-dns:10000/;

    • Hive, LDAP autenticación: jdbc:hive2://emr-cluster-master-public-dns-name:10000/;AuthMech=3;UID=david;PWD=welcome123;

    • En el caso de Hive con la SSL opción habilitada, el JDBC URL formato depende de si se utiliza un archivo Java Keystore para la configuración. TLS El archivo Java Keystore ayuda a verificar la identidad del nodo principal del EMR clúster de Amazon. Para usar un archivo de almacén de claves de Java, genérelo en un EMR clúster y cárguelo en Data Wrangler. Para generar un archivo, usa el siguiente comando en el EMR clúster de Amazon,keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks. Para obtener información sobre la ejecución de comandos en un EMR clúster de Amazon, consulte Proteger el acceso a EMR los clústeres mediante AWS Systems Manager. Para cargar un archivo, elija la flecha hacia arriba en la barra de navegación izquierda de la interfaz de usuario de Data Wrangler.

      Los siguientes son los JDBC URL formatos válidos para Hive si SSL está activado:

      • Sin un archivo de almacén de claves de Java: jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;AllowSelfSignedCerts=1;

      • Con un archivo de almacén de claves de Java: jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;SSLKeyStore=/home/sagemaker-user/data/Java-keystore-file-name;SSLKeyStorePwd=Java-keystore-file-passsword;

    • Listo, sin autenticación: jdbc:presto://emr-cluster-master-public-dns:8889/;

    • En el caso de Presto con la LDAP autenticación SSL habilitada, el JDBC URL formato depende de si se utiliza un archivo Java Keystore para la configuración. TLS El archivo Java Keystore ayuda a verificar la identidad del nodo principal del EMR clúster de Amazon. Para usar un archivo de almacén de claves de Java, genérelo en un EMR clúster y cárguelo en Data Wrangler. Para cargar un archivo, elija la flecha hacia arriba en la barra de navegación izquierda de la interfaz de usuario de Data Wrangler. Para obtener información sobre cómo crear un archivo de almacén de claves de Java para Presto, consulte Archivo de almacén de claves de Java para. TLS Para obtener información sobre la ejecución de comandos en un EMR clúster de Amazon, consulte Proteger el acceso a EMR los clústeres mediante AWS Systems Manager.

      • Sin un archivo de almacén de claves de Java: jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID=user-name;PWD=password;AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;

      • Con un archivo de almacén de claves de Java: jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/Java-keystore-file-name;SSLTrustStorePwd=Java-keystore-file-passsword;UID=user-name;PWD=password;

Durante el proceso de importación de datos de un EMR clúster de Amazon, es posible que tengas problemas. Para obtener información acerca de la solución de problemas, consulte Solución de problemas con Amazon EMR.

Importa datos desde Databricks () JDBC

Puede usar Databricks como fuente de datos para su flujo de Amazon SageMaker Data Wrangler. Para importar un conjunto de datos de Databricks, utilice la funcionalidad de importación JDBC (conectividad de bases de datos Java) para acceder a su base de datos de Databricks. Después de acceder a la base de datos, especifique una SQL consulta para obtener los datos e importarlos.

Suponemos que tiene un clúster de Databricks en ejecución y que ha configurado el JDBC controlador para él. Para obtener más información, consulte las siguientes páginas de documentación de Databricks.

Data Wrangler almacena tu JDBC URL información. AWS Secrets Manager Debe conceder permisos a su función de IAM ejecución de Amazon SageMaker Studio Classic para usar Secrets Manager. Utilice el siguiente procedimiento para conceder permisos.

Para conceder permisos a Secrets Manager, haga lo siguiente.

  1. Inicie sesión en AWS Management Console y abra la IAM consola en https://console.aws.amazon.com/iam/.

  2. Elija Roles.

  3. En la barra de búsqueda, especifique la función de SageMaker ejecución de Amazon que utiliza Amazon SageMaker Studio Classic.

  4. Elija el rol .

  5. Elija Añadir permisos.

  6. Elija Crear política insertada.

  7. En Servicio, especifique Secrets Manager y elíjalo.

  8. En Acciones, seleccione el icono de flecha situado junto a Administración de permisos.

  9. Elija PutResourcePolicy.

  10. En Recursos, elija Específico.

  11. Elija la casilla de verificación situada junto a Cualquiera de esta cuenta.

  12. Elija Revisar política.

  13. En Nombre, especifique un nombre.

  14. Elija Crear política.

Puede usar particiones para importar los datos con mayor rapidez. Las particiones dan a Data Wrangler la capacidad de procesar los datos en paralelo. De forma predeterminada, Data Wrangler usa 2 particiones. Para la mayoría de los casos de uso, 2 particiones ofrecen velocidades de procesamiento de datos casi óptimas.

Si decide especificar más de 2 particiones, también puede especificar una columna para particionar los datos. El tipo de valores de la columna debe ser numérico o de fecha.

Se recomienda usar particiones solo si comprende la estructura de los datos y cómo se procesan.

Puede importar todo el conjunto de datos o tomar una muestra de una parte del mismo. Para una base de datos de Databricks, proporciona las siguientes opciones de muestreo:

  • Ninguno: se importa todo el conjunto de datos.

  • Primeros K: toma una muestra de las primeras filas K del conjunto de datos, donde K es un número entero que especifique.

  • Aleatorio: toma una muestra aleatoria del tamaño que especifique.

  • Estratificado: toma una muestra aleatoria estratificada. Una muestra estratificada conserva la relación de valores de una columna.

Utilice el siguiente procedimiento para importar datos de una base de datos de Databricks.

Para importar datos de Databricks, haga lo siguiente.

  1. Inicia sesión en Amazon SageMaker Console.

  2. Elija Studio.

  3. Elija Lanzar aplicación.

  4. En la lista desplegable, seleccione Studio.

  5. En la pestaña Importar datos de su flujo de Data Wrangler, elija Databricks.

  6. Especifique los siguientes campos:

    • Nombre del conjunto de datos: un nombre que desee usar para el conjunto de datos en el flujo de Data Wrangler.

    • Controlador: com.simba.spark.jdbc.Driver.

    • JDBCURL— La URL de la base de datos de Databricks. El URL formato puede variar entre las instancias de Databricks. Para obtener información sobre cómo encontrar URL y especificar los parámetros que contiene, consulte Parámetros de JDBCconfiguración y conexión. A continuación se muestra un ejemplo de cómo se URL puede formatear un: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default; =http; ssl=1; =sql/protocolv1/o/3122619508517275/0909-200301-cut318; =3; = transportMode httpPath AuthMech UIDtoken;PWD=personal-access-token.

      nota

      JDBCURLPuede especificar ARN un secreto que JDBC URL contenga el secreto en lugar de especificarlo en sí mismo. El secreto debe contener un par clave-valor con el siguiente formato: jdbcURL:JDBC-URL. Para obtener más información, consulte ¿Qué es Secrets Manager?

  7. Especifique una SQL SELECT declaración.

    nota

    Data Wrangler no admite expresiones de tabla comunes (CTE) ni tablas temporales dentro de una consulta.

  8. En muestreo, elija un método de muestreo.

  9. Elija Ejecutar.

  10. (Opcional) Para el PREVIEW, elige el engranaje para abrir la configuración de la partición.

    1. Especifique el número de particiones. Puede particionar por columna si especifica el número de particiones:

      • Ingrese el número de particiones: especifique un valor superior a 2.

      • (Opcional) Partición por columna: especifique los siguientes campos. Solo puede particionar por una columna si ha especificado un valor para Ingresar número de particiones.

        • Seleccionar columna: seleccione la columna que va a utilizar para la partición de datos. El tipo de valores de la columna debe ser numérico o de fecha.

        • Límite superior: el límite superior de los valores de la columna que ha especificado es el valor que utiliza en la partición. El valor que especifique no cambia los datos que importe. Solo afecta a la velocidad de la importación. Para obtener el mejor rendimiento, especifique un límite superior cercano al máximo de la columna.

        • Límite inferior: el límite inferior de los valores de la columna que ha especificado es el valor que utiliza en la partición. El valor que especifique no cambia los datos que importe. Solo afecta a la velocidad de la importación. Para obtener el mejor rendimiento, especifique un límite inferior cercano al mínimo de la columna.

  11. Seleccione Importar.

Importación de datos de Salesforce Data Cloud.

Puede utilizar Salesforce Data Cloud como fuente de datos en Amazon SageMaker Data Wrangler para preparar los datos de su Salesforce Data Cloud para el aprendizaje automático.

Con Salesforce Data Cloud como origen de datos en Data Wrangler, puede conectarse rápidamente a los datos de Salesforce sin necesidad de escribir una sola línea de código. Puede unir sus datos de Salesforce con datos de cualquier otro origen de datos en Data Wrangler.

Una vez que se conecte a la nube de datos, puede hacer lo siguiente:

  • Visualizar los datos con visualizaciones integradas

  • Comprender los datos e identificar posibles errores y valores extremos

  • Transformar los datos con más de 300 transformaciones integradas

  • Exportar los datos que ha transformado

Configuración de administrador

importante

Antes de empezar, asegúrese de que sus usuarios utilizan Amazon SageMaker Studio Classic versión 1.3.0 o posterior. Para obtener información sobre cómo comprobar la versión de Studio Classic y actualizarla, consultePrepare datos de aprendizaje automático con Amazon SageMaker Data Wrangler.

Al configurar el acceso a Salesforce Data Cloud, debe completar las siguientes tareas:

  • Obtener su dominio URL de Salesforce. Salesforce también se refiere al dominio URL como el de su organización. URL

  • Obtener OAuth credenciales de Salesforce.

  • Obtener la autorización URL y el token de su URL dominio de Salesforce.

  • Crear un AWS Secrets Manager secreto con la OAuth configuración.

  • Crear una configuración de ciclo de vida que Data Wrangler utilizará para leer las credenciales del secreto.

  • Otorgar permisos a Data Wrangler para leer el secreto.

Tras realizar las tareas anteriores, sus usuarios pueden iniciar sesión en Salesforce Data Cloud medianteOAuth.

nota

Es posible que sus usuarios tengan problemas una vez que haya configurado todo esto. Para obtener más información acerca de la solución de problemas, consulte Solución de problemas con Salesforce.

Utilice el siguiente procedimiento para obtener el dominioURL.

  1. Vaya a la página de inicio de sesión de Salesforce.

  2. En Quick find, especifique My Domain.

  3. Copie el valor de Mi dominio actual URL en un archivo de texto.

  4. Añádalo https:// al principio delURL.

Tras obtener el dominio de SalesforceURL, puede utilizar el siguiente procedimiento para obtener las credenciales de inicio de sesión de Salesforce y permitir que Data Wrangler acceda a sus datos de Salesforce.

Para obtener las credenciales de inicio de sesión de Salesforce y proporcionar acceso a Data Wrangler, haga lo siguiente.

  1. Navegue hasta su dominio URL de Salesforce e inicie sesión en su cuenta.

  2. Seleccione el icono de la rueda.

  3. En la barra de búsqueda que aparece, especifique App Manager.

  4. Seleccione New Connected App.

  5. Especifique los siguientes campos:

    • Nombre de la aplicación conectada: puede especificar cualquier nombre, pero se recomienda elegir uno que incluya Data Wrangler. Por ejemplo, puede especificar Integración de Salesforce Data Cloud y Data Wrangler.

    • APInombre: utilice el valor predeterminado.

    • Correo electrónico de contacto: especifique su dirección de correo electrónico.

    • En el APIencabezado (Activar OAuth configuración), selecciona la casilla de verificación para activar la OAuth configuración.

    • Para Callback, URL especifique Amazon SageMaker Studio ClassicURL. Para obtener el URL de Studio Classic, acceda a él desde AWS Management Console y copie elURL.

  6. En OAuthÁmbitos seleccionados, mueva lo siguiente de los ámbitos disponibles a OAuth los ámbitos seleccionados OAuth:

    • Administre los datos de los usuarios mediante () APIs api

    • Realizar solicitudes en cualquier momento (refresh_token, offline_access)

    • Realice ANSI SQL consultas sobre los datos de Salesforce Data Cloud () cdp_query_api

    • Administrar los datos de perfil de la plataforma de datos de clientes de Salesforce (cdp_profile_api)

  7. Seleccione Guardar. Tras guardar los cambios, Salesforce abre una página nueva.

  8. Elija Continue

  9. Vaya a Consumer Key and Secret.

  10. Elija Manage Consumer Details. Salesforce lo redirige a una nueva página en la que puede que tendrá que superar una autenticación de dos factores.

  11. importante

    Copie la clave del consumidor y el secreto del consumidor en un editor de texto. Necesitará esta información para conectar la nube de datos a Data Wrangler.

  12. Vuelva a Manage Connected Apps.

  13. Vaya Connected App Name y el nombre de su aplicación.

  14. Elija Administrar.

    1. Seleccione Edit Policies.

    2. Cambie IP Relaxation a Relax IP restrictions.

    3. Seleccione Guardar.

Después de proporcionar acceso a su Salesforce Data Cloud, debe proporcionar permisos a sus usuarios. Utilice el siguiente procedimiento para concederles permisos.

Para proporcionar permisos a los usuarios, haga lo siguiente.

  1. Diríjase a la página de inicio de configuración.

  2. En la barra de navegación de la izquierda, busque Users y elija la opción de menú Users.

  3. Elija el hipervínculo con su nombre de usuario.

  4. Vaya a Permission Set Assignments.

  5. Elija Edit Assignments.

  6. Agregue los siguientes permisos:

    • Customer Data Platform Admin

    • Customer Data Platform Data Aware Specialist

  7. Seleccione Guardar.

Después de obtener la información de su dominio de Salesforce, debe obtener la autorización URL y el token URL del AWS Secrets Manager secreto que va a crear.

Utilice el siguiente procedimiento para obtener la autorización URL y el tokenURL.

Para obtener la autorización URL y el token URL
  1. Navegue hasta su dominio URL de Salesforce.

  2. Utilice uno de los siguientes métodos para obtener elURLs. Si utiliza una distribución de Linux con curl y jq instalados, se recomienda utilizar el método que solo funciona en Linux.

    • Solo en Linux, especifique el siguiente comando en su terminal.

      curl salesforce-domain-URL/.well-known/openid-configuration | \ jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \ jq '. += { identity_provider: "SALESFORCE", client_id: "example-client-id", client_secret: "example-client-secret" }'
      1. Navegue hasta example-org-URL/.well-known/openid-configuration en tu navegador.

      2. Copie authorization_endpoint y token_endpoint a un editor de texto.

      3. Cree el siguiente JSON objeto:

        { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }

Tras crear el objeto OAuth de configuración, puede crear un AWS Secrets Manager secreto que lo almacene. Utilice el siguiente procedimiento para crear el secreto.

Para crear un secreto, haga lo siguiente:

  1. Vaya a la consola de AWS Secrets Manager.

  2. Elija Almacenar un secreto.

  3. Seleccione Otro tipo de secreto.

  4. En pares clave-valor, seleccione Texto sin formato.

  5. Sustituya el espacio vacío JSON por los siguientes valores de configuración.

    { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }
  6. Elija Next (Siguiente).

  7. En Nombre del secreto, especifique el nombre del secreto.

  8. En Etiquetas, elija Agregar.

    1. En Clave, especifique sagemaker:partner. En Valor, se recomienda especificar un valor que sea útil para su caso de uso. Sin embargo, puede especificar cualquier cosa.

    importante

    Tiene que crear la clave. No puede importar sus datos de Salesforce si no los ha creado.

  9. Elija Next (Siguiente).

  10. Elija Almacenar.

  11. Elija el secreto que ha creado.

  12. Tome nota de los siguientes campos:

    • El número de recurso de Amazon (ARN) del secreto

    • El nombre del secreto.

Una vez creado el secreto, debe agregar permisos para que Data Wrangler lo lea. Utilice el siguiente procedimiento para agregar permisos.

Para agregar permisos de lectura a Data Wrangler, haga lo siguiente.

  1. Ve a la SageMaker consola de Amazon.

  2. Elige dominios.

  3. Elija el dominio que utiliza para acceder a Data Wrangler.

  4. Elija su Perfil de usuario.

  5. En Detalles, busque el Rol de ejecución. ARNEstá en el siguiente formato:arn:aws:iam::111122223333:role/example-role. Anote la función de SageMaker ejecución. Dentro delARN, es todo lo que viene despuésrole/.

  6. Vaya a la consola de IAM.

  7. En la barra IAM de búsqueda, especifique el nombre del rol de SageMaker ejecución.

  8. Elija el rol .

  9. Elija Añadir permisos.

  10. Elija Crear política insertada.

  11. Seleccione la JSON pestaña.

  12. Especifique la siguiente política en el editor.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "secretsmanager:GetSecretValue", "secretsmanager:PutSecretValue" ], "Resource": "arn:aws:secretsmanager:*:*:secret:*", "Condition": { "ForAnyValue:StringLike": { "aws:ResourceTag/sagemaker:partner": "*" } } }, { "Effect": "Allow", "Action": [ "secretsmanager:UpdateSecret" ], "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*" } ] }
  13. Elija Revisar la política.

  14. En Nombre, especifique un nombre.

  15. Elija Crear política.

Tras conceder a Data Wrangler los permisos para leer el secreto, debe añadir una configuración del ciclo de vida que utilice el secreto de Secrets Manager a su perfil de usuario de Amazon SageMaker Studio Classic.

Utilice el siguiente procedimiento para crear una configuración de ciclo de vida y añadirla al perfil de Studio Classic.

Para crear una configuración de ciclo de vida y añadirla al perfil de Studio Classic, haga lo siguiente.

  1. Ve a la SageMaker consola de Amazon.

  2. Elige dominios.

  3. Elija el dominio que utiliza para acceder a Data Wrangler.

  4. Elija su Perfil de usuario.

  5. Si ve las siguientes aplicaciones, elimínelas:

    • KernelGateway

    • JupyterKernel

    nota

    Al eliminar las aplicaciones, Studio Classic se actualiza. Las actualizaciones pueden tardar un poco.

  6. Mientras espera a que se produzcan las actualizaciones, elija las Configuraciones de ciclo de vida.

  7. Asegúrese de que la página en la que se encuentra indique las configuraciones del ciclo de vida de Studio Classic.

  8. Seleccione Crear configuración.

  9. Asegúrese de que se haya seleccionado la Aplicación de servidor de Jupyter.

  10. Elija Next (Siguiente).

  11. En Nombre, especifique un nombre para la configuración.

  12. En Scripts, especifique el siguiente script:

    #!/bin/bash set -eux cat > ~/.sfgenie_identity_provider_oauth_config <<EOL { "secret_arn": "secrets-arn-containing-salesforce-credentials" } EOL
  13. Elija Enviar.

  14. En la barra de navegación de la izquierda, selecciona dominios.

  15. Seleccione su dominio.

  16. Seleccione Entorno.

  17. En Configuraciones del ciclo de vida de las aplicaciones personales de Studio Classic, selecciona Adjuntar.

  18. Seleccione Configuración existente.

  19. En Configuraciones del ciclo de vida de Studio Classic, selecciona la configuración del ciclo de vida que has creado.

  20. Elija Asociar al dominio.

  21. Seleccione la casilla situada junto a la configuración del ciclo de vida que ha asociado.

  22. Seleccione Establecer como predeterminado.

Podría tener problemas al configurar el ciclo de vida. Para obtener información para depurarlo, consulte Depuración de configuraciones del ciclo de vida.

Guía para científicos de datos

Utilice lo siguiente para conectarse a Salesforce Data Cloud y acceder a sus datos en Data Wrangler.

importante

Su administrador tiene que usar la información de las secciones anteriores para configurar Salesforce Data Cloud. Si tiene problemas, póngase en contacto con ellos para obtener ayuda con la solución de problemas.

Para abrir Studio Classic y comprobar su versión, consulte el siguiente procedimiento.

  1. Sigue los pasos que se indican Requisitos previos a continuación para acceder a Data Wrangler a través de Amazon SageMaker Studio Classic.

  2. Junto al usuario que quieres usar para iniciar Studio Classic, selecciona Iniciar aplicación.

  3. Elija Studio.

Para crear un conjunto de datos en Data Wrangler con datos de Salesforce Data Cloud
  1. Inicia sesión en Amazon SageMaker Console.

  2. Elija Studio.

  3. Elija Lanzar aplicación.

  4. En la lista desplegable, seleccione Studio.

  5. Elija el icono Inicio.

  6. Elija Datos.

  7. Elija Data Wrangler.

  8. Elija Importar datos.

  9. En Disponible, seleccione Salesforce Data Cloud.

  10. En Nombre de la conexión, especifique un nombre para su conexión a Salesforce Data Cloud.

  11. En Org URL, especifique la organización URL en su cuenta de Salesforce. Puede obtenerla URL de sus administradores.

  12. Elija Conectar.

  13. Especifique sus credenciales para iniciar sesión en Salesforce.

Puede empezar a crear un conjunto de datos con datos de Salesforce Data Cloud después de conectarse.

Una vez que seleccione una tabla, puede escribir consultas y ejecutarlas. El resultado de la consulta se muestra en Resultados de la consulta.

Una vez que haya establecido el resultado de la consulta, puede importarlo a un flujo de Data Wrangler para realizar transformaciones de datos.

Una vez que haya creado un conjunto de datos, vaya a hasta la pantalla Flujo de datos para empezar a transformar los datos.

Importación de datos de Snowflake

Puede utilizar Snowflake como fuente de datos en Data Wrangler para preparar SageMaker los datos de Snowflake para el aprendizaje automático.

Con Snowflake como origen de datos en Data Wrangler, puede conectarse rápidamente a Snowflake sin escribir una sola línea de código. Puede unir sus datos de Snowflake con datos de cualquier otro origen de datos en Data Wrangler.

Una vez conectado, puede consultar de forma interactiva los datos almacenados en Snowflake, transformarlos con más de 300 transformaciones de datos preconfiguradas, comprender los datos e identificar posibles errores y valores extremos con un conjunto de sólidas plantillas de visualización preconfiguradas, identificar rápidamente las incoherencias en el flujo de trabajo de preparación de datos y diagnosticar los problemas antes de implementar los modelos en producción. Por último, puede exportar su flujo de trabajo de preparación de datos a Amazon S3 para usarlo con otras SageMaker funciones, como Amazon SageMaker Autopilot, Amazon SageMaker Feature Store y Amazon SageMaker Pipelines.

Puede cifrar el resultado de sus consultas con una AWS Key Management Service clave que haya creado. Para obtener más información al respecto AWS KMS, consulte AWS Key Management Service.

Guía del administrador

importante

Para obtener más información sobre el control de acceso detallado y las prácticas recomendadas, consulte Security Access Control.

Esta sección es para los administradores de Snowflake que están configurando el acceso a Snowflake desde Data Wrangler. SageMaker

importante

Usted es responsable de administrar y supervisar el control de acceso de Snowflake. Data Wrangler no agrega una capa de control de acceso con respecto a Snowflake.

El control de acceso incluye lo siguiente:

  • Los datos a los que accede un usuario

  • De forma opcional, la integración de almacenamiento que proporciona a Snowflake la capacidad de escribir los resultados de consultas en un bucket de Amazon S3

  • Las consultas que un usuario puede ejecutar

Configuración de permisos de importación de datos de Snowflake (opcional)

De forma predeterminada, Data Wrangler consulta los datos en Snowflake sin crear una copia de los mismos en una ubicación de Amazon S3. Utilice la siguiente información si va a configurar una integración de almacenamiento con Snowflake. Los usuarios pueden usar una integración de almacenamiento para almacenar los resultados de las consultas en una ubicación de Amazon S3.

Es posible que los usuarios tengan diferentes niveles de acceso a los datos confidenciales. Para lograr una seguridad de datos óptima, proporcione a cada usuario su propia integración de almacenamiento. Cada integración de almacenamiento debe tener su propia política de gobierno de datos.

Esta característica no está disponible actualmente en la región de suscripción voluntaria.

Snowflake necesita los siguientes permisos en un bucket y un directorio de S3 para poder acceder a los archivos del directorio:

  • s3:GetObject

  • s3:GetObjectVersion

  • s3:ListBucket

  • s3:ListObjects

  • s3:GetBucketLocation

Cree una política IAM

Debe crear una IAM política para configurar los permisos de acceso para que Snowflake cargue y descargue datos de un bucket de Amazon S3.

El siguiente es el documento JSON de política que se utiliza para crear la política:

# Example policy for S3 write access # This needs to be updated { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion", "s3:DeleteObject", "s3:DeleteObjectVersion" ], "Resource": "arn:aws:s3:::bucket/prefix/*" }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": "arn:aws:s3:::bucket/", "Condition": { "StringLike": { "s3:prefix": ["prefix/*"] } } } ] }

Para obtener información y procedimientos sobre la creación de políticas con documentos de políticas, consulte Creación de IAM políticas.

Para ver la documentación que proporciona una descripción general del uso de IAM los permisos con Snowflake, consulte los siguientes recursos:

Para conceder al científico de datos el permiso de uso del rol de Snowflake para la integración del almacenamiento, debe ejecutar GRANT USAGE ON INTEGRATION integration_name TO snowflake_role;.

  • integration_name es el nombre de la integración de almacenamiento.

  • snowflake_role es el nombre del rol de Snowflake predeterminado que se asigna al científico de datos.

Configuración de Snowflake Access OAuth

En lugar de hacer que los usuarios introduzcan directamente sus credenciales en Data Wrangler, puede hacer que usen un proveedor de identidades para acceder a Snowflake. Los siguientes son enlaces a la documentación de Snowflake para los proveedores de identidades compatibles con Data Wrangler.

Utilice la documentación de los enlaces anteriores para configurar el acceso a su proveedor de identidades. La información y los procedimientos de esta sección le ayudarán a entender cómo utilizar correctamente la documentación para acceder a Snowflake desde Data Wrangler.

El proveedor de identidades debe reconocer a Data Wrangler como una aplicación. Utilice el siguiente procedimiento para registrar Data Wrangler como una aplicación dentro del proveedor de identidades:

  1. Seleccione la configuración que inicia el proceso de registro de Data Wrangler como aplicación.

  2. Proporcione acceso a Data Wrangler a los usuarios del proveedor de identidades.

  3. Active la autenticación OAuth del cliente almacenando las credenciales del cliente como un AWS Secrets Manager secreto.

  4. Especifique una redirección URL con el siguiente formato: https://domain-ID.estudio.Región de AWS.sagemaker.aws/jupyter/default/lab

    importante

    Estás especificando el ID de SageMaker dominio de Amazon y el Región de AWS que estás utilizando para ejecutar Data Wrangler.

    importante

    Debes registrar un URL para cada SageMaker dominio de Amazon y para el Región de AWS lugar en el que ejecutes Data Wrangler. Los usuarios de un dominio Región de AWS que no tengan URLs configurada la redirección no podrán autenticarse con el proveedor de identidad para acceder a la conexión de Snowflake.

  5. Asegúrese de que los tipos de concesión de código de autorización y token de actualización estén permitidos para la aplicación Data Wrangler.

En tu proveedor de identidad, debes configurar un servidor que envíe los OAuth tokens a Data Wrangler a nivel de usuario. El servidor envía los tokens con Snowflake como público.

Snowflake utiliza el concepto de roles que son roles distintos de los IAM roles utilizados. AWS Debe configurar el proveedor de identidades para que utilice cualquier rol a fin de usar el rol predeterminado asociado a la cuenta de Snowflake. Por ejemplo, si un usuario tiene systems administrator como rol predeterminado en su perfil de Snowflake, la conexión de Data Wrangler a Snowflake utiliza systems administrator como rol.

Utilice el siguiente procedimiento para configurar el servidor.

Para configurar el servidor, haga lo siguiente: Trabajará en Snowflake en todos los pasos excepto en el último.

  1. Comience a configurar el servidor o. API

  2. Configure el servidor de autorización para que utilice los tipos de concesión de código de autorización y token de actualización.

  3. Especifique la duración del token de acceso.

  4. Establezca el tiempo de espera de inactividad del token de actualización. El tiempo de espera de inactividad es el momento en que el token de actualización vence si no se utiliza.

    nota

    Si va a programar trabajos en Data Wrangler, se recomienda que el tiempo de espera de inactividad sea mayor que la frecuencia del trabajo de procesamiento. De lo contrario, algunos trabajos de procesamiento podrían producir un error porque el token de actualización vence antes de que pudieran ejecutarse. Cuando el token de actualización vence, el usuario debe volver a autenticarse accediendo a la conexión que ha establecido con Snowflake a través de Data Wrangler.

  5. Especifique session:role-any como nuevo ámbito.

    nota

    En el caso de Azure AD, copie el identificador único del ámbito. Data Wrangler requiere que le proporcione el identificador.

  6. importante

    En la integración de OAuth seguridad externa para Snowflake, habilite. external_oauth_any_role_mode

importante

Data Wrangler no admite los tokens de actualización rotativos. El uso de tokens de actualización rotativos puede provocar errores de acceso o que los usuarios tengan que iniciar sesión con frecuencia.

importante

Si el token de actualización vence, los usuarios deben volver a autenticarse accediendo a la conexión que ha establecido con Snowflake a través de Data Wrangler.

Después de configurar el OAuth proveedor, proporciona a Data Wrangler la información que necesita para conectarse con el proveedor. Puede usar la documentación de su proveedor de identidades para obtener los valores de los siguientes campos:

  • TokenURL: el token que el proveedor URL de identidad envía a Data Wrangler.

  • AutorizaciónURL: la URL del servidor de autorización del proveedor de identidad.

  • ID de cliente: el ID del proveedor de identidades.

  • Secreto de cliente: el secreto que solo API reconoce el servidor de autorización.

  • (Solo en Azure AD) Las credenciales de OAuth ámbito que ha copiado.

Los campos y valores se guardan en AWS Secrets Manager secreto y se añaden a la configuración del ciclo de vida de Amazon SageMaker Studio Classic que se utiliza para Data Wrangler. Una configuración del ciclo de vida es un script de intérprete de comandos. Úsala para que Data Wrangler pueda acceder al Amazon Resource Name (ARN) del secreto. Para obtener información sobre cómo crear secretos, consulta Mover secretos codificados a. AWS Secrets Manager Para obtener información sobre el uso de las configuraciones del ciclo de vida en Studio Classic, consulteUtilice las configuraciones del ciclo de vida para personalizar Studio Classic.

importante

Antes de crear un secreto de Secrets Manager, asegúrese de que el rol de SageMaker ejecución que está utilizando para Amazon SageMaker Studio Classic tenga permisos para crear y actualizar secretos en Secrets Manager. Para obtener más información, consulte Ejemplo: permiso para crear secretos.

Para Okta y Ping Federate, el formato del secreto es el siguiente:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"OKTA"|"PING_FEDERATE", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize" }

Para Azure AD, el formato del secreto es el siguiente:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"AZURE_AD", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize", "datasource_oauth_scope":"api://appuri/session:role-any)" }

Debe tener una configuración de ciclo de vida que utilice el secreto de Secrets Manager que ha creado. Puede crear la configuración del ciclo de vida o modificar una que ya se haya creado. La configuración debe usar el siguiente script.

#!/bin/bash set -eux ## Script Body cat > ~/.snowflake_identity_provider_oauth_config <<EOL { "secret_arn": "example-secret-arn" } EOL

Para obtener información sobre la definición de las configuraciones de ciclo de vida, consulte Creación y asociación de una configuración del ciclo de vida. Cuando realice el proceso de configuración, haga lo siguiente:

  • Defina el tipo de aplicación de la configuración en Jupyter Server.

  • Adjunta la configuración al SageMaker dominio de Amazon que tiene tus usuarios.

  • Haga que la configuración se ejecute de forma predeterminada. Debe ejecutarse cada vez que un usuario inicie sesión en Studio Classic. De lo contrario, las credenciales guardadas en la configuración no estarán disponibles para sus usuarios cuando usen Data Wrangler.

  • La configuración del ciclo de vida crea un archivo con el nombre snowflake_identity_provider_oauth_config en la carpeta principal del usuario. El archivo contiene el secreto de Secrets Manager. Asegúrese de que esté en la carpeta de inicio del usuario cada vez que se inicialice la instancia del servidor de Jupyter.

Conectividad privada entre Data Wrangler y Snowflake a través de AWS PrivateLink

En esta sección se explica cómo establecer una conexión privada entre Data Wrangler y Snowflake. AWS PrivateLink Los pasos se explican en las siguientes secciones.

Crea un VPC

Si no tiene una VPC configuración, siga las VPC instrucciones de Crear una nueva para crear una.

Una vez que haya elegido una VPC que desee utilizar para establecer una conexión privada, proporcione las siguientes credenciales a su administrador de Snowflake para habilitarla: AWS PrivateLink

  • VPCID

  • AWS ID de cuenta

  • La cuenta correspondiente URL que utiliza para acceder a Snowflake

importante

Como se describe en la documentación de Snowflake, la activación de la cuenta de Snowflake puede tardar hasta dos días laborables.

Una vez AWS PrivateLink activada, recupere la AWS PrivateLink configuración de su región ejecutando el siguiente comando en una hoja de trabajo de Snowflake. Inicie sesión en la consola de Snowflake e introduzca lo siguiente en las Hojas de trabajo: select SYSTEM$GET_PRIVATELINK_CONFIG();.

  1. Recupere los valores de lo siguiente:privatelink-account-name, privatelink_ocsp-urlprivatelink-account-url, y privatelink_ocsp-url del objeto resultanteJSON. En el siguiente fragmento de código se muestran ejemplos de cada valor. Guarde estos valores para usarlos más adelante.

    privatelink-account-name: xxxxxxxx.region.privatelink privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
  2. Cambie a la AWS consola y navegue hasta el VPC menú.

  3. En el panel lateral izquierdo, selecciona el enlace Endpoints para ir a la configuración de VPCEndpoints.

    Una vez allí, elija Crear punto de conexión.

  4. Seleccione el botón de opción para Buscar servicio por nombre, como se muestra en la siguiente captura de pantalla.

    La sección Crear punto final de la consola.
  5. En el campo Nombre del servicio, pegue el valor de privatelink-vpce-id que recuperó en el paso anterior y elija Verificar.

    Si la conexión se realiza correctamente, aparecerá en la pantalla una alerta verde que indica que se ha encontrado el nombre del servicio y las opciones de subred VPCy subred se expanden automáticamente, como se muestra en la siguiente captura de pantalla. En función de la región de destino, es posible que la pantalla resultante muestre el nombre de otra región de AWS .

    La sección Crear punto final de la consola muestra que la conexión se ha realizado correctamente.
  6. Seleccione el mismo VPC ID que envió a Snowflake en la VPClista desplegable.

  7. Si aún no ha creado una subred, siga el siguiente conjunto de instrucciones para crear una subred.

  8. Seleccione Subredes en la lista desplegable. VPC A continuación, selecciona Crear subred y sigue las instrucciones para crear un subconjunto en tu. VPC Asegúrese de seleccionar el VPC ID que envió a Snowflake.

  9. En Configuración del grupo de seguridad, seleccione Crear un nuevo grupo de seguridad para abrir la pantalla del Grupo de seguridad predeterminado en una pestaña nueva. En esta nueva pestaña, seleccione Crear grupo de seguridad.

  10. Escriba un nombre y una descripción para el nuevo grupo de seguridad (como datawrangler-doc-snowflake-privatelink-connection). Asegúrese de seleccionar el VPC ID que utilizó en los pasos anteriores.

  11. Agregue dos reglas para permitir el tráfico desde su interior VPC hasta este VPC punto final.

    Dirígete a la VPC sección Tu VPCs en una pestaña separada y recupera tu CIDR bloqueo para tiVPC. Elija Agregar regla en la sección Reglas de entrada. Seleccione HTTPS para el tipo, deje el Origen como Personalizado en el formulario y pegue el valor recuperado de la llamada describe-vpcs anterior (como 10.0.0.0/16).

  12. Elija Crear grupo de seguridad. Recupere el ID del grupo de seguridad del grupo de seguridad recién creado (como sg-xxxxxxxxxxxxxxxxx).

  13. En la pantalla de configuración del VPCpunto final, elimine el grupo de seguridad predeterminado. Pegue el ID del grupo de seguridad en el campo de búsqueda y seleccione la casilla de verificación.

    La sección Grupo de seguridad de la consola.
  14. Seleccione Crear punto de conexión.

  15. Si la creación del punto final se ha realizado correctamente, verá una página con un enlace a la configuración del VPC punto final, especificado mediante el VPC ID. Seleccione el enlace para ver la configuración completa.

    La sección de detalles del punto final.

    Recupera el registro más alto de la lista de DNS nombres. Se puede diferenciar de otros DNS nombres porque solo incluye el nombre de la región (por ejemplous-west-2) y no incluye ninguna notación con las letras de la zona de disponibilidad (por ejemplous-west-2a). Guarde esta información para utilizarla más adelante.

En esta sección se explica cómo configurar los puntos finales de DNS Snowflake en su. VPC Esto le permite resolver VPC las solicitudes al punto final de Snowflake. AWS PrivateLink

  1. Navegue hasta el menú Route 53 de AWS la consola.

  2. Seleccione la opción Zonas alojadas (si es necesario, expanda el menú de la izquierda para encontrar esta opción).

  3. Elija Create Hosted Zone (Crear zona alojada).

    1. En el campo Nombre de dominio, haga referencia al valor que se almacenó para privatelink-account-url en los pasos anteriores. En este campo, el ID de su cuenta de Snowflake se elimina del DNS nombre y solo usa el valor que comienza por el identificador de región. Más adelante, también se crea un Conjunto de registros de recursos para el subdominio, por ejemplo, region.privatelink.snowflakecomputing.com.

    2. Seleccione el botón de opción correspondiente a la Zona alojada privada en la sección Tipo. Es posible que el código de región no sea us-west-2. Haz referencia al DNS nombre que te devolvió Snowflake.

      La página Crear zona alojada de la consola.
    3. En la sección VPCsPara asociarse a la zona alojada, selecciona la región en la que VPC se encuentra y el VPC ID utilizado en los pasos anteriores.

      La sección VPCspara asociarla a la zona alojada de la consola.
    4. Elija Crear zona alojada.

  4. A continuación, cree dos registros, uno para privatelink-account-url y otro para privatelink_ocsp-url.

    • En el menú Zona alojada, elija Crear un conjunto de registros.

      1. En Nombre del registro, ingrese únicamente su ID de cuenta de Snowflake (los primeros 8 caracteres en privatelink-account-url).

      2. En Tipo de registro, seleccione CNAME.

      3. En Valor, introduzca el DNS nombre del VPC punto final regional que ha recuperado en el último paso de la sección Configurar la AWS PrivateLink integración de Snowflake.

        La sección de creación rápida de registros de la consola.
      4. Elija Crear registros.

      5. Repita los pasos anteriores para el OCSP registro con el que hicimos la anotaciónprivatelink-ocsp-url, empezando ocsp por el identificador de 8 caracteres de Snowflake para el nombre del registro (por ejemplo). ocsp.xxxxxxxx

        La sección de creación rápida de registros de la consola.

En esta sección se explica cómo configurar los puntos finales de entrada de los resolvers Route 53 para su. VPC

  1. Navegue hasta el menú Route 53 de AWS la consola.

    • En el panel izquierdo de la sección Seguridad, seleccione la opción Grupos de seguridad.

  2. Elija Crear grupo de seguridad.

    • Escriba un nombre y una descripción para el grupo de seguridad (como datawranger-doc-route53-resolver-sg).

    • Selecciona el VPC ID utilizado en los pasos anteriores.

    • Crea reglas que permitan DNS ir UDP y TCP venir del VPC CIDR bloque.

      La sección de reglas entrantes de la consola.
    • Elija Crear grupo de seguridad. Anote el ID del grupo de seguridad porque agrega una regla para permitir el tráfico al grupo de seguridad del VPC punto final.

  3. Navegue hasta el menú Route 53 de AWS la consola.

    • En la sección Solucionador, seleccione la opción Punto de conexión de entrada.

  4. Elija Crear un punto de conexión de entrada.

    • Proporcione un nombre para el punto de conexión.

    • VPCEn la lista desplegable de la región, selecciona el VPC ID que has utilizado en todos los pasos anteriores.

    • En la lista desplegable Grupo de seguridad para este punto de conexión, seleccione el ID del grupo de seguridad del paso 2 de esta sección.

      La sección Configuración general del punto final entrante de la consola.
    • En la sección Dirección IP, seleccione una zona de disponibilidad, seleccione una subred y deje el selector de opción de Usar una dirección IP seleccionada automáticamente para cada dirección IP.

      La sección de direcciones IP de la consola.
    • Elija Enviar.

  5. Seleccione el Punto de conexión de entrada después de haberlo creado.

  6. Una vez creado el punto de conexión de entrada, tome nota de las dos direcciones IP de los solucionadores.

    La sección de direcciones IP de la consola.
SageMaker VPCPuntos finales

En esta sección se explica cómo crear VPC puntos de enlace para lo siguiente: Amazon SageMaker Studio Classic, SageMaker Notebooks SageMaker API, SageMaker Runtime Runtime y Amazon SageMaker Feature Store Runtime.

Creación de un grupo de seguridad que se aplique a todos los puntos de conexión

  1. Navegue hasta el EC2menú de la AWS consola.

  2. En la sección Red y seguridad, seleccione la opción Grupos de seguridad.

  3. Elija Crear grupo de seguridad.

  4. Proporcione un nombre y una descripción para el grupo de seguridad (como datawrangler-doc-sagemaker-vpce-sg). Más adelante se añadirá una regla para permitir que el tráfico se HTTPS SageMaker desvíe de este grupo.

Creación de los puntos de conexión

  1. Navegue hasta el VPCmenú de la AWS consola.

  2. Seleccione la opción Puntos de conexión.

  3. Seleccione Crear punto de conexión.

  4. Para buscar el servicio, introduzca el nombre en el campo Buscar.

  5. En la lista VPCdesplegable, seleccione el lugar VPC en el que existe su conexión con Snowflake AWS PrivateLink .

  6. En la sección Subredes, seleccione las subredes que tienen acceso a la conexión de Snowflake. PrivateLink

  7. Deje seleccionada la casilla Habilitar nombre. DNS

  8. En la sección Grupos de seguridad, seleccione el grupo de seguridad que creó en la sección anterior.

  9. Seleccione Crear punto de conexión.

Configura Studio Classic y Data Wrangler

En esta sección se explica cómo configurar Studio Classic y Data Wrangler.

  1. Configure el grupo de seguridad.

    1. Navega hasta el EC2 menú de Amazon en la AWS consola.

    2. Seleccione la opción Grupos de seguridad en la sección Red y seguridad.

    3. Elija Crear grupo de seguridad.

    4. Proporcione un nombre y una descripción para el grupo de seguridad (como datawrangler-doc-sagemaker-studio).

    5. Cree las siguientes reglas de entrada.

      • La HTTPS conexión al grupo de seguridad que aprovisionó para la PrivateLink conexión con Snowflake que creó en el paso Configurar la integración con PrivateLink Snowflake.

      • La HTTP conexión al grupo de seguridad que aprovisionó para la conexión con Snowflake que creó en el paso Configurar la PrivateLink integración con Snowflake. PrivateLink

      • El UDP grupo de seguridad TCP de punto final entrante de Route 53 Resolver DNS (puerto 53) que creó en el paso 2 de Configurar el punto final entrante de Route 53 Resolver para su. VPC

    6. Elija el botón Crear grupo de seguridad en la esquina inferior derecha.

  2. Configure Studio Classic.

    • Navegue hasta el SageMaker menú de la AWS consola.

    • En la consola de la izquierda, selecciona la opción SageMakerStudio Classic.

    • Si no tiene ningún dominio configurado, aparecerá el menú Introducción.

    • Seleccione la opción Configuración estándar en el menú Introducción.

    • En Método de autenticación, seleccione AWS Identity and Access Management (IAM).

    • En el menú Permisos, puede crear un rol nuevo o usar un rol que ya exista, según su caso de uso.

      • Si elige Crear un nuevo rol, tendrá la opción de proporcionar un nombre de bucket de S3 y se generará una política en su nombre.

      • Si ya ha creado un rol con permisos para los buckets de S3 a los que necesita acceso, seleccione el rol en la lista desplegable. Este rol debe tener asociada la política de AmazonSageMakerFullAccess.

    • Seleccione la lista desplegable Red y almacenamiento para configurar los usosVPC, la seguridad y las subredes SageMaker.

      • En VPC, seleccione el lugar VPC en el que existe su conexión a Snowflake PrivateLink .

      • En Subredes, seleccione las subredes que tienen acceso a la conexión de Snowflake. PrivateLink

      • En Acceso a la red para Studio Classic, seleccione Solo. VPC

      • En Grupos de seguridad, seleccione el grupo de seguridad que creó en el paso 1.

    • Elija Enviar.

  3. Edite el grupo SageMaker de seguridad.

    • Cree las siguientes reglas de entrada:

      • Puerto 2049 para los grupos de NFS seguridad entrantes y salientes creados automáticamente SageMaker en el paso 2 (los nombres de los grupos de seguridad contienen el ID de dominio de Studio Classic).

      • Acceso a todos los TCP puertos consigo mismo (necesario solo SageMaker paraVPC).

  4. Edite los grupos de seguridad de VPC terminales:

    • Navega hasta el EC2 menú de Amazon en la AWS consola.

    • Busque el grupo de seguridad que ha creado en un paso anterior.

    • Agregue una regla de entrada que permita el HTTPS tráfico del grupo de seguridad creado en el paso 1.

  5. Cree un perfil de usuario.

    • En el panel de control de SageMaker Studio Classic, seleccione Añadir usuario.

    • Proporcione un nombre de usuario.

    • En Rol de ejecución, elija crear un nuevo rol o utilizar uno que ya exista.

      • Si elige Crear un nuevo rol, tendrá la opción de proporcionar un nombre de bucket de Amazon S3 y se generará una política en su nombre.

      • Si ya ha creado un rol con permisos para los buckets de Amazon S3 a los que necesita acceso, seleccione el rol en la lista desplegable. Este rol debe tener asociada la política de AmazonSageMakerFullAccess.

    • Elija Enviar.

  6. Cree un flujo de datos (siga la guía para científicos de datos descrita en la sección anterior).

    • Al añadir una conexión con Snowflake, introduzca el valor de privatelink-account-name (del paso de configuración de la PrivateLink integración con Snowflake) en el campo del nombre de la cuenta de Snowflake (alfanumérico), en lugar del nombre simple de la cuenta de Snowflake. Todo lo demás permanece inalterado.

Proporcionar información al científico de datos

Proporcione al científico de datos la información que necesita para acceder a Snowflake desde Amazon SageMaker Data Wrangler.

importante

Sus usuarios deben ejecutar Amazon SageMaker Studio Classic, versión 1.3.0 o posterior. Para obtener información sobre cómo comprobar la versión de Studio Classic y actualizarla, consultePrepare datos de aprendizaje automático con Amazon SageMaker Data Wrangler.

  1. Para que su científico de datos pueda acceder a Snowflake desde SageMaker Data Wrangler, bríndele una de las siguientes opciones:

    • Para la autenticación básica, un nombre de cuenta, un nombre de usuario y una contraseña de Snowflake.

    • ParaOAuth, un nombre de usuario y una contraseña en el proveedor de identidad.

    • ParaARN, el nombre secreto de Amazon Resource Name (ARN) de Secrets Manager.

    • Un secreto creado con AWS Secrets Manager y el ARN del secreto. Utilice el siguiente procedimiento para crear el secreto de Snowflake si elige esta opción.

      importante

      Si los científicos de datos utilizan la opción Credenciales de Snowflake (nombre de usuario y contraseña) para conectarse a Snowflake, puede usar Secrets Manager para almacenar las credenciales en un secreto. Secrets Manager rota los secretos como parte de un plan de seguridad de prácticas recomendadas. Solo se puede acceder al secreto creado en Secrets Manager con el rol de Studio Classic configurado al configurar un perfil de usuario de Studio Classic. Esto requiere que añada este permiso,secretsmanager:PutResourcePolicy, a la política asociada a su rol de Studio Classic.

      Le recomendamos encarecidamente que modifique la política de roles para usar diferentes roles para diferentes grupos de usuarios de Studio Classic. Puede agregar permisos adicionales basados en recursos para los secretos de Secrets Manager. Consulte Manage Secret Policy para ver las claves de condición que puede usar.

      Para obtener información acerca de cómo crear un secreto, consulte Creación de un secreto. Se le cobrará por los secretos que cree.

  2. De forma opcional, puede proporcionar al científico de datos el nombre de la integración de almacenamiento que creó mediante el siguiente procedimiento: Create a Cloud Storage Integration in Snowflake. Este es el nombre de la nueva integración y se invoca integration_name en el CREATE INTEGRATION SQL comando que ejecutaste, que se muestra en el siguiente fragmento:

    CREATE STORAGE INTEGRATION integration_name TYPE = EXTERNAL_STAGE STORAGE_PROVIDER = S3 ENABLED = TRUE STORAGE_AWS_ROLE_ARN = 'iam_role' [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ] STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]

Guía para científicos de datos

Utilice lo siguiente para conectarse a Snowflake y acceder a sus datos en Data Wrangler.

importante

Su administrador tiene que usar la información de las secciones anteriores para configurar Snowflake. Si tiene problemas, póngase en contacto con ellos para obtener ayuda con la solución de problemas.

Puede conectarse a Snowflake de una de las siguientes formas:

  • Especifique sus credenciales de Snowflake (nombre de cuenta, nombre de usuario y contraseña) en Data Wrangler.

  • Proporcionar un nombre de recurso de Amazon (ARN) de un secreto que contenga las credenciales.

  • Utilizar un proveedor de delegación de acceso (OAuth) estándar abierto que se conecte a Snowflake. El administrador puede darle acceso a uno de los siguientes proveedores: OAuth

Hable con su administrador sobre el método que debe utilizar para conectarse a Snowflake.

En las siguientes secciones se proporciona información acerca de la conexión a Snowflake mediante los métodos anteriores.

Specifying your Snowflake Credentials
Para importar un conjunto de datos a Data Wrangler desde Snowflake con sus credenciales
  1. Inicia sesión en Amazon SageMaker Console.

  2. Elija Studio.

  3. Elija Lanzar aplicación.

  4. En la lista desplegable, seleccione Studio.

  5. Elija el icono Inicio.

  6. Elija Datos.

  7. Elija Data Wrangler.

  8. Elija Importar datos.

  9. En Disponible, seleccione Snowflake.

  10. En Nombre de la conexión, especifique un nombre que identifique la conexión de forma exclusiva.

  11. En Método de autenticación, elija Nombre de usuario y contraseña básicos.

  12. En Nombre de la cuenta de Snowflake (alfanumérico), especifique el nombre completo de la cuenta de Snowflake.

  13. En Nombre de usuario, especifique el nombre de usuario que utiliza para acceder a la cuenta de Snowflake.

  14. En Contraseña, especifique la contraseña asociada con la cuenta de usuario.

  15. De forma opcional, en Configuración avanzada, especifique lo siguiente:

    • Rol: un rol de Snowflake. Algunos roles tienen acceso a diferentes conjuntos de datos. Si no especifica un rol, Data Wrangler utiliza el rol predeterminado de su cuenta de Snowflake.

    • Integración de almacenamiento: si especifica y ejecuta una consulta, Data Wrangler crea una copia temporal de los resultados de la consulta en la memoria. Para almacenar una copia permanente de los resultados de la consulta, especifique la ubicación de Amazon S3 para la integración de almacenamiento. El administrador te ha proporcionado el S3URI.

    • KMSID de clave: una KMS clave que ha creado. Puede especificarla ARN para cifrar el resultado de la consulta de Snowflake. De no ser así, Data Wrangler utiliza el cifrado predeterminado.

  16. Elija Conectar.

Providing an Amazon Resource Name (ARN)
Para importar un conjunto de datos a Data Wrangler desde Snowflake mediante un ARN
  1. Inicia sesión en Amazon SageMaker Console.

  2. Elija Studio.

  3. Elija Lanzar aplicación.

  4. En la lista desplegable, seleccione Studio.

  5. Elija el icono Inicio.

  6. Elija Datos.

  7. Elija Data Wrangler.

  8. Elija Importar datos.

  9. En Disponible, seleccione Snowflake.

  10. En Nombre de la conexión, especifique un nombre que identifique la conexión de forma exclusiva.

  11. Para el método de autenticación, elige ARN.

  12. Secrets Manager ARN: ARN el AWS Secrets Manager secreto utilizado para almacenar las credenciales utilizadas para conectarse a Snowflake.

  13. De forma opcional, en Configuración avanzada, especifique lo siguiente:

    • Rol: un rol de Snowflake. Algunos roles tienen acceso a diferentes conjuntos de datos. Si no especifica un rol, Data Wrangler utiliza el rol predeterminado de su cuenta de Snowflake.

    • Integración de almacenamiento: si especifica y ejecuta una consulta, Data Wrangler crea una copia temporal de los resultados de la consulta en la memoria. Para almacenar una copia permanente de los resultados de la consulta, especifique la ubicación de Amazon S3 para la integración de almacenamiento. Su administrador le proporcionó el S3. URI

    • KMSID de clave: una KMS clave que ha creado. Puede especificarla ARN para cifrar el resultado de la consulta de Snowflake. De no ser así, Data Wrangler utiliza el cifrado predeterminado.

  14. Elija Conectar.

Using an OAuth Connection
importante

El administrador ha personalizado el entorno de Studio Classic para proporcionar la funcionalidad que se utiliza para utilizar una conexión. OAuth Puede que tenga que reiniciar la aplicación del servidor de Jupyter para utilizar la funcionalidad.

Utilice el siguiente procedimiento para actualizar la aplicación del servidor de Jupyter.

  1. En Studio Classic, selecciona Archivo

  2. Elija Apagar.

  3. Elija Apagar el servidor.

  4. Cierre la pestaña o ventana que esté utilizando para acceder a Studio Classic.

  5. Desde la SageMaker consola de Amazon, abre Studio Classic.

Para importar un conjunto de datos a Data Wrangler desde Snowflake con sus credenciales
  1. Inicia sesión en Amazon SageMaker Console.

  2. Elija Studio.

  3. Elija Lanzar aplicación.

  4. En la lista desplegable, seleccione Studio.

  5. Elija el icono Inicio.

  6. Elija Datos.

  7. Elija Data Wrangler.

  8. Elija Importar datos.

  9. En Disponible, seleccione Snowflake.

  10. En Nombre de la conexión, especifique un nombre que identifique la conexión de forma exclusiva.

  11. Para el método de autenticación, elige OAuth.

  12. De forma opcional, en Configuración avanzada, especifique lo siguiente:

    • Rol: un rol de Snowflake. Algunos roles tienen acceso a diferentes conjuntos de datos. Si no especifica un rol, Data Wrangler utiliza el rol predeterminado de su cuenta de Snowflake.

    • Integración de almacenamiento: si especifica y ejecuta una consulta, Data Wrangler crea una copia temporal de los resultados de la consulta en la memoria. Para almacenar una copia permanente de los resultados de la consulta, especifique la ubicación de Amazon S3 para la integración de almacenamiento. El administrador le proporcionó el S3URI.

    • KMSID de clave: una KMS clave que ha creado. Puede especificarla ARN para cifrar el resultado de la consulta de Snowflake. De no ser así, Data Wrangler utiliza el cifrado predeterminado.

  13. Elija Conectar.

Puede iniciar el proceso de importación de los datos desde Snowflake una vez que se haya conectado.

En Data Wrangler, puede ver sus almacenamientos de datos, bases de datos y esquemas, junto con el icono en forma de ojo con el que puede obtener una vista previa de la tabla. Tras seleccionar el icono de Vista previa de la tabla, se genera la vista previa del esquema de esa tabla. Tiene que seleccionar un almacén para poder previsualizar una tabla.

importante

Si va a importar un conjunto de datos con columnas del tipo TIMESTAMP_TZ o TIMESTAMP_LTZ, agregue ::string a los nombres de las columnas de su consulta. Para obtener más información, consulte Cómo descargar LTZ datos TIMESTAMP _TZ y TIMESTAMP _ a un archivo Parquet.

Tras seleccionar un almacenamiento de datos, una base de datos y un esquema, ya puede escribir consultas y ejecutarlas. El resultado de la consulta se muestra en Resultados de la consulta.

Una vez que haya establecido el resultado de la consulta, puede importarlo a un flujo de Data Wrangler para realizar transformaciones de datos.

Después de importar los datos, vaya al flujo de Data Wrangler y comience a agregar transformaciones. Para ver la lista de transformaciones disponibles, consulte Datos de transformación.

Importación de datos de plataformas de software como servicio (SaaS)

Puede utilizar Data Wrangler para importar datos de más de cuarenta plataformas de software como servicio (SaaS). Para importar los datos de su plataforma SaaS, usted o su administrador deben utilizar Amazon AppFlow para transferir los datos de la plataforma a Amazon S3 o Amazon Redshift. Para obtener más información sobre Amazon AppFlow, consulta ¿Qué es Amazon AppFlow? Si no necesita usar Amazon Redshift, se recomienda transferir los datos a Amazon S3 para simplificar el proceso.

Data Wrangler admite la transferencia de datos desde las siguientes plataformas SaaS:

La lista anterior contiene enlaces a más información sobre la configuración del origen de datos. Usted o su administrador pueden consultar los enlaces anteriores después de leer la siguiente información.

Cuando vaya a la pestaña Importación de su flujo de Data Wrangler, verá los orígenes de datos en las siguientes secciones:

  • Disponible

  • Configurar orígenes de datos

Puede conectarse a los orígenes de datos en Disponible sin necesidad de una configuración adicional. Puede elegir el origen de datos e importar los datos.

Fuentes de datos en Configurar fuentes de datos, requiere que usted o su administrador utilicen Amazon AppFlow para transferir los datos de la plataforma SaaS a Amazon S3 o Amazon Redshift. Para obtener información sobre cómo realizar una transferencia, consulte Cómo usar Amazon AppFlow para transferir tus datos.

Tras realizar la transferencia de datos, la plataforma SaaS aparece como origen de datos en Disponible. Puede elegirla e importar los datos que ha transferido a Data Wrangler. Los datos que ha transferido aparecen en forma de tablas que puede consultar.

Cómo usar Amazon AppFlow para transferir tus datos

Amazon AppFlow es una plataforma que puede utilizar para transferir datos desde su plataforma SaaS a Amazon S3 o Amazon Redshift sin tener que escribir ningún código. Para realizar una transferencia de datos, utilice la AWS Management Console.

importante

Tiene que asegurarse de haber configurado los permisos para realizar una transferencia de datos. Para obtener más información, consulte AppFlow Permisos de Amazon.

Una vez que haya agregado los permisos, podrá transferir los datos. En Amazon AppFlow, se crea un flujo para transferir los datos. Un flujo es una serie de configuraciones. Sirve para especificar si va a ejecutar la transferencia de datos de forma programada o si va a particionar los datos en archivos independientes. Una vez configurado el flujo, lo ejecuta para transferir los datos.

Para obtener información sobre cómo crear un flujo, consulta Crear flujos en Amazon AppFlow. Para obtener información sobre cómo ejecutar un flujo, consulta Activar un AppFlow flujo de Amazon.

Una vez transferidos los datos, utilice el siguiente procedimiento para acceder a los datos en Data Wrangler.

importante

Antes de intentar acceder a sus datos, asegúrese de que su IAM función tenga la siguiente política:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "glue:SearchTables", "Resource": [ "arn:aws:glue:*:*:table/*/*", "arn:aws:glue:*:*:database/*", "arn:aws:glue:*:*:catalog" ] } ] }

De forma predeterminada, el IAM rol que utilizas para acceder a Data Wrangler es el. SageMakerExecutionRole Para obtener más información sobre cómo agregar políticas, consulte Agregar permisos de IAM identidad (consola).

Para conectarse a un origen de datos, haga lo siguiente.

  1. Inicia sesión en Amazon SageMaker Console.

  2. Elija Studio.

  3. Elija Lanzar aplicación.

  4. En la lista desplegable, seleccione Studio.

  5. Elija el icono Inicio.

  6. Elija Datos.

  7. Elija Data Wrangler.

  8. Elija Importar datos.

  9. En Disponible, elija el origen de datos.

  10. En el campo Nombre, especifique el nombre de la conexión.

  11. De forma opcional, elija Configuración avanzada.

    1. Elija un Grupo de trabajo.

    2. Si su grupo de trabajo no ha impuesto la ubicación de salida de Amazon S3 o si no utiliza un grupo de trabajo, especifique un valor para la Ubicación de Amazon S3 de los resultados de la consulta.

    3. De forma opcional, para Período de retención de datos, seleccione la casilla de verificación para establecer un período de retención de datos y especifique el número de días que se almacenarán los datos antes de que se eliminen.

    4. (Opcional) De forma predeterminada, Data Wrangler guarda la conexión. Puede optar por quitar la marca de selección de la casilla de verificación y no guardar la conexión.

  12. Elija Conectar.

  13. Especifique una consulta.

    nota

    Para ayudarle a especificar una consulta, puede elegir una tabla en el panel de navegación de la izquierda. Data Wrangler muestra el nombre de la tabla y una vista previa de la misma. Elija el icono situado junto al nombre de la tabla para copiarlo. Puede utilizar el nombre de la tabla en la consulta.

  14. Elija Ejecutar.

  15. Elija Importar consulta.

  16. En Nombre del conjunto de datos, especifique el nombre del conjunto de datos.

  17. Elija Añadir.

Cuando acceda a la pantalla importar datos, verá la conexión que ha creado. Puede usar la conexión para importar más datos.

Almacenamiento de datos importados

importante

Se recomienda encarecidamente seguir las prácticas recomendadas para proteger el bucket de Amazon S3 según las Prácticas recomendadas de seguridad.

Cuando consulta datos de Amazon Athena o Amazon Redshift, el conjunto de datos consultado se almacena automáticamente en Amazon S3. Los datos se almacenan en el depósito de SageMaker S3 predeterminado de la AWS región en la que se utiliza Studio Classic.

Los buckets de S3 predeterminados tienen la siguiente convención de nomenclatura: sagemaker-region-account number. Por ejemplo, si su número de cuenta es 111122223333 y utiliza Studio Classic enus-east-1, los conjuntos de datos importados se almacenan en 111122223333. sagemaker-us-east-1-

Los flujos de Data Wrangler dependen de la ubicación de este conjunto de datos de Amazon S3, por lo que no debe modificar este conjunto de datos en Amazon S3 mientras utilice un flujo dependiente. Si modifica esta ubicación de S3 y desea seguir utilizando su flujo de datos, debe eliminar todos los objetos en trained_parameters en su archivo .flow. Para ello, descargue el archivo.flow de Studio Classic y, para cada instancia, elimine todas las entradas. trained_parameters Cuando haya terminado, trained_parameters debería ser un JSON objeto vacío:

"trained_parameters": {}

Cuando exporta y utiliza su flujo de datos para procesar sus datos, el archivo .flow que exporta hace referencia a este conjunto de datos en Amazon S3. Consulte las siguientes secciones para obtener más información.

Almacenamiento de importación en Amazon Redshift

Data Wrangler almacena los conjuntos de datos que resultan de su consulta en un archivo Parquet en su depósito S3 predeterminado SageMaker .

Este archivo se almacena con el siguiente prefijo (directorio): redshift/uuid/data/, donde uuid es un identificador único que se crea para cada consulta.

Por ejemplo, si su bucket predeterminado essagemaker-us-east-1-111122223333, un único conjunto de datos consultado desde Amazon Redshift se encuentra en s3://-1-111122223333/redshift/ sagemaker-us-eastuuid/data/.

Almacenamiento de importación de Amazon Athena

Cuando consulta una base de datos de Athena e importa un conjunto de datos, Data Wrangler almacena el conjunto de datos, así como un subconjunto de ese conjunto de datos, o archivos vista previa, en Amazon S3.

El conjunto de datos que importe al seleccionar Importar conjunto de datos se almacena en formato Parquet en Amazon S3.

Los archivos de vista previa se escriben en CSV formato al seleccionar Ejecutar en la pantalla de importación de Athena y contienen hasta 100 filas del conjunto de datos consultado.

El conjunto de datos que consulta se encuentra bajo el prefijo (directorio): athena/uuid/data/, donde uuid es un identificador único que se crea para cada consulta.

Por ejemplo, si tu bucket predeterminado essagemaker-us-east-1-111122223333, un único conjunto de datos consultado desde Athena se encuentra en /athena/ s3://sagemaker-us-east-1-111122223333uuid/data/example_dataset.parquet.

El subconjunto del conjunto de datos que se almacena para previsualizar los marcos de datos en Data Wrangler se almacena con el prefijo: athena/.