Cambio | Descripción | Fecha |
---|---|---|
Compatibilidad con 14 nuevos conectores nativos de SaaS para AWS Glue | Se agregaron 14 nuevos conectores nativos de SaaS a AWS Glue. Para obtener más información, consulte Adding an AWS Glue connection. | 30 de enero de 2025 |
Compatibilidad con 16 nuevos conectores nativos de SaaS para AWS Glue | Se agregaron otros 16 conectores nativos de SaaS a AWS Glue. Para obtener más información, consulte Adding an AWS Glue connection. | 17 de diciembre de 2024 |
Generación automática de estadísticas de columnas | Calidad de datos de AWS Glue ahora admite tablas de Amazon SageMaker AI LakeHouse y tablas de Iceberg, Delta y HUDI administradas por AWS Lake Formation en Catálogo de datos y ETL. Para obtener más información, consulte Calidad de datos de AWS Glue. | 6 de diciembre de 2024 |
Compatibilidad con integraciones sin ETL | El conjunto de integraciones sin ETL está totalmente administrado por AWS y minimiza la necesidad de crear canalizaciones de datos de ETL. Para obtener más información, consulte Integraciones sin ETL. | 3 de diciembre de 2024 |
Compatibilidad con conexiones reutilizables | Un nuevo esquema de conexiones de AWS Glue proporciona una forma unificada de administrar las conexiones de datos entre servicios AWS y aplicaciones AWS Glue, como Amazon Athena y Amazon SageMaker Unified Studio. Para obtener más información, consulte Conexión a los datos. | 3 de diciembre de 2024 |
Compatibilidad con la versión 5.0 de AWS Glue. | Se agregó información acerca de la compatibilidad con la versión 5.0 de AWS Glue. Las características incluyen una actualización de Apache Spark a la versión 3.52, una actualización de Java a la versión 17, actualizaciones del formato de tabla abierta, control de acceso detallado y nativo de Spark, la integración de SageMaker Lakehouse y la abstracción de almacenamiento de datos, la compatibilidad con SageMaker Unified Studio y mucho más. Para obtener más información, consulte las Notas de la versión de AWS Glue y Migración de trabajos de AWS Glue a la versión 5.0 de AWS Glue. | 3 de diciembre de 2024 |
Conexión a AWS Glue Data Catalog mediante el punto de conexión REST de Iceberg de AWS Glue | El punto de conexión de REST de Iceberg de AWS Glue admite las operaciones de API indicadas en la especificación REST de Apache Iceberg. Si usa un cliente REST de Iceberg, puede conectar la aplicación que se ejecuta en un motor de análisis al catálogo de REST hospedado en el catálogo de datos. Para obtener más información consulte Acceso al catálogo de datos. | 3 de diciembre de 2024 |
Generación automática de estadísticas de columnas | Genere automáticamente estadísticas de columnas para tablas nuevas de AWS Glue Data Catalog. Para obtener más información, consulte Automatic column statistics generation. | 3 de diciembre de 2024 |
Soporte para actualizaciones de IA generativa para Apache Spark en AWS Glue | La función Actualizaciones de Spark en AWS Glue permite que los ingenieros de datos y desarrolladores actualicen y migren sus trabajos actuales de Spark de AWS Glue a las versiones más recientes de Spark mediante la IA generativa. Para obtener más información, consulte Upgrade analysis with AI. | 22 de noviembre de 2024 |
Soporte para resolución de problemas de IA generativa para Apache Spark en AWS Glue | La resolución de problemas mediante IA generativa para trabajos de Apache Spark en AWS Glue ayuda a los ingenieros y científicos de datos a diagnosticar y solucionar problemas en sus aplicaciones de Spark con facilidad. Para obtener más información, consulte Troubleshooting Spark jobs with AI. | 22 de noviembre de 2024 |
Soporte para que optimizadores de Iceberg accedan a los buckets de Amazon S3 en una VPC | AWS Glue Data Catalog admite los optimizadores de tablas de Iceberg para acceder a los buckets de Amazon S3 desde una nube privada virtual (VPC) específica mediante una conexión de red de AWS Glue. Para obtener más información, consulte Optimización de las tablas de Iceberg. | 20 de noviembre de 2024 |
Soporte para nueve nuevos conectores nativos de SaaS para AWS Glue | Se agregaron otros nueve conectores nativos de SaaS para AWS Glue. Para obtener más información, consulte Adding an AWS Glue connection. | 19 de noviembre de 2024 |
Soporte para diez nuevos conectores nativos de SaaS para AWS Glue | Se agregaron otros diez conectores nativos de SaaS para AWS Glue. Para obtener más información, consulte Adding an AWS Glue connection. | 15 de noviembre de 2024 |
Soporte para la puesta en cola de las ejecuciones de trabajos de AWS Glue ETL | Puede activar la puesta en cola de las ejecuciones de trabajos para ejecutarlas más adelante, cuando no puedan ejecutarse inmediatamente debido a las Service Quotas. Para obtener más información, consulte Configuración de las propiedades de trabajos de Spark en AWS Glue. | 3 de septiembre de 2024 |
Cambios en la política actualizados | Se han documentado los cambios a las políticas AwsGlueSessionUserRestrictedNotebookPolicy y AwsGlueSessionUserRestrictedNotebookServiceRole necesarios para poder admitir tag-on-create para las sesiones con clave de etiqueta de propietario. Para obtener más información, consulte Actualizaciones de AWS Glue a políticas administradas de AWS. | 30 de agosto de 2024 |
La detección de anomalías y las reglas dinámicas ya están disponibles con carácter general | Calidad de datos de AWS Glue utiliza un algoritmo de machine learning para aprender de las tendencias pasadas y, luego, predecir los valores futuros con el fin de detectar anomalías. Las reglas dinámicas le permiten proporcionar umbrales dinámicos. Para obtener más información, consulte Optimización del rendimiento de consultas para las tablas de Iceberg. | 7 de agosto de 2024 |
Cambios en la política actualizados | Se han documentado los cambios a las políticas AwsGlueSessionUserRestrictedPolicy y AwsGlueSessionUserRestrictedServiceRole necesarios para poder admitir tag-on-create para las sesiones con clave de etiqueta de propietario. Para obtener más información, consulte Actualizaciones de AWS Glue a políticas administradas de AWS. | 5 de agosto de 2024 |
La generación de estadísticas de las columnas de las tablas de Iceberg ya está disponible | AWS Glue permite calcular y actualizar el número de valores distintos (number of distinct values, NDV) para cada columna de las tablas de Iceberg. Para obtener más información, consulte Detección de anomalías en Calidad de datos de AWS Glue y Reglas dinámicas. | 9 de julio de 2024 |
Compatibilidad con perfiles de uso de AWS Glue | Los administradores pueden crear perfiles de uso de AWS Glue para varias clases de usuarios dentro de la cuenta, como desarrolladores, evaluadores y equipos de productos. Esta flexibilidad permite a los administradores aplicar diferentes controles de uso y costos para cada clase de usuarios. Para obtener más información, consulte Configuración de perfiles de uso de AWS Glue. | 18 de junio de 2024 |
Compatibilidad con un conector de Salesforce para AWS Glue para Spark | Se agregó información sobre un nuevo conector de AWS Glue para Salesforce. Esta característica le permite usar AWS Glue para Spark y así poder leer y escribir en Salesforce en AWS Glue versión 4.0 y versiones posteriores. Para obtener más información, consulte Conectarse a Salesforce. | 22 de mayo de 2024 |
Integración de datos de Amazon Q en AWS Glue (GA) | La integración de datos de Amazon Q en AWS Glue es una nueva capacidad de IA generativa de AWS Glue que permite a los ingenieros de datos y a los desarrolladores de ETL crear trabajos de integración de datos usando un lenguaje natural. Los ingenieros y desarrolladores pueden pedir a Q que cree trabajos, solucione problemas y responda preguntas sobre AWS Glue y la integración de datos. Para obtener más información, consulte Integración de datos de Amazon Q en AWS Glue. Esta característica incluye una actualización de las políticas de | 30 de abril de 2024 |
Integración de datos de Amazon Q en AWS Glue (vista previa) | La integración de datos de Amazon Q en AWS Glue es una nueva capacidad de IA generativa de AWS Glue que permite a los ingenieros de datos y a los desarrolladores de ETL crear trabajos de integración de datos usando un lenguaje natural. Los ingenieros y desarrolladores pueden pedir a Q que cree trabajos, solucione problemas y responda preguntas sobre AWS Glue y la integración de datos. Para obtener más información, consulte Integración de datos de Amazon Q en AWS Glue. Esta característica incluye una actualización de la política gestionada de | 30 de enero de 2024 |
Actualización de la documentación para la transmisión de AWS Glue | Se agregó un nuevo capítulo con contenido nuevo y reorganizado sobre el streaming de AWS Glue. Dicho contenido describe cómo funciona la transmisión con AWS Glue, las características del procesamiento de datos en tiempo real y cómo supervisar los trabajos de transmisión. Para obtener más información, consulte Transmisión de AWS Glue. | 27 de diciembre de 2023 |
Soporte para el uso de una detección de datos confidenciales detallada | La transformación Detectar datos confidenciales ofrece la capacidad de detectar, enmascarar o eliminar entidades definidas por el usuario o predefinidas por AWS Glue. Las acciones detalladas permiten además aplicar una acción específica por entidad. Para obtener más información, consulte Uso de una detección de datos confidenciales detallada. | 26 de noviembre de 2023 |
Soporte para la monitorización de trabajos con métricas de observabilidad de AWS Glue | Use las métricas de observabilidad de AWS Glue para obtener información sobre lo que ocurre dentro de sus trabajos de AWS Glue for Apache Spark y así mejorar la clasificación y el análisis de los problemas. Para obtener más información, consulte Monitoreo con las métricas de observabilidad de AWS Glue. | 26 de noviembre de 2023 |
Soporte para la detección de anomalías en calidad de los datos de AWS Glue | La detección de anomalías en la calidad de los datos de AWS Glue aplica algoritmos de machine learning (ML) a las estadísticas de datos a lo largo del tiempo para detectar patrones anormales y problemas ocultos de calidad de los datos que son difíciles de detectar con reglas. Para obtener más información, consulte Detección de anomalías de calidad de datos de AWS Glue. | 26 de noviembre de 2023 |
Actualización del comportamiento de registro predeterminado de la interfaz de usuario de Spark | Los trabajos de Spark que generen registros de la interfaz de usuario de Spark ahora se escribirán con un patrón de nombre de archivo diferente, a fin de que sean compatibles con la interfaz de usuario de Spark en la consola de AWS Glue. Esto no modifica el comportamiento de los registros de CloudWatch. Puede volver al comportamiento anterior si actualiza la configuración de su trabajo. Para obtener más información, consulte Monitorización de trabajos mediante la interfaz de usuario web de Apache Spark. | 17 de noviembre de 2023 |
Soporte para nuevas fuentes de datos en AWS Glue para Spark | Las conexiones a Amazon OpenSearch Service, Azure SQL, Azure Cosmos para NoSQL, SAP HANA Teradata Vantage y Vertica ahora se admiten de forma nativa desde AWS Glue. Además, las conexiones a estos orígenes de datos, junto con MongoDB, ahora están disponibles para su uso en el editor visual de AWS Glue Studio. Para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue para Spark, para conocer más sobre el soporte para AWS Glue para Spark, y Añadir una conexión AWS Glue para conocer más sobre su uso en el editor visual de AWS Glue Studio. | 17 de noviembre de 2023 |
Soporte para generar estadísticas de columnas | Puede calcular estadísticas a nivel de columna para tablas AWS Glue Data Catalog en formatos de datos como Parquet, ORC, JSON, ION, CSV y XML sin necesidad de configurar canalizaciones de datos adicionales. Para obtener más información, consulte Trabajar con las estadísticas de las columnas. | 16 de noviembre de 2023 |
Soporte para la compactación de datos para tablas Iceberg | Para mejorar el rendimiento de lectura de los servicios de análisis de AWS, como Amazon Athena, Amazon EMR, y los trabajos de ETL de AWS Glue, el Catálogo de datos proporciona una compactación gestionada (un proceso que compacta objetos pequeños de Amazon S3 para convertirlos en objetos más grandes) para las tablas Iceberg del Catálogo de datos. Para obtener más información, consulte Optimización de las tablas de Iceberg. | 13 de noviembre de 2023 |
Actualizar el comportamiento de espera al ejecutar un trabajo | Las ejecuciones de tareas de intérprete de comandos estándar de Spark y Python ahora pasarán a | 8 de noviembre de 2023 |
Guía del usuario de AWS Glue Studio consolidada en la guía para desarrolladores de AWS Glue | La guía del usuario de AWS Glue Studio se ha trasladado a la guía para desarrolladores para crear una guía de usuario única y unificada para AWS Glue Studio, la consola de AWS Glue y el acceso de AWS Glue Studio mediante programación. | 25 de octubre de 2023 |
Actualización de la política administrada de AWS AWSGlueServiceNotebookRole | Se agregó información sobre una actualización secundaria a la política administrada de AWS AWSGlueServiceNotebookRole. Para obtener más información, consulte Actualizaciones de AWS Glue a las políticas administradas de AWS | 9 de octubre de 2023 |
AWS Glue Studio admite cinco nuevas transformaciones integradas | AWS Glue Studio admite las siguientes cinco transformaciones integradas nuevas: la coincidencia de registros, la eliminación de filas nulas, la columna Parse JSON, la ruta de extracción de JSON y el extractor de expresiones regulares. Para obtener más información, consulte Edición de nodos de transformación de datos administrados por AWS Glue. | 11 de agosto de 2023 |
Actualización a la política administrada de AWS AWSGlueServiceRole | Se agregó información sobre una actualización menor a la política administrada de AWS AWSGlueServiceRole. Para obtener más información, consulte Actualizaciones de AWS Glue a las políticas administradas de AWS. | 4 de agosto de 2023 |
Compatibilidad para el rastreo de tablas de Apache Hudi | Se agregó información sobre cómo usar AWS Glue para rastrear tablas en buckets de Amazon S3 y cómo registrar las tablas de Hudi en AWS Glue Data Catalog. Para obtener más información, consulte ¿Qué almacenes de datos puedo rastrear? y Propiedades del rastreador. | 21 de julio de 2023 |
Actualización a la política AWSGlueConsoleFullAccess administrada por AWS | Se agregó información sobre una actualización menor a la política AWSGlueConsoleFullAccess administrada por AWS. Para obtener más información, consulte Actualizaciones de AWS Glue a las políticas administradas de AWS. | 14 de julio de 2023 |
Compatibilidad para el rastreo de tablas de Apache Iceberg | Se agregó información sobre cómo usar AWS Glue para rastrear tablas de Iceberg en buckets de Amazon S3 y cómo registrar las tablas de Iceberg en AWS Glue Data Catalog. Para obtener más información, consulte ¿Qué almacenes de datos puedo rastrear? y Propiedades del rastreador. | 7 de julio de 2023 |
Compatibilidad para AWS Glue para Ray | Se agregó información sobre AWS Glue para Ray, un nuevo motor que puede respaldar trabajos de AWS Glue. Se reorganizó el contenido existente de AWS Glue con Spark para eliminar la ambigüedad. | 30 de mayo de 2023 |
Compatibilidad para Calidad de datos de AWS Glue (GA) | Calidad de datos de AWS Glue se encuentra disponible para el público en general. AWS Glue lo ayuda a evaluar y supervisar la calidad de los datos. Para obtener información sobre cómo utilizar Calidad de los datos de AWS Glue con el Catálogo de datos, consulte Calidad de datos de AWS Glue. Para obtener más información sobre Calidad de datos de AWS Glue para AWS Glue Studio, consulte Evaluación de la calidad de los datos con AWS Glue Studio. | 24 de mayo de 2023 |
Compatibilidad para tipos de trabajos más grandes para trabajos de Apache Spark | Ya se encuentra disponible la asistencia para los tipos de trabajo de | 8 de mayo de 2023 |
Compatibilidad para crear índices de particiones cuando se rastrean tablas | Se agregó información sobre cómo los rastreadores admiten la creación de índices de partición para las tablas que detecta el rastreador. Para obtener más información, consulte Establecimiento de opciones de configuración de rastreadores. | 24 de abril de 2023 |
Compatibilidad para métricas de uso de recursos | Se agregó información sobre la visualización del uso de recursos del servicio y la configuración de alarmas en Amazon CloudWatch. Para obtener más información, consulte AWS Glue resource monitoring. | 7 de abril de 2023 |
Actualización a la política AWSGlueConsoleFullAccess administrada por AWS | Se agregó información sobre una actualización menor a la política AWSGlueConsoleFullAccess administrada por AWS. Para obtener más información, consulte Actualizaciones de AWS Glue a las políticas administradas de AWS. | 28 de marzo de 2023 |
Se agregó una guía para utilizar AWS Glue con un SDK de AWS con ejemplos | La Guía para desarrolladores de AWS Glue incluye dos secciones nuevas que proporcionan información para utilizar AWS Glue con un SDK de AWS. Para obtener más información, consulte Uso de AWS Glue con un SDK de AWS y Ejemplos de código para AWS Glue con SDK de AWS. | 23 de febrero de 2023 |
Actualización de la documentación para IAM con AWS Glue | Se reorganizó y se agregó información sobre el uso de IAM con AWS Glue. Para obtener más información, consulte Administración de identidad y acceso para AWS Glue. | 15 de febrero de 2023 |
Soporte para la ejecución de trabajos de ETL de streaming en la versión 4.0 de AWS Glue | Se agregó información sobre la compatibilidad para ejecutar trabajos de ETL de streaming en la versión 4.0 de Glue y sobre las nuevas opciones para conectarse a un clúster de Kafka o a un clúster de Amazon Managed Streaming para Apache Kafka y Amazon Kinesis Data Streams. Para obtener más información, consulte Agregar trabajos de ETL de streaming en AWS Glue y Tipos de conexión y opciones para ETL en AWS Glue. | 8 de febrero de 2023 |
Compatibilidad con el rastreo de orígenes de datos de MongoDB Atlas | Se agregó información sobre el uso de AWS Glue para rastrear los orígenes de datos de MongoDB Atlas. Para obtener más información, consulte ¿Qué almacenes de datos puedo rastrear?, Propiedades de conexión de MongoDB y MongoDB Atlas y Utilización de la conexión de MongoDB o MongoDB Atlas. | 6 de febrero de 2023 |
Compatibilidad con el rastreo de tablas de Delta Lake mediante un conector nativo de Delta Lake | Se agregó información sobre el uso de AWS Glue para rastrear tablas de Delta Lake mediante un conector nativo de Delta Lake. Esta característica permite usar motores de consulta de AWS para consultar directamente el registro de transacciones de Delta y usar características como viaje en el tiempo y garantías ACID, y sincronizar los metadatos de Delta Lake de los archivos de transacciones de Amazon S3 con el catálogo de datos para habilitar los permisos de columna en sus consultas en Lake Formation. Para obtener más información, consulte Cómo especificar opciones de configuración para un almacén de datos de Delta Lake y Consulta de tablas de Delta Lake. | 15 de diciembre de 2022 |
Compatibilidad con Calidad de datos de AWS Glue (versión preliminar) | Ya está disponible la compatibilidad con Calidad de datos de AWS Glue (versión preliminar). AWS Glue Calidad de datos ayuda a evaluar y supervisar la calidad de los datos cuando utiliza la versión 3.0 de AWS Glue. Para obtener información sobre cómo utilizar Calidad de los datos de AWS Glue con el Catálogo de datos, consulte Calidad de los datos de AWS Glue (versión preliminar). Para obtener más información sobre Calidad de datos de AWS Glue para AWS Glue Studio, consulte Evaluación de la calidad de los datos con AWS Glue Studio. | 30 de noviembre de 2022 |
Compatibilidad con un nuevo conector de Spark para Amazon Redshift con nuevas características y mejoras de rendimiento | Ya hay compatibilidad con un nuevo conector de Spark para Amazon Redshift con un nuevo controlador de JDBC que se puede utilizar con tareas de ETL de AWS Glue para crear aplicaciones de Apache Spark que lean datos desde Amazon Redshift y escriban en este como parte de las canalizaciones de ingesta y transformación de datos. Para más información, consulte Movimiento de datos desde y hacia Amazon Redshift. | 29 de noviembre de 2022 |
Compatibilidad con la versión 4.0 de AWS Glue. | Se agregó información acerca de la compatibilidad con la versión 4.0 de AWS Glue. Las características incluyen la compatibilidad nativa para marcos de lagos de datos abiertos con Apache Hudi, Delta Lake y Apache Iceberg, y la compatibilidad nativa con el complemento Cloud Shuffle Storage basado en Amazon S3 (un complemento de Apache Spark) para utilizar Amazon S3 para una capacidad de almacenamiento aleatoria y elástica. Para obtener más información, consulte las Notas de la versión de AWS Glue y Migración de trabajos de AWS Glue a la versión 4.0 de AWS Glue. | 28 de noviembre de 2022 |
AWS Glue Studio ahora ofrece transformaciones visuales personalizadas | Las transformaciones visuales personalizadas permiten a los clientes definir, reutilizar y compartir la lógica de ETL específica de la empresa entre sus equipos. Para obtener más información, consulte Custom visual transforms (Transformaciones visuales personalizadas). | 28 de noviembre de 2022 |
Compatibilidad con el uso del rastreador de AWS Glue para publicar metadatos de los almacenes de datos de JDBC | Ya está disponible la compatibilidad con el uso del rastreador de AWS Glue para publicar metadatos, como comentarios y tipos sin procesar, en el catálogo de datos de los almacenes de datos de JDBC. Para más información, consulte Parámetros establecidos en las tablas del Catálogo de datos por el rastreador, Propiedades del rastreador y Estructura JdbcTarget. | 18 de noviembre de 2022 |
Compatibilidad con el rastreo de almacenes de datos de Snowflake | Ahora hay compatibilidad con el uso de AWS Glue para rastrear tablas y vistas de Snowflake y publicar los metadatos en Catálogo de datos como una entrada de tabla. En el caso de las tablas externas de Snowflake en Amazon S3, el rastreador también rastrea la ubicación de Amazon S3 y el tipo de formato de archivo de la tabla externa y los rellena como parámetros de la tabla. Para más información, consulte ¿Qué almacenes de datos puedo rastrear?, Propiedades de las conexiones de AWS Glue y Parámetros establecidos en las tablas del Catálogo de datos por el rastreador. | 18 de noviembre de 2022 |
Compatibilidad con la mejora de la gestión aleatoria de las aplicaciones de Spark | Ya está disponible la compatibilidad con un nuevo complemento de Cloud Shuffle Storage para Apache Spark. Para más información, consulte Complemento de mezclas aleatorias de Spark para AWS Glue con Amazon S3 y Complemento Cloud Shuffle Storage para Apache Spark. | 15 de noviembre de 2022 |
Se agregó soporte para los destinos del catálogo de datos al acelerar el rastreo de las notificaciones de eventos de Amazon S3 | Además del soporte existente para destinos de Amazon S3, ahora se ofrece soporte para acelerar los rastreos de los destinos del catálogo de datos mediante notificaciones de eventos de Amazon S3. Para obtener más información, consulte Aceleración de los rastreadores mediante las notificaciones de eventos de Amazon S3. | 13 de octubre de 2022 |
Posibilidad de especificar el número máximo de tablas que puede crear un rastreador | Ahora es posible especificar el número máximo de tablas que el rastreador tiene permitido crear. Para obtener más información, consulte Cómo especificar el número máximo de tablas que el rastreador tiene permitido crear. | 6 de septiembre de 2022 |
Compatibilidad con Python 3.9 de trabajos de intérprete de comandos de Python en AWS Glue | Ahora hay compatibilidad disponible para ejecutar scripts compatibles con Python 3.9 en trabajos de intérprete de comandos de Python en AWS Glue y por elegir el uso de conjuntos de bibliotecas preempaquetadas. Para obtener más información, consulte Trabajos de trabajos de intérprete de comandos de Python en AWS Glue. | 11 de agosto de 2022 |
Compatibilidad para ejecutar trabajos no urgentes o no sensibles al tiempo de AWS Glue sobre capacidad adicional | Ahora hay compatibilidad disponible para la configuración de ejecuciones de trabajos flexibles para trabajos no urgentes, como trabajos de preproducción, pruebas y cargas de datos únicas. Para obtener más información, consulte Agregar trabajos en AWS Glue. | 9 de agosto de 2022 |
Soporte para un nuevo tipo de proceso de trabajo para el streaming de trabajos | Ya se encuentra disponible el soporte para el tipo de proceso de trabajo | 14 de julio de 2022 |
Soporte para el uso de Kafka SASL en conexiones AWS Glue | Ya se encuentra disponible el soporte para el uso de Kafka SASL en conexiones de AWS Glue. Para obtener más información, consulte Propiedades de conexión de AWS Glue Kafka para autenticación de clientes. | 5 de julio de 2022 |
Compatibilidad con Apache Kafka Connector para esquemas Protobuf | La compatibilidad con Apache Kafka Connector ya está disponible para esquemas Protobuf. Para obtener más información, consulte Registro de esquemas de AWS Glue. | 9 de junio de 2022 |
Compatibilidad con Auto Scaling para trabajos de AWS Glue (disponible de manera general) | Se ha agregado información sobre el uso de escalado automático para trabajos en AWS Glue versión 3.0 para escalar dinámicamente los recursos de computación. Para obtener más información, consulte Uso de Auto Scaling para AWS Glue. | 14 de abril de 2022 |
Actualice la documentación de AWS Glue desarrollando y probando scripts de trabajo de AWS Glue | Información reorganizada y agregada sobre los métodos de desarrollo y pruebas disponibles para AWS Glue, incluidas instrucciones para desarrollar con Docker. Para obtener más información, consulte Desarrollo y pruebas de scripts de trabajo de AWS Glue. | 14 de marzo de 2022 |
Agregado de búferes de protocolo (Protobuf) como formato de datos admitido para un AWS Glue Schema Registry | Se agregó información acerca de Protobuf como formato de datos admitido (además de AVRO y JSON). Para obtener más información, consulte Registro de esquemas de AWS Glue. | 25 de febrero de 2022 |
Compatibilidad con tablas de rastreo de Delta Lake | Se agregó información sobre el uso de AWS Glue para rastrear tablas de Delta Lake. Para obtener más información, consulte Cómo especificar opciones de configuración para un almacén de datos de Delta Lake. | 24 de febrero de 2022 |
Compatibilidad con Información de trabajos de AWS Glue | Información agregada acerca del uso de información de trabajos de AWS Glue para simplificar la depuración y la optimización de los trabajos de AWS Glue. Para obtener más información, consulte Monitorización con información de trabajos de AWS Glue. | 8 de febrero de 2022 |
Compatibilidad para rastrear tablas del Catálogo de datos respaldadas por Amazon S3 mediante un punto de conexión de VPC | Además de los almacenes de datos de Amazon S3, puede configurar las tablas del Catálogo de datos respaldadas por Amazon S3 para acceder a ellas únicamente a través de un entorno de Amazon Virtual Private Cloud (Amazon VPC), con fines de seguridad, auditoría o control. Para obtener más información, consulte Rastreo de un almacén de datos de Amazon S3 o tablas del Catálogo de datos respaldadas por Amazon S3 mediante un punto de conexión de VPC. | 3 de febrero de 2022 |
Compatibilidad con las tablas regidas por Lake Formation | Se ha agregado información acerca de la compatibilidad de AWS Glue con las tablas regidas por Lake Formation, que admiten transacciones ACID, compactación automática de datos y consultas de viaje en el tiempo. Para obtener más información, consulte la API de AWS Glue y la Guía para desarrolladores de AWS Lake Formation. | 30 de noviembre de 2021 |
Nuevas políticas administradas de AWS agregadas para sesiones interactivas y cuadernos | Las nuevas políticas administradas para IAM han proporcionado seguridad mejorada para utilizar AWS Glue con sesiones interactivas y cuadernos. Para obtener más información, consulte Políticas administradas de AWS para AWS Glue. | 30 de noviembre de 2021 |
Glue Schema Registry ahora es compatible con trabajos de streaming | Puede crear trabajos de streaming que tengan acceso a las tablas que forman parte de Glue Schema Registry. Para obtener más información, consulte AWS Glue Schema Registry y Agregado de trabajos de ETL de streaming en AWS Glue. | 15 de noviembre de 2021 |
Compatibilidad con las nuevas características de machine learning | Se ha agregado información sobre las nuevas características de la transformación de machine learning de búsqueda de coincidencias, incluidas la coincidencia progresiva y la puntuación de coincidencias. Para obtener más información, consulte Búsqueda de coincidencias progresivas y Estimación de la calidad de las coincidencias mediante las puntuaciones de confianza de coincidencias. | 31 de octubre de 2021 |
(Versión preliminar privada) Compatibilidad para trabajos flexibles de AWS Glue | Se agregó información sobre la configuración de trabajos Spark de AWS Glue con una clase de ejecución flexible, adecuada para trabajos insensibles al tiempo cuyos tiempos de inicio y finalización pueden variar. Para obtener más información, consulte Agregar trabajos en AWS Glue. | 29 de octubre de 2021 |
Compatibilidad con la aceleración de los rastreadores mediante las notificaciones de eventos de Amazon S3 | Se ha agregado información acerca de cómo acelerar los rastreadores mediante las notificaciones de eventos de Amazon S3. Para obtener más información, consulte Aceleración de los rastreadores mediante las notificaciones de eventos de Amazon S3. | 15 de octubre de 2021 |
Opciones de configuración de seguridad adicionales relacionadas con el control de acceso y las VPC | Se ha agregado información acerca de cómo configurar nuevos permisos de control de acceso en AWS Glue y la configuración de VPC. Para obtener más información, consulte Etiquetas de AWS en AWS Glue, Políticas con base en identidad (políticas de IAM) que controlan la configuración mediante claves de condición o claves de contexto y Configuración de todas las llamadas de AWS para pasar por su VPC. | 13 de octubre de 2021 |
Compatibilidad con las políticas de punto de conexión de VPC | Se ha agregado información acerca de la compatibilidad con las políticas de punto de conexión de Virtual Private Cloud (VPC) en AWS Glue. Para obtener más información, consulte AWS Glue y puntos de conexión de VPC de tipo interfaz (AWS PrivateLink). | 11 de octubre de 2021 |
Glue Studio está disponible en China | Ahora, AWS Glue Studio está disponible en las regiones de China (Pekín) y Ningxia. | 11 de octubre de 2021 |
AWS Glue Studio ofrece creación de cuadernos para editar trabajos interactivos | Los cuadernos le ayudan a escribir y ejecutar código, visualizar los resultados y compartir información. Por lo general, los científicos de datos utilizan cuadernos para experimentos y tareas de exploración de datos. Para obtener más información, consulte Using Notebooks (Uso de cuadernos). | 1 de octubre de 2021 |
Ahora, se encuentra disponible el acceso directo a orígenes de streaming | Al agregar orígenes de datos al trabajo ETL en el editor visual, puede proporcionar información para acceder a la secuencia de datos en lugar de tener que utilizar una base de datos y una tabla del Data Catalog. | 30 de septiembre de 2021 |
Se ha documentado la política de compatibilidad de versiones de AWS Glue | Se ha agregado información acerca de la política de compatibilidad de versiones de AWS Glue y las fases de fin de vida útil para determinadas versiones de AWS Glue. Para obtener más información, consulte Política de compatibilidad de versiones de AWS Glue. | 24 de septiembre de 2021 |
Los conectores personalizados ahora se pueden utilizar con vistas previas de datos | Al editar el nodo de origen de datos mediante un conector personalizado, puede obtener una vista previa del conjunto de datos al elegir la pestaña Vista previa de Dat. Para obtener más información, consulte Conectores personalizados. | 24 de septiembre de 2021 |
Compatibilidad con sesiones interactivas de AWS Glue (versión preliminar privada) | (Versión preliminar privada). Se ha agregado información acerca de la utilización de sesiones interactivas de AWS Glue para ejecutar cargas de trabajo de Spark en la nube desde cualquier cuaderno de Jupyter. Las sesiones interactivas son el método preferido para desarrollar su código de servicio ETL (extracción, transformación y carga) de AWS Glue cuando utiliza AWS Glue 2.0 o posterior. Para obtener más información, consulte Configuración y ejecución de sesiones interactivas de AWS Glue para el cuaderno de Jupyter. | 24 de agosto de 2021 |
Compatibilidad con la creación de flujos de trabajo a partir de esquemas (disponible de manera general) | Se agregó información acerca de la codificación de casos de uso comunes de extracción, transformación y carga (ETL) en proyectos y la creación de flujos de trabajo a partir de proyectos. Permite a los analistas de datos crear y ejecutar con facilidad procesos de ETL complejos. Para obtener más información, consulte Realización de actividades de ETL complejas mediante proyectos y flujos de trabajo en AWS Glue. | 23 de agosto de 2021 |
Compatibilidad con la versión 3.0 de AWS Glue. | Se agregó información acerca del soporte de la versión 3.0 de AWS Glue que admite la actualización del motor Apache Spark 3.0 para ejecutar trabajos de ETL de Apache Spark, y otras optimizaciones y actualizaciones. Para obtener más información, consulte las Notas de la versión de AWS Glue y Migración de trabajos de AWS Glue a la versión 3.0 de AWS Glue. Otras características de esta versión incluyen el administrador de mezclas aleatorias de AWS Glue, un lector CSV vectorizado de SIMD y predicados de particiones de catálogo. Para obtener más información, consulte Administrador de mezclas aleatorias de AWS Glue Spark con Amazon S3, Opciones de formato para las entradas y salidas de ETL en AWS Glue, y Filtrado del lado del servidor mediante predicados de partición de catálogo. | 18 de agosto de 2021 |
AWS GovCloud (US) Region | AWS Glue Studio ahora está disponible en AWS GovCloud (US) Region | 18 de agosto de 2021 |
Creación de intérprete de comandos de Python disponible en AWS Glue Studio | Al crear un nuevo trabajo, ahora puede elegir crear un trabajo de intérprete de comandos de Python. Para obtener más información, consulte Iniciar el proceso de creación de trabajo y Edición de trabajos de intérprete de comandos de Python en AWS Glue Studio. | 13 de agosto de 2021 |
Compatibilidad con el inicio de un flujo de trabajo con un evento de Amazon EventBridge | Se agregó información acerca de cómo AWS Glue puede ser un consumidor de eventos en una arquitectura basada en eventos. Para obtener más información, consulte Inicio de un flujo de trabajo de AWS Glue con un evento de Amazon EventBridge y Visualización de los eventos de EventBridge que iniciaron un flujo de trabajo. | 14 de julio de 2021 |
Adición de JSON como formato de datos compatible para AWS Glue Schema Registry | Se agregó información acerca de JSON como formato de datos soportado (además de AVRO). Para obtener más información, consulte AWS Glue Schema Registry. | 30 de junio de 2021 |
Crear trabajos de streaming de AWS Glue sin una tabla del Catálogo de datos | La función de Python | 15 de junio de 2021 |
Las transformaciones de machine learning de AWS Glue () ahora son compatibles con las claves de AWS Key Management Service | Puede especificar una configuración de seguridad o clave AWS KMS cuando se configuran transformaciones de machine learning de AWS Glue con la consola, la CLI o las API de AWS Glue. Para obtener más información, consulte Uso de cifrado de datos con transformaciones de machine learning y API de machine learning de AWS Glue. | 15 de junio de 2021 |
Actualización a la política AWSGlueConsoleFullAccess administrada por AWS | Se agregó información sobre una actualización menor a la política AWSGlueConsoleFullAccess administrada por AWS. Para obtener más información, consulte Actualizaciones de AWS Glue a las políticas administradas de AWS. | 10 de junio de 2021 |
Visualice el conjunto de datos del trabajo mientras crea y edita trabajos | Puede utilizar la nueva pestaña Previsualización de datos para un nodo en su diagrama de trabajo para ver una muestra de los datos procesados por ese nodo. Para obtener más información, consulte Utilizar previsualizaciones de datos en el editor visual de trabajos. | 7 de junio de 2021 |
Compatibilidad con la especificación de un valor que indique la ubicación de la tabla para la salida del rastreador. | Se agregó información sobre cómo especificar un valor que indica la ubicación de la tabla al configurar la salida del rastreador. Para obtener más información, consulte Cómo especificar la ubicación de la tabla. | 4 de junio de 2021 |
Compatibilidad con el rastreo de una muestra de archivos en un conjunto de datos al rastrear un almacén de datos de Simple Storage Service (Amazon S3) | Se agregó información sobre cómo rastrear una muestra de archivos al rastrear Amazon S3. Para obtener más información, consulte Propiedades del rastreador. | 10 de mayo de 2021 |
Compatibilidad con el escritor de parquet optimizado de AWS Glue | Se agregó información acerca del uso del escritor de parquet optimizado de AWS Glue para DynamicFrames a fin de crear o actualizar tablas con la clasificación | 4 de mayo de 2021 |
Compatibilidad con contraseñas de autenticación de cliente de Kafka | Se agregó información acerca de cómo los trabajos de ETL de streaming en AWS Glue soportan la autenticación de certificados de cliente SSL con los productores de flujos de Apache Kafka. Ahora puede proporcionar un certificado personalizado al definir una conexión de AWS Glue a un clúster de Apache Kafka, que AWS Glue usará al autenticarse con él. Para obtener más información, consulte Propiedades de conexión de AWS Glue y API de conexión. | 28 de abril de 2021 |
Compatibilidad con el consumo de datos de Amazon Kinesis Data Streams en otra cuenta en trabajos de ETL de streaming | Se agregó información sobre cómo crear un trabajo de ETL de streaming para consumir datos de Amazon Kinesis Data Streams en otra cuenta. Para obtener más información, consulte Agregado de trabajos de ETL de streaming en AWS Glue. | 30 de marzo de 2021 |
Transformación SQL disponible | Puede usar un nodo de transformación SQL para escribir su propia transformación en forma de consulta SQL. Para obtener más información, consulte Uso de una consulta SQL para transformar datos. | 23 de marzo de 2021 |
Compatibilidad con la creación de flujos de trabajo a partir de esquemas (versión preliminar pública) | (Previsualización pública) se agregó información acerca de la codificación de casos de uso comunes de extracción, transformación y carga (ETL) en proyectos y, a continuación, creación de flujos de trabajo a partir de proyectos. Permite a los analistas de datos crear y ejecutar con facilidad procesos de ETL complejos. Para obtener más información, consulte Realización de actividades de ETL complejas mediante proyectos y flujos de trabajo en AWS Glue (). | 22 de marzo de 2021 |
Los conectores se pueden utilizar para destinos de datos | Ahora, se soporta el uso de un conector personalizado o AWS Marketplace para su destino de datos. Para obtener más información, consulte Creación de trabajos con conectores personalizados. | 15 de marzo de 2021 |
Compatibilidad con las métricas de importancia de columna para transformaciones de machine learning de AWS Glue | Se agregó información sobre la visualización de métricas de importancia de columna cuando se trabaja con transformaciones de machine learning de AWS Glue. Para obtener más información, consulte Trabajar con transformaciones de machine learning en la consola de AWS Glue | 5 de febrero de 2021 |
La programación de trabajos ya se encuentra disponible en AWS Glue Studio | Puede definir programaciones basadas en tiempo para las ejecuciones de trabajo en AWS Glue Studio. Puede utilizar la consola para crear una programación básica o definir una programación más compleja con la sintaxis cron | 21 de diciembre de 2020 |
Lanzamiento de conectores personalizados de AWS Glue | Los conectores personalizados de AWS Glue le permiten descubrir y suscribirse a conectores en AWS Marketplace. También introdujimos interfaces de tiempo de ejecución de AWS Glue Spark para conectar conectores creados para Apache Spark Datasource, consulta federada de Athena y API de JDBC. Para obtener más información, consulte Uso de conectores y conexiones con AWS Glue Studio. | 21 de diciembre de 2020 |
Compatibilidad con la ejecución de trabajos de ETL de streaming en AWS Glue versión 2.0 | Se agregó información sobre el soporte para la ejecución de trabajos de ETL de streaming en Glue versión 2.0. Para obtener más información, consulte Agregado de trabajos de ETL de streaming en AWS Glue. | 18 de diciembre de 2020 |
Compatibilidad con particiones de cargas de trabajo con ejecución limitada | Se agregó información acerca de habilitar la partición de carga de trabajo para configurar los límites superiores en el tamaño del conjunto de datos o la cantidad de archivos procesados en ejecuciones de trabajos de ETL. Para obtener más información, consulte Partición de carga de trabajo con ejecución limitada. | 23 de noviembre de 2020 |
Compatibilidad con la administración mejorada de particiones | Se agregó información acerca de cómo usar nuevas API para agregar o eliminar un índice de partición a/desde una tabla existente. Para obtener más información, consulte Trabajar con índices de partición. | 23 de noviembre de 2020 |
Compatibilidad con AWS Glue Schema Registry | Se agregó información acerca del uso de AWS Glue Schema Registry para descubrir, controlar y evolucionar los esquemas de forma centralizada. Para obtener más información, consulte Registro de esquemas de AWS Glue. | 19 de noviembre de 2020 |
Compatibilidad con el formato de entrada Grok en trabajos de ETL de streaming | Se agregó información sobre la aplicación de patrones Grok a orígenes de streaming, como archivos de registro. Para obtener más información, consulte Aplicación de patrones Grok a orígenes de streaming. | 17 de noviembre de 2020 |
Compatibilidad con el agregado de etiquetas a flujos de trabajo en la consola de AWS Glue | Se agregó información acerca de cómo agregar etiquetas al crear un flujo de trabajo mediante la consola de AWS Glue. Para obtener más información, consulte Creación y desarrollo de un flujo de trabajo mediante la consola de AWS Glue. | 27 de octubre de 2020 |
Compatibilidad con ejecuciones de rastreadores progresivas | Se agregó información sobre el soporte de ejecuciones de rastreadores progresivos, que rastrean sólo las carpetas de Amazon S3 agregadas desde la última ejecución. Para obtener más información, consulte Rastreos progresivos. | 21 de octubre de 2020 |
Compatibilidad con la detección de esquemas para orígenes de datos de ETL de streaming. Compatibilidad con orígenes de datos de ETL de streaming de Avro y Kafka autoadministrado | Los trabajos de extracción, transformación y carga (ETL) de streaming en AWS Glue ahora pueden detectar automáticamente el esquema de los registros entrantes y controlar los cambios de esquema por registro. Ahora se soportan orígenes de datos Kafka autoadministrados. Los trabajos de ETL de streaming ahora admiten el formato Avro en los orígenes de datos. Para obtener más información, consulte ETL de streaming en AWS Glue, Definición de propiedades de trabajo para un trabajo de ETL de streaming y Notas y restricciones para orígenes de streaming de Avro. | 7 de octubre de 2020 |
Compatibilidad con el rastreo de orígenes de datos de MongoDB y DocumentDB | Se agregó información acerca del soporte para rastrear orígenes de datos de MongoDB y Amazon DocumentDB (con compatibilidad con MongoDB). Para obtener más información, consulte Definición de rastreadores. | 5 de octubre de 2020 |
Compatibilidad con la conformidad con FIPS | Se agregó información acerca de los puntos de enlace de FIPS para clientes que necesitan módulos criptográficos validados según FIPS 140-2 al acceder a los datos mediante AWS Glue. Para obtener más información, consulte Conformidad con FIPS. | 23 de septiembre de 2020 |
AWS Glue Studio proporciona una interfaz visual fácil de usar para crear y monitorear trabajos | Ahora puede usar una interfaz sencilla basada en gráficos para componer trabajos que mueven y transforman datos, y ejecutarlos en AWS Glue. Puede utilizar el panel de ejecución de trabajos en AWS Glue Studio para monitorear la ejecución de ETL y asegurarse de que sus trabajos funcionen de la manera pretendida. Si quiere obtener más información, consulte la Guía del usuario de AWS Glue Studio. | 23 de septiembre de 2020 |
Compatibilidad con la creación de índices de tabla para mejorar el rendimiento de las consultas | Se agregó información sobre la creación de índices de tabla para permitir la recuperación de un subconjunto de particiones de una tabla. Para obtener más información, consulte Trabajar con índices de partición. | 9 de septiembre de 2020 |
Compatibilidad con tiempos de inicio reducidos al ejecutar trabajos de ETL de Apache Spark en AWS Glue versión 2.0. | Se agregó información acerca del soporte para AWS Glue, versión 2.0, que proporciona una infraestructura mejorada para ejecutar trabajos de ETL de Apache Spark con tiempos de inicio reducidos, cambios en el registro y soporte para especificar módulos adicionales de Python al nivel del trabajo. Para obtener más información, consulte Notas de la versión de AWS Glue y Ejecución de trabajos de ETL de Spark con tiempos de inicio reducidos. | 10 de agosto de 2020 |
Compatibilidad con la limitación de la cantidad de ejecuciones concurrentes de un flujo de trabajo. | Se agregó información acerca de cómo limitar la cantidad de ejecuciones concurrentes del flujo de trabajo para un flujo de trabajo determinado. Para obtener más información, consulte Creación y desarrollo de un flujo de trabajo mediante la consola de AWS Glue. | 10 de agosto de 2020 |
Compatibilidad con el rastreo de un almacén de datos de Simple Storage Service (Amazon S3) mediante un punto de conexión de VPC | Se agregó información acerca de la configuración de su almacén de datos de Amazon S3 para el acceso únicamente a través de un entorno de Amazon Virtual Private Cloud (Amazon VPC), con fines de seguridad, auditoría o control. Para obtener más información, consulte Rastreo de un almacén de datos de Amazon S3 mediante un punto de enlace de la VPC. | 7 de agosto de 2020 |
Compatibilidad con la reanudación de ejecuciones de flujos de trabajo | Se agregó información acerca de cómo reanudar las ejecuciones de flujo de trabajo que solo se completaron en forma parcial porque uno o más nodos (trabajos o rastreadores) no se completaron correctamente. Para obtener más información, consulte Reparación y reanudación de una ejecución de flujo de trabajo. | 27 de julio de 2020 |
Compatibilidad con la habilitación de certificados de CA privados en conexiones de Kafka en AWS Glue. | Se agregó información sobre las nuevas opciones de conexión que soportan la habilitación de certificados de CA privados para conexiones Kafka en AWS Glue. Para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue y Parámetros especiales usados por AWS Glue. | 20 de julio de 2020 |
Compatibilidad con la lectura de datos de DynamoDB en otra cuenta | Se agregó información sobre el soporte de AWS Glue para leer datos de la tabla DynamoDB de otra cuenta de AWS. Para obtener más información, consulte Lectura de datos de DynamoDB en otra cuenta. | 17 de julio de 2020 |
Compatibilidad con la conexión de escritura de DynamoDB en AWS Glue versión 1.0 o posterior | Se agregó información acerca del soporte para el escritor de DynamoDB y opciones de conexión nuevas o actualizadas para que DynamoDB lea o escriba. Para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue. | 17 de julio de 2020 |
Compatibilidad con enlaces de recursos y con el control de acceso entre cuentas mediante AWS Glue y Lake Formation | Se agregó contenido sobre los nuevos objetos del Catálogo de datos denominados enlaces de recursos y sobre cómo administrar los recursos compartidos del Catálogo de datos entre cuentas con AWS Glue y AWS Lake Formation. Para obtener más información, consulte Concesión de acceso entre cuentas y Enlaces de recursos de tabla. | 7 de julio de 2020 |
Compatibilidad con el muestreo de registros al rastrear almacenes de datos de DynamoDB | Se agregó información acerca de las nuevas propiedades que puede configurar al rastrear un almacén de datos de DynamoDB. Para obtener más información, consulte Propiedades del rastreador. | 12 de junio de 2020 |
Compatibilidad con la detención de la ejecución de un flujo de trabajo. | Se agregó información sobre cómo detener una ejecución de flujo de trabajo para un flujo de trabajo determinado. Para obtener más información, consulte Detener ejecución de flujo de trabajo. | 14 de mayo de 2020 |
Soporte para trabajos de ETL de Spark Streaming | Se agregó información sobre la creación de trabajos de extracción, transformación y carga (ETL) con origen de datos de streaming. Para obtener más información, consulte Agregado de trabajos de ETL de streaming en AWS Glue. | 27 de abril de 2020 |
Compatibilidad con la creación de tablas, la actualización del esquema y la adición de nuevas particiones en el Catálogo de datos después de ejecutar un trabajo de ETL | Se agregó información acerca de cómo permitir la creación de tablas, la actualización del esquema y la incorporación de nuevas particiones para ver los resultados del trabajo de ETL en el Catálogo de datos. Para obtener más información, consulte Creación de tablas, actualización de esquemas y agregado de nuevas particiones en el Catálogo de datos desde trabajos de ETL de AWS Glue. | 2 de abril de 2020 |
Compatibilidad con la especificación de una versión para el formato de datos de Apache Avro como entrada y salida de ETL en AWS Glue | Se agregó información acerca de cómo especificar una versión para el formato de datos de Apache Avro como una entrada y salida de ETL en AWS Glue. La versión predeterminada es 1.7. Puede utilizar la opción de formato | 31 de marzo de 2020 |
Compatibilidad con el confirmador optimizado para S3 de EMRFS para la escritura de datos de Parquet en Simple Storage Service (Amazon S3) | Se agregó información acerca de cómo establecer un nuevo indicador que habilite el confirmador optimizado para S3 de EMRFR de forma que puedan escribirse datos de Parquet en Amazon S3 al crear o actualizar un trabajo de AWS Glue. Para obtener más información, consulte Parámetros especiales utilizados por AWS Glue. | 30 de marzo de 2020 |
Compatibilidad con las transformaciones de machine learning como recurso administrado por las etiquetas de recursos de AWS | Se agregó información sobre el uso de etiquetas de recursos de AWS para administrar y controlar el acceso a las transformaciones de machine learning en AWS Glue. Puede asignar etiquetas de recursos de AWS a trabajos, desencadenadores, puntos de enlace, rastreadores y transformaciones de machine learning en AWS Glue. Para obtener más información, consulte Etiquetas de AWS en AWS Glue. | 2 de marzo de 2020 |
Compatibilidad con argumentos de trabajo que no se pueden invalidar | Se agregó información acerca del soporte de parámetros especiales de trabajos que no se pueden invalidar en desencadenadores o cuando se ejecuta el trabajo. Para obtener más información, consulte Agregado de trabajos en AWS Glue. | 12 de febrero de 2020 |
Compatibilidad con nuevas transformaciones para trabajar con conjuntos de datos en Simple Storage Service (Amazon S3) | Se agregó información sobre nuevas transformaciones (Merge, Purge y Transition) y exclusiones de clases de almacenamiento de Amazon S3 en aplicaciones de Apache Spark para trabajar con conjuntos de datos de Amazon S3. Para obtener más información sobre el soporte con estas transformaciones en Python, consulte mergeDynamicFrame y Trabajar con conjuntos de datos en Amazon S3. En el caso de Scala, consulte mergeDynamicFrames y las API GlueContext de AWS Glue Scala. | 16 de enero de 2020 |
Compatibilidad con la actualización del Catálogo de datos con información sobre nuevas particiones desde un trabajo de ETL | Se agregó información acerca de cómo codificar un script de extracción, transformación y carga (ETL) para actualizar AWS Glue Data Catalog con información sobre nuevas particiones. Con esta funcionalidad, ya no tendrá que volver a ejecutar el rastreador después de finalizar un trabajo para ver las nuevas particiones. Para obtener más información, consulte Actualización del Catálogo de datos con nuevas particiones. | 15 de enero de 2020 |
Nuevo tutorial: Uso de un cuaderno de IA de SageMaker | Se agregó un tutorial que muestra cómo utilizar un cuaderno de Amazon SageMaker para ayudar a desarrollar sus scripts de machine learning y ETL. Consulte Tutorial: uso de un cuaderno de Amazon SageMaker con su punto de enlace de desarrollo. | 3 de enero de 2020 |
Compatibilidad con la lectura desde MongoDB y Amazon DocumentDB (con compatibilidad con MongoDB) | Se agregó información sobre nuevos tipos de conexión y opciones de conexión para leer y escribir en MongoDB y Amazon DocumentDB (con compatibilidad con MongoDB). Para obtener más información, consulte Tipos y opciones de conexión para ETL en AWS Glue. | 17 de diciembre de 2019 |
Diversas correcciones y aclaraciones | Se han agregado correcciones y aclaraciones en todo el documento. Se han eliminado entradas del capítulo de problemas conocidos. Se han agregado advertencias para indicar que AWS Glue solo soporta claves maestras de cliente (CMK) simétricas al crear configuraciones de seguridad y especificar la configuración de cifrado del Catálogo de datos. Se agregó una nota que indica que AWS Glue no permite escribir en Amazon DynamoDB. | 9 de diciembre de 2019 |
Compatibilidad con controladores JDBC personalizados | Se agregó información sobre la conexión a orígenes de datos y destinos con controladores JDBC que AWS Glue no soporta de forma nativa, como MySQL versión 8 y Oracle Database versión 18. Para obtener más información, consulte Valores ConnectionType de JDBC. | 25 de noviembre de 2019 |
Compatibilidad con la conexión de cuadernos de IA de SageMaker a diferentes puntos de conexión de desarrollo | Se agregó información acerca de cómo conectar un cuaderno de IA de SageMaker a diferentes puntos de conexión de desarrollo. Se han incluido actualizaciones para describir una nueva acción de la consola que permite cambiar a un nuevo punto de conexión de desarrollo y para explicar la nueva política de IAM de IA de SageMaker. Para obtener más información, consulte Trabajo con cuadernos en la consola de AWS Glue y Creación de una política de IAM para los cuadernos de IA de Amazon SageMaker. | 21 de noviembre de 2019 |
Compatibilidad con la versión de AWS Glue en las transformaciones de machine learning | Se agregó información sobre la definición de la versión de AWS Glue en las transformaciones de machine learning para indicar la versión de AWS Glue con la que son compatibles estas transformaciones. Para obtener más información, consulte Trabajar con transformaciones de machine learning en la consola de AWS Glue. | 21 de noviembre de 2019 |
Compatibilidad con el rebobinado de marcadores de trabajos | Se agregó información sobre el rebobinado de los marcadores de trabajo a cualquier ejecución de trabajo anterior reprocesando los datos solo desde la ejecución del trabajo marcado. Se describen dos nuevas subopciones para la opción | 22 de octubre de 2019 |
Compatibilidad con certificados JDBC personalizados para conectarse a un almacén de datos | Se agregó información sobre el soporte de AWS Glue con certificados JDBC personalizados para conexiones SSL que tienen orígenes o destinos de datos de AWS Glue. Para obtener más información, consulte Trabajar con conexiones en la consola de AWS Glue. | 10 de octubre de 2019 |
Compatibilidad con archivos wheel de Python | Se agregó información sobre el soporte de AWS Glue con los archivos wheel (junto con los archivos egg) como dependencias para los trabajos de intérprete de comandos de Python. Para obtener más información, consulte Proporcionar su propia biblioteca de Python. | 26 de septiembre de 2019 |
Compatibilidad con el control de versiones de puntos de conexión de desarrollo en AWS Glue | Se ha agregado información sobre la definición de | 19 de septiembre de 2019 |
Compatibilidad con la supervisión de AWS Glue mediante la interfaz de usuario de Spark | Se ha añadido información sobre el uso de la interfaz de usuario de Apache Spark para monitorizar y depurar trabajos ETL en AWS Glue que se ejecutan en el sistema de trabajos de AWS Glue, así como aplicaciones Spark en puntos de conexión de desarrollo de AWS Glue. Para obtener más información, consulte Monitoreo mediante la interfaz de usuario de AWS Glue Spark. | 19 de septiembre de 2019 |
Se mejoró la compatibilidad con el desarrollo de scripts de ETL locales mediante la biblioteca pública de ETL de AWS Glue | Se ha actualizado el contenido de la biblioteca de ETL de AWS Glue para reflejar que ahora se soporta la versión 1.0 de AWS Glue. Para obtener más información, consulte Desarrollo y prueba de scripts de ETL localmente mediante la biblioteca de ETL de AWS Glue. | 18 de septiembre de 2019 |
Compatibilidad con la exclusión de clases de almacenamiento de Simple Storage Service (Amazon S3) al ejecutar trabajos | Se agregó información sobre la exclusión de clases de almacenamiento de Amazon S3 al ejecutar trabajos de ETL de AWS Glue que leen archivos o particiones desde Amazon S3. Para obtener más información, consulte Exclusión de clases de almacenamiento de Amazon S3. | 29 de agosto de 2019 |
Compatibilidad con el desarrollo de scripts de ETL locales mediante la biblioteca pública de ETL de AWS Glue | Se ha agregado información sobre cómo desarrollar y probar localmente scripts ETL de Python y Scala sin necesidad de una conexión de red. Para obtener más información, consulte Desarrollo y prueba de scripts de ETL localmente mediante la biblioteca de ETL de AWS Glue. | 28 de agosto de 2019 |
Problemas conocidos | Se ha agregado información sobre problemas conocidos en AWS Glue. Para obtener más información, consulte Problemas conocidos de AWS Glue. | 28 de agosto de 2019 |
Compatibilidad con transformaciones de machine learning en AWS Glue | Se ha agregado información sobre las capacidades de machine learning proporcionadas por AWS Glue para crear transformaciones personalizadas. Puede crear estas transformaciones cuando cree un trabajo. Para obtener más información, consulte Transformaciones de machine learning en AWS Glue. | 8 de agosto de 2019 |
Compatibilidad con Amazon Virtual Private Cloud compartida | Se agregó información sobre el soporte de AWS Glue con Amazon Virtual Private Cloud compartida. Para obtener más información, consulte Uso compartido de Amazon VPC. | 6 de agosto de 2019 |
Compatibilidad con el control de versiones en AWS Glue | Se agregó información sobre la definición de | 24 de julio de 2019 |
Compatibilidad con opciones de configuración adicionales para puntos de conexión de desarrollo | Se ha agregado información sobre las opciones de configuración de los puntos de enlace de desarrollo que tienen cargas de trabajo con uso intensivo de memoria. Puede elegir entre dos nuevas configuraciones que ofrecen más memoria por ejecutor. Para obtener más información, consulte Trabajar con puntos de enlace de desarrollo en la consola de AWS Glue. | 24 de julio de 2019 |
Compatibilidad con la realización de actividades de extracción, transferencia y carga (ETL) mediante flujos de trabajo | Se agregó información sobre el uso de un nuevo elemento denominado flujo de trabajo para diseñar una actividad compleja de extracción, transformación y carga (ETL) de varios trabajos que AWS Glue puede ejecutar como entidad única y realizar su seguimiento. Para obtener más información, consulte Realización de actividades de ETL complejas mediante flujos de trabajo en AWS Glue. | 20 de junio de 2019 |
Compatibilidad con Python 3.6 de trabajos de intérprete de comandos de Python | Se ha añadido información sobre la compatibilidad con Python 3.6 en los trabajos de intérprete de comandos de Python. Puede especificar Python 2.7 o Python 3.6 como propiedad de trabajo. Para obtener más información, consulte Agregado de trabajos de intérprete de comandos de Python en AWS Glue. | 5 de junio de 2019 |
Compatibilidad con puntos de conexión de nube virtual privada (VPC) | Se agregó información acerca de cómo conectarse directamente a AWS Glue a través de un punto de enlace de interfaz de la VPC. Cuando se utiliza un punto de enlace de interfaz de la VPC, la comunicación entre la VPC y AWS Glue se realiza en su totalidad y de manera segura dentro de la red de AWS. Para obtener más información, consulte Uso de AWS Glue con puntos de enlace de la VPC. | 4 de junio de 2019 |
Compatibilidad con el registro continuo en tiempo real de los trabajos de AWS Glue. | Se agregó información acerca de cómo habilitar y visualizar registros de trabajo de Apache Spark en tiempo real en CloudWatch, incluidos los registros del controlador, cada uno de los registros de trabajo y una barra de progreso de trabajos de Spark. Para obtener más información, consulte la sección Registro continuo de trabajos de AWS Glue. | 28 de mayo de 2019 |
Compatibilidad con tablas existentes del Catálogo de datos como orígenes de rastreador | Se agregó información acerca de la especificación de una lista de tablas existentes del Catálogo de datos como orígenes del rastreador. Los rastreadores pueden detectar los cambios en los esquemas de tabla, actualizar las definiciones de la tabla y habilitar la opción de registrar nuevas particiones como datos nuevos. Para obtener más información, consulte Propiedades del rastreador. | 10 de mayo de 2019 |
Compatibilidad con opciones de configuración adicionales para trabajos con uso intensivo de memoria | Se ha añadido información sobre las opciones de configuración para los trabajos de Apache Spark con cargas de trabajo con uso intensivo de memoria. Puede elegir entre dos nuevas configuraciones que ofrecen más memoria por ejecutor. Para obtener más información, consulte Agregar trabajos en AWS Glue. | 5 de abril de 2019 |
Compatibilidad con clasificadores personalizados de CSV | Se ha añadido información sobre el uso de un clasificador personalizado de CSV para inferir el esquema de distintos tipos de datos CSV. Para obtener más información, consulte Escritura de clasificadores personalizados. | 26 de marzo de 2019 |
Compatibilidad con las etiquetas de recursos de AWS | Se agregó información acerca del uso de etiquetas de recursos de AWS para facilitar la administración y el control de acceso a los recursos de AWS Glue. Puede asignar etiquetas de recursos de AWS a trabajos, desencadenadores, puntos de enlace y rastreadores de AWS Glue. Para obtener más información, consulte Etiquetas de AWS en AWS Glue. | 20 de marzo de 2019 |
Compatibilidad con el Catálogo de datos para trabajos de Spark SQL | Se agregó información sobre la configuración de los trabajos y los puntos de enlace de desarrollo de AWS Glue para utilizar AWS Glue Data Catalog como un metaalmacén de Apache Hive externo. De este modo, los trabajos y los puntos de enlace de desarrollo pueden ejecutar directamente consultas de Apache Spark SQL en las tablas almacenadas en AWS Glue Data Catalog. Para obtener más información, consulte Soporte de AWS Glue Data Catalog para trabajos de Spark SQL. | 14 de marzo de 2019 |
Compatibilidad con trabajos de intérprete de comandos de Python | Se ha añadido información sobre los trabajos de intérprete de comandos de Python y el nuevo campo Capacidad máxima. Para obtener más información, consulte Agregado de trabajos de intérprete de comandos de Python en AWS Glue. | 18 de enero de 2019 |
Compatibilidad con notificaciones cuando se producen cambios en bases de datos y tablas | Se ha añadido información sobre los eventos que se generan para los cambios en las llamadas a la API de base de datos, tabla y partición. Puede configurar acciones en CloudWatch Events para responder a estos eventos. Para obtener más información, consulte Automatización de AWS Glue con CloudWatch Events. | 16 de enero de 2019 |
Compatibilidad con el cifrado de contraseñas de conexión | Se ha añadido información sobre el cifrado de contraseñas usadas en los objetos de conexión. Para obtener más información, consulte Cifrado de contraseñas de conexión. | 11 de diciembre de 2018 |
Compatibilidad con permisos de nivel de recursos y políticas basadas en recursos | Se ha agregado información sobre el uso de permisos de nivel de recursos y políticas basadas en recursos con AWS Glue. Para obtener más información, consulte los temas de Seguridad en AWS Glue. | 15 de octubre de 2018 |
Compatibilidad con cuadernos de IA de SageMaker | Se agregó información sobre el uso de cuadernos de IA de SageMaker con puntos de conexión de desarrollo de AWS Glue. Para obtener más información, consulte Administración de cuadernos. | 5 de octubre de 2018 |
Compatibilidad con cifrado | Información agregada acerca del uso del cifrado con AWS Glue. Para obtener más información, consulte Cifrado en reposo, Cifrado en tránsito y Configuración del cifrado en AWS Glue. | 24 de agosto de 2018 |
Compatibilidad con métricas de trabajos de Apache Spark | Información agregada acerca del uso de las métricas de Apache Spark para lograr una mejor depuración de los trabajos de ETL y una mejor generación de perfiles en estos. Puede hacer fácilmente un seguimiento de métricas de tiempo de ejecución como, por ejemplo, los bytes leídos y escritos, el uso de la memoria y la carga de la CPU del controlador y los ejecutores, mientras que los datos se mezclan en forma aleatoria entre los ejecutores desde la consola de AWS Glue. Para obtener más información, consulte Monitoreo de AWS Glue con métricas de CloudWatch, Monitoreo y depuración de trabajos, y Uso de trabajos en la consola de AWS Glue. | 13 de julio de 2018 |
Compatibilidad con DynamoDB como origen de datos | Se agregó información acerca de cómo rastrear y usar DynamoDB como origen de datos de los trabajos de ETL. Para obtener más información, consulte el artículo acerca de cómo catalogar tablas con un rastreador y Parámetros de conexión. | 10 de julio de 2018 |
Actualizaciones para crear un procedimiento de servidor de cuadernos | Se ha incluido información actualizada acerca de cómo crear un servidor de cuadernos en una instancia de Amazon EC2 asociada a un punto de enlace de desarrollo. Para obtener más información, consulte Creación de un servidor de cuadernos asociado a un punto de enlace de desarrollo. | 9 de julio de 2018 |
Actualizaciones ahora disponibles sobre RSS | Ahora puede suscribirse a una fuente RSS para recibir notificaciones sobre actualizaciones de la Guía para desarrolladores de AWS Glue. | 25 de junio de 2018 |
Compatibilidad con notificaciones de retraso de trabajos | Se ha agregado información sobre la configuración de un umbral de retraso cuando se ejecuta un flujo de trabajo. Para obtener más información, consulte Agregar trabajos en AWS Glue. | 25 de mayo de 2018 |
Configurar un rastreador para anexar nuevas columnas | Se ha agregado información sobre una nueva opción de configuración para los rastreadores: MergeNewColumns. Para obtener más información, consulte Configuración de un rastreador. | 7 de mayo de 2018 |
Compatibilidad con el tiempo de espera de los trabajos | Información agregada sobre la configuración de un umbral de tiempo de espera cuando se ejecuta un flujo de trabajo. Para obtener más información, consulte Agregar trabajos en AWS Glue. | 10 de abril de 2018 |
Compatibilidad con trabajos de desencadenador y script de ETL de Scala basados en estados de ejecución adicionales | Se ha agregado información sobre el uso de Scala como lenguaje de programación de ETL. Además, la API de disparador admite ahora la activación al cumplirse algunas de las condiciones (además de todas las condiciones). Además, los trabajos se pueden activar según una ejecución de flujo de trabajo "con error" o "detenida" (además de una ejecución de flujo de trabajo "de éxito"). | 12 de enero de 2018 |
Actualizaciones anteriores
En la siguiente tabla, se describen los cambios importantes que se han realizado en cada versión de la Guía para desarrolladores de AWS Glue anteriores a enero de 2018.
Cambio | Descripción | Fecha |
---|---|---|
Admita orígenes de datos XML y una nueva opción de configuración del rastreador | Se ha agregado información acerca de la clasificación de los orígenes de datos XML y la nueva opción del rastreador para los cambios en la partición. | 16 de noviembre de 2017 |
Nuevas transformaciones, soporte para motores de bases de datos de Amazon RDS adicionales y mejoras de punto de enlace de desarrollo | Se agregó información acerca de las transformaciones de mapeo y filtrado, el soporte para Microsoft SQL Server de Amazon RDS y Oracle de Amazon RDS, y nuevas características de los puntos de enlace de desarrollo. | 29 de septiembre de 2017 |
Versión inicial de AWS Glue | Esta es la versión inicial de la Guía para desarrolladores de AWS Glue. | 14 de agosto de 2017 |