La transmisión de AWS Glue, un componente de AWS Glue, le permite gestionar de manera eficiente los datos de transmisión casi en tiempo real, lo que le da la posibilidad de llevar a cabo tareas cruciales como la ingesta de datos, el procesamiento y el machine learning. Mediante el uso del marco de transmisión de Apache Spark, la transmisión de AWS Glue proporciona un servicio sin servidor que puede gestionar datos de transmisión a gran escala. AWS Glue proporciona varias optimizaciones además de Apache Spark, como la infraestructura sin servidor, el escalado automático, el desarrollo visual de los trabajos, los cuadernos instantáneos para los trabajos de transmisión y otras mejoras de rendimiento.
Casos de uso de la transmisión
Algunos casos de uso comunes para la transmisión de AWS Glue son los siguientes:
Procesamiento de datos casi en tiempo real: la transmisión de AWS Glue permite a las organizaciones procesar los datos de transmisión casi en tiempo real, lo que les da la posibilidad de obtener información y tomar decisiones oportunas en función de la información más reciente.
Detección de fraudes: puede usar la transmisión de AWS Glue para analizar en tiempo real los datos de transmisión, lo que lo convierte en una herramienta valiosa para detectar actividades fraudulentas, como el fraude con tarjetas de crédito, la intrusión en la red o las estafas en línea. Al procesar y analizar continuamente los datos entrantes, puede identificar rápidamente patrones o anomalías sospechosos.
Análisis de redes sociales: la transmisión de AWS Glue puede procesar datos de redes sociales en tiempo real, como tuits, publicaciones o comentarios, lo que permite a las organizaciones supervisar las tendencias, analizar las opiniones y gestionar la reputación de la marca en tiempo real.
Análisis del Internet de las cosas (IoT): la transmisión de AWS Glue es adecuado para gestionar y analizar los flujos de datos de alta velocidad que se generan en dispositivos, sensores y maquinaria conectada de IoT. Permite la supervisión en tiempo real, la detección de anomalías, el mantenimiento predictivo y otros casos de uso de análisis de IoT.
Análisis del flujo de clics: la transmisión de AWS Glue puede procesar y analizar los datos del flujo de clics procedentes de sitios web o aplicaciones móviles en tiempo real. Esto permite a las empresas obtener información acerca del comportamiento de los usuarios, personalizar las experiencias de los usuarios y optimizar las campañas de marketing según los datos del flujo de clics en tiempo real.
Supervisión y análisis de registros: la transmisión de AWS Glue puede procesar y analizar de manera continua los datos del registro de servidores, aplicaciones o dispositivos de red en tiempo real. Esto ayuda a detectar anomalías, solucionar problemas y supervisar el estado y el rendimiento del sistema.
Sistemas de recomendación: la transmisión de AWS Glue puede procesar los datos de actividad de los usuarios en tiempo real y actualizar los modelos de recomendación de forma dinámica. Esto permite realizar recomendaciones personalizadas y en tiempo real en función del comportamiento y las preferencias de los usuarios.
Estos son algunos ejemplos de la amplia gama de casos de uso en los que se puede aplicar la transmisión de AWS Glue. Su integración con el ecosistema de AWS y los servicios administrados lo convierten en una opción práctica para el procesamiento y el análisis de flujos en tiempo real en la nube.
¿Cuáles son los beneficios de usar la transmisión de AWS Glue?
Los beneficios de usar la transmisión de AWS Glue son los siguientes:
Trabajo sin servidor: la transmisión de AWS Glue no tiene servidores, lo que elimina la necesidad de administrar la infraestructura. Esto reduce la sobrecarga operativa y permite a los usuarios centrarse en el procesamiento de datos y las tareas de análisis en lugar de la administración de la infraestructura.
Escalado automático: la transmisión de AWS Glue proporciona capacidades de escalado automático, que ajustan dinámicamente la capacidad de procesamiento en función de la carga de trabajo. Se escala o reduce horizontalmente de manera automática para gestionar las fluctuaciones en el volumen de datos, lo que garantiza un rendimiento y un uso de los recursos óptimos.
Desarrollo visual: el desarrollo de trabajos de transmisión puede resultar complejo. La transmisión de AWS Glue aborda este desafío al ofrecer AWS Glue Studio, una herramienta de creación visual. AWS Glue Studio simplifica el proceso de creación de flujos de trabajo de transmisión y permite a los desarrolladores diseñar y gestionar aplicaciones de transmisión de forma visual, lo que reduce la curva de aprendizaje y aumenta la productividad.
Rentabilidad: al ser un servicio sin servidor, la transmisión de AWS Glue ofrece rentabilidad al eliminar la necesidad de aprovisionar y mantener la infraestructura. A los usuarios se les factura en función de los recursos consumidos durante la ejecución de los trabajos de transmisión, lo que permite optimizar los costos y escalarlos en función del uso real.
Gestión de cargas de trabajo complejas: la transmisión de AWS Glue está diseñado para gestionar cargas de trabajo de transmisión complejas. Puede procesar y analizar grandes volúmenes de datos en tiempo real, soportar transformaciones avanzadas e integrarse con otros servicios de AWS, lo que da lugar a canalizaciones de datos de transmisión y flujos de trabajo analíticos sofisticados.
Independencia: la transmisión de AWS Glue proporciona flexibilidad y evita la dependencia de un proveedor. Los usuarios pueden aprovechar la transmisión de AWS Glue como parte de un ecosistema de AWS más amplio, ya que pueden integrarlo con otros servicios de AWS sin problemas. Esto permite una fácil integración con los orígenes de datos, las aplicaciones y los servicios existentes sin estar atados a una tecnología o plataforma específica.
¿Cuándo conviene usar la transmisión de AWS Glue?
Hay muchas opciones en lo que respecta a los casos de uso de la transmisión. Recomendamos el uso de la transmisión de AWS Glue en las siguientes situaciones:
Si ya usa AWS Glue o Spark para el procesamiento por lotes, la transmisión de AWS Glue es la opción ideal para usted. Proporciona una transición perfecta a la creación de trabajos de transmisión sin necesidad de aprender un nuevo lenguaje o marco. Al aprovechar los conocimientos y la infraestructura existentes, la transmisión de AWS Glue simplifica el proceso de desarrollo de trabajos y le permite ampliar fácilmente sus capacidades de procesamiento de datos a escenarios de transmisión en tiempo real.
Si necesita un servicio o producto unificado para gestionar las cargas de trabajo por lotes, de transmisión y basadas en eventos, la transmisión de AWS Glue es la solución para usted. Con la transmisión de AWS Glue, puede consolidar sus necesidades de procesamiento de datos en un único marco, lo que elimina la complejidad de administrar varios sistemas. Esto permite el desarrollo y el mantenimiento eficientes de diversos flujos de trabajo de datos y, al mismo tiempo, garantiza la coherencia y la compatibilidad entre los diferentes tipos de carga de trabajo.
La transmisión de AWS Glue es adecuado para escenarios que implican volúmenes de datos de transmisión extremadamente grandes y transformaciones complejas, como uniones entre flujos o bases de datos relacionales. Puede procesar y analizar flujos de datos masivos de manera eficiente, lo que le permite abordar cargas de trabajo exigentes con facilidad. Tanto si se trata de una ingesta de datos de alta velocidad como de una manipulación de datos compleja, la escalabilidad y las capacidades de procesamiento avanzadas de la transmisión de AWS Glue garantizan un rendimiento óptimo y unos resultados precisos.
Si prefiere un enfoque visual para crear trabajos de transmisión, AWS Glue ofrece AWS Glue Studio, con el que puede diseñar y gestionar visualmente las aplicaciones de transmisión, lo que simplifica el proceso de desarrollo. Esta interfaz intuitiva permite a los desarrolladores crear, configurar y supervisar los flujos de trabajo de transmisión mediante una interfaz visual, lo que reduce la curva de aprendizaje y aumenta la productividad.
La transmisión de AWS Glue es una excelente opción para casos de uso casi en tiempo real en los que existen acuerdos de nivel de servicio (SLA) estrictos que duran más de 10 segundos.
Si desea crear un lago de datos transaccional con Apache Iceberg, Apache Hudi o Delta Lake, la transmisión de AWS Glue ofrece soporte nativo para estos formatos de tabla abiertos. Esta perfecta integración le permite procesar los datos de transmisión directamente desde estos lagos de datos transaccionales, lo que garantiza la coherencia, integridad y compatibilidad de los datos.
Si necesita ingerir datos de transmisión para una variedad de destinos de datos, la transmisión de AWS Glue proporciona destinos nativos a una variedad de destinos de datos como Amazon Redshift, Amazon RDS, Amazon Aurora, Oracle, SQL Server y otros destinos.
Orígenes de datos admitidos
La transmisión de AWS Glue admite los siguientes orígenes de datos:
Amazon Kinesis
Amazon MSK (Managed Streaming para Apache Kafka)
Apache Kafka autoadministrado
Destinos de datos admitidos
La transmisión de AWS Glue admite una variedad de destinos de datos, como los siguientes:
Destinos de datos compatibles con el Catálogo de datos de AWS Glue
Amazon S3
Amazon Redshift
MySQL
PostgreSQL
Oracle
Microsoft SQL Server
Snowflake
Cualquier base de datos a la que se pueda conectar mediante JDBC
Apache Iceberg, Delta y Apache Hudi
Conectores del AWS Glue Marketplace