Trabajos de streaming para procesar datos transmitidos de forma continua - Amazon EMR

Trabajos de streaming para procesar datos transmitidos de forma continua

Un trabajo de streaming en EMR sin servidor es un modo de trabajo que le permite analizar y procesar los datos de streaming casi en tiempo real. Estos trabajos de larga duración recopilan los datos de streaming y procesan continuamente los resultados a medida que llegan los datos. Los trabajos de streaming son los más adecuados para las tareas que requieren un procesamiento de datos en tiempo real, como los análisis casi en tiempo real, la detección de fraudes y los motores de recomendaciones. Los trabajos de streaming de EMR sin servidor proporcionan optimizaciones, como la resiliencia de los trabajos integrada, la monitorización en tiempo real, la administración mejorada de registros y la integración con conectores de streaming.

Estos son algunos casos de uso con trabajos de streaming:

Análisis casi en tiempo real: los trabajos de streaming en Amazon EMR sin servidor le permiten procesar los datos de streaming casi en tiempo real, de modo que puede realizar análisis en tiempo real de flujos de datos continuos, como datos de registros, datos de sensores o flujos de clics para obtener información y tomar decisiones oportunas en función de la información más reciente.
Detección de fraudes: puede utilizar los trabajos de streaming para detectar fraudes casi en tiempo real en transacciones financieras, operaciones con tarjetas de crédito o actividades en línea al analizar los flujos de datos e identificar anomalías y patrones sospechosos a medida que se producen.
Motores de recomendación: los trabajos de streaming pueden procesar los datos de actividad de los usuarios y actualizar los modelos de recomendaciones. Esto abre la posibilidad de realizar recomendaciones personalizadas y en tiempo real en función de los comportamientos y las preferencias.
Análisis de redes sociales: los trabajos de streaming pueden procesar datos de redes sociales en tiempo real, como tuits, publicaciones o comentarios, lo que permite a las organizaciones supervisar las tendencias, analizar las opiniones y gestionar la reputación de la marca en casi tiempo real.
Análisis del Internet de las cosas (IoT): los trabajos de streaming pueden permitir gestionar y analizar los flujos de datos de alta velocidad de maquinaria conectada y dispositivos y sensores del IoT, de modo que usted pueda ejecutar la detección de anomalías, el mantenimiento predictivo y otros casos de uso de análisis del IoT.
Análisis del flujo de clics: los trabajos de streaming pueden procesar y analizar los datos del flujo de clics procedentes de sitios web o aplicaciones móviles. Las empresas que utilizan estos datos pueden realizar análisis para obtener más información sobre el comportamiento de los usuarios, personalizar las experiencias de los usuarios y optimizar las campañas de marketing.
Supervisión y análisis de registros: los trabajos de streaming pueden también procesarlos datos del registro de servidores, aplicaciones o dispositivos de red. Esto le permite detectar anomalías, solucionar problemas y obtener información acerca del estado y el rendimiento del sistema.

Ventajas principales

Los trabajos de streaming en EMR sin servidor proporcionan automáticamente resiliencia al trabajo, siendo una combinación de los siguientes factores:

Reintento automático: EMR sin servidor reintenta automáticamente cualquier trabajo que haya fallado sin ninguna intervención manual por su parte.
Resiliencia de la zona de disponibilidad (AZ): EMR sin servidor cambia automáticamente los trabajos de streaming a una AZ en buen estado si la AZ original tiene problemas.
Administración de registros:
- Rotación de registros: para una administración más eficiente del almacenamiento en disco, EMR sin servidor rota periódicamente los registros para trabajos de streaming prolongados. De este modo, se evita la acumulación de registros que podrían consumir todo el espacio en disco.
- Compactación de registros: le ayuda a administrar y optimizar de manera eficiente los archivos de registro en sistemas de persistencia administrada. La compactación también mejora la experiencia de depuración cuando se utiliza el servidor de historial de Spark administrado.

Fuentes de datos y receptores de datos compatibles

EMR sin servidor funciona con varias fuentes de datos de entrada y receptores de datos de salida:

Fuentes de datos de entrada admitidas: Amazon Kinesis Data Streams, Amazon Managed Streaming para Apache Kafka y los clústeres de Apache Kafka autogestionado. De forma predeterminada, las versiones 7.1.0 y posteriores de Amazon EMR incluyen el conector de Amazon Kinesis Data Streams, por lo que no es necesario crear ni descargar ningún paquete adicional.
Sumideros de datos de salida compatibles: tablas de AWS Glue Data Catalog, Amazon S3, Amazon Redshift, MySQL, PostgreSQL, Oracle, Oracle, Microsoft SQL, Apache Iceberg, Delta Lake y Apache Hudi.

Consideraciones y limitaciones

Cuando utilice los trabajos de streaming, tenga en cuenta las siguientes consideraciones y limitaciones.

Los trabajos de streaming son compatibles con las versiones 7.1.0 y posteriores de Amazon EMR.
EMR sin servidor espera que los trabajos de streaming se ejecuten durante mucho tiempo, por lo que no puede establecer un tiempo de espera de ejecución para limitar el tiempo de ejecución del trabajo.
Los trabajos de streaming solo son compatibles con el motor Spark, que se basa en el marco de streaming estructurado.
EMR sin servidor reintenta los trabajos de streaming de forma indefinida y usted no se puede personalizar el número máximo de intentos. La función de prevención de errores se incluye automáticamente para detener el reintento del trabajo si la cantidad de intentos fallidos ha superado el umbral establecido durante un período de una hora. El umbral predeterminado es de cinco intentos fallidos en una hora. Puede configurar este umbral para que esté entre 1 y 10 intentos. Para obtener más información, consulte Resiliencia al trabajo.
Los trabajos de streaming tienen puntos de comprobación para guardar el estado y el progreso del tiempo de ejecución, por lo que EMR sin servidor puede reanudar el trabajo de streaming desde el último punto de comprobación. Para obtener más información, consulte Recuperación de errores con puntos de comprobación en la documentación de Apache Spark.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de discos optimizados para reproducción aleatoria

Introducción

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Trabajos de streaming para procesar datos transmitidos de forma continua

Consideraciones y limitaciones

¿Le ha servido de ayuda esta página?

Tema siguiente:

Tema anterior:

¿Necesita ayuda?