直播职位 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

直播职位

EMRServerless 中的流式处理作业是一种任务模式,可让您近乎实时地分析和处理流数据。这些长期运行的作业会轮询流数据,并在数据到达时持续处理结果。流媒体作业最适合需要实时数据处理的任务,例如近实时分析、欺诈检测和推荐引擎。EMR无服务器流式处理作业提供优化,例如内置的作业弹性、实时监控、增强的日志管理以及与流媒体连接器的集成。

以下是流媒体作业的一些用例:

  • 近乎实时的分析 — Amazon EMR Serverless 中的流式作业可让您近乎实时地处理流数据,因此您可以对连续的数据流(例如日志数据、传感器数据或点击流数据)进行实时分析,从而根据最新信息得出见解并及时做出决策。

  • 欺诈检测 — 当您分析数据流并识别出现的可疑模式或异常时,您可以使用流式作业在金融交易、信用卡操作或在线活动中进行近乎实时的欺诈检测。

  • 推荐引擎 — 流式作业可以处理用户活动数据并更新推荐模型。这样做可以根据行为和偏好提供个性化和实时的推荐。

  • 社交媒体分析 — 流媒体作业可以处理社交媒体数据,例如推文、评论和帖子,因此组织可以近乎实时地监控趋势、情绪分析和管理品牌声誉。

  • 物联网 (IoT) 分析 — 流式作业可以处理和分析来自物联网设备、传感器和互联机器的高速数据流,因此您可以运行异常检测、预测性维护和其他物联网分析用例。

  • 点击流分析 — 流式作业可以处理和分析来自网站或移动应用程序的点击流数据。使用此类数据的企业可以进行分析,以进一步了解用户行为、个性化用户体验并优化营销活动。

  • 日志监控和分析 — 流式作业还可以处理来自服务器、应用程序和网络设备的日志数据。这为您提供了异常检测、故障排除以及系统运行状况和性能。

主要好处

EMRServerless 中的流式作业会自动提供工作弹性,这是以下因素的组合:

  • 自动重试 — EMR Serverless 会自动重试任何失败的作业,而无需您手动输入。

  • 可用区 (AZ) 弹性 — 如果原始可用区遇到问题,EMRServerless 会自动将流媒体作业切换到健康的可用区。

  • 日志管理:

    • 日志轮换 — 为了更有效地管理磁盘存储,EMRServerless 会定期轮换长时间流式处理作业的日志。这样做可以防止可能占用所有磁盘空间的日志积累。

    • 日志压缩-帮助您在托管持久性中高效管理和优化日志文件。当您使用托管 Spark 历史服务器时,Compaction 还可以改善调试体验。

支持的数据源和数据接收器

EMRServerless 可与许多输入数据源和输出数据接收器配合使用:

  • 支持的输入数据源 — 亚马逊 Kinesis Data Streams、适用于 Apache Kafka 的亚马逊托管流媒体和自我管理的 Apache Kafka 集群。默认情况下,亚马逊 7.1.0 及更高EMR版本包含亚马逊 Kinesis Data Stream s 连接器,因此您无需构建或下载任何其他软件包。

  • 支持的输出数据接收器 — AWS Glue 数据目录表、亚马逊 S3、亚马逊 Redshift、My、Postg SQL re Oracle SQL、甲骨文、微软、Apache Iceberg SQL、Delta Lake 和 Apache Hudi。

注意事项和限制

使用流式传输作业时,请记住以下注意事项和限制。

  • Amazon 7.1.0 及更高EMR版本支持直播作业。

  • EMRServerless 预计流式处理作业会运行很长时间,因此您无法通过设置执行超时来限制作业的运行时间。

  • 流媒体作业仅与 Spark 引擎兼容,后者建立在结构化流媒体框架之上。

  • EMRServerless 会无限期地重试流媒体作业,并且您无法自定义最大尝试次数。如果失败的尝试次数超过了每小时窗口内设置的阈值,则会自动包括Thrash Prevention,以停止作业重试。默认阈值为一小时内五次失败尝试。您可以将此阈值配置为 1 到 10 次尝试之间。有关更多信息,请参阅 Job 弹性。

  • 流式处理作业具有用于保存运行时状态和进度的检查点,因此 EMR Serverless 可以从最新的检查点恢复流式处理作业。有关更多信息,请参阅 Apache Spark 文档中的使用检查点从故障中恢复