选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

AWS Glue 流式处理

聚焦模式
AWS Glue 流式处理 - AWS Glue

作为 AWS Glue 的一个组件,AWS Glue 流式处理使您能够近乎实时地高效处理流数据,以便您执行数据摄取、处理和机器学习等关键任务。借助 Apache Spark Streaming 框架,AWS Glue 流式处理提供了一种无服务器服务,可以大规模处理流数据。AWS Glue 在 Apache Spark 的基础上进行了各种优化,例如,无服务器基础设施、自动扩缩、可视化作业开发、流作业即时笔记本以及其他性能改进。

流式处理用例

AWS Glue 流式处理的一些常见用例如下:

近乎实时的数据处理:AWS Glue 流式处理使组织能够近乎实时地处理流数据,以便其根据最新信息获得见解并及时做出决策。

欺诈检测:您可以利用 AWS Glue 流式处理对流数据进行实时分析,这对于检测信用卡欺诈、网络入侵或网上诈骗等欺诈活动非常有用。通过持续处理和分析传入数据,您可以快速识别可疑模式或异常情况。

社交媒体分析:AWS Glue 流式处理可以处理实时社交媒体数据,比如推文、帖子或评论,使组织能够实时监控趋势、情绪分析和管理品牌声誉。

物联网(IoT)分析:AWS Glue 流式处理适用于处理和分析物联网设备、传感器和联网机器生成的高速数据流。它允许实时监控、异常检测、预测性维护和其他物联网分析用例。

点击流分析:AWS Glue 流式处理可以处理和分析来自网站或移动应用程序的实时点击流数据。这使企业能够深入了解用户行为,个性化用户体验,根据实时点击流数据优化营销活动。

日志监控和分析:AWS Glue 流式处理可持续实时处理和分析来自服务器、应用程序或网络设备的日志数据。这有助于检测异常、排查问题、监控系统运行状况和性能。

推荐系统:AWS Glue 流式处理以实时处理用户活动数据,动态更新推荐模型。这允许根据用户行为和偏好进行个性化和实时推荐。

以下是可以应用 AWS Glue 流式处理的各种用例的一些例子。它与 AWS 生态系统和托管服务集成,使其成为在云中进行实时流处理和分析的一个方便的选择。

使用 AWS Glue 流式处理有哪些好处?

使用 AWS Glue 流式处理的好处如下:

  • 无服务器:AWS Glue 流式处理无服务器,无需管理基础设施。这减少了运营开销,使用户可以专注于数据处理和分析任务,而不是基础设施管理。

  • 自动扩缩:AWS Glue 流式处理提供自动扩缩功能,可根据工作负载动态调整处理能力。它会自动扩展或缩减以处理数据量的波动,从而确保最佳性能和资源利用率。

  • 视觉开发:流式处理作业开发可能很复杂。AWS Glue流式处理通过提供可视化创作工具 AWS Glue Studio 来应对这一挑战。AWS GlueStudio 简化了创建流式处理工作流的过程,使开发人员能够直观地设计和管理流应用程序,从而缩短学习曲线并提高工作效率。

  • 经济高效:作为一项无服务器服务,AWS Glue 流式处理无需预置和维护基础设施,因而提高了成本效益。用户根据流式处理作业执行期间消耗的资源付费,从而根据实际使用量进行成本优化和扩缩。

  • 处理复杂的工作负载:AWS Glue 流式处理专为处理复杂的流工作负载而设计。它可以处理和分析大量实时数据,支持高级转换,并与其他 AWS 服务集成,从而实现复杂的流式处理数据管道和分析工作流。

  • 无锁定:AWS Glue 流式处理提供了灵活性,可避免供应商锁定。用户可将 AWS Glue 流式处理作为广泛的 AWS 生态系统的一部分,并与其他 AWS 服务无缝集成。这样就可以与现有的数据来源、应用程序和服务轻松集成,而不必受制于特定的技术或平台。

何时使用 AWS Glue 流式处理?

关于流式处理用例,有很多选择。我们建议在以下场景中使用 AWS Glue 流式处理。

  1. 如果您已经在使用 AWS Glue 或 Spark 进行批处理,那么 AWS Glue 流式处理是您的理想选择。它可以无缝过渡到构建流式处理作业,而无需学习新的语言或框架。AWS Glue 流式处理利用现有的知识和基础设施,简化了任务开发过程,使您能够轻松地将数据处理能力扩展到实时流场景。

  2. 如果您需要统一的服务或产品来处理批处理、流和事件驱动型工作负载,那么 AWS Glue 流式处理解决方案就是您的理想之选。有了 AWS Glue 流式处理您可以将数据处理需求整合到一个框架中,从而消除管理多个系统的复杂性。这样就能高效开发和维护各种数据工作流,同时确保不同工作负载类型之间的一致性和兼容性。

  3. AWS Glue 流式处理非常适合涉及超大流数据量和复杂转换的场景,比如流式处理或关系数据库之间的连接。它可以高效处理和分析大量数据流,使您能够轻松处理要求苛刻的工作负载。无论是高速数据摄取还是复杂的数据操作,AWS Glue 流式处理的可扩展性和高级处理能力都能确保最佳性能和准确结果。

  4. 如果您更喜欢采用可视化方法来构建流式处理作业,AWS Glue 还提供了 AWS Glue Studio,您可以用它来直观地设计和管理您的流应用程序,从而简化开发过程。这种直观的界面使开发人员能够使用可视化界面创建、配置和监控流式处理工作流,从而缩短学习曲线并提高工作效率。

  5. 对于 SLA(服务水平协议)要求严格、超过 10 秒的近实时用例,AWS Glue 流式处理是一个极佳的选择

  6. 如果您使用 Apache Iceberg、Apache Hudi 或 Delta Lake 构建事务数据湖,AWS Glue 流式处理为这些开放表格式提供了本机支持。这种无缝集成使您能够直接处理来自这些事务数据湖的流式处理数据,从而确保数据一致性、完整性和兼容性。

  7. 当需要为各种数据目标摄取流数据时:AWS Glue 流式处理为各种数据目标提供了本机目标,例如 Amazon Redshift、Amazon RDS、Amazon Aurora、Oracle、SQL Server 和其他目标。

支持的数据来源

AWS Glue 流式处理支持以下数据来源:

  • Amazon Kinesis

  • Amazon MSK(Managed Streaming for Apache Kafka)

  • 自行管理的 Apache Kafka

支持的数据目标

AWS Glue 流式处理支持多个数据目标:

  • AWS Glue Data Catalog 支持的数据目标

  • Amazon S3

  • Amazon Redshift

  • MySQL

  • PostgreSQL

  • Oracle

  • Microsoft SQL Server

  • Snowflake

  • 任何可以使用 JDBC 连接的数据库

  • Apache Iceberg、Delta 和 Apache Hudi

  • AWS Glue Marketplace 连接器

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。