表属性 - Managed Service for Apache Flink

Amazon Managed Service for Apache Flink 之前称为 Amazon Kinesis Data Analytics for Apache Flink。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

表属性

除了数据字段外,您的 AWS Glue 表还使用表格属性向 Studio 笔记本提供其他信息。适用于 Apache Flink 的托管服务使用以下 AWS Glue 表格属性:

要向 AWS Glue 表中添加属性,请执行以下操作:

  1. 登录 AWS Management Console 并打开 AWS Glue 控制台,网址为https://console.aws.amazon.com/glue/

  2. 从表的列表中,选择应用程序用于存储其数据连接信息的表。选择 “操作”、“编辑表格详细信息”。

  3. 在 “表属性” 下,输入 “managed-flink.proctime” 和 user_action_time”。

定义 Apache Flink 的时间值

Apache Flink 提供了描述何时发生流处理事件的时间值,例如处理时间和事件时间要将这些值包含在应用程序输出中,需要在 AWS Glue 表上定义属性,告诉 Apache Flink 托管服务 Flink 运行时将这些值发送到指定字段中。

您在表属性中使用的键和值如下所示:

时间戳类型
处理时间 managed-flink.proctim AWS Glue 将用于显示值的列名。此列名与现有表列不对应。
活动时间 managed-flink.rowtime AWS Glue 将用于显示值的列名。此列名对应于现有的表列。

managed-flink.waterm。column_name.mliseconds

水印间隔(以毫秒为单位)

使用 Flink 连接器和格式属性

您可以使用 AWS Glue 表属性向应用程序的 Flink 连接器提供有关数据源的信息。以下是 Managed Service for Apache Flink 用于连接器的一些属性示例:

连接器类型
Kafka format 用于反序列化和序列化 Kafka 消息的格式,例如或。json csv
scan.startup.mode Kafka 消费者的启动模式,例如earliest-offsettimestamp
Kinesis format 用于反序列化和序列化 Kinesis 数据流记录的格式,例如或。json csv
aws.region 定义直播的 AWS 区域。
S3(文件系统) format 用于反序列化和序列化文件的格式,例如或。json csv
path 亚马逊 S3 路径,例如 s3://mybucket/

有关除 Kinesis 和 Apache Kafka 之外的其他连接器的更多信息,请参阅您的连接器文档。