常见数据类型 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

常见数据类型

常见数据类型介绍 AWS Glue 中的各种常见的数据类型。

Tag 结构

Tag 对象表示用户可分配给 AWS 资源的标签。每个标签都包含定义的一个密钥和一个可选值。

有关标签以及如何控制对 AWS Glue 中资源的访问的更多信息,请参阅开发人员指南中的 AWS Glue 中的 AWS 标签指定 AWS Glue 资源 ARN

字段
  • key – UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    标签键。在对象上创建标签时需要这个键。键区分大小写,并且不得包含前缀 aws。

  • value – UTF-8 字符串,不超过 256 个字节。

    标签值。在对象上创建标签时,值是可选的。值区分大小写,并且不得包含前缀 aws。

DecimalNumber 结构

包含以十进制格式表示的数字值。

字段
  • UnscaledValue必填:Blob。

    未标定的数字值。

  • Scale必填:数字(整数)。

    确定小数点落在未标定的值中的位置的标定。

ErrorDetail 结构

包含有关错误的详细信息。

字段

PropertyPredicate 结构

定义属性谓词。

字段
  • Key – 值字符串,不超过 1024 个字节。

    属性的键。

  • Value – 值字符串,不超过 1024 个字节。

    属性的值。

  • Comparator – UTF-8 字符串(有效值:EQUALS | GREATER_THAN | LESS_THAN | GREATER_THAN_EQUALS | LESS_THAN_EQUALS)。

    用于将此属性与其他属性进行比较的比较运算符。

ResourceUri 结构

函数资源的 URI。

字段
  • ResourceType – UTF-8 字符串(有效值:JAR | FILE | ARCHIVE)。

    资源的类型。

  • Uri - 统一资源标识符 (uri),不少于 1 个字节或超过 1024 个字节,与 URI address multi-line string pattern 匹配。

    用于访问资源的 URI。

ColumnStatistics 结构

表示表或分区生成的列级统计数据。

字段
  • ColumnName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    统计数据所属列的名称。

  • ColumnType必填:类型名称,长度不超过 20000 个字节,与 Single-line string pattern 匹配。

    列的数据类型。

  • AnalyzedTime必填:时间戳。

    生成列统计数据的时间戳。

  • StatisticsData必填:一个 ColumnStatisticsData 对象。

    ColumnStatisticData 对象,其中包含统计数据值。

ColumnStatisticsError 结构

封装失败的 ColumnStatistics 对象以及失败原因。

字段
  • ColumnStatistics – 一个 ColumnStatistics 对象。

    列的 ColumnStatistics

  • Error – 一个 ErrorDetail 对象。

    包含操作失败原因的错误消息。

ColumnError 结构

封装失败的列名称以及失败原因。

字段
  • ColumnName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    封装失败的列名称。

  • Error – 一个 ErrorDetail 对象。

    包含操作失败原因的错误消息。

ColumnStatisticsData 结构

包含单个类型的列统计数据。只应设置一个数据对象,并由 Type 属性指示。

字段
  • Type必填:UTF-8 字符串(有效值:BOOLEAN | DATE | DECIMAL | DOUBLE | LONG | STRING | BINARY)。

    列统计数据的类型。

  • BooleanColumnStatisticsData – 一个 BooleanColumnStatisticsData 对象。

    布尔值列统计数据。

  • DateColumnStatisticsData – 一个 DateColumnStatisticsData 对象。

    日期列统计数据。

  • DecimalColumnStatisticsData – 一个 DecimalColumnStatisticsData 对象。

    十进制列统计数据。其中的 UnscaledValues 是 Base64 编码的二进制对象,存储十进制未缩放值的大端二进制补码表示法。

  • DoubleColumnStatisticsData – 一个 DoubleColumnStatisticsData 对象。

    双列统计数据。

  • LongColumnStatisticsData – 一个 LongColumnStatisticsData 对象。

    长列统计数据。

  • StringColumnStatisticsData – 一个 StringColumnStatisticsData 对象。

    字符串列统计数据。

  • BinaryColumnStatisticsData – 一个 BinaryColumnStatisticsData 对象。

    二进制列统计数据。

BooleanColumnStatisticsData 结构

定义支持布尔值数据列的列统计数据。

字段
  • NumberOfTrues必填:数字(长度),至多为“无”。

    列中的 True 值数量。

  • NumberOfFalses必填:数字(长度),至多为“无”。

    列中的 False 数量。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

DateColumnStatisticsData 结构

定义支持时间戳数据列的列统计数据。

字段
  • MinimumValue – 时间戳。

    列中的最低值。

  • MaximumValue – 时间戳。

    列中的最高值。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

  • NumberOfDistinctValues必填:数字(长度),至多为“无”。

    列中的独特值的数量。

DecimalColumnStatisticsData 结构

定义支持固定点数数据列的列统计数据。

字段
  • MinimumValue – 一个 DecimalNumber 对象。

    列中的最低值。

  • MaximumValue – 一个 DecimalNumber 对象。

    列中的最高值。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

  • NumberOfDistinctValues必填:数字(长度),至多为“无”。

    列中的独特值的数量。

DoubleColumnStatisticsData 结构

定义支持浮动点数数据列的列统计数据。

字段
  • MinimumValue – 数字(double)。

    列中的最低值。

  • MaximumValue – 数字(double)。

    列中的最高值。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

  • NumberOfDistinctValues必填:数字(长度),至多为“无”。

    列中的独特值的数量。

LongColumnStatisticsData 结构

定义支持整数数据列的列统计数据。

字段
  • MinimumValue – 数字(长型)。

    列中的最低值。

  • MaximumValue – 数字(长型)。

    列中的最高值。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

  • NumberOfDistinctValues必填:数字(长度),至多为“无”。

    列中的独特值的数量。

StringColumnStatisticsData 结构

定义支持字符序列数据值的列统计数据。

字段
  • MaximumLength必填:数字(长度),至多为“无”。

    列中最长字符串的长度。

  • AverageLength必填:数字(长度),至多为“无”。

    列中的平均字符串长度。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

  • NumberOfDistinctValues必填:数字(长度),至多为“无”。

    列中的独特值的数量。

BinaryColumnStatisticsData 结构

定义支持位序列数据值的列统计数据。

字段
  • MaximumLength必填:数字(长度),至多为“无”。

    列中最长位序列的长度。

  • AverageLength必填:数字(长度),至多为“无”。

    列中的平均位序列长度。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

字符串模式

API 使用以下正则表达式来定义对于各种字符串参数和成员有效的内容:

  • 单行字符串模式 -“[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\t]*

  • URI 地址多行字符串模式 -“[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\r\n\t]*

  • Logstash Grok 字符串模式 -“[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\r\t]*

  • 标识符字符串模式 -“[A-Za-z_][A-Za-z0-9_]*

  • AWS IAM ARN 字符串模式 –“arn:aws:iam::\d{12}:role/.*

  • 版本字符串模式 -“^[a-zA-Z0-9-_]+$

  • 日志组字符串模式 -“[\.\-_/#A-Za-z0-9]+

  • 日志流字符串模式 -“[^:*]*

  • 自定义字符串模式 #10 –“[^\r\n]

  • 自定义字符串模式 #11 –“^arn:aws(-(cn|us-gov|iso(-[bef])?))?:secretsmanager:.*$

  • 自定义字符串模式 #12 –“^(https?)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]

  • 自定义字符串模式 #13 –“\S+

  • 自定义字符串模式 #14 –“^(https?):\/\/[^\s/$.?#].[^\s]*$

  • 自定义字符串模式 #15 –“^subnet-[a-z0-9]+$

  • 自定义字符串模式 #16 –“[\p{L}\p{N}\p{P}]*

  • 自定义字符串模式 #17 –“[a-f0-9]{8}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{12}

  • 自定义字符串模式 #18 –“[a-zA-Z0-9-_$#.]+

  • 自定义字符串模式 #19 –“^\w+\.\w+\.\w+$

  • 自定义字符串模式 #20 –“^\w+\.\w+$

  • 自定义字符串模式 #21 –“^([2-3]|3[.]9)$

  • 自定义字符串模式 #22 –“arn:(aws|aws-us-gov|aws-cn):glue:.*

  • 自定义字符串模式 #23 –“(^arn:aws:iam::\w{12}:root)

  • 自定义字符串模式 #24 –“^arn:aws(-(cn|us-gov|iso(-[bef])?))?:iam::[0-9]{12}:role/.+

  • 自定义字符串模式 #25 –“arn:aws:kms:.*

  • 自定义字符串模式 #26 –“arn:aws[^:]*:iam::[0-9]*:role/.+

  • 自定义字符串模式 #27 –“[\.\-_A-Za-z0-9]+

  • 自定义字符串模式 #28 –“^s3://([^/]+)/([^/]+/)*([^/]+)$

  • 自定义字符串模式 #29 –“.*

  • 自定义字符串模式 #30 –“^(Sun|Mon|Tue|Wed|Thu|Fri|Sat):([01]?[0-9]|2[0-3])$

  • 自定义字符串模式 #31 –“[a-zA-Z0-9_.-]+

  • 自定义字符串模式 #32 –“[A-Z][A-Za-z\.]+

  • 自定义字符串模式 #33 –“.*\S.*

  • 自定义字符串模式 #34 –“[a-zA-Z0-9-=._/@]+

  • 自定义字符串模式 #35 – "[1-9][0-9]*|[1-9][0-9]*-[1-9][0-9]*"

  • 自定义字符串模式 36 –“[\s\S]*

  • 自定义字符串模式 37 –“([\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF]|[^\S\r\n"'= ;])*

  • 自定义字符串模式 #38 –“^[A-Z\_]+$

  • 自定义字符串模式 #39 –“^[A-Za-z0-9]+$

  • 自定义字符串模式 #40 –“[*A-Za-z0-9_-]*

  • 自定义字符串模式 #41 –“([\u0020-\u007E\r\s\n])*

  • 自定义字符串模式 #42 –“[A-Za-z0-9_-]*

  • 自定义字符串模式 #43 –“([\u0009\u000B\u000C\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF])*

  • 自定义字符串模式 #44 –“([\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\s])*

  • 自定义字符串模式 #45 –“([^\r\n])*