爬网程序在数据目录表上设置的参数
这些表属性由 AWS Glue 爬网程序设置。我们希望用户使用 classification
和 compressionType
属性。其他属性(包括估算表大小)用于内部计算,我们无法保证其准确性或客户使用案例适用性。更改这些参数可能会改变爬网程序的行为,我们不支持此工作流程。
属性键 | 属性值 |
---|---|
UPDATED_BY_CRAWLER |
执行更新的爬网程序的名称。 |
connectionName |
用于连接到数据存储的爬网程序在“数据目录”中的连接名称。 |
recordCount |
根据文件大小和标题估算表中记录的数量。 |
skip.header.line.count |
跳过行以跳过标题。在被归类为 CSV 的表上设置。 |
CrawlerSchemaSerializerVersion |
供内部使用 |
classification |
由爬网程序推断数据格式。更多有关 AWS Glue 爬网程序支持的数据格式的信息,请参阅 内置分类器。 |
CrawlerSchemaDeserializerVersion |
供内部使用 |
sizeKey |
已爬取的表中文件的组合大小。 |
averageRecordSize |
表中行的平均大小(字节)。 |
compressionType |
对表中的数据使用的压缩类型。更多有关 AWS Glue 爬网程序支持的压缩类型的信息,请参阅 内置分类器。 |
typeOfData |
|
objectCount |
Amazon S3 表路径下的对象数量。 |
这些额外的表属性是由 AWS Glue 爬网程序为 Snowflake 数据存储设置的。
属性键 | 属性值 |
---|---|
aws:RawTableLastAltered |
记录 Snowflake 表上次修改的时间戳。 |
ViewOriginalText |
查看 SQL 语句。 |
ViewExpandedText |
查看以 Base64 格式编码的 SQL 语句。 |
ExternalTable:S3Location |
Snowflake 外部表的 Amazon S3 位置。 |
ExternalTable:FileFormat |
Snowflake 外部表的 Amazon S3 文件格式。 |
这些额外的表属性是由 AWS Glue 爬网程序为 Amazon Redshift、Microsoft SQL Server、MySQL、PostgreSQL 和 Oracle 等 JDBC 类型的数据存储设置的。
属性键 | 属性值 |
---|---|
aws:RawType |
当爬网程序将数据存储在数据目录中时,它会将数据类型转换为与 Hive 兼容的类型,这往往会导致有关本机数据类型的信息丢失。爬网程序输出 |
aws:RawColumnComment |
如果注释与数据库中的列相关联,则爬网程序会在目录表中输出相应的注释。注释字符串被截断为 255 个字节。 Microsoft SQL Server 不支持注释。 |
aws:RawTableComment |
如果注释与数据库中的列相关联,则爬网程序会在目录表中输出相应的注释。注释字符串被截断为 255 个字节。 Microsoft SQL Server 不支持注释。 |