爬蟲程式在 Data Catalog 資料表上設定的參數 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

爬蟲程式在 Data Catalog 資料表上設定的參數

這些資料表屬性由 AWS Glue 爬蟲程式設定。我們希望使用者使用 classificationcompressionType 屬性。其他屬性 (包括資料表大小估算) 用於內部計算,我們不能保證其準確性或適用於客戶使用案例。變更這些參數可能會改變爬蟲程式的行為,我們不支持此工作流程。

屬性索引鍵 屬性值
UPDATED_BY_CRAWLER

執行更新的爬蟲程式名稱。

connectionName

在 Data Catalog 中,用於連線至資料存放區的爬蟲程式連線名稱。

recordCount

根據檔案大小和標題估計資料表中的記錄數。

skip.header.line.count

跳過列以跳過標題。在分類為 CSV 的資料表上設定。

CrawlerSchemaSerializerVersion

供內部使用

classification

由爬蟲程式推斷的資料格式。如需 AWS Glue 爬蟲程式支援格式的詳細資訊,請參閱 內置分類器

CrawlerSchemaDeserializerVersion

供內部使用

sizeKey

網路爬取的資料表中檔案的合併大小。

averageRecordSize

資料表中列的平均大小 (位元組)。

compressionType

資料表中資料所使用的壓縮類型。如需 AWS Glue 爬蟲程式支援之壓縮類型的詳細資訊,請參閱 內置分類器

typeOfData

filetableview

objectCount

資料表的 Amazon S3 路徑下的物件數目。

這些額外的資料表屬性是由 Snowflake 資料存放區的 AWS Glue 爬蟲程式所設定。

屬性索引鍵 屬性值
aws:RawTableLastAltered

記錄 Snowflake 資料表的最後更改時間戳記。

ViewOriginalText

檢視 SQL 陳述式。

ViewExpandedText

檢視以 Base64 格式編碼的 SQL 陳述式。

ExternalTable:S3Location

Snowflake 外部資料表的 Amazon S3 位置。

ExternalTable:FileFormat

Snowflake 外部資料表的 Amazon S3 檔案格式。

這些額外的資料表屬性是由 JDBC 類型資料存放區 (例如 Amazon Redshift、Microsoft SQL Server、MySQL、PostgreSQL 和 Oracle) 的 AWS Glue 爬蟲程式所設定。

屬性索引鍵 屬性值
aws:RawType

在將資料存放在 Data Catalog 中時,爬蟲程式會將資料類型轉換為與 Hive 相容的類型,這會多次導致原生資料類型的資訊遺失。爬蟲程式會輸出 aws:RawType 參數以提供原生層級的資料類型。

aws:RawColumnComment

如果註解與資料庫中的資料欄相關聯,爬蟲程式會在目錄資料表中輸出對應的註解。註解字串被截斷為 255 個位元組。

Microsoft SQL Server 不支援註解。

aws:RawTableComment

如果註解與資料庫中的資料表相關聯,爬蟲程式會在目錄資料表中輸出對應的註解。註解字串被截斷為 255 個位元組。

Microsoft SQL Server 不支援註解。