本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
爬蟲程式在 Data Catalog 資料表上設定的參數
這些資料表屬性由 AWS Glue 爬蟲程式設定。我們希望使用者使用 classification
和 compressionType
屬性。其他屬性 (包括資料表大小估算) 用於內部計算,我們不能保證其準確性或適用於客戶使用案例。變更這些參數可能會改變爬蟲程式的行為,我們不支持此工作流程。
屬性索引鍵 | 屬性值 |
---|---|
UPDATED_BY_CRAWLER |
執行更新的爬蟲程式名稱。 |
connectionName |
在 Data Catalog 中,用於連線至資料存放區的爬蟲程式連線名稱。 |
recordCount |
根據檔案大小和標題估計資料表中的記錄數。 |
skip.header.line.count |
跳過列以跳過標題。在分類為 CSV 的資料表上設定。 |
CrawlerSchemaSerializerVersion |
供內部使用 |
classification |
由爬蟲程式推斷的資料格式。如需 AWS Glue 爬蟲程式支援格式的詳細資訊,請參閱 內置分類器。 |
CrawlerSchemaDeserializerVersion |
供內部使用 |
sizeKey |
網路爬取的資料表中檔案的合併大小。 |
averageRecordSize |
資料表中列的平均大小 (位元組)。 |
compressionType |
資料表中資料所使用的壓縮類型。如需 AWS Glue 爬蟲程式支援之壓縮類型的詳細資訊,請參閱 內置分類器。 |
typeOfData |
|
objectCount |
資料表的 Amazon S3 路徑下的物件數目。 |
這些額外的資料表屬性是由 Snowflake 資料存放區的 AWS Glue 爬蟲程式所設定。
屬性索引鍵 | 屬性值 |
---|---|
aws:RawTableLastAltered |
記錄 Snowflake 資料表的最後更改時間戳記。 |
ViewOriginalText |
檢視 SQL 陳述式。 |
ViewExpandedText |
檢視以 Base64 格式編碼的 SQL 陳述式。 |
ExternalTable:S3Location |
Snowflake 外部資料表的 Amazon S3 位置。 |
ExternalTable:FileFormat |
Snowflake 外部資料表的 Amazon S3 檔案格式。 |
這些額外的資料表屬性是由 JDBC 類型資料存放區 (例如 Amazon Redshift、Microsoft SQL Server、MySQL、PostgreSQL 和 Oracle) 的 AWS Glue 爬蟲程式所設定。
屬性索引鍵 | 屬性值 |
---|---|
aws:RawType |
在將資料存放在 Data Catalog 中時,爬蟲程式會將資料類型轉換為與 Hive 相容的類型,這會多次導致原生資料類型的資訊遺失。爬蟲程式會輸出 |
aws:RawColumnComment |
如果註解與資料庫中的資料欄相關聯,爬蟲程式會在目錄資料表中輸出對應的註解。註解字串被截斷為 255 個位元組。 Microsoft SQL Server 不支援註解。 |
aws:RawTableComment |
如果註解與資料庫中的資料表相關聯,爬蟲程式會在目錄資料表中輸出對應的註解。註解字串被截斷為 255 個位元組。 Microsoft SQL Server 不支援註解。 |