使用爬蟲程式新增資料表

焦點模式

使用爬蟲程式新增資料表 - Amazon Athena

AWS Glue 爬蟲程式可協助探索資料集的結構描述，並將其註冊為 AWS Glue Data Catalog 中的資料表。爬蟲程式可逐一瀏覽您的資料，並判斷結構描述。此外，爬蟲程式可偵測和登錄分割區。如需詳細資訊，請參閱《AWS Glue 開發人員指南》中的定義爬蟲程式。可從 Athena 查詢來自已成功編目的資料的資料表。

注意

Athena 無法辨識排除您為爬蟲程式指定的模式。 AWS Glue 例如，如果您的 Simple Storage Service (Amazon S3) 儲存貯體同時包含 .csv 和 .json 檔案，並且您將 .json 檔案從爬蟲程式中排除，Athena 會查詢這兩個檔案群組。若要避免這種情況，請將您要排除的檔案放在不同的位置。

建立 AWS Glue 爬蟲程式

您可以從 Athena 主控台開始建立爬蟲程式，然後以整合方式使用 AWS Glue 主控台。建立爬蟲程式時，需要在 Amazon S3 中指定要網路爬取的資料位置。

從 Athena 主控台 AWS Glue 開始在中建立爬蟲程式

前往 https://console.aws.amazon.com/athena/ 開啟 Athena 主控台。
在查詢編輯器中，選擇位於資料表和檢視旁的建立，然後選擇 AWS Glue 爬蟲程式。
在 AWS Glue 主控台的 Add crawler (新增爬蟲程式) 頁面上，依照步驟建立爬蟲程式。如需詳細資訊，請參閱本指南中的使用 AWS Glue 爬蟲程式，以及《 AWS Glue 開發人員指南》中的填入 AWS Glue Data Catalog 。

注意

在爬蟲程式之後， AWS Glue 爬蟲程式會自動指派特定資料表中繼資料，以協助使其與其他外部技術相容，例如 Apache Hive、Presto 和 Spark。有時爬蟲程式可能不正確地指派中繼資料屬性。使用 Athena 查詢資料表 AWS Glue 之前，手動更正中的屬性。如需詳細資訊，請參閱《AWS Glue 開發人員指南》中的檢視與編輯資料表詳細資訊。

AWS Glue 當 CSV 檔案在每個資料欄位周圍有引號時，可能會錯誤指派中繼資料，導致 serializationLib 屬性發生錯誤。如需詳細資訊，請參閱處理以引號括住的 CSV 資料。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用表單新增資料表

搭配爬蟲程式使用多個資料來源

下一個主題：

搭配爬蟲程式使用多個資料來源

上一個主題：

使用表單新增資料表

需要協助？

在本頁面

此頁面是否有幫助？

提供意見回饋

隱私權網站條款 Cookie 偏好設定

選取您的 Cookie 偏好設定

自訂 Cookie 偏好設定

必要

效能

功能

廣告

無法儲存 Cookie 偏好設定

使用爬蟲程式新增資料表

注意

建立 AWS Glue 爬蟲程式

從 Athena 主控台 AWS Glue 開始在中建立爬蟲程式

注意

下一個主題：

上一個主題：

需要協助？

在本頁面

此頁面是否有幫助？

選取您的 Cookie 偏好設定

使用爬蟲程式新增資料表

注意

建立 AWS Glue 爬蟲程式

從 Athena 主控台 AWS Glue 開始在 中建立爬蟲程式

注意

下一個主題：

上一個主題：

需要協助？

在本頁面

此頁面是否有幫助？

從 Athena 主控台 AWS Glue 開始在中建立爬蟲程式