搭配爬蟲程式使用多個資料來源 - Amazon Athena

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

搭配爬蟲程式使用多個資料來源

當 AWS Glue 爬蟲程式掃描 Amazon S3 並偵測多個目錄時,它會使用啟發式來判斷資料表的根在目錄結構中的位置,以及哪些目錄是資料表的分割區。在某些情況下,在兩個或多個目錄偵測到類似的結構描述時,爬蟲程式可能會將它們視為分割區,而不是個別的資料表。協助爬蟲程式探索個別資料表的其中一種方法是,將每個資料表的根目錄新增為爬蟲程式的資料存放區。

Amazon S3 中的下列分割區為範例:

s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt

如果 table1和 的結構描述table2相似,且單一資料來源在 s3://amzn-s3-demo-bucket/folder1/中設定為 AWS Glue,爬蟲程式可以建立具有兩個分割區資料欄的單一資料表:一個包含 table1和 的分割區資料欄table2,以及第二個包含partition1透過 的分割區資料欄partition5

若要讓 AWS Glue 爬蟲程式建立兩個不同的資料表,請將爬蟲程式設定為具有兩個資料來源 s3://amzn-s3-demo-bucket/folder1/table1/s3://amzn-s3-demo-bucket/folder1/table2,如下列程序所示。

若要將 S3 資料存放區新增至 中的現有爬蟲程式 AWS Glue
  1. 登入 AWS Management Console 並在 開啟 AWS Glue 主控台https://console.aws.amazon.com/glue/

  2. 在導覽窗格中,選擇 Crawlers (爬蟲程式)。

  3. 選擇您的爬蟲程式連結,然後選擇 Edit (編輯)。

  4. 對於 Step 2: Choose data sources and classifiers (步驟 2:選擇資料來源和分類器),選擇 Edit (編輯)。

  5. 針對資料來源和目錄,選擇新增資料來源

  6. Add data source (新增資料來源) 對話方塊中,用於S3 path (S3 路徑),選擇 Browse (瀏覽)。

  7. 選取您想要使用的儲存貯體,然後選擇 Choose (選擇)。

    您新增的資料來源會顯示在 Data sources (資料來源)的清單中。

  8. 選擇 Next (下一步)

  9. 設定安全設定頁面上,建立或選擇爬蟲程式IAM的角色,然後選擇下一步

  10. 確定 S3 路徑結尾為尾端斜線,然後選擇 Add an S3 data source (新增 S3 資料來源)。

  11. Set output and scheduling (設定輸出與排程) 頁面上,針對 Output configuration (輸出組態),選擇目標資料庫。

  12. 選擇 Next (下一步)

  13. Review (檢閱和更新) 頁面上,檢閱您所做的選擇。若要編輯步驟,請選擇 Edit (編輯)。

  14. 選擇更新