本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
搭配爬蟲程式使用多個資料來源
當 AWS Glue 爬蟲程式掃描 Amazon S3 並偵測多個目錄時,它會使用啟發式來判斷資料表的根在目錄結構中的位置,以及哪些目錄是資料表的分割區。在某些情況下,在兩個或多個目錄偵測到類似的結構描述時,爬蟲程式可能會將它們視為分割區,而不是個別的資料表。協助爬蟲程式探索個別資料表的其中一種方法是,將每個資料表的根目錄新增為爬蟲程式的資料存放區。
Amazon S3 中的下列分割區為範例:
s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt
如果 table1
和 的結構描述table2
相似,且單一資料來源在 s3://amzn-s3-demo-bucket/folder1/
中設定為 AWS Glue,爬蟲程式可以建立具有兩個分割區資料欄的單一資料表:一個包含 table1
和 的分割區資料欄table2
,以及第二個包含partition1
透過 的分割區資料欄partition5
。
若要讓 AWS Glue 爬蟲程式建立兩個不同的資料表,請將爬蟲程式設定為具有兩個資料來源 s3://amzn-s3-demo-bucket/folder1/table1/
和 s3://amzn-s3-demo-bucket/folder1/table2
,如下列程序所示。
若要將 S3 資料存放區新增至 中的現有爬蟲程式 AWS Glue
登入 AWS Management Console 並在 開啟 AWS Glue 主控台https://console.aws.amazon.com/glue/
。 -
在導覽窗格中,選擇 Crawlers (爬蟲程式)。
-
選擇您的爬蟲程式連結,然後選擇 Edit (編輯)。
-
對於 Step 2: Choose data sources and classifiers (步驟 2:選擇資料來源和分類器),選擇 Edit (編輯)。
-
針對資料來源和目錄,選擇新增資料來源。
-
在 Add data source (新增資料來源) 對話方塊中,用於S3 path (S3 路徑),選擇 Browse (瀏覽)。
-
選取您想要使用的儲存貯體,然後選擇 Choose (選擇)。
您新增的資料來源會顯示在 Data sources (資料來源)的清單中。
-
選擇 Next (下一步)。
-
在設定安全設定頁面上,建立或選擇爬蟲程式IAM的角色,然後選擇下一步。
-
確定 S3 路徑結尾為尾端斜線,然後選擇 Add an S3 data source (新增 S3 資料來源)。
-
在 Set output and scheduling (設定輸出與排程) 頁面上,針對 Output configuration (輸出組態),選擇目標資料庫。
-
選擇 Next (下一步)。
-
在 Review (檢閱和更新) 頁面上,檢閱您所做的選擇。若要編輯步驟,請選擇 Edit (編輯)。
-
選擇更新。