搭配爬蟲程式使用多個資料來源

當 AWS Glue 爬蟲程式掃描 Amazon S3 並偵測多個目錄時，它會使用啟發式來判斷資料表的根在目錄結構中的位置，以及哪些目錄是資料表的分割區。在某些情況下，在兩個或多個目錄偵測到類似的結構描述時，爬蟲程式可能會將它們視為分割區，而不是個別的資料表。協助爬蟲程式探索個別資料表的其中一種方法是，將每個資料表的根目錄新增為爬蟲程式的資料存放區。

Amazon S3 中的下列分割區為範例：


s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt

如果 table1和的結構描述table2相似，且單一資料來源在 s3://amzn-s3-demo-bucket/folder1/中設定為 AWS Glue，爬蟲程式可以建立具有兩個分割區資料欄的單一資料表：一個包含 table1和的分割區資料欄table2，以及第二個包含partition1透過的分割區資料欄partition5。

若要讓 AWS Glue 爬蟲程式建立兩個不同的資料表，請將爬蟲程式設定為具有兩個資料來源 s3://amzn-s3-demo-bucket/folder1/table1/和 s3://amzn-s3-demo-bucket/folder1/table2，如下列程序所示。

若要將 S3 資料存放區新增至中的現有爬蟲程式 AWS Glue

登入 AWS Management Console 並在開啟 AWS Glue 主控台https://console.aws.amazon.com/glue/。
在導覽窗格中，選擇 Crawlers (爬蟲程式)。
選擇您的爬蟲程式連結，然後選擇 Edit (編輯)。
對於 Step 2: Choose data sources and classifiers (步驟 2：選擇資料來源和分類器)，選擇 Edit (編輯)。
針對資料來源和目錄，選擇新增資料來源。
在 Add data source (新增資料來源) 對話方塊中，用於S3 path (S3 路徑)，選擇 Browse (瀏覽)。
選取您想要使用的儲存貯體，然後選擇 Choose (選擇)。

您新增的資料來源會顯示在 Data sources (資料來源)的清單中。
選擇 Next (下一步)。
在設定安全設定頁面上，建立或選擇爬蟲程式IAM的角色，然後選擇下一步。
確定 S3 路徑結尾為尾端斜線，然後選擇 Add an S3 data source (新增 S3 資料來源)。
在 Set output and scheduling (設定輸出與排程) 頁面上，針對 Output configuration (輸出組態)，選擇目標資料庫。
選擇 Next (下一步)。
在 Review (檢閱和更新) 頁面上，檢閱您所做的選擇。若要編輯步驟，請選擇 Edit (編輯)。
選擇更新。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用爬蟲程式新增資料表

排程爬蟲程式

搭配爬蟲程式使用多個資料來源

若要將 S3 資料存放區新增至 中的現有爬蟲程式 AWS Glue

若要將 S3 資料存放區新增至中的現有爬蟲程式 AWS Glue