使用 Spigot 對您的資料集進行取樣 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Spigot 對您的資料集進行取樣

若要測試任務所執行的轉換,您可能需要取得資料樣本,以檢查轉換是否如預期運作。Spigot 轉換會將記錄子集從資料集寫入 Amazon S3 儲存貯體中的 JSON 檔案。資料取樣方法可以是從檔案開頭的特定記錄數目,或是用於挑選記錄的機率因素。

將 Spigot 轉換節點新增到您任務圖表
  1. (選用) 根據需要開啟資源面板,然後選擇 Spigot,將新轉換新增至您的任務圖表。

  2. 節點屬性索引標籤上,輸入任務圖表中節點的名稱。如果尚未選取節點父項,請從節點父項清單選擇用作轉換之輸入來源的節點。

  3. 選擇節點詳細資訊面板中的轉換索引標籤。

  4. 輸入 Amazon S3 路徑或選擇 Amazon S3 路徑瀏覽 S3在 Amazon S3 中選擇位置。這是任務寫入包含資料範例之 JSON 檔案的位置。

  5. 輸入取樣方式的資訊。您可指定從資料集的開頭開始寫入的記錄數的值,以及選擇任何給定記錄的機率閾值 (以十進制值輸入,最大值為 1)。

    例如,若要從資料集寫入前 50 筆記錄,您可以將記錄數設定為 50,以及機率閾值 設定為 1 (100%)。