建立和使用 Data Wrangler 流程 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立和使用 Data Wrangler 流程

使用 Amazon SageMaker Data Wrangler 流程或資料流程 來建立和修改資料準備管道。資料流量會連接您建立的資料集、轉換、分析或步驟,並可用來定義管道。

執行個體

當您在 Amazon SageMaker Studio Classic 中建立 Data Wrangler 流程時,Data Wrangler 會使用 Amazon EC2執行個體來執行流程中的分析和轉換。根據預設,Data Wrangler 使用 m5.4xlarge 執行個體。m5 執行個體是一般用途的執行個體,可在運算和記憶體之間取得平衡。您可以將 m5 執行個體用於各種運算工作負載。

Data Wrangler 也提供您使用 r5 執行個體的選項。r5 執行個體的設計目的是提供快速效能,以便處理記憶體中的大型資料集。

建議您選擇針對工作負載最佳化的執行個體。例如,r5.8xlarge 的價格可能比 m5.4xlarge 高,但是 r5.8xlarge 可能會針對您的工作負載更妥善地進行最佳化。有了較佳的執行個體最佳化,您可以在較短的時間內以更低的成本執行資料流量。

下表顯示您可以用來執行 Data Wrangler 流程的執行個體。

標準執行個體 vCPU 記憶體
ml.m5.4xlarge 16 64 GiB
ml.m5.8xlarge 32 128 GiB
ml.m5.16xlarge 64

256 GiB

ml.m5.24xlarge 96 384 GiB
r5.4xlarge 16 128 GiB
r5.8xlarge 32 256 GiB
r5.24xlarge 96 768 GiB

如需 r5 執行個體的詳細資訊,請參閱 Amazon EC2 R5 執行個體。如需 m5 執行個體的詳細資訊,請參閱 Amazon EC2 M5 執行個體。

每個 Data Wrangler 流程都有與其相關聯的 Amazon EC2執行個體。您可能有多個與單一執行個體相關聯的流程。

對於每個流程檔案,您都可以順暢切換執行個體類型。如果您切換執行個體類型,您用來執行流程的執行個體會繼續運作。

若要切換流程的執行個體類型,請執行下列操作。

  1. 選擇執行終端機和核心圖示 Black square icon representing a placeholder or empty image. )。

  2. 前往您正在使用的執行個體並加以選擇。

  3. 選擇想要使用的執行個體類型。

    示範如何在 Data Wrangler 主控台的資料流程頁面中選擇執行個體的範例。
  4. 選擇 Save (儲存)。

您必須支付所有運作中的執行個體費用。為避免產生額外費用,請手動關閉您未使用的執行個體。若要關閉正在執行的執行個體,請依照下列程序操作。

如要關閉執行中的執行個體。

  1. 選擇執行個體圖示。下圖顯示在何處選取 RUNNING INSTANCES 圖示。

    Studio Classic 主控台中的RUNNINGINSTANCES索引標籤。
  2. 在您要關閉的執行個體旁邊選擇關閉

如果您關閉用於執行流程的執行個體,則暫時無法存取該流程。如果在嘗試開啟執行之前關閉的執行個體流程時出現錯誤,請等待 5 分鐘,然後再試著開啟一次。

當您將資料流程匯出至 Amazon Simple Storage Service 或 Amazon SageMaker Feature Store 等位置時,Data Wrangler 會執行 Amazon SageMaker 處理任務。您可以使用下列其中一個執行個體來執行處理任務。如需匯出您資料的詳細資訊,請參閱匯出

標準執行個體 vCPU 記憶體
ml.m5.4xlarge 16 64 GiB
ml.m5.12xlarge 48

192 GiB

ml.m5.24xlarge 96 384 GiB

如需使用可用執行個體類型時每小時成本的詳細資訊,請參閱SageMaker 定價

資料流量使用者介面

匯入資料集時,原始資料集會顯示在資料流量中,並命名為來源。如果您在匯入資料時開啟了取樣,則此資料集的名稱為來源-取樣。Data Wrangler 會自動推論資料集中每個資料欄的類型,並建立名為資料類型的新資料框架。您可以選取此框架來更新推論的資料類型。上傳單一資料集後,您會看到類似於以下影像所示的結果:

顯示 Data Wrangler 主控台中來源 - 取樣和資料類型的範例。

每次新增轉換步驟時,都將建立一個新的資料框架。將多個轉換步驟 (聯結串連除外) 新增至相同的資料集時,這些步驟會堆疊。

聯結串連會建立包含新聯結或串連資料集的獨立步驟。

下圖顯示兩個資料集之間聯結的資料流量,以及兩個步驟的堆疊。第一個堆疊 (步驟 (2)) 將兩個轉換新增至資料類型資料集所推論的類型。下游堆疊 (或右側的堆疊) 會將轉換新增至由名為 demo-join 的聯結所產生的資料集。

範例顯示 Data Wrangler 主控台的資料流程頁面中的步驟。

資料流量右下角的灰色小方塊可提供流程中堆疊數目和步驟數目以及流程配置的概觀。灰色方塊內較淺色的方塊會指示使用者介面檢視中的步驟。您可以使用此方塊來查看位於使用者介面檢視之外的資料流量區段。使用調整至符合螢幕的大小圖示 ( Dotted square outline icon representing a placeholder or empty state. ),將所有步驟和資料集放入使用者介面檢視中。

左下方導覽列包含可用來放大 ( Plus symbol icon representing an addition or new item action. ) 和縮小 ( Horizontal line or divider, typically used to separate content sections. ) 資料流程的圖示,以及調整資料流程大小以符合畫面 () Dotted square outline icon representing a placeholder or empty state. 。使用鎖定圖示 ( Trash can icon representing deletion or removal functionality. ) 可鎖定或解除鎖定螢幕上每個步驟的位置。

為資料流量新增步驟

選取任何資料集旁邊的 + 或先前新增的步驟,然後選取下列其中一個選項:

  • 編輯資料類型(僅適用於資料類型步驟):如果您尚未在資料類型步驟中新增任何轉換,可以選取編輯資料類型,以更新匯入資料集時 Data Wrangler 推論而來的資料類型。

  • 新增轉換:會新增轉換步驟。請參閱轉換資料,以進一步了解您可以新增的資料轉換。

  • Add analysis (新增分析):會新增分析內容。您可以使用此選項,在資料流量中的任何點分析資料。當您將一或多個分析新增至步驟時,該步驟上會出現一個分析圖示 ( Bar chart icon representing data visualization or analytics functionality. )。請參閱分析與視覺化,以進一步了解您可以新增的分析內容。

  • 聯結:聯結兩個資料集,並將產生的資料集新增至資料流量。如需進一步了解,請參閱 聯結資料集

  • 串連:串連兩個資料集,並將產生的資料集新增至資料流量。如需進一步了解,請參閱 串連資料集

從資料流量中刪除步驟

若要刪除步驟,請選取該步驟,然後選取刪除。如果節點是具有單一輸入的節點,則只會刪除您選取的步驟。刪除具有單一輸入的步驟,並不會刪除該步驟的後續步驟。如果您要刪除某來源、聯結或串連節點的步驟,則該步驟後續的所有步驟也會一併刪除。

若要從步驟堆疊中刪除步驟,請選取該堆疊,然後選取您要刪除的步驟。

您可以使用下列其中一個程序,來刪除某個步驟而非刪除下游步驟。

Delete a step in the Data Wrangler flow

您可以針對資料流量中具有單一輸入的節點刪除個別步驟。您無法刪除來源、聯結和串連節點的個別步驟。

使用下列程序刪除 Data Wrangler 流程中的某個步驟。

  1. 選擇具有您要刪除之步驟的步驟群組。

  2. 選擇該步驟旁的圖示。

  3. 選擇 Delete step (刪除步驟)。

    示範如何在 Data Wrangler 主控台的資料流程頁面中刪除步驟的範例。
Delete a step in the table view

使用下列程序來刪除資料表檢視中的步驟。

您可以針對資料流量中具有單一輸入的節點刪除個別步驟。您無法刪除來源、聯結和串連節點的個別步驟。

  1. 選擇該步驟並開啟步驟的資料表檢視。

  2. 將游標移至步驟上,以便顯示省略符號圖示。

  3. 選擇該步驟旁的圖示。

  4. 選擇 刪除

    示範如何在 Data Wrangler 主控台的資料表檢視中刪除步驟的範例。

編輯 Data Wrangler 流程中的步驟

您可以編輯在 Data Wrangler 流程中新增的每個步驟。透過編輯步驟,您可以變更資料欄的轉換或資料類型。您可以編輯步驟以進行變更,以便更妥善地執行分析。

您可以透過多種方式編輯步驟。一些範例包括變更推算方法或變更閾值,以將某值視為極端值。

使用下列程序來編輯步驟。

若要編輯步驟,請執行下列操作。

  1. 在 Data Wrangler 流程中選擇一個步驟,以開啟資料表檢視。

    Data Wrangler 主控台的資料流程頁面中的範例步驟。
  2. 在資料流量中選擇一個步驟。

  3. 編輯步驟。

下列影像顯示編輯步驟的範例。

示範如何在 Data Wrangler 主控台的資料流程頁面中編輯步驟的範例。
注意

您可以使用 Amazon SageMaker 網域中的共用空間,在 Data Wrangler 流程中協同作業。在共用空間內,您和您的協作者可以即時編輯流程檔案。不過,雙方彼此都無法即時查看變更內容。當任何人對 Data Wrangler 流程進行變更時,必須立即儲存。當有人儲存檔案時,除非關閉檔案並重新開啟,否則協作者將無法看到該檔案。任何未由任一人儲存的變更,都會被儲存變更的使用者覆寫。