選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

匯出資料

焦點模式
匯出資料 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

匯出資料,將資料流程的轉換套用至完整匯入的資料集。您可以將資料流程中的任何節點匯出至下列位置:

  • SageMaker Canvas 資料集

  • Amazon S3

如果您想要在 Canvas 中訓練模型,您可以將完整轉換的資料集匯出為 Canvas 資料集。如果您想要在 SageMaker Canvas 外部的機器學習工作流程中使用轉換後的資料,您可以將資料集匯出至 Amazon S3。

匯出至 Canvas 資料集

使用下列程序從資料流程中的節點匯出 SageMaker Canvas 資料集。

將流程中的節點匯出為 SageMaker Canvas 資料集
  1. 導覽至您的資料流程。

  2. 選擇您要匯出之節點旁的省略圖示。

  3. 在內容功能表中,將滑鼠游標移至匯出,然後選取將資料匯出至 Canvas 資料集

  4. 匯出至 Canvas 資料集側邊面板中,輸入新資料集的資料集名稱

  5. 如果您希望 SageMaker Canvas 處理和儲存完整的資料集,請保留選取整個資料集的處理選項。關閉此選項只會將轉換套用至您在資料流程中使用的範例資料。

  6. 選擇 Export (匯出)。

您現在應該可以前往 Canvas 應用程式的資料集頁面,並查看新的資料集。

匯出至 Amazon S3

將資料匯出至 Amazon S3 時,您可以擴展以轉換和處理任何大小的資料。如果應用程式的記憶體可以處理資料集的大小,Canvas 會自動在本機處理您的資料。如果您的資料集大小超過 5 GB 的本機記憶體容量,則 Canvas 會代表您啟動遠端任務,以佈建其他運算資源,並更快速地處理資料。根據預設,Canvas 會使用 Amazon EMR Serverless 來執行這些遠端任務。不過,您可以手動設定 Canvas 以使用 EMR Serverless 或 SageMaker Processing 任務搭配您自己的設定。

注意

執行 EMR Serverless 任務時,該任務預設會繼承 Canvas 應用程式的 IAM 角色、KMS 金鑰設定和標籤。

下列摘要說明 Canvas 中遠端任務的選項:

  • EMR Serverless:這是 Canvas 用於遠端任務的預設選項。EMR Serverless 會自動佈建和擴展運算資源以處理您的資料,讓您不必擔心為工作負載選擇正確的運算資源。如需 EMR Serverless 的詳細資訊,請參閱 EMR Serverless 使用者指南

  • SageMaker Processing:SageMaker Processing 任務提供更進階的選項,並精細控制用於處理資料的運算資源。例如,您可以指定運算執行個體的類型和計數、在自己的 VPC 中設定任務,以及控制網路存取、自動化處理任務等。如需自動化處理任務的詳細資訊,請參閱建立排程以自動處理新資料。如需 SageMaker 處理任務的一般資訊,請參閱 使用 SageMaker Processing 的資料轉換工作負載

匯出至 Amazon S3 時支援下列檔案類型:

  • CSV

  • Parquet

若要開始使用,請檢閱下列先決條件。

EMR Serverless 任務的先決條件

若要建立使用 EMR Serverless 資源的遠端任務,您必須擁有必要的許可。您可以透過 Amazon SageMaker AI 網域或使用者設定檔設定授予許可,也可以手動設定使用者的 IAM AWS 角色。如需如何授予使用者執行大型資料處理許可的說明,請參閱 授予使用者在整個 ML 生命週期使用大型資料的許可

如果您不想設定這些政策,但仍需要透過 Data Wrangler 處理大型資料集,您也可以使用 SageMaker 處理任務。

使用下列程序將您的資料匯出至 Amazon S3。若要設定遠端任務,請遵循選用的進階步驟。

將流程中的節點匯出至 Amazon S3
  1. 導覽至您的資料流程。

  2. 選擇您要匯出之節點旁的省略圖示。

  3. 在內容功能表中,將滑鼠游標移至匯出,然後選取將資料匯出至 Amazon S3

  4. 匯出至 Amazon S3 側邊面板中,您可以變更新資料集的資料集名稱

  5. 針對 S3 位置,輸入您要匯出資料集的 Amazon S3 位置。您可以輸入 S3 位置或 S3 存取點的 S3 URI、別名或 ARN。如需存取點的詳細資訊,請參閱《Amazon S3 使用者指南》中的使用 Amazon S3 存取點管理資料存取Amazon S3

  6. (選用) 針對進階設定,指定下列欄位的值:

    1. 檔案類型 – 匯出資料的檔案格式。

    2. Delimiter – 用來分隔檔案中值的分隔符號。

    3. 壓縮 – 用來減少檔案大小的壓縮方法。

    4. 分割區數目 – Canvas 寫入做為任務輸出的資料集檔案數目。

    5. 選擇資料欄 – 您可以從要包含在分割區中的資料中選擇資料欄子集。

  7. 如果您希望 Canvas 將資料流程轉換套用至整個資料集,並匯出結果,請保留選取處理整個資料集選項。如果您取消選取此選項,Canvas 只會將轉換套用至互動式 Data Wrangler 資料流程中所使用的資料集範例。

    注意

    如果您只匯出資料的範例,Canvas 會在應用程式中處理您的資料,而不會為您建立遠端任務。

  8. 如果您希望 Canvas 自動判斷要使用 Canvas 應用程式記憶體還是 EMR Serverless 任務執行任務,請保留選取自動任務組態選項。如果您取消選取此選項並手動設定任務,則可以選擇使用 EMR Serverless 或 SageMaker Processing 任務。如需有關如何設定 EMR Serverless 或 SageMaker Processing 任務的說明,請在匯出資料之前參閱此程序後的 一節。

  9. 選擇 Export (匯出)。

下列程序示範如何在將完整資料集匯出至 Amazon S3 時,手動設定 EMR Serverless 或 SageMaker Processing 的遠端任務設定。

EMR Serverless

若要在匯出至 Amazon S3 時設定 EMR Serverless 任務,請執行下列動作:

  1. 在匯出至 Amazon S3 側邊面板中,關閉自動任務組態選項。

  2. 選取 EMR Serverless

  3. 針對任務名稱,輸入 EMR Serverless 任務的名稱。名稱可以包含字母、數字、連字號和底線。

  4. 針對 IAM 角色,輸入使用者的 IAM 執行角色。此角色應具備執行 EMR Serverless 應用程式所需的許可。如需詳細資訊,請參閱授予使用者在整個 ML 生命週期使用大型資料的許可

  5. (選用) 對於 KMS 金鑰,指定 的金鑰 ID 或 ARN AWS KMS key 來加密任務日誌。如果您未輸入金鑰,Canvas 會使用 EMR Serverless 的預設金鑰。

  6. (選用) 針對監控組態,輸入您要發佈日誌的 Amazon CloudWatch Logs 日誌群組名稱。

  7. (選用) 對於標籤,將中繼資料標籤新增至由索引鍵/值對組成的 EMR Serverless 任務。這些標籤可用於分類和搜尋任務。

  8. 選擇 Export (匯出),啟動工作。

SageMaker Processing

若要在匯出至 Amazon S3 時設定 SageMaker 處理任務,請執行下列動作:

  1. 匯出至 Amazon S3 側邊面板中,關閉自動任務組態選項。

  2. 選取 SageMaker Processing

  3. 針對任務名稱,輸入 SageMaker AI Processing 任務的名稱。

  4. 針對執行個體類型,選取要執行處理任務的運算執行個體類型。

  5. 針對執行個體計數,指定要啟動的運算執行個體數量。

  6. 針對 IAM 角色,輸入使用者的 IAM 執行角色。此角色應具備必要的許可,讓 SageMaker AI 代表您建立和執行處理任務。如果您將 AmazonSageMakerFullAccess 政策連接至 IAM 角色,則會授予這些許可。

  7. 針對磁碟區大小,輸入連接到每個處理執行個體的 ML 儲存磁碟區的儲存體大小,以 GB 為單位。根據預期的輸入和輸出資料大小選擇大小。

  8. (選用) 對於磁碟區 KMS 金鑰,指定 KMS 金鑰來加密儲存磁碟區。如果您未指定金鑰,則會使用預設的 Amazon EBS 加密金鑰。

  9. (選用) 對於 KMS 金鑰,指定 KMS 金鑰來加密處理任務所使用的輸入和輸出 Amazon S3 資料來源。

  10. (選用) 針對 Spark 記憶體組態,請執行下列動作:

    1. 針對處理任務協調和排程的 Spark 驅動程式節點,以 MB 為單位輸入驅動程式記憶體

    2. 針對在任務中執行個別任務的 Spark 執行器節點,以 MB 為單位輸入執行器記憶體

  11. (選用) 對於網路組態,請執行下列動作:

    1. 針對子網路組態,輸入要在其中啟動之處理執行個體的 VPC 子網路 IDs。根據預設,任務會使用預設 VPC 的設定。

    2. 針對安全群組組態,輸入安全群組IDs,以控制傳入和傳出連線規則。

    3. 開啟啟用容器間流量加密選項,以在任務期間加密處理容器之間的網路通訊。

  12. (選用) 對於關聯排程,您可以選擇建立 Amazon EventBridge 排程,讓處理任務以週期性間隔執行。選擇建立新排程並填寫對話方塊。如需填寫本節並依排程執行處理任務的詳細資訊,請參閱 建立排程以自動處理新資料

  13. (選用) 將標籤新增為鍵值對,以便您可以分類和搜尋處理任務。

  14. 選擇匯出以開始處理任務。

若要在匯出至 Amazon S3 時設定 EMR Serverless 任務,請執行下列動作:

  1. 在匯出至 Amazon S3 側邊面板中,關閉自動任務組態選項。

  2. 選取 EMR Serverless

  3. 針對任務名稱,輸入 EMR Serverless 任務的名稱。名稱可以包含字母、數字、連字號和底線。

  4. 針對 IAM 角色,輸入使用者的 IAM 執行角色。此角色應具備執行 EMR Serverless 應用程式所需的許可。如需詳細資訊,請參閱授予使用者在整個 ML 生命週期使用大型資料的許可

  5. (選用) 對於 KMS 金鑰,指定 的金鑰 ID 或 ARN AWS KMS key 來加密任務日誌。如果您未輸入金鑰,Canvas 會使用 EMR Serverless 的預設金鑰。

  6. (選用) 針對監控組態,輸入您要發佈日誌的 Amazon CloudWatch Logs 日誌群組名稱。

  7. (選用) 對於標籤,將中繼資料標籤新增至由索引鍵/值對組成的 EMR Serverless 任務。這些標籤可用於分類和搜尋任務。

  8. 選擇 Export (匯出),啟動工作。

匯出資料後,您應該會在指定的 Amazon S3 位置找到完全處理的資料集。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。