建立資料集 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立資料集

注意

如果您要將大於 5 GB 的資料集匯入 Amazon SageMaker Canvas,我們建議您使用 Canvas 中的 Data Wrangler 功能來建立資料流程。Data Wrangler 支援進階資料準備功能,例如聯結串連資料。建立資料流程之後,您可以將資料流程匯出為 Canvas 資料集,並開始建置模型。如需詳細資訊,請參閱匯出以建立模型

下列各節描述如何在 Amazon SageMaker Canvas 中建立資料集。針對自訂模型,您可以為表格式和影像資料建立資料集。對於Ready-to-use型模型,您可以使用表格式和影像資料集以及文件資料集。根據下列資訊選擇您的工作流程:

資料集可以由多個檔案組成。例如您可能有多個 CSV 格式的庫存資料檔案。只要檔案的結構描述 (或資料欄名稱和資料類型) 相符,您就可以將這些檔案作為資料集上傳。

Canvas 也支援管理資料集的多個版本。當您建立資料集時,第一版會標籤為 V1。您可以透過更新您的資料集來建立新版本的資料集。您可以進行手動更新,或者設定自動以新資料更新資料集的排程。如需詳細資訊,請參閱更新資料集

將您的資料匯入至 Canvas 時,必須確保其符合下列資料表中的 要求。此為您要建置的模型類型特定限制。

限制 2 個類別、3 個以上類別、數值和時間序列模型 文字預測模型 影像預測模型 *即用型模型的文件資料

支援的檔案類型

CSV 和 Parquet (本機上傳、Amazon S3 或資料庫)

JSON (資料庫)

CSV 和 Parquet (本機上傳、Amazon S3 或資料庫)

JSON (資料庫)

JPG、PNG

PDF、JPG、PNG、TIFF

檔案大小上限

本機上傳:5 GB

資料來源:PBs

本機上傳:5 GB

資料來源:PBs

每個影像 30 MB

每份文件 5 MB

您可以一次上傳的檔案數量上限

30

30

N/A

N/A

欄數上限

1,000

1,000

N/A

N/A

快速建置的項目數上限 (列、影像或文件)

N/A

7500 列

5000 張影像

N/A

標準建置的項目數上限 (列、影像或文件)

N/A

150,000 列

180,000 張影像

N/A

快速建置的項目數下限 (列)

2 個類別:500 列

3 個以上類別、數值、時間序列:N/A

N/A

N/A

N/A

標準建置的項目數下限 (列、影像或文件)

250 列

50 列

50 張影像

N/A

每個標籤的項目數下限 (列或影像)

N/A

25 列

25 列

N/A

標籤數量下限

2 個類別:2

3 個以上類別:3

數值、時間序列:N/A

2

2

N/A

隨機採樣的範例大小下限

500

N/A

N/A

N/A

隨機採樣的範例大小上限

200,000

N/A

N/A

N/A

標籤數量上限

2 個類別:2

3 個以上類別、數值、時間序列:N/A

1000

1000

N/A

*文件資料目前僅支援接受文件資料的即用型模型。您無法使用文件資料建立自訂模型。

也請注意以下限制:

  • 從 Amazon S3 儲存貯體匯入資料時,請確定您的 Amazon S3 儲存貯體名稱不包含 .。如果您的儲存貯體名稱包含 .,則嘗試將資料匯入 Canvas 時可能會遇到錯誤。

  • 針對表格式資料,Canvas 不允許針對本機上傳和 Amazon S3 匯入選取副檔名為 .csv、.parquet、.parq 和 .pqt 以外的任何副檔名的檔案。CSV 檔案可以使用任何常用或自訂分隔符號,除了表示新資料列時,它們不得有新行字元。

  • 針對使用 Parquet 檔案的表格式資料,請注意下列事項:

    • Parquet 檔案不能包含例如地圖和清單等複雜類型。

    • Parquet 檔案的欄位名稱不可含有空格。

    • 如果使用壓縮,則 Parquet 檔案必須使用 gzip 或 Snappy 壓縮類型。如需有關前面壓縮類型的更多相關資訊,請參閱 gzip 文件snappy 文件

  • 針對影像資料,如果您有任何未標籤的影像,則必須在建置模型之前加以標籤。如需如何在 Canvas 應用程式中為影像指派標籤的詳細資訊,請參閱編輯影像資料集

  • 如果您設定了自動資料集更新或自動批次預測組態,您只能在 Canvas 應用程式中建立總共 20 個組態。如需更多更多資訊,請參閱如何管理自動化

匯入資料集之後,您可以隨時在資料集頁面上檢視您的資料集。

匯入表格式資料

使用表格式資料集,您可以建立分類、數值、時間序列預測和文字預測模型。檢閱上述匯入資料集一節中的限制表,以確保您的資料符合表格式資料的需求。

請遵循下列程序將表格式資料集匯入 Canvas:

  1. 開啟您的 SageMaker Canvas 應用程式。

  2. 在左側的導覽窗格中,選擇資料集

  3. 選擇匯入資料

  4. 從下拉式功能表中,選擇表格式

  5. 在快顯對話方塊的資料集名稱欄位中,輸入資料集的名稱,然後選擇建立

  6. 建立表格式資料集頁面上,開啟資料來源下拉式功能表。

  7. 選擇您的資料來源:

    • 若要從您的電腦上傳檔案,請選擇本機上傳

    • 若要從其他來源,例如 Amazon S3 儲存貯體或 Snowflake 資料庫等匯入資料,請在搜尋資料來源列中搜尋您的資料來源。然後,選擇所需的資料來源圖磚。

      注意

      您只能從具有作用中連線的圖磚匯入資料。如果您要連線至無法使用的資料來源,請聯絡您的管理員。如果您是管理員,請參閱連線至資料來源

    下列螢幕擷取畫面顯示資料來源下拉式清單。

    顯示資料來源下拉式清單,以及搜尋列中資料來源搜尋的螢幕擷取畫面。
  8. (選項) 如果您是第一次連線至 Amazon Redshift 或 Snowflake 資料庫,則會出現一個對話方塊來建立連線。使用您的憑證填寫對話方塊,然後選擇建立連線。如果您已有連線,請選擇您的連線。

  9. 從資料來源中,選取要匯入的檔案。針對從本機上傳和 Amazon S3 匯入,您可以選取檔案。對於僅限 Amazon S3,您也可以選擇直接在輸入 S3 端點欄位中輸入儲存貯體或 S3 存取點的 S3 URI、別名或 ARN,然後選擇要匯入的檔案。 S3 針對資料庫來源,您可以從左側導覽窗格拖放資料表。

  10. (選用) 對於支援 SQL 查詢的表格式資料來源 (例如 Amazon Redshift、Amazon Athena 或 Snowflake),您可以選擇在 SQL 中編輯,以在匯入前進行 SQL 查詢。

    下列螢幕擷取畫面顯示 Amazon Athena 資料來源的編輯 SQL 檢視。

    顯示 Amazon Athena 資料的編輯 SQL 檢視中的 SQL 查詢的螢幕擷取畫面。
  11. 選擇預覽資料集以在匯入資料之前預覽資料。

  12. 匯入設定中,輸入資料集名稱或使用預設資料集名稱。

  13. (選用) 對於您從 Amazon S3 匯入的資料,您會看到進階設定,並且可以填寫下列欄位:

    1. 如果您想要使用資料集的第一列做為資料欄名稱,請在 上切換使用第一列做為標頭選項。如果您選取多個檔案,這適用於每個檔案。

    2. 如果您要匯入 CSV 檔案,請針對檔案編碼 (CSV) 下拉式清單選取資料集檔案的編碼。 UTF-8是預設值。

    3. 針對分隔符號下拉式清單,選取分隔資料中每個儲存格的分隔符號。預設分隔符號為 ,。您也可以指定自訂分隔符號。

    4. 如果您想要 Canvas 手動剖析多行儲存格的整個資料集,請選取多行偵測。根據預設,不會選取此選項,Canvas 會透過取得資料範例來決定是否使用多行支援。不過,Canvas 可能不會偵測到樣本中的任何多行儲存格。如果您有多行儲存格,建議您選取多行偵測選項,強制 Canvas 檢查整個資料集是否有多行儲存格。

  14. 當您準備好匯入資料時,請選擇建立資料集

將資料集匯入 Canvas 時,您可以在資料集頁面上看到您的資料集清單。在此頁面上,您可以檢視資料集詳細資訊

當您的資料集狀態顯示為 Ready 時,Canvas 已成功匯入資料,您可以繼續建置模型

如果您有資料來源 (例如 Amazon Redshift 資料庫或 SaaS 連接器) 的連線,則您可以返回該連線。針對 Amazon Redshift 和 Snowflake,您可以建立另一個資料集、返回至匯入資料頁面,然後選擇該連線的資料來源圖磚,以新增另一個連線。從下拉式清單中,您可以開啟先前的連線或選擇新增連線

注意

針對 SaaS 平台,每個資料來源只能有一個連線。

匯入影像資料

您可以透過影像資料集建置單一標籤影像預測自訂模型,以預測影像的標籤。請檢閱前面匯入資料集章節中的限制,以確定您的影像資料集符合影像資料的需求。

注意

您只能從本機檔案上傳或 Amazon S3 儲存貯體匯入影像資料集。此外,針對影像資料集,每個標籤至少必須有 25 個影像。

請使用下列程序將影像資料集匯入 Canvas:

  1. 開啟您的 SageMaker Canvas 應用程式。

  2. 在左側的導覽窗格中,選擇資料集

  3. 選擇匯入資料

  4. 從下拉式清單中選擇影像

  5. 在快顯對話方塊的資料集名稱欄位中,輸入資料集的名稱,然後選擇建立

  6. 匯入頁面上,開啟資料來源下拉式清單。

  7. 選擇您的資料來源。若要從您的電腦上傳檔案,請選擇本機上傳。若要從 Amazon S3 匯入檔案,請選擇 Amazon S3

  8. 從電腦或 Amazon S3 儲存貯體中,選取您要上傳的影像或影像資料夾。

  9. 當您準備好匯入您的資料時,請選擇匯入資料

將資料集匯入 Canvas 時,您可以在資料集頁面上看到您的資料集清單。在此頁面上,您可以檢視資料集詳細資訊

當您的資料集狀態顯示為 Ready 時,Canvas 已成功匯入資料,您可以繼續建置模型

建置模型時您可以編輯影像資料集,也可以指派或重新指派標籤、新增影像或刪除資料集中的影像。如需編輯影像資料集的更多相關資訊,請參閱編輯影像資料集

匯入文件資料

用於費用分析、身分文件分析、文件分析和文件查詢的即用型模型支援文件資料。您無法使用文件資料建立自訂模型。

透過文件資料即,您可以產生費用分析、身分文件分析、文件分析和文件查詢即用型模型的預測。請檢閱建立資料集章節中的限制表格,以確定您的文件資料集符合文件資料的需求。

注意

您只能從本機檔案上傳或 Amazon S3 儲存貯體匯入文件資料集。

請遵循下列程序將文件資料集匯入 Canvas:

  1. 開啟您的 SageMaker Canvas 應用程式。

  2. 在左側的導覽窗格中,選擇資料集

  3. 選擇匯入資料

  4. 在下拉式清單中選擇文件

  5. 在快顯對話方塊的資料集名稱欄位中,輸入資料集的名稱,然後選擇建立

  6. 匯入頁面上,開啟資料來源下拉式清單。

  7. 選擇您的資料來源。若要從您的電腦上傳檔案,請選擇本機上傳。若要從 Amazon S3 匯入檔案,請選擇 Amazon S3

  8. 從電腦或 Amazon S3 儲存貯體中,選取您要上傳的文件檔案。

  9. 當您準備好匯入您的資料時,請選擇匯入資料

將資料集匯入 Canvas 時,您可以在資料集頁面上看到您的資料集清單。在此頁面上,您可以檢視資料集詳細資訊

當您的資料集的狀態顯示為時 Ready,Canvas 已成功匯入您的資料。

資料集頁面上,您可以選擇要預覽的資料集,最多可顯示您的資料集的前 100 個文件。

檢視資料集詳細資訊

針對每個資料集,您可以檢視資料集中的所有檔案、資料集的版本歷史記錄,以及資料集的任何自動更新組態。您也可以從資料集頁面啟動動作,例如更新資料集自訂模型的運作方式

若要檢視資料集的詳細資訊,請執行下列動作:

  1. 開啟 SageMaker Canvas 應用程式。

  2. 在左側的導覽窗格中,選擇 Datasets (資料集)。

  3. 從資料集清單中,選擇您的資料集。

資料索引標籤上,您可以檢視資料的預覽。如果您選擇資料集詳細資訊,您可以檢視屬於您的資料集的所有檔案。選擇檔案以在預覽中僅查看該檔案中的資料。針對影像資料集,預覽只會顯示資料集的前 100 個影像。

版本歷史記錄索引標籤上,您可以看到資料集所有版本的清單。每當您更新資料集時就會建立新版本。若要進一步了解如何更新資料集,請參閱更新資料集。下面的螢幕擷取畫面顯示了 Canvas 應用程式的版本歷史記錄索引標籤。

資料集版本歷史記錄索引標籤螢幕擷取畫面,以及資料集版本清單。

自動更新索引標籤上,您可以啟用資料集的自動更新,並設定定期更新資料集的排程組態。若要進一步了解如何設定資料集的自動更新,請參閱設定資料集的自動更新。下列螢幕擷取畫面顯示已開啟自動更新的自動更新索引標籤,以及已在資料集上執行的自動更新工作清單。

資料集的自動更新索引標籤,顯示自動更新已開啟,以及自動更新任務的清單。