本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立資料集
注意
如果您要將大於 5 GB 的資料集匯入 Amazon SageMaker Canvas,我們建議您使用 Canvas 中的 Data Wrangler 功能來建立資料流程。Data Wrangler 支援進階資料準備功能,例如聯結和串連資料。建立資料流程之後,您可以將資料流程匯出為 Canvas 資料集,並開始建置模型。如需詳細資訊,請參閱匯出以建立模型。
下列各節描述如何在 Amazon SageMaker Canvas 中建立資料集。針對自訂模型,您可以為表格式和影像資料建立資料集。對於Ready-to-use型模型,您可以使用表格式和影像資料集以及文件資料集。根據下列資訊選擇您的工作流程:
資料集可以由多個檔案組成。例如您可能有多個 CSV 格式的庫存資料檔案。只要檔案的結構描述 (或資料欄名稱和資料類型) 相符,您就可以將這些檔案作為資料集上傳。
Canvas 也支援管理資料集的多個版本。當您建立資料集時,第一版會標籤為 V1
。您可以透過更新您的資料集來建立新版本的資料集。您可以進行手動更新,或者設定自動以新資料更新資料集的排程。如需詳細資訊,請參閱更新資料集。
將您的資料匯入至 Canvas 時,必須確保其符合下列資料表中的 要求。此為您要建置的模型類型特定限制。
限制 | 2 個類別、3 個以上類別、數值和時間序列模型 | 文字預測模型 | 影像預測模型 | *即用型模型的文件資料 |
---|---|---|---|---|
支援的檔案類型 |
CSV 和 Parquet (本機上傳、Amazon S3 或資料庫) JSON (資料庫) |
CSV 和 Parquet (本機上傳、Amazon S3 或資料庫) JSON (資料庫) |
JPG、PNG |
PDF、JPG、PNG、TIFF |
檔案大小上限 |
本機上傳:5 GB 資料來源:PBs |
本機上傳:5 GB 資料來源:PBs |
每個影像 30 MB |
每份文件 5 MB |
您可以一次上傳的檔案數量上限 |
30 |
30 |
N/A |
N/A |
欄數上限 |
1,000 |
1,000 |
N/A |
N/A |
快速建置的項目數上限 (列、影像或文件) |
N/A |
7500 列 |
5000 張影像 |
N/A |
標準建置的項目數上限 (列、影像或文件) |
N/A |
150,000 列 |
180,000 張影像 |
N/A |
快速建置的項目數下限 (列) |
2 個類別:500 列 3 個以上類別、數值、時間序列:N/A |
N/A |
N/A |
N/A |
標準建置的項目數下限 (列、影像或文件) |
250 列 |
50 列 |
50 張影像 |
N/A |
每個標籤的項目數下限 (列或影像) |
N/A |
25 列 |
25 列 |
N/A |
標籤數量下限 |
2 個類別:2 3 個以上類別:3 數值、時間序列:N/A |
2 |
2 |
N/A |
隨機採樣的範例大小下限 |
500 |
N/A |
N/A |
N/A |
隨機採樣的範例大小上限 |
200,000 |
N/A |
N/A |
N/A |
標籤數量上限 |
2 個類別:2 3 個以上類別、數值、時間序列:N/A |
1000 |
1000 |
N/A |
*文件資料目前僅支援接受文件資料的即用型模型。您無法使用文件資料建立自訂模型。
也請注意以下限制:
-
從 Amazon S3 儲存貯體匯入資料時,請確定您的 Amazon S3 儲存貯體名稱不包含
.
。如果您的儲存貯體名稱包含.
,則嘗試將資料匯入 Canvas 時可能會遇到錯誤。 -
針對表格式資料,Canvas 不允許針對本機上傳和 Amazon S3 匯入選取副檔名為 .csv、.parquet、.parq 和 .pqt 以外的任何副檔名的檔案。CSV 檔案可以使用任何常用或自訂分隔符號,除了表示新資料列時,它們不得有新行字元。
-
針對使用 Parquet 檔案的表格式資料,請注意下列事項:
-
針對影像資料,如果您有任何未標籤的影像,則必須在建置模型之前加以標籤。如需如何在 Canvas 應用程式中為影像指派標籤的詳細資訊,請參閱編輯影像資料集。
-
如果您設定了自動資料集更新或自動批次預測組態,您只能在 Canvas 應用程式中建立總共 20 個組態。如需更多更多資訊,請參閱如何管理自動化。
匯入資料集之後,您可以隨時在資料集頁面上檢視您的資料集。
匯入表格式資料
使用表格式資料集,您可以建立分類、數值、時間序列預測和文字預測模型。檢閱上述匯入資料集一節中的限制表,以確保您的資料符合表格式資料的需求。
請遵循下列程序將表格式資料集匯入 Canvas:
-
開啟您的 SageMaker Canvas 應用程式。
-
在左側的導覽窗格中,選擇資料集。
-
選擇匯入資料。
-
從下拉式功能表中,選擇表格式。
-
在快顯對話方塊的資料集名稱欄位中,輸入資料集的名稱,然後選擇建立。
-
在建立表格式資料集頁面上,開啟資料來源下拉式功能表。
-
選擇您的資料來源:
-
若要從您的電腦上傳檔案,請選擇本機上傳。
-
若要從其他來源,例如 Amazon S3 儲存貯體或 Snowflake 資料庫等匯入資料,請在搜尋資料來源列中搜尋您的資料來源。然後,選擇所需的資料來源圖磚。
注意
您只能從具有作用中連線的圖磚匯入資料。如果您要連線至無法使用的資料來源,請聯絡您的管理員。如果您是管理員,請參閱連線至資料來源。
下列螢幕擷取畫面顯示資料來源下拉式清單。
-
-
(選項) 如果您是第一次連線至 Amazon Redshift 或 Snowflake 資料庫,則會出現一個對話方塊來建立連線。使用您的憑證填寫對話方塊,然後選擇建立連線。如果您已有連線,請選擇您的連線。
-
從資料來源中,選取要匯入的檔案。針對從本機上傳和 Amazon S3 匯入,您可以選取檔案。對於僅限 Amazon S3,您也可以選擇直接在輸入 S3 端點欄位中輸入儲存貯體或 S3 存取點的 S3 URI、別名或 ARN,然後選擇要匯入的檔案。 S3 針對資料庫來源,您可以從左側導覽窗格拖放資料表。
-
(選用) 對於支援 SQL 查詢的表格式資料來源 (例如 Amazon Redshift、Amazon Athena 或 Snowflake),您可以選擇在 SQL 中編輯,以在匯入前進行 SQL 查詢。
下列螢幕擷取畫面顯示 Amazon Athena 資料來源的編輯 SQL 檢視。
-
選擇預覽資料集以在匯入資料之前預覽資料。
-
在匯入設定中,輸入資料集名稱或使用預設資料集名稱。
-
(選用) 對於您從 Amazon S3 匯入的資料,您會看到進階設定,並且可以填寫下列欄位:
如果您想要使用資料集的第一列做為資料欄名稱,請在 上切換使用第一列做為標頭選項。如果您選取多個檔案,這適用於每個檔案。
如果您要匯入 CSV 檔案,請針對檔案編碼 (CSV) 下拉式清單選取資料集檔案的編碼。
UTF-8
是預設值。針對分隔符號下拉式清單,選取分隔資料中每個儲存格的分隔符號。預設分隔符號為
,
。您也可以指定自訂分隔符號。如果您想要 Canvas 手動剖析多行儲存格的整個資料集,請選取多行偵測。根據預設,不會選取此選項,Canvas 會透過取得資料範例來決定是否使用多行支援。不過,Canvas 可能不會偵測到樣本中的任何多行儲存格。如果您有多行儲存格,建議您選取多行偵測選項,強制 Canvas 檢查整個資料集是否有多行儲存格。
當您準備好匯入資料時,請選擇建立資料集。
將資料集匯入 Canvas 時,您可以在資料集頁面上看到您的資料集清單。在此頁面上,您可以檢視資料集詳細資訊。
當您的資料集狀態顯示為 Ready
時,Canvas 已成功匯入資料,您可以繼續建置模型。
如果您有資料來源 (例如 Amazon Redshift 資料庫或 SaaS 連接器) 的連線,則您可以返回該連線。針對 Amazon Redshift 和 Snowflake,您可以建立另一個資料集、返回至匯入資料頁面,然後選擇該連線的資料來源圖磚,以新增另一個連線。從下拉式清單中,您可以開啟先前的連線或選擇新增連線。
注意
針對 SaaS 平台,每個資料來源只能有一個連線。
匯入影像資料
您可以透過影像資料集建置單一標籤影像預測自訂模型,以預測影像的標籤。請檢閱前面匯入資料集章節中的限制,以確定您的影像資料集符合影像資料的需求。
注意
您只能從本機檔案上傳或 Amazon S3 儲存貯體匯入影像資料集。此外,針對影像資料集,每個標籤至少必須有 25 個影像。
請使用下列程序將影像資料集匯入 Canvas:
-
開啟您的 SageMaker Canvas 應用程式。
-
在左側的導覽窗格中,選擇資料集。
-
選擇匯入資料。
-
從下拉式清單中選擇影像。
-
在快顯對話方塊的資料集名稱欄位中,輸入資料集的名稱,然後選擇建立。
-
在匯入頁面上,開啟資料來源下拉式清單。
-
選擇您的資料來源。若要從您的電腦上傳檔案,請選擇本機上傳。若要從 Amazon S3 匯入檔案,請選擇 Amazon S3。
-
從電腦或 Amazon S3 儲存貯體中,選取您要上傳的影像或影像資料夾。
-
當您準備好匯入您的資料時,請選擇匯入資料。
將資料集匯入 Canvas 時,您可以在資料集頁面上看到您的資料集清單。在此頁面上,您可以檢視資料集詳細資訊。
當您的資料集狀態顯示為 Ready
時,Canvas 已成功匯入資料,您可以繼續建置模型。
建置模型時您可以編輯影像資料集,也可以指派或重新指派標籤、新增影像或刪除資料集中的影像。如需編輯影像資料集的更多相關資訊,請參閱編輯影像資料集。
匯入文件資料
用於費用分析、身分文件分析、文件分析和文件查詢的即用型模型支援文件資料。您無法使用文件資料建立自訂模型。
透過文件資料即,您可以產生費用分析、身分文件分析、文件分析和文件查詢即用型模型的預測。請檢閱建立資料集章節中的限制表格,以確定您的文件資料集符合文件資料的需求。
注意
您只能從本機檔案上傳或 Amazon S3 儲存貯體匯入文件資料集。
請遵循下列程序將文件資料集匯入 Canvas:
-
開啟您的 SageMaker Canvas 應用程式。
-
在左側的導覽窗格中,選擇資料集。
-
選擇匯入資料。
-
在下拉式清單中選擇文件。
-
在快顯對話方塊的資料集名稱欄位中,輸入資料集的名稱,然後選擇建立。
-
在匯入頁面上,開啟資料來源下拉式清單。
-
選擇您的資料來源。若要從您的電腦上傳檔案,請選擇本機上傳。若要從 Amazon S3 匯入檔案,請選擇 Amazon S3。
-
從電腦或 Amazon S3 儲存貯體中,選取您要上傳的文件檔案。
-
當您準備好匯入您的資料時,請選擇匯入資料。
將資料集匯入 Canvas 時,您可以在資料集頁面上看到您的資料集清單。在此頁面上,您可以檢視資料集詳細資訊。
當您的資料集的狀態顯示為時 Ready
,Canvas 已成功匯入您的資料。
在資料集頁面上,您可以選擇要預覽的資料集,最多可顯示您的資料集的前 100 個文件。
檢視資料集詳細資訊
針對每個資料集,您可以檢視資料集中的所有檔案、資料集的版本歷史記錄,以及資料集的任何自動更新組態。您也可以從資料集頁面啟動動作,例如更新資料集或自訂模型的運作方式。
若要檢視資料集的詳細資訊,請執行下列動作:
-
開啟 SageMaker Canvas 應用程式。
-
在左側的導覽窗格中,選擇 Datasets (資料集)。
-
從資料集清單中,選擇您的資料集。
在資料索引標籤上,您可以檢視資料的預覽。如果您選擇資料集詳細資訊,您可以檢視屬於您的資料集的所有檔案。選擇檔案以在預覽中僅查看該檔案中的資料。針對影像資料集,預覽只會顯示資料集的前 100 個影像。
在版本歷史記錄索引標籤上,您可以看到資料集所有版本的清單。每當您更新資料集時就會建立新版本。若要進一步了解如何更新資料集,請參閱更新資料集。下面的螢幕擷取畫面顯示了 Canvas 應用程式的版本歷史記錄索引標籤。

在自動更新索引標籤上,您可以啟用資料集的自動更新,並設定定期更新資料集的排程組態。若要進一步了解如何設定資料集的自動更新,請參閱設定資料集的自動更新。下列螢幕擷取畫面顯示已開啟自動更新的自動更新索引標籤,以及已在資料集上執行的自動更新工作清單。
