本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
資料匯入
Amazon SageMaker Canvas 支援匯入資料表、映像和文件資料。您可以從本機機器、Amazon S3 和 Amazon Redshift 等 Amazon 服務,以及外部資料來源匯入資料集。從 Amazon S3 匯入資料集時,您可以攜帶任何大小的資料集。使用您匯入的資料集來建置模型並預測其他資料集。
您可以建立自訂模型的每個使用案例都接受不同類型的輸入。例如,如果您要建置單一標籤影像分類模型,則應匯入影像資料。如需有關不同模型類型及其接受資料的更多相關資訊,請參閱自訂模型的運作方式。您可以在 SageMaker Canvas 中為下列資料類型匯入資料並建置自訂模型:
-
資料表 (CSV、 Parquet 或 資料表)
分類 — 使用分類資料建置 2 和 3 個以上類別預測的自訂分類預測模型。
數字 — 使用數值資料建置自訂的數值預測模型。
文字 — 使用文字資料建置自訂的多類別文字預測模型。
時間序列 — 使用時間序列資料來建置自訂時間序列預測模型。
影像 (JPG 或 PNG) – 使用影像資料建置自訂的單標籤影像預測模型。
文件 (PDF、JPG、PNG、TIFF) – 僅 SageMaker Canvas Ready-to-use 模型支援文件資料。若要進一步了解 Ready-to-use可對文件資料進行預測的模型,請參閱 Ready-to-use 模型。
您可以從下列資料來源將資料匯入 Canvas:
本機電腦上的檔案
Amazon S3 儲存貯體
Amazon Redshift 佈建叢集 (非 Amazon Redshift Serverless)
AWS Glue Data Catalog 透過 Amazon Athena
-
Amazon Aurora
-
Amazon Relational Database Service (Amazon RDS)
-
Salesforce Data Cloud
Snowflake
-
透過JDBC連接器的 Databricks、、SQLServerMariaDB 和其他熱門資料庫
超過 40 個外部 SaaS 平台,例如 SAP OData
如需可匯入之資料來源的完整清單,請參閱下表:
來源 | Type | 支援的資料類型 |
---|---|---|
本機檔案上傳 |
區域 |
表格式、影像、文件 |
Amazon Aurora |
Amazon 內部 |
表格式 |
Amazon S3 儲存貯體 |
Amazon 內部 |
表格式、影像、文件 |
Amazon RDS |
Amazon 內部 |
表格式 |
Amazon Redshift 佈建叢集 (非 Redshift Serverless) |
Amazon 內部 |
表格式 |
AWS Glue Data Catalog (透過 Amazon Athena |
Amazon 內部 |
表格式 |
外部 |
表格式 |
|
Snowflake |
外部 |
表格式 |
外部 |
表格式 |
|
SQLServer |
外部 |
表格式 |
我的SQL |
外部 |
表格式 |
PostgreSQL |
外部 |
表格式 |
MariaDB |
外部 |
表格式 |
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
|
外部 SaaS 平台 |
表格式 |
如需有關如何匯入資料和輸入資料需求的資訊,例如影像的檔案大小上限等的指示,請參閱建立資料集。
Canvas 也在您的應用程式中提供多個範例資料集,協助您快速入門。若要進一步了解您可以使用 SageMaker提供的範例資料集,請參閱使用範例資料集 。
將資料集匯入 Canvas 之後,您可以隨時更新資料集。您可以進行手動更新,也可以設定自動更新資料集的排程。如需詳細資訊,請參閱更新資料集。
如需各個資料集類型的更多資訊,請參閱下列章節:
表格式
若要從外部資料來源 (例如 Snowflake 資料庫或 SaaS 平台) 匯入資料,您必須在 Canvas 應用程式中驗證並連線至資料來源。如需詳細資訊,請參閱連線至資料來源。
如果您想要將大於 5 GB 的資料集從 Amazon S3 匯入 Canvas,您可以使用 Amazon Athena 查詢和取樣 Amazon S3 中的資料,以取得更快的取樣。
在 Canvas 中建立資料集後,您可以使用 Data Wrangler 的資料準備功能來準備和轉換資料。您可以使用 Data Wrangler 來處理遺失值、轉換功能、將多個資料集聯結到單一資料集等。如需詳細資訊,請參閱資料準備。
提示
只要將資料排列到資料表中,就可以聯結來自各種來源的資料集,例如 Amazon Redshift、Amazon Athena 或 Snowflake。
影像
如需有關如何編輯影像資料集和執行指派或重新指派標籤、新增影像或刪除圖片等任務的資訊,請參閱編輯影像資料集。