資料匯入 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料匯入

Amazon SageMaker Canvas 支援匯入資料表、映像和文件資料。您可以從本機機器、Amazon S3 和 Amazon Redshift 等 Amazon 服務,以及外部資料來源匯入資料集。從 Amazon S3 匯入資料集時,您可以攜帶任何大小的資料集。使用您匯入的資料集來建置模型並預測其他資料集。

您可以建立自訂模型的每個使用案例都接受不同類型的輸入。例如,如果您要建置單一標籤影像分類模型,則應匯入影像資料。如需有關不同模型類型及其接受資料的更多相關資訊,請參閱自訂模型的運作方式。您可以在 SageMaker Canvas 中為下列資料類型匯入資料並建置自訂模型:

  • 資料表 (CSV、 Parquet 或 資料表)

    • 分類 — 使用分類資料建置 2 和 3 個以上類別預測的自訂分類預測模型。

    • 數字 — 使用數值資料建置自訂的數值預測模型。

    • 文字 — 使用文字資料建置自訂的多類別文字預測模型。

    • 時間序列 — 使用時間序列資料來建置自訂時間序列預測模型。

  • 影像 (JPG 或 PNG) – 使用影像資料建置自訂的單標籤影像預測模型。

  • 文件 (PDF、JPG、PNG、TIFF) – 僅 SageMaker Canvas Ready-to-use 模型支援文件資料。若要進一步了解 Ready-to-use可對文件資料進行預測的模型,請參閱 Ready-to-use 模型

您可以從下列資料來源將資料匯入 Canvas:

  • 本機電腦上的檔案

  • Amazon S3 儲存貯體

  • Amazon Redshift 佈建叢集 (非 Amazon Redshift Serverless)

  • AWS Glue Data Catalog 透過 Amazon Athena

  • Amazon Aurora

  • Amazon Relational Database Service (Amazon RDS)

  • Salesforce Data Cloud

  • Snowflake

  • 透過JDBC連接器的 Databricks、、SQLServerMariaDB 和其他熱門資料庫

  • 超過 40 個外部 SaaS 平台,例如 SAP OData

如需可匯入之資料來源的完整清單,請參閱下表:

來源 Type 支援的資料類型

本機檔案上傳

區域

表格式、影像、文件

Amazon Aurora

Amazon 內部

表格式

Amazon S3 儲存貯體

Amazon 內部

表格式、影像、文件

Amazon RDS

Amazon 內部

表格式

Amazon Redshift 佈建叢集 (非 Redshift Serverless)

Amazon 內部

表格式

AWS Glue Data Catalog (透過 Amazon Athena

Amazon 內部

表格式

Databricks

外部

表格式

Snowflake

外部

表格式

Salesforce Data Cloud

外部

表格式

SQLServer

外部

表格式

我的SQL

外部

表格式

PostgreSQL

外部

表格式

MariaDB

外部

表格式

Amplitude

外部 SaaS 平台

表格式

CircleCI

外部 SaaS 平台

表格式

DocuSign 監視器

外部 SaaS 平台

表格式

Domo

外部 SaaS 平台

表格式

Datadog

外部 SaaS 平台

表格式

Dynatrace

外部 SaaS 平台

表格式

Facebook 廣告

外部 SaaS 平台

表格式

Facebook 粉絲專頁洞察

外部 SaaS 平台

表格式

Google Ads

外部 SaaS 平台

表格式

Google Analytics 4

外部 SaaS 平台

表格式

Google 網站管理員

外部 SaaS 平台

表格式

GitHub

外部 SaaS 平台

表格式

GitLab

外部 SaaS 平台

表格式

Infor Nexus

外部 SaaS 平台

表格式

Instagram 廣告

外部 SaaS 平台

表格式

Jira Cloud

外部 SaaS 平台

表格式

LinkedIn 廣告

外部 SaaS 平台

表格式

LinkedIn 廣告

外部 SaaS 平台

表格式

Mailchimp

外部 SaaS 平台

表格式

Marketo

外部 SaaS 平台

表格式

Microsoft Teams

外部 SaaS 平台

表格式

Mixpanel

外部 SaaS 平台

表格式

Okta

外部 SaaS 平台

表格式

Salesforce

外部 SaaS 平台

表格式

Salesforce Marketing Cloud

外部 SaaS 平台

表格式

Salesforce Pardot

外部 SaaS 平台

表格式

SAP OData

外部 SaaS 平台

表格式

SendGrid

外部 SaaS 平台

表格式

ServiceNow

外部 SaaS 平台

表格式

Singular

外部 SaaS 平台

表格式

Slack

外部 SaaS 平台

表格式

Stripe

外部 SaaS 平台

表格式

Trend Micro

外部 SaaS 平台

表格式

Typeform

外部 SaaS 平台

表格式

Veeva

外部 SaaS 平台

表格式

Zendesk

外部 SaaS 平台

表格式

Zendesk Chat

外部 SaaS 平台

表格式

Zendesk Sell

外部 SaaS 平台

表格式

Zendesk Sunshine

外部 SaaS 平台

表格式

Zoom Meetings

外部 SaaS 平台

表格式

如需有關如何匯入資料和輸入資料需求的資訊,例如影像的檔案大小上限等的指示,請參閱建立資料集

Canvas 也在您的應用程式中提供多個範例資料集,協助您快速入門。若要進一步了解您可以使用 SageMaker提供的範例資料集,請參閱使用範例資料集

將資料集匯入 Canvas 之後,您可以隨時更新資料集。您可以進行手動更新,也可以設定自動更新資料集的排程。如需詳細資訊,請參閱更新資料集

如需各個資料集類型的更多資訊,請參閱下列章節:

表格式

若要從外部資料來源 (例如 Snowflake 資料庫或 SaaS 平台) 匯入資料,您必須在 Canvas 應用程式中驗證並連線至資料來源。如需詳細資訊,請參閱連線至資料來源

如果您想要將大於 5 GB 的資料集從 Amazon S3 匯入 Canvas,您可以使用 Amazon Athena 查詢和取樣 Amazon S3 中的資料,以取得更快的取樣。

在 Canvas 中建立資料集後,您可以使用 Data Wrangler 的資料準備功能來準備和轉換資料。您可以使用 Data Wrangler 來處理遺失值、轉換功能、將多個資料集聯結到單一資料集等。如需詳細資訊,請參閱資料準備

提示

只要將資料排列到資料表中,就可以聯結來自各種來源的資料集,例如 Amazon Redshift、Amazon Athena 或 Snowflake。

影像

如需有關如何編輯影像資料集和執行指派或重新指派標籤、新增影像或刪除圖片等任務的資訊,請參閱編輯影像資料集