Importation de données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Importation de données

Amazon SageMaker Canvas prend en charge l'importation de données tabulaires, d'images et de documents. Vous pouvez importer des ensembles de données à partir de votre machine locale, de services Amazon tels qu'Amazon S3 et Amazon Redshift, et de sources de données externes. Lorsque vous importez des ensembles de données depuis Amazon S3, vous pouvez importer un ensemble de données de n'importe quelle taille. Utilisez les jeux de données que vous importez pour créer des modèles et effectuer des prédictions pour d'autres jeux de données.

Chaque cas d'utilisation pour lequel vous pouvez créer un modèle personnalisé accepte différents types d'entrées. Par exemple, si vous souhaitez créer un modèle de classification d'image à étiquette unique, vous devez importer des données d'image. Pour plus d'informations sur les différents types de modèles et les données qu'ils acceptent, consultez Comment fonctionnent les modèles personnalisés. Vous pouvez importer des données et créer des modèles personnalisés dans SageMaker Canvas pour les types de données suivants :

  • Tabulaire (CSVparquet ou tables)

    • Catégoriel : utilisez les données catégorielles pour créer des modèles de prédiction catégorielle personnalisés pour les prédictions à 2 ou 3 catégories et plus.

    • Numérique : utilisez les données numériques pour créer des modèles de prédiction numériques personnalisés.

    • Texte : utilisez les données de texte pour créer des modèles de prédiction de texte multi-catégories personnalisés.

    • Séries temporelles : utilisez les données de séries temporelles pour créer des modèles de prévision de séries temporelles personnalisés.

  • Image (JPGouPNG) : utilisez les données d'image pour créer des modèles personnalisés de prédiction d'image à étiquette unique.

  • Document (PDF,, JPGPNG,TIFF) — Les données du document ne sont prises en charge que pour les Ready-to-use modèles SageMaker Canvas. Pour en savoir plus sur les Ready-to-use modèles capables de faire des prédictions pour les données d'un document, voirReady-to-use modèles.

Vous pouvez importer des données dans Canvas à partir des sources de données suivantes :

  • Fichiers locaux sur votre ordinateur

  • Compartiments Amazon S3

  • Clusters provisionnés par Amazon Redshift (et non Amazon Redshift Serverless)

  • AWS Glue Data Catalog via Amazon Athena

  • Amazon Aurora

  • Amazon Relational Database Service (AmazonRDS)

  • Salesforce Data Cloud

  • Snowflake

  • Databricks, SQLServer MariaDB et autres bases de données populaires via des connecteurs JDBC

  • Plus de 40 plateformes SaaS externes, telles que SAP OData

Pour obtenir la liste complète des sources de données à partir desquelles vous pouvez effectuer des importations, consultez le tableau suivant :

Source Type Types de données pris en charge

Chargement de fichiers locaux

Local

Tabulaire, image, document

Amazon Aurora

Interne Amazon

Tabulaire

Compartiment Amazon S3

Interne Amazon

Tabulaire, image, document

Amazon RDS

Interne Amazon

Tabulaire

Clusters provisionnés par Amazon Redshift (pas Redshift Serverless)

Interne Amazon

Tabulaire

AWS Glue Data Catalog (via Amazon Athena)

Interne Amazon

Tabulaire

Databricks

Externe

Tabulaire

Snowflake

Externe

Tabulaire

Salesforce Data Cloud

Externe

Tabulaire

SQLServer

Externe

Tabulaire

Mon SQL

Externe

Tabulaire

Poster SQL

Externe

Tabulaire

MariaDB

Externe

Tabulaire

Amplitude

Plateforme SaaS externe

Tabulaire

CircleCI

Plateforme SaaS externe

Tabulaire

DocuSign Moniteur

Plateforme SaaS externe

Tabulaire

Domo

Plateforme SaaS externe

Tabulaire

Datadog

Plateforme SaaS externe

Tabulaire

Dynatrace

Plateforme SaaS externe

Tabulaire

Facebook Ads

Plateforme SaaS externe

Tabulaire

Facebook Page Insights

Plateforme SaaS externe

Tabulaire

Google Ads

Plateforme SaaS externe

Tabulaire

Google Analytics 4

Plateforme SaaS externe

Tabulaire

Google Search Console

Plateforme SaaS externe

Tabulaire

GitHub

Plateforme SaaS externe

Tabulaire

GitLab

Plateforme SaaS externe

Tabulaire

Infor Nexus

Plateforme SaaS externe

Tabulaire

Instagram Ads

Plateforme SaaS externe

Tabulaire

Jira Cloud

Plateforme SaaS externe

Tabulaire

LinkedIn Publicités

Plateforme SaaS externe

Tabulaire

LinkedIn Publicités

Plateforme SaaS externe

Tabulaire

Mailchimp

Plateforme SaaS externe

Tabulaire

Marketo

Plateforme SaaS externe

Tabulaire

Microsoft Teams

Plateforme SaaS externe

Tabulaire

Mixpanel

Plateforme SaaS externe

Tabulaire

Okta

Plateforme SaaS externe

Tabulaire

Salesforce

Plateforme SaaS externe

Tabulaire

Salesforce Marketing Cloud

Plateforme SaaS externe

Tabulaire

Salesforce Pardot

Plateforme SaaS externe

Tabulaire

SAP OData

Plateforme SaaS externe

Tabulaire

SendGrid

Plateforme SaaS externe

Tabulaire

ServiceNow

Plateforme SaaS externe

Tabulaire

Singular

Plateforme SaaS externe

Tabulaire

Slack

Plateforme SaaS externe

Tabulaire

Stripe

Plateforme SaaS externe

Tabulaire

Trend Micro

Plateforme SaaS externe

Tabulaire

Typeform

Plateforme SaaS externe

Tabulaire

Veeva

Plateforme SaaS externe

Tabulaire

Zendesk

Plateforme SaaS externe

Tabulaire

Zendesk Chat

Plateforme SaaS externe

Tabulaire

Zendesk Sell

Plateforme SaaS externe

Tabulaire

Zendesk Sunshine

Plateforme SaaS externe

Tabulaire

Zoom Meetings

Plateforme SaaS externe

Tabulaire

Pour savoir comment importer des données et des informations concernant les exigences relatives aux données d'entrée, telles que la taille de fichier maximale pour les images, consultez Création d'un jeu de données.

Canvas fournit également plusieurs exemples de jeux de données dans votre application pour vous aider à bien démarrer. Pour en savoir plus sur les exemples de jeux de données SageMaker fournis avec lesquels vous pouvez faire des essais, voir Utiliser des exemples de jeux de données.

Après avoir importé un jeu de données dans Canvas, vous pouvez le mettre à jour à tout moment. Vous pouvez effectuer une mise à jour manuelle ou définir un calendrier pour les mises à jour automatiques des jeux de données. Pour de plus amples informations, veuillez consulter Mise à jour d'un jeu de données.

Pour plus d'informations spécifiques à chaque type de jeu de données, consultez les sections suivantes :

Tabulaire

Pour importer des données à partir d'une source de données externe (telle qu'une base de données Snowflake ou une plateforme SaaS), vous devez vous authentifier et vous connecter à la source de données dans l'application Canvas. Pour de plus amples informations, veuillez consulter Connexion aux sources de données.

Si vous souhaitez importer des ensembles de données de plus de 5 Go depuis Amazon S3 vers Canvas, vous pouvez accélérer l'échantillonnage en utilisant Amazon Athena pour interroger et échantillonner les données d'Amazon S3.

Après avoir créé des ensembles de données dans Canvas, vous pouvez préparer et transformer vos données à l'aide de la fonctionnalité de préparation des données de Data Wrangler. Vous pouvez utiliser Data Wrangler pour gérer les valeurs manquantes, transformer vos entités, joindre plusieurs ensembles de données en un seul jeu de données, etc. Pour de plus amples informations, veuillez consulter Préparation des données.

Astuce

Tant que vos données sont organisées dans des tableaux, vous pouvez joindre des jeux de données provenant de différentes sources, telles qu'Amazon Redshift, Amazon Athena ou Snowflake.

Image

Pour savoir comment modifier un jeu de données d'image et comment effectuer des tâches telles que l'attribution ou la réattribution d'étiquettes, l'ajout d'images ou la suppression d'images, consultez Modification d'un jeu de données d'image.