Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Importation de données
Amazon SageMaker Canvas prend en charge l'importation de données tabulaires, d'images et de documents. Vous pouvez importer des ensembles de données à partir de votre machine locale, de services Amazon tels qu'Amazon S3 et Amazon Redshift, et de sources de données externes. Lorsque vous importez des ensembles de données depuis Amazon S3, vous pouvez importer un ensemble de données de n'importe quelle taille. Utilisez les jeux de données que vous importez pour créer des modèles et effectuer des prédictions pour d'autres jeux de données.
Chaque cas d'utilisation pour lequel vous pouvez créer un modèle personnalisé accepte différents types d'entrées. Par exemple, si vous souhaitez créer un modèle de classification d'image à étiquette unique, vous devez importer des données d'image. Pour plus d'informations sur les différents types de modèles et les données qu'ils acceptent, consultez Comment fonctionnent les modèles personnalisés. Vous pouvez importer des données et créer des modèles personnalisés dans SageMaker Canvas pour les types de données suivants :
-
Tabulaire (CSVparquet ou tables)
Catégoriel : utilisez les données catégorielles pour créer des modèles de prédiction catégorielle personnalisés pour les prédictions à 2 ou 3 catégories et plus.
Numérique : utilisez les données numériques pour créer des modèles de prédiction numériques personnalisés.
Texte : utilisez les données de texte pour créer des modèles de prédiction de texte multi-catégories personnalisés.
Séries temporelles : utilisez les données de séries temporelles pour créer des modèles de prévision de séries temporelles personnalisés.
Image (JPGouPNG) : utilisez les données d'image pour créer des modèles personnalisés de prédiction d'image à étiquette unique.
Document (PDF,, JPGPNG,TIFF) — Les données du document ne sont prises en charge que pour les Ready-to-use modèles SageMaker Canvas. Pour en savoir plus sur les Ready-to-use modèles capables de faire des prédictions pour les données d'un document, voirReady-to-use modèles.
Vous pouvez importer des données dans Canvas à partir des sources de données suivantes :
Fichiers locaux sur votre ordinateur
Compartiments Amazon S3
Clusters provisionnés par Amazon Redshift (et non Amazon Redshift Serverless)
AWS Glue Data Catalog via Amazon Athena
-
Amazon Aurora
-
Amazon Relational Database Service (AmazonRDS)
-
Salesforce Data Cloud
Snowflake
-
Databricks, SQLServer MariaDB et autres bases de données populaires via des connecteurs JDBC
Plus de 40 plateformes SaaS externes, telles que SAP OData
Pour obtenir la liste complète des sources de données à partir desquelles vous pouvez effectuer des importations, consultez le tableau suivant :
Source | Type | Types de données pris en charge |
---|---|---|
Chargement de fichiers locaux |
Local |
Tabulaire, image, document |
Amazon Aurora |
Interne Amazon |
Tabulaire |
Compartiment Amazon S3 |
Interne Amazon |
Tabulaire, image, document |
Amazon RDS |
Interne Amazon |
Tabulaire |
Clusters provisionnés par Amazon Redshift (pas Redshift Serverless) |
Interne Amazon |
Tabulaire |
AWS Glue Data Catalog (via Amazon Athena) |
Interne Amazon |
Tabulaire |
Externe |
Tabulaire |
|
Snowflake |
Externe |
Tabulaire |
Externe |
Tabulaire |
|
SQLServer |
Externe |
Tabulaire |
Mon SQL |
Externe |
Tabulaire |
Poster SQL |
Externe |
Tabulaire |
MariaDB |
Externe |
Tabulaire |
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
|
Plateforme SaaS externe |
Tabulaire |
Pour savoir comment importer des données et des informations concernant les exigences relatives aux données d'entrée, telles que la taille de fichier maximale pour les images, consultez Création d'un jeu de données.
Canvas fournit également plusieurs exemples de jeux de données dans votre application pour vous aider à bien démarrer. Pour en savoir plus sur les exemples de jeux de données SageMaker fournis avec lesquels vous pouvez faire des essais, voir Utiliser des exemples de jeux de données.
Après avoir importé un jeu de données dans Canvas, vous pouvez le mettre à jour à tout moment. Vous pouvez effectuer une mise à jour manuelle ou définir un calendrier pour les mises à jour automatiques des jeux de données. Pour de plus amples informations, veuillez consulter Mise à jour d'un jeu de données.
Pour plus d'informations spécifiques à chaque type de jeu de données, consultez les sections suivantes :
Tabulaire
Pour importer des données à partir d'une source de données externe (telle qu'une base de données Snowflake ou une plateforme SaaS), vous devez vous authentifier et vous connecter à la source de données dans l'application Canvas. Pour de plus amples informations, veuillez consulter Connexion aux sources de données.
Si vous souhaitez importer des ensembles de données de plus de 5 Go depuis Amazon S3 vers Canvas, vous pouvez accélérer l'échantillonnage en utilisant Amazon Athena pour interroger et échantillonner les données d'Amazon S3.
Après avoir créé des ensembles de données dans Canvas, vous pouvez préparer et transformer vos données à l'aide de la fonctionnalité de préparation des données de Data Wrangler. Vous pouvez utiliser Data Wrangler pour gérer les valeurs manquantes, transformer vos entités, joindre plusieurs ensembles de données en un seul jeu de données, etc. Pour de plus amples informations, veuillez consulter Préparation des données.
Astuce
Tant que vos données sont organisées dans des tableaux, vous pouvez joindre des jeux de données provenant de différentes sources, telles qu'Amazon Redshift, Amazon Athena ou Snowflake.
Image
Pour savoir comment modifier un jeu de données d'image et comment effectuer des tâches telles que l'attribution ou la réattribution d'étiquettes, l'ajout d'images ou la suppression d'images, consultez Modification d'un jeu de données d'image.