Directives relatives aux ensembles de données pour Forecast

Consultez les directives suivantes si Amazon Forecast ne parvient pas à importer votre jeu de données ou si celui-ci ne fonctionne pas comme prévu.

Format d'horodatage

Pour les fréquences de collecte Year (YM), Month (W), Week () et Day (D), Forecast prend en charge le format d'yyyy-MM-ddhorodatage (par exemple,2019-08-21) et, éventuellement, le HH:mm:ss format (par exemple,2019-08-21 15:00:00).

Pour les fréquences heures (H) et minutes (M), Forecast ne prend en charge que le yyyy-MM-dd HH:mm:ss format (par exemple2019-08-21 15:00:00).

Consigne : Remplacez le format d'horodatage de la fréquence de collecte de votre ensemble de données par le format pris en charge.

Fichier ou compartiment Amazon S3

Lorsque vous importez un ensemble de données, vous pouvez spécifier le chemin d'accès à un fichier CSV ou à un fichier Parquet dans votre compartiment Amazon Simple Storage Service (Amazon S3) contenant vos données ou le nom du compartiment S3 contenant vos données. Si vous spécifiez un fichier CSV ou un fichier Parquet, Forecast importe uniquement ce fichier. Si vous spécifiez un bucket S3, Forecast importe tous les fichiers CSV ou les fichiers Parquet du bucket jusqu'à 10 000 fichiers. Si vous importez plusieurs fichiers en spécifiant un nom de bucket, tous les fichiers CSV ou les fichiers Parquet doivent être conformes au schéma spécifié.

Recommandation : Spécifiez un fichier spécifique ou un compartiment S3 à l'aide de la syntaxe suivante :

s3://bucket-name/example-object.csv

s3://bucket-name/example-object.parquet

s3://bucket-name/prefix/

s3://bucket-name

Les fichiers Parquet peuvent porter l'extension .parquet, .parq, .pqt ou ne pas avoir d'extension du tout.

Mises à jour complètes du jeu

Votre première importation de jeu de données est toujours une importation complète, les importations suivantes peuvent être des mises à jour complètes ou incrémentielles. Vous devez utiliser le Forecast API pour définir le mode d'importation.

Lors d'une mise à jour complète, toutes les données existantes sont remplacées par les données nouvellement importées. Comme les tâches d'importation de jeux de données complets ne sont pas agrégées, votre importation de jeu de données la plus récente est celle qui est utilisée lors de l'entraînement d'un prédicteur ou de la génération d'une prévision.

Ligne directrice : créez une mise à jour incrémentielle du jeu de données pour ajouter vos nouvelles données aux données existantes. Sinon, assurez-vous que votre dernier jeu de données importé contient toutes les données que vous souhaitez modéliser, et pas uniquement les nouvelles données collectées depuis l'importation précédente.

Mises à jour incrémentielles des jeux

Les champs tels que l'horodatage, le format des données, la géolocalisation, etc. sont lus à partir du jeu de données actuellement actif. Il n'est pas nécessaire d'inclure ces informations lors de l'importation incrémentielle d'un ensemble de données. S'ils sont inclus, ils doivent correspondre aux valeurs initialement fournies.

Recommandation : effectuez une importation complète du jeu de données pour modifier l'une de ces valeurs.

Ordre des attributs

L'ordre des attributs spécifié dans la définition du schéma doit correspondre à l'ordre des colonnes du fichier CSV ou du fichier Parquet que vous importez. Par exemple, si vous l'avez défini timestamp comme premier attribut, il timestamp doit également s'agir de la première colonne du fichier d'entrée.

Recommandation : Vérifiez que les colonnes du fichier d'entrée sont dans le même ordre que les attributs de schéma que vous avez créés.

Indice météo

Pour appliquer l'indice météo, vous devez inclure un attribut de géolocalisation dans votre série chronologique cible et dans tous les ensembles de données de séries chronologiques connexes. Vous devez également spécifier des fuseaux horaires pour les horodatages de vos séries chronologiques cibles.

Recommandation : Assurez-vous que vos ensembles de données incluent un attribut de géolocalisation et qu'un fuseau horaire est attribué à vos horodatages. Pour plus d'informations, consultez les conditions et restrictions de l'indice météorologique.

En-tête d'ensemble de données

Un en-tête d'ensemble de données dans votre entrée CSV peut provoquer une erreur de validation. Nous recommandons d'omettre un en-tête pour les CSV fichiers.

Consigne : Supprimez l'en-tête d'ensemble de données et tentez à nouveau l'importation.

Un en-tête de jeu de données est requis pour les fichiers Parquet.

Statut de l'ensemble de données

Avant de pouvoir importer des données d'entraînement avec l'CreateDatasetImportJobopération, le jeu Status de données doit êtreACTIVE.

Consigne : Utilisez l'opération DescribeDataset pour obtenir le statut de l'ensemble de données. Si la création ou la mise à jour de l'ensemble de données a échoué, vérifiez le format de votre fichier d'ensemble de données et réessayez de le créer.

Format de fichier par défaut

Le format de fichier par défaut estCSV.

Format de fichier et délimiteur

Forecast prend uniquement en charge le format de fichier à valeurs séparées par des virgules (CSV) et le format Parquet. Vous ne pouvez pas séparer les valeurs à l'aide de tabulations, d'espaces, de deux points ou d'autres caractères.

Recommandation : Convertissez votre jeu de données au CSV format (en utilisant uniquement des virgules comme séparateur) ou au format Parquet et réessayez d'importer le fichier.

Nom de fichier

Les noms de fichier doivent contenir au moins un caractère alphabétique. Les fichiers dont le nom est uniquement numérique ne peuvent pas être importés.

Recommandation : renommez votre fichier de données d'entrée pour inclure au moins un caractère alphabétique et réessayez d'importer le fichier.

Données sur le parquet partitionné

Forecast ne lit pas les fichiers Parquet partitionnés.

Exigences relatives aux ensembles de données d'analyse hypothétique

Et si les analyses CSV nécessitaient des ensembles de données. Le TimeSeriesSelector fonctionnement de l'CreateWhatIfAnalysisaction et le TimeSeriesReplacementDataSource fonctionnement de l'option CreateWhatIfForecast Ne pas accepter les fichiers Parquet.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Gestion des valeurs manquantes

Prédicteurs d'entraînement