Exportation des champs de paramètres dans l'objet JSON params de niveau supérieur - Amazon Neptune

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exportation des champs de paramètres dans l'objet JSON params de niveau supérieur

L'objet JSON params d'exportation Neptune vous permet de contrôler l'exportation, y compris le type et le format des données exportées.

Liste des champs possibles dans l'objet params des paramètres d'exportation

Vous trouverez ci-dessous la liste de tous les champs de niveau supérieur qui peuvent apparaître dans un objet params. Seul un sous-ensemble de ces champs apparaît dans chaque objet.

Liste des champs communs à tous les types d'exportation

Liste des champs pour les exportations de graphes de propriétés

Liste des champs pour les exportations RDF

Champs communs à tous les types d'exportation

Champ cloneCluster dans params

(Facultatif) Par défaut: false.

Si le paramètre cloneCluster est défini sur true, le processus d'exportation utilise un clone rapide du cluster de bases de données :

"cloneCluster" : true

Par défaut, le processus d'exportation exporte les données du cluster de bases de données que vous spécifiez à l'aide des paramètres endpoint, endpoints ou clusterId. Toutefois, si ce cluster de bases de données est utilisé pendant l'exportation et que les données changent, le processus d'exportation ne peut pas garantir la cohérence des données exportées.

Pour garantir la cohérence des données exportées, utilisez plutôt le paramètre cloneCluster afin d'exporter les données à partir d'un clone statique du cluster de bases de données.

Le cluster de bases de données cloné est créé dans le même VPC que le cluster de bases de données source. Il hérite des paramètres d'authentification du groupe de sécurité, du groupe de sous-réseaux et de la base de données IAM de la source. Lorsque l'exportation est terminée, Neptune supprime le cluster de bases de données cloné.

Par défaut, un cluster de bases de données cloné est constitué d'une instance unique de même type que l'instance principale du cluster de bases de données source. Vous pouvez modifier le type d'instance utilisé pour le cluster de bases de données cloné en en spécifiant un autre à l'aide de cloneClusterInstanceType.

Note

Si vous n'avez pas recours à l'option cloneCluster et que vous exportez directement les données à partir du cluster de bases de données principal, vous devrez peut-être augmenter le délai d'expiration des instances à partir desquelles les données sont exportées. Pour les jeux de données volumineux, le délai d'expiration devrait être fixé à plusieurs heures.

Champ cloneClusterInstanceType dans params

(Facultatif)

Si le paramètre cloneCluster est présent et défini sur true, vous pouvez recourir au paramètre cloneClusterInstanceType pour spécifier le type d'instance utilisé pour le cluster de bases de données cloné :

Par défaut, un cluster de bases de données cloné est constitué d'une instance unique de même type que l'instance principale du cluster de bases de données source.

"cloneClusterInstanceType" : "(for example, r5.12xlarge)"

Champ cloneClusterReplicaCount dans params

(Facultatif)

Si le paramètre cloneCluster est présent et défini sur true, vous pouvez utiliser le paramètre cloneClusterReplicaCount pour spécifier le nombre d'instances de réplica en lecture créées dans le cluster de bases de données cloné :

"cloneClusterReplicaCount" : (for example, 3)

Par défaut, un cluster de bases de données cloné se compose d'une seule instance principale. Le paramètre cloneClusterReplicaCount vous permet de spécifier le nombre d'instances de réplica en lecture supplémentaires à créer.

Champ clusterId dans params

(Facultatif)

Le paramètre clusterId spécifie l'ID d'un cluster de bases de données à utiliser :

"clusterId" : "(the ID of your DB cluster)"

Si vous utilisez le paramètre clusterId, le processus d'exportation utilise toutes les instances disponibles dans ce cluster de bases de données pour extraire les données.

Note

Les paramètres endpoint, endpoints et clusterId s'excluent mutuellement. N'en utilisez qu'un seul à la fois.

Champ endpoint dans params

(Facultatif)

Utilisez endpoint pour spécifier un point de terminaison d'une instance Neptune dans le cluster de bases de données que le processus d'exportation peut interroger pour extraire des données (voir Connexions de point de terminaison). Il s'agit uniquement du nom DNS. Il n'inclut ni le protocole, ni le port :

"endpoint" : "(a DNS endpoint of your DB cluster)"

Utilisez un point de terminaison de cluster ou d'instance, mais pas le point de terminaison de lecteur principal.

Note

Les paramètres endpoint, endpoints et clusterId s'excluent mutuellement. N'en utilisez qu'un seul à la fois.

Champ endpoints dans params

(Facultatif)

Utilisez endpoints pour spécifier un tableau JSON de points de terminaison dans le cluster de bases de données que le processus d'exportation peut interroger pour extraire des données (voir Connexions de point de terminaison). Il s'agit uniquement de noms DNS. Ils n'incluent ni le protocole, ni le port :

"endpoints": [ "(one endpoint in your DB cluster)", "(another endpoint in your DB cluster)", "(a third endpoint in your DB cluster)" ]

Si le cluster comporte plusieurs instances (une instance principale et un ou plusieurs réplicas en lecture), vous pouvez améliorer les performances d'exportation en utilisant le paramètre endpoints pour répartir les requêtes sur une liste de ces points de terminaison.

Note

Les paramètres endpoint, endpoints et clusterId s'excluent mutuellement. N'en utilisez qu'un seul à la fois.

Champ profile dans params

(Nécessaire pour exporter les données d'entraînement pour Neptune ML, sauf si le champ neptune_ml se trouve dans le champ additionalParams).

Le paramètre profile fournit des ensembles de paramètres préconfigurés pour des charges de travail spécifiques. À l'heure actuelle, le processus d'exportation ne prend en charge que le profil neptune_ml.

Si vous exportez des données d'entraînement pour Neptune ML, ajoutez le paramètre suivant à l'objet params :

"profile" : "neptune_ml"

Champ useIamAuth dans params

(Facultatif) Par défaut: false.

Si l'authentification IAM est activée dans la base de données à partir de laquelle vous exportez les données, vous devez inclure le paramètre useIamAuth défini sur true :

"useIamAuth" : true

Champ includeLastEventId dans params

Si vous définissez includeLastEventId sur true et que Neptune Streams est activé dans la base de données à partir de laquelle vous exportez les données, le processus d'exportation écrit un fichier lastEventId.json à l'emplacement d'exportation que vous avez indiqué. Ce fichier contient les valeurs commitNum et opNum du dernier événement du flux.

"includeLastEventId" : true

Une base de données clonée créée par le processus d'exportation hérite du paramètre de flux de son parent. Si les flux sont activés pour le parent, ils le sont aussi pour le clone. Le contenu du flux sur le clone reflète le contenu du parent (y compris les mêmes ID d'événement) au moment de la création du clone.

Champs pour l'exportation du graphe de propriétés

Champ concurrency dans params

(Facultatif) Par défaut: 4.

Le paramètre concurrency indique le nombre de requêtes parallèles que le processus d'exportation doit utiliser :

"concurrency" : (for example, 24)

Il est conseillé de définir un niveau de simultanéité deux fois plus grand que le nombre de vCPU de toutes les instances à partir desquelles vous exportez des données. Une instance r5.xlarge, par exemple, compte quatre vCPU. Si vous exportez des données à partir d'un cluster de trois instances r5.xlarge, vous pouvez définir le niveau de simultanéité sur 24 (= 3 x 2 x 4).

Si vous utilisez le service d'exportation Neptune, le niveau de simultanéité est limité par le paramètre jobSize. Par exemple, une tâche de petite envergure prend en charge le niveau de simultanéité 8. Si vous essayez de spécifier le niveau de simultanéité 24 pour une tâche de petite envergure à l'aide du paramètre concurrency, le niveau de simultanéité 8 sera appliqué.

Si vous exportez des données à partir d'un cluster cloné, le processus d'exportation calcule un niveau de simultanéité approprié en fonction de la taille des instances clonées et de la taille de la tâche.

Champ edgeLabels dans params

(Facultatif)

Utilisez edgeLabels pour exporter uniquement les arêtes dont vous spécifiez les étiquettes :

"edgeLabels" : ["(a label)", "(another label"]

Chaque étiquette du tableau JSON doit être une étiquette simple et unique.

Le paramètre scope a priorité sur le paramètre edgeLabels. Ainsi, si la valeur scope n'inclut pas d'arêtes, le paramètre edgeLabels n'a aucun effet.

Champ filter dans params

(Facultatif)

Utilisez filter pour spécifier que seuls les nœuds et/ou les arêtes portant des étiquettes spécifiques doivent être exportés, et pour filtrer les propriétés exportées pour chaque nœud ou arête.

La structure générale d'un objet filter, qu'il soit intégré directement ou dans un fichier de configuration de filtre, est la suivante :

"filter" : { "nodes": [ (array of node label and properties objects) ], "edges": [ (array of edge definition an properties objects) ] }
  • nodes : contient un tableau JSON de nœuds et de propriétés de nœuds sous la forme suivante :

    "nodes : [ { "label": "(node label)", "properties": [ "(a property name)", "(another property name)", ( ... ) ] } ]
    • label : représente la ou les étiquettes du graphe de propriétés du nœud.

      Utilise une valeur unique ou, si le nœud possède plusieurs étiquettes, un tableau de valeurs.

    • properties : contient un tableau des noms des propriétés de nœud que vous souhaitez exporter.

  • edges : contient un tableau JSON de définitions d'arêtes sous la forme suivante :

    "edges" : [ { "label": "(edge label)", "properties": [ "(a property name)", "(another property name)", ( ... ) ] } ]
    • label : étiquette de graphe de propriétés de l'arête. Utilise une seule valeur.

    • properties : contient un tableau des noms des propriétés de l'arête, que vous souhaitez exporter.

Champ filterConfigFile dans params

(Facultatif)

Utilisez filterConfigFile pour spécifier un fichier JSON contenant une configuration de filtre sous la même forme que le paramètre filter :

"filterConfigFile" : "s3://(your Amazon S3 bucket)/neptune-export/(the name of the JSON file)"

Consultez filtre pour le format du fichier filterConfigFile.

Champ format utilisé pour les données du graphe de propriétés dans params

(Facultatif) Par défaut : csv (valeurs séparées par des virgules)

Le paramètre format spécifie le format de sortie des données exportées du graphe de propriétés :

"format" : (one of: csv, csvNoHeaders, json, neptuneStreamsJson)

Champ gremlinFilter dans params

(Facultatif)

Le paramètre gremlinFilter vous permet de fournir un extrait Gremlin, tel qu'une étape has(), qui permet de filtrer à la fois les nœuds et les arêtes :

"gremlinFilter" : (a Gremlin snippet)

Les noms de champs et les valeurs de chaîne doivent être entourés de guillemets doubles précédés d'un caractère d'échappement. Pour les dates et les heures, vous pouvez utiliser la méthode datetime.

L'exemple suivant exporte uniquement les nœuds et les arêtes dont la valeur de la propriété de date de création est ultérieure au 10/10/2021 :

"gremlinFilter" : "has(\"created\", gt(datetime(\"2021-10-10\")))"

Champ gremlinNodeFilter dans params

(Facultatif)

Le paramètre gremlinNodeFilter vous permet de fournir un extrait Gremlin, tel qu'une étape has(), qui permet de filtrer les nœuds :

"gremlinNodeFilter" : (a Gremlin snippet)

Les noms de champs et les valeurs de chaîne doivent être entourés de guillemets doubles précédés d'un caractère d'échappement. Pour les dates et les heures, vous pouvez utiliser la méthode datetime.

L'exemple suivant exporte uniquement les nœuds dont la valeur d'une propriété booléenne deleted est true :

"gremlinNodeFilter" : "has(\"deleted\", true)"

Champ gremlinEdgeFilter dans params

(Facultatif)

Le paramètre gremlinEdgeFilter vous permet de fournir un extrait Gremlin, tel qu'une étape has(), qui permet de filtrer les arêtes :

"gremlinEdgeFilter" : (a Gremlin snippet)

Les noms de champs et les valeurs de chaîne doivent être entourés de guillemets doubles précédés d'un caractère d'échappement. Pour les dates et les heures, vous pouvez utiliser la méthode datetime.

L'exemple suivant exporte uniquement les arêtes dont la valeur d'une propriété numérique strength est 5 :

"gremlinEdgeFilter" : "has(\"strength\", 5)"

Champ nodeLabels dans params

(Facultatif)

Utilisez nodeLabels pour exporter uniquement les nœuds dont vous spécifiez les étiquettes :

"nodeLabels" : ["(a label)", "(another label"]

Chaque étiquette du tableau JSON doit être une étiquette simple et unique.

Le paramètre scope a priorité sur le paramètre nodeLabels. Ainsi, si la valeur scope n'inclut pas de nœuds, le paramètre nodeLabels n'a aucun effet.

Champ scope dans params

(Facultatif) Par défaut: all.

Le paramètre scope indique si seuls les nœuds, seules les arêtes ou à la fois les nœuds et les arêtes doivent être exportés :

"scope" : (one of: nodes, edges, or all)
  • nodes : exporte uniquement les nœuds et leurs propriétés.

  • edges : exporte uniquement les arêtes et leurs propriétés.

  • all : exporte à la fois les nœuds et les arêtes ainsi que leurs propriétés (par défaut).

Champs pour l'exportation RDF

Champ format utilisé pour les données RDF dans params

(Facultatif) Par défaut : turtle

Le paramètre format spécifie le format de sortie des données RDF exportées :

"format" : (one of: turtle, nquads, ntriples, neptuneStreamsJson)

Champ rdfExportScope dans params

(Facultatif) Par défaut: graph.

Le paramètre rdfExportScope indique la portée de l'exportation RDF :

"rdfExportScope" : (one of: graph, edges, or query)
  • graph : exporte toutes les données RDF.

  • edges : exporte uniquement les triplets qui représentent des arêtes.

  • query : exporte les données récupérées par une requête SPARQL fournie à l'aide du champ sparql.

Champ sparql dans params

(Facultatif)

Le paramètre sparql permet de spécifier une requête SPARQL pour récupérer les données à exporter :

"sparql" : (a SPARQL query)

Si vous fournissez une requête à l'aide du champ sparql, vous devez également définir le champ rdfExportScope sur query.

Champ namedGraph dans params

(Facultatif)

Le namedGraph paramètre vous permet de spécifier un IRI pour limiter l'exportation à un seul graphe nommé :

"namedGraph" : (Named graph IRI)

Le namedGraph paramètre ne peut être utilisé qu'avec le rdfExportScope champ défini surgraph.