Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exportation des champs de paramètres dans l'objet JSON params
de niveau supérieur
L'objet JSON params
d'exportation Neptune vous permet de contrôler l'exportation, y compris le type et le format des données exportées.
Liste des champs possibles dans l'objet params
des paramètres d'exportation
Vous trouverez ci-dessous la liste de tous les champs de niveau supérieur qui peuvent apparaître dans un objet params
. Seul un sous-ensemble de ces champs apparaît dans chaque objet.
Liste des champs communs à tous les types d'exportation
Liste des champs pour les exportations de graphes de propriétés
Liste des champs pour les exportations RDF
Champs communs à tous les types d'exportation
Champ cloneCluster
dans params
(Facultatif) Par défaut: false
.
Si le paramètre cloneCluster
est défini sur true
, le processus d'exportation utilise un clone rapide du cluster de bases de données :
"cloneCluster" : true
Par défaut, le processus d'exportation exporte les données du cluster de bases de données que vous spécifiez à l'aide des paramètres endpoint
, endpoints
ou clusterId
. Toutefois, si ce cluster de bases de données est utilisé pendant l'exportation et que les données changent, le processus d'exportation ne peut pas garantir la cohérence des données exportées.
Pour garantir la cohérence des données exportées, utilisez plutôt le paramètre cloneCluster
afin d'exporter les données à partir d'un clone statique du cluster de bases de données.
Le cluster de bases de données cloné est créé dans le même VPC que le cluster de bases de données source. Il hérite des paramètres d'authentification du groupe de sécurité, du groupe de sous-réseaux et de la base de données IAM de la source. Lorsque l'exportation est terminée, Neptune supprime le cluster de bases de données cloné.
Par défaut, un cluster de bases de données cloné est constitué d'une instance unique de même type que l'instance principale du cluster de bases de données source. Vous pouvez modifier le type d'instance utilisé pour le cluster de bases de données cloné en en spécifiant un autre à l'aide de cloneClusterInstanceType
.
Note
Si vous n'avez pas recours à l'option cloneCluster
et que vous exportez directement les données à partir du cluster de bases de données principal, vous devrez peut-être augmenter le délai d'expiration des instances à partir desquelles les données sont exportées. Pour les jeux de données volumineux, le délai d'expiration devrait être fixé à plusieurs heures.
Champ cloneClusterInstanceType
dans params
(Facultatif)
Si le paramètre cloneCluster
est présent et défini sur true
, vous pouvez recourir au paramètre cloneClusterInstanceType
pour spécifier le type d'instance utilisé pour le cluster de bases de données cloné :
Par défaut, un cluster de bases de données cloné est constitué d'une instance unique de même type que l'instance principale du cluster de bases de données source.
"cloneClusterInstanceType" : "
(for example, r5.12xlarge)
"
Champ cloneClusterReplicaCount
dans params
(Facultatif)
Si le paramètre cloneCluster
est présent et défini sur true
, vous pouvez utiliser le paramètre cloneClusterReplicaCount
pour spécifier le nombre d'instances de réplica en lecture créées dans le cluster de bases de données cloné :
"cloneClusterReplicaCount" :
(for example, 3)
Par défaut, un cluster de bases de données cloné se compose d'une seule instance principale. Le paramètre cloneClusterReplicaCount
vous permet de spécifier le nombre d'instances de réplica en lecture supplémentaires à créer.
Champ clusterId
dans params
(Facultatif)
Le paramètre clusterId
spécifie l'ID d'un cluster de bases de données à utiliser :
"clusterId" : "
(the ID of your DB cluster)
"
Si vous utilisez le paramètre clusterId
, le processus d'exportation utilise toutes les instances disponibles dans ce cluster de bases de données pour extraire les données.
Note
Les paramètres endpoint
, endpoints
et clusterId
s'excluent mutuellement. N'en utilisez qu'un seul à la fois.
Champ endpoint
dans params
(Facultatif)
Utilisez endpoint
pour spécifier un point de terminaison d'une instance Neptune dans le cluster de bases de données que le processus d'exportation peut interroger pour extraire des données (voir Connexions de point de terminaison). Il s'agit uniquement du nom DNS. Il n'inclut ni le protocole, ni le port :
"endpoint" : "
(a DNS endpoint of your DB cluster)
"
Utilisez un point de terminaison de cluster ou d'instance, mais pas le point de terminaison de lecteur principal.
Note
Les paramètres endpoint
, endpoints
et clusterId
s'excluent mutuellement. N'en utilisez qu'un seul à la fois.
Champ endpoints
dans params
(Facultatif)
Utilisez endpoints
pour spécifier un tableau JSON de points de terminaison dans le cluster de bases de données que le processus d'exportation peut interroger pour extraire des données (voir Connexions de point de terminaison). Il s'agit uniquement de noms DNS. Ils n'incluent ni le protocole, ni le port :
"endpoints": [ "
(one endpoint in your DB cluster)
", "(another endpoint in your DB cluster)
", "(a third endpoint in your DB cluster)
" ]
Si le cluster comporte plusieurs instances (une instance principale et un ou plusieurs réplicas en lecture), vous pouvez améliorer les performances d'exportation en utilisant le paramètre endpoints
pour répartir les requêtes sur une liste de ces points de terminaison.
Note
Les paramètres endpoint
, endpoints
et clusterId
s'excluent mutuellement. N'en utilisez qu'un seul à la fois.
Champ profile
dans params
(Nécessaire pour exporter les données d'entraînement pour Neptune ML, sauf si le champ neptune_ml
se trouve dans le champ additionalParams
).
Le paramètre profile
fournit des ensembles de paramètres préconfigurés pour des charges de travail spécifiques. À l'heure actuelle, le processus d'exportation ne prend en charge que le profil neptune_ml
.
Si vous exportez des données d'entraînement pour Neptune ML, ajoutez le paramètre suivant à l'objet params
:
"profile" : "neptune_ml"
Champ useIamAuth
dans params
(Facultatif) Par défaut: false
.
Si l'authentification IAM est activée dans la base de données à partir de laquelle vous exportez les données, vous devez inclure le paramètre useIamAuth
défini sur true
:
"useIamAuth" : true
Champ includeLastEventId
dans params
Si vous définissez includeLastEventId
sur true et que Neptune Streams est activé dans la base de données à partir de laquelle vous exportez les données, le processus d'exportation écrit un fichier lastEventId.json
à l'emplacement d'exportation que vous avez indiqué. Ce fichier contient les valeurs commitNum
et opNum
du dernier événement du flux.
"includeLastEventId" : true
Une base de données clonée créée par le processus d'exportation hérite du paramètre de flux de son parent. Si les flux sont activés pour le parent, ils le sont aussi pour le clone. Le contenu du flux sur le clone reflète le contenu du parent (y compris les mêmes ID d'événement) au moment de la création du clone.
Champs pour l'exportation du graphe de propriétés
Champ concurrency
dans params
(Facultatif) Par défaut: 4
.
Le paramètre concurrency
indique le nombre de requêtes parallèles que le processus d'exportation doit utiliser :
"concurrency" :
(for example, 24)
Il est conseillé de définir un niveau de simultanéité deux fois plus grand que le nombre de vCPU de toutes les instances à partir desquelles vous exportez des données. Une instance r5.xlarge, par exemple, compte quatre vCPU. Si vous exportez des données à partir d'un cluster de trois instances r5.xlarge, vous pouvez définir le niveau de simultanéité sur 24 (= 3 x 2 x 4).
Si vous utilisez le service d'exportation Neptune, le niveau de simultanéité est limité par le paramètre jobSize. Par exemple, une tâche de petite envergure prend en charge le niveau de simultanéité 8. Si vous essayez de spécifier le niveau de simultanéité 24 pour une tâche de petite envergure à l'aide du paramètre concurrency
, le niveau de simultanéité 8 sera appliqué.
Si vous exportez des données à partir d'un cluster cloné, le processus d'exportation calcule un niveau de simultanéité approprié en fonction de la taille des instances clonées et de la taille de la tâche.
Champ edgeLabels
dans params
(Facultatif)
Utilisez edgeLabels
pour exporter uniquement les arêtes dont vous spécifiez les étiquettes :
"edgeLabels" : ["
(a label)
", "(another label
"]
Chaque étiquette du tableau JSON doit être une étiquette simple et unique.
Le paramètre scope
a priorité sur le paramètre edgeLabels
. Ainsi, si la valeur scope
n'inclut pas d'arêtes, le paramètre edgeLabels
n'a aucun effet.
Champ filter
dans params
(Facultatif)
Utilisez filter
pour spécifier que seuls les nœuds et/ou les arêtes portant des étiquettes spécifiques doivent être exportés, et pour filtrer les propriétés exportées pour chaque nœud ou arête.
La structure générale d'un objet filter
, qu'il soit intégré directement ou dans un fichier de configuration de filtre, est la suivante :
"filter" : { "nodes": [
(array of node label and properties objects)
], "edges": [(array of edge definition an properties objects)
] }
-
nodes
: contient un tableau JSON de nœuds et de propriétés de nœuds sous la forme suivante :"nodes : [ { "label": "
(node label)
", "properties": [ "(a property name)
", "(another property name)
",( ... )
] } ]-
label
: représente la ou les étiquettes du graphe de propriétés du nœud.Utilise une valeur unique ou, si le nœud possède plusieurs étiquettes, un tableau de valeurs.
-
properties
: contient un tableau des noms des propriétés de nœud que vous souhaitez exporter.
-
-
edges
: contient un tableau JSON de définitions d'arêtes sous la forme suivante :"edges" : [ { "label": "
(edge label)
", "properties": [ "(a property name)
", "(another property name)
",( ... )
] } ]label
: étiquette de graphe de propriétés de l'arête. Utilise une seule valeur.properties
: contient un tableau des noms des propriétés de l'arête, que vous souhaitez exporter.
Champ filterConfigFile
dans params
(Facultatif)
Utilisez filterConfigFile
pour spécifier un fichier JSON contenant une configuration de filtre sous la même forme que le paramètre filter
:
"filterConfigFile" : "s3://
(your Amazon S3 bucket)
/neptune-export/(the name of the JSON file)
"
Consultez filtre pour le format du fichier filterConfigFile
.
Champ format
utilisé pour les données du graphe de propriétés dans params
(Facultatif) Par défaut : csv
(valeurs séparées par des virgules)
Le paramètre format
spécifie le format de sortie des données exportées du graphe de propriétés :
"format" :
(one of: csv, csvNoHeaders, json, neptuneStreamsJson)
-
csv
: sortie au format CSV (valeurs séparées par des virgules), avec une mise en forme des en-têtes de colonnes conformément au format de données de chargement Gremlin. -
csvNoHeaders
: données au format CSV sans en-têtes de colonne. -
json
: données au format JSON. -
neptuneStreamsJson
: données au format JSON qui utilisent le format de sérialisation des modifications GREMLIN_JSON.
Champ gremlinFilter
dans params
(Facultatif)
Le paramètre gremlinFilter
vous permet de fournir un extrait Gremlin, tel qu'une étape has()
, qui permet de filtrer à la fois les nœuds et les arêtes :
"gremlinFilter" :
(a Gremlin snippet)
Les noms de champs et les valeurs de chaîne doivent être entourés de guillemets doubles précédés d'un caractère d'échappement. Pour les dates et les heures, vous pouvez utiliser la méthode datetime.
L'exemple suivant exporte uniquement les nœuds et les arêtes dont la valeur de la propriété de date de création est ultérieure au 10/10/2021 :
"gremlinFilter" : "has(\"created\", gt(datetime(\"2021-10-10\")))"
Champ gremlinNodeFilter
dans params
(Facultatif)
Le paramètre gremlinNodeFilter
vous permet de fournir un extrait Gremlin, tel qu'une étape has()
, qui permet de filtrer les nœuds :
"gremlinNodeFilter" :
(a Gremlin snippet)
Les noms de champs et les valeurs de chaîne doivent être entourés de guillemets doubles précédés d'un caractère d'échappement. Pour les dates et les heures, vous pouvez utiliser la méthode datetime.
L'exemple suivant exporte uniquement les nœuds dont la valeur d'une propriété booléenne deleted
est true
:
"gremlinNodeFilter" : "has(\"deleted\", true)"
Champ gremlinEdgeFilter
dans params
(Facultatif)
Le paramètre gremlinEdgeFilter
vous permet de fournir un extrait Gremlin, tel qu'une étape has()
, qui permet de filtrer les arêtes :
"gremlinEdgeFilter" :
(a Gremlin snippet)
Les noms de champs et les valeurs de chaîne doivent être entourés de guillemets doubles précédés d'un caractère d'échappement. Pour les dates et les heures, vous pouvez utiliser la méthode datetime.
L'exemple suivant exporte uniquement les arêtes dont la valeur d'une propriété numérique strength
est 5 :
"gremlinEdgeFilter" : "has(\"strength\", 5)"
Champ nodeLabels
dans params
(Facultatif)
Utilisez nodeLabels
pour exporter uniquement les nœuds dont vous spécifiez les étiquettes :
"nodeLabels" : ["
(a label)
", "(another label
"]
Chaque étiquette du tableau JSON doit être une étiquette simple et unique.
Le paramètre scope
a priorité sur le paramètre nodeLabels
. Ainsi, si la valeur scope
n'inclut pas de nœuds, le paramètre nodeLabels
n'a aucun effet.
Champ scope
dans params
(Facultatif) Par défaut: all
.
Le paramètre scope
indique si seuls les nœuds, seules les arêtes ou à la fois les nœuds et les arêtes doivent être exportés :
"scope" :
(one of: nodes, edges, or all)
nodes
: exporte uniquement les nœuds et leurs propriétés.edges
: exporte uniquement les arêtes et leurs propriétés.all
: exporte à la fois les nœuds et les arêtes ainsi que leurs propriétés (par défaut).
Champs pour l'exportation RDF
Champ format
utilisé pour les données RDF dans params
(Facultatif) Par défaut : turtle
Le paramètre format
spécifie le format de sortie des données RDF exportées :
"format" :
(one of: turtle, nquads, ntriples, neptuneStreamsJson)
-
turtle
: sortie au format Turtle. -
nquads
: données au format N-Quads sans en-têtes de colonne. -
ntriples
: données au format N-Triples. -
neptuneStreamsJson
: données au format JSON qui utilisent le format de sérialisation des modifications SPARQL NQUADS.
Champ rdfExportScope
dans params
(Facultatif) Par défaut: graph
.
Le paramètre rdfExportScope
indique la portée de l'exportation RDF :
"rdfExportScope" :
(one of: graph, edges, or query)
graph
: exporte toutes les données RDF.edges
: exporte uniquement les triplets qui représentent des arêtes.query
: exporte les données récupérées par une requête SPARQL fournie à l'aide du champsparql
.
Champ sparql
dans params
(Facultatif)
Le paramètre sparql
permet de spécifier une requête SPARQL pour récupérer les données à exporter :
"sparql" :
(a SPARQL query)
Si vous fournissez une requête à l'aide du champ sparql
, vous devez également définir le champ rdfExportScope
sur query
.
Champ namedGraph
dans params
(Facultatif)
Le namedGraph
paramètre vous permet de spécifier un IRI pour limiter l'exportation à un seul graphe nommé :
"namedGraph" :
(Named graph IRI)
Le namedGraph
paramètre ne peut être utilisé qu'avec le rdfExportScope
champ défini surgraph
.