Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Exporte campos de parámetros en el objeto JSON de nivel superior params
El objeto JSON params
de exportación de Neptune le permite controlar la exportación, incluidos el tipo y el formato de los datos exportados.
Lista de campos posibles en el objeto params
de parámetros de exportación
A continuación, se enumeran todos los posibles campos de nivel superior que pueden aparecer en un objeto params
. Solo un subconjunto de estos campos aparece en un objeto.
Lista de campos comunes a todos los tipos de exportaciones
Lista de campos para la exportación de gráficos de propiedades
Lista de campos para exportaciones RDF
Campos comunes a todos los tipos de exportaciones
Campo cloneCluster
en params
(Opcional). Predeterminado: false
.
Si el parámetro cloneCluster
está establecido en true
, el proceso de exportación utiliza un clon rápido del clúster de base de datos:
"cloneCluster" : true
De forma predeterminada, el proceso de exportación exporta los datos del clúster de base de datos que especifique mediante los parámetros endpoint
, endpoints
o clusterId
. Sin embargo, si el clúster de base de datos está en uso mientras se realiza la exportación y los datos cambian, el proceso de exportación no puede garantizar la coherencia de los datos que se exportan.
Para asegurarse de que los datos exportados son coherentes, utilice el parámetro cloneCluster
para exportar desde un clon estático del clúster de base de datos.
El clúster de base de datos clonado se crea en la misma VPC que el clúster de base de datos de origen y hereda la configuración de autenticación del grupo de seguridad, el grupo de subredes y la base de datos de IAM del origen. Cuando se completa la exportación, Neptune elimina el clúster de base de datos clonado.
De forma predeterminada, un clúster de base de datos clonado consta de una sola instancia del mismo tipo que la instancia principal del clúster de base de datos de origen. Puede cambiar el tipo de instancia utilizado para el clúster de base de datos clonado especificando uno diferente mediante cloneClusterInstanceType
.
nota
Si no utiliza la opción cloneCluster
y exporta directamente desde su clúster de base de datos principal, es posible que necesite aumentar el tiempo de espera de las instancias desde las que se exportan los datos. En el caso de conjuntos de datos de gran tamaño, el tiempo de espera debe establecerse en varias horas.
Campo cloneClusterInstanceType
en params
(Opcional).
Si el parámetro cloneCluster
está presente y establecido en true
, puede usar el parámetro cloneClusterInstanceType
para especificar el tipo de instancia utilizado para el clúster de base de datos clonado:
De forma predeterminada, un clúster de base de datos clonado consta de una sola instancia del mismo tipo que la instancia principal del clúster de base de datos de origen.
"cloneClusterInstanceType" : "
(for example, r5.12xlarge)
"
Campo cloneClusterReplicaCount
en params
(Opcional).
Si el parámetro cloneCluster
está presente y establecido en true
, puede usar el parámetro cloneClusterReplicaCount
para especificar el número de instancias de réplica de lectura creadas en el clúster de base de datos clonado:
"cloneClusterReplicaCount" :
(for example, 3)
De forma predeterminada, un clúster de base de datos clonado consta de una única instancia principal. El parámetro cloneClusterReplicaCount
le permite especificar cuántas instancias de réplica de lectura adicionales se deben crear.
Campo clusterId
en params
(Opcional).
El parámetro clusterId
especifica el ID del clúster de base de datos que se va a utilizar:
"clusterId" : "
(the ID of your DB cluster)
"
Si utiliza el parámetro clusterId
, el proceso de exportación utiliza todas las instancias disponibles en ese clúster de base de datos para extraer los datos.
nota
Los parámetros endpoint
, endpoints
y clusterId
son mutuamente excluyentes. Utilice una y solo una de ellas.
Campo endpoint
en params
(Opcional).
Utilice endpoint
para especificar un punto de conexión de una instancia de Neptune en su clúster de base de datos que el proceso de exportación pueda consultar para extraer datos (consulte Conexiones de punto de enlace). Este es solo el nombre de DNS y no incluye el protocolo ni el puerto:
"endpoint" : "
(a DNS endpoint of your DB cluster)
"
Utilice un punto de conexión de clúster o instancia, pero no el punto de conexión del lector principal.
nota
Los parámetros endpoint
, endpoints
y clusterId
son mutuamente excluyentes. Utilice una y solo una de ellas.
Campo endpoints
en params
(Opcional).
Utilice endpoints
para especificar una matriz JSON de puntos de conexión en su clúster de base de datos que el proceso de exportación pueda consultar para extraer datos (consulte Conexiones de punto de enlace). Este es solo el nombre de DNS y no incluye el protocolo ni el puerto:
"endpoints": [ "
(one endpoint in your DB cluster)
", "(another endpoint in your DB cluster)
", "(a third endpoint in your DB cluster)
" ]
Si tiene varias instancias en el clúster (una principal y una o más réplicas de lectura), puede mejorar el rendimiento de la exportación mediante el uso del parámetro endpoints
para distribuir las consultas en una lista de esos puntos de conexión.
nota
Los parámetros endpoint
, endpoints
y clusterId
son mutuamente excluyentes. Utilice una y solo una de ellas.
Campo profile
en params
(Necesario para exportar los datos de entrenamiento de Neptune ML, a menos que el campo neptune_ml
esté presente en el campoadditionalParams
).
El parámetro profile
proporciona conjuntos de parámetros preconfigurados para cargas de trabajo específicas. En la actualidad, el proceso de exportación solo admite el perfil neptune_ml
Si va a exportar datos de entrenamiento para Neptune ML, añada el siguiente parámetro al objeto params
:
"profile" : "neptune_ml"
Campo useIamAuth
en params
(Opcional). Predeterminado: false
.
Si la base de datos desde la que exporta los datos tiene habilitada la autenticación de IAM, debe incluir el conjunto de parámetros useIamAuth
en true
:
"useIamAuth" : true
Campo includeLastEventId
en params
Si establece includeLastEventId
en true y la base de datos desde la que se exportan los datos tiene los flujos de Neptune habilitados, el proceso de exportación escribe un archivo lastEventId.json
en la ubicación de exportación especificada. Este archivo contiene el commitNum
y opNum
del último evento del flujo.
"includeLastEventId" : true
Una base de datos clonada que se ha creado por medio del proceso de exportación hereda la configuración de flujos de la principal. Si la principal tiene habilitados los flujos, el clon también los tendrá. El contenido del flujo del clon reflejará el contenido de la principal (incluidos los mismos ID de evento) en el momento en que se creó el clon.
Campos para la exportación de gráficos de propiedades
Campo concurrency
en params
(Opcional). Predeterminado: 4
.
El parámetro concurrency
especifica el número de consultas paralelas que debe utilizar el proceso de exportación:
"concurrency" :
(for example, 24)
Una buena pauta es establecer el nivel de simultaneidad que sea el doble del número de vCPU en todas las instancias desde las que se exportan datos. Una instancia r5.xlarge, por ejemplo, tiene 4 vCPU. Si exporta desde un clúster de 3 instancias de r5.xlarge, puede establecer el nivel de simultaneidad en 24 (= 3 x 2 x 4).
Si utiliza el servicio Neptune-Export, el nivel de simultaneidad está limitado por la configuración de jobSize. Un trabajo pequeño, por ejemplo, admite un nivel de simultaneidad de 8. Si intenta especificar un nivel de simultaneidad de 24 para un trabajo pequeño mediante el parámetro concurrency
, el nivel efectivo permanece en 8.
Si exporta desde un clúster clonado, el proceso de exportación calcula un nivel de simultaneidad adecuado en función del tamaño de las instancias clonadas y del tamaño del trabajo.
Campo edgeLabels
en params
(Opcional).
Utilice edgeLabels
para exportar solo los bordes que tengan las etiquetas que especifique:
"edgeLabels" : ["
(a label)
", "(another label
"]
Cada etiqueta de la matriz JSON debe ser una etiqueta única y sencilla.
El parámetro scope
tiene prioridad sobre el parámetro edgeLabels
, por lo que si el valor de scope
no incluye bordes, el parámetro edgeLabels
no tiene ningún efecto.
Campo filter
en params
(Opcional).
Utilice filter
para especificar que solo se deben exportar los nodos o bordes con etiquetas específicas y para filtrar las propiedades que se exportan para cada nodo o borde.
La estructura general de un objeto filter
, ya sea en línea o en un archivo de configuración de filtros, es la siguiente:
"filter" : { "nodes": [
(array of node label and properties objects)
], "edges": [(array of edge definition an properties objects)
] }
-
nodes
: contiene una matriz JSON de nodos y propiedades de nodos con el siguiente formato:"nodes : [ { "label": "
(node label)
", "properties": [ "(a property name)
", "(another property name)
",( ... )
] } ]-
label
: la etiqueta o etiquetas del gráfico de propiedades del nodo.Toma un único valor o, si el nodo tiene varias etiquetas, una matriz de valores.
-
properties
: contiene una matriz con los nombres de las propiedades del nodo que desea exportar.
-
-
edges
: contiene una matriz JSON de definiciones de borde con el siguiente formato:"edges" : [ { "label": "
(edge label)
", "properties": [ "(a property name)
", "(another property name)
",( ... )
] } ]label
: la etiqueta del gráfico de propiedades de borde. Toma un único valor.properties
: contiene una matriz con los nombres de las propiedades del borde que desea exportar.
Campo filterConfigFile
en params
(Opcional).
Se utiliza filterConfigFile
para especificar un archivo JSON que contenga una configuración de filtro con el mismo formato que el parámetro filter
:
"filterConfigFile" : "s3://
(your Amazon S3 bucket)
/neptune-export/(the name of the JSON file)
"
Consulte filter para conocer el formato del archivo filterConfigFile
.
Campo format
que se utiliza para los datos del gráfico de propiedades en params
(Opcional). Predeterminado: csv
(valores separados por comas):
El parámetro format
especifica el formato de salida de los datos del gráfico de propiedades exportados:
"format" :
(one of: csv, csvNoHeaders, json, neptuneStreamsJson)
-
csv
: salida con formato de valores separados por comas (CSV), con encabezados de columna con el formato de datos de carga de Gremlin. -
csvNoHeaders
: datos en formato CSV sin encabezados de columna. -
json
: datos con formato JSON. -
neptuneStreamsJson
: los datos con formato JSON que utilizan el formato de serialización de cambios GREMLIN_JSON.
Campo gremlinFilter
en params
(Opcional).
El parámetro gremlinFilter
permite proporcionar un fragmento de Gremlin, como un paso has()
, que se utiliza para filtrar tanto los nodos como los bordes:
"gremlinFilter" :
(a Gremlin snippet)
Los nombres de los campos y los valores de las cadenas deben ir entre comillas dobles con caracteres de escape. Para las fechas y horas, puede utilizar el método datetime.
En el siguiente ejemplo, se exportan solo los nodos y bordes con una propiedad de fecha de creación cuyo valor sea superior a 2021-10-10:
"gremlinFilter" : "has(\"created\", gt(datetime(\"2021-10-10\")))"
Campo gremlinNodeFilter
en params
(Opcional).
El parámetro gremlinNodeFilter
permite proporcionar un fragmento de Gremlin, como un paso has()
, que se utiliza para filtrar los nodos:
"gremlinNodeFilter" :
(a Gremlin snippet)
Los nombres de los campos y los valores de las cadenas deben ir entre comillas dobles con caracteres de escape. Para las fechas y horas, puede utilizar el método datetime.
El siguiente ejemplo exporta solo los nodos con una propiedad booleana deleted
cuyo valor es true
:
"gremlinNodeFilter" : "has(\"deleted\", true)"
Campo gremlinEdgeFilter
en params
(Opcional).
El parámetro gremlinEdgeFilter
permite proporcionar un fragmento de Gremlin, como un paso has()
, que se utiliza para filtrar los bordes:
"gremlinEdgeFilter" :
(a Gremlin snippet)
Los nombres de los campos y los valores de las cadenas deben ir entre comillas dobles con caracteres de escape. Para las fechas y horas, puede utilizar el método datetime.
En el siguiente ejemplo, se exportan únicamente los bordes con una propiedad numérica strength
cuyo valor es 5:
"gremlinEdgeFilter" : "has(\"strength\", 5)"
Campo nodeLabels
en params
(Opcional).
Utilice nodeLabels
para exportar solo los nodos que tengan las etiquetas que especifique:
"nodeLabels" : ["
(a label)
", "(another label
"]
Cada etiqueta de la matriz JSON debe ser una etiqueta única y sencilla.
El parámetro scope
tiene prioridad sobre el parámetro nodeLabels
, por lo que si el valor de scope
no incluye nodos, el parámetro nodeLabels
no tiene ningún efecto.
Campo scope
en params
(Opcional). Predeterminado: all
.
El parámetro scope
especifica si se van a exportar solo los nodos, o solo los bordes, o tanto los nodos como los bordes:
"scope" :
(one of: nodes, edges, or all)
nodes
: se exportan únicamente los nodos y sus propiedades.edges
: se exportan únicamente los bordes y sus propiedades.all
: se exportan tanto los nodos como los bordes y sus propiedades (opción predeterminada).
Campos para la exportación RDF
Campo format
utilizado para los datos RDF en params
(Opcional). Valor predeterminado: turtle
El parámetro format
especifica el formato de salida de los datos RDF exportados:
"format" :
(one of: turtle, nquads, ntriples, neptuneStreamsJson)
-
turtle
: salida en formato Turtle. -
nquads
: datos en formato N-Quads sin encabezados de columna. -
ntriples
: datos en formato N-Triples. -
neptuneStreamsJson
: los datos con formato JSON que utilizan el formato de serialización de cambios NQUADS de SPARQL.
Campo rdfExportScope
en params
(Opcional). Predeterminado: graph
.
El parámetro rdfExportScope
especifica el alcance de la exportación de RDF:
"rdfExportScope" :
(one of: graph, edges, or query)
graph
: exporta todos los datos RDF.edges
: exporta solo los triples que representan bordes.query
: exporta los datos recuperados por una consulta SPARQL que se proporciona mediante el camposparql
.
Campo sparql
en params
(Opcional).
El parámetro sparql
le permite especificar una consulta SPARQL para recuperar los datos que se van a exportar:
"sparql" :
(a SPARQL query)
Si proporciona una consulta mediante el campo sparql
, también debe establecer el campo rdfExportScope
en query
.
Campo namedGraph
en params
(Opcional).
El namedGraph
parámetro permite especificar un IRI para limitar la exportación a un único gráfico con nombre:
"namedGraph" :
(Named graph IRI)
El namedGraph
parámetro solo se puede usar con el rdfExportScope
campo establecido engraph
.