Exporte campos de parámetros en el objeto JSON de nivel superior params - Amazon Neptune

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Exporte campos de parámetros en el objeto JSON de nivel superior params

El objeto JSON params de exportación de Neptune le permite controlar la exportación, incluidos el tipo y el formato de los datos exportados.

Lista de campos posibles en el objeto params de parámetros de exportación

A continuación, se enumeran todos los posibles campos de nivel superior que pueden aparecer en un objeto params. Solo un subconjunto de estos campos aparece en un objeto.

Lista de campos comunes a todos los tipos de exportaciones

Lista de campos para la exportación de gráficos de propiedades

Lista de campos para exportaciones RDF

Campos comunes a todos los tipos de exportaciones

Campo cloneCluster en params

(Opcional). Predeterminado: false.

Si el parámetro cloneCluster está establecido en true, el proceso de exportación utiliza un clon rápido del clúster de base de datos:

"cloneCluster" : true

De forma predeterminada, el proceso de exportación exporta los datos del clúster de base de datos que especifique mediante los parámetros endpoint, endpoints o clusterId. Sin embargo, si el clúster de base de datos está en uso mientras se realiza la exportación y los datos cambian, el proceso de exportación no puede garantizar la coherencia de los datos que se exportan.

Para asegurarse de que los datos exportados son coherentes, utilice el parámetro cloneCluster para exportar desde un clon estático del clúster de base de datos.

El clúster de base de datos clonado se crea en la misma VPC que el clúster de base de datos de origen y hereda la configuración de autenticación del grupo de seguridad, el grupo de subredes y la base de datos de IAM del origen. Cuando se completa la exportación, Neptune elimina el clúster de base de datos clonado.

De forma predeterminada, un clúster de base de datos clonado consta de una sola instancia del mismo tipo que la instancia principal del clúster de base de datos de origen. Puede cambiar el tipo de instancia utilizado para el clúster de base de datos clonado especificando uno diferente mediante cloneClusterInstanceType.

nota

Si no utiliza la opción cloneCluster y exporta directamente desde su clúster de base de datos principal, es posible que necesite aumentar el tiempo de espera de las instancias desde las que se exportan los datos. En el caso de conjuntos de datos de gran tamaño, el tiempo de espera debe establecerse en varias horas.

Campo cloneClusterInstanceType en params

(Opcional).

Si el parámetro cloneCluster está presente y establecido en true, puede usar el parámetro cloneClusterInstanceType para especificar el tipo de instancia utilizado para el clúster de base de datos clonado:

De forma predeterminada, un clúster de base de datos clonado consta de una sola instancia del mismo tipo que la instancia principal del clúster de base de datos de origen.

"cloneClusterInstanceType" : "(for example, r5.12xlarge)"

Campo cloneClusterReplicaCount en params

(Opcional).

Si el parámetro cloneCluster está presente y establecido en true, puede usar el parámetro cloneClusterReplicaCount para especificar el número de instancias de réplica de lectura creadas en el clúster de base de datos clonado:

"cloneClusterReplicaCount" : (for example, 3)

De forma predeterminada, un clúster de base de datos clonado consta de una única instancia principal. El parámetro cloneClusterReplicaCount le permite especificar cuántas instancias de réplica de lectura adicionales se deben crear.

Campo clusterId en params

(Opcional).

El parámetro clusterId especifica el ID del clúster de base de datos que se va a utilizar:

"clusterId" : "(the ID of your DB cluster)"

Si utiliza el parámetro clusterId, el proceso de exportación utiliza todas las instancias disponibles en ese clúster de base de datos para extraer los datos.

nota

Los parámetros endpoint, endpoints y clusterId son mutuamente excluyentes. Utilice una y solo una de ellas.

Campo endpoint en params

(Opcional).

Utilice endpoint para especificar un punto de conexión de una instancia de Neptune en su clúster de base de datos que el proceso de exportación pueda consultar para extraer datos (consulte Conexiones de punto de enlace). Este es solo el nombre de DNS y no incluye el protocolo ni el puerto:

"endpoint" : "(a DNS endpoint of your DB cluster)"

Utilice un punto de conexión de clúster o instancia, pero no el punto de conexión del lector principal.

nota

Los parámetros endpoint, endpoints y clusterId son mutuamente excluyentes. Utilice una y solo una de ellas.

Campo endpoints en params

(Opcional).

Utilice endpoints para especificar una matriz JSON de puntos de conexión en su clúster de base de datos que el proceso de exportación pueda consultar para extraer datos (consulte Conexiones de punto de enlace). Este es solo el nombre de DNS y no incluye el protocolo ni el puerto:

"endpoints": [ "(one endpoint in your DB cluster)", "(another endpoint in your DB cluster)", "(a third endpoint in your DB cluster)" ]

Si tiene varias instancias en el clúster (una principal y una o más réplicas de lectura), puede mejorar el rendimiento de la exportación mediante el uso del parámetro endpoints para distribuir las consultas en una lista de esos puntos de conexión.

nota

Los parámetros endpoint, endpoints y clusterId son mutuamente excluyentes. Utilice una y solo una de ellas.

Campo profile en params

(Necesario para exportar los datos de entrenamiento de Neptune ML, a menos que el campo neptune_ml esté presente en el campoadditionalParams).

El parámetro profile proporciona conjuntos de parámetros preconfigurados para cargas de trabajo específicas. En la actualidad, el proceso de exportación solo admite el perfil neptune_ml

Si va a exportar datos de entrenamiento para Neptune ML, añada el siguiente parámetro al objeto params:

"profile" : "neptune_ml"

Campo useIamAuth en params

(Opcional). Predeterminado: false.

Si la base de datos desde la que exporta los datos tiene habilitada la autenticación de IAM, debe incluir el conjunto de parámetros useIamAuth en true:

"useIamAuth" : true

Campo includeLastEventId en params

Si establece includeLastEventId en true y la base de datos desde la que se exportan los datos tiene los flujos de Neptune habilitados, el proceso de exportación escribe un archivo lastEventId.json en la ubicación de exportación especificada. Este archivo contiene el commitNum y opNum del último evento del flujo.

"includeLastEventId" : true

Una base de datos clonada que se ha creado por medio del proceso de exportación hereda la configuración de flujos de la principal. Si la principal tiene habilitados los flujos, el clon también los tendrá. El contenido del flujo del clon reflejará el contenido de la principal (incluidos los mismos ID de evento) en el momento en que se creó el clon.

Campos para la exportación de gráficos de propiedades

Campo concurrency en params

(Opcional). Predeterminado: 4.

El parámetro concurrency especifica el número de consultas paralelas que debe utilizar el proceso de exportación:

"concurrency" : (for example, 24)

Una buena pauta es establecer el nivel de simultaneidad que sea el doble del número de vCPU en todas las instancias desde las que se exportan datos. Una instancia r5.xlarge, por ejemplo, tiene 4 vCPU. Si exporta desde un clúster de 3 instancias de r5.xlarge, puede establecer el nivel de simultaneidad en 24 (= 3 x 2 x 4).

Si utiliza el servicio Neptune-Export, el nivel de simultaneidad está limitado por la configuración de jobSize. Un trabajo pequeño, por ejemplo, admite un nivel de simultaneidad de 8. Si intenta especificar un nivel de simultaneidad de 24 para un trabajo pequeño mediante el parámetro concurrency, el nivel efectivo permanece en 8.

Si exporta desde un clúster clonado, el proceso de exportación calcula un nivel de simultaneidad adecuado en función del tamaño de las instancias clonadas y del tamaño del trabajo.

Campo edgeLabels en params

(Opcional).

Utilice edgeLabels para exportar solo los bordes que tengan las etiquetas que especifique:

"edgeLabels" : ["(a label)", "(another label"]

Cada etiqueta de la matriz JSON debe ser una etiqueta única y sencilla.

El parámetro scope tiene prioridad sobre el parámetro edgeLabels, por lo que si el valor de scope no incluye bordes, el parámetro edgeLabels no tiene ningún efecto.

Campo filter en params

(Opcional).

Utilice filter para especificar que solo se deben exportar los nodos o bordes con etiquetas específicas y para filtrar las propiedades que se exportan para cada nodo o borde.

La estructura general de un objeto filter, ya sea en línea o en un archivo de configuración de filtros, es la siguiente:

"filter" : { "nodes": [ (array of node label and properties objects) ], "edges": [ (array of edge definition an properties objects) ] }
  • nodes: contiene una matriz JSON de nodos y propiedades de nodos con el siguiente formato:

    "nodes : [ { "label": "(node label)", "properties": [ "(a property name)", "(another property name)", ( ... ) ] } ]
    • label: la etiqueta o etiquetas del gráfico de propiedades del nodo.

      Toma un único valor o, si el nodo tiene varias etiquetas, una matriz de valores.

    • properties: contiene una matriz con los nombres de las propiedades del nodo que desea exportar.

  • edges: contiene una matriz JSON de definiciones de borde con el siguiente formato:

    "edges" : [ { "label": "(edge label)", "properties": [ "(a property name)", "(another property name)", ( ... ) ] } ]
    • label: la etiqueta del gráfico de propiedades de borde. Toma un único valor.

    • properties: contiene una matriz con los nombres de las propiedades del borde que desea exportar.

Campo filterConfigFile en params

(Opcional).

Se utiliza filterConfigFile para especificar un archivo JSON que contenga una configuración de filtro con el mismo formato que el parámetro filter:

"filterConfigFile" : "s3://(your Amazon S3 bucket)/neptune-export/(the name of the JSON file)"

Consulte filter para conocer el formato del archivo filterConfigFile.

Campo format que se utiliza para los datos del gráfico de propiedades en params

(Opcional). Predeterminado: csv (valores separados por comas):

El parámetro format especifica el formato de salida de los datos del gráfico de propiedades exportados:

"format" : (one of: csv, csvNoHeaders, json, neptuneStreamsJson)

Campo gremlinFilter en params

(Opcional).

El parámetro gremlinFilter permite proporcionar un fragmento de Gremlin, como un paso has(), que se utiliza para filtrar tanto los nodos como los bordes:

"gremlinFilter" : (a Gremlin snippet)

Los nombres de los campos y los valores de las cadenas deben ir entre comillas dobles con caracteres de escape. Para las fechas y horas, puede utilizar el método datetime.

En el siguiente ejemplo, se exportan solo los nodos y bordes con una propiedad de fecha de creación cuyo valor sea superior a 2021-10-10:

"gremlinFilter" : "has(\"created\", gt(datetime(\"2021-10-10\")))"

Campo gremlinNodeFilter en params

(Opcional).

El parámetro gremlinNodeFilter permite proporcionar un fragmento de Gremlin, como un paso has(), que se utiliza para filtrar los nodos:

"gremlinNodeFilter" : (a Gremlin snippet)

Los nombres de los campos y los valores de las cadenas deben ir entre comillas dobles con caracteres de escape. Para las fechas y horas, puede utilizar el método datetime.

El siguiente ejemplo exporta solo los nodos con una propiedad booleana deleted cuyo valor es true:

"gremlinNodeFilter" : "has(\"deleted\", true)"

Campo gremlinEdgeFilter en params

(Opcional).

El parámetro gremlinEdgeFilter permite proporcionar un fragmento de Gremlin, como un paso has(), que se utiliza para filtrar los bordes:

"gremlinEdgeFilter" : (a Gremlin snippet)

Los nombres de los campos y los valores de las cadenas deben ir entre comillas dobles con caracteres de escape. Para las fechas y horas, puede utilizar el método datetime.

En el siguiente ejemplo, se exportan únicamente los bordes con una propiedad numérica strength cuyo valor es 5:

"gremlinEdgeFilter" : "has(\"strength\", 5)"

Campo nodeLabels en params

(Opcional).

Utilice nodeLabels para exportar solo los nodos que tengan las etiquetas que especifique:

"nodeLabels" : ["(a label)", "(another label"]

Cada etiqueta de la matriz JSON debe ser una etiqueta única y sencilla.

El parámetro scope tiene prioridad sobre el parámetro nodeLabels, por lo que si el valor de scope no incluye nodos, el parámetro nodeLabels no tiene ningún efecto.

Campo scope en params

(Opcional). Predeterminado: all.

El parámetro scope especifica si se van a exportar solo los nodos, o solo los bordes, o tanto los nodos como los bordes:

"scope" : (one of: nodes, edges, or all)
  • nodes: se exportan únicamente los nodos y sus propiedades.

  • edges: se exportan únicamente los bordes y sus propiedades.

  • all: se exportan tanto los nodos como los bordes y sus propiedades (opción predeterminada).

Campos para la exportación RDF

Campo format utilizado para los datos RDF en params

(Opcional). Valor predeterminado: turtle

El parámetro format especifica el formato de salida de los datos RDF exportados:

"format" : (one of: turtle, nquads, ntriples, neptuneStreamsJson)

Campo rdfExportScope en params

(Opcional). Predeterminado: graph.

El parámetro rdfExportScope especifica el alcance de la exportación de RDF:

"rdfExportScope" : (one of: graph, edges, or query)
  • graph: exporta todos los datos RDF.

  • edges: exporta solo los triples que representan bordes.

  • query: exporta los datos recuperados por una consulta SPARQL que se proporciona mediante el campo sparql.

Campo sparql en params

(Opcional).

El parámetro sparql le permite especificar una consulta SPARQL para recuperar los datos que se van a exportar:

"sparql" : (a SPARQL query)

Si proporciona una consulta mediante el campo sparql, también debe establecer el campo rdfExportScope en query.

Campo namedGraph en params

(Opcional).

El namedGraph parámetro permite especificar un IRI para limitar la exportación a un único gráfico con nombre:

"namedGraph" : (Named graph IRI)

El namedGraph parámetro solo se puede usar con el rdfExportScope campo establecido engraph.