Campi dei parametri di esportazione nell'oggetto JSON params di primo livello - Amazon Neptune

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Campi dei parametri di esportazione nell'oggetto JSON params di primo livello

L'oggetto JSON params di esportazione Neptune consente di controllare l'esportazione, inclusi il tipo e il formato dei dati esportati.

Elenco dei campi possibili nell'oggetto params dei parametri di esportazione

Di seguito sono elencati tutti i possibili campi di primo livello che possono essere presenti in un oggetto params. In ogni oggetto può essere presente solo un sottoinsieme di questi campi.

Elenco dei campi comuni a tutti i tipi di esportazioni

Elenco dei campi per le esportazioni dei grafi di proprietà

Elenco dei campi per le esportazioni RDF

Campi comuni a tutti i tipi di esportazioni

Campo cloneCluster in params

(Facoltativo). Default: false.

Se il parametro cloneCluster è impostato su true, il processo di esportazione utilizza un clone rapido del cluster database:

"cloneCluster" : true

Per impostazione predefinita, il processo di esportazione esporta i dati dal cluster database specificati utilizzando i parametri endpoint, endpoints o clusterId. Tuttavia, se il cluster database è in uso durante l'esportazione e i dati vengono modificati, il processo di esportazione non può garantire la coerenza dei dati esportati.

Per garantire la coerenza dei dati esportati, usa il parametro cloneCluster per esportare i dati da un clone statico del cluster database.

Il cluster database clonato viene creato nello stesso VPC del cluster database di origine ed eredita le impostazioni di autenticazione del gruppo di sicurezza, del gruppo di sottoreti e del database IAM dell'origine. Al termine dell'esportazione, Neptune elimina il cluster database clonato.

Per impostazione predefinita, un cluster database clonato è costituito da una singola istanza dello stesso tipo di istanza dell'istanza primaria nel cluster database di origine. È possibile modificare il tipo di istanza utilizzato per il cluster database clonato specificandone uno diverso utilizzando cloneClusterInstanceType.

Nota

Se non si utilizza l'opzione cloneCluster e si esegue l'esportazione direttamente dal cluster database principale, potrebbe essere necessario aumentare il timeout nelle istanze da cui vengono esportati i dati. Per set di dati di grandi dimensioni, il timeout deve essere impostato su diverse ore.

Campo cloneClusterInstanceType in params

(Facoltativo).

Se il parametro cloneCluster è presente e impostato su true, è possibile usare il parametro cloneClusterInstanceType per specificare il tipo di istanza utilizzato per il cluster database clonato:

Per impostazione predefinita, un cluster database clonato è costituito da una singola istanza dello stesso tipo di istanza dell'istanza primaria nel cluster database di origine.

"cloneClusterInstanceType" : "(for example, r5.12xlarge)"

Campo cloneClusterReplicaCount in params

(Facoltativo).

Se il parametro cloneCluster è presente e impostato su true, è possibile usare il parametro cloneClusterReplicaCount per specificare il numero di istanze di replica di lettura create nel cluster database clonato:

"cloneClusterReplicaCount" : (for example, 3)

Per impostazione predefinita, un cluster database clonato è costituito da una singola istanza primaria. Il parametro cloneClusterReplicaCount consente di specificare il numero di istanze di replica di lettura aggiuntive da creare.

Campo clusterId in params

(Facoltativo).

Il parametro clusterId specifica l'ID del cluster database da usare:

"clusterId" : "(the ID of your DB cluster)"

Se si utilizza il parametro clusterId, il processo di esportazione usa tutte le istanze disponibili in tale cluster database per estrarre i dati.

Nota

I parametri endpoint, endpoints e clusterId si escludono a vicenda. Devi usare solamente uno di essi.

Campo endpoint in params

(Facoltativo).

Usa endpoint per specificare un endpoint di un'istanza Neptune nel cluster database su cui il processo di esportazione può eseguire query per estrarre i dati (consulta Connessioni endpoint). Si tratta solo del nome DNS e non include il protocollo o la porta:

"endpoint" : "(a DNS endpoint of your DB cluster)"

Usa un cluster o un endpoint dell'istanza, ma non l'endpoint di lettura principale.

Nota

I parametri endpoint, endpoints e clusterId si escludono a vicenda. Devi usare solamente uno di essi.

Campo endpoints in params

(Facoltativo).

Usa endpoints per specificare un array JSON di endpoint nel cluster database su cui il processo di esportazione può eseguire query per estrarre i dati (consulta Connessioni endpoint). Si tratta solo di nomi DNS e non includono il protocollo o la porta:

"endpoints": [ "(one endpoint in your DB cluster)", "(another endpoint in your DB cluster)", "(a third endpoint in your DB cluster)" ]

Se nel cluster sono presenti più istanze (un'istanza primaria e una o più repliche di lettura), è possibile migliorare le prestazioni di esportazione utilizzando il parametro endpoints per distribuire le query su un elenco di tali endpoint.

Nota

I parametri endpoint, endpoints e clusterId si escludono a vicenda. Devi usare solamente uno di essi.

Campo profile in params

(Obbligatorio per l'esportazione dei dati di training per Neptune ML, a meno che il campo neptune_ml non sia presente nel campo additionalParams).

Il parametro profile fornisce set di parametri preconfigurati per carichi di lavoro specifici. Al momento, il processo di esportazione supporta solo il profilo neptune_ml

Se devi esportare i dati di training per Neptune ML, aggiungi il seguente parametro all'oggetto params:

"profile" : "neptune_ml"

Campo useIamAuth in params

(Facoltativo). Default: false.

Se per il database da cui stai esportando i dati è abilitata l'autenticazione IAM, devi includere il parametro useIamAuth impostato su true:

"useIamAuth" : true

Campo includeLastEventId in params

Se imposti includeLastEventId su true e per il database da cui esporti i dati sono abilitati i flussi di Neptune, il processo di esportazione scrive un file lastEventId.json nella posizione di esportazione specificata. Questo file contiene i valori commitNum e opNum dell'ultimo evento nel flusso.

"includeLastEventId" : true

Un database clonato creato dal processo di esportazione eredita l'impostazione dei flussi del relativo database padre. Se i flussi sono abilitati per il database padre, saranno abilitati anche per il clone. Il contenuto del flusso sul clone rifletterà il contenuto del database padre (inclusi gli stessi ID di evento) al momento della creazione del clone.

Campi per l'esportazione dei grafi di proprietà

Campo concurrency in params

(Facoltativo). Default: 4.

Il parametro concurrency specifica il numero di query parallele che il processo di esportazione deve utilizzare:

"concurrency" : (for example, 24)

È consigliabile impostare il livello di concorrenza su un valore pari al doppio del numero di vCPU su tutte le istanze da cui si esportano i dati. Un'istanza r5.xlarge, ad esempio, ha 4 vCPU. Se si esegue l'esportazione da un cluster di 3 istanze r5.xlarge, è possibile impostare il livello di concorrenza su 24 (= 3 x 2 x 4).

Se si utilizza il servizio Neptune-Export, il livello di concorrenza è limitato dall'impostazione jobSize. Un processo di piccole dimensioni, ad esempio, supporta un livello di concorrenza pari a 8. Se si tenta di specificare un livello di concorrenza di 24 per un processo di piccole dimensioni utilizzando il parametro concurrency, il livello effettivo rimane impostato su 8.

Se si esportano i dati da un cluster clonato, il processo di esportazione calcola un livello di concorrenza appropriato in base alle dimensioni delle istanze clonate e alle dimensioni del processo.

Campo edgeLabels in params

(Facoltativo).

Usa edgeLabels per esportare solo gli archi con le etichette specificate:

"edgeLabels" : ["(a label)", "(another label"]

Ogni etichetta nell'array JSON deve essere un'unica etichetta semplice.

Il parametro scope ha la precedenza sul parametro edgeLabels, quindi se il valore scope non include archi, il parametro edgeLabels non ha alcun effetto.

Campo filter in params

(Facoltativo).

Usa filter per specificare che devono essere esportati solo i nodi e/o gli archi con etichette specifiche e per filtrare le proprietà esportate per ogni nodo o arco.

La struttura generale di un oggetto filter, in linea o in un file di configurazione del filtro, è la seguente:

"filter" : { "nodes": [ (array of node label and properties objects) ], "edges": [ (array of edge definition an properties objects) ] }
  • nodes: contiene un array JSON di nodi e proprietà dei nodi nel seguente formato:

    "nodes : [ { "label": "(node label)", "properties": [ "(a property name)", "(another property name)", ( ... ) ] } ]
    • label: l'etichetta o le etichette del grafo delle proprietà del nodo.

      Accetta un singolo valore o, se il nodo contiene più etichette, un array di valori.

    • properties: contiene un array dei nomi delle proprietà del nodo che si desidera esportare.

  • edges: contiene un array JSON di definizioni degli archi nel seguente formato:

    "edges" : [ { "label": "(edge label)", "properties": [ "(a property name)", "(another property name)", ( ... ) ] } ]
    • label: etichetta del grafo delle proprietà dell'arco. Accetta un valore singolo.

    • properties: contiene un array dei nomi delle proprietà dell'arco che si desidera esportare.

Campo filterConfigFile in params

(Facoltativo).

Usa filterConfigFile per specificare un file JSON che contiene una configurazione del filtro nello stesso formato accettato dal parametro filter:

"filterConfigFile" : "s3://(your Amazon S3 bucket)/neptune-export/(the name of the JSON file)"

Consulta filter per il formato del file filterConfigFile.

Campo format usato per i dati del grafo delle proprietà in params

(Facoltativo). Valore predefinito: csv (valori separati da virgole)

Il parametro format specifica il formato di output dei dati del grafo delle proprietà esportati:

"format" : (one of: csv, csvNoHeaders, json, neptuneStreamsJson)

Campo gremlinFilter in params

(Facoltativo).

Il parametro gremlinFilter permette di specificare un frammento Gremlin, ad esempio una fase has(), che consente di filtrare sia i nodi che gli archi:

"gremlinFilter" : (a Gremlin snippet)

I nomi dei campi e i valori delle stringhe devono essere racchiusi tra virgolette doppie precedute da caratteri di escape. Per date e ore, puoi usare il metodo datetime.

L'esempio seguente esporta solo i nodi e gli archi con una proprietà date-created il cui valore è maggiore di 2021-10-10:

"gremlinFilter" : "has(\"created\", gt(datetime(\"2021-10-10\")))"

Campo gremlinNodeFilter in params

(Facoltativo).

Il parametro gremlinNodeFilter permette di specificare un frammento Gremlin, ad esempio una fase has(), che consente di filtrare i nodi:

"gremlinNodeFilter" : (a Gremlin snippet)

I nomi dei campi e i valori delle stringhe devono essere racchiusi tra virgolette doppie precedute da caratteri di escape. Per date e ore, puoi usare il metodo datetime.

L'esempio seguente esporta solo i nodi con una proprietà deleted booleana il cui valore è true:

"gremlinNodeFilter" : "has(\"deleted\", true)"

Campo gremlinEdgeFilter in params

(Facoltativo).

Il parametro gremlinEdgeFilter permette di specificare un frammento Gremlin, ad esempio una fase has(), che consente di filtrare gli archi:

"gremlinEdgeFilter" : (a Gremlin snippet)

I nomi dei campi e i valori delle stringhe devono essere racchiusi tra virgolette doppie precedute da caratteri di escape. Per date e ore, puoi usare il metodo datetime.

L'esempio seguente esporta solo gli archi con una proprietà strength numerica il cui valore è 5:

"gremlinEdgeFilter" : "has(\"strength\", 5)"

Campo nodeLabels in params

(Facoltativo).

Usa nodeLabels per esportare solo i nodi con le etichette specificate:

"nodeLabels" : ["(a label)", "(another label"]

Ogni etichetta nell'array JSON deve essere un'unica etichetta semplice.

Il parametro scope ha la precedenza sul parametro nodeLabels, quindi se il valore scope non include nodi, il parametro nodeLabels non ha alcun effetto.

Campo scope in params

(Facoltativo). Default: all.

Il parametro scope specifica se esportare solo nodi, solo archi o entrambi:

"scope" : (one of: nodes, edges, or all)
  • nodes: esporta solo i nodi e le relative proprietà.

  • edges: esporta solo gli archi e le relative proprietà.

  • all: esporta sia i nodi che gli archi e le relative proprietà (impostazione predefinita).

Campi per l'esportazione dei dati RDF

Campo format utilizzato per i dati RDF in params

(Facoltativo). Default: turtle

Il parametro format specifica il formato di output dei dati RDF esportati:

"format" : (one of: turtle, nquads, ntriples, neptuneStreamsJson)

Campo rdfExportScope in params

(Facoltativo). Default: graph.

Il parametro rdfExportScope specifica l'ambito dell'esportazione RDF:

"rdfExportScope" : (one of: graph, edges, or query)
  • graph: esporta tutti i dati RDF.

  • edges: esporta solo le triple che rappresentano gli archi.

  • query: esporta i dati recuperati da una query SPARQL fornita utilizzando il campo sparql.

Campo sparql in params

(Facoltativo).

Il parametro sparql consente di specificare una query SPARQL per recuperare i dati da esportare:

"sparql" : (a SPARQL query)

Se si fornisce una query utilizzando il campo sparql, è anche necessario impostare il campo rdfExportScope su query.

Campo namedGraph in params

(Facoltativo).

Il namedGraph parametro consente di specificare un IRI per limitare l'esportazione a un singolo grafico denominato:

"namedGraph" : (Named graph IRI)

Il namedGraph parametro può essere utilizzato solo con il rdfExportScope campo impostato sugraph.