Campi possibili dei parametri Campi comuni Campi dei grafi di proprietà Campi RDF

Campi dei parametri di esportazione nell'oggetto JSON `params` di primo livello

L'oggetto JSON params di esportazione Neptune consente di controllare l'esportazione, inclusi il tipo e il formato dei dati esportati.

Elenco dei campi possibili nell'oggetto `params` dei parametri di esportazione

Di seguito sono elencati tutti i possibili campi di primo livello che possono essere presenti in un oggetto params. In ogni oggetto può essere presente solo un sottoinsieme di questi campi.

Campi comuni a tutti i tipi di esportazioni

Campo `cloneCluster` in `params`

(Facoltativo). Default: false.

Se il parametro cloneCluster è impostato su true, il processo di esportazione utilizza un clone rapido del cluster database:


  "cloneCluster" : true

Per impostazione predefinita, il processo di esportazione esporta i dati dal cluster database specificati utilizzando i parametri endpoint, endpoints o clusterId. Tuttavia, se il cluster database è in uso durante l'esportazione e i dati vengono modificati, il processo di esportazione non può garantire la coerenza dei dati esportati.

Per garantire la coerenza dei dati esportati, usa il parametro cloneCluster per esportare i dati da un clone statico del cluster database.

Il cluster database clonato viene creato nello stesso VPC del cluster database di origine ed eredita le impostazioni di autenticazione del gruppo di sicurezza, del gruppo di sottoreti e del database IAM dell'origine. Al termine dell'esportazione, Neptune elimina il cluster database clonato.

Per impostazione predefinita, un cluster database clonato è costituito da una singola istanza dello stesso tipo di istanza dell'istanza primaria nel cluster database di origine. È possibile modificare il tipo di istanza utilizzato per il cluster database clonato specificandone uno diverso utilizzando cloneClusterInstanceType.

Nota

Se non si utilizza l'opzione cloneCluster e si esegue l'esportazione direttamente dal cluster database principale, potrebbe essere necessario aumentare il timeout nelle istanze da cui vengono esportati i dati. Per set di dati di grandi dimensioni, il timeout deve essere impostato su diverse ore.

Campo `cloneClusterInstanceType` in `params`

(Facoltativo).

Se il parametro cloneCluster è presente e impostato su true, è possibile usare il parametro cloneClusterInstanceType per specificare il tipo di istanza utilizzato per il cluster database clonato:

Per impostazione predefinita, un cluster database clonato è costituito da una singola istanza dello stesso tipo di istanza dell'istanza primaria nel cluster database di origine.


  "cloneClusterInstanceType" : "(for example, r5.12xlarge)"

Campo `cloneClusterReplicaCount` in `params`

(Opzionale).

Se il parametro cloneCluster è presente e impostato su true, è possibile usare il parametro cloneClusterReplicaCount per specificare il numero di istanze di replica di lettura create nel cluster database clonato:


  "cloneClusterReplicaCount" : (for example, 3)

Per impostazione predefinita, un cluster database clonato è costituito da una singola istanza primaria. Il parametro cloneClusterReplicaCount consente di specificare il numero di istanze di replica di lettura aggiuntive da creare.

Campo `clusterId` in `params`

(Facoltativo).

Il parametro clusterId specifica l'ID del cluster database da usare:


  "clusterId" : "(the ID of your DB cluster)"

Se si utilizza il parametro clusterId, il processo di esportazione usa tutte le istanze disponibili in tale cluster database per estrarre i dati.

Nota

I parametri endpoint, endpoints e clusterId si escludono a vicenda. Devi usare solamente uno di essi.

Campo `endpoint` in `params`

(Facoltativo).

Usa endpoint per specificare un endpoint di un'istanza Neptune nel cluster database su cui il processo di esportazione può eseguire query per estrarre i dati (consulta Connessioni endpoint). Si tratta solo del nome DNS e non include il protocollo o la porta:


  "endpoint" : "(a DNS endpoint of your DB cluster)"

Usa un cluster o un endpoint dell'istanza, ma non l'endpoint di lettura principale.

Nota

I parametri endpoint, endpoints e clusterId si escludono a vicenda. Devi usare solamente uno di essi.

Campo `endpoints` in `params`

(Facoltativo).

Usa endpoints per specificare un array JSON di endpoint nel cluster database su cui il processo di esportazione può eseguire query per estrarre i dati (consulta Connessioni endpoint). Si tratta solo di nomi DNS e non includono il protocollo o la porta:


  "endpoints": [
    "(one endpoint in your DB cluster)",
    "(another endpoint in your DB cluster)",
    "(a third endpoint in your DB cluster)"
    ]

Se nel cluster sono presenti più istanze (un'istanza primaria e una o più repliche di lettura), è possibile migliorare le prestazioni di esportazione utilizzando il parametro endpoints per distribuire le query su un elenco di tali endpoint.

Nota

I parametri endpoint, endpoints e clusterId si escludono a vicenda. Devi usare solamente uno di essi.

Campo `profile` in `params`

(Obbligatorio per l'esportazione dei dati di training per Neptune ML, a meno che il campo neptune_ml non sia presente nel campo additionalParams).

Il parametro profile fornisce set di parametri preconfigurati per carichi di lavoro specifici. Al momento, il processo di esportazione supporta solo il profilo neptune_ml

Se devi esportare i dati di training per Neptune ML, aggiungi il seguente parametro all'oggetto params:


  "profile" : "neptune_ml"

Campo `useIamAuth` in `params`

(Opzionale). Default: false.

Se per il database da cui stai esportando i dati è abilitata l'autenticazione IAM, devi includere il parametro useIamAuth impostato su true:


  "useIamAuth" : true

Campo `includeLastEventId` in `params`

Se imposti includeLastEventId su true e per il database da cui esporti i dati sono abilitati i flussi di Neptune, il processo di esportazione scrive un file lastEventId.json nella posizione di esportazione specificata. Questo file contiene i valori commitNum e opNum dell'ultimo evento nel flusso.


  "includeLastEventId" : true

Un database clonato creato dal processo di esportazione eredita l'impostazione dei flussi del relativo database padre. Se i flussi sono abilitati per il database padre, saranno abilitati anche per il clone. Il contenuto dello stream sul clone rifletterà il contenuto del file principale (incluso lo stesso evento IDs) nel momento in cui è stato creato il clone.

Campi per l'esportazione dei grafi di proprietà

Campo `concurrency` in `params`

(Facoltativo). Default: 4.

Il parametro concurrency specifica il numero di query parallele che il processo di esportazione deve utilizzare:


  "concurrency" : (for example, 24)

Una buona linea guida consiste nell'impostare il livello di concorrenza al doppio del numero di v CPUs in tutte le istanze da cui si esportano i dati. Un'istanza r5.xlarge, ad esempio, ha 4 v. CPUs Se state esportando da un cluster di 3 istanze r5.xlarge, potete impostare il livello di concorrenza su 24 (= 3 x 2 x 4).

Se si utilizza il servizio Neptune-Export, il livello di concorrenza è limitato dall'impostazione jobSize. Un processo di piccole dimensioni, ad esempio, supporta un livello di concorrenza pari a 8. Se si tenta di specificare un livello di concorrenza di 24 per un processo di piccole dimensioni utilizzando il parametro concurrency, il livello effettivo rimane impostato su 8.

Se si esportano i dati da un cluster clonato, il processo di esportazione calcola un livello di concorrenza appropriato in base alle dimensioni delle istanze clonate e alle dimensioni del processo.

Campo `edgeLabels` in `params`

(Facoltativo).

Usa edgeLabels per esportare solo gli archi con le etichette specificate:


  "edgeLabels" : ["(a label)", "(another label"]

Ogni etichetta nell'array JSON deve essere un'unica etichetta semplice.

Il parametro scope ha la precedenza sul parametro edgeLabels, quindi se il valore scope non include archi, il parametro edgeLabels non ha alcun effetto.

Campo `filter` in `params`

(Facoltativo).

Usa filter per specificare che devono essere esportati solo i nodi e/o gli archi con etichette specifiche e per filtrare le proprietà esportate per ogni nodo o arco.

La struttura generale di un oggetto filter, in linea o in un file di configurazione del filtro, è la seguente:


  "filter" : {
    "nodes": [ (array of node label and properties objects) ],
    "edges": [ (array of edge definition an properties objects) ]
  }

nodes: contiene un array JSON di nodi e proprietà dei nodi nel seguente formato:
```
    "nodes : [
      {
        "label": "(node label)",
        "properties": [ "(a property name)", "(another property name)", ( ... ) ]
      }
    ]
```
- label: l'etichetta o le etichette del grafo delle proprietà del nodo.
  
  Accetta un singolo valore o, se il nodo contiene più etichette, un array di valori.
- properties: contiene un array dei nomi delle proprietà del nodo che si desidera esportare.
edges: contiene un array JSON di definizioni degli archi nel seguente formato:
```
    "edges" : [
      {
        "label": "(edge label)",
        "properties": [ "(a property name)", "(another property name)", ( ... ) ]
      }
    ]
```
- label: etichetta del grafo delle proprietà dell'arco. Accetta un valore singolo.
- properties: contiene un array dei nomi delle proprietà dell'arco che si desidera esportare.

Campo `filterConfigFile` in `params`

(Facoltativo).

Usa filterConfigFile per specificare un file JSON che contiene una configurazione del filtro nello stesso formato accettato dal parametro filter:


  "filterConfigFile" : "s3://(your Amazon S3 bucket)/neptune-export/(the name of the JSON file)"

Consulta filter per il formato del file filterConfigFile.

Campo `format` usato per i dati del grafo delle proprietà in `params`

(Facoltativo). Valore predefinito: csv (valori separati da virgole)

Il parametro format specifica il formato di output dei dati del grafo delle proprietà esportati:


  "format" : (one of: csv, csvNoHeaders, json, neptuneStreamsJson)

csv: output in formato CSV (valori separati da virgole), con intestazioni di colonna formattate in base al formato dei dati di caricamento Gremlin.
csvNoHeaders: dati in formato CSV senza intestazioni di colonna.
json: dati in formato JSON.
neptuneStreamsJson: dati in formato JSON che utilizzano il formato di serializzazione delle modifiche GREMLIN_JSON.

Campo `gremlinFilter` in `params`

(Facoltativo).

Il parametro gremlinFilter permette di specificare un frammento Gremlin, ad esempio una fase has(), che consente di filtrare sia i nodi che gli archi:


  "gremlinFilter" : (a Gremlin snippet)

I nomi dei campi e i valori delle stringhe devono essere racchiusi tra virgolette doppie precedute da caratteri di escape. Per date e ore, puoi usare il metodo datetime.

L'esempio seguente esporta solo i nodi e gli archi con una proprietà date-created il cui valore è maggiore di 2021-10-10:


  "gremlinFilter" : "has(\"created\", gt(datetime(\"2021-10-10\")))"

Campo `gremlinNodeFilter` in `params`

(Opzionale).

Il parametro gremlinNodeFilter permette di specificare un frammento Gremlin, ad esempio una fase has(), che consente di filtrare i nodi:


  "gremlinNodeFilter" : (a Gremlin snippet)

I nomi dei campi e i valori delle stringhe devono essere racchiusi tra virgolette doppie precedute da caratteri di escape. Per date e ore, puoi usare il metodo datetime.

L'esempio seguente esporta solo i nodi con una proprietà deleted booleana il cui valore è true:


  "gremlinNodeFilter" : "has(\"deleted\", true)"

Campo `gremlinEdgeFilter` in `params`

(Opzionale).

Il parametro gremlinEdgeFilter permette di specificare un frammento Gremlin, ad esempio una fase has(), che consente di filtrare gli archi:


  "gremlinEdgeFilter" : (a Gremlin snippet)

I nomi dei campi e i valori delle stringhe devono essere racchiusi tra virgolette doppie precedute da caratteri di escape. Per date e ore, puoi usare il metodo datetime.

L'esempio seguente esporta solo gli archi con una proprietà strength numerica il cui valore è 5:


  "gremlinEdgeFilter" : "has(\"strength\", 5)"

Campo `nodeLabels` in `params`

(Facoltativo).

Usa nodeLabels per esportare solo i nodi con le etichette specificate:


  "nodeLabels" : ["(a label)", "(another label"]

Ogni etichetta nell'array JSON deve essere un'unica etichetta semplice.

Il parametro scope ha la precedenza sul parametro nodeLabels, quindi se il valore scope non include nodi, il parametro nodeLabels non ha alcun effetto.

Campo `scope` in `params`

(Facoltativo). Default: all.

Il parametro scope specifica se esportare solo nodi, solo archi o entrambi:


  "scope" : (one of: nodes, edges, or all)

nodes: esporta solo i nodi e le relative proprietà.
edges: esporta solo gli archi e le relative proprietà.
all: esporta sia i nodi che gli archi e le relative proprietà (impostazione predefinita).

Campi per l'esportazione dei dati RDF

Campo `format` utilizzato per i dati RDF in `params`

(Facoltativo). Default: turtle

Il parametro format specifica il formato di output dei dati RDF esportati:


  "format" : (one of: turtle, nquads, ntriples, neptuneStreamsJson)

turtle: output in formato Turtle.
nquads: dati in formato N-Quads senza intestazioni di colonna.
ntriples: dati in formato N-Triples.
neptuneStreamsJson: dati in formato JSON che utilizzano il formato di serializzazione delle modifiche SPARQL NQUADS.

Campo `rdfExportScope` in `params`

(Opzionale). Default: graph.

Il parametro rdfExportScope specifica l'ambito dell'esportazione RDF:


  "rdfExportScope" : (one of: graph, edges, or query)

graph: esporta tutti i dati RDF.
edges: esporta solo le triple che rappresentano gli archi.
query: esporta i dati recuperati da una query SPARQL fornita utilizzando il campo sparql.

Campo `sparql` in `params`

(Facoltativo).

Il parametro sparql consente di specificare una query SPARQL per recuperare i dati da esportare:


  "sparql" : (a SPARQL query)

Se si fornisce una query utilizzando il campo sparql, è anche necessario impostare il campo rdfExportScope su query.

Campo `namedGraph` in `params`

(Facoltativo).

Il namedGraph parametro consente di specificare un IRI per limitare l'esportazione a un singolo grafico denominato:


  "namedGraph" : (Named graph IRI)

Il namedGraph parametro può essere utilizzato solo con il rdfExportScope campo impostato sugraph.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Parametri di esportazione

Esempi di filtri

Campi dei parametri di esportazione nell'oggetto JSON params di primo livello

Elenco dei campi possibili nell'oggetto params dei parametri di esportazione

Elenco dei campi comuni a tutti i tipi di esportazioni

Elenco dei campi per le esportazioni dei grafi di proprietà

Elenco dei campi per le esportazioni RDF

Campi comuni a tutti i tipi di esportazioni

Campo cloneCluster in params

Nota

Campo cloneClusterInstanceType in params

Campo cloneClusterReplicaCount in params

Campo clusterId in params

Nota

Campo endpoint in params

Nota

Campo endpoints in params

Nota

Campo profile in params

Campo useIamAuth in params

Campo includeLastEventId in params

Campi per l'esportazione dei grafi di proprietà

Campo concurrency in params

Campo edgeLabels in params

Campo filter in params

Campo filterConfigFile in params

Campo format usato per i dati del grafo delle proprietà in params

Campo gremlinFilter in params

Campo gremlinNodeFilter in params

Campo gremlinEdgeFilter in params

Campo nodeLabels in params

Campo scope in params

Campi per l'esportazione dei dati RDF

Campo format utilizzato per i dati RDF in params

Campo rdfExportScope in params

Campo sparql in params

Campo namedGraph in params

Campi dei parametri di esportazione nell'oggetto JSON `params` di primo livello

Elenco dei campi possibili nell'oggetto `params` dei parametri di esportazione

Campo `cloneCluster` in `params`

Campo `cloneClusterInstanceType` in `params`

Campo `cloneClusterReplicaCount` in `params`

Campo `clusterId` in `params`

Campo `endpoint` in `params`

Campo `endpoints` in `params`

Campo `profile` in `params`

Campo `useIamAuth` in `params`

Campo `includeLastEventId` in `params`

Campo `concurrency` in `params`

Campo `edgeLabels` in `params`

Campo `filter` in `params`

Campo `filterConfigFile` in `params`

Campo `format` usato per i dati del grafo delle proprietà in `params`

Campo `gremlinFilter` in `params`

Campo `gremlinNodeFilter` in `params`

Campo `gremlinEdgeFilter` in `params`

Campo `nodeLabels` in `params`

Campo `scope` in `params`

Campo `format` utilizzato per i dati RDF in `params`

Campo `rdfExportScope` in `params`

Campo `sparql` in `params`

Campo `namedGraph` in `params`