As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
APIs de carregamento em massa do plano de dados do Neptune
Ações de carregamento em massa:
Estrutura de carregamento em massa:
StartLoaderJob (ação)
O nome da CLI da AWS para essa API é: start-loader-job
.
Inicia um trabalho de carregador em massa do Neptune para carregar dados de um bucket do Amazon S3 em uma instância de banco de dados do Neptune. Consulte Usar o carregador em massa do Amazon Neptune para ingerir dados.
Ao invocar essa operação em um cluster do Neptune com a autenticação do IAM habilitada, o usuário ou o perfil do IAM que faz a solicitação deve ter uma política anexada que viabilize a ação do IAM neptune-db:StartLoaderJob nesse cluster.
Solicitação
-
dependencies (na CLI:
--dependencies
): uma string, do tipo:string
(uma string codificada em UTF-8).Trata-se de um parâmetro opcional que pode tornar uma solicitação de carga em fila dependente da conclusão bem-sucedida de um ou mais trabalhos anteriores na fila.
O Neptune poderá colocar na fila até 64 solicitações de carga por vez se os parâmetros
queueRequest
estiverem definidos como"TRUE"
. O parâmetrodependencies
permite executar a solicitação enfileirada dependente da conclusão com êxito de uma ou mais solicitações anteriores especificadas na fila.Por exemplo, se as cargas
Job-A
eJob-B
forem interdependentes, mas a cargaJob-C
precisar que aJob-A
e aJob-B
sejam concluídas antes de começar, prossiga da seguinte forma:-
Envie
load-job-A
eload-job-B
, uma após a outra, em qualquer ordem e salve os load-ids. -
Envie
load-job-C
com os load-ids dos dois trabalhos no campodependencies
:
"dependencies" : ["(job_A_load_id)", "(job_B_load_id)"]
Devido ao parâmetro
dependencies
, o carregador em massa não iniciará aJob-C
até que aJob-A
e aJob-B
tenham sido concluídas com êxito. Se uma delas falhar, a Job-C não será executada e o status será definido comoLOAD_FAILED_BECAUSE_DEPENDENCY_NOT_SATISFIED
.É possível configurar vários níveis de dependência desta forma, para que a falha de um trabalho faça com que todas as solicitações direta ou indiretamente dependentes sejam canceladas.
-
-
failOnError (na CLI:
--fail-on-error
): um valor booliano, do tipo:boolean
(um valor booliano (verdadeiro ou falso)).failOnError
: sinalizador para alternar uma interrupção completa em um erro.Valores permitidos:
"TRUE"
,"FALSE"
Valor padrão:
"TRUE"
.Quando este parâmetro estiver configurado como
"FALSE"
, o carregador tentará carregar todos os dados no local especificado, ignorando as entradas com erros.Quando este parâmetro for definido como
"TRUE"
, o carregador será interrompido assim que encontrar um erro. Os dados carregados até esse momento serão mantidos. -
format (na CLI:
--format
): obrigatório: um formato, do tipo:string
(uma string codificada em UTF-8).O formato dos dados. Para obter mais informações sobre os formatos de dados para o comando
Loader
do Neptune, consulte Formatos de dados de carga.Valores permitidos
-
csv
para o formato de dados CSV do Gremlin. -
opencypher
para o formato de dados CSV do openCypher. -
ntriples
para o formato de dados N-Triples do RDF. -
nquads
para o formato de dados N-Quads do RDF. -
rdfxml
para o formato de dados RDF\XML do RDF. -
turtle
para o formato de dados Turtle do RDF.
-
-
iamRoleArn (na CLI:
--iam-role-arn
): obrigatório: uma string, do tipo:string
(uma string codificada em UTF-8).O nome do recurso da Amazon (ARN) de um perfil do IAM a ser assumido pela instância de banco de dados do Neptune para acesso ao bucket do S3. O ARN do perfil do IAM fornecido aqui deve ser anexado ao cluster de banco de dados (consulte Adicionar o perfil do IAM a um cluster do Amazon Neptune).
-
mode (na CLI:
--mode
): um modo, do tipo:string
(uma string codificada em UTF-8).Modo do trabalho de carga.
Valores permitidos:
RESUME
,NEW
,AUTO
.Valor padrão:
AUTO
.-
RESUME
: no modo RESUME, o carregador procura uma carga anterior dessa origem e, se encontrar, retomará esse trabalho de carga. Se nenhum trabalho de carga anterior for encontrado, o carregador será interrompido.O carregador evita recarregar arquivos que foram carregados com êxito em um trabalho anterior. Ele só tenta processar arquivos com falha. Se você descartou anteriormente dados carregados do cluster do Neptune, esses dados não serão recarregados nesse modo. Se um trabalho de carga anterior carregou todos os arquivos da mesma origem com êxito, nada será recarregado, e o recarregador exibirá êxito.
-
NEW
: no modo NEW, cria uma solicitação de carga, independentemente de quaisquer cargas anteriores. É possível usar esse modo para recarregar todos dados de uma origem depois de eliminar dados carregados anteriormente do cluster do Neptune ou de carregar novos dados disponíveis na mesma origem. -
AUTO
: no modo AUTO, o carregador procura um trabalho de carga anterior da mesma origem e, se encontrar, retomará esse trabalho, assim como no modoRESUME
.Se o carregador não encontrar um trabalho de carga anterior da mesma origem, ele carregará todos os dados da origem, assim como no modo
NEW
.
-
-
parallelism (na CLI:
--parallelism
): um paralelismo, do tipo:string
(uma string codificada em UTF-8).O parâmetro
parallelism
opcional que pode ser definido para reduzir o número de threads usados pelo processo de carregamento em massa.Valores permitidos:
-
LOW
: o número de threads usados é o número de vCPUs dividido por oito. -
MEDIUM
: o número de threads usados é o número de vCPUs disponíveis dividido por dois. -
HIGH
: o número de threads usados é equivalente ao número de vCPUs disponíveis. -
OVERSUBSCRIBE
: o número de threads usados é o número de vCPUs disponíveis multiplicado por dois. Se esse valor for usado, o carregador em massa usará todos os recursos disponíveis.No entanto, isso não significa que a configuração
OVERSUBSCRIBE
resulte em 100% de utilização da CPU. Como a operação de carga está limitada à E/S, a maior utilização esperada da CPU está na faixa de 60% a 70%.
Valor padrão:
HIGH
Às vezes, a configuração
parallelism
pode causar um deadlock entre os threads ao carregar dados do openCypher. Quando isso acontece, o Neptune gera o erroLOAD_DATA_DEADLOCK
. Geralmente, é possível corrigir o problema definindo uma configuraçãoparallelism
mais baixa e tentando novamente o comando de carregamento. -
-
parserConfiguration (na CLI:
--parser-configuration
): uma matriz de mapa dos pares de valor-chave em que:Cada chave é uma string, do tipo:
string
(uma string codificada em UTF-8).Cada valor é uma string, do tipo:
string
(uma string codificada em UTF-8).parserConfiguration
: um objeto opcional com valores de configuração de analisador adicional. Os parâmetros filho também são opcionais:-
namedGraphUri
: o grafo padrão para todos os formatos do RDF quando nenhum grafo for especificado (para formatos sem quadrantes e entradas NQUAD sem grafo).O padrão é
https://aws.amazon.com/neptune/vocab/v01/DefaultNamedGraph
. -
baseUri
: o URI base para formatos RDF/XML e Turtle.O padrão é
https://aws.amazon.com/neptune/default
. -
allowEmptyStrings
: é necessário que os usuários do Gremlin possam transmitir valores de string vazios (“”) como propriedades de nós e bordas ao carregar dados CSV. SeallowEmptyStrings
estiver definido comofalse
(o padrão), essas strings vazias serão tratadas como nulas e não serão carregadas.Se
allowEmptyStrings
estiver definido comotrue
, o carregador tratará strings vazias como valores de propriedade válidos e as carregará adequadamente.
-
-
queueRequest (na CLI:
--queue-request
): um valor booliano, do tipo:boolean
(um valor booliano (verdadeiro ou falso)).Trata-se de um parâmetro de sinalizador opcional que indica se a solicitação de carga pode ser colocada em fila ou não.
Não é necessário esperar um trabalho de carga ser concluído antes de emitir o próximo, porque o Neptune pode colocar na fila até 64 trabalhos por vez, desde que os parâmetros
queueRequest
estejam todos definidos como"TRUE"
. A ordem da fila dos trabalhos será do tipo FIFO (first-in-first-out, primeiro a entrar, primeiro a sair).Se o parâmetro
queueRequest
for omitido ou definido como"FALSE"
, a solicitação de carga falhará se outro trabalho de carga já estiver em execução.Valores permitidos:
"TRUE"
,"FALSE"
Valor padrão:
"FALSE"
. -
s3BucketRegion (na CLI:
--s-3-bucket-region
): obrigatório: uma S3BucketRegion, do tipo:string
(uma string codificada em UTF-8).A região da Amazon do bucket do S3. Deve corresponder à região da Amazon do cluster de banco de dados.
-
source (na CLI:
--source
): obrigatório: uma string, do tipo:string
(uma string codificada em UTF-8).O parâmetro
source
aceita um URI do S3 que identifica um único arquivo, vários arquivos, uma pasta ou várias pastas. O Neptune carrega todos os arquivos de dados em qualquer pasta especificada.O URI pode estar em qualquer um dos seguintes formatos.
-
s3://(bucket_name)/(object-key-name)
-
https://s3.amazonaws.com/(bucket_name)/(object-key-name)
-
https://s3.us-east-1.amazonaws.com/(bucket_name)/(object-key-name)
O elemento
object-key-name
do URI é equivalente ao parâmetro prefix em uma chamada da API ListObjects do S3. Ele identifica todos os objetos no bucket do S3 especificado cujos nomes começam com esse prefixo. Pode ser um único arquivo ou pasta, ou vários arquivos e/ou pastas.A pasta ou as pastas especificadas podem conter vários arquivos de vértice e vários arquivos de borda.
-
-
updateSingleCardinalityProperties (na CLI:
--update-single-cardinality-properties
): um valor booliano, do tipo:boolean
(um valor booliano (verdadeiro ou falso)).updateSingleCardinalityProperties
é um parâmetro opcional que controla como o carregador em massa trata um novo valor das propriedades de vértice de cardinalidade única ou de borda. Isso não é compatível com o carregamento de dados do openCypher.Valores permitidos:
"TRUE"
,"FALSE"
Valor padrão:
"FALSE"
.Por padrão, ou quando
updateSingleCardinalityProperties
está explicitamente definido como"FALSE"
, o carregador trata um novo valor como um erro, porque ele viola a cardinalidade única.Quando
updateSingleCardinalityProperties
está definido como"TRUE"
, por outro lado, o carregador em massa substitui o valor existente pelo novo. Se vários valores de propriedade de vértice de cardinalidade única ou de ponto forem fornecidos nos arquivos de origem que estão sendo carregados, o valor final quando o carregamento em massa terminar poderá ser qualquer um desses novos valores. O carregador só garante que o valor existente tenha sido substituído por um dos novos. -
userProvidedEdgeIds (na CLI:
--user-provided-edge-ids
): um valor booliano, do tipo:boolean
(um valor booliano (verdadeiro ou falso)).Esse parâmetro é necessário somente ao carregar dados do openCypher que contêm IDs de relacionamento. Ele deve ser incluído e definido como
True
quando os IDs de relacionamento do openCypher forem fornecidos explicitamente nos dados de carregamento (recomendado).Quando
userProvidedEdgeIds
está ausente ou definido comoTrue
, uma coluna:ID
deve estar presente em cada arquivo de relacionamento no carregamento.Quando
userProvidedEdgeIds
está presente e definido comoFalse
, os arquivos de relacionamento no carregamento não devem conter uma coluna:ID
. Em vez disso, o carregador do Neptune gera automaticamente um ID para cada relacionamento.É útil fornecer IDs de relacionamento explicitamente para que o carregador possa retomar o carregamento após a correção do erro nos dados CSV, sem precisar recarregar nenhum relacionamento que já tenha sido carregado. Se os IDs de relacionamento não tiverem sido atribuídos explicitamente, o carregador não poderá retomar um carregamento com falha se for necessário corrigir algum arquivo de relacionamento. Nesse caso, ele deverá carregar todos os relacionamentos.
Resposta
-
payload: obrigatório: é uma matriz de mapa dos pares de valor-chave em que:
Cada chave é uma string, do tipo:
string
(uma string codificada em UTF-8).Cada valor é uma string, do tipo:
string
(uma string codificada em UTF-8).Contém um par de nome-valor
loadId
que fornece um identificador para a operação de carregamento. -
status: obrigatório: uma string, do tipo:
string
(uma string codificada em UTF-8).O código HTTP que indica o status do trabalho de carregamento.
Erros
GetLoaderJobStatus (ação)
O nome da CLI da AWS para essa API é: get-loader-job-status
.
Obtém informações de status sobre um trabalho de carregamento especificado. O Neptune mantém o controle dos 1.024 trabalhos de carregamento em massa mais recentes e armazena somente os últimos 10 mil detalhes de erro por trabalho.
Consulte API Get-Status do carregador do Neptune para obter mais informações.
Ao invocar essa operação em um cluster do Neptune com a autenticação do IAM habilitada, o usuário ou o perfil do IAM que faz a solicitação deve ter uma política anexada que viabilize a ação do IAM neptune-db:GetLoaderJobStatus nesse cluster.
Solicitação
-
details (na CLI:
--details
): um valor booliano, do tipo:boolean
(um valor booliano (verdadeiro ou falso)).Sinalizador que indica se é necessário ou não incluir detalhes além do status geral (
TRUE
ouFALSE
; o padrão éFALSE
). -
errors (na CLI:
--errors
): um valor booliano, do tipo:boolean
(um valor booliano (verdadeiro ou falso)).Sinalizador que indica se é necessário ou não incluir uma lista de erros encontrados (
TRUE
ouFALSE
; o padrão éFALSE
).A lista de erros é paginada. Os parâmetros
page
eerrorsPerPage
permitem que você pagine por todos os erros. -
errorsPerPage (na CLI :
--errors-per-page
): um PositiveInteger, do tipo:integer
(um valor inteiro assinado de 32 bits), pelo menos 1 ?st?.O número de erros exibidos em cada página (um número inteiro positivo; o padrão é
10
). Válido apenas com o parâmetroerrors
definido comoTRUE
. -
loadId (na CLI:
--load-id
): obrigatório: uma string, do tipo:string
(uma string codificada em UTF-8).O ID do trabalho de carregamento do qual obter o status.
-
page (na CLI :
--page
): um PositiveInteger, do tipo:integer
(um valor inteiro assinado de 32 bits), pelo menos 1 ?st?.O número de páginas de erros (um número inteiro positivo; o padrão é
1
). Válido apenas quando o parâmetroerrors
é definido comoTRUE
.
Resposta
-
payload: obrigatório: um documento, do tipo
document
(um conteúdo aberto independente de protocolo representado por um modelo de dados semelhante a JSON).Informações de status sobre o trabalho de carregamento, em um layout que pode ser semelhante ao seguinte:
{ "status" : "200 OK", "payload" : { "feedCount" : [ { "LOAD_FAILED" : (number) } ], "overallStatus" : { "fullUri" : "s3://(bucket)/(key)", "runNumber" : (number), "retryNumber" : (number), "status" : "(string)", "totalTimeSpent" : (number), "startTime" : (number), "totalRecords" : (number), "totalDuplicates" : (number), "parsingErrors" : (number), "datatypeMismatchErrors" : (number), "insertErrors" : (number), }, "failedFeeds" : [ { "fullUri" : "s3://(bucket)/(key)", "runNumber" : (number), "retryNumber" : (number), "status" : "(string)", "totalTimeSpent" : (number), "startTime" : (number), "totalRecords" : (number), "totalDuplicates" : (number), "parsingErrors" : (number), "datatypeMismatchErrors" : (number), "insertErrors" : (number), } ], "errors" : { "startIndex" : (number), "endIndex" : (number), "loadId" : "(string), "errorLogs" : [ ] } } }
-
status: obrigatório: uma string, do tipo:
string
(uma string codificada em UTF-8).O código de resposta HTTP da solicitação.
Erros
ListLoaderJobs (ação)
O nome da CLI da AWS para essa API é: list-loader-jobs
.
Recupera uma lista de loadIds
de todos os trabalhos ativos do carregador.
Ao invocar essa operação em um cluster do Neptune com a autenticação do IAM habilitada, o usuário ou o perfil do IAM que faz a solicitação deve ter uma política anexada que viabilize a ação do IAM neptune-db:ListLoaderJobs nesse cluster.
Solicitação
-
includeQueuedLoads (na CLI:
--include-queued-loads
): um valor booliano, do tipo:boolean
(um valor booliano (verdadeiro ou falso)).Um parâmetro opcional que pode ser usado para excluir os IDs de solicitações de carregamento na fila quando uma lista de IDs de carregamento for solicitada definindo o parâmetro como
FALSE
. O valor padrão éTRUE
. -
limit (na CLI :
--limit
): um ListLoaderJobsInputLimitInteger, do tipo:integer
(um valor inteiro assinado de 32 bits), não menos que 1 ou mais que 100 ?st?s.O número de IDs de carregamento a serem listados. Deve ser um número inteiro positivo maior que zero e menor que
100
(o padrão).
Resposta
-
payload – Obrigatório: um objeto LoaderIdResult.
A lista de IDs de trabalho solicitada.
-
status: obrigatório: uma string, do tipo:
string
(uma string codificada em UTF-8).Exibe o status da solicitação da lista de trabalhos.
Erros
CancelLoaderJob (ação)
O nome da CLI da AWS para essa API é: cancel-loader-job
.
Cancela um trabalho de carregamento especificado. Essa é uma solicitação DELETE
HTTP. Consulte API Get-Status do carregador do Neptune para obter mais informações.
Ao invocar essa operação em um cluster do Neptune com a autenticação do IAM habilitada, o usuário ou o perfil do IAM que faz a solicitação deve ter uma política anexada que viabilize a ação do IAM neptune-db:CancelLoaderJob nesse cluster.
Solicitação
-
loadId (na CLI:
--load-id
): obrigatório: uma string, do tipo:string
(uma string codificada em UTF-8).O ID do trabalho de carregamento a ser excluído.
Resposta
-
status: uma string, do tipo:
string
(uma string codificada em UTF-8).O status do cancelamento.
Erros
Estrutura de carregamento em massa:
LoaderIdResult (estrutura)
Contém uma lista de IDs de carregamento.
Campos
-
loadIds: é uma string, do tipo:
string
(uma string codificada em UTF-8).Uma lista de IDs de carregamento.