params 최상위 JSON 객체에서 파라미터 필드 내보내기 - Amazon Neptune

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

params 최상위 JSON 객체에서 파라미터 필드 내보내기

Neptune 내보내기 params JSON 객체를 사용하면 내보낸 데이터의 유형 및 형식을 비롯한 내보내기를 제어할 수 있습니다.

내보내기 파라미터 params 객체의 가능한 필드 목록

params 객체에 나타날 수 있는 모든 최상위 필드는 다음과 같습니다. 한 객체에는 이러한 필드의 일부만 나타납니다.

모든 유형의 내보내기에 공통으로 사용되는 필드 목록

속성 그래프 내보내기용 필드 목록

RDF 내보내기용 필드 목록

모든 유형의 내보내기에 공통으로 사용되는 필드

paramscloneCluster 필드

(선택 사항). 기본값: false.

cloneCluster 파라미터가 true로 설정된 경우 내보내기 프로세스는 DB 클러스터의 고속 복제본을 사용합니다.

"cloneCluster" : true

기본적으로 내보내기 프로세스는 endpoint, endpoints 또는 clusterId 파라미터를 사용하여 지정한 DB 클러스터에서 데이터를 내보냅니다. 하지만 내보내기가 진행되는 동안 DB 클러스터를 사용 중이고 데이터가 변경되는 경우 내보내기 프로세스는 내보내는 데이터의 일관성을 보장할 수 없습니다.

내보낸 데이터의 일관성을 보장하려면 cloneCluster 파라미터를 사용하여 DB 클러스터의 정적 복제본에서 내보내면 됩니다.

복제된 DB 클러스터는 소스 DB 클러스터와 동일한 VPC에서 생성되며 소스의 보안 그룹, 서브넷 그룹 및 IAM 데이터베이스 인증 설정을 상속합니다. 내보내기가 완료되면 Neptune은 복제된 DB 클러스터를 삭제합니다.

기본적으로 복제된 DB 클러스터는 소스 DB 클러스터의 기본 인스턴스와 동일한 인스턴스 유형의 단일 인스턴스로 구성됩니다. cloneClusterInstanceType을 통해 달리 지정하여 복제된 DB 클러스터에 사용되는 인스턴스 유형을 변경할 수 있습니다.

참고

cloneCluster 옵션을 사용하지 않고 기본 DB 클러스터에서 직접 내보내는 경우 데이터를 내보내는 인스턴스의 제한 시간을 늘려야 할 수 있습니다. 대규모 데이터 세트의 경우 제한 시간을 몇 시간으로 설정해야 합니다.

paramscloneClusterInstanceType 필드

(선택 사항).

cloneCluster 파라미터가 존재하고 true로 설정된 경우 cloneClusterInstanceType 파라미터를 사용하여 복제된 DB 클러스터에 사용할 인스턴스 유형을 지정할 수 있습니다.

기본적으로 복제된 DB 클러스터는 소스 DB 클러스터의 기본 인스턴스와 동일한 인스턴스 유형의 단일 인스턴스로 구성됩니다.

"cloneClusterInstanceType" : "(for example, r5.12xlarge)"

paramscloneClusterReplicaCount 필드

(선택 사항).

cloneCluster 파라미터가 존재하고 true로 설정된 경우 cloneClusterReplicaCount 파라미터를 사용하여 복제된 DB 클러스터에 생성된 읽기 전용 복제본 인스턴스 수를 지정할 수 있습니다.

"cloneClusterReplicaCount" : (for example, 3)

기본적으로 복제된 DB 클러스터는 단일 기본 인스턴스로 구성됩니다. cloneClusterReplicaCount 파라미터를 사용하면 추가로 생성해야 하는 읽기 전용 복제본 인스턴스의 수를 지정할 수 있습니다.

paramsclusterId 필드

(선택 사항).

clusterId 파라미터는 사용할 DB 클러스터의 ID를 지정합니다.

"clusterId" : "(the ID of your DB cluster)"

clusterId 파라미터를 사용하는 경우 내보내기 프로세스는 해당 DB 클러스터의 사용 가능한 모든 인스턴스를 이용하여 데이터를 추출합니다.

참고

endpoint, endpoints, clusterId 파라미터는 함께 사용할 수 없습니다. 하나만 사용하세요.

paramsendpoint 필드

(선택 사항).

endpoint를 사용하여 내보내기 프로세스가 데이터를 추출하기 위해 쿼리할 수 있는 DB 클러스터의 Neptune 인스턴스 엔드포인트를 지정합니다(엔드포인트 연결 참조). 이는 DNS 이름일 뿐이며, 프로토콜이나 포트는 포함되지 않습니다.

"endpoint" : "(a DNS endpoint of your DB cluster)"

클러스터 또는 인스턴스 엔드포인트를 사용하되, 기본 리더 엔드포인트를 사용하지 마세요.

참고

endpoint, endpoints, clusterId 파라미터는 함께 사용할 수 없습니다. 하나만 사용하세요.

paramsendpoints 필드

(선택 사항).

endpoints를 사용하여 내보내기 프로세스가 데이터를 추출하기 위해 쿼리할 수 있는 DB 클러스터 엔드포인트의 JSON 배열을 지정합니다(엔드포인트 연결 참조). 이는 DNS 이름일 뿐이며, 프로토콜이나 포트는 포함되지 않습니다.

"endpoints": [ "(one endpoint in your DB cluster)", "(another endpoint in your DB cluster)", "(a third endpoint in your DB cluster)" ]

클러스터에 여러 인스턴스(기본 인스턴스와 하나 이상의 읽기 전용 복제본)가 있는 경우 endpoints 파라미터를 사용하여 해당 엔드포인트 목록에 쿼리를 분산함으로써 내보내기 성능을 개선할 수 있습니다.

참고

endpoint, endpoints, clusterId 파라미터는 함께 사용할 수 없습니다. 하나만 사용하세요.

paramsprofile 필드

(neptune_ml 필드가 additionalParams 필드에 없는 경우 Neptune ML에 대한 훈련 데이터를 내보내는 데 필요).

profile 파라미터는 특정 워크로드에 대해 사전 구성된 파라미터 세트를 제공합니다. 현재 내보내기 프로세스는 neptune_ml 프로파일만 지원합니다.

Neptune ML용 훈련 데이터를 내보내는 경우 params 객체에 다음 파라미터를 추가합니다.

"profile" : "neptune_ml"

paramsuseIamAuth 필드

(선택 사항). 기본값: false.

데이터를 내보낼 데이터베이스에 IAM 인증이 활성화된 경우 true로 설정한 useIamAuth 파라미터를 포함해야 합니다.

"useIamAuth" : true

paramsincludeLastEventId 필드

includeLastEventId를 true로 설정하고 데이터를 내보내는 데이터베이스에 Neptune 스트림이 활성화되어 있는 경우 내보내기 프로세스는 지정된 내보내기 위치에 lastEventId.json 파일을 씁니다. 이 파일은 스트림에 있는 마지막 이벤트의 commitNumopNum을 포함합니다.

"includeLastEventId" : true

내보내기 프로세스로 생성된 복제된 데이터베이스는 상위 데이터베이스의 스트림 설정을 상속합니다. 상위 데이터베이스에 스트림이 활성화되어 있는 경우 복제본에서도 마찬가지로 스트림이 활성화됩니다. 복제본에 있는 스트림의 콘텐츠는 복제본이 생성된 시점의 상위 데이터베이스 콘텐츠(동일한 이벤트 ID 포함)를 반영합니다.

속성 그래프 내보내기용 필드

paramsconcurrency 필드

(선택 사항). 기본값: 4.

concurrency 파라미터는 내보내기 프로세스에서 사용해야 하는 병렬 쿼리 수를 지정합니다.

"concurrency" : (for example, 24)

데이터를 내보내는 모든 인스턴스에서 vCPU 수의 2배로 동시성 수준을 설정하는 것이 좋습니다. 예를 들어, r5.xlarge 인스턴스에는 vCPU가 4개 있습니다. r5.xlarge 인스턴스 3개로 구성된 클러스터에서 내보내는 경우 동시성 수준을 24(=3x2x4)로 설정할 수 있습니다.

Neptune-Export 서비스를 사용하는 경우 동시성 수준은 jobSize 설정에 의해 제한됩니다. 예를 들어, 소규모 작업은 동시성 수준 8을 지원합니다. concurrency 파라미터를 사용하여 소규모 작업에 대해 동시성 수준을 24로 지정하려고 해도 유효 수준은 8로 유지됩니다.

복제된 클러스터에서 내보내는 경우 내보내기 프로세스는 복제된 인스턴스의 크기와 작업 크기를 기반으로 적절한 동시성 수준을 계산합니다.

paramsedgeLabels 필드

(선택 사항).

edgeLabels를 사용하여 지정한 레이블이 있는 엣지만 내보냅니다.

"edgeLabels" : ["(a label)", "(another label"]

JSON 배열의 각 레이블은 하나의 단순한 레이블이어야 합니다.

scope 파라미터는 edgeLabels 파라미터보다 우선하므로, scope 값에 엣지가 포함되지 않은 경우 edgeLabels 파라미터는 영향을 주지 않습니다.

paramsfilter 필드

(선택 사항).

filter를 사용하여 특정 레이블이 있는 노드 및/또는 엣지만 내보내도록 지정하고 각 노드 또는 엣지에 대해 내보내는 속성을 필터링합니다.

인라인 또는 필터 구성 파일에 있는 filter 객체의 일반적인 구조는 다음과 같습니다.

"filter" : { "nodes": [ (array of node label and properties objects) ], "edges": [ (array of edge definition an properties objects) ] }
  • nodes   –   다음과 같은 형식의 노드 및 노드 속성으로 구성된 JSON 배열을 포함합니다.

    "nodes : [ { "label": "(node label)", "properties": [ "(a property name)", "(another property name)", ( ... ) ] } ]
    • label  –   노드의 속성 그래프 레이블 또는 레이블입니다.

      단일 값을 취하거나, 노드에 여러 레이블이 있는 경우 값의 배열을 취합니다.

    • properties  –   내보내려는 노드 속성 이름의 배열을 포함합니다.

  • edges   –   다음과 같은 형식의 엣지 정의로 구성된 JSON 배열을 포함합니다.

    "edges" : [ { "label": "(edge label)", "properties": [ "(a property name)", "(another property name)", ( ... ) ] } ]
    • label   –   엣지의 속성 그래프 레이블입니다. 단일 값을 취합니다.

    • properties  –   내보내려는 엣지 속성 이름의 배열을 포함합니다.

paramsfilterConfigFile 필드

(선택 사항).

filterConfigFile을 사용하여 filter 파라미터에 사용되는 것과 동일한 형식의 필터 구성이 포함된 JSON 파일을 지정합니다.

"filterConfigFile" : "s3://(your Amazon S3 bucket)/neptune-export/(the name of the JSON file)"

filterConfigFile 파일 형식은 필터를 참조하세요.

params의 속성 그래프 데이터에 사용되는 format 필드

(선택 사항). 기본: csv(쉼표로 분리된 값)

format 파라미터는 내보낸 속성 그래프 데이터의 출력 형식을 지정합니다.

"format" : (one of: csv, csvNoHeaders, json, neptuneStreamsJson)
  • csv   –   쉼표로 구분된 값(CSV) 형식의 출력으로, Gremlin 로드 데이터 형식에 따라 지정된 열 머리글 형식이 포함됩니다.

  • csvNoHeaders   –   열 머리글이 없는 CSV 형식의 데이터입니다.

  • json   –   JSON 형식의 데이터입니다.

  • neptuneStreamsJson   –   GREMLIN_JSON 변경 직렬화 형식을 사용하는 JSON 형식의 데이터입니다.

paramsgremlinFilter 필드

(선택 사항).

gremlinFilter 파라미터를 사용하면 노드와 엣지를 모두 필터링하는 데 사용되는 Gremlin 스니펫(예: has() 단계)을 제공할 수 있습니다.

"gremlinFilter" : (a Gremlin snippet)

필드 이름과 문자열 값은 이스케이프 처리된 큰따옴표로 묶어야 합니다. 날짜와 시간의 경우 datetime 메서드를 사용할 수 있습니다.

다음 예제에서는 날짜 생성 속성 값이 2021-10-10보다 큰 노드 및 엣지만 내보냅니다.

"gremlinFilter" : "has(\"created\", gt(datetime(\"2021-10-10\")))"

paramsgremlinNodeFilter 필드

(선택 사항).

gremlinNodeFilter 파라미터를 사용하면 노드를 필터링하는 데 사용되는 Gremlin 스니펫(예: has() 단계)을 제공할 수 있습니다.

"gremlinNodeFilter" : (a Gremlin snippet)

필드 이름과 문자열 값은 이스케이프 처리된 큰따옴표로 묶어야 합니다. 날짜와 시간의 경우 datetime 메서드를 사용할 수 있습니다.

다음 예제에서는 값이 truedeleted 부울 속성을 가진 노드만 내보냅니다.

"gremlinNodeFilter" : "has(\"deleted\", true)"

paramsgremlinEdgeFilter 필드

(선택 사항).

gremlinEdgeFilter 파라미터를 사용하면 엣지를 필터링하는 데 사용되는 Gremlin 스니펫(예: has() 단계)을 제공할 수 있습니다.

"gremlinEdgeFilter" : (a Gremlin snippet)

필드 이름과 문자열 값은 이스케이프 처리된 큰따옴표로 묶어야 합니다. 날짜와 시간의 경우 datetime 메서드를 사용할 수 있습니다.

다음 예제에서는 값이 5인 strength 숫자 속성을 가진 엣지만 내보냅니다.

"gremlinEdgeFilter" : "has(\"strength\", 5)"

paramsnodeLabels 필드

(선택 사항).

nodeLabels를 사용하여 지정한 레이블이 있는 노드만 내보냅니다.

"nodeLabels" : ["(a label)", "(another label"]

JSON 배열의 각 레이블은 하나의 단순한 레이블이어야 합니다.

scope 파라미터는 nodeLabels 파라미터보다 우선하므로, scope 값에 노드가 포함되지 않은 경우 nodeLabels 파라미터는 영향을 주지 않습니다.

paramsscope 필드

(선택 사항). 기본값: all.

scope 파라미터는 노드만 내보낼지, 엣지만 내보낼지, 노드와 엣지를 모두 내보낼지를 지정합니다.

"scope" : (one of: nodes, edges, or all)
  • nodes   –   노드와 해당 속성만 내보냅니다.

  • edges   –   엣지와 해당 속성만 내보냅니다.

  • all   –   노드와 엣지 및 해당 속성을 모두 내보냅니다(기본값).

RDF 내보내기용 필드

params의 RDF 데이터에 사용되는 format 필드

(선택 사항). 기본값: turtle

format 파라미터는 내보낸 RDF 데이터의 출력 형식을 지정합니다.

"format" : (one of: turtle, nquads, ntriples, neptuneStreamsJson)
  • turtle   –   Turtle 형식의 출력입니다.

  • nquads   –   열 머리글이 없는 N-Quads 형식의 데이터입니다.

  • ntriples   –   N-Triples 형식의 데이터입니다.

  • neptuneStreamsJson   –   SPARQL NQUADS 변경 직렬화 형식을 사용하는 JSON 형식의 데이터입니다.

paramsrdfExportScope 필드

(선택 사항). 기본값: graph.

rdfExportScope 파라미터는 RDF 내보내기 범위를 지정합니다.

"rdfExportScope" : (one of: graph, edges, or query)
  • graph   –   모든 RDF 데이터를 내보냅니다.

  • edges   –   엣지를 나타내는 트리플만 내보냅니다.

  • query   –   sparql 필드를 사용하여 제공된 SPARQL 쿼리로 검색된 데이터를 내보냅니다.

paramssparql 필드

(선택 사항).

sparql 파라미터를 사용하면 내보낼 데이터를 검색하는 SPARQL 쿼리를 지정할 수 있습니다.

"sparql" : (a SPARQL query)

sparql 필드를 사용하여 쿼리를 제공하는 경우 rdfExportScope 필드도 query로 설정해야 합니다.

paramsnamedGraph 필드

(선택 사항).

namedGraph 파라미터를 사용하면 IRI에서 명명된 단일 그래프로 내보내기를 제한하도록 지정할 수 있습니다.

"namedGraph" : (Named graph IRI)

namedGraph매개변수는 rdfExportScope 필드가 로 graph 설정된 상태에서만 사용할 수 있습니다.