用于控制 Neptune 导出过程的参数 - Amazon Neptune

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

用于控制 Neptune 导出过程的参数

无论您使用的是 Neptune-Export 服务还是 neptune-export 命令行实用程序,用于控制导出的参数基本相同。它们包含传递给 Neptune-Export 端点或命令行上的 neptune-export 的 JSON 对象。

传递到导出过程的对象最多有五个顶级字段:

-d '{ "command" : "(either export-pg or export-rdf)", "outputS3Path" : "s3:/(your Amazon S3 bucket)/(path to the folder for exported data)", "jobsize" : "(for Neptune-Export service only)", "params" : { (a JSON object that contains export-process parameters) }, "additionalParams": { (a JSON object that contains parameters for training configuration) } }'
目录

command 参数

command 顶级参数决定是导出属性图数据还是导出 RDF 数据。如果忽略 command 参数,则导出过程默认为导出属性图数据。

  • export-pg – 导出属性图数据。

  • export-rdf – 导出 RDF 数据。

outputS3Path 参数

outputS3Path 顶级参数是必需的,并且必须包含可将导出文件发布到的 Amazon S3 位置的 URI:

"outputS3Path" : "s3://(your Amazon S3 bucket)/(path to output folder)"

该值必须以 s3:// 开头,后跟有效的桶名称以及(可选)桶内的文件夹路径。

jobSize 参数

jobSize 顶级参数仅用于 Neptune-Export 服务,不用于 neptune-export 命令行实用程序,并且是可选的。它允许您表征正在启动的导出任务的大小,这有助于确定专用于该任务的计算资源量及其最大并发级别。

"jobsize" : "(one of four size descriptors)"

四个有效的大小描述符是:

  • small – 最大并发度:8。适用于最大 10GB 的存储卷。

  • medium – 最大并发度:32。适用于最大 100GB 的存储卷。

  • large – 最大并发度:64。适用于超过 100GB 但小于 1TB 的存储卷。

  • xlarge – 最大并发度:96。适用于超过 1TB 的存储卷。

默认情况下,在 Neptune-Export 服务上启动的导出作为 small 任务运行。

导出的性能不仅取决于 jobSize 设置,还取决于您要从中进行导出的数据库实例的数量、每个实例的大小以及任务的有效并发级别。

对于属性图导出,您可以使用 cloneClusterReplica计数 参数配置数据库实例的数量,也可以使用 并发 参数配置任务的有效并发级别。

params 对象

params 顶级参数是一个 JSON 对象,其中包含用于控制导出过程本身的参数,如导出 params 顶级 JSON 对象中的参数字段中所述。params 对象中的某些字段特定于属性图导出,有些字段特定于 RDF。

additionalParams 对象

additionalParams 顶级参数是一个 JSON 对象,其中包含可用于控制在导出数据后应用于数据的操作的参数。目前,additionalParams 仅用于导出 Neptune ML 的训练数据。