本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Neptune ML 数据处理 API
数据处理操作:
ML 通用结构:
StartMLDataProcessingJob(操作)
此 API 的 AWS CLI 名称为:start-ml-data-processing-job
。
创建新的 Neptune ML 数据处理任务,用于处理从 Neptune 导出的用于训练的图形数据。请参阅 dataprocessing
命令。
在启用了 IAM 身份验证的 Neptune 集群中调用此操作时,发出请求的 IAM 用户或角色必须附加允许在该集群中执行 neptune-db:StartMLModelDataProcessingJob IAM 操作的策略。
请求
-
configFileName(在 CLI 中:
--config-file-name
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。描述如何加载导出的图形数据进行训练的数据规范文件。该文件由 Neptune 导出工具包自动生成。默认为
training-data-configuration.json
。 -
id(在 CLI 中:
--id
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。新任务的唯一标识符。默认值为自动生成的 UUID。
-
inputDataS3Location(在 CLI 中:
--input-data-s3-location
)– 必需:一个字符串,类型为:string
(UTF-8 编码的字符串)。您希望 SageMaker 下载运行数据处理任务所需数据的 Amazon S3 位置的 URI。
-
modelType(在 CLI 中:
--model-type
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。Neptune ML 当前支持的两种模型类型之一:异构图模型 (
heterogeneous
) 和知识图谱 (kge
)。默认值为“无”。如果未指定,Neptune ML 会根据数据自动选择模型类型。 -
neptuneIamRoleArn(在 CLI 中:
--neptune-iam-role-arn
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。SageMaker 可以代表您执行任务的 IAM 角色的 Amazon 资源名称 (ARN)。必须将其列在您的数据库集群参数组中,否则将发生错误。
-
previousDataProcessingJobId(在 CLI 中:
--previous-data-processing-job-id
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。在较早版本的数据上运行的已完成数据处理任务的任务 ID。
-
processedDataS3Location(在 CLI 中:
--processed-data-s3-location
)– 必需:一个字符串,类型为:string
(UTF-8 编码的字符串)。您希望 SageMaker 保存数据处理任务结果的 Amazon S3 位置的 URI。
-
processingInstanceType(在 CLI 中:
--processing-instance-type
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。数据处理期间使用的机器学习实例的类型。它的内存应该足够大,可以容纳处理后的数据集。默认为最小的 ml.r5 类型,其内存比磁盘上导出的图形数据大小大十倍。
-
processingInstanceVolumeSizeInGB(在 CLI 中:
--processing-instance-volume-size-in-gb
)– 一个整数,类型为:integer
(带符号的 32 位整数)。处理实例的磁盘卷大小。输入数据和处理后的数据都存储在磁盘上,因此卷大小必须足够大,以容纳两个数据集。默认值为 0。如果未指定或为 0,则 Neptune ML 会根据数据大小自动选择卷大小。
-
processingTimeOutInSeconds(在 CLI 中:
--processing-time-out-in-seconds
)– 一个整数,类型为:integer
(带符号的 32 位整数)。数据处理任务的超时(以秒为单位)。默认值为 86400(1 天)。
-
s3OutputEncryptionKMSKey(在 CLI 中:
--s-3-output-encryption-kms-key
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。SageMaker 用于加密处理任务的输出的 Amazon Key Management Service(Amazon KMS)密钥。默认值为“无”。
-
sagemakerIamRoleArn(在 CLI 中:
--sagemaker-iam-role-arn
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。用于执行 SageMaker 的 IAM 角色的 ARN。必须将其列在您的数据库集群参数组中,否则将发生错误。
-
securityGroupIds(在 CLI 中:
--security-group-ids
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。VPC 安全组 ID。默认值为 None (无)。
-
subnets(在 CLI 中:
--subnets
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。Neptune VPC 中子网的 ID。默认值为 None (无)。
-
volumeEncryptionKMSKey(在 CLI 中:
--volume-encryption-kms-key
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。Amazon Key Management Service (Amazon KMS) 密钥,SageMaker 使用它来加密连接到运行训练任务的 ML 计算实例的存储卷上的数据。默认值为 None (无)。
响应
-
arn – 一个字符串,类型为:
string
(UTF-8 编码的字符串)。数据处理任务的 ARN。
-
creationTimeInMillis – 长整型,类型为:
long
(有符号的 64 位整数)。创建新的处理任务所花费的时间,以毫秒为单位。
-
id – 一个字符串,类型为:
string
(UTF-8 编码的字符串)。新数据处理任务的唯一 ID。
错误
ListMLDataProcessingJobs(操作)
此 API 的 AWS CLI 名称为:list-ml-data-processing-jobs
。
返回 Neptune ML 数据处理任务的列表。请参阅使用 Neptune ML 数据处理命令列出处于活动状态的数据处理任务。
在启用了 IAM 身份验证的 Neptune 集群中调用此操作时,发出请求的 IAM 用户或角色必须附加允许在该集群中执行 neptune-db:ListMLDataProcessingJobs IAM 操作的策略。
请求
-
maxItems(在 CLI 中:
--max-items
)– ListMLDataProcessingJobsInputMaxItemsInteger,类型为:integer
(带符号的 32 位整数),不小于 1 或大于 1024。要返回的最大项目数(从 1 到 1024;默认值为 10)。
-
neptuneIamRoleArn(在 CLI 中:
--neptune-iam-role-arn
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。向 Neptune 提供对 SageMaker 和 Amazon S3 资源的访问权限的 IAM 角色的 ARN。必须将其列在您的数据库集群参数组中,否则将发生错误。
响应
-
ids – 一个字符串,类型为:
string
(UTF-8 编码的字符串)。列出数据处理任务 ID 的页面。
错误
GetMLDataProcessingJob(操作)
此 API 的 AWS CLI 名称为:get-ml-data-processing-job
。
检索有关指定的数据处理任务的信息。请参阅 dataprocessing
命令。
在启用了 IAM 身份验证的 Neptune 集群中调用此操作时,发出请求的 IAM 用户或角色必须附加允许在该集群中执行 neptune-db:neptune-db:GetMLDataProcessingJobStatus IAM 操作的策略。
请求
-
id(在 CLI 中:
--id
)– 必需:一个字符串,类型为:string
(UTF-8 编码的字符串)。要检索的数据处理任务的唯一标识符。
-
neptuneIamRoleArn(在 CLI 中:
--neptune-iam-role-arn
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。向 Neptune 提供对 SageMaker 和 Amazon S3 资源的访问权限的 IAM 角色的 ARN。必须将其列在您的数据库集群参数组中,否则将发生错误。
响应
-
id – 一个字符串,类型为:
string
(UTF-8 编码的字符串)。此数据处理任务的唯一标识符。
-
processingJob – 一个 MlResourceDefinition 对象。
数据处理任务的定义。
-
status – 一个字符串,类型为:
string
(UTF-8 编码的字符串)。数据处理任务的状态。
错误
CancelMLDataProcessingJob(操作)
此 API 的 AWS CLI 名称为:cancel-ml-data-processing-job
。
取消 Neptune ML 数据处理任务。请参阅 dataprocessing
命令。
在启用了 IAM 身份验证的 Neptune 集群中调用此操作时,发出请求的 IAM 用户或角色必须附加允许在该集群中执行 neptune-db:CancelMLDataProcessingJob IAM 操作的策略。
请求
-
clean(在 CLI 中:
--clean
)– 一个布尔值,类型为:boolean
[布尔值(true 或 false)]。如果设置为
TRUE
,则此标志指定在任务停止时应删除所有 Neptune ML S3 构件。默认为FALSE
。 -
id(在 CLI 中:
--id
)– 必需:一个字符串,类型为:string
(UTF-8 编码的字符串)。数据处理任务的唯一标识符。
-
neptuneIamRoleArn(在 CLI 中:
--neptune-iam-role-arn
)– 一个字符串,类型为:string
(UTF-8 编码的字符串)。向 Neptune 提供对 SageMaker 和 Amazon S3 资源的访问权限的 IAM 角色的 ARN。必须将其列在您的数据库集群参数组中,否则将发生错误。
响应
-
status – 一个字符串,类型为:
string
(UTF-8 编码的字符串)。取消请求的状态。
错误
ML 通用结构:
MlResourceDefinition(结构)
定义 Neptune ML 资源。
字段
-
arn – 这是一个字符串,类型为:
string
(UTF-8 编码的字符串)。资源 ARN。
-
cloudwatchLogUrl – 这是一个字符串,类型为:
string
(UTF-8 编码的字符串)。资源的 CloudWatch 日志 URL。
-
failureReason – 这是一个字符串,类型为:
string
(UTF-8 编码的字符串)。发生故障时的故障原因。
-
name – 这是一个字符串,类型为:
string
(UTF-8 编码的字符串)。资源名称。
-
outputLocation – 这是一个字符串,类型为:
string
(UTF-8 编码的字符串)。输出位置。
-
status – 这是一个字符串,类型为:
string
(UTF-8 编码的字符串)。资源状态。
MlConfigDefinition(结构)
包含 Neptune ML 配置。
字段
-
arn – 这是一个字符串,类型为:
string
(UTF-8 编码的字符串)。配置的 ARN。
-
name – 这是一个字符串,类型为:
string
(UTF-8 编码的字符串)。配置名称。