本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
CreateProfileJob
创建新作业以分析数据集并创建其数据配置文件。
请求语法
POST /profileJobs HTTP/1.1
Content-type: application/json
{
"Configuration": {
"ColumnStatisticsConfigurations": [
{
"Selectors": [
{
"Name": "string
",
"Regex": "string
"
}
],
"Statistics": {
"IncludedStatistics": [ "string
" ],
"Overrides": [
{
"Parameters": {
"string
" : "string
"
},
"Statistic": "string
"
}
]
}
}
],
"DatasetStatisticsConfiguration": {
"IncludedStatistics": [ "string
" ],
"Overrides": [
{
"Parameters": {
"string
" : "string
"
},
"Statistic": "string
"
}
]
},
"EntityDetectorConfiguration": {
"AllowedStatistics": [
{
"Statistics": [ "string
" ]
}
],
"EntityTypes": [ "string
" ]
},
"ProfileColumns": [
{
"Name": "string
",
"Regex": "string
"
}
]
},
"DatasetName": "string
",
"EncryptionKeyArn": "string
",
"EncryptionMode": "string
",
"JobSample": {
"Mode": "string
",
"Size": number
},
"LogSubscription": "string
",
"MaxCapacity": number
,
"MaxRetries": number
,
"Name": "string
",
"OutputLocation": {
"Bucket": "string
",
"BucketOwner": "string
",
"Key": "string
"
},
"RoleArn": "string
",
"Tags": {
"string
" : "string
"
},
"Timeout": number
,
"ValidationConfigurations": [
{
"RulesetArn": "string
",
"ValidationMode": "string
"
}
]
}
URI 请求参数
该请求不使用任何 URI 参数。
请求体
请求接受采用 JSON 格式的以下数据。
- DatasetName
-
此作业要处理的数据集的名称。
类型:字符串
长度限制:长度下限为 1。最大长度为 255。
必需:是
- Name
-
要创建的任务的名称。有效字符包括字母数字(A-Z、a-z、0-9)、连字符 (-)、句点 (.) 和空格。
类型:字符串
长度限制:长度下限为 1。最大长度为 240。
必需:是
- OutputLocation
-
表示 Amazon S3 位置(存储桶名称、存储桶拥有者和对象密钥), DataBrew 可以在其中读取输入数据或写入任务的输出。
类型:S3Location 对象
必需:是
- RoleArn
-
DataBrew 运行任务时要假设的 AWS Identity and Access Management (IAM) 角色的亚马逊资源名称 (ARN)。
类型:字符串
长度约束:最小长度为 20。最大长度为 2048。
必需:是
- Configuration
-
配置文件作业的配置。用于选择列、进行评估和覆盖评估的默认参数。当配置为空时,分析作业将使用默认设置运行。
类型:ProfileConfiguration 对象
必需:否
- EncryptionKeyArn
-
用于保护任务的加密密钥的 Amazon 资源名称 (ARN)。
类型:字符串
长度约束:最小长度为 20。最大长度为 2048。
必需:否
- EncryptionMode
-
作业的加密模式包括以下几种:
-
SSE-KMS
-SSE-KMS
-使用 AWS KMS托管密钥进行服务器端加密。 -
SSE-S3
- 使用 Amazon S3 托管密钥进行服务器端加密。
类型:字符串
有效值:
SSE-KMS | SSE-S3
必需:否
-
- JobSample
-
仅适用于配置文件作业的示例配置。确定要执行分析作业的行数。如果未提供 JobSample 值,则将使用默认值。模式参数的默认值为 CUSTOM_ROWS,大小参数的默认值为 20000。
类型:JobSample 对象
必需:否
- LogSubscription
-
为任务启用或禁用 Amazon CloudWatch 日志记录。如果启用了日志记录,则为每个作业运行 CloudWatch 写入一个日志流。
类型:字符串
有效值:
ENABLE | DISABLE
必需:否
- MaxCapacity
-
作业处理数据时 DataBrew 可使用的最大节点数。
类型:整数
必需:否
- MaxRetries
-
作业运行失败后重试此作业的最大次数。
类型:整数
有效范围:最小值为 0。
必需:否
- Tags
-
适用于此任务的元数据标签。
类型:字符串到字符串映射
地图条目:最大数量为 200 个项目。
密钥长度限制:最小长度为 1。长度上限为 128。
值长度限制:最大长度为 256。
必需:否
- Timeout
-
作业的超时(以分钟为单位)。如果作业的运行时间超出此超时时间,作业将以
TIMEOUT
状态结束。类型:整数
有效范围:最小值为 0。
必需:否
- ValidationConfigurations
-
应用于配置文件作业的验证配置列表。
类型:ValidationConfiguration 对象数组
数组成员:最少 1 个物品。
必需:否
响应语法
HTTP/1.1 200
Content-type: application/json
{
"Name": "string"
}
响应元素
如果此操作成功,则该服务将会发送回 HTTP 200 响应。
服务以 JSON 格式返回以下数据。
- Name
-
已创建的作业的名称。
类型:字符串
长度限制:长度下限为 1。最大长度为 240。
错误
有关所有操作的常见错误信息,请参阅常见错误。
- AccessDeniedException
-
对指定资源的访问被拒绝。
HTTP 状态代码:403
- ConflictException
-
更新或删除资源可能会导致状态不一致。
HTTP 状态代码:409
- ResourceNotFoundException
-
找不到一个或多个资源。
HTTP 状态代码:404
- ServiceQuotaExceededException
-
超过了服务配额。
HTTP 状态代码:402
- ValidationException
-
此请求的输入参数未通过验证。
HTTP 状态代码:400
另请参阅
有关在特定语言的 AWS SDK 中使用此 API 的更多信息,请参阅以下内容: