本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Bedrock 数据自动化 (BDA) 功能为处理数据提供了简化的 API 工作流程。对于所有模式,此工作流程都包含三个主要步骤:创建项目、调用分析和检索结果。要检索已处理数据的自定义输出,请在调用分析操作时提供蓝图 ARN。
创建数据自动化项目
要开始使用 BDA 处理文件,首先需要创建一个数据自动化项目。这可以通过两种方式完成,即 CreateDataAutomationProject 操作或 Amazon Amazon Bedrock 控制台。
使用 API
使用 API 创建项目时,您可以调用 CreateDataAutomationProject。创建项目时,必须为要处理的文件类型(您打算使用的模式)定义配置设置。以下是如何为图像配置标准输出的示例:
{
"standardOutputConfiguration": {
"image": {
"state": "ENABLED",
"extraction": {
"category": {
"state": "ENABLED",
"types": [
"CONTENT_MODERATION",
"TEXT_DETECTION"
]
},
"boundingBox": {
"state": "ENABLED"
}
},
"generativeField": {
"state": "ENABLED",
"types": [
"IMAGE_SUMMARY",
"IAB"
]
}
}
}
}
API 会验证输入配置。它创建了一个具有唯一 ARN 的新项目。项目设置已存储以备将来使用。如果创建的项目没有参数,则将应用默认设置。例如,在处理图像时,默认情况下将启用图像摘要和文本检测。
每个 AWS 账户可以创建的项目数量是有限制的。可能不允许使用某些设置组合,或者可能需要其他权限。
异步调用数据自动化
您已经设置好了项目,可以使用该 InvokeDataAutomationAsync 操作开始处理图像。如果使用自定义输出,则每个请求只能提交一个蓝图 ARN。
此 API 调用启动对指定 S3 存储桶中的文件的异步处理。API 接受项目 ARN 和要处理的文件,然后启动异步处理作业。返回任务 ID 以跟踪流程。如果项目不存在,或者调用者没有必要的权限,或者输入文件的格式不支持,则会引发错误。
以下是 JSON 请求的结构:
{ { "blueprints": [ { "blueprintArn": "
string
", "stage": "string
", "version": "string
" } ], "clientToken": "string
", "dataAutomationConfiguration": { "dataAutomationProjectArn": "string
", "stage": "string
" }, "dataAutomationProfileArn": "string
", "encryptionConfiguration": { "kmsEncryptionContext": { "string" : "string
" }, "kmsKeyId": "string
" }, "inputConfiguration": { "s3Uri": "string
" }, "notificationConfiguration": { "eventBridgeConfiguration": { "eventBridgeEnabled":boolean
} }, "outputConfiguration": { "s3Uri": "string
" }, "tags": [ { "key": "sstring
", "value": "string
" } ] } }
获取数据自动化状态
要检查处理任务的状态并检索结果,请使用 GetDataAutomationStatus。
GetDataAutomationStatus API 允许您监控任务的进度,并在处理完成后访问结果。API 接受返回的调用 ARN。 InvokeDataAutomationAsync它会检查任务的当前状态并返回相关信息。任务完成后,它会在 S3 中提供结果的位置。
如果作业仍在进行中,则返回当前状态(例如,InProgress“”)。如果任务完成,它将返回 “成功” 以及结果的 S3 位置。如果出现错误,它将返回 “ServiceError” 或 “ClientError” 以及错误详情。
以下是请求 JSON 的格式:
{
"InvocationArn": "string" // Arn
}
异步输出响应
文件处理的结果存储在为输入图像配置的 S3 存储桶中。输出包括独特的结构,具体取决于文件模式和调用中指定的操作类型。 InvokeDataAutomationAsync
有关给定模式的标准输出的信息,请参见基岩数据自动化中的标准输出。
例如,对于图像,它可以包含以下信息:
图片摘要:图片的描述性摘要或标题。
IAB 分类:基于 IAB 分类法进行分类。
图像文本检测:提取的带有边界框信息的文本。
内容审核:检测图片中的不当、不想要或令人反感的内容。
以下是图像处理输出的示例片段:
{
"metadata": {
"id": "image_123",
"semantic_modality": "IMAGE",
"s3_bucket": "my-s3-bucket",
"s3_prefix": "images/",
"image_width_pixels": 1920,
"image_height_pixels": 1080
},
"image": {
"summary": "A lively party scene with colorful decorations and supplies",
"iab_categories": [
{
"category": "Party Supplies",
"confidence": 0.9,
"parent_name": "Events & Attractions"
}
],
"content_moderation": [
{
"category": "Drugs & Tobacco Paraphernalia & Use",
"confidence": 0.7
}
],
"text_words": [
{
"id": "word_1",
"text": "lively",
"confidence": 0.9,
"line_id": "line_1",
"locations": [
{
"bounding_box": {
"left": 100,
"top": 200,
"width": 50,
"height": 20
},
"polygon": [
{
"x": 100,
"y": 200
},
{
"x": 150,
"y": 200
},
{
"x": 150,
"y": 220
},
{
"x": 100,
"y": 220
}
]
}
]
}
]
}
}
这种结构化输出便于与下游应用程序集成和进一步分析。