데이터 자동화 프로젝트 생성 데이터 자동화 비동기 호출 데이터 자동화 상태 가져오기 비동기 출력 응답

Bedrock 데이터 자동화 API 사용

Amazon Bedrock 데이터 자동화(BDA) 기능은 데이터 처리를 위한 간소화된 API 워크플로를 제공합니다. 모든 형식에 대해이 워크플로는 프로젝트 생성, 분석 호출, 결과 검색의 세 가지 주요 단계로 구성됩니다. 처리된 데이터에 대한 사용자 지정 출력을 검색하려면 분석 작업을 호출할 때 블루프린트 ARN을 제공합니다.

데이터 자동화 프로젝트 생성

BDA로 파일 처리를 시작하려면 먼저 데이터 자동화 프로젝트를 생성해야 합니다. CreateDataAutomationProject 작업 또는 Amazon Amazon Bedrock 콘솔을 사용하여 두 가지 방법으로 수행할 수 있습니다.

API 사용

API를 사용하여 프로젝트를 생성할 때 CreateDataAutomationProject를 호출합니다. 프로젝트를 생성할 때 처리하려는 파일 유형(사용하려는 형식)에 대한 구성 설정을 정의해야 합니다. 다음은 이미지에 대한 표준 출력을 구성하는 방법의 예입니다.


{
"standardOutputConfiguration": {
"image": {
"state": "ENABLED",
"extraction": {
"category": {
"state": "ENABLED",
"types": ["CONTENT_MODERATION", "TEXT_DETECTION"]
},
"boundingBox": {
"state": "ENABLED"
}
},
"generativeField": {
"state": "ENABLED",
"types": ["IMAGE_SUMMARY", "IAB"]
}
}
}
}

API는 입력 구성을 검증합니다. 고유한 ARN을 사용하여 새 프로젝트를 생성합니다. 프로젝트 설정은 나중에 사용할 수 있도록 저장됩니다. 파라미터 없이 프로젝트가 생성되면 기본 설정이 적용됩니다. 예를 들어 이미지를 처리할 때 이미지 요약 및 텍스트 감지가 기본적으로 활성화됩니다.

AWS 계정당 생성할 수 있는 프로젝트 수에는 제한이 있습니다. 특정 설정 조합은 허용되지 않거나 추가 권한이 필요할 수 있습니다.

데이터 자동화 비동기 호출

프로젝트가 설정되어 있으면 InvokeDataAutomationAsync 작업을 사용하여 이미지 처리를 시작할 수 있습니다. 사용자 지정 출력을 사용하는 경우 요청당 단일 블루프린트 ARN만 제출할 수 있습니다.

이 API 호출은 지정된 S3 버킷에서 파일의 비동기 처리를 시작합니다. API는 프로젝트 ARN과 처리할 파일의 위치를 수락한 다음 비동기 처리 작업을 시작합니다. 프로세스 추적을 위해 작업 ID가 반환됩니다. 프로젝트가 존재하지 않거나 호출자에게 필요한 권한이 있거나 입력 파일이 지원되는 형식이 아닌 경우 오류가 발생합니다.

다음은 JSON 요청의 구조입니다.


{
   "InputConfiguration" : { "s3Uri": "string"}, // required
  "DataAutomationConfiguration" : {
    "DataAutomationARN": "",
    "stage": LIVE | DEV
  }, // optional 
  "BlueprintArn": [], // optional
  "OutputConfiguration" : { 
    "s3Uri": "string"
  }, // required
  "EncryptionConfiguration": { // optional
    "KmsKeyId": "string",
    "KmsEncryptionContext": { "key" : "string" },
  },
  "NotificationConfiguration": { // optional
    "EventBridgeConfiguration": {"EventBridgeEnabled" : Boolean },
  } 
   "ClientToken": "string",
   "JobTags": { "string" : "string" }
}

데이터 자동화 상태 가져오기

처리 작업의 상태를 확인하고 결과를 검색하려면 GetDataAutomationStatus를 사용합니다.

GetDataAutomationStatus API를 사용하면 작업 진행 상황을 모니터링하고 처리가 완료되면 결과에 액세스할 수 있습니다. API는 InvokeDataAutomationAsync에서 반환한 작업 ID를 수락합니다. 작업의 현재 상태를 확인하고 관련 정보를 반환합니다. 작업이 완료되면 S3에서 결과의 위치를 제공합니다.

작업이 아직 진행 중인 경우 현재 상태(예: "RUNNING", "QUEUED")를 반환합니다. 작업이 완료되면 결과의 S3 위치와 함께 "COMPLETED"가 반환됩니다. 오류가 있는 경우 오류 세부 정보와 함께 "FAILED"를 반환합니다.

다음은 요청 JSON의 형식입니다.


{
   "InvocationArn": "string" // Arn
}

비동기 출력 응답

파일 처리 결과는 입력 이미지에 대해 구성된 S3 버킷에 저장됩니다. 출력에는 파일 형식과 InvokeDataAutomationAsync 호출에 지정된 작업 유형에 따라 고유한 구조가 포함됩니다.

지정된 모달리티의 표준 출력에 대한 자세한 내용은 섹션을 참조하세요Bedrock 데이터 자동화의 표준 출력.

예를 들어 이미지의 경우 다음에 대한 정보를 포함할 수 있습니다.

이미지 요약: 이미지의 설명 요약 또는 캡션입니다.
IAB 분류: IAB 분류 체계를 기반으로 분류합니다.
이미지 텍스트 감지: 경계 상자 정보가 포함된 추출된 텍스트입니다.
콘텐츠 조정: 이미지에서 부적절하거나 원치 않거나 불쾌감을 주는 콘텐츠를 감지합니다.

다음은 이미지 처리를 위한 출력의 예제 코드 조각입니다.


{
"metadata": {
  "id": "image_123",
  "semantic_modality": "IMAGE",
  "s3_bucket": "my-s3-bucket",
  "s3_prefix": "images/",
  "image_width_pixels": 1920,
  "image_height_pixels": 1080
},
  "image": {
    "summary": "A lively party scene with colorful decorations and supplies",
    "iab_categories": [
  {
      "category": "Party Supplies",
      "confidence": 0.9,
      "parent_name": "Events & Attractions"
  }
],
 "content_moderation": [
  {
    "category": "Drugs & Tobacco Paraphernalia & Use",
    "confidence": 0.7
  }
],
  "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
             ]
           }
         ],  
  }
}

이 구조화된 출력을 통해 다운스트림 애플리케이션과 쉽게 통합하고 추가 분석할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Bedrock 데이터 자동화 콘솔 사용

리전 간 추론을 통한 처리량 증가