Documents

포커스 모드

Documents - Amazon Bedrock

응답 세분화 출력 설정 텍스트 형식 경계 상자 및 생성 필드 Bedrock 데이터 자동화 문서 응답 BDA 문서 처리 제한

문서에 대한 표준 출력을 사용하면 관심 있는 응답의 세분성을 설정하고 출력 형식과 출력의 텍스트 형식을 설정할 수 있습니다. 다음은 활성화할 수 있는 출력 중 일부입니다.

응답 세분화

응답 세분화는 문서 텍스트 추출에서 수신할 응답의 종류를 결정합니다. 각 수준의 세분화는 점점 더 분리된 응답을 제공하며, 페이지는 함께 추출된 모든 텍스트를 제공하고 단어는 각 단어를 별도의 응답으로 제공합니다. 사용 가능한 세분화 수준은 다음과 같습니다.

페이지 수준 세분화 - 기본적으로 활성화됩니다. 페이지 수준 세분화는 문서의 각 페이지를 선택한 텍스트 출력 형식으로 제공합니다.
요소 수준 세분화(레이아웃) - 기본적으로 활성화됩니다. 선택한 출력 형식으로 문서의 텍스트를 다양한 요소로 구분하여 제공합니다. 그림, 테이블 또는 단락과 같은 이러한 요소. 이는 문서 구조에 따라 논리적 읽기 순서로 반환됩니다.
단어 수준 세분화 - 광범위한 컨텍스트 분석을 사용하지 않고 개별 단어에 대한 정보를 제공합니다. 페이지에 각 단어와 해당 위치를 제공합니다.

출력 설정

출력 설정에 따라 다운로드한 결과가 구조화되는 방식이 결정됩니다. 출력 설정 옵션은 다음과 같습니다.

JSON - 문서 분석을 위한 기본 출력 구조입니다. 구성 설정의 정보가 포함된 JSON 출력 파일을 제공합니다.
JSON+파일 -이 설정을 사용하면 JSON 출력과 다른 출력에 해당하는 파일을 모두 생성합니다. 예를 들어,이 설정은 전체 텍스트 추출을 위한 텍스트 파일, 구조적 마크다운이 있는 텍스트에 대한 마크다운 파일, 텍스트에 있는 각 테이블에 대한 CSV 파일을 제공합니다.

텍스트 형식

텍스트 형식은 다양한 추출 작업을 통해 제공되는 다양한 종류의 텍스트를 결정합니다. 텍스트 형식에 대해 다음 옵션을 원하는 수만큼 선택할 수 있습니다.

일반 텍스트 -이 설정은 형식 지정이나 기타 마크다운 요소가 기록되지 않은 텍스트 전용 출력을 제공합니다.
마크다운이 있는 텍스트 - 표준 출력의 기본 출력 설정입니다. 마크다운 요소가 통합된 텍스트를 제공합니다.
HTML이 포함된 텍스트 - 응답에 통합된 HTML 요소가 포함된 텍스트를 제공합니다.
CSV - 문서 내의 테이블에 대한 CSV 구조화된 출력을 제공합니다. 이렇게 하면 문서의 다른 요소가 아닌 테이블에 대한 응답만 제공됩니다.

경계 상자 및 생성 필드

문서의 경우 선택한 세부 수준에 따라 출력을 변경하는 두 가지 응답 옵션이 있습니다. 경계 상자와 생성 필드입니다. 경계 상자를 선택하면 콘솔 응답 드롭다운에서 클릭한 요소 또는 단어의 시각적 개요가 표시됩니다. 이렇게 하면 응답의 특정 요소를 더 쉽게 추적할 수 있습니다. 경계 상자는 상자의 네 모서리에 대한 좌표로 JSON에 반환됩니다.

생성 필드를 선택하면 10단어 및 250단어 버전의 문서 요약이 생성됩니다. 그런 다음 요소를 응답 세분화로 선택하면 문서에서 감지된 각 그림에 대한 설명 캡션을 생성합니다. 그림에는 차트, 그래프 및 이미지와 같은 것이 포함됩니다.

Bedrock 데이터 자동화 문서 응답

이 섹션에서는 문서 파일에서 API 작업 InvokeDataAutomation을 실행하여 수신하는 다양한 응답 객체에 중점을 둡니다. 아래에서는 응답 객체의 각 섹션을 세분화한 다음 예제 문서에 대해 채워진 전체 응답을 확인합니다. 받게 될 첫 번째 섹션은 입니다metadata.


"metadata":{
   "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
   "semantic_modality":"DOCUMENT",
   "s3_bucket":"bucket",
   "s3_prefix":"prefix"
},

위의 첫 번째 섹션에서는 문서와 연결된 메타데이터에 대한 개요를 제공합니다. 이 섹션에서는 S3 정보와 함께 응답에 대해 선택한 양식도 알려줍니다.


"document":{
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "description":"document text",
   "summary":"summary text",
   "statistics":{
      "element_count":5,
      "table_count":1,
      "figure_count":1,
      "word_count":1000,
      "line_count":32
   }
},

위 섹션에서는 문서 수준 세부 정보를 제공합니다. 설명 및 요약 섹션은 문서를 기반으로 생성된 필드입니다. 표현 섹션은 문서의 실제 콘텐츠에 다양한 형식 지정 스타일을 제공합니다. 마지막으로 통계에는 문서의 실제 콘텐츠에 대한 정보가 포함됩니다. 예를 들어 의미 요소 수, 숫자, 단어, 선 수 등이 있습니다.

테이블 엔터티에 대한 정보입니다. 위치 정보, 텍스트, 테이블 및 읽기 순서의 다양한 형식 외에도 특히 S3 버킷에서 테이블의 csv 정보와 잘린 이미지를 반환합니다. CSV 정보에는 다양한 헤더, 바닥글 및 제목이 표시됩니다. 이미지는 InvokeDataAutomationAsync 요청에 설정된 접두사의 s3 버킷으로 라우팅됩니다.



{
   "id":"entity_id",
   "type":"TEXT",
   "representation":{
      "text":"document text",
      "html":"document title document content",
      "markdown":"# text"
   },
   "reading_order":2,
   "page_indices":[
      0
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0.0,
            "top":0.0,
            "width":0.05,
            "height":0.5
         }
      }
   ],
   "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},

이는 문서 내의 텍스트에 사용되는 개체로, 응답의 TYPE 줄로 표시됩니다. 다시 표현하면 다양한 형식의 텍스트가 표시됩니다.는 독자가 논리적으로 텍스트를 보는 시기를 reading_order 보여줍니다. 연결된 키 및 값을 기반으로 하는 의미 체계 순서입니다. 예를 들어, 문단의 제목을 해당 문단과 읽기 순서로 연결합니다.는 텍스트가 있는 페이지를 page_indices 알려줍니다. 다음은 위치 정보이며, 응답에서 활성화된 경우 제공된 텍스트 경계 상자가 있습니다. 마지막으로 개체 하위 유형이 있습니다. 이 하위 유형은 어떤 종류의 텍스트가 감지되는지에 대한 자세한 정보를 제공합니다. 하위 유형의 전체 목록은 API 참조를 참조하세요.



{
   "id":"entity_id",
   "type":"TABLE",
   "representation":{
      "html":"table.../table",
      "markdown":"| header | ...",
      "text":"header \t header",
      "csv":"header, header, header\n..."
   },
   "csv_s3_uri":"s3://",
   "headers":[
      "date",
      "amount",
      "description",
      "total"
   ],
   "reading_order":3,
   "title":"Title of the table",
   "footers":[
      "the footers of the table"
   ],
   "crop_images":[
      "s3://bucket/prefix.png",
      "s3://bucket/prefix.png"
   ],
   "page_indices":[
      0,
      1
   ],
   "locations":[
      {
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      },
      {
         "page_index":1,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   ]
},

테이블 엔터티에 대한 정보입니다. 위치 정보, 텍스트, 테이블 및 읽기 순서의 다양한 형식 외에도 특히 S3 버킷에서 테이블의 csv 정보와 잘린 이미지를 반환합니다. CSV 정보에는 다양한 헤더, 바닥글 및 제목이 표시됩니다. 이미지는 InvokeDataAutomation 요청에 설정된 접두사의 s3 버킷으로 라우팅됩니다.


{

   "id":"entity_id",

   "type":"FIGURE",

   "summary":"",

   "representation":{

      "text":"document text",

      "html":"document title document content",

      "markdown":"# text"

   },

   "crop_images":[

      "s3://bucket/prefix.png",

      "s3://bucket/prefix.png"

   ],

   "locations":[

      {

         "page_index":0,

         "bounding_box":{

            "left":0,

            "top":0,

            "width":1,

            "height":1

         }

      }

   ],

   "sub_type":"CHART",

   "title":"figure title",

   "rai_flag":"APPROVED/REDACTED/REJECTED",

   "reading_order":1,

   "page_indices":[

      0

   ]

}
,

문서 그래프 및 차트와 같은 그림에 사용되는 개체입니다. 테이블과 마찬가지로 이러한 그림은 잘리고 이미지는 접두사의 s3 버킷 세트로 전송됩니다. 또한 제목 텍스트에 대한 sub_type 및 그림 제목 응답과 그림 종류에 대한 표시를 받게 됩니다.


"pages":[
   {
      "id":"page_id",
      "page_index":0,
      "detected_page_number":1,
      "representation":{
         "text":"document text",
         "html":"document title document content",
         "markdown":"# text"
      },
      "statistics":{
         "element_count":5,
         "table_count":1,
         "figure_count":1,
         "word_count":1000,
         "line_count":32
      },
      "asset_metadata":{
         "rectified_image":"s3://bucket/prefix.png",
         "rectified_image_width_pixels":1700,
         "rectified_image_height_pixels":2200
      }
   }
],

표준 출력을 통해 추출하는 마지막 개체는 페이지입니다. 페이지는 텍스트 엔터티와 동일하지만 감지된 페이지 번호가 페이지에 있는 페이지 번호를 추가로 포함합니다.


"text_lines":[
   {
      "id":"line_id",
      "text":"line text",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
],


"text_words":[
   {
      "id":"word_id",
      "text":"word text",
      "line_id":"line_id",
      "reading_order":1,
      "page_index":0,
      "locations":{
         "page_index":0,
         "bounding_box":{
            "left":0,
            "top":0,
            "width":1,
            "height":1
         }
      }
   }
]

이 마지막 두 요소는 개별 텍스트 부분에 대한 것입니다. 단어 수준 세분화는 각 단어에 대한 응답을 반환하는 반면, 기본 출력은 텍스트 줄만 보고합니다.

BDA 문서 처리 제한

BDA는 PDF, JPEG 및 PNG 파일 형식의 문서를 지원합니다. 문서는 콘솔에서 처리하려면 200MB 미만이어야 하고 API에서 처리하려면 500MB 미만이어야 합니다. 단일 문서는 20페이지를 초과할 수 없지만 문서 분할이 활성화된 파일은 최대 1,500페이지까지 제출할 수 있습니다.

Limit	설명
PDF 특정 제한	최대 높이와 너비는 40인치 및 2880포인트입니다. PDFs 암호로 보호할 수 없습니다. PDFs에는 JPEG 2000 형식의 이미지가 포함될 수 있습니다.
문서 교체 및 이미지 크기	BDA는 45도 평면 내 교체와 같은 모든 평면 내 문서 교체를 지원합니다. BDA는 모든 면에서 해상도가 10,000픽셀 이하인 이미지를 지원합니다.
텍스트 정렬	텍스트는 문서 내에서 가로로 정렬할 수 있습니다. 수평 배열 텍스트는 문서의 회전 정도에 관계없이 읽을 수 있습니다. BDA는 문서 내에서 세로 텍스트(일본어 및 중국어와 같은 언어에서 일반적인 것처럼 세로로 작성된 텍스트) 정렬을 지원하지 않습니다.
문자 크기	감지할 텍스트의 최소 높이는 15픽셀입니다. 150 DPI에서는 8포인트 글꼴과 동일합니다.
문자 유형	BDA는 수기 및 인쇄된 문자 인식을 모두 지원합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Bedrock 데이터 자동화의 표준 출력

비디오

이 페이지에서

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음

Documents

응답 세분화

출력 설정

텍스트 형식

경계 상자 및 생성 필드

Bedrock 데이터 자동화 문서 응답

BDA 문서 처리 제한

이 페이지에서

Related resources

페이지 내용이 도움이 되었습니까?

Related resources

다음 주제:

이전 주제:

도움이 필요하십니까?