기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
문서에 대한 표준 출력을 사용하면 관심 있는 응답의 세분성을 설정하고 출력 형식과 출력의 텍스트 형식을 설정할 수 있습니다. 다음은 활성화할 수 있는 출력 중 일부입니다.
응답 세분화
응답 세분화는 문서 텍스트 추출에서 수신할 응답의 종류를 결정합니다. 각 수준의 세분화는 점점 더 분리된 응답을 제공하며, 페이지는 함께 추출된 모든 텍스트를 제공하고 단어는 각 단어를 별도의 응답으로 제공합니다. 사용 가능한 세분화 수준은 다음과 같습니다.
-
페이지 수준 세분화 - 기본적으로 활성화됩니다. 페이지 수준 세분화는 문서의 각 페이지를 선택한 텍스트 출력 형식으로 제공합니다.
-
요소 수준 세분화(레이아웃) - 기본적으로 활성화됩니다. 선택한 출력 형식으로 문서의 텍스트를 다양한 요소로 구분하여 제공합니다. 그림, 테이블 또는 단락과 같은 이러한 요소. 이는 문서 구조에 따라 논리적 읽기 순서로 반환됩니다.
-
단어 수준 세분화 - 광범위한 컨텍스트 분석을 사용하지 않고 개별 단어에 대한 정보를 제공합니다. 페이지에 각 단어와 해당 위치를 제공합니다.
출력 설정
출력 설정에 따라 다운로드한 결과가 구조화되는 방식이 결정됩니다. 출력 설정 옵션은 다음과 같습니다.
-
JSON - 문서 분석을 위한 기본 출력 구조입니다. 구성 설정의 정보가 포함된 JSON 출력 파일을 제공합니다.
-
JSON+파일 -이 설정을 사용하면 JSON 출력과 다른 출력에 해당하는 파일을 모두 생성합니다. 예를 들어,이 설정은 전체 텍스트 추출을 위한 텍스트 파일, 구조적 마크다운이 있는 텍스트에 대한 마크다운 파일, 텍스트에 있는 각 테이블에 대한 CSV 파일을 제공합니다.
텍스트 형식
텍스트 형식은 다양한 추출 작업을 통해 제공되는 다양한 종류의 텍스트를 결정합니다. 텍스트 형식에 대해 다음 옵션을 원하는 수만큼 선택할 수 있습니다.
-
일반 텍스트 -이 설정은 형식 지정이나 기타 마크다운 요소가 기록되지 않은 텍스트 전용 출력을 제공합니다.
-
마크다운이 있는 텍스트 - 표준 출력의 기본 출력 설정입니다. 마크다운 요소가 통합된 텍스트를 제공합니다.
-
HTML이 포함된 텍스트 - 응답에 통합된 HTML 요소가 포함된 텍스트를 제공합니다.
-
CSV - 문서 내의 테이블에 대한 CSV 구조화된 출력을 제공합니다. 이렇게 하면 문서의 다른 요소가 아닌 테이블에 대한 응답만 제공됩니다.
경계 상자 및 생성 필드
문서의 경우 선택한 세부 수준에 따라 출력을 변경하는 두 가지 응답 옵션이 있습니다. 경계 상자와 생성 필드입니다. 경계 상자를 선택하면 콘솔 응답 드롭다운에서 클릭한 요소 또는 단어의 시각적 개요가 표시됩니다. 이렇게 하면 응답의 특정 요소를 더 쉽게 추적할 수 있습니다. 경계 상자는 상자의 네 모서리에 대한 좌표로 JSON에 반환됩니다.
생성 필드를 선택하면 10단어 및 250단어 버전의 문서 요약이 생성됩니다. 그런 다음 요소를 응답 세분화로 선택하면 문서에서 감지된 각 그림에 대한 설명 캡션을 생성합니다. 그림에는 차트, 그래프 및 이미지와 같은 것이 포함됩니다.
Bedrock 데이터 자동화 문서 응답
이 섹션에서는 문서 파일에서 API 작업 InvokeDataAutomation을 실행하여 수신하는 다양한 응답 객체에 중점을 둡니다. 아래에서는 응답 객체의 각 섹션을 세분화한 다음 예제 문서에 대해 채워진 전체 응답을 확인합니다. 받게 될 첫 번째 섹션은 입니다metadata
.
"metadata":{
"logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
"semantic_modality":"DOCUMENT",
"s3_bucket":"bucket",
"s3_prefix":"prefix"
},
위의 첫 번째 섹션에서는 문서와 연결된 메타데이터에 대한 개요를 제공합니다. 이 섹션에서는 S3 정보와 함께 응답에 대해 선택한 양식도 알려줍니다.
"document":{
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"description":"document text",
"summary":"summary text",
"statistics":{
"element_count":5,
"table_count":1,
"figure_count":1,
"word_count":1000,
"line_count":32
}
},
위 섹션에서는 문서 수준 세부 정보를 제공합니다. 설명 및 요약 섹션은 문서를 기반으로 생성된 필드입니다. 표현 섹션은 문서의 실제 콘텐츠에 다양한 형식 지정 스타일을 제공합니다. 마지막으로 통계에는 문서의 실제 콘텐츠에 대한 정보가 포함됩니다. 예를 들어 의미 요소 수, 숫자, 단어, 선 수 등이 있습니다.
테이블 엔터티에 대한 정보입니다. 위치 정보, 텍스트, 테이블 및 읽기 순서의 다양한 형식 외에도 특히 S3 버킷에서 테이블의 csv 정보와 잘린 이미지를 반환합니다. CSV 정보에는 다양한 헤더, 바닥글 및 제목이 표시됩니다. 이미지는 InvokeDataAutomationAsync 요청에 설정된 접두사의 s3 버킷으로 라우팅됩니다.
{
"id":"entity_id",
"type":"TEXT",
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"reading_order":2,
"page_indices":[
0
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0.0,
"top":0.0,
"width":0.05,
"height":0.5
}
}
],
"sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
이는 문서 내의 텍스트에 사용되는 개체로, 응답의 TYPE
줄로 표시됩니다. 다시 표현하면 다양한 형식의 텍스트가 표시됩니다.는 독자가 논리적으로 텍스트를 보는 시기를 reading_order
보여줍니다. 연결된 키 및 값을 기반으로 하는 의미 체계 순서입니다. 예를 들어, 문단의 제목을 해당 문단과 읽기 순서로 연결합니다.는 텍스트가 있는 페이지를 page_indices
알려줍니다. 다음은 위치 정보이며, 응답에서 활성화된 경우 제공된 텍스트 경계 상자가 있습니다. 마지막으로 개체 하위 유형이 있습니다. 이 하위 유형은 어떤 종류의 텍스트가 감지되는지에 대한 자세한 정보를 제공합니다. 하위 유형의 전체 목록은 API 참조를 참조하세요.
{
"id":"entity_id",
"type":"TABLE",
"representation":{
"html":"table.../table",
"markdown":"| header | ...",
"text":"header \t header",
"csv":"header, header, header\n..."
},
"csv_s3_uri":"s3://",
"headers":[
"date",
"amount",
"description",
"total"
],
"reading_order":3,
"title":"Title of the table",
"footers":[
"the footers of the table"
],
"crop_images":[
"s3://bucket/prefix.png",
"s3://bucket/prefix.png"
],
"page_indices":[
0,
1
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
},
{
"page_index":1,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
]
},
테이블 엔터티에 대한 정보입니다. 위치 정보, 텍스트, 테이블 및 읽기 순서의 다양한 형식 외에도 특히 S3 버킷에서 테이블의 csv 정보와 잘린 이미지를 반환합니다. CSV 정보에는 다양한 헤더, 바닥글 및 제목이 표시됩니다. 이미지는 InvokeDataAutomation 요청에 설정된 접두사의 s3 버킷으로 라우팅됩니다.
{
"id":"entity_id",
"type":"FIGURE",
"summary":"",
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"crop_images":[
"s3://bucket/prefix.png",
"s3://bucket/prefix.png"
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
],
"sub_type":"CHART",
"title":"figure title",
"rai_flag":"APPROVED/REDACTED/REJECTED",
"reading_order":1,
"page_indices":[
0
]
}
,
문서 그래프 및 차트와 같은 그림에 사용되는 개체입니다. 테이블과 마찬가지로 이러한 그림은 잘리고 이미지는 접두사의 s3 버킷 세트로 전송됩니다. 또한 제목 텍스트에 대한 sub_type
및 그림 제목 응답과 그림 종류에 대한 표시를 받게 됩니다.
"pages":[
{
"id":"page_id",
"page_index":0,
"detected_page_number":1,
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"statistics":{
"element_count":5,
"table_count":1,
"figure_count":1,
"word_count":1000,
"line_count":32
},
"asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
"rectified_image_width_pixels":1700,
"rectified_image_height_pixels":2200
}
}
],
표준 출력을 통해 추출하는 마지막 개체는 페이지입니다. 페이지는 텍스트 엔터티와 동일하지만 감지된 페이지 번호가 페이지에 있는 페이지 번호를 추가로 포함합니다.
"text_lines":[
{
"id":"line_id",
"text":"line text",
"reading_order":1,
"page_index":0,
"locations":{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
}
],
"text_words":[
{
"id":"word_id",
"text":"word text",
"line_id":"line_id",
"reading_order":1,
"page_index":0,
"locations":{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
}
]
이 마지막 두 요소는 개별 텍스트 부분에 대한 것입니다. 단어 수준 세분화는 각 단어에 대한 응답을 반환하는 반면, 기본 출력은 텍스트 줄만 보고합니다.
BDA 문서 처리 제한
BDA는 PDF, JPEG 및 PNG 파일 형식의 문서를 지원합니다. 문서는 콘솔에서 처리하려면 200MB 미만이어야 하고 API에서 처리하려면 500MB 미만이어야 합니다. 단일 문서는 20페이지를 초과할 수 없지만 문서 분할이 활성화된 파일은 최대 1,500페이지까지 제출할 수 있습니다.
Limit | 설명 |
---|---|
PDF 특정 제한 |
최대 높이와 너비는 40인치 및 2880포인트입니다. PDFs 암호로 보호할 수 없습니다. PDFs에는 JPEG 2000 형식의 이미지가 포함될 수 있습니다. |
문서 교체 및 이미지 크기 |
BDA는 45도 평면 내 교체와 같은 모든 평면 내 문서 교체를 지원합니다. BDA는 모든 면에서 해상도가 10,000픽셀 이하인 이미지를 지원합니다. |
텍스트 정렬 |
텍스트는 문서 내에서 가로로 정렬할 수 있습니다. 수평 배열 텍스트는 문서의 회전 정도에 관계없이 읽을 수 있습니다. BDA는 문서 내에서 세로 텍스트(일본어 및 중국어와 같은 언어에서 일반적인 것처럼 세로로 작성된 텍스트) 정렬을 지원하지 않습니다. |
문자 크기 |
감지할 텍스트의 최소 높이는 15픽셀입니다. 150 DPI에서는 8포인트 글꼴과 동일합니다. |
문자 유형 |
BDA는 수기 및 인쇄된 문자 인식을 모두 지원합니다. |