테이블 - Amazon Textract

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

테이블

Amazon Textract Textract는 테이블의 테이블과 셀을 추출할 수 있습니다. 예를 들어 양식에서 다음 표가 감지되면 Amazon Textract Textract는 네 개의 셀이 있는 테이블을 감지합니다.

이름 Address

아나 캐롤라이나

123 Any Stown

감지된 테이블은 다음과 같이 반환됩니다Block응답의 객체AnalyzeDocumentGetDocumentAnalysis. 이FeatureTypes키-값 쌍, 테이블 또는 둘 다에 대한 정보를 검색하는 입력 매개 변수입니다. 테이블에만 해당 값을 사용하십시오.TABLES. 문제 해결 예는 테이블을 CSV 파일로 내보내기을(를) 참조하십시오. 문서를 표현하는 방법에 대한 일반 정보Block객체, 참조텍스트 감지 및 문서 분석 응답 객체.

다음 다이어그램은 테이블의 단일 셀이 어떻게 표현되는지 보여줍니다.Block객체입니다.

셀에는 다음이 포함됩니다.WORD탐지된 단어에 대한 블록SELECTION_ELEMENT확인란과 같은 선택 요소에 대한 블록입니다.

다음은 네 개의 셀이 있는 위 테이블의 부분 JSON입니다.

PAGE Block 객체에는 TABLE 블록에 대한 자식 블록 ID 목록과 감지된 각 텍스트 라인이 있습니다.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "f2a4ad7b-f21d-4966-b548-c859b84f66a4", // Line - Name "4dce3516-ffeb-45e0-92a2-60770e9cb744", // Line - Address "ee506578-768f-4696-8f4b-e4917e429f50", // Line - Ana Carolina "33fc7223-411b-4399-8a90-ccd3c5a2c196", // Line - 123 Any Town "3f9665be-379d-4ae7-be44-d02f32b049c2" // Table ] } ], "BlockType": "PAGE", "Id": "78c3ce84-ae70-418e-add7-27058418adf6" },

TABLE 블록에는 테이블 내의 셀에 대한 하위 ID 목록이 포함되어 있습니다. TABLE 블록에는 문서의 테이블 위치에 대한 형상 정보도 포함됩니다. 다음 JSON은 테이블에 네 개의 셀이 있음을 보여 줍니다.Ids어레이.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "505e9581-0d1c-42fb-a214-6ff736822e8c", "6fca44d4-d3d3-46ab-b22f-7fca1fbaaf02", "9778bd78-f3fe-4ae1-9b78-e6d29b89e5e9", "55404b05-ae12-4159-9003-92b7c129532e" ] } ], "BlockType": "TABLE", "Confidence": 92.5705337524414, "Id": "3f9665be-379d-4ae7-be44-d02f32b049c2" },

테이블 셀의 블록 유형은 CELL입니다. 이Block각 셀의 객체에는 테이블의 다른 셀과 비교하여 셀 위치에 대한 정보가 포함됩니다. 또한 문서에서 셀 위치에 대한 형상 정보도 포함됩니다. 이전 예제에서505e9581-0d1c-42fb-a214-6ff736822e8c는 단어가 포함된 셀의 하위 ID입니다.이름. 다음 예제는 셀에 대한 정보입니다.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "e9108c8e-0167-4482-989e-8b6cd3c3653e" ] } ], "Confidence": 100.0, "RowSpan": 1, "RowIndex": 1, "ColumnIndex": 1, "ColumnSpan": 1, "BlockType": "CELL", "Id": "505e9581-0d1c-42fb-a214-6ff736822e8c" },

각 셀은 테이블의 위치를 가지며 첫 번째 셀은 1,1입니다. 이전 예제에서 값이 있는 셀입니다.이름는 1행, 열 1에 있습니다. 값이 있는 셀123 Any Stown은 2행, 2열에 있습니다. 셀 블록 객체에는 이 정보가RowIndexColumnIndex필드. 하위 목록에는 셀 내에 있는 텍스트가 포함된 WORD Block 개체의 ID가 포함되어 있습니다. 목록의 단어는 셀의 왼쪽 상단에서 셀의 오른쪽 하단까지 검색된 순서대로 표시됩니다. 위의 예에서 셀에는 값 e9108c8e-0167-4482-989e-8b6CD3c3653e인 하위 ID가 있습니다. 다음 출력은 ID 값이 e9108c8e-0167-4482-989e-8b6CD3c3653e인 워드 블록에 대한 출력입니다.

"Geometry": {...}, "Text": "Name", "TextType": "Printed", "BlockType": "WORD", "Confidence": 99.81139373779297, "Id": "e9108c8e-0167-4482-989e-8b6cd3c3653e" },