양식 문서에서 키-값 쌍 추출 - Amazon Textract

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

양식 문서에서 키-값 쌍 추출

다음 Python 예제는 양식 문서에서 키-값 쌍을 추출하는 방법을 보여줍니다.Block지도에 저장된 객체입니다. 에 대한 호출에서 블록 객체가 반환됩니다.AnalyzeDocument. 자세한 정보는 양식 데이터 (키-값 쌍)을 참조하십시오.

다음 함수를 사용합니다.

  • get_kv_map— 통화AnalyzeDocument키 및 VALUE BLOCK 객체를 맵에 저장합니다.

  • get_kv_relationshipfind_value_block— 맵에서 키-값 관계를 구성합니다.

양식 문서에서 키-값 쌍을 추출하려면
  1. 환경을 구성합니다. 자세한 정보는 사전 조건을 참조하십시오.

  2. 다음 예제 코드를 이라는 파일에 저장합니다.textract_python_kv_parser.py.

    import boto3 import sys import re import json def get_kv_map(file_name): with open(file_name, 'rb') as file: img_test = file.read() bytes_test = bytearray(img_test) print('Image loaded', file_name) # process using image bytes client = boto3.client('textract') response = client.analyze_document(Document={'Bytes': bytes_test}, FeatureTypes=['FORMS']) # Get the text blocks blocks=response['Blocks'] # get key and value maps key_map = {} value_map = {} block_map = {} for block in blocks: block_id = block['Id'] block_map[block_id] = block if block['BlockType'] == "KEY_VALUE_SET": if 'KEY' in block['EntityTypes']: key_map[block_id] = block else: value_map[block_id] = block return key_map, value_map, block_map def get_kv_relationship(key_map, value_map, block_map): kvs = {} for block_id, key_block in key_map.items(): value_block = find_value_block(key_block, value_map) key = get_text(key_block, block_map) val = get_text(value_block, block_map) kvs[key] = val return kvs def find_value_block(key_block, value_map): for relationship in key_block['Relationships']: if relationship['Type'] == 'VALUE': for value_id in relationship['Ids']: value_block = value_map[value_id] return value_block def get_text(result, blocks_map): text = '' if 'Relationships' in result: for relationship in result['Relationships']: if relationship['Type'] == 'CHILD': for child_id in relationship['Ids']: word = blocks_map[child_id] if word['BlockType'] == 'WORD': text += word['Text'] + ' ' if word['BlockType'] == 'SELECTION_ELEMENT': if word['SelectionStatus'] == 'SELECTED': text += 'X ' return text def print_kvs(kvs): for key, value in kvs.items(): print(key, ":", value) def search_value(kvs, search_key): for key, value in kvs.items(): if re.search(search_key, key, re.IGNORECASE): return value def main(file_name): key_map, value_map, block_map = get_kv_map(file_name) # Get Key Value relationship kvs = get_kv_relationship(key_map, value_map, block_map) print("\n\n== FOUND KEY : VALUE pairs ===\n") print_kvs(kvs) # Start searching a key value while input('\n Do you want to search a value for a key? (enter "n" for exit) ') != 'n': search_key = input('\n Enter a search key:') print('The value is:', search_value(kvs, search_key)) if __name__ == "__main__": file_name = sys.argv[1] main(file_name)
  3. 명령 프롬프트에서 다음 명령을 입력합니다. Replacefile분석할 문서 이미지 파일을 사용합니다.

    textract_python_kv_parser.py file
  4. 메시지가 표시되면 입력 문서에 있는 키를 입력합니다. 코드가 키를 감지하면 키 값이 표시됩니다.