일반 텍스트 주석 파일 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

일반 텍스트 주석 파일

일반 텍스트 주석의 경우 주석 목록이 포함된 쉼표로 구분된 값 (CSV) 파일을 생성합니다. 학습 파일 입력 형식이 한 줄에 한 문서인 경우 CSV 파일에는 다음 열이 포함되어야 합니다.

파일 오프셋 시작 오프셋 종료 유형

문서가 포함된 파일의 이름입니다. 예를 들어, 문서 파일 중 하나가 s3://my-S3-bucket/test-files/documents.txt에 있는 경우, File 열의 값은 documents.txt가 됩니다. 파일 이름의 일부로 파일 확장자(이 경우 '.txt')를 포함해야 합니다.

개체가 포함된 줄 번호입니다. 입력 형식이 파일당 문서 하나인 경우 이 열을 생략합니다.

개체가 시작되는 위치를 나타내는 입력 텍스트의 문자 오프셋(줄의 시작 부분을 기준으로 함)입니다. 첫 번째 문자는 위치 0에 있습니다.

개체가 끝나는 위치를 나타내는 입력 텍스트의 문자 오프셋입니다.

고객이 정의한 개체 유형. 개체 유형은 대문자로 밑줄로 구분된 문자열이어야 합니다. MANAGER, SENIOR_MANAGER 또는 PRODUCT_CODE 같은 설명형 개체 유형을 사용하는 것이 좋습니다. 모델당 최대 25개의 개체 유형을 학습시킬 수 있습니다.

학습 파일 입력 형식이 파일당 하나의 문서인 경우, 줄 번호 열을 생략하고 시작 오프셋종료 오프셋 값은 문서 시작부터 개체의 오프셋입니다.

다음 예제는 한 줄에 한 문서에 대한 것입니다. documents.txt 파일은 네 줄(행 0, 1, 2, 3)로 구성됩니다.

Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

주석 목록이 있는 CSV 파일은 다음과 같습니다.

File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
참고

주석 파일에서 개체를 포함하는 줄 번호는 줄 0으로 시작합니다. 이 예제에서는 documents.txt의 줄 2에 개체가 없기 때문에 CSV 파일에는 줄 2에 대한 항목이 없습니다.

데이터 파일 생성

오류 위험을 줄이려면 적절하게 구성된 CSV 파일에 주석을 넣는 것이 중요합니다. CSV 파일을 수동으로 구성하려면 다음 조건이 충족되어야 합니다.

  • UTF-8 인코딩은 대부분의 경우 기본값으로 사용되더라도 명시적으로 지정해야 합니다.

  • 첫 번째 줄에는 열 머리글: File, Line(선택 사항), Begin Offset, End Offset, Type이 포함됩니다.

잠재적 문제를 방지하려면 프로그래밍 방식으로 CSV 입력 파일을 생성하는 것이 좋습니다.

다음 예제는 Python을 사용하여 이전에 표시된 주석에 대한 CSV를 생성합니다.

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])