Amazon S3 문서 메타데이터 - Amazon Kendra

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon S3 문서 메타데이터

메타데이터 파일을 사용하여 문서에 대한 추가 정보인 메타데이터를 Amazon S3 버킷의 문서에 추가할 수 있습니다. 각 메타데이터 파일은 인덱싱된 문서와 연결됩니다.

메타데이터 파일은 인덱싱된 파일과 동일한 버킷에 저장해야 합니다. 콘솔이나 데이터 소스를 만들 때 DocumentsMetadataConfiguration 파라미터의 S3Prefix 필드를 사용하여 버킷 내 Amazon S3 메타데이터 파일 위치를 지정할 수 있습니다. Amazon S3 접두사를 지정하지 않는 경우 메타데이터 파일은 인덱싱된 문서와 동일한 위치에 저장되어야 합니다.

메타데이터 파일의 Amazon S3 접두사를 지정하면 해당 파일은 색인화된 문서와 평행한 디렉토리 구조를 갖게 됩니다. Amazon Kendra 지정된 디렉터리에서만 메타데이터를 찾습니다. 메타데이터를 읽을 수 없는 경우 디렉터리 위치가 메타데이터의 위치와 일치하는지 확인하세요.

다음 예시에서는 인덱싱된 문서 위치가 메타데이터 파일 위치에 매핑되는 방식을 보여줍니다. 참고로 문서 Amazon S3 키는 메타데이터의 접두사에 추가된 다음 Amazon S3 접미사를 사용하여 메타데이터 파일의 .metadata.json 경로를 구성합니다. Amazon S3 메타데이터의 Amazon S3 접두사 및 .metadata.json 접미사를 포함한 결합된 Amazon S3 키는 총 1024자를 넘지 않아야 합니다. Amazon S3 키를 접두사 및 접미사와 결합할 때 추가 문자를 고려하려면 키를 1000자 미만으로 유지하는 것이 좋습니다.

Bucket name: s3://bucketName Document path: documents Metadata path: none File mapping s3://bucketName/documents/file.txt -> s3://bucketName/documents/file.txt.metadata.json
Bucket name: s3://bucketName Document path: documents/legal Metadata path: metadata File mapping s3://bucketName/documents/legal/file.txt -> s3://bucketName/metadata/documents/legal/file.txt.metadata.json

문서 메타데이터는 JSON 파일에 정의되어 있습니다. 파일은 BOM 마커가 없는 UTF-8 텍스트 파일이어야 합니다. JSON 파일의 이름은 <document>.<extension>.metadata.json이어야 합니다. 이 예제에서 “document”는 메타데이터가 적용되는 문서의 이름이고 “extension”은 문서의 파일 확장자입니다. 문서 ID는 <document>.<extension>.metadata.json에서 고유해야 합니다.

JSON 파일의 내용은 이 템플릿을 따릅니다. 모든 속성/필드는 선택 사항이므로 모든 속성을 포함할 필요는 없습니다. 포함하려는 각 속성에 값을 입력해야 합니다. 값은 비워 둘 수 없습니다. 를 지정하지 않으면 검색 Amazon Kendra 결과에서 반환되는 링크가 문서가 _source_uri 들어 있는 Amazon S3 버킷을 가리킵니다. DocumentId필드에 s3_document_id 매핑되며 S3에 있는 문서의 절대 경로입니다.

{ "DocumentId": "S3 document ID, the S3 path to doc", "Attributes": { "_category": "document category", "_created_at": "ISO 8601 encoded string", "_last_updated_at": "ISO 8601 encoded string", "_source_uri": "document URI", "_version": "file version", "_view_count": number of times document has been viewed, "custom attribute key": "custom attribute value", additional custom attributes }, "AccessControlList": [ { "Name": "user name", "Type": "GROUP | USER", "Access": "ALLOW | DENY" } ], "Title": "document title", "ContentType": "For example HTML | PDF. For supported content types, see Types of documents." }

_created_at_last_updated_at 메타데이터 필드는 ISO 8601로 인코딩된 날짜입니다. 예를 들어, 2012-03-25T12:30:10+01:00은 중부 유럽 시간대로 2012년 3월 25일 오후 12시 30분 10초에 대한 ISO 8601 날짜/시간 형식입니다.

쿼리를 필터링하거나 쿼리 응답을 그룹화하는 데 사용하는 문서에 대한 추가 정보를 Attributes 필드에 추가할 수 있습니다. 자세한 정보는 사용자 지정 문서 필드 만들기을 참조하세요.

AccessControlList 필드를 사용하여 쿼리의 응답을 필터링할 수 있습니다. 이렇게 하면 특정 사용자와 그룹만 문서에 액세스할 수 있습니다. 자세한 정보는 사용자 컨텍스트 필터링을 참조하세요.