문서 속성 또는 필드 - Amazon Kendra

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

문서 속성 또는 필드

문서에는 관련 속성 또는 필드가 있습니다. 문서의 필드는 문서의 속성 또는 문서 구조 내에 포함된 내용입니다. 예를 들어, 각 문서에는 제목, 본문 텍스트, 작성자가 포함될 수 있습니다. 특정 문서에 대한 사용자 지정 필드를 추가할 수도 있습니다. 예를 들어 인덱스가 세금 문서를 검색하는 경우 세금 문서 유형에 대한 사용자 지정 필드를 지정할 수 있습니다(예: W-2, 1099 등).

쿼리에서 문서 필드를 사용하려면 먼저 인덱스 필드에 매핑되어야 합니다. 예를 들어 제목 필드를 _document_title 필드에 매핑될 수 있습니다. 자세한 내용을 알아보려면 필드 매핑을 참조하세요. 새 필드를 추가하려면 필드를 매핑할 인덱스 필드를 만들어야 합니다. 콘솔이나 를 사용하여 인덱스 필드를 생성합니다 UpdateIndexAPI.

문서 필드를 사용하여 응답을 필터링하고 패싯된 검색 결과를 만들 수 있습니다. 예를 들어 특정 버전의 문서만 반환하도록 응답을 필터링하거나 검색어와 일치하는 1099 유형의 세금 문서만 반환하도록 검색을 필터링할 수 있습니다. 자세한 내용은 필터링 및 패싯 검색을 참조하세요.

문서 필드를 사용하여 쿼리 응답을 수동으로 조정할 수도 있습니다. 예를 들어 제목 필드의 중요도를 높여 가중치를 높일 수 있습니다. Amazon Kendra 응답에 반환할 문서를 결정할 때 필드에 할당합니다. 자세한 내용은 검색 관련성 조정을 참조하세요.

문서를 색인에 직접 추가하는 경우 문서 입력 매개 변수의 필드를 에 지정합니다. BatchPutDocumentAPI DocumentAttribute개체 배열에 사용자 지정 필드 값을 지정합니다. 데이터 소스를 사용하는 경우 문서 필드를 추가하는 데 사용하는 방법은 데이터 소스에 따라 달라집니다. 자세한 내용을 알아보려면 데이터 소스 필드 매핑을 참조하세요.

사용 Amazon Kendra 예약된 문서 필드 또는 공통 문서 필드

UpdateIndex API사용하면 다음을 사용하여 DocumentMetadataConfigurationUpdates 지정하여 예약된 필드 또는 공통 필드를 만들 수 있습니다. Amazon Kendra 예약된 인덱스 필드 이름을 해당 문서 속성/필드 이름에 매핑할 수 있습니다. 사용자 지정 필드도 생성할 수 있습니다. 데이터 소스 커넥터를 사용하는 경우 대부분 데이터 소스 문서 필드를 다음과 같이 매핑하는 필드 매핑을 포함합니다. Amazon Kendra 인덱스 필드. 콘솔을 사용하는 경우 데이터 소스를 선택하고 편집 작업을 선택한 다음 데이터 소스 구성을 위한 필드 매핑 섹션 옆으로 이동하여 필드를 업데이트합니다.

필드를 displayable, facetable, searchable, sortable로 설정하도록 Search 객체를 구성할 수 있습니다. 필드의 순위 순서, 부스트 기간 또는 부스팅에 적용할 기간, 최신성, 중요도 값 및 특정 필드 값에 매핑된 중요도 값을 설정하도록 Relevance 객체를 구성할 수 있습니다. 콘솔을 사용하는 경우 탐색 메뉴에서 패싯 옵션을 선택하여 필드에 대한 검색 설정을 지정할 수 있습니다. 관련성 조정을 설정하려면 탐색 메뉴에서 인덱스를 검색하는 옵션을 선택하고 쿼리를 입력한 다음 사이드 패널 옵션을 사용하여 검색 관련성을 조정합니다. 필드를 생성한 후에는 필드 유형을 변경할 수 없습니다.

Amazon Kendra 사용할 수 있는 다음과 같은 예약된 문서 필드 또는 일반 문서 필드가 있습니다.

  • _authors - 문서 내용을 책임지는 한 명 이상의 작성자 목록.

  • _category - 문서를 특정 그룹에 배치하는 범주.

  • _created_at—문서를 만든 ISO 8601 형식의 날짜 및 시간. 예를 들어, 2012-03-25T12:30:10 + 01:00 은 중앙 유럽 표준시로 2012년 3월 25일 오후 12시 30분 (10초 추가) 의 ISO 8601 날짜-시간 형식입니다.

  • _data_source_id - 문서가 포함된 데이터 소스의 식별자.

  • _document_body - 작업 문서의 내용.

  • _document_id - 문서의 고유 식별자.

  • _document_title - 문서의 제목.

  • _excerpt_page_number—문서 발췌문이 표시되는 파일의 페이지 번호. PDF 2020년 9월 8일 이전에 인덱스를 만든 경우 이 속성을 사용하려면 먼저 문서를 다시 인덱싱해야 합니다.

  • _faq_id—질문-답변형 문서 (FAQ) 인 경우 의 고유 식별자입니다. FAQ

  • _file_type - 문서의 파일 형식(예: pdf 또는 doc).

  • _last_updated_at—문서가 마지막으로 업데이트된 ISO 8601 형식의 날짜 및 시간. 예를 들어, 2012-03-25T12:30:10 + 01:00 은 중앙 유럽 표준시로 2012년 3월 25일 오후 12시 30분 (10초 추가) 의 ISO 8601 날짜-시간 형식입니다.

  • _source_uriURI—문서를 사용할 수 있는 곳. 회사 웹 사이트에 있는 URI 문서의 경우를 예로 들 수 있습니다.

  • _version - 문서의 특정 버전을 나타내는 식별자.

  • _view_count - 문서가 조회된 횟수.

  • _language_code(문자열) - 문서에 적용되는 언어의 코드. 언어를 지정하지 않으면 영어가 기본값으로 사용됩니다. 코드를 포함하여 지원되는 언어에 대한 자세한 내용은 영어 이외의 언어로 문서 추가를 참조하세요.

사용자 정의 필드의 경우 예약된 필드 또는 공통 필드를 만들 때와 마찬가지로 를 사용하여 DocumentMetadataConfigurationUpdates 이러한 필드를 만듭니다. UpdateIndex API 사용자 지정 필드에 적절한 데이터 유형을 설정해야 합니다. 콘솔을 사용하는 경우 데이터 소스를 선택하고 편집 작업을 선택한 다음 데이터 소스 구성을 위한 필드 매핑 섹션 옆으로 이동하여 필드를 업데이트합니다. 일부 데이터 소스는 새 필드 또는 사용자 지정 필드 추가를 지원하지 않습니다. 필드를 생성한 후에는 필드 유형을 변경할 수 없습니다.

사용자 지정 필드에 설정할 수 있는 유형은 다음과 같습니다.

  • 날짜

  • 숫자

  • String

  • 문자열 목록

를 사용하여 BatchPutDocumentAPI색인에 문서를 추가한 경우 문서의 필드/속성을 Attributes 나열하고 객체를 사용하여 필드를 생성합니다. DocumentAttribute

에서 색인된 문서의 경우 Amazon S3 데이터 소스에서 필드 정보가 포함된 JSON메타데이터 파일을 사용하여 필드를 만듭니다.

지원되는 데이터베이스를 데이터 소스로 사용하는 경우 필드 매핑 옵션을 사용하여 필드를 구성할 수 있습니다.