문서

PDF

RSS

포커스 모드

문서 - Amazon Kendra

문서 유형 또는 형식 문서 속성 또는 필드

이 섹션에서는가 지원하는 여러 문서 형식과 문서의 다양한 필드/속성을 인 Amazon Kendra 덱싱하는 방법을 설명합니다.

주제

문서 유형 또는 형식
문서 속성 또는 필드

문서 유형 또는 형식

Amazon Kendra 는 PDF, HTML, Word, PowerPoint 등과 같은 널리 사용되는 문서 유형 또는 형식을 지원합니다. 인덱스는 여러 문서 형식을 포함할 수 있습니다.

Amazon Kendra 는 문서를 검색할 수 있도록 문서 내부의 콘텐츠를 추출합니다. 추출된 텍스트와 문서 내의 표 형식 콘텐츠(HTML 테이블)에 대한 검색을 최적화하는 방식으로 문서가 파싱됩니다. 즉, 검색에 사용되는 필드 또는 속성으로 문서를 구조화합니다. 마지막 수정 날짜와 같은 문서 메타데이터는 검색에 유용한 필드가 될 수 있습니다.

문서를 행과 열로 구성할 수 있습니다. 예를 들어, 각 문서는 행이고 각 문서 필드/속성(예: 제목 및 본문 내용)은 열입니다. 예를 들어 데이터베이스를 데이터 소스로 사용하는 경우 데이터는 행과 열로 구조화되거나 구성되어야 합니다.

다음과 같은 방법으로 인덱스에 문서를 추가할 수 있습니다.

FAQ 파일을 추가하려면 CreateFaq API를 사용하여 Amazon S3 버킷에 저장된 파일을 추가합니다. 기본 CSV 형식, 헤더에 사용자 지정 필드/속성이 포함된 CSV 형식, 사용자 지정 필드가 포함된 JSON 형식 중에서 선택할 수 있습니다. 기본 형식은 기본 CSV입니다.

다음은 지원되는 각 문서 형식에 대한 정보와 Amazon Kendra 가 문서를 인덱싱할 때 각 형식을 처리하는 방법에 대한 정보를 제공합니다.

문서 형식	취급 방식	문서 처리 방법	원래 구조
휴대용 문서형식(PDF)	HTML	HTML로 변환된 후 내용이 추출됩니다.	비정형
하이퍼텍스트 마크업 언어(HTML)	HTML	HTML 태그는 콘텐츠를 추출하기 위해 필터링됩니다. 콘텐츠는 기본 `HTML` 시작 태그와 종료 태그(`<HTML>content</HTML>`) 사이에 있어야 합니다.	반구조화
확장형 마크업 언어(XML)	XML	XML 태그는 콘텐츠를 추출하기 위해 필터링됩니다.	반구조화
확장형 스타일시트 언어 변환(XSLT)	XSLT	태그는 콘텐츠를 추출하기 위해 필터링됩니다.	반구조화
MarkDown(MD)	일반 텍스트	콘텐츠는 MarkDown 구문이 포함된 상태로 추출됩니다.	반구조화
쉼표로 구분된 값(CSV)	CSV	각 셀에서 추출된 콘텐츠로, 단일 파일은 단일 문서 결과로 처리됩니다.	FAQ 파일은 구조화되고 그 외에는 반정형
Microsoft Excel(XLS 및 XLSX)	XLS 및 XLSX	각 셀에서 추출된 콘텐츠로, 단일 파일은 단일 문서 결과로 처리됩니다.	반구조화
JavaScript Object Notation(JSON)	일반 텍스트	콘텐츠는 JSON 구문이 포함된 상태로 추출됩니다.	반구조화
서식 있는 텍스트(RTF)	RTF	RTF 구문은 필터링되어 콘텐츠를 추출합니다.	반구조화
Microsoft PowerPoint(PPT)	PPT, PPTX	PowerPoint 슬라이드에서는 검색 대상 텍스트 내용만 추출됩니다. 이미지 및 기타 콘텐츠는 추출되지 않습니다.	비정형
Microsoft Word	DOC, DOCX	Word 페이지에서는 검색 대상 텍스트 내용만 추출됩니다. 이미지 및 기타 콘텐츠는 추출되지 않습니다.	비정형
일반 텍스트(TXT)	TXT	텍스트 문서의 모든 텍스트가 추출됩니다.	비정형

문서 속성 또는 필드

문서에는 관련 속성 또는 필드가 있습니다. 문서의 필드는 문서의 속성 또는 문서 구조 내에 포함된 내용입니다. 예를 들어, 각 문서에는 제목, 본문 텍스트, 작성자가 포함될 수 있습니다. 특정 문서에 대한 사용자 지정 필드를 추가할 수도 있습니다. 예를 들어 인덱스가 세금 문서를 검색하는 경우 세금 문서 유형에 대한 사용자 지정 필드를 지정할 수 있습니다(예: W-2, 1099 등).

쿼리에서 문서 필드를 사용하려면 먼저 인덱스 필드에 매핑되어야 합니다. 예를 들어 제목 필드를 _document_title 필드에 매핑될 수 있습니다. 자세한 내용을 알아보려면 필드 매핑을 참조하세요. 새 필드를 추가하려면 필드를 매핑할 인덱스 필드를 만들어야 합니다. 콘솔을 사용하거나 UpdateIndex API를 사용하여 인덱스 필드를 생성합니다.

문서 필드를 사용하여 응답을 필터링하고 패싯된 검색 결과를 만들 수 있습니다. 예를 들어 특정 버전의 문서만 반환하도록 응답을 필터링하거나 검색어와 일치하는 1099 유형의 세금 문서만 반환하도록 검색을 필터링할 수 있습니다. 자세한 내용은 필터링 및 패싯 검색을 참조하세요.

문서 필드를 사용하여 쿼리 응답을 수동으로 조정할 수도 있습니다. 예를 들어 제목 필드의 중요도를 늘려 응답에 반환할 문서를 결정할 때가 필드에 Amazon Kendra 할당하는 가중치를 늘리도록 선택할 수 있습니다. 자세한 내용은 검색 관련성 조정을 참조하세요.

문서를 인덱스에 직접 추가하는 경우 문서 입력 파라미터의 필드를 BatchPutDocument API에 지정합니다. DocumentAttribute 객체 배열에 사용자 지정 필드 값을 지정합니다. 데이터 소스를 사용하는 경우 문서 필드를 추가하는 데 사용하는 방법은 데이터 소스에 따라 달라집니다. 자세한 내용을 알아보려면 데이터 소스 필드 매핑을 참조하세요.

Amazon Kendra 예약 또는 일반 문서 필드 사용

UpdateIndex API를 사용하면 DocumentMetadataConfigurationUpdates를 사용하고 Amazon Kendra 예약 인덱스 필드 이름을 지정하여 예약된 필드 또는 공통 필드를 생성하여 동등한 문서 속성/필드 이름에 매핑할 수 있습니다. 사용자 지정 필드도 생성할 수 있습니다. 데이터 소스 커넥터를 사용하는 경우 데이터 소스 문서 필드를 Amazon Kendra 인덱스 필드에 매핑하는 필드 매핑을 대부분 포함합니다. 콘솔을 사용하는 경우 데이터 소스를 선택하고 편집 작업을 선택한 다음 데이터 소스 구성을 위한 필드 매핑 섹션 옆으로 이동하여 필드를 업데이트합니다.

필드를 displayable, facetable, searchable, sortable로 설정하도록 Search 객체를 구성할 수 있습니다. 필드의 순위 순서, 부스트 기간 또는 부스팅에 적용할 기간, 최신성, 중요도 값 및 특정 필드 값에 매핑된 중요도 값을 설정하도록 Relevance 객체를 구성할 수 있습니다. 콘솔을 사용하는 경우 탐색 메뉴에서 패싯 옵션을 선택하여 필드에 대한 검색 설정을 지정할 수 있습니다. 관련성 조정을 설정하려면 탐색 메뉴에서 인덱스를 검색하는 옵션을 선택하고 쿼리를 입력한 다음 사이드 패널 옵션을 사용하여 검색 관련성을 조정합니다. 필드를 생성한 후에는 필드 유형을 변경할 수 없습니다.

Amazon Kendra 에는 사용할 수 있는 다음과 같은 예약 또는 공통 문서 필드가 있습니다.

_authors - 문서 내용을 책임지는 한 명 이상의 작성자 목록.
_category - 문서를 특정 그룹에 배치하는 범주.
_created_at - 문서가 생성된 ISO 8601 형식의 날짜 및 시간. 예를 들어, 2012-03-25T12:30:10+01:00은 중부 유럽 시간으로 2012년 3월 25일 오후 12시 30분 10초에 대한 ISO 8601 날짜/시간 형식입니다.
_data_source_id - 문서가 포함된 데이터 소스의 식별자.
_document_body - 작업 문서의 내용.
_document_id - 문서의 고유 식별자.
_document_title - 문서의 제목.
_excerpt_page_number - 문서 발췌문이 나타나는 PDF 파일의 페이지 번호. 2020년 9월 8일 이전에 인덱스를 만든 경우 이 속성을 사용하려면 먼저 문서를 다시 인덱싱해야 합니다.
_faq_id - 질문-답변 유형 문서(FAQ)인 경우 FAQ의 고유 식별자.
_file_type - 문서의 파일 형식(예: pdf 또는 doc).
_last_updated_at - 문서가 마지막으로 업데이트된 ISO 8601 형식의 날짜 및 시간. 예를 들어, 2012-03-25T12:30:10+01:00은 중부 유럽 시간으로 2012년 3월 25일 오후 12시 30분 10초에 대한 ISO 8601 날짜/시간 형식입니다.
_source_uri - 문서가 제공된 URI. 예를 들면, 회사 웹 사이트에 있는 문서의 URI.
_version - 문서의 특정 버전을 나타내는 식별자.
_view_count - 문서가 조회된 횟수.
_language_code(문자열) - 문서에 적용되는 언어의 코드. 언어를 지정하지 않으면 영어가 기본값으로 사용됩니다. 코드를 포함하여 지원되는 언어에 대한 자세한 내용은 영어 이외의 언어로 문서 추가를 참조하세요.

사용자 지정 필드의 경우 예약된 필드 또는 공통 필드를 만들 때와 마찬가지로 UpdateIndex API와 DocumentMetadataConfigurationUpdates를 사용하여 이러한 필드를 만듭니다. 사용자 지정 필드에 적절한 데이터 유형을 설정해야 합니다. 콘솔을 사용하는 경우 데이터 소스를 선택하고 편집 작업을 선택한 다음 데이터 소스 구성을 위한 필드 매핑 섹션 옆으로 이동하여 필드를 업데이트합니다. 일부 데이터 소스는 새 필드 또는 사용자 지정 필드 추가를 지원하지 않습니다. 필드를 생성한 후에는 필드 유형을 변경할 수 없습니다.

사용자 지정 필드에 설정할 수 있는 유형은 다음과 같습니다.