本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
数据源的解析选项
解析是指对文档及其有意义的组成部分的解释。Amazon Bedrock 知识库提供了以下选项,用于在摄取期间解析您的数据源:
-
Amazon Bedrock 默认解析器-仅解析文档中的文本。此解析器不会产生任何使用费。
-
Amazon Bedrock 数据自动化(预览版)— 一项完全托管的服务,可有效处理包括文本和图像在内的多模式数据,无需提供任何其他提示。有关此服务的更多信息,请参阅 Amazon Bedrock 数据自动化。
-
基础模型-使用基础模型或推理配置文件处理多模态数据,包括文本和图像。此解析器为您提供了自定义用于数据提取的提示的选项。此解析器的成本取决于基础模型处理的令牌数量。有关支持解析 Amazon Bedrock 知识库数据的模型列表,请参阅。支持的模型和解析区域
注意
如果您选择基础模型或 Amazon Bedrock 数据自动化进行解析,但它无法解析文件,则会改用 Amazon Bedrock 默认解析器。
下表汇总了每种解析器对文件类型的支持:
文件类型 | 扩展程序 | 默认解析器 | Amazon 基岩数据自动化 | 基础模型 |
---|---|---|---|---|
纯文本(ASCII仅限) | .txt | 是 | 是 | 是 |
Markdown | .md | 是 | 是 | 是 |
HyperText 标记语言 | .html | 是 | 是 | 是 |
微软 Word 文档 | .doc/.docx | 是 | 是 | 是 |
逗号分隔的值 | .csv | 是 | 是 | 是 |
Microsoft Excel 电子表格 | .xls/.xlsx | 是 | 是 | 是 |
便携式文档格式 (PDF) | 是 | 是 | 是 | |
图片 —JPEG/PNG格式 | .jpeg、.png | 否 | 是 | 是 |
在选择如何解析数据时,请考虑以下几点:
-
无论您的数据是纯文本数据,还是包含多模态数据,例如图像、图形和图表,您都希望知识库能够查询这些数据。
-
是否要选择自定义用于指示模型如何解析数据的提示。
-
解析器的成本。有关更多信息,请参阅 Amazon Bedrock 的定价
。
使用高级解析可以解析的文件类型和总数据量有限制。有关用于高级解析的文件类型的信息,请参见支持的文档格式以及知识库数据的限制。有关使用高级解析可以解析的总数据的信息,请参阅中的 A mazon Bedrock 终端节点和配额。 AWS 一般参考
要了解如何配置知识库的解析方式,请参阅中将数据源连接到您的知识库支持的数据源的连接配置。