数据源的解析选项 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据源的解析选项

解析是指对文档及其有意义的组成部分的解释。Amazon Bedrock 知识库提供了以下选项,用于在摄取期间解析您的数据源:

  • Amazon Bedrock 默认解析器-仅解析文档中的文本。此解析器不会产生任何使用费。

  • Amazon Bedrock 数据自动化(预览版)— 一项完全托管的服务,可有效处理包括文本和图像在内的多模式数据,无需提供任何其他提示。有关此服务的更多信息,请参阅 Amazon Bedrock 数据自动化

  • 基础模型-使用基础模型或推理配置文件处理多模态数据,包括文本和图像。此解析器为您提供了自定义用于数据提取的提示的选项。此解析器的成本取决于基础模型处理的令牌数量。有关支持解析 Amazon Bedrock 知识库数据的模型列表,请参阅。支持的模型和解析区域

注意

如果您选择基础模型或 Amazon Bedrock 数据自动化进行解析,但它无法解析文件,则会改用 Amazon Bedrock 默认解析器。

下表汇总了每种解析器对文件类型的支持:

文件类型 扩展程序 默认解析器 Amazon 基岩数据自动化 基础模型
纯文本(ASCII仅限) .txt Yes Yes Yes
Markdown .md Yes Yes Yes
HyperText 标记语言 .html Yes Yes Yes
微软 Word 文档 .doc/.docx Yes Yes Yes
逗号分隔的值 .csv Yes Yes Yes
Microsoft Excel 电子表格 .xls/.xlsx Yes Yes Yes
便携式文档格式 (PDF) .pdf Yes Yes Yes
图片 —JPEG/PNG格式 .jpeg、.png No Yes Yes

在选择如何解析数据时,请考虑以下几点:

  • 无论您的数据是纯文本数据,还是包含多模态数据,例如图像、图形和图表,您都希望知识库能够查询这些数据。

  • 是否要选择自定义用于指示模型如何解析数据的提示。

  • 解析器的成本。有关更多信息,请参阅 Amazon Bedrock 的定价

使用高级解析可以解析的文件类型和总数据量有限制。有关用于高级解析的文件类型的信息,请参见支持的文档格式以及知识库数据的限制。有关使用高级解析可以解析的总数据的信息,请参阅中的 A mazon Bedrock 终端节点和配额。 AWS 一般参考

要了解如何配置知识库的解析方式,请参阅中将数据源连接到您的知识库支持的数据源的连接配置。