使用亚马逊 OpenSearch 服务使用亚马逊 S3 直接查询 - 亚马逊 OpenSearch 服务

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用亚马逊 OpenSearch 服务使用亚马逊 S3 直接查询

您可以使用亚马逊 OpenSearch 服务直接查询来查询 Amazon S3 中的数据。Amazon Ser OpenSearch vice 提供与 Amazon S3 的直接查询集成,从而无需在服务之间切换即可分析 Amazon S3 中的操作日志和基于 Amazon S3 的数据湖中的操作日志。现在,您可以分析云对象存储中的数据,同时使用 Service 的运营分析和可视化。 OpenSearch

通过使用 Amazon S3 进行直接查询,您不再需要构建复杂的 ETL 管道,也不再需要支付在 OpenSearch 服务和 Amazon S3 存储中复制数据的费用。您还可以安装包含预定义控制面板的常用日志类型模板集成,并配置针对该日志类型量身定制的数据加速。这些模板包括 VPC 流日志AWS CloudTrail 日志和 Amazon S3 日志。加速包括跳过索引、实体化视图和覆盖索引。

定价

您需要为用于创建和处理直接查询的现有 OpenSearch 服务和 Amazon S3 资源付费。发送到 Amazon S3 的查询使用计费计算并显示为每小时 OpenSearch 计算单位 (OCU)。

使用 Amazon S3 的直接查询有两种类型:交互式查询和加速。交互式查询对 Amazon S3 中的数据进行分析。当您运行新查询时,Ser OpenSearch vice 会启动一个持续至少三分钟的新会话。 OpenSearch 服务使会话保持活动状态,以确保后续查询快速运行。加速查询使用计算来维护 OpenSearch 服务中的索引。这些查询通常需要更长的时间,因为它们会将不同数量的数据摄入到 OpenSearch 服务中,从而加快交互式查询的运行速度。

有关更多信息,请参阅 Amazon OpenSearch 服务定价

限制

以下限制适用于使用 Amazon S3 进行 OpenSearch 服务直接查询。

  • 您的 OpenSearch 域名必须是 2.13 或更高版本才能支持 OpenSearch 服务直接查询。

  • 在 OpenSearch 无服务器上不可用。

  • 您的 OpenSearch 域名和 AWS Glue Data Catalog 必须相同 AWS 账户。您的 Amazon S3 存储桶可以位于不同的账户中(需要将条件添加到您的 IAM 策略中),但必须与您的域位于同一个 AWS 区域 账户中。

  • 某些数据类型不支持。支持的数据类型仅限于 Parquet、CSV 和 JSON。

  • OpenSearch 使用 Amazon S3 的服务直接查询仅支持从查询工作台生成的 Spark 表。Spark 流式传输不支持在 AWS Glue Data Catalog 或 Athena 中生成的表,Spark 流式传输是保持加速和更新索引所必需的。

  • 在查询之前必须对数据进行扁平化,或者必须使用 SQL in Serv OpenSearch ice 将嵌套列更改为专用列。

  • 缺少的列可能需要使用 COALESCE SQL 函数返回结果。

  • 如果您的数据结构发生变化,则需要更新 AWS Glue 表以及现有的加速。

  • OpenSearch 实例类型具有网络有效载荷限制,具体取决于实例类型(10 v 100)。

  • AWS CloudFormation 尚不支持模板。

建议

我们建议您在使用直接查询时执行以下操作:

  • 使用年、月、日、小时的分区格式将数据提取到 Amazon S3 中,以加快查询速度。

  • 对查询设置限制,确保不会提取太多数据。

  • 使用索引状态管理(如果适用)来维护实例化视图和覆盖索引的存储。

  • 当不再需要加速任务和索引时,将其丢弃。

  • 在构建跳过索引时,使用布隆过滤器来获得高基数,使用最小/最大值来表示大范围。建议您使用在高基数字段上设置的值。

  • 使用参考指南将数据导出到 Amazon S3。您可以使用诸如CloudFront、和 El astic Load B CloudTrailalancing 之类的 AWS 日志。

配额

您的账户具有以下与 Amazon S3 OpenSearch 服务直接查询相关的配额。每次启动查询时,Ser OpenSearch vice 都会打开一个会话并使其保持活动状态至少十分钟。这可通过消除后续查询中的会话启动时间来减少查询延迟。

描述 最大值 可以覆盖
每个域的连接数 10
每个域的数据来源数 20
每个域的索引数 5
每个数据来源的并行会话数 10
每次查询的最大 OCU 60
最大查询执行时间(分钟) 30
每次加速的最大 OCU 20
最大临时存储空间 20

支持的区域

以下区域可用于通过 Amazon S3 进行 OpenSearch 服务直接查询:亚太地区(香港)、亚太地区(孟买)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、加拿大(中部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(斯德哥尔摩)、美国东部(俄亥俄州)和美国西部(俄勒冈)。