本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
连接 Ray 作业中的数据
AWS Glue Ray 作业可以使用各种 Python 包,这些包专为快速集成数据而设计。我们提供了一组最少的依赖关系,以免您的环境混乱。有关默认情况下包含内容的更多信息,请参阅 Ray 作业提供的模块。
注意
AWS Glue 提取、转换、加载(ETL)提供 DynamicFrame 抽象化来简化 ETL 工作流程,在这些工作流程中,您可以解决数据集各行之间的架构差异。AWS GlueETL 还提供其他功能,例如作业书签和分组输入文件。我们目前不在 Ray 作业中提供相应的功能。
AWS Glue for Spark 直接支持连接到某些数据格式、源和接收器。在 Ray 中,适用于 Pandas 的 AWS 开发工具包和最新的第三方库在很大程度上满足了这一需求。您需要查阅这些库,以了解有哪些功能可用。
AWS Glue for Ray 目前无法与 Amazon VPC 集成。如果没有公共路由,就无法访问 Amazon VPC 中的资源。有关将 AWS Glue 与 Amazon VPC 结合使用的更多信息,请参阅 为 AWS Glue(AWS PrivateLink)配置接口 VPC 端点(AWS PrivateLink)。
在 Ray 中处理数据的常用库
Ray Data – Ray Data 提供了处理常见数据格式、源和接收器的方法。有关 Ray Data 中支持的格式和源的更多信息,请参阅 Ray Data 文档中的 Input/Output
Ray 围绕 Ray Data 可能是您工作的最佳解决方案的用例提供了某些指导。有关更多信息,请参阅 Ray 文档中的 Ray use cases
适用于 Pandas 的 AWS 开发工具包(awswrangler) – 适用于 Pandas 的 AWS 开发工具包是一款 AWS 产品,当您使用 pandas DataFrames 进行转换管理数据时,该产品提供经过测试的简洁解决方案,用于读取和写入 AWS 服务。有关适用于 Pandas 的 AWS 开发工具包中支持的格式和来源的更多信息,请参阅AWS适用于 Pandas 的开发工具包文档中的 API Reference
有关如何使用适用于 Pandas 的 AWS 开发工具包读取和写入数据的示例,请参阅适用于 Pandas 的 AWS 开发工具包文档中的 Quick Start
Modin – Modin 是一个 Python 库,它以可分发的方式实现了常见的 Pandas 操作。有关 Modin 的更多信息,请参阅 Modin 文档
当您在 Ray 环境中同时运行 Modin 和适用于 Pandas 的 AWS 开发工具包时,您可以执行常见的 ETL 任务并获得高性能结果。有关将 Modin 与适用于 Pandas 的 AWS 开发工具包一起使用的更多信息,请参阅适用于 Pandas 的 AWS 开发工具包文档中的 At scale
其他框架 - 有关 Ray 支持的框架的更多信息,请参阅 Ray 文档中的 The Ray Ecosystem
通过 Data Catalog 连接
适用于 Pandas 的 AWS 开发工具包支持通过 Data Catalog 与 Ray 作业一起管理数据。有关更多信息,请参阅适用于 Pandas 的 AWS 开发工具包网站上的 Glue 目录