使用命令行复制数据到 Amazon Redshift - AWS Data Pipeline

AWS Data Pipeline 不再向新客户提供。的现有客户 AWS Data Pipeline 可以继续照常使用该服务。了解更多

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用命令行复制数据到 Amazon Redshift

本教程演示如何将数据从 Amazon S3 复制到 Amazon Redshift。您将在 Amazon Redshift 中创建一个新表,然后使用 AWS Data Pipeline 将数据从公有 Amazon S3 存储桶传输到此表,该存储桶中包含 CSV 格式的示例输入数据。日志保存到您拥有的 Amazon S3 存储桶。

Amazon S3 是一项 Web 服务,可让您在云中存储数据。有关更多信息,请参阅 Amazon Simple Storage Service 用户指南。Amazon Redshift 是云中的数据仓库服务。有关更多信息,请参阅 Amazon Redshift 管理指南

先决条件

在开始本教程之前,您必须完成以下步骤:

  1. 安装和配置命令行界面 (CLI)。有关更多信息,请参阅正在访问 AWS Data Pipeline

  2. 确保名为 DataPipelineDefaultRoleDataPipelineDefaultResourceRole 的 IAM 角色存在。AWS Data Pipeline 控制台会自动为您创建这些角色。如果您一次也没有使用过 AWS Data Pipeline 控制台,则必须手动创建这些角色。有关更多信息,请参阅适用于 AWS Data Pipeline 的 IAM 角色

  3. 在 Amazon Redshift 中设置 COPY 命令,因为当您在 AWS Data Pipeline 中执行复制操作时,需要让这些相同的选项生效。有关信息,请参阅 开始之前:配置 COPY 选项并加载数据

  4. 设置 Amazon Redshift 数据库。有关更多信息,请参阅设置管道,创建安全组,并创建 Amazon Redshift 集群