将 Oracle 数据仓库与 AWS SCT - AWS Schema Conversion Tool

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将 Oracle 数据仓库与 AWS SCT

您可以使用 AWS SCT 将架构、代码对象和应用程序代码从 Oracle 数据仓库转换为 Amazon Redshift 或 Amazon Redshift,然后组合 AWS Glue 使用。

将 Oracle 数据仓库用作源的权限

下面列出了将 Oracle 数据仓库用作源所需的权限:

  • 连接

  • select_catalog_role

  • select any dictionary

连接到作为源的 Oracle 数据仓库

使用 AWS Schema Conversion Tool按照以下过程连接到 Oracle 数据仓库源数据库。

连接到 Oracle 数据仓库源数据库
  1. 在中 AWS Schema Conversion Tool,选择添加来源

  2. 选择 Oracle,然后选择下一步

    此时显示添加源对话框。

  3. 对于连接名称,输入数据库的名称。 AWS SCT 会在左侧面板的树中显示此名称。

  4. 使用来自的数据库凭据 AWS Secrets Manager 或手动输入:

    • 要使用 Secrets Manager 中的数据库凭证,请按照以下说明进行操作:

      1. 对于 AWS 密钥,输入密钥名称。

      2. 选择填充可使用 Secrets Manager 中的数据库凭证自动填写数据库连接对话框中的所有值。

      有关使用 Secrets Manager 中的数据库凭证的信息,请参阅AWS Secrets Manager 在中配置 AWS Schema Conversion Tool

    • 要手动输入 Oracle 源数据仓库连接信息,请按照以下说明进行操作:

      参数 操作
      类型

      选择连接到您的数据库的连接类型。根据类型,提供以下附加信息:

      • SID

        • 服务器名称:源数据库服务器的域名系统 (DNS) 名称或 IP 地址。

        • 服务器端口:键入用于连接到源数据库服务器的端口。

        • 甲骨文 SID:甲骨文系统 ID (SID)。要查找 OracleSID,请将以下查询提交到您的 Oracle 数据库:

          SELECT sys_context('userenv','instance_name') AS SID FROM dual;

      • 服务名称

        • 服务器名称:源数据库服务器的DNS名称或 IP 地址。

        • 服务器端口:键入用于连接到源数据库服务器的端口。

        • 服务名称:要连接到的 Oracle 服务的名称。

      • TNS别名

        • TNS文件路径:包含透明网络底板 (TNS) 名称连接信息的文件的路径。

        • TNS文件路径:此文件中用于连接源数据库的TNS别名。

      • TNS连接标识符

        • TNS连接标识符:已注册TNS连接信息的标识符。

      用户名密码

      输入数据库凭证,以便连接到源数据库服务器。

      AWS SCT 仅当您选择在项目中连接到您的数据库时,才使用该密码连接到您的源数据库。为了避免泄露源数据库的密码, AWS SCT 不会默认存储该密码。如果您关闭了 AWS SCT 项目并重新打开它,系统会根据需要提示您输入用于连接到源数据库的密码。

      使用 SSL

      选择此选项可使用安全套接字层 (SSL) 连接到您的数据库。在SSL选项卡上提供以下其他信息(如果适用):

      • SSL身份验证:选择此选项可对连接使用SSL身份验证。

      • 信任存储:包含证书的信任存储的位置。

      • 密钥存储:包含私有密钥和证书的密钥存储的位置。如果选择了SSL身份验证,则此值为必填值,否则为可选值。

      存储密码

      AWS SCT 创建用于存储SSL证书和数据库密码的安全保管库。启用此选项,可存储数据库密码,且无需输入密码可快速连接到数据库。

      Oracle 驱动程序路径

      输入用于连接到源数据库的驱动程序的路径。有关更多信息,请参阅 正在为安装JDBC驱动程序 AWS Schema Conversion Tool

      如果您将驱动程序路径存储在全局项目设置中,则驱动程序路径不会显示在连接对话框中。有关更多信息,请参阅 在全局设置中存储驱动程序路径

  5. 选择 “测试连接” 以验证是否 AWS SCT 可以连接到您的源数据库。

  6. 选择连接以连接到源数据库。

Oracle 数据仓库到 Amazon Redshift 的转换设置

要编辑 Oracle 数据仓库到 Amazon Redshift 的转换设置,请选择中的设置 AWS SCT,然后选择转换设置。从上面的列表中选择 Oracle,然后选择 Oracle — Amazon Redshift。 AWS SCT 显示 Oracle 数据仓库到 Amazon Redshift 转换的所有可用设置。

中的 Oracle 数据仓库到 Amazon Redshift 的转换设置 AWS SCT 包括以下选项:

  • 限制转换后的代码中操作项的注释数量。

    对于在转换后的代码中为所选严重性及更高的措施项添加注释,请选择措施项的严重性。 AWS SCT 在转换后的代码中为选定严重性及更高的措施项添加注释。

    例如,要最大限度地减少转换后的代码中的注释数量,请选择仅错误。要在转换后的代码中包含所有操作项的注释,请选择所有消息

  • 设置 AWS SCT 可以应用于您的目标 Amazon Redshift 集群的最大表数。

    对于目标 Amazon Redshift 集群的最大表数,请选择 AWS SCT 可以应用于您的 Amazon Redshift 集群的表数量。

    Amazon Redshift 具有限制了不同集群节点类型使用表数的配额。如果您选择 “自动”,则根据节点类型 AWS SCT 确定要应用于目标 Amazon Redshift 集群的表数量。或者,手动选择值。有关更多信息,请参阅《Amazon Redshift 管理指南》中的 Amazon Redshift 中的配额和限制

    AWS SCT 转换您的所有源表,即使这超过了您的 Amazon Redshift 集群所能存储的容量。 AWS SCT 将转换后的代码存储在您的项目中,并且不会将其应用于目标数据库。如果应用转换后的代码时达到了 Amazon Redshift 集群的表配额,则 AWS SCT 会显示一条警告消息。此外,还要 AWS SCT 将表应用于您的目标 Amazon Redshift 集群,直到表的数量达到上限。

  • 在 Amazon Redshift 中将源表的分区迁移到单独的表。为此,请选择 “使用UNIONALL视图”,然后输入 AWS SCT 可以为单个源表创建的最大目标表数。

    Amazon Redshift 不支持表分区。要模拟此行为并加快查询运行速度, AWS SCT 可以将源表的每个分区迁移到 Amazon Redshift 中的单独表中。然后, AWS SCT 创建一个包含所有这些表中的数据的视图。

    AWS SCT 自动确定源表中的分区数量。根据源表分区的类型,此数量可能会超过您可以应用于 Amazon Redshift 集群的表配额。为避免达到此配额,请输入 AWS SCT 可以为单个源表的分区创建的最大目标表数。默认选项为 368 个表,它表示一年中 366 天的分区和以及 NO RANGEUNKNOWN 分区的两个表。

  • 将数据类型格式化函数(例如 TO_CHARTO_DATETO_NUMBER)与 Amazon Redshift 不支持的日期时间格式元素进行转换。默认情况下, AWS SCT 使用扩展包函数来模拟转换后的代码中这些不支持的格式元素的用法。

    与 Amazon Redshift 中的日期时间格式字符串相比,Oracle 中的日期时间格式模型包含更多元素。如果源代码仅包含 Amazon Redshift 支持的日期时间格式元素,则无需在转换后的代码中使用扩展包函数。为避免在转换后的代码中使用扩展包函数,请选择 Oracle 代码中使用的日期类型格式元素与 Amazon Redshift 中的日期时间格式字符串相似。在这种情况下,转换后的代码运行更快。

    与 Amazon Redshift 中的数字格式字符串相比,Oracle 中的数字格式模型包含更多的元素。如果源代码仅包含 Amazon Redshift 支持的数字格式元素,则无需在转换后的代码中使用扩展包函数。为避免在转换后的代码中使用扩展包函数,请选择 Oracle 代码中使用的数字格式元素与 Amazon Redshift 中的数字格式字符串相似。在这种情况下,转换后的代码运行更快。

  • 转换 Oracle LEADLAG 分析函数。默认情况下, AWS SCT 会为每个 LEADLAG 函数引发一个操作项。

    当源代码在这些函数中不使用默认偏移值时, AWS SCT 可以使用 NVL 函数模拟这些函数的用法。为此,请选择使用NVL函数模拟 Oracle LEAD 和LAG函数的行为

  • 要模拟 Amazon Redshift 集群中主键和唯一键的行为,请选择模拟主键和唯一键的行为

    Amazon Redshift 不强制使用唯一键和主键,它们仅用于提供信息。如果您在代码中使用这些约束,请确保在转换后的代码中 AWS SCT 模拟它们的行为。

  • 对 Amazon Redshift 表列应用压缩。为此,请选择使用压缩编码

    AWS SCT 使用默认 Amazon Redshift 算法自动为列分配压缩编码。有关更多信息,请参阅《Amazon Redshift 数据库开发人员指南》中的压缩编码

    默认情况下,Amazon Redshift 不对定义为排序键和分配键的列应用压缩。您可以更改此行为并对这些列进行压缩。为此,请选择 “对KEY列使用压缩编码”。只有选择使用压缩编码选项时,才能选择此选项。

Oracle 数据仓库到 Amazon Redshift 的转换优化设置

要编辑 Oracle Data Warehoushift 到 Amazon Redshift 的转化优化设置 AWS SCT,请选择中的设置,然后选择转换设置。从上面的列表中选择 Oracle,然后选择 Oracle – Amazon Redshift。在左侧窗格中,选择优化策略。 AWS SCT 显示 Oracle 数据仓库到 Amazon Redshift 转换的转换优化设置。

中的 Oracle 数据仓库到 Amazon Redshift 的转换优化设置 AWS SCT 包括以下选项:

  • 使用自动表优化。为此,请选择使用 Amazon Redshift 自动调整表格

    自动表优化是 Amazon Redshift 中的一种自我调整过程,可自动优化表的设计。有关更多信息,请参阅《Amazon Redshift 数据库开发人员指南》中的使用自动表优化

    要仅使用自动表优化,请在初始键选择策略中选择

  • 使用策略选择排序键和分配键。

    您可以使用 Amazon Redshift 元数据、统计信息或这两个选项选择排序键和分配键。对于优化策略选项卡上的初始键选择策略,请选择以下选项之一:

    • 使用元数据,忽略统计信息

    • 忽略元数据,使用统计信息

    • 使用元数据和统计信息

    根据您选择的选项,您可以选择优化策略。然后,请为每种策略输入值(0–100)。这些值定义了每种策略的权重。 AWS SCT 使用这些权重值定义每条规则如何影响分布键和排序键的选择。默认值基于 AWS 迁移最佳实践。

    您可以为查找小型表策略定义小型表的大小。在 “最小表格行数” 和 “最大表格行数” 中,输入表格中最小和最大行数以将其定义为小表。 AWS SCT 将ALL分配方式应用于小表。在这种情况下,向每个节点分配整个表的副本。

  • 配置策略详细信息。

    除了定义每种优化策略的权重外,您还可以配置优化设置。为此,请选择转换优化

    • 对于排序键列数限制,在排序键中输入最大列数。

    • 倾斜阈值中,输入列偏斜值的百分比 (0—100)。 AWS SCT 从分布键的候选列表中排除倾斜值大于阈值的列。 AWS SCT 将列的偏斜值定义为最常见值的出现次数与记录总数的百分比比率。

    • 对于查询历史表中的前 N 个查询,请输入要分析的最常用查询的数量(1–100)。

    • 选择统计数据用户中,选择要分析查询统计数据的数据库用户。

    此外,在优化策略选项卡上,您可以为查找小型表策略定义小型表的大小。在 “最小表格行数” 和 “最大表格行数” 中,输入表格中最小和最大行数,将其视为一个小表。 AWS SCT 将ALL分配方式应用于小表。在这种情况下,向每个节点分配整个表的副本。