列统计数据 API - AWS Glue

列统计数据 API

列统计数据 API 介绍了用于返回表中各列统计数据的 AWS Glue API。

数据类型

ColumnStatisticsTaskRun 结构

显示列统计数据运行详细信息的对象。

字段
  • CustomerId – UTF-8 字符串,长度不超过 12 个字节。

    AWS 账户 ID。

  • ColumnStatisticsTaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    特定列统计数据任务运行的标识符。

  • DatabaseName – UTF-8 字符串。

    表所在的数据库。

  • TableName – UTF-8 字符串。

    生成列统计数据的表的名称。

  • ColumnNameList – UTF-8 字符串数组。

    列名称的列表。如果不提供此参数,则默认情况下将使用表的所有列名。

  • CatalogID – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 AWS 账户 ID。

  • Role – UTF-8 字符串。

    服务为了生成统计数据而代入的 IAM 角色。

  • SampleSize – 数值(双精度),不超过 100。

    用于生成统计数据的行百分比。如果不提供此参数,则将用整个表来生成统计数据。

  • SecurityConfiguration – UTF-8 字符串,长度不超过 128 个字节。

    用于为列统计数据任务运行的 CloudWatch 日志加密的安全配置的名称。

  • NumberOfWorkers - 数字(整数),至少为 1。

    生成列统计数据的 Worker 线程数。此作业已预先配置为可自动扩展至不超过 25 个实例。

  • WorkerType – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于生成统计数据的 Worker 线程类型。默认为 g.1x

  • ComputationType – UTF-8 字符串(有效值:FULL | INCREMENTAL)。

    列统计数据计算的类型。

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | SUCCEEDED | FAILED | STOPPED)。

    任务运行的状态。

  • CreationTime – 时间戳。

    此任务的创建时间。

  • LastUpdated – 时间戳。

    上次修改此任务的时间点。

  • StartTime – 时间戳。

    任务的开始时间。

  • EndTime – 时间戳。

    任务的结束时间。

  • ErrorMessage – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    作业的错误消息。

  • DPUSeconds – 数字(双数),至多为“无”。

    所有自动扩展的 Worker 线程的计算 DPU 使用量(以秒为单位)。

ColumnStatisticsTaskSettings 结构

列统计数据任务的设置。

字段
  • DatabaseName – UTF-8 字符串。

    表所在的数据库的名称。

  • TableName – UTF-8 字符串。

    要生成列统计数据的表的名称。

  • Schedule – 一个 计划 对象。

    运行列统计数据的计划,以 CRON 语法指定。

  • ColumnNameList – UTF-8 字符串数组。

    要运行统计数据的列名称的列表。

  • CatalogID – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据库所在的数据目录的 ID。

  • Role – UTF-8 字符串。

    用于运行列统计数据的角色。

  • SampleSize – 数值(双精度),不超过 100。

    要采样的数据的百分比。

  • SecurityConfiguration – UTF-8 字符串,长度不超过 128 个字节。

    用于加密 CloudWatch 日志的安全配置的名称。

  • ScheduleType – UTF-8 字符串(有效值:CRON | AUTO)。

    列统计数据任务的计划类型。可能的值可能为 CRONAUTO

  • SettingSource – UTF-8 字符串(有效值:CATALOG | TABLE)。

    列统计数据任务的设置来源。可能的值可能为 CATALOGTABLE

  • LastExecutionAttempt – 一个 ExecutionAttempt 对象。

    列统计数据任务运行的最后一个 ExecutionAttempt

ExecutionAttempt 结构

列统计数据任务运行的运行尝试。

字段
  • Status – UTF-8 字符串(有效值:FAILED | STARTED)。

    最后一个列统计数据任务运行的状态。

  • ColumnStatisticsTaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    最后一个列统计数据任务运行的任务运行 ID。

  • ExecutionTimestamp – 时间戳。

    最后一个列统计数据任务运行发生的时间戳。

  • ErrorMessage – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    与最后一个列统计数据任务运行关联的错误消息。

操作

StartColumnStatisticsTaskRun 操作(Python:start_column_statistics_task_run)

为指定的表和列启动列统计数据任务运行。

请求
  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要生成统计数据的表的名称。

  • ColumnNameList – UTF-8 字符串数组。

    生成统计数据的列名列表。如果不提供此参数,则默认情况下将使用表的所有列名。

  • Role必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    服务为了生成统计数据而代入的 IAM 角色。

  • SampleSize – 数值(双精度),不超过 100。

    用于生成统计数据的行百分比。如果不提供此参数,则将用整个表来生成统计数据。

  • CatalogID – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 AWS 账户 ID。

  • SecurityConfiguration – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于为列统计数据任务运行的 CloudWatch 日志加密的安全配置的名称。

响应
  • ColumnStatisticsTaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    列统计数据任务运行的标识符。

错误
  • AccessDeniedException

  • EntityNotFoundException

  • ColumnStatisticsTaskRunningException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InvalidInputException

GetColumnStatisticsTaskRun 操作(Python:get_column_statistics_task_run)

在已知任务运行 ID 的情况下,获取任务运行的相关元数据/信息。

请求
  • ColumnStatisticsTaskRunId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    特定列统计数据任务运行的标识符。

响应
  • ColumnStatisticsTaskRun – 一个 ColumnStatisticsTaskRun 对象。

    表示列统计数据运行详细信息的 ColumnStatisticsTaskRun 对象。

错误
  • EntityNotFoundException

  • OperationTimeoutException

  • InvalidInputException

GetColumnStatisticsTaskRuns 操作(Python:get_column_statistics_task_runs)

检索与指定表关联的所有运行的信息。

请求
  • DatabaseName必填:UTF-8 字符串。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表的名称。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    响应的最大大小。

  • NextToken – UTF-8 字符串。

    延续标记 (如果这是延续调用)。

响应
  • ColumnStatisticsTaskRunsColumnStatisticsTaskRun 对象的数组。

    列统计数据任务运行列表。

  • NextToken – UTF-8 字符串。

    延续令牌(如果尚未返回所有任务运行)。

错误
  • OperationTimeoutException

ListColumnStatisticsTaskRuns 操作(Python:list_column_statistics_task_runs)

列出特定账户的所有任务运行。

请求
  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    响应的最大大小。

  • NextToken – UTF-8 字符串。

    延续标记 (如果这是延续调用)。

响应
  • ColumnStatisticsTaskRunIds – UTF-8 字符串数组,不超过 100 个字符串。

    列统计数据任务运行 ID 列表。

  • NextToken – UTF-8 字符串。

    延续令牌(如果尚未返回所有任务运行 ID)。

错误
  • OperationTimeoutException

StopColumnStatisticsTaskRun 操作(Python:stop_column_statistics_task_run)

停止指定表的任务运行。

请求
  • DatabaseName必填:UTF-8 字符串。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • ColumnStatisticsTaskNotRunningException

  • ColumnStatisticsTaskStoppingException

  • OperationTimeoutException

CreateColumnStatisticsTaskSettings 操作(Python:create_column_statistics_task_settings)

为列统计数据任务创建设置。

请求
  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要生成列统计数据的表的名称。

  • Role必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于运行列统计数据的角色。

  • Schedule – UTF-8 字符串。

    运行列统计数据的计划,以 CRON 语法指定。

  • ColumnNameList – UTF-8 字符串数组。

    要运行统计数据的列名称的列表。

  • SampleSize – 数值(双精度),不超过 100。

    要采样的数据的百分比。

  • CatalogID – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据库所在的数据目录的 ID。

  • SecurityConfiguration – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于加密 CloudWatch 日志的安全配置的名称。

  • Tags – 键值对的映射数组,不超过 50 对。

    每个键都是一个 UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    每个值是一个 UTF-8 字符串,不超过 256 个字节。

    标签的映射。

响应
  • 无响应参数。

错误
  • AlreadyExistsException

  • AccessDeniedException

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ColumnStatisticsTaskRunningException

UpdateColumnStatisticsTaskSettings 操作(Python:update_column_statistics_task_settings)

更新列统计数据任务的设置。

请求
  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要生成列统计数据的表的名称。

  • Role – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于运行列统计数据的角色。

  • Schedule – UTF-8 字符串。

    运行列统计数据的计划,以 CRON 语法指定。

  • ColumnNameList – UTF-8 字符串数组。

    要运行统计数据的列名称的列表。

  • SampleSize – 数值(双精度),不超过 100。

    要采样的数据的百分比。

  • CatalogID – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据库所在的数据目录的 ID。

  • SecurityConfiguration – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于加密 CloudWatch 日志的安全配置的名称。

响应
  • 无响应参数。

错误
  • AccessDeniedException

  • EntityNotFoundException

  • InvalidInputException

  • VersionMismatchException

  • OperationTimeoutException

GetColumnStatisticsTaskSettings 操作(Python:get_column_statistics_task_settings)

获取列统计数据任务的设置。

请求
  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要检索列统计数据的表的名称。

响应
  • ColumnStatisticsTaskSettings – 一个 ColumnStatisticsTaskSettings 对象。

    表示列统计数据任务的设置的 ColumnStatisticsTaskSettings 对象。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

DeleteColumnStatisticsTaskSettings 操作(Python:delete_column_statistics_task_settings)

删除列统计数据任务的设置。

请求
  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要删除列统计数据的表的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

StartColumnStatisticsTaskRunSchedule 操作(Python:start_column_statistics_task_run_schedule)

启动列统计数据任务运行计划。

请求
  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要启动列统计数据任务运行计划的表的名称。

响应
  • 无响应参数。

错误
  • AccessDeniedException

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

StopColumnStatisticsTaskRunSchedule 操作(Python:stop_column_statistics_task_run_schedule)

停止列统计数据任务运行计划。

请求
  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要停止列统计数据任务运行计划的表的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

异常

ColumnStatisticsTaskRunningException 结构

在运行列统计数据生成作业时尝试启动其他作业引发的异常。

字段
  • Message – UTF-8 字符串。

    描述问题的消息。

ColumnStatisticsTaskNotRunningException 结构

在没有任务运行时尝试停止任务运行引发的异常。

字段
  • Message – UTF-8 字符串。

    描述问题的消息。

ColumnStatisticsTaskStoppingException 结构

在尝试停止任务运行引发的异常。

字段
  • Message – UTF-8 字符串。

    描述问题的消息。

ColumnStatisticsTaskAutoConcurrencyLimitException 结构

当您已经达到并发自动统计数据作业的限制时引发异常。

字段
  • Message – UTF-8 字符串。

    描述问题的消息。

InvalidCatalogSettingException 结构

当目录设置有问题时引发异常。

字段
  • Message – UTF-8 字符串。

    描述问题的消息。