クローラー API
クローラー API では、AWS Glue クローラーのデータ型と、クローラーを作成、削除、更新、および一覧表示するための API について説明します。
データ型
Crawler 構造
データソースを検査し、分類子を使用してスキーマを判別しようとするクローラープログラムを指定します。成功すると、クローラーはデータソースに関するメタデータを AWS Glue Data Catalog に記録します。
[フィールド]
-
Name
– UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。クローラー名。
-
Role
– UTF-8 文字列。Amazon Simple Storage Service (Amazon S3) データなどの顧客リソースへのアクセスに使用される IAM ロールの Amazon リソースネーム (ARN)。
-
Targets
– CrawlerTargets オブジェクト。クロールするターゲットのコレクション。
-
DatabaseName
– UTF-8 文字列。クローラーの出力が保存されている場所のデータベース名。
-
Description
– 説明文字列。2,048 バイト長以下。URI address multi-line string pattern に一致。クローラーの説明。
-
Classifiers
– UTF-8 文字列の配列。クローラーに関連付けられたカスタム分類子を指定する UTF-8 文字列のリスト。
-
RecrawlPolicy
– RecrawlPolicy オブジェクト。データセット全体を再度クロールするか、前回のクローラー実行以降に追加されたフォルダのみをクロールするかを指定するポリシー。
-
SchemaChangePolicy
– SchemaChangePolicy オブジェクト。クローラーの更新と削除の動作を指定するポリシー。
-
LineageConfiguration
– LineageConfiguration オブジェクト。クローラーに対してデータ系統を有効にするかどうかを指定する設定。
-
State
– UTF-8 文字列 (有効な値:READY
|RUNNING
|STOPPING
)。クローラーが実行中かどうか、あるいは実行が保留中かどうかを示します。
-
TablePrefix
- UTF-8 文字列。128 バイト長以下。作成されたテーブルの名前に追加されるプレフィックス。
-
Schedule
– スケジュール オブジェクト。スケジュールされたクローラーの場合、クローラーが実行されるスケジュール。
-
CrawlElapsedTime
– 数値 (long)。クローラーが実行されている場合は、最後のクロールが開始されてから経過した合計時間が含まれます。
-
CreationTime
– タイムスタンプ。クローラーが作成された時刻。
-
LastUpdated
– タイムスタンプ。クローラーが最後に更新された時刻。
-
LastCrawl
– LastCrawlInfo オブジェクト。最後のクロールのステータス、およびエラーが発生した場合はエラー情報。
-
Version
– 数値 (long)。クローラーのバージョン。
-
Configuration
– UTF-8 文字列。クローラーの構成情報。このバージョン付きの JSON 文字列では、クローラーの動作特性を指定できます。詳細については、「クローラー設定オプションの設定」を参照してください。
-
CrawlerSecurityConfiguration
- UTF-8 文字列。128 バイト長以下。このクローラーで使用される
SecurityConfiguration
構造の名前。 -
LakeFormationConfiguration
– LakeFormationConfiguration オブジェクト。クローラーが IAM ロールの認証情報の代わりに AWS Lake Formation の認証情報を使用すべきかどうかを指定します。
Schedule 構造
cron
ステートメントを使用してイベントをスケジュールするスケジューリングオブジェクト。
[フィールド]
-
ScheduleExpression
– UTF-8 文字列。スケジュールを指定するために使用される
cron
式 (ジョブとクローラーの時間ベースのスケジュールを参照してください。) たとえば、毎日 12:15 UTC に何かを実行するには、cron(15 12 * * ? *)
を指定します。 -
State
– UTF-8 文字列 (有効な値:SCHEDULED
|NOT_SCHEDULED
|TRANSITIONING
)。スケジュールの状態。
CrawlerTargets 構造
クロールするデータストアを指定します。
[フィールド]
-
S3Targets
– S3Target オブジェクトの配列。Amazon Simple Storage Service (Amazon S3) のターゲットを指定します。
-
JdbcTargets
– JdbcTarget オブジェクトの配列。JDBC ターゲットを指定します。
-
MongoDBTargets
– MongoDBTarget オブジェクトの配列。Amazon DocumentDB または MongoDB のターゲットを指定します。
-
DynamoDBTargets
– DynamoDBTarget オブジェクトの配列。Amazon DynamoDB のターゲットを指定します。
-
CatalogTargets
– CatalogTarget オブジェクトの配列。AWS Glue Data Catalog ターゲットを指定します。
-
DeltaTargets
– DeltaTarget オブジェクトの配列。Delta データストアのターゲットを指定します。
-
IcebergTargets
– IcebergTarget オブジェクトの配列。Apache Iceberg データストアのターゲットを指定します。
-
HudiTargets
– HudiTarget オブジェクトの配列。Apache Hudi データストアのターゲットを指定します。
S3Target 構造
Amazon Simple Storage Service (Amazon S3) のデータストアを指定します。
[フィールド]
-
Path
– UTF-8 文字列。Simple Storage Service (Amazon S3) ターゲットへのパス。
-
Exclusions
– UTF-8 文字列の配列。クロールから除外するために使用される glob パターンのリスト。詳細については、「クローラーを使用したカタログテーブル」を参照してください。
-
ConnectionName
– UTF-8 文字列。1~2048 バイト長。ジョブまたはクローラーが Amazon Virtual Private Cloud 環境 (Amazon VPC) 内の Amazon S3 のデータにアクセスすることを可能にする接続の名前。
-
SampleSize
– 数値 (整数)。データセット内のサンプルファイルをクロールするときにクロールされる各リーフフォルダ内のファイル数を設定します。設定されていない場合、すべてのファイルがクロールされます。有効な値は、1 から 249 までの整数です。
-
EventQueueArn
– UTF-8 文字列。有効な Amazon SQS の ARN。例えば、
arn:aws:sqs:region:account:sqs
と指定します。 -
DlqEventQueueArn
– UTF-8 文字列。有効な Amazon デッドレター SQS ARN。例えば、
arn:aws:sqs:region:account:deadLetterQueue
と指定します。
S3DeltaCatalogTarget 構造
AWS Glue データカタログ内の Delta Lake データソースに書き込むターゲットを指定します。
[フィールド]
-
Name
– 必須: UTF-8 文字列。Custom string pattern #61 に一致。データターゲットの名前。
-
Inputs
– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys
– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Table
– 必須: UTF-8 文字列。Custom string pattern #59 に一致。書き込むデータベーステーブルの名前。
-
Database
– 必須: UTF-8 文字列。Custom string pattern #59 に一致。書き込むデータベースの名前。
-
AdditionalOptions
– キーバリューペアのマップ配列。各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。
各値は、Custom string pattern #59 に適合する UTF-8 文字列です。
コネクタの追加接続オプションを指定します。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
S3DeltaDirectTarget 構造
Amazon S3 内の Delta Lake データソースに書き込むターゲットを指定します。
[フィールド]
-
Name
– 必須: UTF-8 文字列。Custom string pattern #61 に一致。データターゲットの名前。
-
Inputs
– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys
– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Path
– 必須: UTF-8 文字列。Custom string pattern #59 に一致。書き込み先の Delta Lake データソースの Amazon S3 パス。
-
Compression
– 必須: UTF-8 文字列 (有効な値:uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
)。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"
および"bzip"
です。 -
Format
– 必須: UTF-8 文字列 (有効な値:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
)。ターゲットのデータ出力形式を指定します。
-
AdditionalOptions
– キーバリューペアのマップ配列。各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。
各値は、Custom string pattern #59 に適合する UTF-8 文字列です。
コネクタの追加接続オプションを指定します。
-
SchemaChangePolicy
– DirectSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
JdbcTarget 構造
クロールする JDBC データストアを指定します。
[フィールド]
-
ConnectionName
– UTF-8 文字列。1~2,048 バイト長。JDBC ターゲットに接続するために使用する接続名。
-
Path
– UTF-8 文字列。JDBC ターゲットのパス。
-
Exclusions
– UTF-8 文字列の配列。クロールから除外するために使用される glob パターンのリスト。詳細については、「クローラーを使用したカタログテーブル」を参照してください。
-
EnableAdditionalMetadata
– UTF-8 文字列の配列。RAWTYPES
またはCOMMENTS
の値を指定して、テーブルのレスポンスでその他のメタデータを有効にできます。RAWTYPES
はネイティブレベルのデータ型、COMMENTS
はデータベース内の列またはテーブルに関連するコメントを提供します。その他のメタデータが必要ない場合は、フィールドを空白のままにしてください。
MongoDBTarget 構造
クロールする Amazon DocumentDB または MongoDB データストアを指定します。
[フィールド]
-
ConnectionName
– UTF-8 文字列。1~2,048 バイト長。Amazon DocumentDB または MongoDB ターゲットに接続するために使用する接続名。
-
Path
– UTF-8 文字列。Amazon DocumentDB または MongoDB ターゲット (データベース/コレクション) のパス。
-
ScanAll
– ブール。すべてのレコードをスキャンするか、テーブルから行をサンプリングするかを示します。テーブルが高スループットテーブルではない場合、すべてのレコードのスキャンには時間がかかることがあります。
true
値はすべてのレコードをスキャンすることを意味し、false
値はレコードをサンプリングすることを意味します。値を指定しないと、true
値にデフォルト設定されます。
DynamoDBTarget 構造
クロールする Amazon DynamoDB テーブルを指定します。
[フィールド]
-
Path
– UTF-8 文字列。クロールする DynamoDB テーブルの名前。
-
scanAll
– ブール。すべてのレコードをスキャンするか、テーブルから行をサンプリングするかを示します。テーブルが高スループットテーブルではない場合、すべてのレコードのスキャンには時間がかかることがあります。
true
値はすべてのレコードをスキャンすることを意味し、false
値はレコードをサンプリングすることを意味します。値を指定しないと、true
値にデフォルト設定されます。 -
scanRate
– 数値 (double)。AWS Glue クローラーで使用する設定済み読み取りキャパシティーユニットの割合を指定します。読み取りキャパシティーユニットは、DynamoDB で定義されている用語で、テーブルに対して実行できる読み取り回数/秒のレート制限として機能する数値です。
有効な値は NULL または 0.1~1.5 の値です。NULL 値は、ユーザーが値を指定しない場合に使用され、設定済み読み取りキャパシティーユニットでは 0.5 (プロビジョニングされたテーブルの場合)、は最大の設定済み読み取りキャパシティーユニットの場合は 0.25 (オンデマンドモードを使用するテーブルの場合) にデフォルト設定されます。
DeltaTarget 構造
1 つ以上の Delta テーブルをクロールする Delta データストアを指定します。
[フィールド]
-
DeltaTables
– UTF-8 文字列の配列。Delta テーブルへの Simple Storage Service (Amazon S3) パスのリスト。
-
ConnectionName
– UTF-8 文字列。1~2,048 バイト長。Delta テーブルターゲットに接続するために使用する接続の名前。
-
WriteManifest
– ブール。マニフェストファイルを Delta テーブルパスに書き込むかどうかを指定します。
-
CreateNativeDeltaTable
– ブール。クローラーがネイティブテーブルを作成するかどうかを指定します。これにより、Delta トランザクションログの直接クエリをサポートするクエリエンジンとの統合が可能になります。
IcebergTarget 構造
Amazon S3 内の Iceberg テーブルが格納されている Apache Iceberg データソースを指定します。
[フィールド]
-
Paths
– UTF-8 文字列の配列。s3://bucket/prefix
のように、Iceberg メタデータフォルダを含む 1 つ以上の Amazon S3 パス。 -
ConnectionName
– UTF-8 文字列。1~2,048 バイト長。Iceberg ターゲットに接続するために使用する接続の名前。
-
Exclusions
– UTF-8 文字列の配列。クロールから除外するために使用される glob パターンのリスト。詳細については、「クローラーを使用したカタログテーブル」を参照してください。
-
MaximumTraversalDepth
– 数値 (整数)。クローラーが Amazon S3 パス内の Iceberg メタデータフォルダを発見するために横断できる Amazon S3 パスの最大深度。クローラーの実行時間を制限するために使用されます。
HudiTarget 構造
Apache Hudi データソースを指定します。
[フィールド]
-
Paths
– UTF-8 文字列の配列。Hudi の Amazon S3 場所文字列の配列。それぞれに Hudi テーブルのメタデータファイルが存在するルートフォルダを示します。Hudi フォルダは、ルートフォルダの子フォルダ内に存在する場合があります。
クローラーは、Hudi フォルダのパス以下にあるすべてのフォルダをスキャンします。
-
ConnectionName
– UTF-8 文字列。1~2,048 バイト長。Hudi ターゲットに接続するために使用する接続の名前。Hudi ファイルが VPC 認可を必要とするバケットに格納されている場合、ここで接続プロパティを設定できます。
-
Exclusions
– UTF-8 文字列の配列。クロールから除外するために使用される glob パターンのリスト。詳細については、「クローラーを使用したカタログテーブル」を参照してください。
-
MaximumTraversalDepth
– 数値 (整数)。クローラーが Amazon S3 パス内の Hudi メタデータフォルダを発見するために横断できる Amazon S3 パスの最大深度。クローラーの実行時間を制限するために使用されます。
CatalogTarget 構造
AWS Glue Data Catalog ターゲットを指定します。
[フィールド]
-
DatabaseName
– 必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。同期するデータベースの名前。
-
Tables
– 必須: UTF-8 文字列の配列。1 個の以上の文字列。同期するテーブルのリスト。
-
ConnectionName
– UTF-8 文字列、1~2,048 バイト長。NETWORK
接続タイプとペアになっているCatalog
接続タイプを使用するときにクロールのターゲットとなる Amazon S3-backed データカタログテーブルの接続の名前。 -
EventQueueArn
– UTF-8 文字列。有効な Amazon SQS の ARN。例えば、
arn:aws:sqs:region:account:sqs
と指定します。 -
DlqEventQueueArn
– UTF-8 文字列。有効な Amazon デッドレター SQS ARN。例えば、
arn:aws:sqs:region:account:deadLetterQueue
と指定します。
CrawlerMetrics 構造
指定されたクローラーのメトリクス。
[フィールド]
-
CrawlerName
– UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。クローラー名。
-
TimeLeftSeconds
– 数値 (double)。None 以下。実行中のクロールを完了までの予測時間。
-
StillEstimating
– ブール。クローラーがこの実行を完了するのにどれくらいの時間がかかるかをまだ見積もっている場合は true です。
-
LastRuntimeSeconds
– 数値 (double)。None 以下。クローラーの最新の実行にかかる時間 (秒単位)。
-
MedianRuntimeSeconds
– 数値 (double)。None 以下。このクローラーの実行時間の中央値 (秒単位)。
-
TablesCreated
– 数値 (整数)、None 以下。このクローラーで作成されたテーブルの数。
-
TablesUpdated
– 数値 (整数)、None 以下。このクローラーで更新されたテーブルの数。
-
TablesDeleted
– 数値 (整数)、None 以下。このクローラーで削除されたテーブルの数。
CrawlerHistory 構造
クローラーの実行に関する情報が含まれます。
[フィールド]
-
CrawlId
– UTF-8 文字列。各クロールの UUID 識別子。
-
State
– UTF-8 文字列 (有効な値:RUNNING
|COMPLETED
|FAILED
|STOPPED
)。クロールの状態。
-
StartTime
– タイムスタンプ。クロールが開始された日時。
-
EndTime
– タイムスタンプ。クロールが終了された日時。
-
Summary
– UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。特定のクロールに関する JSON 形式の実行サマリー。追加、更新、または削除されたカタログテーブルとパーティションが含まれます。
-
ErrorMessage
– 説明文字列。2,048 バイト長以下。URI address multi-line string pattern に一致。エラーが発生した場合は、クロールに関連付けられたエラーメッセージ。
-
LogGroup
– UTF-8 文字列。1 ~ 512 バイト長。Log group string pattern に一致。クロールに関連付けられたロググループ。
-
LogStream
– UTF-8 文字列。1 ~ 512 バイト長。Log-stream string pattern に一致。クロールに関連付けられたログストリーム。
-
MessagePrefix
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。このクロールに関する CloudWatch メッセージのプレフィックス。
-
DPUHour
– 数値 (double)。None 以下。クロールに使用されるデータ処理単位 (DPU) の数 (時間単位)。
CrawlsFilter 構造
指定されたクローラーのクローラー実行をフィルタリングするために使用できるフィールド、コンパレータ、および値のリスト。
フィールド
-
FieldName
– UTF-8 文字列 (有効な値:CRAWL_ID
|STATE
|START_TIME
|END_TIME
|DPU_HOUR
)。指定されたクローラーに対するクローラーの実行をフィルタリングするために使用されるキー。各フィールド名に有効な値は次のとおりです。
-
CRAWL_ID
: クロールの UUID 識別子を表す文字列。 -
STATE
: クロールの状態を表す文字列。 -
START_TIME
およびEND_TIME
: epoch タイムスタンプ (ミリ秒単位)。 -
DPU_HOUR
: クロールに使用されるデータ処理単位 (DPU) の数 (時間単位)。
-
-
FilterOperator
- UTF-8 文字列 (有効値:GT
|GE
|LT
|LE
|EQ
|NE
).。値を操作する定義済みのコンパレータ。利用できる演算子は次のとおりです。
-
GT
: より大きい。 -
GE
: 以上。 -
LT
: より小さい。 -
LE
: 以下。 -
EQ
: 等しい。 -
NE
: 等しくない。
-
-
FieldValue
– UTF-8 文字列。クロールフィールドでの比較のために提供される値。
SchemaChangePolicy 構造
クローラーの更新と削除の動作を指定するポリシー。
[フィールド]
-
UpdateBehavior
– UTF-8 文字列 (有効な値:LOG
|UPDATE_IN_DATABASE
)。クローラーが変更されたスキーマを検出したときの更新動作。
-
DeleteBehavior
– UTF-8 文字列 (有効な値:LOG
|DELETE_FROM_DATABASE
|DEPRECATE_IN_DATABASE
)。クローラーが削除されたオブジェクトを検出したときの削除動作。
LastCrawlInfo 構造
最新のクロールについてのステータスとエラー情報。
[フィールド]
-
Status
– UTF-8 文字列 (有効な値:SUCCEEDED
|CANCELLED
|FAILED
)。最後のクロールのステータス。
-
ErrorMessage
– 説明文字列、2,048 バイト長以下、URI address multi-line string pattern に一致。エラーが発生した場合、最後のクロールに関するエラー情報。
-
LogGroup
– UTF-8 文字列。1 ~ 512 バイト長。Log group string pattern に一致。最後のクロールのロググループ。
-
LogStream
– UTF-8 文字列。1 ~ 512 バイト長。Log-stream string pattern に一致。最後のクロールのログストリーム。
-
MessagePrefix
– UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。このクロールについてのメッセージのプレフィックス。
-
StartTime
– タイムスタンプ。クロールが開始された時刻。
RecrawlPolicy 構造
最初のクロールの完了後に Amazon S3 データソースをクロールするときに、データセット全体を再度クロールするか、前回のクローラーの実行以降に追加されたフォルダのみをクロールするかを指定します。詳細については、デベロッパーガイドの「AWS Glue の増分クロール」を参照してください。
[フィールド]
-
RecrawlBehavior
– UTF-8 文字列 (有効な値:CRAWL_EVERYTHING
|CRAWL_NEW_FOLDERS_ONLY
|CRAWL_EVENT_MODE
)。データセット全体を再度クロールするか、前回のクローラーの実行以降に追加されたフォルダのみをクロールするかを指定します。
CRAWL_EVERYTHING
という値は、データセット全体を再度クロールすることを指定します。CRAWL_NEW_FOLDERS_ONLY
という値は、前回のクローラー実行後に追加されたフォルダのみをクロールすることを指定します。CRAWL_EVENT_MODE
の値は Simple Storage Service (Amazon S3) イベントによって識別される変更のみをクロールするように指定します。
LineageConfiguration 構造
クローラーのデータ系統設定を指定します。
[フィールド]
-
CrawlerLineageSettings
– UTF-8 文字列 (有効な値:ENABLE
|DISABLE
)。クローラーに対してデータ系統を有効にするかどうかを指定します。有効な値は次のとおりです。
-
ENABLE: クローラーのデータ系統を有効にします。
-
DISABLE:クローラーのデータ系統を無効にします。
-
LakeFormationConfiguration 構造
クローラーの AWS Lake Formation 構成設定を指定します。
[フィールド]
-
UseLakeFormationCredentials
– ブール。IAM ロールの認証情報の代わりに AWS Lake Formation の認証情報を使用するかどうかを指定します。
-
AccountId
- UTF-8 文字列。12 バイト長以下。クロスアカウントクロールに必要です。ターゲットデータと同じアカウントのクロールでは、null のままにすることができます。
操作
CreateCrawler アクション (Python: create_crawler)
指定されたターゲット、ロール、設定、およびオプションのスケジュールを使用して、新しいクローラーを作成します。s3Targets
、jdbcTargets
、またはDynamoDBTargets
フィールドで、少なくとも 1 つ以上のクロールを指定する必要があります。
リクエスト
-
Name
– 必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。新しいクローラーの名前。
-
Role
– 必須: UTF-8 文字列。新しいクローラーが顧客リソースにアクセスするために使用する IAM ロール、または IAM ロールの Amazon リソースネーム (ARN)。
-
DatabaseName
– UTF-8 文字列。arn:aws:daylight:us-east-1::database/sometable/*
など、結果が書き込まれる AWS Glue データベース。 -
Description
– 説明文字列。2,048 バイト長以下。URI address multi-line string pattern に一致。新しいクローラーの説明。
-
Targets
– 必須: CrawlerTargets オブジェクト。クロールするターゲットのコレクションのリスト。
-
Schedule
– UTF-8 文字列。スケジュールを指定するために使用される
cron
式 (ジョブとクローラーの時間ベースのスケジュールを参照してください。) たとえば、毎日 12:15 UTC に何かを実行するには、cron(15 12 * * ? *)
を指定します。 -
Classifiers
– UTF-8 文字列の配列。ユーザーが登録したカスタム分類子のリスト。デフォルトでは、すべての組み込みの分類子がクロールに含まれますが、これらのカスタム分類子によって常に分類別のデフォルトの分類子が上書きされます。
-
TablePrefix
- UTF-8 文字列。128 バイト長以下。作成されたカタログテーブルに使用されるテーブルプレフィックス。
-
SchemaChangePolicy
– SchemaChangePolicy オブジェクト。クローラーの更新と削除動作のためのポリシー。
-
RecrawlPolicy
– RecrawlPolicy オブジェクト。データセット全体を再度クロールするか、前回のクローラー実行以降に追加されたフォルダのみをクロールするかを指定するポリシー。
-
LineageConfiguration
– LineageConfiguration オブジェクト。クローラーのデータ系統設定を指定します。
-
LakeFormationConfiguration
– LakeFormationConfiguration オブジェクト。クローラーの AWS Lake Formation 構成設定を指定します。
-
Configuration
– UTF-8 文字列。クローラーの構成情報。このバージョン付きの JSON 文字列では、クローラーの動作特性を指定できます。詳細については、「クローラー設定オプションの設定」を参照してください。
-
CrawlerSecurityConfiguration
- UTF-8 文字列。128 バイト長以下。このクローラーで使用される
SecurityConfiguration
構造の名前。 -
Tags
– キーと値のペアのマップ配列。50 ペア以下。各キーは UTF-8 文字列で、1~128 バイト長です。
各値は UTF-8 文字列で、256 バイト長以下です。
このクローラーリクエストで使用するタグ。クローラーへのアクセスを制限するためにタグを使用することができます。AWS Glue のタグの詳細については、デベロッパーガイドの「AWS Tags in AWS Glue」を参照してください。
レスポンス
応答パラメータはありません。
エラー
InvalidInputException
AlreadyExistsException
OperationTimeoutException
ResourceNumberLimitExceededException
DeleteCrawler アクション (Python: delete_crawler)
クローラーの状態が RUNNING
でないかぎり、指定したクローラーを AWS Glue Data Catalog から削除します。
リクエスト
-
Name
– 必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。削除するクローラーの名前。
レスポンス
応答パラメータはありません。
エラー
EntityNotFoundException
CrawlerRunningException
SchedulerTransitioningException
OperationTimeoutException
GetCrawler アクション (Python: get_crawler)
指定されたクローラーのメタデータを取得します。
リクエスト
-
Name
– 必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。メタデータを取得するクローラーの名前。
レスポンス
-
Crawler
– Crawler オブジェクト。指定されたクローラーのメタデータ。
エラー
EntityNotFoundException
OperationTimeoutException
GetCrawlers アクション (Python: get_crawlers)
顧客アカウントで定義されたすべてのクローラーのメタデータを取得します。
リクエスト
-
MaxResults
– 1~1000 の数値 (整数)。各呼び出しで返されるクローラーの数。
-
NextToken
– UTF-8 文字列。継続トークン (これが継続リクエストの場合)。
応答
-
Crawlers
– Crawler オブジェクトの配列。クローラーメタデータのリスト。
-
NextToken
– UTF-8 文字列。継続トークン (返されるリストがこの顧客アカウントで定義されたリストの最後に達していない場合)。
エラー
OperationTimeoutException
GetCrawlerMetrics アクション (Python: get_crawler_metrics)
指定されたクローラーに関するメトリクスを取得します。
リクエスト
-
CrawlerNameList
- UTF-8 文字列の配列、文字列 100 個以下。メトリクスを取得するクローラーの名前のリスト。
-
MaxResults
– 1~1000 の数値 (整数)。返されるリストの最大サイズ。
-
NextToken
– UTF-8 文字列。継続トークン (これが継続呼び出しの場合)。
応答
-
CrawlerMetricsList
– CrawlerMetrics オブジェクトの配列。指定されたクローラーのメトリクスのリスト。
-
NextToken
– UTF-8 文字列。継続トークン (戻されたリストに最後に使用可能なメトリクスが含まれていない場合)。
エラー
OperationTimeoutException
UpdateCrawler アクション (Python: update_crawler)
クローラーを更新します。クローラーが実行されている場合、クローラーを更新する前に StopCrawler
を使用してクローラーを停止する必要があります。
リクエスト
-
Name
– 必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。新しいクローラーの名前。
-
Role
– UTF-8 文字列。新しいクローラーが顧客リソースにアクセスするために使用する IAM ロール、または IAM ロールの Amazon リソースネーム (ARN)。
-
DatabaseName
– UTF-8 文字列。arn:aws:daylight:us-east-1::database/sometable/*
など、結果が保存される AWS Glue データベース。 -
Description
- UTF-8 文字列。2,048 バイト長以下。URI address multi-line string pattern に一致。新しいクローラーの説明。
-
Targets
– CrawlerTargets オブジェクト。クロールするターゲットのリスト。
-
Schedule
– UTF-8 文字列。スケジュールを指定するために使用される
cron
式 (ジョブとクローラーの時間ベースのスケジュールを参照してください。) たとえば、毎日 12:15 UTC に何かを実行するには、cron(15 12 * * ? *)
を指定します。 -
Classifiers
– UTF-8 文字列の配列。ユーザーが登録したカスタム分類子のリスト。デフォルトでは、すべての組み込みの分類子がクロールに含まれますが、これらのカスタム分類子によって常に分類別のデフォルトの分類子が上書きされます。
-
TablePrefix
- UTF-8 文字列。128 バイト長以下。作成されたカタログテーブルに使用されるテーブルプレフィックス。
-
SchemaChangePolicy
– SchemaChangePolicy オブジェクト。クローラーの更新と削除動作のためのポリシー。
-
RecrawlPolicy
– RecrawlPolicy オブジェクト。データセット全体を再度クロールするか、前回のクローラー実行以降に追加されたフォルダのみをクロールするかを指定するポリシー。
-
LineageConfiguration
– LineageConfiguration オブジェクト。クローラーのデータ系統設定を指定します。
-
LakeFormationConfiguration
– LakeFormationConfiguration オブジェクト。クローラーの AWS Lake Formation 構成設定を指定します。
-
Configuration
– UTF-8 文字列。クローラーの構成情報。このバージョン付きの JSON 文字列では、クローラーの動作特性を指定できます。詳細については、「クローラー設定オプションの設定」を参照してください。
-
CrawlerSecurityConfiguration
- UTF-8 文字列。128 バイト長以下。このクローラーで使用される
SecurityConfiguration
構造の名前。
レスポンス
応答パラメータはありません。
エラー
InvalidInputException
VersionMismatchException
EntityNotFoundException
CrawlerRunningException
OperationTimeoutException
StartCrawler アクション (Python: start_crawler)
スケジュールされているものに関係なく、指定されたクローラーを使用してクロールを開始します。クローラーがすでに実行中である場合は、CrawlerRunningException が返されます。
リクエスト
-
Name
– 必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。開始するクローラーの名前。
レスポンス
応答パラメータはありません。
エラー
EntityNotFoundException
CrawlerRunningException
OperationTimeoutException
StopCrawler アクション (Python: stop_crawler)
指定されたクローラーが実行されている場合は、クロールを停止します。
リクエスト
-
Name
– 必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。停止するクローラーの名前。
レスポンス
応答パラメータはありません。
エラー
EntityNotFoundException
CrawlerNotRunningException
CrawlerStoppingException
OperationTimeoutException
BatchGetCrawlers Action (Python: batch_get_crawlers)
指定されたクローラー名のリストのリソースメタデータのリストを返します。ListCrawlers
オペレーションを呼び出した後で、このオペレーションを呼び出すことで、アクセス許可が付与されているデータにアクセスできます。このオペレーションは、タグを使用するアクセス許可条件を含め、すべての IAM のアクセス許可をサポートします。
リクエスト
-
CrawlerNames
– 必須: UTF-8 文字列の配列。文字列 100 個以下。クローラー名のリスト。これは
ListCrawlers
操作から返された名前であることもあります。
応答
-
Crawlers
– Crawler オブジェクトの配列。クローラー定義のリスト。
-
CrawlersNotFound
- UTF-8 文字列の配列、文字列 100 個以下。クローラーの名前のリストが見つかりません。
エラー
InvalidInputException
OperationTimeoutException
ListCrawlers アクション (Python: list_crawlers)
この AWS アカウントのすべてのクローラーリソース、または指定されたタグを持つリソースの名前を取得します。このオペレーションにより、アカウントで利用可能なリソースとその名前を確認できます。
このオペレーションはオプションの Tags
フィールドを受け取ります。このフィールドを応答のフィルターとして使用すると、タグ付きリソースをグループとして取得できます。タグフィルタリングの使用を選択した場合は、タグが付いたリソースのみが取得されます。
リクエスト
-
MaxResults
– 1~1000 の数値 (整数)。返されるリストの最大サイズ。
-
NextToken
– UTF-8 文字列。継続トークン (これが継続リクエストの場合)。
-
Tags
– キーと値のペアのマップ配列。50 ペア以下。各キーは UTF-8 文字列で、1~128 バイト長です。
各値は UTF-8 文字列で、256 バイト長以下です。
これらのタグ付きリソースのみを返すように指定します。
レスポンス
-
CrawlerNames
- UTF-8 文字列の配列、文字列 100 個以下。アカウント内のすべてのクローラーの名前、または指定されたタグを持つクローラーの名前。
-
NextToken
– UTF-8 文字列。継続トークン (戻されたリストに最後に使用可能なメトリクスが含まれていない場合)。
エラー
OperationTimeoutException
ListCrawls アクション (Python: list_crawls)
指定されたクローラーのすべてのクロールを返します。クローラー履歴機能の起動日以降に発生したクロールのみを返し、最大 12 ヶ月分のクロールのみを保持します。古いクロールは返されません。
この API は以下の操作に使用できます。
-
指定されたクローラーのすべてのクロールを取得します。
-
指定されたクローラーのすべてのクロールを、制限されたカウント内に取得します。
-
特定された時間範囲内に、指定されたクローラーのすべてのクロールを取得します。
-
特定の状態、クロール ID、または DPU 時間値を持つ指定されたクローラーのすべてのクロールを取得します。
リクエスト
-
CrawlerName
– 必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。取得する実行のクローラー名。
-
MaxResults
– 1~1000 の数値 (整数)。返される結果の最大数。デフォルトは 20 で、最大は 100 です。
-
Filters
– CrawlsFilter オブジェクトの配列。CrawlsFilter
オブジェクトのリストで指定した条件で、クロールをフィルタリングします。 -
NextToken
– UTF-8 文字列。継続トークン (これが継続呼び出しの場合)。
応答
-
Crawls
– CrawlerHistory オブジェクトの配列。条件を満たしたクロール実行を表す
CrawlerHistory
オブジェクトのリスト。 -
NextToken
– UTF-8 文字列。返されたトークンのリストをページ分割するための継続トークン。リストの現在のセグメントが最後のセグメントではない場合に返されます。
エラー
EntityNotFoundException
OperationTimeoutException
InvalidInputException