機械学習 API - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

機械学習 API

機械学習 API では、機械学習のデータ型について説明します。これには、変換を作成、削除、更新したり、機械学習のタスク実行を開始したりするための API が含まれます。

データ型

TransformParameters 構造

機械学習変換に関連付けられたアルゴリズム固有のパラメータ。

フィールド
  • TransformType必須: UTF-8 文字列 (有効な値: FIND_MATCHES)。

    機械学習変換のタイプ。

    機械学習変換のタイプの詳細については、「機械学習変換の作成」を参照してください。

  • FindMatchesParametersFindMatchesParameters オブジェクト。

    一致検索アルゴリズムのパラメータ。

EvaluationMetrics 構造

評価メトリクスは、機械学習変換の品質を推定します。

フィールド
  • TransformType必須: UTF-8 文字列 (有効な値: FIND_MATCHES)。

    機械学習変換のタイプ。

  • FindMatchesMetricsFindMatchesMetrics オブジェクト。

    「一致の検索」アルゴリズムの評価メトリクス。

MLTransform 構造

機械学習変換の構造。

フィールド
  • TransformId – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    機械学習変換用に生成される一意の変換 ID。ID は一意であることが保証されており、変更されません。

  • Name – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    機械学習変換のユーザー定義名。名前は一意であることが保証されておらず、いつでも変更される可能性があります。

  • Description – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    機械学習変換に対する長い形式のユーザー定義による説明。説明は一意であることが保証されておらず、いつでも変更される可能性があります。

  • Status – UTF-8 文字列 (有効な値: NOT_READY | READY | DELETING)。

    機械学習変換の現在のステータス。

  • CreatedOn – タイムスタンプ。

    タイムスタンプ。この機械学習変換の作成日時。

  • LastModifiedOn – タイムスタンプ。

    タイムスタンプ。この機械学習変換の最終変更日時。

  • InputRecordTablesGlueTable オブジェクトの配列。構造体 10 個以下。

    変換で使用される AWS Glue テーブル定義のリスト。

  • ParametersTransformParameters オブジェクト。

    TransformParameters オブジェクト。パラメータを使用して機械学習変換の動作を調整 (カスタマイズ) できます。そのために、変換に学習させる要素と、さまざまなトレードオフ (適合率と再現率、精度とコストなど) の選好を指定します。

  • EvaluationMetricsEvaluationMetrics オブジェクト。

    EvaluationMetrics オブジェクト。評価メトリクスは、機械学習変換の品質を推定します。

  • LabelCount – 数値 (整数)。

    この変換のために AWS Glue で生成されるラベリングファイルのカウント識別子。より適切な変換を作成する場合、ラベリングファイルのダウンロード、ラベル付け、アップロードを繰り返すことができます。

  • SchemaSchemaColumn オブジェクトの配列。構造体 100 個以下。

    この変換の実行対象となる列とデータ型を表すキーバリューペアのマップ。100 列が上限です。

  • Role – UTF-8 文字列。

    必要なアクセス許可を持つ IAM ロールの Amazon リソースネーム (ARN) の名前。必要なアクセス許可には、AWS Glue リソースに対する AWS Glue サービスロールのアクセス許可と、変換に必要な Amazon S3 アクセス許可の両方が含まれます。

    • このロールには、AWS Glue のリソースへのアクセスを許可する AWS Glue サービスロールのアクセス許可が必要です。「Attach a Policy to IAM Users That Access AWS Glue」を参照してください。

    • このロールは、この変換のタスク実行で使用される Amazon Simple Storage Service (Amazon S3) のソース、ターゲット、一時ディレクトリ、スクリプト、およびライブラリへのアクセス許可を必要とします。

  • GlueVersion – UTF-8 文字列、1~255 バイト長、Custom string pattern #20 に一致。

    この値により、この機械学習変換と互換性がある AWS Glue のバージョンが決定します。ほとんどのお客様に、Glue 1.0 が推奨されます。値が設定されていない場合、Glue の互換性はデフォルトで Glue 0.9 に設定されます。詳細については、デベロッパーガイドの「AWS Glue Versions」を参照してください。

  • MaxCapacity – 数値 (double)。

    この変換のタスク実行に割り当てられる AWS Glue データ処理ユニット (DPU) の数。DPU は、2~100 の範囲で割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    MaxCapacity は、 NumberOfWorkersWorkerType との相互排他的なオプションです 。

    • NumberOfWorkers または WorkerType のいずれかが設定されている場合、 MaxCapacity は設定できません。

    • MaxCapacity が設定されている場合、NumberOfWorkers または WorkerType は設定できません。

    • WorkerType が設定されている場合、NumberOfWorkers は必須です(逆も同様です)。

    • MaxCapacityNumberOfWorkers は両方とも少なくとも 1 である必要があります。

    WorkerType フィールドを Standard 以外の値に設定すると、MaxCapacity フィールドが自動的に設定され、読み取り専用になります。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    この変換のタスク実行時に割り当てられる事前定義済みワーカーのタイプ。使用できる値は、Standard、G.1X、または G.2X です。

    • Standard ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、50 GB のディスク、ワーカーあたり 2 個のエグゼキュターを提供します。

    • G.1X ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、64 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

    • G.2X ワーカータイプでは、各ワーカーは 8 vCPU、32 GB のメモリ、128 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

    MaxCapacity は、 NumberOfWorkersWorkerType との相互排他的なオプションです 。

    • NumberOfWorkers または WorkerType のいずれかが設定されている場合、 MaxCapacity は設定できません。

    • MaxCapacity が設定されている場合、NumberOfWorkers または WorkerType は設定できません。

    • WorkerType が設定されている場合、NumberOfWorkers は必須です(逆も同様です)。

    • MaxCapacityNumberOfWorkers は両方とも少なくとも 1 である必要があります。

  • NumberOfWorkers – 数値 (整数)。

    変換のタスク実行時に割り当てられる定義済み workerType のワーカー数。

    WorkerType が設定されている場合、NumberOfWorkers は必須です(逆も同様です)。

  • Timeout - 数値 (整数)。1 以上。

    機械学習変換のタイムアウト (分単位)。

  • MaxRetries – 数値 (整数)。

    機械学習変換の MLTaskRun が失敗した後の最大再試行回数。

  • TransformEncryptionTransformEncryption オブジェクト。

    ユーザーデータへのアクセスに適用される変換の、保管時の暗号化設定。機械学習の変換では、KMS を使用して Amazon S3 で暗号化されたユーザーデータにアクセスできます。

FindMatchesParameters 構造

「一致検索」変換を設定するためのパラメータ。

フィールド
  • PrimaryKeyColumnName – UTF-8 文字列。1~1024 バイト長。Single-line string pattern に一致。

    ソーステーブルの行を一意に識別する列の名前。一致するレコードを識別するために使用します。

  • PrecisionRecallTradeoff – 数値 (double)。1.0 以下。

    変換を調整して適合率と再現率のバランスを取るときに選択する値。値 0.5 は指定なし、値 1.0 は純粋な適合率寄りとなり、値 0.0 は再現率寄りであることを意味します。これはトレードオフの関係にあるため、1.0 に近い値を選択すると、再現率が非常に低くなります。0.0 に近い値を選択すると、適合率が非常に低くなります。

    適合率メトリクスは、モデルが一致を推定して、その推定が正確である度合いを示します。

    再現率メトリクスは、実際の一致件数に対して、モデルが一致を推定した件数を示します。

  • AccuracyCostTradeoff – 数値 (double)。1.0 以下。

    変換を調整して精度とコストのバランスを取るときに選択する値。値 0.5 は、システムが精度とコスト懸念のバランスを取っていることを意味します。値 1.0 は完全な精度を意味し、通常、コストが高くなります。著しく高くなる場合もあります。値 0.0 は、完全なコスト優先を意味し、FindMatches 変換の精度が低くなります。精度が許容できないレベルになる場合もあります。

    精度は、変換が真陽性と真陰性を正確に検索する度合いを測定します。精度を高めるには、マシンリソースとコストを増やす必要があります。ただし、再現率も高くなります。

    コストは、変換を実行するために消費されるコンピューティングリソースの数およびそれに伴う金額を測定します。

  • EnforceProvidedLabels – ブール。

    ユーザーから指定されたラベルに出力を一致させるためにオン/オフを切り替える値。値が True の場合、find matches 変換は指定されたラベルに出力を一致させます。この結果は通常の合成結果より優先されます。値が False の場合、 find matches 変換は、すべての指定されたラベルを優先するとは限らず、結果はトレーニングされたモデルに依存します。

    この値を true に設定すると、合成の実行時間が長くなる場合があります。

FindMatchesMetrics 構造

「一致の検索」アルゴリズムの評価メトリクス。機械学習変換の品質を測定するには、変換によっていくつかの一致を推定し、その結果を同じデータセットの既知の一致と比較します。品質メトリクスは、データのサブセットに基づくものであるため、厳密ではありません。

フィールド
  • AreaUnderPRCurve – 数値 (double)。1.0 以下。

    適合率/再現率曲線の下の部分の面積 (AUPRC) は、変換の品質全体を測定するための単一の数値です。適合率と再現率のために行われた選択とは関係ありません。値が高いほど、適合率と再現率のトレードオフが適切であることを示します。

    詳細については、Wikipedia の「 適合率と再現率」を参照してください。

  • Precision – 数値 (double)。1.0 以下。

    適合率メトリクスは、変換が一致を推定したときに、その推定が正しい度合いを示します。具体的には、真陽性の総数に対して、変換が実際に検索した真陽性の割合を測定します。

    詳細については、Wikipedia の「 適合率と再現率」を参照してください。

  • Recall – 数値 (double)。1.0 以下。

    再現率メトリクスは、実際の一致件数に対して、変換が推定した一致件数の割合です。具体的には、ソースデータのレコード総数に対して、変換が検索した真陽性の件数の割合です。

    詳細については、Wikipedia の「 適合率と再現率」を参照してください。

  • F1 – 数値 (double)。1.0 以下。

    最大の F1 メトリクスは、変換の精度 (1~0) を示します。値 1 は最適な精度です。

    詳細については、Wikipedia の「F1 スコア」を参照してください。

  • ConfusionMatrixConfusionMatrix オブジェクト。

    混同行列は、変換が何を正確に推定しているか、どのような種類のエラーを犯しているかを示します。

    詳細については、Wikipedia の「混同行列」を参照してください。

  • ColumnImportancesColumnImportance オブジェクトの配列。構造体 100 個以下。

    重要度の降順でソートされている列重要度メトリクスを含む ColumnImportance 構造のリスト。

ConfusionMatrix 構造

混同行列は、変換が何を正確に推定しているか、どのような種類のエラーを犯しているかを示します。

詳細については、Wikipedia の「混同行列」を参照してください。

フィールド
  • NumTruePositives – 数値 (long 型)。

    変換の混同行列において、変換が正確に検索したデータ内の一致の数。

  • NumFalsePositives – 数値 (long 型)。

    変換の混同行列において、変換が間違って一致として分類したデータ内の不一致の数。

  • NumTrueNegatives – 数値 (long 型)。

    変換の混同行列において、変換が正しく拒否したデータ内の不一致の数。

  • NumFalseNegatives – 数値 (long 型)。

    変換の混同行列において、変換が検索しなかったデータ内の一致の数。

GlueTable 構造

入力データまたは出力データとして使用される AWS Glue Data Catalog 内のデータベースとテーブル。

フィールド
  • DatabaseName – 必須: UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    AWS Glue Data Catalog のデータベース名。

  • TableName – 必須: UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    AWS Glue Data Catalog のテーブル名。

  • CatalogId – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    AWS Glue Data Catalog 用の一意の識別子。

  • ConnectionName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    AWS Glue Data Catalog への接続の名前。

  • AdditionalOptions – キーと値のペアのマップ配列。1~10 個のペア。

    各キーは UTF-8 文字列、1~255 バイト長で、Single-line string pattern に一致します。

    各値は説明文字列であり、2048 バイト長以下で、URI address multi-line string pattern に一致します。

    テーブルの追加オプション。現在、次の 2 つのキーがサポートされています。

    • pushDownPredicate: データセットのすべてのファイルを一覧表示して読み込むことなく、パーティションをフィルタリングするためのキー。

    • catalogPartitionPredicate: AWS Glue Data Catalog のパーティションインデックスを使用して、サーバー側のパーティションプルーニングを使用するためのキー。

TaskRun 構造

機械学習変換に関連付けられているサンプリングパラメータ。

フィールド
  • TransformId – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    変換に対する一意の識別子。

  • TaskRunId – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このタスク実行に対する一意の識別子。

  • Status – UTF-8 文字列 (有効な値: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    リクエストされたタスク実行の現在のステータス。

  • LogGroupName – UTF-8 文字列。

    このタスク実行に関連付けられている、安全なログ記録用のロググループの名前。

  • PropertiesTaskRunProperties オブジェクト。

    このタスク実行に関連付けられている設定プロパティを指定します。

  • ErrorString – UTF-8 文字列。

    このタスク実行に関連付けられているエラー文字列のリスト。

  • StartedOn – タイムスタンプ。

    このタスク実行の開始日時。

  • LastModifiedOn – タイムスタンプ。

    リクエストされたタスク実行の最終更新日時。

  • CompletedOn – タイムスタンプ。

    リクエストされたタスク実行の最終完了日時。

  • ExecutionTime – 数値 (整数)。

    タスク実行でリソースを消費した時間 (秒)。

TransformFilterCriteria 構造

機械学習変換のフィルタリング基準。

フィールド
  • Name – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    機械学習変換のフィルタリングに使用する一意の変換名。

  • TransformType – UTF-8 文字列 (有効な値: FIND_MATCHES)。

    機械学習変換のフィルタリングに使用する機械学習変換のタイプ。

  • Status – UTF-8 文字列 (有効な値: NOT_READY | READY | DELETING)。

    変換の直近の既知のステータスを使用して機械学習変換のリストをフィルタリングします (変換が使用可能かどうかを示します)。有効な値は「NOT_READY」、「READY」、または「DELETING」です。

  • GlueVersion – UTF-8 文字列、1~255 バイト長、Custom string pattern #20 に一致。

    この値により、この機械学習変換と互換性がある AWS Glue のバージョンが決定します。ほとんどのお客様に、Glue 1.0 が推奨されます。値が設定されていない場合、Glue の互換性はデフォルトで Glue 0.9 に設定されます。詳細については、デベロッパーガイドの「AWS Glue Versions」を参照してください。

  • CreatedBefore – タイムスタンプ。

    この日時より前に作成された変換をフィルタリングします。

  • CreatedAfter – タイムスタンプ。

    この日時より後に作成された変換をフィルタリングします。

  • LastModifiedBefore – タイムスタンプ。

    この日付より前に最終変更された変換をフィルタリングします。

  • LastModifiedAfter – タイムスタンプ。

    この日付より後に最終更新された変換をフィルタリングします。

  • SchemaSchemaColumn オブジェクトの配列。構造体 100 個以下。

    特定のスキーマを持つデータセットをフィルタリングします。Map<Column, Type> オブジェクトは、この変換で使用できるスキーマを表すキーと値のペアの配列です。Column は列名、Type はデータ型 (整数や文字列など) です。100 列が上限です。

TransformSortCriteria 構造

機械学習変換に関連付けられている並べ替え基準。

フィールド
  • Column必須: UTF-8 文字列 (有効な値: NAME | TRANSFORM_TYPE | STATUS | CREATED | LAST_MODIFIED)。

    機械学習変換に関連付けられている並べ替え基準で使用する列。

  • SortDirection – 必須: UTF-8 文字列 (有効な値: DESCENDING | ASCENDING)。

    機械学習変換に関連付けられている並べ替え基準で使用する並べ替え方向。

TaskRunFilterCriteria 構造

機械学習変換のタスク実行のフィルタリング基準。

フィールド
  • TaskRunType – UTF-8 文字列 (有効な値: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES)。

    タスク実行のタイプ。

  • Status – UTF-8 文字列 (有効な値: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    タスク実行の現在のステータス。

  • StartedBefore – タイムスタンプ。

    この日付より前に開始されたタスク実行をフィルタリングします。

  • StartedAfter – タイムスタンプ。

    この日付より後に開始されたタスク実行をフィルタリングします。

TaskRunSortCriteria 構造

機械学習変換のタスク実行リストを並べ替えるために使用する並べ替え基準。

フィールド
  • Column必須: UTF-8 文字列 (有効な値: TASK_RUN_TYPE | STATUS | STARTED)。

    機械学習変換のタスク実行リストを並べ替えるために使用する列。

  • SortDirection – 必須: UTF-8 文字列 (有効な値: DESCENDING | ASCENDING)。

    機械学習変換のタスク実行リストを並べ替えるために使用する並べ替え方向。

TaskRunProperties 構造

タスク実行の設定プロパティ。

フィールド
  • TaskType – UTF-8 文字列 (有効な値: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES)。

    タスク実行のタイプ。

  • ImportLabelsTaskRunPropertiesImportLabelsTaskRunProperties オブジェクト。

    「ラベルのインポート」タスク実行の設定プロパティ。

  • ExportLabelsTaskRunPropertiesExportLabelsTaskRunProperties オブジェクト。

    「ラベルのエクスポート」タスク実行の設定プロパティ。

  • LabelingSetGenerationTaskRunPropertiesLabelingSetGenerationTaskRunProperties オブジェクト。

    「ラベリングセットの生成」タスク実行の設定プロパティ。

  • FindMatchesTaskRunPropertiesFindMatchesTaskRunProperties オブジェクト。

    「一致検索」タスク実行の設定プロパティ。

FindMatchesTaskRunProperties 構造

「一致検索」タスク実行の設定プロパティを指定します。

フィールド
  • JobId – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    「一致検索」タスク実行のジョブ ID。

  • JobName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    「一致検索」タスク実行のジョブに割り当てられた名前。

  • JobRunId – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    「一致検索」タスク実行のジョブ実行 ID。

ImportLabelsTaskRunProperties 構造

「ラベルのインポート」タスク実行の設定プロパティを指定します。

フィールド
  • InputS3Path – UTF-8 文字列。

    ラベルをインポートする元の Amazon Simple Storage Service (Amazon S3) のパス。

  • Replace – ブール。

    既存のラベルを上書きするかどうかを示します。

ExportLabelsTaskRunProperties 構造

「ラベルのエクスポート」タスク実行の設定プロパティを指定します。

フィールド
  • OutputS3Path – UTF-8 文字列。

    ラベルをエクスポートする先の Amazon Simple Storage Service (Amazon S3) のパス。

LabelingSetGenerationTaskRunProperties 構造

「ラベリングセットの生成」タスク実行の設定プロパティを指定します。

フィールド
  • OutputS3Path – UTF-8 文字列。

    ラベリングセットを生成する Amazon Simple Storage Service (Amazon S3) のパス。

SchemaColumn 構造

この変換の実行対象となる列とデータ型を表すキーバリューペア。MLTransformSchema パラメータには、これらの構造を最大 100 個まで含めることができます。

フィールド

TransformEncryption 構造

ユーザーデータへのアクセスに適用される変換の、保管時の暗号化設定。機械学習の変換では、KMS を使用して Amazon S3 で暗号化されたユーザーデータにアクセスできます。

さらに、インポートされたラベルとトレーニングされた変換は、顧客が提供した KMS キーを使用して暗号化できるようになりました。

フィールド
  • MlUserDataEncryptionMLUserDataEncryption オブジェクト。

    暗号化モードとお客様が用意した KMS キー ID MLUserDataEncryption を含むオブジェクト。

  • TaskRunSecurityConfigurationName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    セキュリティ構成の名前。

MLUserDataEncryption 構造

ユーザーデータへのアクセスに適用される変換の、保管時の暗号化設定。

フィールド
  • MlUserDataEncryptionMode – 必須: UTF-8 文字列 (有効な値: DISABLED | SSE-KMS="SSEKMS")。

    ユーザーデータに適用される暗号化モード。有効な値は次のとおりです。

    • DISABLED: 暗号化は無効です

    • SSEKMS: Simple Storage Service (Amazon S3) に保存されたユーザーデータに、AWS Key Management Service (SSE-KMS) によるサーバー側暗号化を使用します。

  • KmsKeyId – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ユーザーが用意した KMS キーの ID。

ColumnImportance 構造

列の列名と列重要度スコアを含む構造。

列の重要度は、レコード内のどの列が他の列よりも重要かを識別することで、モデルへの列貢献度を理解するのに役立ちます。

フィールド
  • ColumnName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    列の名前。

  • Importance – 数値 (double)。1.0 以下。

    列の列重要度スコア (10 進数)。

操作

CreateMLTransform アクション (Python: create_ml_transform)

AWS Glue 機械学習変換を作成します。このオペレーションでは、変換を作成します。また、この変換をトレーニングするために必要なすべてのパラメータも作成します。

機械学習変換 (FindMatches 変換など) を使用してデータの重複を除去するプロセスの最初のステップとして、このオペレーションを呼び出します。アルゴリズムのために使用するパラメータに加えて、オプションの Description を指定できます。

データから学習して高品質の機械学習変換を作成する一環として、ユーザーに代わって AWS Glue が実行するタスクに対して特定のパラメータを指定することもできます。これらのパラメータには Role と、必要に応じて AllocatedCapacityTimeoutMaxRetries が含まれます。詳細については、「ジョブ」を参照してください。

リクエスト
  • Name – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    変換の作成時に変換に付ける一意の名前。

  • Description – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    定義する機械学習変換の説明。デフォルトは空の文字列です。

  • InputRecordTables必須: GlueTable オブジェクトの配列。構造 10 個以下。

    変換で使用される AWS Glue テーブル定義のリスト。

  • Parameters – 必須: TransformParameters オブジェクト。

    使用する変換タイプに固有のアルゴリズムパラメータ。条件付きで変換タイプに依存します。

  • Role – 必須: UTF-8 文字列。

    必要なアクセス許可を持つ IAM ロールの Amazon リソースネーム (ARN) の名前。必要なアクセス許可には、AWS Glue リソースに対する AWS Glue サービスロールのアクセス許可と、変換に必要な Amazon S3 アクセス許可の両方が含まれます。

    • このロールには、AWS Glue のリソースへのアクセスを許可する AWS Glue サービスロールのアクセス許可が必要です。「Attach a Policy to IAM Users That Access AWS Glue」を参照してください。

    • このロールは、この変換のタスク実行で使用される Amazon Simple Storage Service (Amazon S3) のソース、ターゲット、一時ディレクトリ、スクリプト、およびライブラリへのアクセス許可を必要とします。

  • GlueVersion – UTF-8 文字列、1~255 バイト長、Custom string pattern #20 に一致。

    この値により、この機械学習変換と互換性がある AWS Glue のバージョンが決定します。ほとんどのお客様に、Glue 1.0 が推奨されます。値が設定されていない場合、Glue の互換性はデフォルトで Glue 0.9 に設定されます。詳細については、デベロッパーガイドの「AWS Glue Versions」を参照してください。

  • MaxCapacity – 数値 (double)。

    この変換のタスク実行に割り当てられる AWS Glue データ処理ユニット (DPU) の数。DPU は、2~100 の範囲で割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    MaxCapacity は、 NumberOfWorkersWorkerType との相互排他的なオプションです 。

    • NumberOfWorkers または WorkerType のいずれかが設定されている場合、 MaxCapacity は設定できません。

    • MaxCapacity が設定されている場合、NumberOfWorkers または WorkerType は設定できません。

    • WorkerType が設定されている場合、NumberOfWorkers は必須です(逆も同様です)。

    • MaxCapacityNumberOfWorkers は両方とも少なくとも 1 である必要があります。

    WorkerType フィールドを Standard 以外の値に設定すると、MaxCapacity フィールドが自動的に設定され、読み取り専用になります。

    WorkerType フィールドを Standard 以外の値に設定すると、MaxCapacity フィールドが自動的に設定され、読み取り専用になります。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    このタスクの実行時に割り当てられる事前定義済みワーカーのタイプ。使用できる値は、Standard、G.1X、または G.2X です。

    • Standard ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、50 GB のディスク、ワーカーあたり 2 個のエグゼキュターを提供します。

    • G.1X ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、64 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

    • G.2X ワーカータイプでは、各ワーカーは 8 vCPU、32 GB のメモリ、128 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

    MaxCapacity は、 NumberOfWorkersWorkerType との相互排他的なオプションです 。

    • NumberOfWorkers または WorkerType のいずれかが設定されている場合、 MaxCapacity は設定できません。

    • MaxCapacity が設定されている場合、NumberOfWorkers または WorkerType は設定できません。

    • WorkerType が設定されている場合、NumberOfWorkers は必須です(逆も同様です)。

    • MaxCapacityNumberOfWorkers は両方とも少なくとも 1 である必要があります。

  • NumberOfWorkers – 数値 (整数)。

    このタスクの実行時に割り当てられる定義済み workerType のワーカー数。

    WorkerType が設定されている場合、NumberOfWorkers は必須です(逆も同様です)。

  • Timeout - 数値 (整数)。1 以上。

    この変換のタスク実行のタイムアウト (分単位)。これは、この変換のタスク実行が終了して TIMEOUT ステータスに入るまでに、タスク実行がリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。

  • MaxRetries – 数値 (整数)。

    タスク実行の失敗後に、この変換のタスクを再試行する最大回数。

  • Tags – キーと値のペアのマップ配列。50 ペア以下。

    各キーは UTF-8 文字列で、1~128 バイト長です。

    各値は UTF-8 文字列で、256 バイト長以下です。

    この機械学習変換で使用するタグ。タグを使用して、機械学習変換へのアクセスを制限できます。AWS Glue のタグの詳細については、デベロッパーガイドの「AWS Tags in AWS Glue」を参照してください。

  • TransformEncryptionTransformEncryption オブジェクト。

    ユーザーデータへのアクセスに適用される変換の、保管時の暗号化設定。機械学習の変換では、KMS を使用して Amazon S3 で暗号化されたユーザーデータにアクセスできます。

レスポンス
  • TransformId – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    変換用に生成された一意の識別子。

エラー
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

  • ResourceNumberLimitExceededException

  • IdempotentParameterMismatchException

UpdateMLTransform アクション (Python: update_ml_transform)

既存の機械学習変換を更新します。アルゴリズムパラメータを調整して、より良い結果を達成するには、このオペレーションを呼び出します。

このオペレーションを呼び出した後で、 StartMLEvaluationTaskRun オペレーションを呼び出して新しいパラメータが目標を達成した度合い (機械学習変換の品質やコスト効率の向上など) を評価できます。

リクエスト
  • TransformId – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    変換の作成時に生成された一意の識別子。

  • Name – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    変換の作成時に付けた一意の変換名。

  • Description – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    変換の説明。デフォルトは空の文字列です。

  • ParametersTransformParameters オブジェクト。

    使用する変換タイプ (アルゴリズム) に固有の設定パラメータ。条件付きで変換タイプに依存します。

  • Role – UTF-8 文字列。

    必要なアクセス許可を持つ IAM ロールの Amazon リソースネーム (ARN) の名前。

  • GlueVersion – UTF-8 文字列、1~255 バイト長、Custom string pattern #20 に一致。

    この値により、この機械学習変換と互換性がある AWS Glue のバージョンが決定します。ほとんどのお客様に、Glue 1.0 が推奨されます。値が設定されていない場合、Glue の互換性はデフォルトで Glue 0.9 に設定されます。詳細については、デベロッパーガイドの「AWS Glue Versions」を参照してください。

  • MaxCapacity – 数値 (double)。

    この変換のタスク実行に割り当てられる AWS Glue データ処理ユニット (DPU) の数。DPU は、2~100 の範囲で割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    WorkerType フィールドを Standard 以外の値に設定すると、MaxCapacity フィールドが自動的に設定され、読み取り専用になります。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    このタスクの実行時に割り当てられる事前定義済みワーカーのタイプ。使用できる値は、Standard、G.1X、または G.2X です。

    • Standard ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、50 GB のディスク、ワーカーあたり 2 個のエグゼキュターを提供します。

    • G.1X ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、64 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

    • G.2X ワーカータイプでは、各ワーカーは 8 vCPU、32 GB のメモリ、128 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

  • NumberOfWorkers – 数値 (整数)。

    このタスクの実行時に割り当てられる定義済み workerType のワーカー数。

  • Timeout - 数値 (整数)。1 以上。

    この変換のタスク実行のタイムアウト (分単位)。これは、この変換のタスク実行が終了して TIMEOUT ステータスに入るまでに、タスク実行がリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。

  • MaxRetries – 数値 (整数)。

    タスク実行の失敗後に、この変換のタスクを再試行する最大回数。

レスポンス
  • TransformId – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    更新された変換の一意の識別子。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

DeleteMLTransform アクション (Python: delete_ml_transform)

AWS Glue 機械学習変換を削除します。機械学習変換は、人が提供した例を反映して、実行すべき変換の詳細を機械学習を通じて学習する特殊なタイプの変換です。これらの変換は AWS Glue が保存します。変換が不要になった場合は、DeleteMLTransforms を呼び出して削除できます。ただし、AWS Glue ジョブで削除後の変換を参照しようとすると、正常に実行されません。

リクエスト
  • TransformId – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    削除する変換の一意の識別子。

レスポンス
  • TransformId – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    削除した変換の一意の識別子。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransform アクション (Python: get_ml_transform)

AWS Glue 機械学習変換のアーティファクトおよびそのすべての対応するメタデータを取得します。機械学習変換は、人が提供した例を反映して、実行すべき変換の詳細を機械学習を通じて学習する特殊なタイプの変換です。これらの変換は AWS Glue が保存します。GetMLTransform を呼び出して変換のメタデータを取得できます。

リクエスト
  • TransformId – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    変換の一意の識別子。変換の作成時に生成されます。

レスポンス
  • TransformId – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    変換の一意の識別子。変換の作成時に生成されます。

  • Name – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    変換の作成時に付けた一意の変換名。

  • Description – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    変換の説明。

  • Status – UTF-8 文字列 (有効な値: NOT_READY | READY | DELETING)。

    変換の直近の既知のステータス (変換が使用可能かどうかを示します)。有効な値は「NOT_READY」、「READY」、または「DELETING」です。

  • CreatedOn – タイムスタンプ。

    変換の作成日時。

  • LastModifiedOn – タイムスタンプ。

    変換の最終変更日時。

  • InputRecordTablesGlueTable オブジェクトの配列。構造体 10 個以下。

    変換で使用される AWS Glue テーブル定義のリスト。

  • ParametersTransformParameters オブジェクト。

    使用するアルゴリズムに固有の設定パラメータ。

  • EvaluationMetricsEvaluationMetrics オブジェクト。

    最新の評価メトリクス。

  • LabelCount – 数値 (整数)。

    この変換に使用できるラベルの数。

  • SchemaSchemaColumn オブジェクトの配列。構造体 100 個以下。

    この変換で使用できるスキーマを表す Map<Column, Type> オブジェクト。100 列が上限です。

  • Role – UTF-8 文字列。

    必要なアクセス許可を持つ IAM ロールの Amazon リソースネーム (ARN) の名前。

  • GlueVersion – UTF-8 文字列、1~255 バイト長、Custom string pattern #20 に一致。

    この値により、この機械学習変換と互換性がある AWS Glue のバージョンが決定します。ほとんどのお客様に、Glue 1.0 が推奨されます。値が設定されていない場合、Glue の互換性はデフォルトで Glue 0.9 に設定されます。詳細については、デベロッパーガイドの「AWS Glue Versions」を参照してください。

  • MaxCapacity – 数値 (double)。

    この変換のタスク実行に割り当てられる AWS Glue データ処理ユニット (DPU) の数。DPU は、2~100 の範囲で割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    WorkerType フィールドを Standard 以外の値に設定すると、MaxCapacity フィールドが自動的に設定され、読み取り専用になります。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    このタスクの実行時に割り当てられる事前定義済みワーカーのタイプ。使用できる値は、Standard、G.1X、または G.2X です。

    • Standard ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、50 GB のディスク、ワーカーあたり 2 個のエグゼキュターを提供します。

    • G.1X ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、64 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

    • G.2X ワーカータイプでは、各ワーカーは 8 vCPU、32 GB のメモリ、128 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

  • NumberOfWorkers – 数値 (整数)。

    このタスクの実行時に割り当てられる定義済み workerType のワーカー数。

  • Timeout - 数値 (整数)。1 以上。

    この変換のタスク実行のタイムアウト (分単位)。これは、この変換のタスク実行が終了して TIMEOUT ステータスに入るまでに、タスク実行がリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。

  • MaxRetries – 数値 (整数)。

    タスク実行の失敗後に、この変換のタスクを再試行する最大回数。

  • TransformEncryptionTransformEncryption オブジェクト。

    ユーザーデータへのアクセスに適用される変換の、保管時の暗号化設定。機械学習の変換では、KMS を使用して Amazon S3 で暗号化されたユーザーデータにアクセスできます。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransforms アクション (Python: get_ml_transforms)

既存の AWS Glue 機械学習変換のソートおよびフィルタリング可能なリストを取得します。機械学習変換は、人が提供した例を反映して、実行すべき変換の詳細を機械学習を通じて学習する特殊なタイプの変換です。これらの変換は AWS Glue が保存します。変換のメタデータを取得するには GetMLTransforms を呼び出します。

リクエスト
  • NextToken – UTF-8 文字列。

    結果をオフセットするページ分割されたトークン。

  • MaxResults – 1~1000 の数値 (整数)。

    返される結果の最大数。

  • FilterTransformFilterCriteria オブジェクト。

    フィルター変換基準。

  • SortTransformSortCriteria オブジェクト。

    並べ替え基準。

レスポンス
  • Transforms – 必須: MLTransform オブジェクトの配列。

    機械学習変換のリスト。

  • NextToken – UTF-8 文字列。

    ページ分割トークン (さらに結果がある場合)。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListMLTransforms アクション(Python: list_ml_transforms)

この AWS アカウントの既存の AWS Glue 機械学習変換、または指定したタグの付いたリソースの、ソートおよびフィルタリング可能なリストを取得します。このオペレーションはオプションの Tags フィールドを受け取ります。このフィールドをレスポンスのフィルタとして使用すると、タグ付きリソースをグループとして取得できます。タグフィルタリングの使用を選択した場合は、タグが付いたリソースのみが取得されます。

リクエスト
  • NextToken – UTF-8 文字列。

    継続トークン (これが継続リクエストの場合)。

  • MaxResults – 1~1000 の数値 (整数)。

    返されるリストの最大サイズ。

  • FilterTransformFilterCriteria オブジェクト。

    機械学習変換のフィルタ処理に使用される TransformFilterCriteria

  • SortTransformSortCriteria オブジェクト。

    機械学習変換のソートに使用される TransformSortCriteria

  • Tags – キーと値のペアのマップ配列。50 ペア以下。

    各キーは UTF-8 文字列で、1~128 バイト長です。

    各値は UTF-8 文字列で、256 バイト長以下です。

    これらのタグ付きリソースのみを返すように指定します。

レスポンス
  • TransformIds必須: UTF-8 文字列の配列。

    アカウントのすべての機械学習変換、または指定したタグの付いた機械学習変換の識別子。

  • NextToken – UTF-8 文字列。

    継続トークン (戻されたリストに最後に使用可能なメトリクスが含まれていない場合)。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartMLEvaluationTaskRun アクション (Python: start_ml_evaluation_task_run)

変換の品質を推定するためのタスクを開始します。

真の例としてラベルセットを指定すると、AWS Glue 機械学習は、これらの例のいくつかから学習します。残りのラベルは、品質を推定するためのテストとして使用されます。

実行用の一意の識別子を返します。GetMLTaskRun を呼び出して、EvaluationTaskRun の状態に関する詳細を取得できます。

リクエスト
  • TransformId – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    機械学習変換の一意の識別子。

レスポンス
  • TaskRunId – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    この実行に関連付けられた一意の識別子。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

  • MLTransformNotReadyException

StartMLLabelingSetGenerationTaskRun アクション (Python: start_ml_labeling_set_generation_task_run)

機械学習変換のアクティブな学習ワークフローを開始し、ラベルセットを生成してラベルを追加することで、変換の品質を向上させます。

StartMLLabelingSetGenerationTaskRun が完了すると、AWS Glue によって「ラベリングセット」または人が回答する一連の質問が生成されます。

FindMatches 変換の場合、これらの質問は「これらの行を、一致するレコ―ドのみで構成されるグループに分ける適切な方法は何ですか?」という形式になります。

ラベリングプロセスが完了すると、StartImportLabelsTaskRun を呼び出してラベルをアップロードできます。StartImportLabelsTaskRun が完了すると、今後のすべての機械学習変換の実行で新規および改善されたラベルが使用され、高品質の変換が実行されます。

リクエスト
  • TransformId – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    機械学習変換の一意の識別子。

  • OutputS3Path – 必須: UTF-8 文字列。

    ラベリングセットを生成する Amazon Simple Storage Service (Amazon S3) のパス。

レスポンス
  • TaskRunId – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    このタスクに関連付けられている一意の実行識別子。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

GetMLTaskRun アクション (Python: get_ml_task_run)

機械学習変換に対する特定のタスク実行の詳細を取得します。機械学習のタスク実行は、さまざまな機械学習ワークフローの一環として AWS Glue がユーザーに代わって実行する非同期タスクです。任意のタスク実行の統計情報を確認するには、TaskRunID およびその親変換の TransformID を使用して GetMLTaskRun を呼び出します。

リクエスト
  • TransformId – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    機械学習変換の一意の識別子。

  • TaskRunId – 必須: UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    タスク実行の一意の識別子。

レスポンス
  • TransformId – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    タスク実行の一意の識別子。

  • TaskRunId – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    この実行に関連付けられた一意の実行識別子。

  • Status – UTF-8 文字列 (有効な値: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    このタスク実行のステータス。

  • LogGroupName – UTF-8 文字列。

    タスク実行に関連付けられているロググループの名前。

  • PropertiesTaskRunProperties オブジェクト。

    タスク実行に関連付けられているプロパティのリスト。

  • ErrorString – UTF-8 文字列。

    タスク実行に関連付けられているエラー文字列。

  • StartedOn – タイムスタンプ。

    このタスク実行の開始日時。

  • LastModifiedOn – タイムスタンプ。

    このタスク実行の最終変更日時。

  • CompletedOn – タイムスタンプ。

    このタスク実行の完了日時。

  • ExecutionTime – 数値 (整数)。

    タスク実行でリソースを消費した時間 (秒)。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTaskRuns アクション (Python: get_ml_task_runs)

機械学習変換の実行のリストを取得します。機械学習のタスク実行は、さまざまな機械学習ワークフローの一環として AWS Glue がユーザーに代わって実行する非同期タスクです。機械学習のタスク実行の並べ替え可能およびフィルタリング可能なリストは、GetMLTaskRuns を呼び出して取得できます。この呼び出しで、親変換の TransformID とこのセクションに記載しているその他のオプションのパラメータを使用します。

このオペレーションは、実行履歴のリストを返します。また、ページ分割する必要があります。

リクエスト
  • TransformId – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    機械学習変換の一意の識別子。

  • NextToken – UTF-8 文字列。

    結果をページ分割するためのトークン。デフォルトは空です。

  • MaxResults – 1~1000 の数値 (整数)。

    返される結果の最大数。

  • FilterTaskRunFilterCriteria オブジェクト。

    タスク実行のフィルタリング基準 (TaskRunFilterCriteria 構造)。

  • SortTaskRunSortCriteria オブジェクト。

    タスク実行の並べ替え基準件 (TaskRunSortCriteria 構造)。

応答
  • TaskRunsTaskRun オブジェクトの配列。

    変換に関連付けられているタスク実行のリスト。

  • NextToken – UTF-8 文字列。

    ページ分割トークン (さらに結果がある場合)。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

CancelMLTaskRun アクション (Python: cancel_ml_task_run)

タスク実行をキャンセル (停止) します。機械学習のタスク実行は、さまざまな機械学習ワークフローの一環として AWS Glue がユーザーに代わって実行する非同期タスクです。機械学習のタスク実行は、CancelMLTaskRun を呼び出していつでもキャンセルできます。この呼び出しで、タスク実行の親変換の TransformID とタスク実行の TaskRunId を使用します。

リクエスト
  • TransformId – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    機械学習変換の一意の識別子。

  • TaskRunId – 必須: UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    タスク実行に対する一意の識別子。

レスポンス
  • TransformId – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    機械学習変換の一意の識別子。

  • TaskRunId – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    タスク実行の一意の識別子。

  • Status – UTF-8 文字列 (有効な値: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    この実行のステータス。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartExportLabelsTaskRun アクション (Python: start_export_labels_task_run)

特定の変換に関するすべてのラベル付きデータをエクスポートするための非同期タスクを開始します。このタスクは、通常のアクティブな学習ワークフローに属さない唯一のラベル関連の API コールです。すべての既存のラベルを同時に操作するときは、通常、StartExportLabelsTaskRun を使用します (以前に真として送信したラベルを削除または変更する場合など)。この API オペレーションでは、エクスポートするラベルの TransformId と、ラベルをエクスポートする先の Amazon Simple Storage Service (Amazon S3) のパスを使用できます。このオペレーションは、TaskRunId を返します。タスク実行のステータスは、GetMLTaskRun API を呼び出して確認できます。

リクエスト
  • TransformId – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    機械学習変換の一意の識別子。

  • OutputS3Path – 必須: UTF-8 文字列。

    ラベルをエクスポートする先となる Simple Storage Service (Amazon S3) へのパス。

レスポンス
  • TaskRunId – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    タスク実行の一意の識別子。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartImportLabelsTaskRun アクション (Python: start_import_labels_task_run)

機械学習変換をトレーニングしてその品質を向上させるために使用する追加のラベル (真の例) を提供できます。この API オペレーションは、通常、StartMLLabelingSetGenerationTaskRun の呼び出しで始まり、最終的に機械学習変換の品質向上につながるアクティブな学習ワークフローの一環として使用します。

StartMLLabelingSetGenerationTaskRun が完了すると、AWS Glue 機械学習によって人が回答すべき一連の質問が生成されます。(これらの質問に回答することは、機械学習ワークフローにおいて「ラベリング」とも呼ばれます)。FindMatches 変換の場合、これらの質問は「これらの行を、一致するレコ―ドのみで構成されるグループに分ける適切な方法は何ですか?」という形式になります。ラベリングプロセスが完了すると、ユーザーは StartImportLabelsTaskRun を呼び出して回答/ラベルをアップロードできます。StartImportLabelsTaskRun が完了すると、今後のすべての機械学習変換の実行で新規および改善されたラベルが使用され、より高品質の変換が実行されます。

デフォルトでは、 StartMLLabelingSetGenerationTaskRun は引き続き学習を継続し、ユーザーがアップロードしたすべてのラベルを結合します。ただし、Replace を true に設定した場合を除きます。Replace を true に設定すると、StartImportLabelsTaskRun は以前にアップロードされたすべてのラベルを削除して無視し、ユーザーがアップロードする正確なセットからのみ学習します。ラベルの置き換えが役立つのは、以前に間違ったラベルをアップロードしたことに気付き、これらが変換の品質に悪影響を及ぼしていると思われる場合です。

タスク実行のステータスは、GetMLTaskRun オペレーションを呼び出して確認できます。

リクエスト
  • TransformId – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    機械学習変換の一意の識別子。

  • InputS3Path – 必須: UTF-8 文字列。

    ラベルをインポートする元となる Amazon Simple Storage Service (Amazon S3) へのパス。

  • ReplaceAllLabels – ブール。

    既存のラベルを上書きするかどうかを示します。

レスポンス
  • TaskRunId – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    タスク実行の一意の識別子。

エラー
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InternalServiceException