翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
TabTransformer アルゴリズムの入力インターフェイスと出力インターフェイス
TabTransformer は表形式データで動作し、行は観測値を表し、1 つの列はターゲット変数またはラベルを表し、残りの列は特徴を表します。
の SageMaker 実装は、トレーニングと推論 TabTransformer CSVのサポートを提供します。
-
トレーニング ContentType の場合、有効な入力は text/csv である必要があります。
-
推論 ContentType の場合、有効な入力は text/csv である必要があります。
注記
CSV トレーニングの場合、アルゴリズムはターゲット変数が最初の列にあり、 にヘッダーレコードCSVがないことを前提としています。
CSV 推論では、アルゴリズムは、CSV入力にラベル列がないことを前提としています。
トレーニングデータ、検証データ、およびカテゴリ別特徴量の入力形式
TabTransformer モデルへの入力用にトレーニングデータをフォーマットする方法に注意してください。トレーニングおよび検証データを含む Amazon S3 バケットへのパスを指定する必要があります。カテゴリ別特徴のリストを含めることもできます。training
と validation
チャネルの両方を使用して入力データを提供します。training
チャネルだけを使用することもできます。
training
と validation
チャネルの両方を使用する
入力データは、2 つの S3 パス (1 つは training
チャネル用、もう 1 つは validation
チャネル用) によって指定できます。各 S3 パスは、1 つ以上のCSVファイルを指す S3 プレフィックス、または 1 つの特定のCSVファイルを指す完全な S3 パスのいずれかになります。ターゲット変数は、CSVファイルの最初の列にある必要があります。予測変数 (特徴量) は残りの列に存在する必要があります。training
または validation
チャネルに複数のCSVファイルが指定されている場合、 TabTransformer アルゴリズムはファイルを連結します。検証データは、各ブースティング反復の最後に検証スコアを計算するために使用されます。検証スコアが改善しなくなると、早期停止が適用されます。
予測子にカテゴリ特徴量が含まれている場合は、トレーニングデータJSONファイルと同じ場所に という名前categorical_index.json
のファイルを指定できます。カテゴリ特徴量のJSONファイルを指定する場合、training
チャネルは特定のCSVファイルではなく S3 プレフィックスを指す必要があります。このファイルには Python ディクショナリが含まれている必要があり、キーは "cat_index_list"
という文字列で、値が一意の整数のリストです。値リストの各整数は、トレーニングデータCSVファイル内の対応するカテゴリ特徴量の列インデックスを示す必要があります。各値は、正の整数 (0 は目標値を表すため 0 より大きい) で、Int32.MaxValue
(2147483647) より小さく、列の総数よりも小さい必要があります。カテゴリインデックスJSONファイルは 1 つだけである必要があります。
training
チャネルのみを使用する。
別の方法として、training
チャネル用の単一の S3 パスを介して入力データを指定することもできます。この S3 パスは、1 つ以上のCSVファイルを含む という名前のサブディレクトリtraining/
を持つディレクトリを指す必要があります。オプションで、 という場所と同じ場所に別のサブディレクトリを含めることができます。 validation/
には 1 つ以上のCSVファイルもあります。検証データが提供されない場合は、トレーニングデータの 20% がランダムにサンプリングされ、検証データとして使用されます。予測子にカテゴリ特徴量が含まれている場合は、データサブディレクトリと同じ場所に という名前categorical_index.json
のJSONファイルを指定できます。
注記
CSV トレーニング入力モードでは、アルゴリズムで使用できる合計メモリ (インスタンス数に で使用できるメモリを掛けたものInstanceType
) がトレーニングデータセットを保持できる必要があります。