分類子調教ファイルの形式 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

分類子調教ファイルの形式

プレーンテキストモデルの場合、分類子トレーニングデータをCSVファイルとして、または SageMaker AI Ground Truth を使用して作成した拡張マニフェストファイルとして提供できます。CSV ファイルまたは拡張マニフェストファイルには、各トレーニングドキュメントのテキストと、それに関連するラベルが含まれます。

ネイティブドキュメントモデルの場合、分類子トレーニングデータを CSV ファイルとして指定します。CSV ファイルには、各トレーニングドキュメントのファイル名と、それに関連するラベルが含まれています。調教文書は、調教グジョブの Amazon S3 入力フォルダに含めます。

CSV ファイル

ラベル付きトレーニングデータは、CSVファイルに UTF-8 でエンコードされたテキストとして指定します。ヘッダー行を含めないでください。ファイルにヘッダー行を追加すると、ランタイムエラーが発生する可能性があります。

CSV ファイル内の行ごとに、最初の列には 1 つ以上のクラスラベルが含まれます。クラスラベルは任意の有効な UTF-8 文字列にすることができます。意味が重複しない明確なクラス名を使用することをお勧めします。名前には空白を含めることができ、複数の単語をアンダースコアまたはハイフンでつなげてもかまいません。

行内の値を区切るカンマの前後にスペース文字を入れないでください。

CSV ファイルの正確な内容は、分類子モードとトレーニングデータのタイプによって異なります。詳細については、「マルチクラスモード」と「マルチラベルモード」のセクションを参照してください。

拡張マニフェストファイル

拡張マニフェストファイルは、 SageMaker AI Ground Truth を使用して作成するラベル付きデータセットです。Ground Truth は、自分または自分の雇用する従業員が、機械学習モデルの調教データセットを構築するのに役立つデータラベル付けサービスです。

Ground Truth とその出力の詳細については、「Amazon SageMaker AI デベロッパーガイド」の「AI Ground Truth を使用してデータにラベルを付ける」を参照してください。 SageMaker

拡張マニフェストファイルはJSON行形式です。これらのファイルでは、各行はトレーニングドキュメントとそれに関連するラベルを含む完全なJSONオブジェクトです。各行の正確な内容は、分類子モードによって異なります。詳細については、「マルチクラスモード」と「マルチラベルモード」のセクションを参照してください。

調教データを Amazon Comprehend に提供するときは、1 つ以上のラベル属性名を指定します。指定する属性名の数は、拡張マニフェストファイルが単一のラベリングジョブの出力であるか、チェーンラベリングジョブの出力であるかによって異なります。

ファイルが 1 つのラベル付けジョブの出力である場合は、Ground Truth ジョブの単一ラベル属性名を指定します。

ファイルがチェーンラベリングジョブの出力である場合は、チェーン内の 1 つ以上のジョブに対するラベル属性名を指定します。各ラベル属性名には、それぞれ 1 つのジョブのアノテーションが含まれます。チェーンラベリングジョブの拡張マニフェストファイルには、これらの属性のうち最大 5 つを指定できます。

連鎖ラベル付けジョブの詳細、およびそれらが生成する出力の例については、「Amazon SageMaker AI デベロッパーガイド」の「連鎖ラベル付けジョブ」を参照してください。