翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
マルチラベルモード
マルチラベルモードでは、個々のクラスは相互に排他的ではない異種カテゴリを表します。マルチクラス分類では、各文書に 1 つまたは複数のクラスが割り当てられます。たとえば、ある映画をドキュメンタリーとして分類し、別の映画をサイエンスフィクション、アクション、コメディーとして分類できます。
調教用に、マルチラベルモードでは最大 100 のユニークなクラスを含む最大 100 万件のサンプルがサポートされます。
プレーンテキストモデル
プレーンテキストモデルをトレーニングするには、 SageMaker Ground Truth からラベル付きトレーニングデータをCSVファイルまたは拡張マニフェストファイルとして提供できます。
CSV ファイル
トレーニング分類子のCSVファイルの使用に関する一般的な情報については、「」を参照してくださいCSV ファイル。
トレーニングデータを 2 列CSVファイルとして指定します。各行の最初の列にはクラスラベルの値が含まれ、2 番目の列にはこれらのクラスのサンプルテキスト文書が含まれます。1 列目に複数のクラスを入力するには、各クラスの間に区切り文字 (| など) を使用します。
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
次の例は、カスタム分類子をトレーニングして映画抽象のジャンルを検出するCSVファイルの 1 行を示しています。
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
クラス名の間のデフォルトの区切り文字はパイプ (|) です。ただし、別の文字を区切り文字として使用できます。区切り文字はクラス名のすべての文字と区別する必要があります。例えば、クラスが CLASS_1、CLASS_2、および CLASS_3 の場合、アンダースコア (_) はクラス名の一部です。そのため、クラス名を区切る区切り文字として、アンダースコアは使用しないでください。
拡張マニフェストファイル
調教分類子用拡張マニフェストファイルの使用に関する一般的な情報は、「拡張マニフェストファイル」を参照してください。
プレーンテキストドキュメントの場合、拡張マニフェストファイルの各行は完全なJSONオブジェクトです。これには、調教文書、クラス名、Ground Truthのその他のメタデータが含まれています。次の例は、映画の抄録内のジャンルを検出するようにカスタム分類子を調教する拡張マニフェストファイルです。
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
次の例は、読みやすいようにフォーマットされた拡張マニフェストファイルの 1 つのJSONオブジェクトを示しています。
{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }
この例では、source
属性は調教文書のテキストを示し、MultiLabelJob
属性は分類リストから複数のクラスのインデックスを割り当てます。MultiLabelJob
メタデータのジョブ名は、Ground Truth でラベル付けジョブ用に定義した名前です。
ネイティブ文書モデル
ネイティブドキュメントモデルは、ネイティブドキュメント (PDF、、イメージファイルなど) DOCX を使用してトレーニングするモデルです。ラベル付けされたトレーニングデータをCSVファイルとして提供します。
CSV ファイル
トレーニング分類子のCSVファイルの使用に関する一般的な情報については、「」を参照してくださいCSV ファイル。
トレーニングデータを 3 列CSVファイルとして指定します。各行の最初の列にはクラスラベルの値が入ります。2 列目には、そのクラスのサンプル文書が入ります。3 列目にはページ番号が入ります。サンプル文書が画像の場合、ページ番号は省略可能です。
1 列目に複数のクラスを入力するには、各クラスの間に区切り文字 (| など) を使用します。
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
次の例は、映画抽象のジャンルを検出するようにカスタム分類子をトレーニングするCSVファイルの 1 行を示しています。PDF ファイルの 2 ページには、コメディ/ティーン映画の例が含まれています。
COMEDY|TEEN,movie-summary-1.pdf,2
クラス名の間のデフォルトの区切り文字はパイプ (|) です。ただし、別の文字を区切り文字として使用できます。区切り文字はクラス名のすべての文字と区別する必要があります。例えば、クラスが CLASS_1、CLASS_2、および CLASS_3 の場合、アンダースコア (_) はクラス名の一部です。そのため、クラス名を区切る区切り文字として、アンダースコアは使用しないでください。