翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
フライホイールのデータレイク
フライホイールが作成されると、Amazon Comprehend は、モデルのすべてのバージョンに必要な入出力データなど、すべてのフライホイールデータを格納するためのデータレイクをアカウントに作成します。
Amazon Comprehend は、フライホイールの作成時に指定された Amazon S3 上の場所にデータレイクを作成します。場所は Amazon S3 バケットまたは Amazon S3 バケット内の新規フォルダとして指定できます。
データレイクのフォルダ構造
Amazon Comprehend は、データレイクを作成すると Amazon S3 上の場所に次のフォルダ構造をセットアップします。
警告
Amazon Comprehend は、データレイクのフォルダ編成とコンテンツを管理します。データレイクのフォルダの変更には、必ず Amazon Comprehend API オペレーションを使用してください。さもないと、フライホイールが正しく動作しない場合があります。
Document Pool Annotations Pool Staging Model Datasets (data for each version of the model) VersionID-1 Training Test ModelStats VersionID-2 Training Test ModelStats
モデルバージョンのトレーニング評価を確認するには、以下の手順を実行します。
データレイクのルートレベルにある Model Datasets という名前のフォルダを開きます。このフォルダーには、モデルの各バージョンのサブフォルダーが含まれます。
目的のモデルバージョンが入っているフォルダーを開きます。
という名前のフォルダを開いてModelStats、モデルの統計を表示します。
データレイクの管理
Amazon Comprehend は代わりに以下のタスクを自動的に実行してデータレイクを管理します。
データレイクのフォルダ構造を定義し、データセットを適切なフォルダに取り込む。
-
モデルのトレーニングに必要な入力ドキュメント (テキストファイルやアノテーションファイルなど) を管理する。
-
モデルの各バージョンに関連付けられているトレーニングと評価の出力データを管理する。
データレイクに保存されているファイルの暗号化を管理する。
Amazon Comprehend は、データレイク用のデータの作成および更新オペレーションのすべてを実行します。データレイク内のデータへの完全なアクセス権が必要です。例:
データレイクのすべてのコンテンツへの完全なアクセス権が必要です。
これによりフライホイールの削除後も、データレイクを引き続き利用できます。
データレイクを含む Amazon S3 バケットに関するアクセスログを設定できます。
データに対する暗号化キーを指定できます。これらはフライホイールのを作成時に指定します。
推奨されるベストプラクティスを以下に示します:
-
ご自分のフォルダやファイルをデータレイクに手動で追加しない。データレイク内のファイルを変更および削除しない。
データレイク内のデータを追加または変更するときは、必ず Amazon Comprehend の作成および更新オペレーションを使用する。例えば、 トレーニング用データやテスト用データの提供に
CreateDataset
、 モデルのバージョンの評価データの生成にStartFlywheelIteration
を使用できます。-
データレイクの構造は、時間の経過とともに進化する場合があります。明示的にデータレイク構造に依存するダウンストリームスクリプトやプログラムを作成しない。
-
フライホイールにデータレイクの場所を指定する場合は、すべてのフライホイールに関連するデータに共通のプレフィックスを作成するか、フライホイールごとに異なるプレフィックスを使用することをお勧めします。あるフライホイールの完全なデータレイクパスを別のフライホイールのプレフィックスとして使用しないでください。