継続的事前トレーニング (CPT)
継続的な事前トレーニング (CPT) は、基盤モデルの事前トレーニングフェーズを、特定のドメインまたはコーパスからラベル付けされていない追加のテキストに公開することで拡張するトレーニング手法です。ラベル付き入出力ペアを必要とする教師ありファインチューニングとは異なり、CPT は raw ドキュメントでトレーニングして、モデルが新しいドメインに関する深い知識を取得し、ドメイン固有の用語と書き込みパターンを学習し、特定のコンテンツタイプやサブジェクト領域に適応するのに役立ちます。
このアプローチは、法的文書、医学文献、技術文書、独自のビジネスコンテンツなど、ドメイン固有のテキストデータが多く (数百億トークン)、モデルにそのドメインでネイティブレベルの流暢さを身につけさせたい場合に特に役立ちます。一般的に、CPT ステージの後、モデルは新しく取得した知識を使用し、有用なタスクを完了できるように、追加の命令調整ステージを経る必要があります。
サポートされているモデル
CPT は、以下の Amazon Nova モデルで使用できます。
-
Nova 1.0 (Micro、Lite、Pro)
-
Nova 2.0 (Lite)
Nova 1.0 または Nova 2.0 を使用する場合
Amazon Nova モデルファミリーは、精度、速度、コストを最適化するために、複数の料金パフォーマンスの運用ポイントを提供します。
以下が必要な場合は、Nova 2.0 を選択します。
-
複雑な分析タスクの高度な推論機能
-
コーディング、数学、科学的問題解決における優れたパフォーマンス
-
長いコンテキスト長のサポート
-
多言語パフォーマンスの向上
注記
モデルが大きいほど良いとは限りません。Nova 1.0 モデルと Nova 2.0 モデルのどちらを選択するかは、コストパフォーマンスのトレードオフと特定のビジネス要件を考慮してください。