テキストデータの組み込み SageMaker アルゴリズム - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テキストデータの組み込み SageMaker アルゴリズム

SageMaker は、自然言語処理、ドキュメントの分類または要約、トピックのモデリングまたは分類、言語文字起こしまたは翻訳で使用されるテキストドキュメントの分析に合わせて調整されたアルゴリズムを提供します。

  • BlazingText アルゴリズム - 大規模なデータセットに簡単に拡張できる Word2vec とテキスト分類アルゴリズムの高度に最適化された実装。これは、多くの下流の自然言語処理 (NLP) タスクに役立ちます。

  • 潜在的ディリクレ配分 (LDA) アルゴリズム - 一連のドキュメントのトピックを決定するのに適しているアルゴリズム。これは 教師なしアルゴリズムです。つまり、トレーニング時に回答を含むサンプルデータを使用しないということです。

  • ニューラルトピックモデル (NTM) アルゴリズム - ニューラルネットワークアプローチを使用して一連のドキュメントのトピックを決定する別の教師なし手法。

  • Object2Vec アルゴリズム - レコメンデーションシステム、ドキュメント分類、文章埋め込みに使用できる汎用のニューラル埋め込みアルゴリズム。

  • Sequence-to-Sequence アルゴリズム - 一般的にニューラル機械翻訳に使用される教師ありアルゴリズム。

  • テキスト分類 - TensorFlow - テキスト分類に利用可能な事前トレーニング済みモデルを使用して転移学習をサポートする教師ありアルゴリズム。

アルゴリズム名 チャンネル名 トレーニング入力モード ファイルタイプ インスタンスクラス 並列処理可能
BlazingText train ファイルまたはパイプ テキストファイル (1 行に 1 文、スペース区切りのトークンを含む) GPU (単一インスタンスのみ) または CPU いいえ
LDA トレーニングおよび (オプションで) テスト ファイルまたはパイプ recordIO-protobuf または CSV CPU (単一インスタンスのみ) いいえ
ニューラルトピックモデル トレーニングおよび (オプションで) 検証、テスト、またはその両方 ファイルまたはパイプ recordIO-protobuf または CSV GPU または CPU はい
Object2Vec トレーニングおよび (オプションで) 検証、テスト、またはその両方 File JSON Lines GPU または CPU (単一インスタンスのみ) いいえ
Seq2Seq モデリング トレーニング、検証、および vocab File recordIO-protobuf GPU (単一インスタンスのみ) いいえ
テキスト分類 - TensorFlow トレーニングおよび検証 File CSV CPU または GPU はい (単一インスタンス上の複数の GPU 間でのみ)