Amazon の組み込みアルゴリズムと事前トレーニング済みモデル SageMaker - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon の組み込みアルゴリズムと事前トレーニング済みモデル SageMaker

Amazon SageMaker は、組み込みアルゴリズム、事前トレーニング済みモデル、事前構築済みのソリューションテンプレートのスイートを提供し、データサイエンティストや機械学習実務者が機械学習モデルのトレーニングとデプロイを迅速に開始できるようにします。を初めて使用する場合 SageMaker、特定のユースケースに適したアルゴリズムを選択することは難しい作業です。次の表は、問題例またはユースケースから始めて、その問題タイプに SageMaker 有効な が提供する適切な組み込みアルゴリズムを見つける方法を示すクイックチートシートを示しています。学習パラダイム (教師ありと教師なし) と重要なデータドメイン (テキストとイメージ) によって構成される追加のガイダンスについては、表の次のセクションを参照してください。

表: 組み込みアルゴリズムへのユースケースのマッピング

問題とユースケース例 学習パラダイムまたはドメイン 問題タイプ データ入力形式 組み込みアルゴリズム

ここでは、 が提供するトレーニング済みモデルと構築済みソリューションテンプレートで対処できる 15 の問題タイプのうち、いくつかの例を示します SageMaker JumpStart。

質問への回答: 指定された質問に対する回答を出力するチャットボット。

テキスト分析: 金融などの業界ドメイン固有のモデルからのテキストを分析します。

トレーニング済みのモデルと構築済みのソリューションテンプレート

イメージ分類

表形式分類

表形式回帰

テキスト分類

オブジェクトの検出

テキスト埋め込み

質問への回答

センテンスペア分類

画像埋め込み

固有表現認識

インスタンスセグメンテーション

テキスト生成

テキスト要約

セマンティックセグメンテーション

機械翻訳

画像、テキスト、表形式

Mobilenet、、YOLOFaster R-、CNN、BERTLight GBMなどの人気モデル CatBoost

利用可能な事前トレーニング済みモデルのリストについては、JumpStart 「モデル」を参照してください。

利用可能な構築済みソリューションテンプレートのリストについては、JumpStart 「ソリューション」を参照してください。

項目がカテゴリに属しているかどうかを予測する: メールスパムフィルター

教師あり学習

二項/複数クラス分類

表形式

AutoGluon-タブラー, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, ライトGBM, 線形学習アルゴリズム, TabTransformer, XGBoost Amazon でのアルゴリズム SageMaker

数値/連続値を予測する: 家の価値を推定

リグレッション

表形式

AutoGluon-タブラー, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, ライトGBM, 線形学習アルゴリズム, TabTransformer, XGBoost Amazon でのアルゴリズム SageMaker

行動の履歴データに基づいて将来の行動を予測する: 以前の売上データに基づいて新製品の売上を予測

時系列予測

表形式

SageMaker DeepAR 予測アルゴリズムを使用する

高次元オブジェクトのデータ埋め込みを改善する: 重複するサポートチケットを特定するか、チケット内のテキストの類似性に基づいて正しいルーティングを検出

埋め込み: 高次元のオブジェクトを低次元空間に変換します。 表形式 Object2Vec アルゴリズム

ラベル/ターゲット変数と関係が弱い列をデータセットからドロップする: 走行距離の予測時の車の色

教師なし学習

特徴量エンジニアリング: 次元縮退

表形式

プリンシパルコンポーネント分析 (PCA) アルゴリズム

アプリケーションの異常動作を検出する: IoT センサーが異常な読み取り値を送信することを特定

異常検出

表形式

ランダムカットフォレスト (RCF) アルゴリズム

疑わしいユーザーからアプリケーションを保護する: サービスにアクセスする IP アドレスが不正なアクターによるものかどうかを検出

IP 異常検出

表形式

IP Insights

類似するオブジェクト/データをグループ化する: トランザクション履歴から高、中、低支出の顧客を検出

クラスタリングまたはグループ化

表形式

K-Means アルゴリズム

一連のドキュメントをトピックに整理する (事前に確認できない): ドキュメントで使用されている用語に基づいてドキュメントを医療カテゴリに属するものとしてタグ付け

トピックのモデリング

テキスト

潜在的ディリクレ配分 (LDA) アルゴリズム, ニューラルトピックモデル (NTM) アルゴリズム

コーパス内のドキュメントに事前定義されたカテゴリを割り当てる: ライブラリ内の書籍を学問分野別に分類

テキスト分析

テキスト分類

テキスト

BlazingText アルゴリズム, テキスト分類 - TensorFlow

ある言語から別の言語にテキストを変換する: スペイン語から英語

機械翻訳

アルゴリズム
テキスト

Sequence-to-Sequence アルゴリズム

長いテキストコーパスを要約する: 研究論文の要約

テキストの要約

テキスト

Sequence-to-Sequence アルゴリズム

オーディオファイルをテキストに変換する: コールセンターの会話を書き起こしてさらに分析

Speech-to-text

テキスト

Sequence-to-Sequence アルゴリズム

イメージのコンテンツに基づいてイメージにラベル/タグを付ける: イメージ内のアダルトコンテンツに関するアラート

画像処理

イメージおよびマルチラベル分類

イメージ

画像分類 - MXNet

転移学習を使用して画像内の何かを分類します。

画像分類 イメージ

画像分類 - TensorFlow

イメージ内の人や物体を検出する: 警察が行方不明の人物について大きなフォトギャラリーをレビュー

オブジェクトの検出と分類

イメージ

オブジェクト検出 - MXNet, オブジェクト検出 - TensorFlow

画像のすべてのピクセルにカテゴリを個別にタグ付けする: 自動運転車が道中で物体を識別する準備を整える

コンピュータビジョン

イメージ

セマンティックセグメンテーションアルゴリズム

が提供するすべての組み込みアルゴリズムに共通する以下の項目に関する重要な情報については SageMaker、「」を参照してください組み込みアルゴリズムのパラメータ

  • Docker レジストリパス

  • データ形式

  • 推奨される Amazon EC2インスタンスタイプ

  • CloudWatch ログ

以下のセクションでは、それらが属する教師ありおよび教師なしの学習パラダイムによってグループ化された Amazon SageMaker 組み込みアルゴリズムに関する追加のガイダンスを提供します。これらの学習パラダイムとそれに関連する問題タイプの詳細については、「アルゴリズムのタイプ」を参照してください。また、テキスト分析と画像処理という 2 SageMaker つの重要な機械学習ドメインに対処するために使用できる組み込みアルゴリズムについてもセクションが用意されています。

事前トレーニング済みのモデルとソリューションテンプレート

SageMaker JumpStart は、トレーニング済みのさまざまなモデル、構築済みのソリューションテンプレート、一般的な問題タイプの例を提供します。これらは SageMaker SDKと Studio Classic を使用します。これらのモデル、ソリューション、および が提供するノートブックの例の詳細については SageMaker JumpStart、「」を参照してくださいSageMaker JumpStart 事前トレーニング済みモデル

教師あり学習

Amazon SageMaker には、分類または回帰の問題に使用できる複数の組み込み汎用アルゴリズムが用意されています。

  • AutoGluon-タブラー — モデルをアンサンブルして複数のレイヤーに積み重ねることで成功するオープンソースの AutoML フレームワーク。

  • CatBoost - 順序付けされたブースティングとカテゴリ別機能を処理するための革新的なアルゴリズムを導入する勾配ブーストツリーアルゴリズムの実装。

  • 因数分解機アルゴリズム - 高次元スパースデータセット内の特徴間の相互作用を経済的にキャプチャするように設計された線形モデルの拡張。

  • K 最近傍 (k-NN) アルゴリズム— k に最も近いラベル付きポイントを使用して値を割り当てる非パラメータメソッド。分類の場合、新しいデータポイントへのラベルです。回帰の場合、これは最も近い k ポイントの平均からの予測ターゲット値です。

  • ライトGBM— 効率とスケーラビリティを向上させるために 2 つの新しい手法を追加する、勾配ブースト木アルゴリズムの実装。これら 2 つの新しい手法は、グラデーションベースの片側サンプリング (GOSS) と排他的特徴バンドル () ですEFB。

  • 線形学習アルゴリズム - 回帰の線形関数または分類の線形しきい値関数を学習します。

  • TabTransformer— Transformers 上に self-attention-based構築された新しい深層表形式のデータモデリングアーキテクチャ。

  • XGBoost Amazon でのアルゴリズム SageMaker - より単純で弱いモデルのセットから推定のアンサンブルを組み合わせる勾配ブーストツリーアルゴリズムの実装。

Amazon には、特徴量エンジニアリングや時系列データからの予測中に、より特殊なタスクに使用されるいくつかの組み込みの教師あり学習アルゴリズム SageMaker も用意されています。

  • Object2Vec アルゴリズム — 特徴量エンジニアリングに使用される新しい高度にカスタマイズ可能な汎用アルゴリズム。高次元オブジェクトの低次元高密度埋め込みを学習して、下流モデルのトレーニング効率を向上する特徴を生成できます。これは教師ありアルゴリズムですが、データの自然なクラスターからのみ関係ラベルを取得できるシナリオが多数あります。トレーニングにはラベル付けされたデータが必要ですが、これは明示的な人間の注釈なしで発生する可能性があります。

  • SageMaker DeepAR 予測アルゴリズムを使用する— 反復ニューラルネットワーク () を使用してスカラー (1 次元) 時系列を予測するための教師あり学習アルゴリズムRNN。

教師なし学習

Amazon SageMaker には、さまざまな教師なし学習タスクに使用できる組み込みアルゴリズムがいくつか用意されています。これらのタスクには、クラスター化、ディメンション削減、パターン認識、異常検出などが含まれます。

  • プリンシパルコンポーネント分析 (PCA) アルゴリズム - データポイントを最初のいくつかの主成分に射影することにより、データセット内の次元 (特徴の数) を縮退させます。目的は、できるだけ多くの情報やバリエーションを保持することです。数学者の場合、主成分はデータの共分散行列の固有ベクトルです。

  • K-Means アルゴリズム— データ内の個別のグループ化を見つけます。これは、グループのメンバーが互いにできるだけ似ていて、他のグループのメンバーとできるだけ異なる場合に発生します。

  • IP Insights— IPv4 アドレスの使用パターンについて説明します。これは、IPv4アドレスと、ユーザーIDsやアカウント番号などのさまざまなエンティティ間の関連付けをキャプチャするように設計されています。

  • ランダムカットフォレスト (RCF) アルゴリズム - その他の高度に構造化またはパターン化されたデータとは異なるデータセット内の異常なデータポイントを検出します。

テキスト分析

SageMaker は、テキストドキュメントの分析に合わせて調整されたアルゴリズムを提供します。これには、自然言語処理、ドキュメント分類または要約、トピックモデリングまたは分類、言語の文字起こしまたは翻訳で使用されるテキストが含まれます。

  • BlazingText アルゴリズム - 大規模なデータセットに簡単に拡張できる Word2vec とテキスト分類アルゴリズムの高度に最適化された実装。これは、多くのダウンストリーム自然言語処理 (NLP) タスクに役立ちます。

  • Sequence-to-Sequence アルゴリズム - 一般的にニューラル機械翻訳に使用される教師ありアルゴリズム。

  • 潜在的ディリクレ配分 (LDA) アルゴリズム - 一連のドキュメントのトピックを決定するのに適しているアルゴリズム。これは 教師なしアルゴリズムです。つまり、トレーニング時に回答を含むサンプルデータを使用しないということです。

  • ニューラルトピックモデル (NTM) アルゴリズム - ニューラルネットワークアプローチを使用して一連のドキュメントのトピックを決定する別の教師なし手法。

  • テキスト分類 - TensorFlow — テキスト分類用のトレーニング済みモデルを使用して転移学習をサポートする教師ありアルゴリズム。

画像処理

SageMaker には、画像分類、オブジェクト検出、コンピュータビジョンに使用される画像処理アルゴリズムも用意されています。

  • 画像分類 - MXNet - 回答を含むサンプルデータを使用します (教師ありアルゴリズムと呼ばれる)。 このアルゴリズムを使用してイメージを分類します。

  • 画像分類 - TensorFlow— 事前トレーニング済みの TensorFlow Hub モデルを使用して、特定のタスク (教師ありアルゴリズム と呼ばれる) を微調整します。 このアルゴリズムを使用してイメージを分類します。

  • セマンティックセグメンテーションアルゴリズム - コンピュータビジョンアプリケーション開発のためのピクセルレベルのきめ細かいアプローチを提供します。

  • オブジェクト検出 - MXNet — 1 つの深層ニューラルネットワークを使用して、イメージ内のオブジェクトを検出および分類します。このアルゴリズムは、入力としてイメージを取得し、イメージシーン内のオブジェクトのすべてのインスタンスを識別する、教師あり学習アルゴリズムです。

  • オブジェクト検出 - TensorFlow — 画像内の境界ボックスとオブジェクトラベルを検出します。これは、利用可能な事前トレーニング済み TensorFlow モデルによる転送学習をサポートする教師あり学習アルゴリズムです。