Amazon SageMaker の組み込みアルゴリズムと事前トレーニング済みモデル

フォーカスモード

Amazon SageMaker の組み込みアルゴリズムと事前トレーニング済みモデル - Amazon SageMaker AI

JumpStart モデルとソリューションテンプレート教師あり学習アルゴリズム教師なし学習テキスト分析画像処理

Amazon SageMaker は、データサイエンティストや機械学習の実践者が機械学習モデルのトレーニングとデプロイを迅速に開始できるようにする一連の組み込みアルゴリズム、トレーニング済みモデルおよび構築済みソリューションテンプレートを提供しています。SageMaker を初めて使う方にとって、特定のユースケースに適したアルゴリズムを選択するのは難しい作業です。次の表に、サンプル問題またはユースケースから開始し、その問題タイプに有効な SageMaker によって提供される適切な組み込みアルゴリズムを見つける方法を示すクイックチートシートを示します。学習パラダイム (教師ありと教師なし) と重要なデータドメイン (テキストとイメージ) によって構成される追加のガイダンスについては、表の次のセクションを参照してください。

表: 組み込みアルゴリズムへのユースケースのマッピング

問題とユースケース例	学習パラダイムまたはドメイン	問題タイプ	データ入力形式	組み込みアルゴリズム
SageMaker JumpStart が提供するトレーニング済みモデルと構築済みソリューションテンプレートで対処できる 15 種類の問題のうち、いくつかの例を次に示します。質問への回答: 指定された質問に対する回答を出力するチャットボット。テキスト分析: 金融などの業界ドメイン固有のモデルからのテキストを分析します。	トレーニング済みのモデルと構築済みのソリューションテンプレート	イメージ分類表形式分類表形式回帰テキスト分類オブジェクト検出テキスト埋め込み質問への回答センテンスペア分類画像埋め込み固有表現認識インスタンスセグメンテーションテキスト生成テキスト要約セマンティックセグメンテーション機械翻訳	画像、テキスト、表形式	Mobilenet、YOLO、Faster R-CNN、BERT、LightGBM、CatBoost などの人気モデル利用可能なトレーニング済みモデルのリストについては、「JumpStart Models」を参照してください。利用可能な構築済みソリューションテンプレートのリストについては、「JumpStart Solutions」を参照してください。
項目がカテゴリに属しているかどうかを予測する: メールスパムフィルター	教師あり学習	二項/複数クラス分類	表形式	AutoGluon-Tabular, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, LightGBM, 線形学習アルゴリズム, TabTransformer, Amazon SageMaker AI を使用した XGBoost アルゴリズム
数値/連続値を予測する: 家の価値を推定		リグレッション	表形式	AutoGluon-Tabular, CatBoost, 因数分解機アルゴリズム, K 最近傍 (k-NN) アルゴリズム, LightGBM, 線形学習アルゴリズム, TabTransformer, Amazon SageMaker AI を使用した XGBoost アルゴリズム
行動の履歴データに基づいて将来の行動を予測する: 以前の売上データに基づいて新製品の売上を予測		時系列予測	表形式	SageMaker AI DeepAR 予測アルゴリズムを使用する
高次元オブジェクトのデータ埋め込みを改善する: 重複するサポートチケットを特定するか、チケット内のテキストの類似性に基づいて正しいルーティングを検出		埋め込み: 高次元のオブジェクトを低次元空間に変換します。	表形式	Object2Vec アルゴリズム
ラベル/ターゲット変数と関係が弱い列をデータセットからドロップする: 走行距離の予測時の車の色	教師なし学習	特徴量エンジニアリング: 次元縮退	表形式	主成分分析法 (PCA) アルゴリズム
アプリケーションの異常動作を検出する: IoT センサーが異常な読み取り値を送信することを特定		異常検出	表形式	ランダムカットフォレスト (RCF) アルゴリズム
疑わしいユーザーからアプリケーションを保護する: サービスにアクセスする IP アドレスが不正なアクターによるものかどうかを検出		IP 異常検出	表形式	IP Insights
類似するオブジェクト/データをグループ化する: トランザクション履歴から高、中、低支出の顧客を検出		クラスタリングまたはグループ化	表形式	K-Means アルゴリズム
一連のドキュメントをトピックに整理する (事前に確認できない): ドキュメントで使用されている用語に基づいてドキュメントを医療カテゴリに属するものとしてタグ付け		トピックのモデリング	[テキスト]	潜在的ディリクレ配分 (LDA) アルゴリズム, ニューラルトピックモデル (NTM) アルゴリズム
コーパス内のドキュメントに事前定義されたカテゴリを割り当てる: ライブラリ内の書籍を学問分野別に分類	テキスト分析	テキスト分類	[テキスト]	BlazingText アルゴリズム, テキスト分類 - TensorFlow
ある言語から別の言語にテキストを変換する: スペイン語から英語		機械翻訳アルゴリズム	[テキスト]	Sequence to Sequence アルゴリズム
長いテキストコーパスを要約する: 研究論文の要約		テキストの要約	[テキスト]	Sequence to Sequence アルゴリズム
オーディオファイルをテキストに変換する: コールセンターの会話を書き起こしてさらに分析		音声をテキストに	[テキスト]	Sequence to Sequence アルゴリズム
イメージのコンテンツに基づいてイメージにラベル/タグを付ける: イメージ内のアダルトコンテンツに関するアラート	画像処理	イメージおよびマルチラベル分類	イメージ	画像分類 - MXNet
転移学習を使用して画像内の何かを分類します。		イメージ分類	イメージ	画像分類 - TensorFlow
イメージ内の人や物体を検出する: 警察が行方不明の人物について大きなフォトギャラリーをレビュー		オブジェクトの検出と分類	イメージ	オブジェクト検出 - MXNet, オブジェクト検出 - TensorFlow
画像のすべてのピクセルにカテゴリを個別にタグ付けする: 自動運転車が道中で物体を識別する準備を整える		コンピュータビジョン	イメージ	セマンティックセグメンテーションアルゴリズム

SageMaker AI が提供するすべての組み込みアルゴリズムに共通する以下の項目に関する重要な情報については、「」を参照してください組み込みアルゴリズムのパラメータ。

Docker レジストリパス
データ形式
推奨される Amazon EC2 インスタンスタイプ
CloudWatch ログ

以下のセクションでは、Amazon SageMaker AI の組み込みアルゴリズムを、それらが属する教師あり学習パラダイムと教師なし学習パラダイムでグループ化するための追加のガイダンスを提供します。これらの学習パラダイムとそれに関連する問題タイプの詳細については、「アルゴリズムのタイプ」を参照してください。また、テキスト分析と画像処理という 2 つの重要な機械学習ドメインに対処するために使用できる SageMaker AI 組み込みアルゴリズムに関するセクションも用意されています。

事前トレーニング済みモデルとソリューションテンプレート
教師あり学習
教師なし学習
テキスト分析
画像処理

事前トレーニング済みモデルとソリューションテンプレート

SageMaker JumpStart は、一般的な問題タイプに対応した幅広いトレーニング済みモデル、構築済みソリューションテンプレート、およびサンプルを提供しています。これらは SageMaker SDK と Studio Classic を使用します。SageMaker JumpStart が提供するこれらのモデル、ソリューション、サンプルノートブックの詳細については、「SageMaker JumpStart の事前トレーニング済みモデル」を参照してください。

教師あり学習

Amazon SageMaker AI には、分類または回帰の問題に使用できるいくつかの組み込みの汎用アルゴリズムが用意されています。

AutoGluon-Tabular — モデルをアンサンブルして複数のレイヤーに積み重ねることで成功するオープンソースの AutoML フレームワーク。
CatBoost - 順序付けされたブースティングとカテゴリ別機能を処理するための革新的なアルゴリズムを導入する勾配ブーストツリーアルゴリズムの実装。
因数分解機アルゴリズム - 高次元スパースデータセット内の特徴間の相互作用を経済的にキャプチャするように設計された線形モデルの拡張。
K 最近傍 (k-NN) アルゴリズム — K 個の最も近いラベル付きポイントを使用して値を割り当てるノンパラメトリック手法。分類の場合は、新しいデータポイントに対するラベルとなり、リグレッションの場合は、K 個の最も近いポイントの平均から予測されるターゲット値となります。
LightGBM — 効率とスケーラビリティを向上させるための 2 つの新しい技法を追加した勾配ブーストツリーアルゴリズムの実装。2 つの新しい技法は、Gradient-based One-Side Sampling (GOSS) と Exclusive Feature Bundling (EFB) です。
線形学習アルゴリズム - 回帰の線形関数または分類の線形しきい値関数を学習します。
TabTransformer — セルフアテンションベースの Transformers で構築された、新しい深層表形式データモデル化アーキテクチャ。
Amazon SageMaker AI を使用した XGBoost アルゴリズム - より単純で弱いモデルのセットから推定のアンサンブルを組み合わせる勾配ブーストツリーアルゴリズムの実装。

Amazon SageMaker AI には、特徴量エンジニアリングや時系列データからの予測中に、より特殊なタスクに使用されるいくつかの組み込みの教師あり学習アルゴリズムも用意されています。

Object2Vec アルゴリズム — 特徴量エンジニアリングに使用される新しい高度にカスタマイズ可能な汎用アルゴリズム。高次元オブジェクトの低次元高密度埋め込みを学習して、下流モデルのトレーニング効率を向上する特徴を生成できます。教師ありアルゴリズムではあるものの、データ内の自然なクラスタリングから関係ラベルを単純に取得できるシナリオが多数あります。トレーニングのためにラベル付きデータが必要ですが、人間による明示的な注釈なしの学習が可能です。
SageMaker AI DeepAR 予測アルゴリズムを使用する - 予測アルゴリズムは、再帰型ニューラルネットワーク (RNN) を使用してスカラー (1 次元) 時系列を予測する教師あり学習アルゴリズム。

教師なし学習

Amazon SageMaker AI には、さまざまな教師なし学習タスクに使用できる組み込みアルゴリズムがいくつか用意されています。これらのタスクには、クラスタリング、次元削減、パターン認識、異常検出などが含まれます。

主成分分析法 (PCA) アルゴリズム - データポイントを最初のいくつかの主成分に射影することにより、データセット内の次元 (特徴の数) を縮退させます。目的は、できるだけ多くの情報やバリエーションを保持することです。数学者の場合、主成分はデータの共分散行列の固有ベクトルです。
K-Means アルゴリズム — データ内にある離散グループを検出します。同一グループのメンバーができるだけ類似し、かつ他のグループのメンバーとできるだけ異なるものを特定します。
IP Insights - IPv4 アドレスの使用パターンを学習します。このアルゴリズムは、IPv4 アドレスと、ユーザー ID やアカウント番号などの各種エンティティとの間の関連付けをキャプチャするように設計されています。
ランダムカットフォレスト (RCF) アルゴリズム - その他の高度に構造化またはパターン化されたデータとは異なるデータセット内の異常なデータポイントを検出します。

テキスト分析

SageMaker AI は、テキストドキュメントの分析に合わせたアルゴリズムを提供します。対象となるのは、自然言語処理、文書の分類または要約、トピックのモデリングまたは分類、言語の文字起こしまたは翻訳で使用されるテキストです。

BlazingText アルゴリズム - 大規模なデータセットに簡単に拡張できる Word2vec とテキスト分類アルゴリズムの高度に最適化された実装。これは、多くの下流の自然言語処理 (NLP) タスクに役立ちます。
Sequence to Sequence アルゴリズム - 一般的にニューラル機械翻訳に使用される教師ありアルゴリズム。
潜在的ディリクレ配分 (LDA) アルゴリズム - 一連のドキュメントのトピックを決定するのに適しているアルゴリズム。これは 教師なしアルゴリズムです。つまり、トレーニング時に回答を含むサンプルデータを使用しないということです。
ニューラルトピックモデル (NTM) アルゴリズム - ニューラルネットワークアプローチを使用して一連のドキュメントのトピックを決定する別の教師なし手法。
テキスト分類 - TensorFlow — テキスト分類用のトレーニング済みモデルを使用して転移学習をサポートする教師ありアルゴリズム。

画像処理

SageMaker AI は、画像分類、オブジェクト検出、コンピュータビジョンに使用される画像処理アルゴリズムも提供します。

画像分類 - MXNet - 回答を含むサンプルデータを使用します (教師ありアルゴリズムと呼ばれる)。このアルゴリズムを使用してイメージを分類します。
画像分類 - TensorFlow — トレーニング済 TensorFlow Hub モデルを使用して、特定のタスクに合わせて微調整します (教師ありアルゴリズムと呼ばれる)。このアルゴリズムを使用してイメージを分類します。
セマンティックセグメンテーションアルゴリズム - コンピュータビジョンアプリケーション開発のためのピクセルレベルのきめ細かいアプローチを提供します。
オブジェクト検出 - MXNet — 1 つの深層ニューラルネットワークを使用して、イメージ内のオブジェクトを検出および分類します。このアルゴリズムは、入力としてイメージを取得し、イメージシーン内のオブジェクトのすべてのインスタンスを識別する、教師あり学習アルゴリズムです。
オブジェクト検出 - TensorFlow — 画像内の境界ボックスとオブジェクトラベルを検出します。これは教師あり学習アルゴリズムで、利用可能なトレーニング済み TensorFlow モデルによる転移学習をサポートします。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

アルゴリズムのタイプ

共通する情報

次のトピック

共通する情報

前のトピック:

アルゴリズムのタイプ

ヘルプが必要ですか?

このページの内容

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません