Amazon Machine Learning の主要なコンセプト - Amazon Machine Learning

Amazon Machine Learning サービスの更新や、その新しいユーザーの受け入れは行っていません。このドキュメントは既存のユーザー向けに提供されていますが、更新は終了しています。詳細については、「Amazon Machine Learning とは」を参照してください。

Amazon Machine Learning の主要なコンセプト

このセクションでは、以下の主要なコンセプトをまとめ、Amazon ML でどのように使用されているかを詳しく説明します。

  • データソース には Amazon ML への入力データと関連付けられたメタデータが含まれています

  • ML モデル は、入力データから抽出されたパターンを使用して予測を生成します

  • 評価 は ML モデルの品質を測定します。

  • バッチ予測 は複数の入力データ監視に対し、非同期的に予測を生成します。

  • リアルタイム予測 は個々のデータ監視に対し、同期的に予測を生成します。

データソース

データソースは、入力データに関するメタデータを含むオブジェクトです。Amazon ML は入力データを読み出し、属性の詳細な統計情報をコンピューティングし、データソースオブジェクトの一部として、スキーマとその他の情報とともに、統計を保存します。次に、Amazon ML はデータソースを使用して ML モデルをトレーニング、評価して、バッチ予測を生成します。

重要

データソースには、入力データのコピーは保存されません。代わりに、入力データがある Amazon S3 の場所への参照が保存されます。Amazon S3 ファイルを移動または変更した場合、Amazon ML は ML モデルの作成、評価の生成、または予測の生成のためにそれにアクセスする、または使用することはできなくなります。

次の表では、データソースに関連する用語が定義されています。

期間 定義
属性

観測値の中の、一意の、名前の付いたプロパティです。スプレッドシートまたはコンマ区切り値 (CSV) ファイルなどの、表形式のデータでは、列見出しは属性を表し、行には各属性の値が表示されます。

シノニム: 変数、変数名、フィールド、列

データソース名 (オプション) データソースに人間が読み取れる名前を指定できます。これらの名前を使用すると、Amazon ML コンソールでデータソースの検索および管理ができます。
入力データ データソースにで使用されるすべての観測値に対する集合的な名前。
ロケーション 入力データの場所。現在、Amazon ML は Amazon S3 バケット、Amazon Redshift データベース、または Amazon Relational Database Service (RDS) にある MySQL データベースの中に保存されているデータを使用できます。
監視結果

単一の入力データの単位です。たとえば、不正な取引を検出するために ML モデルを作成する場合、入力データは多くの観測値から構成され、それぞれが個々のトランザクションを表します。

シノニム: レコード、例、インスタンス、行

行 ID

(オプション) フラグは、もし指定する場合、予測出力に含まれる入力データ内の属性を示します。この属性を使用すると、予測と観測の対応性を関連付けしやすくなります。

シノニム: 行識別子

スキーマ 入力データを解釈するために必要な情報のことで、属性の名前および割り当てられたデータタイプ、特殊な属性の名前などが含まれます。
統計

入力データの各属性の統計の概要。これらの統計には 2 つの目的があります。

Amazon ML コンソールではグラフで表示され、データを一目で理解し、不規則性やエラーを特定するのに役立ちます。

Amazon ML はトレーニングプロセス中にそれらを使用し、作成される ML モデルの品質を向上させます。

ステータス データソースの現在の状態を示します (進行中完了、または失敗など)。
ターゲット属性

ML モデルのトレーニングにおいて、ターゲット属性は、「正しい」回答を含む入力データ内の属性の名前を識別します。Amazon ML では、これを使用して入力データ内のパターンを検出し、ML モデルを生成します。予測の評価と生成において、ターゲット属性はトレーニングされた ML モデルにより予測される値を持つ属性です。

シノニム: ターゲット

ML モデル

ML モデルは、データにパターンを見出すことで予測を生成する数学モデルです。Amazon ML は、バイナリ分類、複数クラス分類、回帰の 3 つのタイプの ML モデルに対応しています。

次の表では、ML モデルに関連する用語が定義されています。

期間 定義
回帰 回帰 ML モデルのトレーニングにおける目標は、数値を予測することです。
複数クラス 複数クラス ML モデルのトレーニングにおける目標は、制限され、事前定義された、一連の許容値に属する値を予測することです。
バイナリ バイナリ ML モデルのトレーニングにおける目標は、true または false のように 2 つの状態のいずれかとなる値を予測することです。
モデルサイズ ML モデルはパターンをキャプチャして保存します。ML モデルは、保存するパターンが多いほど、より大きくなります。ML モデルサイズは MB 単位で表されます。
パスの数 ML モデルをトレーニングするときは、データソースからのデータを使用します。各データレコードを学習プロセスの間に複数回利用することにメリットがある場合があります。Amazon ML が同じデータレコードを使用するのを許可した回数をパスの数と呼びます。
正則化 正則化は、高品質なモデルを得るために使用できる機械学習の手法です。Amazon ML は、ほとんどの場合は、デフォルトの設定でうまく機能します。

評価

評価は、ML モデルの品質を測定し、パフォーマンスに問題がないかを判断します。

次の表では、評価に関連する用語が定義されています。

期間 定義
モデルインサイト Amazon ML が提供するメトリクスと多数の洞察を活用して、モデルの予測パフォーマンスを評価できます。
AUC ROC の曲線下面積 (AUC) は、バイナリ ML モデルの能力を測定して、正の例についてより高いスコアを予測し負の例と比較します。
平均 F1 スコア マクロ平均 F1 スコアは、複数クラス ML モデルの予測パフォーマンスを評価するために使用します。
RMSE 二乗平均平方根誤差 (RMSE) は、回帰 ML モデルの予測パフォーマンスを評価するために使用されるメトリクスです。
カットオフ ML モデルは数値予測スコアを生成することで機能します。カットオフ値を適用することで、システムはこれらのスコアを 0 と 1 のラベルに変換します。
Accuracy 精度は正しい予測の割合 (%) を測定します。
精度 精度は、取得されたインスタンス (正と予測されたもの) のうち、実際の正の (誤検出ではない) インスタンスの割合を示します。つまり、選択された項目のうち、正であるものの数です。
リコール リコールは、該当するインスタンス (実際の正) の合計数のうち、実際の正の割合を示します。つまり、選択された正の項目の数です。

バッチ予測

バッチ予測は、すべてを一度に実行できる一連の観測です。これが最も適しているのは、リアルタイムの要件がない予測分析です。

次の表では、バッチ予測に関連する用語が定義されています。

期間 定義
Output Location バッチ予測の結果は S3 バケットの出力場所に保存されます。
マニフェストファイル このファイルは、各入力データファイルを、関係するバッチ予測の結果に関連付けます。これは S3 バケットの出力場所に保存されます。

リアルタイム予測

リアルタイム予測は、インタラクティブなウェブ、モバイル、またはデスクトップアプリケーションなど、低レイテンシーの要件があるアプリケーションに適しています。低レイテンシーのリアルタイム API を使用して、任意の ML モデルに対して予測のためのクエリを実行できます。

次の表では、リアルタイム予測に関連する用語が定義されています。

期間 定義
リアルタイム予測 API リアルタイム予測 API は、リクエストペイロードで 1 つの入力観測を受け入れ、レスポンスで予測を返します。
リアルタイム予測エンドポイント リアルタイム予測 API で ML モデルを使用するには、リアルタイム予測エンドポイントを作成する必要があります。一度作成されると、エンドポイントにはリアルタイム予測をリクエストするために使用できる URL が含まれます。