メトリクスリファレンス - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

メトリクスリファレンス

以下のセクションでは、Amazon Canvas SageMaker で使用できる各モデルタイプのメトリクスについて説明します。

数値予測のメトリクス

次のリストは、 SageMaker Canvas での数値予測のメトリクスを定義し、その使用方法に関する情報を提供します。

  • InferenceLatency – モデル予測をリクエストしてから、モデルがデプロイされるリアルタイムエンドポイントからモデル予測を受信するまでのおおよその時間。このメトリクスは秒単位で測定され、アンサンブルモードで構築されたモデルでのみ使用できます。

  • MAE – 平均絶対誤差。平均して、ターゲット列の予測は実際の値から +/- {MAE} です。

    予測値と実際の値がすべての値で平均化されるときの差異を測定します。MAE は、モデル予測エラーを理解するために数値予測で一般的に使用されます。予測が線形の場合、 は予測線から実際の値までの平均距離MAEを表します。MAE は、絶対誤差の合計を観測値の数で割った値として定義されます。値の範囲は 0 から無限大で、数字が小さいほど、モデルがよりデータに適合していることを示します。

  • MAPE – 平均絶対パーセント誤差。平均して、ターゲット列の予測は実際の値から +/- {MAPE} % です。

    MAPE は、実際の値と予測値または推定値との絶対差の平均を実際の値で割ってパーセンテージで表したものです。低いほど、予測値または推定値が実際の値に近いため、パフォーマンスが向上するMAPEことを示します。

  • MSE – 平均二乗誤差、または予測値と実際の値との二乗差の平均。

    MSE 値は常に正です。モデルが実際の値を予測できるほど、MSE値が小さくなります。

  • R2 - 入力列で説明可能なターゲット列の差のパーセンテージ。

    モデルが従属変数の分散を説明できる量を定量化します。値は 1 から -1 の範囲です。数値が大きいほど、説明された変動の割合が高いことを示します。ゼロ (0) に近い値は、モデルで説明できる依存変数はほとんどないことを示します。負の値は、適合率が低く、モデルが定数関数 (または水平線) によってパフォーマンスが上回っていることを示します。

  • RMSE – 二乗平均平方根誤差、または誤差の標準偏差。

    予測値と実際の値との二乗差の平方根を測定し、すべての値で平均化されます。これはモデル予測エラーを理解するために使用され、大きなモデルエラーと外れ値の存在を示す重要なメトリクスです。値はゼロ (0) から無限大の範囲で、数値が小さいほど、モデルがデータにより適合していることを示します。RMSE はスケールに依存しているため、異なるタイプのデータセットの比較には使用しないでください。

カテゴリ予測のメトリクス

このセクションでは、 SageMaker Canvas でのカテゴリ予測のメトリクスを定義し、その使用方法について説明します。

以下は、2 カテゴリ予測に使用できるメトリクスのリストです。

  • Accuracy (精度) - 正しい予測の割合 (%)。

    または、正しく予測された項目の数と予測の合計数の比率。精度は、予測されたクラス値が実際の値にどれだけ近いかを測定します。精度メトリクスの値は 0~1 の間で変化します。値 1 は完全な精度を示し、0 は完全な不正確さを示します。

  • AUC – モデルがデータセット内のカテゴリをどの程度適切に分離できるかを示す 0 から 1 までの値。値 1 は、カテゴリを完全に分離できたことを示します。

  • BalancedAccuracy – すべての予測に対する正確な予測の比率を測定します。

    この比率は、真陽性 (TP) と真陰性 (TN) を陽性 (P) と陰性 (N) の合計数で正規化した後に計算します。これは次のように定義されます: 0.5*((TP/P)+(TN/N))、値の範囲は 0~1 です。バランス精度メトリクスは、E メールの 1% だけがスパムである場合など、不均衡なデータセットで正または負の数が大きく異なる場合、精度のより良い測定を提供します。

  • F1 - クラスバランスを考慮した、精度に関するバランス調整した尺度。

    これは、精度スコアと再現率スコアの調和平均で、次のように定義されます。F1 = 2 * (precision * recall) / (precision + recall)。F1 のスコアは 0~1 の間の値です。スコアが 1 の場合は可能な限り最高のパフォーマンスを示し、0 は最悪を示します。

  • InferenceLatency – モデル予測をリクエストしてから、モデルがデプロイされるリアルタイムエンドポイントからモデル予測を受信するまでのおおよその時間。このメトリクスは秒単位で測定され、アンサンブルモードで構築されたモデルでのみ使用できます。

  • LogLoss – ログ損失は、クロスエントロピー損失とも呼ばれ、出力自体ではなく確率出力の品質を評価するために使用されるメトリクスです。対数損失は、モデルが高い確率で誤った予測を行っていることを示す重要なメトリクスです。値の範囲は 0 から無限大です。値 0 は、データを完全に予測するモデルを表します。

  • 精度 — {カテゴリ x} が予測されたすべての時間のうち、予測は時間の {精度}% で正しかった。

    精度は、アルゴリズムが識別したすべての陽性のうち、真陽性 (TP) をどの程度適切に予測したかを測定します。これは次のように定義されます: Precision = TP/(TP+FP)。値の範囲は 0 (0) から 1 (1) です。偽陽性のコストが高い場合、精度は重要なメトリクスです。例えば、航空機の安全システムが誤って安全に飛行可能と判断した場合、偽陽性のコストは非常に高くなります。偽陽性 (FP) は、陽性予測であるが、データ内で実際には陰性であることを示します。

  • 再現率 — {target_column} が実際に {category x} であった場合、モデルは {recall}% を {category x} と正しく予測しました。

    再現率は、アルゴリズムがデータセット内のすべての真陽性 (TP) をどれだけ正しく予測するかを測定します。真陽性は、陽性予測のうち、データ内で実際にも陽性である値を示します。リコールは次のように定義されます。 Recall = TP/(TP+FN)の値の範囲は 0~1 です。スコアが高いほど、データの真陽性 (TP) を予測するモデルの能力が高いことを示します。すべての出力を真陽性として予測すると完全な再現率スコアが得られるため、再現率のみを測定するには不十分であることが多いことに注意してください。

以下は、3+ カテゴリ予測に使用できるメトリクスのリストです。

  • Accuracy (精度) - 正しい予測の割合 (%)。

    または、正しく予測された項目の数と予測の合計数の比率。精度は、予測されたクラス値が実際の値にどれだけ近いかを測定します。精度メトリクスの値は 0~1 の間で変化します。値 1 は完全な精度を示し、0 は完全な不正確さを示します。

  • BalancedAccuracy – すべての予測に対する正確な予測の比率を測定します。

    この比率は、真陽性 (TP) と真陰性 (TN) を陽性 (P) と陰性 (N) の合計数で正規化した後に計算します。これは次のように定義されます: 0.5*((TP/P)+(TN/N))、値の範囲は 0~1 です。バランス精度メトリクスは、E メールの 1% だけがスパムである場合など、不均衡なデータセットで正または負の数が大きく異なる場合、精度のより良い測定を提供します。

  • F1macro – F1macro スコアは、精度と再現F1率を計算し、その調和平均を取得して各クラスの F1 スコアを計算することで F1 スコアを適用します。次に、F1macro は個々のスコアを平均して F1macro スコアを取得します。F1macro スコアは 0~1 の間の値です。スコアが 1 の場合は可能な限り最高のパフォーマンスを示し、0 は最悪を示します。

  • InferenceLatency – モデル予測をリクエストしてから、モデルがデプロイされるリアルタイムエンドポイントからモデル予測を受信するまでのおおよその時間。このメトリクスは秒単位で測定され、アンサンブルモードで構築されたモデルでのみ使用できます。

  • LogLoss – ログ損失は、クロスエントロピー損失とも呼ばれ、出力自体ではなく確率出力の品質を評価するために使用されるメトリクスです。対数損失は、モデルが高い確率で誤った予測を行っていることを示す重要なメトリクスです。値の範囲は 0 から無限大です。値 0 は、データを完全に予測するモデルを表します。

  • PrecisionMacro – 各クラスの精度を計算し、スコアを平均化して精度を測定し、複数のクラスの精度を取得します。スコアの範囲は 0 (0) から 1 (1) です。スコアが高いほど、モデルが特定したすべての陽性のうち、真陽性 (TP) を予測した能力が高いこと (複数のクラスを平均化した結果) を示します。

  • RecallMacro – 各クラスのリコールを計算し、スコアを平均化して複数のクラスのリコールを取得することで、リコールを測定します。スコアの範囲は 0~1 です。スコアが高いほど、データセット内の真陽性 (TP) を予測するモデルの能力が高いことを示します。真陽性は、陽性予測のうち、データ内で実際にも陽性である値です。再現率を測定するだけでは不十分な場合があります。すべての出力を真陽性として予測すると、完全な再現率スコアになってしまうためです。

3+ カテゴリ予測では、平均 F1、精度、精度、およびリコールメトリクスも受け取ることに注意してください。これらのメトリクスのスコアは、すべてのカテゴリで平均化されたメトリクススコアにすぎません。

画像とテキストの予測のメトリクス

以下は、画像予測とテキスト予測に使用できるメトリクスのリストです。

  • Accuracy (精度) - 正しい予測の割合 (%)。

    または、正しく予測された項目の数と予測の合計数の比率。精度は、予測されたクラス値が実際の値にどれだけ近いかを測定します。精度メトリクスの値は 0~1 の間で変化します。値 1 は完全な精度を示し、0 は完全な不正確さを示します。

  • F1 - クラスバランスを考慮した、精度に関するバランス調整した尺度。

    これは、精度スコアと再現率スコアの調和平均で、次のように定義されます。F1 = 2 * (precision * recall) / (precision + recall)。F1 のスコアは 0~1 の間の値です。スコアが 1 の場合は可能な限り最高のパフォーマンスを示し、0 は最悪を示します。

  • 精度 — {カテゴリ x} が予測されたすべての時間のうち、予測は時間の {精度}% で正しかった。

    精度は、アルゴリズムが識別したすべての陽性のうち、真陽性 (TP) をどの程度適切に予測したかを測定します。これは次のように定義されます: Precision = TP/(TP+FP)。値の範囲は 0 (0) から 1 (1) です。偽陽性のコストが高い場合、精度は重要なメトリクスです。例えば、航空機の安全システムが誤って安全に飛行可能と判断した場合、偽陽性のコストは非常に高くなります。偽陽性 (FP) は、陽性予測であるが、データ内で実際には陰性であることを示します。

  • 再現率 — {target_column} が実際に {category x} であった場合、モデルは {recall}% を {category x} と正しく予測しました。

    再現率は、アルゴリズムがデータセット内のすべての真陽性 (TP) をどれだけ正しく予測するかを測定します。真陽性は、陽性予測のうち、データ内で実際にも陽性である値を示します。リコールは次のように定義されます。 Recall = TP/(TP+FN)の値の範囲は 0~1 です。スコアが高いほど、データの真陽性 (TP) を予測するモデルの能力が高いことを示します。すべての出力を真陽性として予測すると完全な再現率スコアが得られるため、再現率のみを測定するには不十分であることが多いことに注意してください。

3 つ以上のカテゴリを予測する画像予測モデルとテキスト予測モデルの場合、平均 F1、精度、精度、およびリコールメトリクスも受け取ることに注意してください。これらのメトリクスのスコアは、すべてのカテゴリのメトリクススコアの平均にすぎません。

時系列予測のメトリクス

以下は、Amazon SageMaker Canvas の時系列予測の高度なメトリクスを定義し、その使用方法に関する情報を提供します。

  • 平均重み付き分位損失 (wQL) — P10、P50、P90 の分位数で精度を平均して予測を評価します。値が小さいほど、モデルの精度が高くなります。

  • 重み付き絶対パーセント誤差 (WAPE) — 絶対ターゲットの合計で正規化された絶対誤差の合計。観測値からの予測値の全体的な偏差を測定します。値が小さいほど、より正確なモデルが示され、WAPE= 0 はエラーのないモデルです。

  • 二乗平均平方根誤差 (RMSE) — 平均二乗誤差の平方根。小さいほどより正確なモデルRMSEを示し、RMSE= 0 はエラーのないモデルです。

  • 平均絶対パーセント誤差 (MAPE) — すべての時間ポイントで平均されたパーセント誤差 (平均予測値と実際の値の差)。値が小さいほど、より正確なモデルが示され、MAPE= 0 はエラーのないモデルです。

  • 平均絶対スケーリング誤差 (MASE) — 単純なベースライン予測方法の平均絶対誤差で正規化された予測の平均絶対誤差。値が小さいほど、より正確なモデルが示され、MASE< 1 はベースラインよりも良好であると推定され、MASE> 1 はベースラインよりも悪いと推定されます。