メトリクスリファレンス - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

メトリクスリファレンス

以下のセクションでは、各モデルタイプで Amazon SageMaker Canvas で使用できるメトリクスについて説明します。

数値予測のメトリクス

次のリストは、 SageMaker Canvas での数値予測のメトリクスを定義し、その使用方法に関する情報を提供します。

  • InferenceLatency – モデル予測をリクエストしてから、モデルがデプロイされるリアルタイムエンドポイントからモデル予測を受け取るまでのおおよその時間。このメトリクスは秒単位で測定され、Ensembling モードを使用して構築されたモデルでのみ使用できます。

  • MAE – 平均絶対誤差。平均して、ターゲット列の予測は実際の値から +/- {MAE} です。

    予測値と実際の値がすべての値で平均化されるときの差異を測定します。MAE は、モデル予測エラーを理解するために数値予測で一般的に使用されます。予測が線形の場合、 は予測された線から実際の値までの平均距離MAEを表します。MAE は、絶対エラーの合計を観測数で割った値として定義されます。値の範囲は 0 から無限大で、数字が小さいほど、モデルがよりデータに適合していることを示します。

  • MAPE – 平均絶対パーセント誤差。平均して、ターゲット列の予測は実際の値から +/- {MAPE} % です。

    MAPE は、実際の値と予測値または推定値との絶対差の平均を実際の値で割ったもので、パーセンテージで表されます。低い値は、予測値または推定値が実際の値に近いことを意味するため、パフォーマンスが向上MAPEすることを示します。

  • MSE – 平均二乗誤差、または予測値と実測値の二乗差の平均。

    MSE 値は常に正です。モデルが実際の値を予測できるほど、MSE値は小さくなります。

  • R2 - 入力列で説明可能なターゲット列の差のパーセンテージ。

    依存変数の分散をモデルが説明できる量を示します。値は 1 から -1 の範囲です。数値が大きいほど、説明された変動の割合が高いことを示します。ゼロ (0) に近い値は、モデルで説明できる依存変数がごくわずかであることを示します。負の値は、適合が悪く、モデルが定数関数 (または水平線) によってアウトパフォームされていることを示します。

  • RMSE – 二乗平均平方根誤差、または誤差の標準偏差。

    予測値と実測値の二乗差の平方根を測定し、すべての値で平均化されます。これはモデル予測エラーを理解するために使用され、大きなモデルエラーと外れ値の存在を示す重要なメトリクスです。値はゼロ (0) から無限大の範囲で、数値が小さいほど、モデルがデータにより適合していることを示します。RMSE はスケールに依存し、異なるタイプのデータセットの比較には使用しません。

カテゴリ予測のメトリクス

このセクションでは、 SageMaker Canvas でのカテゴリ予測のメトリクスを定義し、その使用方法に関する情報を提供します。

以下は、2 つのカテゴリの予測に使用できるメトリクスのリストです。

  • Accuracy (精度) - 正しい予測の割合 (%)。

    または、正しく予測された項目の数と予測の合計数の比率。精度は、予測されたクラス値が実際の値にどれだけ近いかを測定します。精度メトリクスの値は 0~1 の間で変化します。1 の値は完全な精度を示し、0 は完全な不正確さを示します。

  • AUC – モデルがデータセット内のカテゴリをどの程度分離できるかを示す 0 から 1 までの値。値 1 は、カテゴリを完全に分離できたことを示します。

  • BalancedAccuracy – すべての予測に対する正確な予測の比率を測定します。

    この比率は、真陽性 (TP) と真陰性 (TN) を陽性 (P) と陰性 (N) の合計数で正規化した後に計算します。これは次のように定義されます: 0.5*((TP/P)+(TN/N))0 から 1 までの値。バランス精度メトリクスは、E メールの 1% のみがスパムである場合など、不均衡なデータセットで正または負の数が大きく異なる場合の精度のより良い測定を提供します。

  • F1 - クラスバランスを考慮した、精度に関するバランス調整した尺度。

    これは、次のように定義される精度スコアとリコールスコアの調和平均です。 F1 = 2 * (precision * recall) / (precision + recall)F1 のスコアは 0~1 の間の値です。スコアが 1 の場合は可能な限り最高のパフォーマンスを示し、0 は最悪を示します。

  • InferenceLatency – モデル予測をリクエストしてから、モデルがデプロイされるリアルタイムエンドポイントからモデル予測を受け取るまでのおおよその時間。このメトリクスは秒単位で測定され、Ensembling モードを使用して構築されたモデルでのみ使用できます。

  • LogLoss – クロスエントロピー損失とも呼ばれるログ損失は、出力自体ではなく、確率出力の品質を評価するために使用されるメトリクスです。対数損失は、モデルが高い確率で誤った予測を行っていることを示す重要なメトリクスです。値の範囲は 0 から無限大です。値 0 は、データを完全に予測するモデルを表します。

  • 精度 – {category x} が予測されたすべての時間のうち、予測は時間の {precision}% で正しかった。

    精度は、アルゴリズムが識別したすべての陽性のうち、真陽性 (TP) をどの程度適切に予測したかを測定します。これは次のように定義されます: Precision = TP/(TP+FP)。値はゼロ (0) から 1 (1) の範囲です。偽陽性のコストが高い場合、精度は重要なメトリクスです。例えば、航空機の安全システムが誤って安全に飛行可能と判断した場合、偽陽性のコストは非常に高くなります。偽陽性 (FP) は、陽性予測であるが、データ内で実際には陰性であることを示します。

  • リコール – モデルは、{target_column} が実際に {category x} であったときに、{recall}% を {category x} と正しく予測しました。

    再現率は、アルゴリズムがデータセット内のすべての真陽性 (TP) をどれだけ正しく予測するかを測定します。真陽性は、陽性予測のうち、データ内で実際にも陽性である値を示します。リコールは次のように定義されます。 Recall = TP/(TP+FN)の値の範囲は 0~1 です。スコアが高いほど、データの真陽性 (TP) を予測するモデルの能力が高いことを示します。すべての出力を真陽性として予測すると完全なリコールスコアが得られるため、リコールのみを測定するには不十分であることが多いことに注意してください。

以下は、3 つ以上のカテゴリ予測に使用できるメトリクスのリストです。

  • Accuracy (精度) - 正しい予測の割合 (%)。

    または、正しく予測された項目の数と予測の合計数の比率。精度は、予測されたクラス値が実際の値にどれだけ近いかを測定します。精度メトリクスの値は 0~1 の間で変化します。1 の値は完全な精度を示し、0 は完全な不正確さを示します。

  • BalancedAccuracy – すべての予測に対する正確な予測の比率を測定します。

    この比率は、真陽性 (TP) と真陰性 (TN) を陽性 (P) と陰性 (N) の合計数で正規化した後に計算します。これは次のように定義されます: 0.5*((TP/P)+(TN/N))0 から 1 までの値。バランス精度メトリクスは、E メールの 1% のみがスパムである場合など、不均衡なデータセットで正または負の数が大きく異なる場合の精度のより良い測定を提供します。

  • F1macro – F1macro スコアは、精度と再現F1率を計算し、そのハーモニック平均を取って各クラスの F1 スコアを計算して F1 スコアを適用します。次に、F1macro は個々のスコアを平均して F1macro スコアを取得します。F1macro スコアは 0~1 の間の値です。スコアが 1 の場合は可能な限り最高のパフォーマンスを示し、0 は最悪を示します。

  • InferenceLatency – モデル予測をリクエストしてから、モデルがデプロイされるリアルタイムエンドポイントからモデル予測を受け取るまでのおおよその時間。このメトリクスは秒単位で測定され、Ensembling モードを使用して構築されたモデルでのみ使用できます。

  • LogLoss – クロスエントロピー損失とも呼ばれるログ損失は、出力自体ではなく、確率出力の品質を評価するために使用されるメトリクスです。対数損失は、モデルが高い確率で誤った予測を行っていることを示す重要なメトリクスです。値の範囲は 0 から無限大です。値 0 は、データを完全に予測するモデルを表します。

  • PrecisionMacro – 各クラスの精度を計算し、スコアを平均化して精度を測定し、複数のクラスの精度を取得します。スコアの範囲はゼロ (0) から 1 (1) です。スコアが高いほど、モデルが特定したすべての陽性のうち、真陽性 (TP) を予測した能力が高いこと (複数のクラスを平均化した結果) を示します。

  • RecallMacro – 各クラスのリコールを計算し、スコアを平均化して、複数のクラスのリコールを取得することで、リコールを測定します。スコアの範囲は 0~1 です。スコアが高いほど、データセット内の真陽性 (TP) を予測するモデルの能力が高いことを示します。真陽性は、陽性予測のうち、データ内で実際にも陽性である値です。再現率を測定するだけでは不十分な場合があります。すべての出力を真陽性として予測すると、完全な再現率スコアになってしまうためです。

3 つ以上のカテゴリ予測では、平均 F1、精度、精度、およびリコールメトリクスも受信されることに注意してください。これらのメトリクスのスコアは、すべてのカテゴリの平均的なメトリクススコアにすぎません。

イメージとテキストの予測のメトリクス

以下は、画像予測とテキスト予測に使用できるメトリクスのリストです。

  • Accuracy (精度) - 正しい予測の割合 (%)。

    または、正しく予測された項目の数と予測の合計数の比率。精度は、予測されたクラス値が実際の値にどれだけ近いかを測定します。精度メトリクスの値は 0~1 の間で変化します。1 の値は完全な精度を示し、0 は完全な不正確さを示します。

  • F1 - クラスバランスを考慮した、精度に関するバランス調整した尺度。

    これは、次のように定義される精度スコアとリコールスコアの調和平均です。 F1 = 2 * (precision * recall) / (precision + recall)F1 のスコアは 0~1 の間の値です。スコアが 1 の場合は可能な限り最高のパフォーマンスを示し、0 は最悪を示します。

  • 精度 – {category x} が予測されたすべての時間のうち、予測は時間の {precision}% で正しかった。

    精度は、アルゴリズムが識別したすべての陽性のうち、真陽性 (TP) をどの程度適切に予測したかを測定します。これは次のように定義されます: Precision = TP/(TP+FP)。値はゼロ (0) から 1 (1) の範囲です。偽陽性のコストが高い場合、精度は重要なメトリクスです。例えば、航空機の安全システムが誤って安全に飛行可能と判断した場合、偽陽性のコストは非常に高くなります。偽陽性 (FP) は、陽性予測であるが、データ内で実際には陰性であることを示します。

  • リコール – モデルは、{target_column} が実際に {category x} であったときに、{recall}% を {category x} と正しく予測しました。

    再現率は、アルゴリズムがデータセット内のすべての真陽性 (TP) をどれだけ正しく予測するかを測定します。真陽性は、陽性予測のうち、データ内で実際にも陽性である値を示します。リコールは次のように定義されます。 Recall = TP/(TP+FN)の値の範囲は 0~1 です。スコアが高いほど、データの真陽性 (TP) を予測するモデルの能力が高いことを示します。すべての出力を真陽性として予測すると完全なリコールスコアが得られるため、リコールのみを測定するには不十分であることが多いことに注意してください。

3 つ以上のカテゴリを予測するイメージおよびテキスト予測モデルの場合、平均 F1、精度、精度、およびリコールメトリクスも受信されることに注意してください。これらのメトリクスのスコアは、すべてのカテゴリのメトリクススコアの平均にすぎません。

時系列予測のメトリクス

以下は、Amazon SageMaker Canvas の時系列予測の高度なメトリクスを定義し、その使用方法に関する情報を提供します。

  • 平均重み付き分位損失 (wQL) — P10、P50、P90 の分位数で精度を平均して予測を評価します。値が小さいほど、モデルの精度が高くなります。

  • 加重絶対パーセント誤差 (WAPE) – 絶対ターゲットの合計で正規化された絶対誤差の合計。観測値からの予測値の全体的な偏差を測定します。値が小さいほど、より正確なモデルを示します。WAPE= 0 はエラーのないモデルです。

  • 二乗平均平方根誤差 (RMSE) – 平均二乗誤差の二乗根。低い値はより正確なモデルRMSEを示し、RMSE= 0 はエラーのないモデルです。

  • 平均絶対パーセント誤差 (MAPE) – すべての時点の平均パーセント誤差 (平均予測値と実際の値の差)。値が小さいほど、より正確なモデルを示します。MAPE= 0 はエラーのないモデルです。

  • 平均絶対スケーリングエラー (MASE) – 単純なベースライン予測方法の平均絶対エラーで正規化された予測の平均絶対エラー。値が小さいほど、より正確なモデルを示します。MASE< 1 はベースラインよりも良好であると推定され、MASE> 1 はベースラインよりも悪いと推定されます。