Amazon Athena で機械学習 (ML) を使用する
Machine Learning (ML) with Amazon Athena では、Amazon SageMaker を使用して Machine Learning (ML) 推論を実行する SQL ステートメントの記述に Athena を使用することができます。この機能により、データ分析用の ML モデルへのアクセスが簡単になり、複合型のプログラミング方法を使用して推論を実行する必要がなくなります。
ML with Athena を使用するには、USING EXTERNAL
FUNCTION
句で ML with Athena 関数を定義します。この関数は、使用する SageMaker モデルのエンドポイントをポイントし、モデルに渡す変数名とデータ型を指定します。クエリの後続の句は、関数を参照してモデルに値を渡します。モデルは、クエリが渡す値に基づいて推論を実行し、推論結果を返します。SageMaker と SageMaker エンドポイントの仕組みに関する詳細については、Amazon SageMaker デベロッパーガイドを参照してください。
ML with Athena と SageMaker 推論を使用して結果セット内の異常な値を検出する例については、AWS ビッグデータブログの記事「Amazon Athena 機械学習推論機能を起動して異常値を検出する
考慮事項と制限事項
-
利用可能なリージョン - Athena ML は、Athena エンジンバージョン 2 以降がサポートされている AWS リージョン の機能です。
-
SageMaker モデルのエンドポイントは
text/csv
を受け入れて返す必要があります – データ形式の詳細については、「Amazon SageMaker デベロッパーガイド」の「推論の共通データ形式」を参照してください。 -
Athena が CSV ヘッダーを送信しない – SageMaker エンドポイントが
text/csv
である場合、入力ハンドラーは入力の最初の行が CSV ヘッダーであると想定しません。Athena は CSV ヘッダーを送信しないため、Athena に返される出力に含まれる結果は Athena が想定する行よりも 1 行少なくなり、エラーが発生します。 -
SageMaker エンドポイントのスケーリング – 参照された SageMaker モデルのエンドポイントが、エンドポイントへの Athena コールのために十分にスケールアップされていることを確認してください。詳細については、「Amazon SageMaker デベロッパーガイド」の「Amazon SageMaker モデルの自動スケーリング」と、「Amazon SageMaker API リファレンス」の「CreateEndpointConfig」を参照してください。
-
IAM 許可 – ML with Athena 関数を指定するクエリを実行するには、クエリを実行する IAM プリンシパルに、参照される SageMaker モデルのエンドポイントへの
sagemaker:InvokeEndpoint
アクションの実行が許可されている必要があります。詳細については、「Athena で ML へのアクセスを許可する」を参照してください。 -
GROUP BY
句で ML with Athena 関数を直接使用することはできません