翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
を使用する理由 MLOps
個々の人工知能と機械学習 (AI/ML) プロジェクトの実行から AI/ML を使用して大規模なビジネス変革に移行すると、ML オペレーション (MLOps) の規律が役立ちます。MLOps は、プロジェクト管理、CI/CD、品質保証における AI/ML プロジェクトの独自の側面を考慮しており、配信時間の向上、欠陥の削減、データサイエンスの生産性の向上に役立ちます。MLOps は、機械学習ワークロードへの DevOps プラクティスの適用に基づいて構築された方法論を指します。 DevOps 原則の詳細については、 のホワイトペーパー「 の」の「 入門 DevOps AWS」を参照してください。 AWS サービスを使用した実装の詳細については、「 での CI/CD の実践 AWS
と同様に DevOps、 MLOps は、人、プロセス、テクノロジーが交差する機械学習開発ライフサイクルへの協力的で合理化されたアプローチに依存し、機械学習ワークロードの開発、構築、運用に必要なアクティビティを最適化します end-to-end。
MLOps は、データサイエンスとデータエンジニアリングを既存の DevOps プラクティスと組み合わせ、機械学習開発ライフサイクル全体でモデル配信を合理化することに重点を置いています。MLOps は、ML ワークロードをリリース管理、CI/CD、およびオペレーションに統合する分野です。MLOps には、ソフトウェア開発、オペレーション、データエンジニアリング、データサイエンスの統合が必要です。
での課題 MLOps
MLOps は、ビジネスの拡大に役立つ貴重なツールを提供することができますが、機械学習ワークロードMLOpsに統合する際に特定の問題が発生する可能性があります。
プロジェクト管理
-
ML プロジェクトには、比較的新しいロールであり、部門横断的なチームにあまり統合されることがないデータサイエンティストが関与します。このような新しいチームメンバーが使用する技術言語は、多くの場合、製品所有者やソフトウェアエンジニアが使うものとは非常に異なるため、ビジネス要件を技術要件に変換するという通常の問題を複雑化させます。
コミュニケーションとコラボレーション
-
ML プロジェクトの可視性を構築し、データエンジニア、データサイエンティスト、ML エンジニア、 など、さまざまな利害関係者間のコラボレーションを可能にする DevOps ことは、成果を確実に成功させるためにますます重要になっています。
コードがすべて
-
開発アクティビティでの本稼働用データの使用、実験ライフサイクルの長期化、データパイプラインへの依存関係、デプロイパイプラインの再トレーニング、モデルのパフォーマンスの評価における固有のメトリクス。
-
多くの場合、モデルは、これらのモデルと統合するアプリケーションやシステムとは無関係のライフサイクルを持ちます。
-
システム全体 end-to-endは、バージョニングされたコードとアーティファクトを通じて再現可能です。 DevOps プロジェクトは (IaC ) と Configuration-as-Code (CaC ) を使用して Infrastructure-as-Code環境を構築し、 Pipelines-as-Code (PaC ) を使用して一貫した CI/CD パターンを確保します。パイプラインは、ビッグデータや ML のトレーニングワークフローと統合する必要があります。これは、パイプラインが従来の CI/CD ツールと別のワークフローエンジンの組み合わせになることを意味します。reticulate パッケージの詳細については、「Python への R インターフェイス」を参照してください。入力データに偏りがあると、生み出される結果も偏ったものになることから、ビジネス上の利害関係者の関心が高まっています。
CI/CD
-
ではMLOps、ソースデータは、ソースコードとともにファーストクラスの入力です。そのため、ソースデータまたは推論データが変更されると、 がソースデータのバージョニングとパイプラインの開始MLOpsを要求します。
-
トレーサビリティを実現するためには、パイプラインでも、入力やその他の出力と共に ML モデルのバージョンを管理する必要があります。
-
ビルドフェーズ中およびモデルが本番環境にある場合には、自動テストに ML モデルの適切な検証を含める必要があります。
-
ビルドフェーズには、リソースを大量に消費し、時間のかかるプロセスであるモデルトレーニングと再トレーニングが含まれことがあります。関連するコンポーネントが変更されたときではなく、ソースデータまたは ML コードが変更された場合にのみ完全なトレーニングサイクルを実行するように、パイプラインを細分化する必要があります。
-
機械学習コードは通常、ソリューション全体のごく一部であるため、デプロイパイプラインには、モデルを他のアプリケーションやシステムによって として使用するためにパッケージ化するために必要な追加ステップも組み込まれAPIている場合があります。
モニタリングとログ記録
-
特徴量エンジニアリングやモデルトレーニングのフェーズでは、モデル実験だけでなく、モデルトレーニングのメトリクスを取得する必要がありました。機械学習モデルをチューニングするには、入力データの形式とアルゴリズムのハイパーパラメータを操作し、これらの実験を体系的に取得する必要があります。実験を追跡すると、データサイエンティストの作業が効率化され、作業の再現可能なスナップショットを取得できます。
-
デプロイされる ML モデルには、標準のエンドポイントの安定性とパフォーマンスメトリクス以外にも、推論のためにモデルに渡されるデータのモニタリングが必要です。モニタリングシステムは、適切な ML メトリクスによって評価される、モデル出力の品質も捉える必要があります。
MLOps の利点
MLOps プラクティスを採用すると、以下の利点を提供することで、ML プロジェクトをより迅速に time-to-market実現できます。
-
生産性: 厳選されたデータセットへのアクセス権をセルフサービス環境に提供することにより、データエンジニアとデータサイエンティストの作業が迅速化され、データの欠落や無効なデータによる時間の浪費を減らすことができます。
-
再現性 : のすべてのステップを自動化MLDCすることで、モデルのトレーニング、評価、バージョニング、デプロイ方法など、反復可能なプロセスを確実に実行できます。
-
信頼性: CI/CD プラクティスを組み込むことにより、迅速にデプロイできるだけでなく、品質と一貫性が向上します。
-
監査可能性: データサイエンスの実験からソースデータ、トレーニング済みモデルまで、すべての入力と出力をバージョン管理することにより、モデルの構築方法やデプロイ先を正確に実証できるようになります。
-
データおよびモデル品質 : MLOps モデルバイアスから保護するポリシーを適用し、データの統計プロパティとモデル品質に対する経時的な変更を追跡できます。