翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
分析
AWS は、すべてのデータ分析ニーズに合った包括的な分析サービスセットを提供し、あらゆる規模や業界の組織がデータを使用してビジネスを再構築できるようにします。ストレージと管理、データガバナンス、アクション、エクスペリエンスから、 は、最高の価格パフォーマンス、スケーラビリティ、低コストを提供する専用サービス AWS を提供します。
各サービスは図の後に説明されています。ニーズに最も合ったサービスを決定するには、AWS 「分析サービスの選択」を参照してください。一般的な情報については、「 の分析 AWS」を参照してください。
に戻りますAWS サービス。
Amazon Athena
「Amazon Athena」は、Amazon S3 内のデータを標準 SQL を使用して簡単に分析できるインタラクティブなクエリサービスです。Athena はサーバーレスであることから管理するインフラストラクチャがなく、実行したクエリの料金のみを支払います。
Athena は使いやすいです。Amazon S3 のデータを参照し、スキーマを定義して、標準 SQL を使用してクエリを開始するだけです。ほとんどの結果は数秒以内に配信されます。Athena では、分析用にデータを準備するための複雑な抽出、変換、ロード (ETL) ジョブは必要ありません。これにより、SQL スキルを持つすべてのユーザーが大規模なデータセットをすばやく分析することが容易になります。
Athena は out-of-the-box と統合されているため AWS Glue Data Catalog、さまざまな サービスにまたがって統合メタデータリポジトリを作成し、データソースをクロールしてスキーマを検出し、カタログに新規および変更されたテーブルとパーティション定義を入力し、スキーマのバージョニングを維持できます。
Amazon CloudSearch
Amazon CloudSearch は、ウェブサイトまたはアプリケーションの検索ソリューションを簡単に、費用対効果の高い方法でセットアップ、管理、スケーリング AWS クラウド できる のマネージドサービスです。Amazon CloudSearch は、34 の言語と、強調表示、オートコンプリート、地理空間検索などの一般的な検索機能をサポートしています。
Amazon DataZone
Amazon DataZone は、データを公開し、パーソナライズされたウェブアプリケーションを通じてビジネスデータカタログで使用できるデータ管理サービスです。データの保存場所、オンプレミス AWS、または Salesforce などの SaaS アプリケーションに関係なく、より安全にデータにアクセスできます。Amazon DataZone は、Amazon Redshift、Amazon Athena、 AWS Glue AWS Lake Formation、Amazon QuickSight などの AWS サービス全体のエクスペリエンスを簡素化します。
Amazon EMR
Amazon EMR は、Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi、Presto などのオープンソースツールを使用して膨大な量のデータを処理するための、業界をリードするクラウドビッグデータプラットフォームです。Amazon EMR では、容量のプロビジョニングやクラスターのチューニングなどの時間のかかるタスクを自動化することで、ビッグデータ環境のセットアップ、運用、スケーリングを簡単に行うことができます。Amazon EMR を使用すると、ペタバイト規模の分析を従来のオンプレミスソリューションのコストの半分未満で実行でき、標準の Apache Spark よりも 3 倍以上高速になります。Amazon EC2 インスタンス、Amazon Elastic Kubernetes Service (Amazon EKS) クラスター、または Amazon EMR on を使用してオンプレミスでワークロードを実行できます AWS Outposts。
Amazon FinSpace
Amazon FinSpace は、金融サービス業界 (FSI) に特化したデータ管理および分析サービスです。FinSpace は、ペタバイト単位の財務データを見つけて準備し、分析の準備を整える時間を短縮します。
金融サービス組織は、ポートフォリオ、保険数理、リスク管理システムなどの内部データストアからのデータと、株式取引の過去の証券価格など、サードパーティーのデータフィードからのペタバイトのデータを分析します。適切なデータを検索し、準拠した方法でデータにアクセスするためのアクセス許可を取得し、分析の準備をするには、数か月かかることがあります。
FinSpace は、財務分析用のデータ管理システムの構築と保守の面倒な作業を排除します。FinSpace では、データを収集し、アセットクラス、リスク分類、地理的リージョンなどの関連するビジネス概念別に分類します。FinSpace を使用すると、コンプライアンス要件に従って組織全体のデータを簡単に検出して共有できます。データアクセスポリシーを 1 か所で定義すると、FinSpace は監査ログを保持しながらポリシーを適用し、コンプライアンスとアクティビティのレポートを許可します。FinSpace には、分析用のデータを準備するためのタイムバーやボリンガーバンドなど、100 以上の関数のライブラリも含まれています。
Amazon Kinesis
Amazon Kinesis を使用すると、リアルタイムのストリーミングデータを簡単に収集、処理、分析できるため、タイムリーなインサイトが得られ、新しい情報に迅速に対応できます。Amazon Kinesis は、あらゆる規模でストリーミングデータを費用対効果の高い方法で処理するための主要な機能を提供し、アプリケーションの要件に最適なツールを柔軟に選択できます。Amazon Kinesis を使用すると、ビデオ、オーディオ、アプリケーションログ、ウェブサイトのクリックストリーム、機械学習 (ML)、分析、その他のアプリケーション用の IoT テレメトリデータなどのリアルタイムデータを取り込むことができます。Amazon Kinesis を使用すると、すべてのデータが収集されてから処理が開始されるのを待つことなく、到着したデータを処理して分析し、すぐに応答できます。
Amazon Kinesis は現在、Firehose、Managed Service for Apache Flink、Kinesis Data Streams、Kinesis Video Streams の 4 つのサービスを提供しています。
Amazon Data Firehose
Amazon Data Firehose は、ストリーミングデータをデータストアや分析ツールに確実にロードする最も簡単な方法です。Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Splunk にストリーミングデータをキャプチャ、変換、ロードできるため、現在既に使用している既存のビジネスインテリジェンスツールやダッシュボードでほぼリアルタイムの分析が可能になります。これは、データのスループットに合わせて自動的にスケーリングするフルマネージドサービスであり、継続的な管理は必要ありません。また、データをロードする前にバッチ処理、圧縮、変換、暗号化して、送信先で使用されるストレージの量を最小限に抑え、セキュリティを強化することもできます。
から Firehose 配信ストリームを簡単に作成し AWS Management Console、数回のクリックで設定し、数十万のデータソースからのストリームへのデータの送信を開始して継続的にロードできます。 AWSすべて数分で完了します。データを Amazon S3 に配信する前に、受信データを Apache Parquet や Apache ORC などの列形式に自動的に変換するように配信ストリームを設定して、コスト効率の高いストレージと分析を行うこともできます。
Amazon Managed Service for Apache Flink
Amazon Managed Service for Apache Flink は、ストリーミングデータを分析し、実用的なインサイトを取得し、ビジネスと顧客のニーズにリアルタイムで対応するための最も簡単な方法です。Amazon Managed Service for Apache Flink は、ストリーミングアプリケーションの構築、管理、および他の AWS サービスとの統合の複雑さを軽減します。SQL ユーザーは、 テンプレートとインタラクティブな SQL エディタを使用して、ストリーミングデータにクエリを実行したり、ストリーミングアプリケーション全体を構築したりできます。Java デベロッパーは、オープンソースの Java ライブラリと AWS 統合を使用して高度なストリーミングアプリケーションをすばやく構築し、データをリアルタイムで変換および分析できます。
Amazon Managed Service for Apache Flink は、クエリを継続的に実行するために必要なすべてを処理し、受信データのボリュームとスループットレートに合わせて自動的にスケーリングします。
Amazon Kinesis Data Streams
Amazon Kinesis Data Streams は、非常にスケーラブルで耐久性の高いリアルタイムデータストリーミングサービスです。Kinesis Data Streams は、ウェブサイトのクリックストリーム、データベースイベントストリーム、金融取引、ソーシャルメディアフィード、IT ログ、位置追跡イベントなど、数十万のソースから 1 秒あたり数ギガバイトのデータを継続的にキャプチャできます。収集されたデータはミリ秒単位で利用でき、リアルタイムダッシュボード、リアルタイム異常検出、動的料金などのリアルタイム分析のユースケースを可能にします。
Amazon Kinesis Video Streams
Amazon Kinesis Video Streams を使用すると、接続されたデバイスから にビデオを安全にストリーミングして、 AWS 分析、ML、再生、その他の処理を行うことができます。Kinesis Video Streams は、何百万ものデバイスからストリーミングビデオデータを取り込むために必要なすべてのインフラストラクチャを自動的にプロビジョニングし、伸縮自在にスケーリングします。また、ビデオデータをストリームに永続的に保存、暗号化、インデックス化し、easy-to-useを介してデータにアクセスできます。 APIs Kinesis Video Streams を使用すると、ライブおよびオンデマンド視聴用に動画を再生し、Amazon Rekognition Video との統合を通じてコンピュータビジョンとビデオ分析を活用するアプリケーション、および Apache MxNet、TensorFlow、OpenCV などの ML フレームワーク用のライブラリをすばやく構築できます。
Amazon OpenSearch Service
Amazon OpenSearch Service (OpenSearch Service) を使用すると、OpenSearch のデプロイ、保護、運用、スケーリングが容易になり、データの検索、分析、視覚化をリアルタイムで行うことができます。Amazon OpenSearch Service を使用すると、easy-to-useとリアルタイム分析機能を使用して、ログ分析、全文検索、アプリケーションモニタリング、クリックストリーム分析などのユースケースを強化し、エンタープライズグレードの可用性、スケーラビリティ、セキュリティを実現します。 APIs このサービスは、OpenSearch Dashboards や Logstash などのオープンソースツールとの統合を提供し、データの取り込みと視覚化を可能にします。また、Amazon Virtual Private Cloud (Amazon VPC)AWS Key Management Service、 (AWS KMS)、Amazon Data Firehose、AWS Lambda、 AWS Identity and Access Management (IAM)、Amazon Cognito、Amazon CloudWatch などの他の AWS サービスとシームレスに統合されるため、raw データから実用的なインサイトにすばやく移行できます。
Amazon OpenSearch Serverless
Amazon OpenSearch Serverless は、Amazon OpenSearch Service のサーバーレスオプションです。開発者は、OpenSearch Serverless を使用して、OpenSearch クラスターを設定、管理、スケーリングすることなく、ペタバイト規模のワークロードを実行できます。サーバーレス環境のシンプルさにより、OpenSearch Service と同じインタラクティブミリ秒の応答時間が得られます。
Amazon OpenSearch Serverless のベクトルエンジンは、シンプルでスケーラブルで高性能なベクトルストレージおよび検索機能を追加し、開発者がベクトルデータベースインフラストラクチャを管理することなく ML 拡張検索エクスペリエンスと生成 AI アプリケーションを構築できるようにします。ベクトル検索コレクションのユースケースには、画像検索、ドキュメント検索、音楽検索、製品のレコメンデーション、動画検索、位置ベースの検索、不正検出、異常検出などが含まれます。
Amazon Redshift
Amazon Redshift は、最も広く使用されているクラウドデータウェアハウスです。これにより、標準の SQL と既存のビジネスインテリジェンス (BI) ツールを使用して、すべてのデータを高速、シンプル、費用対効果の高い方法で分析できます。これにより、高度なクエリの最適化、高性能ストレージの列指向ストレージ、超並列クエリの完了を使用して、テラバイトからペタバイトまでの構造化データおよび半構造化データに対して複雑な分析クエリを実行できます。ほとんどの結果は数秒で返されます。コミットメントなしで 1 時間あたり 0.25 USD で小規模から始め、従来のオンプレミスソリューションの 10 分の 1 未満のコストで、1 テラバイトあたり 1,000 USD でペタバイトのデータにスケールアウトできます。
Amazon Redshift Serverless
Amazon Redshift Serverless を使用すると、データウェアハウスインフラストラクチャを管理することなく、分析の実行とスケーリングが容易になります。開発者、データサイエンティスト、アナリストは、データベース、データウェアハウス、データレイクを横断して、レポートおよびダッシュボードアプリケーションの構築、ほぼリアルタイムの分析の実行、データの共有と共同作業、機械学習 (ML) モデルの構築とトレーニングを行うことができます。大量のデータからインサイトに数秒で移行できます。Amazon Redshift Serverless は、データウェアハウスの容量を自動的にプロビジョニングしてインテリジェントにスケーリングし、最も要求の厳しい予測不可能なワークロードでも高速なパフォーマンスを実現します。また、使用した分だけ料金が発生します。Amazon Redshift クエリエディタまたはお好みのビジネスインテリジェンス (BI) ツールでデータをロードしてすぐにクエリを開始するだけで、easy-to-useゼロ管理環境で最高の価格パフォーマンスと使い慣れた SQL 機能を引き続き利用できます。
Amazon QuickSight
Amazon QuickSight は、組織内のすべてのユーザーにインサイトを簡単に提供できる、高速でクラウドを活用したビジネスインテリジェンス (BI) サービスです。QuickSight では、ブラウザやモバイルデバイスからアクセスできるインタラクティブなダッシュボードを作成して公開できます。ダッシュボードをアプリケーションに埋め込むことができ、顧客に強力なセルフサービス分析を提供できます。Amazon QuickSight は、インストールするソフトウェア、デプロイするサーバー、または管理するインフラストラクチャなしで、数万人のユーザーに簡単にスケールできます。
AWS Clean Rooms
AWS Clean Rooms は、相互の基になるデータを共有またはコピーすることなく、企業とそのパートナーが集合データセットをより簡単かつ安全に分析および共同作業できるようにします。を使用すると AWS Clean Rooms、お客様は安全なデータクリーンルームを数分で作成し、 で他の企業と協力して、広告キャンペーン、投資決定、研究と開発に関する独自のインサイト AWS クラウド を生成できます。
AWS Data Exchange
AWS Data Exchange を使用すると、クラウド内のサードパーティーデータを簡単に検索、サブスクライブ、使用できます。認定データプロバイダーには、""、 複数の言語で年間 220 万を超えるユニークなニュースからデータをキュレートする。 ヘルスケアの変更 年間 140 億件を超える医療取引と 1 兆ドルの請求を処理して匿名化する。 Dun & Bradstreet 3 億 3,000 万件を超えるグローバルビジネスレコードのデータベースを維持する 。 および Foursquare、 その位置情報データは 2 億 2,000 万のユニークコンシューマーから派生し、6,000 万を超えるグローバル商用会場が含まれています。
データ製品をサブスクライブしたら、 AWS Data Exchange API を使用してデータを Amazon S3 に直接ロードし、さまざまな AWS 分析および ML サービスで分析できます。例えば、 プロパティ保険者は、データをサブスクライブして過去の気象パターンを分析し、さまざまな地域で保険カバレッジ要件をキャリブレーションできます。 レストランは、人口と位置データをサブスクライブして、拡張に最適なリージョンを特定できます。 学術研究者は、二酸化炭素排出量に関するデータをサブスクライブすることで、気候の変化に関する研究を行うことができます。 および の医療専門家は、過去の臨床トライアルから集約されたデータをサブスクライブして、研究活動を加速できます。
データプロバイダーの場合、 AWS Data Exchange は、データストレージ、配信、請求、および利用のためのインフラストラクチャを構築して維持する必要がなくなるため、クラウドに移行する何百万人もの AWS お客様に簡単にアクセスできます。
AWS Data Pipeline
AWS Data Pipeline は、異なる AWS コンピューティングサービスやストレージサービス、オンプレミスデータソース間で、指定された間隔でデータを確実に処理および移動できるようにするウェブサービスです。を使用すると AWS Data Pipeline、保存されているデータに定期的にアクセスし、大規模な変換と処理を行い、結果を Amazon S3、Amazon RDS、Amazon DynamoDB、Amazon EMR などの AWS のサービスに効率的に転送できます。
AWS Data Pipeline は、耐障害性、反復性、可用性の高い複雑なデータ処理ワークロードを簡単に作成できます。リソースの可用性の確保、タスク間の依存関係の管理、個々のタスクでの一時的な障害やタイムアウトの再試行、障害通知システムの作成について心配する必要はありません。 AWS Data Pipeline また、 では、以前にオンプレミスのデータサイロに閉じ込められたデータを移動して処理することもできます。
AWS エンティティの解決
AWS Entity Resolution は、カスタムソリューションを構築せずに、複数のアプリケーション、チャネル、データストアに保存されている関連レコードを照合してリンクするのに役立つサービスです。柔軟で設定可能な ML およびルールベースの手法を使用して、 AWS Entity Resolution は重複したレコードを削除し、さまざまな顧客インタラクションを結び付けて顧客プロファイルを作成し、広告やマーケティングキャンペーン、ロイヤルティプログラム、e コマース全体でエクスペリエンスをパーソナライズできます。例えば、広告クリック、カートの放棄、購入などの最近のイベントを一意の一致 ID にリンクすることで、顧客とのやりとりの統合ビューを作成できます。
AWS Glue
AWS Glue は、お客様が分析用のデータを簡単に準備してロードできるようにする、フルマネージド型の抽出、変換、ロード (ETL) サービスです。で数回クリックするだけで、ETL ジョブを作成して実行できます AWS Management Console。に保存されているデータ AWS Glue を指すだけで AWS、 はデータ AWS Glue を検出し、関連するメタデータ (テーブル定義やスキーマなど) を に保存します AWS Glue Data Catalog。カタログ化されると、データはすぐに検索可能、クエリ可能、ETL で使用可能になります。
AWS Glue データ統合エンジンは、Apache Spark、PySpark、Python を使用してデータへのアクセスを提供します。 AWS Glue for Ray を追加することで、オープンソースの統合コンピューティングフレームワークである Ray を使用してワークロードをさらに拡張できます。
AWS Glue Data Quality は、Amazon S3 ベースのデータレイク、データウェアハウス、およびその他のデータリポジトリのデータ品質を測定およびモニタリングできます。統計を自動的に計算し、品質ルールを推奨し、欠落データ、古いデータ、または不正なデータを検出したときにモニタリングして警告できます。 AWS Glue Data Catalog および ETL AWS Glue Data Catalog ジョブでアクセスできます。
AWS Lake Formation は、数日で簡単にセキュアなデータレイクを構築できるサービスです。データレイクは、分析用に準備および選別され、セキュリティ保護されたリポジトリで、すべてのデータを元の形式で保存します。データレイクを使用すると、データサイロを分解し、さまざまな種類の分析を組み合わせてインサイトを獲得し、優れたビジネス意思決定を導くことができます。
ただし、今日のデータレイクの設定と管理には、手動、複雑、時間のかかるタスクが多数含まれています。この作業には、さまざまなソースからのデータのロード、それらのデータフローのモニタリング、パーティションの設定、キーの暗号化と管理の有効化、変換ジョブの定義とオペレーションのモニタリング、列形式へのデータの再編成、アクセスコントロール設定の設定、冗長データの重複排除、リンクされたレコードのマッチング、データセットへのアクセスの許可、時間の経過に伴うアクセスの監査が含まれます。
Lake Formation でデータレイクを作成するのは、データが存在する場所と、適用するデータアクセスとセキュリティポリシーを定義するのと同じくらい簡単です。次に、Lake Formation はデータベースとオブジェクトストレージからデータを収集してカタログ化し、データを新しい Amazon S3 データレイクに移動し、ML アルゴリズムを使用してデータをクリーンアップおよび分類し、機密データへのアクセスを保護します。その後、ユーザーは、利用可能なデータセットとその適切な使用状況を記述した、一元化されたデータのカタログにアクセスできます。その後、ユーザーは Amazon EMR for Apache Spark、Amazon Redshift、Amazon Athena、SageMaker AI、Amazon QuickSight などの分析と ML サービスを選択して、これらのデータセットを活用します。
Amazon Managed Streaming for Apache Kafka (Amazon MSK)
Amazon Managed Streaming for Apache Kafka (Amazon MSK) は、Apache Kafka を使用してストリーミングデータを処理するためのアプリケーションを簡単に構築および実行できるフルマネージドサービスです。Apache Kafka は、リアルタイムのストリーミングデータパイプラインとアプリケーションを構築するためのオープンソースプラットフォームです。Amazon MSK では、Apache Kafka APIs を使用して、データレイクへの入力、データベースとの間での変更のストリーミング、ML および分析アプリケーションの駆動を行うことができます。
Apache Kafka クラスターは、本番環境でのセットアップ、スケーリング、管理が困難です。Apache Kafka を独自に実行するときは、サーバーのプロビジョニング、Apache Kafka の手動設定、障害発生時のサーバーの交換、サーバーのパッチとアップグレードのオーケストレーション、高可用性のためのクラスターの設計、データの永続的な保存と保護の確保、モニタリングとアラームの設定、負荷の変化をサポートするスケーリングイベントの慎重な計画を行う必要があります。Amazon MSK を使用すると、Apache Kafka インフラストラクチャ管理の専門知識を必要とせずに、Apache Kafka で本稼働アプリケーションを簡単に構築して実行できます。つまり、インフラストラクチャの管理に費やす時間が減り、アプリケーションの構築に費やす時間が長くなります。
Amazon MSK コンソールで数回クリックするだけで、Apache Kafka のデプロイのベストプラクティスに基づく設定と構成で、高可用性の Apache Kafka クラスターを作成できます。Amazon MSK は、Apache Kafka クラスターを自動的にプロビジョニングして実行します。Amazon MSK はクラスターの状態を継続的にモニタリングし、異常なノードをアプリケーションのダウンタイムなしで自動的に置き換えます。さらに、Amazon MSK は保管中のデータを暗号化することで Apache Kafka クラスターを保護します。
に戻りますAWS サービス。