AWS Analytics category icon 分析 - Amazon Web Services の概要

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Analytics category icon 分析

AWS は、すべてのデータ分析ニーズに合った包括的な分析サービスを提供し、あらゆる規模や業界の組織がデータを使用してビジネスを再創造できるようにします。ストレージと管理、データガバナンス、アクション、エクスペリエンスから、 AWS は、最高の価格パフォーマンス、スケーラビリティ、および最低コストを提供する専用サービスを提供します。

各サービスは図の後に説明されています。ニーズに最も合ったサービスを判断するには、「 の選択」を参照してください。 AWS 分析サービス 。一般的な情報については、「 での分析」を参照してください。 AWS.

を示す図 AWS 分析サービス

に戻りますAWS サービス

Amazon Athena

Amazon Athena は、標準 を使用して Amazon S3 内のデータを簡単に分析できるインタラクティブなクエリサービスですSQL。Athena はサーバーレスであることから管理するインフラストラクチャがなく、実行したクエリの料金のみを支払います。

Athena は使いやすいです。Amazon S3 のデータにポイントし、スキーマを定義して、標準 を使用してクエリを開始するだけですSQL。ほとんどの結果は数秒以内に配信されます。Athena では、分析用にデータを準備するための複雑な抽出、変換、ロード (ETL) ジョブは必要ありません。これにより、SQLスキルを持つすべてのユーザーが大規模なデータセットをすばやく分析することが容易になります。

Athena は と out-of-the-box 統合されています AWS Glue Data Catalogを使用すると、さまざまな のサービスにまたがる統合メタデータリポジトリを作成し、データソースをクロールしてスキーマを検出し、カタログに新規および変更されたテーブルとパーティション定義を入力し、スキーマのバージョニングを維持できます。

Amazon CloudSearch

Amazon CloudSearch は、 のマネージドサービスです。 AWS クラウド は、ウェブサイトまたはアプリケーションの検索ソリューションを簡単に、費用対効果の高い方法でセットアップ、管理、スケーリングできるようにします。Amazon は、34 の言語と、強調表示、オートコンプリート、地理空間検索などの一般的な検索機能 CloudSearch をサポートしています。

Amazon DataZone

Amazon DataZone は、データを公開し、パーソナライズされたウェブアプリケーションを通じてビジネスデータカタログで使用できるデータ管理サービスです。データの保存場所に関係なく、より安全にデータにアクセスできます。 AWS、オンプレミス、または Salesforce などの SaaS アプリケーション。Amazon は、 全体のエクスペリエンス DataZone を簡素化します。 AWS Amazon Redshift、Amazon Athena、 AWS Glue, AWS Lake Formation、、および Amazon QuickSight。

Amazon EMR

Amazon EMR は、Apache Spark 、Apache Hive 、Apache Apache HBaseFlink 、Apache HudiPresto などのオープンソースツールを使用して大量のデータを処理するための、業界トップのクラウドビッグデータプラットフォームです。Amazon EMR では、容量のプロビジョニングやクラスターのチューニングなどの時間のかかるタスクを自動化することで、ビッグデータ環境のセットアップ、運用、スケーリングを簡単に行うことができます。Amazon を使用するとEMR、ペタバイト規模の分析を従来のオンプレミスソリューションの半分未満のコストで実行でき、標準の Apache Spark よりも 3 倍以上高速になります。Amazon EC2インスタンス、Amazon Elastic Kubernetes Service (Amazon EKS) クラスター、または の Amazon を使用してオンプレミスEMRでワークロードを実行できます。 AWS Outposts.

Amazon FinSpace

Amazon FinSpace は、金融サービス業界 () 向けに構築されたデータ管理および分析サービスですFSI。 は、ペタバイト単位の財務データを見つけて準備するのに費やす時間を数か月から数分に FinSpace 短縮します。

金融サービス組織は、ポートフォリオ、保険数理、リスク管理システムなどの内部データストアからのデータと、株式取引の過去の証券価格など、サードパーティーのデータフィードからのペタバイトのデータを分析します。適切なデータを検索し、準拠した方法でデータにアクセスするためのアクセス許可を取得し、分析の準備を行うには、数か月かかることがあります。

FinSpace は、財務分析用のデータ管理システムの構築と保守の面倒な作業を排除します。を使用すると FinSpace、アセットクラス、リスク分類、地理的リージョンなどの関連するビジネス概念に基づいてデータを収集してカタログ化できます。 FinSpace は、コンプライアンス要件に従って組織全体のデータを簡単に検出して共有できるようにします。データアクセスポリシーを 1 か所で定義し、監査ログを保持してコンプライアンスとアクティビティのレポートを可能にする FinSpace ように強制します。 には、分析用のデータを準備するためのタイムバーやボリンガーバンドなどの 100 以上の関数のライブラリ FinSpace も含まれています。

Amazon Kinesis

Amazon Kinesis を使用すると、リアルタイムのストリーミングデータを簡単に収集、処理、分析できるため、インサイトをタイムリーに取得し、新しい情報に迅速に対応できます。Amazon Kinesis は、あらゆる規模でストリーミングデータを費用対効果の高い方法で処理するための主要な機能を提供し、アプリケーションの要件に最適なツールを柔軟に選択できます。Amazon Kinesis を使用すると、ビデオ、オーディオ、アプリケーションログ、ウェブサイトのクリックストリーム、機械学習 (ML)、分析、その他のアプリケーション用の IoT テレメトリデータなどのリアルタイムデータを取り込むことができます。Amazon Kinesis では、すべてのデータが収集されるまで待たなくても、到着時にデータを処理して分析し、すぐに応答できます。

Amazon Kinesis は現在、Firehose、Managed Service for Apache Flink、Kinesis Data Streams、および Kinesis Video Streams の 4 つのサービスを提供しています。

Amazon Data Firehose

Amazon Data Firehose は、ストリーミングデータをデータストアや分析ツールに確実にロードする最も簡単な方法です。ストリーミングデータをキャプチャ、変換、Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Splunk にロードできるため、現在使用している既存のビジネスインテリジェンスツールやダッシュボードでほぼリアルタイムの分析が可能になります。これは、データのスループットに合わせて自動的にスケーリングするフルマネージドサービスであり、継続的な管理は必要ありません。また、データをロードする前にバッチ処理、圧縮、変換、暗号化できるため、送信先で使用されるストレージの量が最小限に抑えられ、セキュリティが向上します。

から Firehose 配信ストリームを簡単に作成できます。 AWS Management Console数回クリックするだけで設定でき、数十万のデータソースからストリームへのデータの送信を開始して、 に継続的にロードできます。 AWS— すべて数分で完了します。データを Amazon S3 に配信する前にORC、受信データを Apache Parquet や Apache などの列形式に自動的に変換するように配信ストリームを設定して、コスト効率の高いストレージと分析を行うこともできます。

Amazon Managed Service for Apache Flink

Amazon Managed Service for Apache Flink は、ストリーミングデータの分析、実用的なインサイトの取得、ビジネスや顧客のニーズへのリアルタイムの対応を行う最も簡単な方法です。Amazon Managed Service for Apache Flink は、ストリーミングアプリケーションの構築、管理、および他のアプリケーションとの統合の複雑さを軽減します。 AWS サービス。SQL ユーザーは、 テンプレートとインタラクティブSQLエディタを使用して、ストリーミングデータのクエリやストリーミングアプリケーション全体の構築を簡単に行うことができます。Java デベロッパーは、オープンソースの Java ライブラリと を使用して高度なストリーミングアプリケーションをすばやく構築できます。 AWS データをリアルタイムで変換および分析するための 統合。

Amazon Managed Service for Apache Flink は、クエリを継続的に実行するために必要なすべてを処理し、受信データのボリュームとスループットレートに合わせて自動的にスケーリングします。

Amazon Kinesis Data Streams

Amazon Kinesis Data Streams は、非常にスケーラブルで耐久性の高いリアルタイムデータストリーミングサービスです。Kinesis Data Streams は、ウェブサイトのクリックストリーム、データベースイベントストリーム、金融取引、ソーシャルメディアフィード、IT ログ、位置追跡イベントなど、数十万のソースから 1 秒あたり数ギガバイトのデータを継続的にキャプチャできます。収集されたデータはミリ秒単位で利用でき、リアルタイムダッシュボード、リアルタイム異常検出、動的な料金設定などのリアルタイム分析のユースケースを可能にします。

Amazon Kinesis Video Streams

Amazon Kinesis Video Streamsを使用すると、接続されたデバイスから にビデオを安全にストリーミングできます。 AWS 分析、ML、再生、その他の処理用。Kinesis Video Streams は、数百万のデバイスからストリーミングビデオデータを取り込むために必要なすべてのインフラストラクチャを自動的にプロビジョニングし、伸縮自在にスケーリングします。また、ビデオデータをストリームに永続的に保存、暗号化、インデックス作成し、 を介してデータにアクセスできます easy-to-use APIs。Kinesis Video Streams を使用すると、ライブおよびオンデマンド視聴用のビデオを再生し、Amazon Rekognition Video との統合、および Apache や OpenCV などの ML フレームワーク用のライブラリを通じて、コンピュータビジョン MxNet TensorFlowとビデオ分析を活用するアプリケーションをすばやく構築できます。

Amazon OpenSearch サービス

Amazon OpenSearch Service (OpenSearch Service) を使用すると、デプロイ、保護、運用、スケーリングが容易になり、データ OpenSearch の検索、分析、可視化をリアルタイムで行うことができます。Amazon OpenSearch Service を使用すると、 および リアルタイム分析機能を利用して easy-to-use APIs、ログ分析、全文検索、アプリケーションモニタリング、クリックストリーム分析などのユースケースをエンタープライズグレードの可用性、スケーラビリティ、セキュリティで強化できます。このサービスは、データの取り込みと視覚化のために OpenSearch Dashboards や Logstash などのオープンソースツールとの統合を提供します。また、他の とシームレスに統合されます。 AWS Amazon Virtual Private Cloud (Amazon VPC) などの サービス、 AWS Key Management Service (AWS KMS)、Amazon Data Firehose、 AWS Lambda, AWS Identity and Access Management (IAM)Amazon Cognitoおよび Amazon CloudWatch。未加工データから実用的なインサイトにすばやく移行できます。

Amazon OpenSearch サーバーレス

Amazon OpenSearch Serverless は、Amazon OpenSearch Service のサーバーレスオプションです。開発者は、 OpenSearch サーバーレスを使用して、 OpenSearch クラスターを設定、管理、スケーリングすることなく、ペタバイト規模のワークロードを実行できます。サーバーレス環境のシンプルさにより、 OpenSearch Service と同じインタラクティブミリ秒の応答時間が得られます。

Amazon OpenSearch Serverless のベクトルエンジンは、シンプルでスケーラブルで高性能なベクトルストレージと検索機能を追加し、開発者がベクトルデータベースインフラストラクチャを管理することなく、ML で強化された検索エクスペリエンスと生成 AI アプリケーションを構築できるようにします。ベクトル検索コレクションのユースケースには、画像検索、ドキュメント検索、音楽検索、製品のレコメンデーション、動画検索、位置ベースの検索、不正検出、異常検出などが含まれます。

Amazon Redshift

Amazon Redshift は最も広く使用されているクラウドデータウェアハウスです。これにより、標準および既存のビジネスインテリジェンス (BI) ツールを使用して、すべてのデータを高速、シンプルSQL、費用対効果の高い方法で分析できます。これにより、高度なクエリの最適化、高性能ストレージの列指向ストレージ、超並列クエリの完了を使用して、テラバイトからペタバイトまでの構造化データおよび半構造化データに対して複雑な分析クエリを実行できます。ほとんどの結果は数秒で返されます。コミットメントなしで 1 時間あたりわずか 0.25 USD で小規模から始め、従来のオンプレミスソリューションの 10 分の 1 のコストで、1 テラバイトあたり 1,000 USD でペタバイトのデータにスケールアウトできます。

Amazon Redshift Serverless

Amazon Redshift Serverless を使用すると、データウェアハウスインフラストラクチャを管理することなく、分析の実行とスケーリングが容易になります。開発者、データサイエンティスト、アナリストは、データベース、データウェアハウス、データレイクを横断して、レポートおよびダッシュボードアプリケーションの構築、ほぼリアルタイムの分析の実行、データの共有とコラボレーション、機械学習 (ML) モデルの構築とトレーニングを行うことができます。大量のデータからインサイトに数秒で移行できます。Amazon Redshift Serverless は、データウェアハウスの容量を自動的にプロビジョニングしてインテリジェントにスケーリングし、最も要求の厳しい予測不可能なワークロードでも高速なパフォーマンスを実現します。また、使用した分だけ料金が発生します。Amazon Redshift クエリエディタまたはお好みのビジネスインテリジェンス (BI) ツールでデータをロードし easy-to-use、すぐにクエリを開始するだけで、 のゼロ管理環境で最高の価格パフォーマンスと使い慣れたSQL機能を引き続き享受できます。

Amazon QuickSight

Amazon QuickSight は、クラウドを活用した高速なビジネスインテリジェンス (BI) サービスで、組織内のすべてのユーザーにインサイトを簡単に提供できます。 QuickSight では、ブラウザやモバイルデバイスからアクセスできるインタラクティブなダッシュボードを作成して公開できます。ダッシュボードをアプリケーションに埋め込むことができ、顧客に強力なセルフサービス分析を提供できます。Amazon は、インストールするソフトウェア、デプロイするサーバー、または管理するインフラストラクチャを必要とせずに、数万人のユーザーに QuickSight 簡単にスケーリングできます。

AWS Clean Rooms

AWS Clean Rooms は、企業とそのパートナーが、相互の基盤となるデータを共有またはコピーすることなく、集合データセットをより簡単かつ安全に分析および共同作業できるようにします。で AWS Clean Roomsでは、お客様は安全なデータクリーンルームを数分で作成し、 の他の会社と共同作業できます。 AWS クラウド は、広告キャンペーン、投資決定、研究と開発に関する独自のインサイトを生成します。

AWS Data Exchange

AWS Data Exchange を使用すると、クラウド内のサードパーティーデータを簡単に検索、サブスクライブ、使用できます。認定データプロバイダーには、"、 複数の言語で年間 220 万件を超えるユニークなニュースストーリーからデータをキュレートする 。 ヘルスケア、 年間 140 億件を超える医療取引と 1 兆ドルの請求を処理し、匿名化する。 Dun & Bradstreet 3 億 3,000 万件を超えるグローバルビジネスレコードのデータベースを維持する。 および Foursquare、 ロケーションデータは 2 億 2,000 万人のユニークコンシューマーから取得され、6,000 万を超えるグローバル商用施設が含まれています。

データ製品をサブスクライブすると、 を使用できます。 AWS Data Exchange API データを Amazon S3に直接ロードし、さまざまな で分析する AWS 分析ML サービス。例えば、 プロパティ保険者は、データをサブスクライブして過去の気象パターンを分析し、さまざまな地域で保険カバレッジ要件を調整できます。 レストランは、人口と位置データをサブスクライブして、拡張に最適なリージョンを特定できます。 研究者は、炭素排出量に関するデータをサブスクライブすることで、地球環境の変化に関する研究を行うことができます。 と医療専門家は、過去の臨床試験から集約されたデータをサブスクライブして、研究活動を加速できます。

データプロバイダーの場合、 AWS Data Exchange を使用すると、何百万もの に簡単に到達できます。 AWS のお客様は、データストレージ、配信、請求、およびエンタイトルメントのインフラストラクチャを構築および維持する必要がなくなるため、クラウドに移行します。

AWS Data Pipeline

AWS Data Pipeline は、異なる 間でデータを確実に処理して移動できるようにするウェブサービスです。 AWS コンピューティングおよびストレージサービス、オンプレミスデータソースを、指定された間隔で実行します。で AWS Data Pipelineでは、保存されているデータに定期的にアクセスし、大規模な変換と処理を行い、結果を Amazon S3、Amazon 、Amazon RDSDynamoDB、Amazon などの AWSサービスに効率的に転送できます。 EMR

AWS Data Pipeline は、耐障害性、反復性、可用性に優れた複雑なデータ処理ワークロードを簡単に作成できます。リソースの可用性の確保、タスク間の依存関係の管理、個々のタスクでの一時的な障害やタイムアウトの再試行、障害通知システムの作成について心配する必要はありません。 AWS Data Pipeline では、以前にオンプレミスのデータサイロにロックされたデータを移動して処理することもできます。

AWS エンティティ解決

AWS Entity Resolution は、カスタムソリューションを構築せずに、複数のアプリケーション、チャネル、データストアに保存された関連レコードを照合してリンクするのに役立つサービスです。柔軟で設定可能な ML およびルールベースの手法を使用して、 AWS Entity Resolution は、重複したレコードを削除し、さまざまな顧客インタラクションを結び付けて顧客プロファイルを作成し、広告やマーケティングキャンペーン、ロイヤルティプログラム、e コマースにわたるエクスペリエンスをパーソナライズできます。例えば、広告クリック、カートの放棄、購入などの最近のイベントを一意のマッチ ID にリンクすることで、顧客とのやり取りの統合ビューを作成できます。

AWS Glue

AWS Glue はフルマネージド型の抽出、変換、ロード (ETL) サービスで、分析用のデータを簡単に準備してロードできます。ジョブは、 で数回クリックETLするだけで作成して実行できます。 AWS Management Console。 単に をポイントするだけです。 AWS Glue に保存されているデータへの AWSおよび AWS Glue はデータを検出し、関連するメタデータ (テーブル定義やスキーマなど) を に保存します。 AWS Glue Data Catalog。 カタログ化すると、データはすぐに検索可能、クエリ可能、 で使用可能になりますETL。

AWS Glue データ統合エンジンは、Apache Spark、 PySpark、および Python を使用してデータへのアクセスを提供します。の追加 AWS Glue for Ray では、オープンソースの統合コンピューティングフレームワークである Ray を使用してワークロードをさらに拡張できます。

AWS Glue Data Quality は、Amazon S3 ベースのデータレイク、データウェアハウス、およびその他のデータリポジトリのデータ品質を測定およびモニタリングできます。統計情報を自動的に計算し、品質ルールを推奨し、欠落データ、古いデータ、または不良データを検出したときにモニタリングして警告できます。でアクセスできます。 AWS Glue Data Catalog の および AWS Glue Data Catalog ETL ジョブ。

AWS Lake Formation

AWS Lake Formation は、数日で簡単にセキュアなデータレイクを構築できるサービスです。データレイクは、分析用に準備および選別され、セキュリティ保護されたリポジトリで、すべてのデータを元の形式で保存します。データレイクを使用すると、データサイロを分解し、さまざまな種類の分析を組み合わせてインサイトを獲得し、優れたビジネス意思決定を導くことができます。

ただし、今日のデータレイクの設定と管理には、手動、複雑、時間のかかるタスクが多数必要です。この作業には、さまざまなソースからのデータのロード、それらのデータフローのモニタリング、パーティションの設定、キーの暗号化と管理の有効化、変換ジョブの定義とオペレーションのモニタリング、列形式へのデータの再編成、アクセス制御設定の構成、冗長データの重複排除、リンクされたレコードのマッチング、データセットへのアクセスの許可、時間の経過に伴うアクセスの監査が含まれます。

Lake Formation でデータレイクを作成することは、データが存在する場所と、適用するデータアクセスとセキュリティポリシーを定義するのと同じくらい簡単です。次に、Lake Formation はデータベースとオブジェクトストレージからデータを収集してカタログ化し、データを新しい Amazon S3 データレイクに移動し、ML アルゴリズムを使用してデータをクリーニングおよび分類し、機密データへのアクセスを保護します。その後、ユーザーは、利用可能なデータセットとその適切な使用状況を記述した、一元化されたデータのカタログにアクセスできます。その後、ユーザーはこれらのデータセットを Amazon EMR for Apache Spark、Amazon Redshift、Amazon Athena、Amazon などの分析および ML サービスの選択で活用します QuickSight。 SageMaker

Amazon Managed Streaming for Apache Kafka (Amazon MSK)

Amazon Managed Streaming for Apache Kafka (Amazon MSK) は、Apache Kafka を使用してストリーミングデータを処理するためのアプリケーションを簡単に構築して実行できるようにするフルマネージドサービスです。Apache Kafka は、リアルタイムのストリーミングデータパイプラインとアプリケーションを構築するためのオープンソースプラットフォームです。Amazon ではMSK、Apache Kafka APIs を使用して、データレイクへの入力、データベースとの間での変更のストリーミング、ML および分析アプリケーションの強化を行うことができます。

Apache Kafka クラスターは、本番環境でのセットアップ、スケーリング、管理が困難です。Apache Kafka を独自に実行するときは、サーバーのプロビジョニング、Apache Kafka の手動設定、障害発生時のサーバーの置き換え、サーバーのパッチとアップグレードのオーケストレーション、高可用性のためのクラスターの設計、データの永続的な保存と保護、モニタリングとアラームの設定、負荷の変化をサポートするスケーリングイベントの慎重な計画を行う必要があります。Amazon MSKでは、Apache Kafka インフラストラクチャ管理の専門知識を必要とせずに、Apache Kafka で本番アプリケーションを簡単に構築して実行できます。つまり、インフラストラクチャの管理に費やす時間が減り、アプリケーションの構築に費やす時間が長くなります。

Amazon MSKコンソールで数回クリックするだけで、Apache Kafka のデプロイのベストプラクティスに基づいて、設定と設定を使用して高可用性の Apache Kafka クラスターを作成できます。Amazon は Apache Kafka クラスターMSKを自動的にプロビジョニングして実行します。Amazon はクラスターの状態MSKを継続的にモニタリングし、異常なノードをアプリケーションのダウンタイムなしで自動的に置き換えます。さらに、Amazon は保管中のデータを暗号化することで Apache Kafka クラスターMSKを保護します。

に戻りますAWS サービス