本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon S3 Tables 提供針對分析工作負載最佳化的 S3 儲存體,其功能旨在持續改善查詢效能,並降低資料表的儲存成本。S3 Tables 是專為儲存表格式資料而打造,例如每日購買交易、串流感應器資料或廣告曝光。表格式資料代表資料欄和資料列中的資料,例如資料庫資料表中的資料。
S3 Tables 中的資料會存放在新的儲存貯體類型中:資料表儲存貯體,其會將資料表儲存為子資源。資料表儲存貯體支援以 Apache Iceberg 格式儲存資料表。您可以使用標準 SQL 陳述式,透過支援 Iceberg 的查詢引擎 (例如 Amazon Athena、Amazon Redshift 和 Apache Spark) 來查詢資料表。
主題
S3 Tables 的功能
- 專為資料表所打造的儲存體
-
S3 資料表儲存貯體是專為資料表設計而成。相較於 S3 一般用途儲存貯體中的自我管理資料表,資料表儲存貯體可提供更高的每秒交易量 (TPS) 和更佳的查詢輸送量。資料表儲存貯體可提供與其他 Amazon S3 儲存貯體類型相同的耐用性、可用性和可擴展性。
- Apache Iceberg 的內建支援
-
資料表儲存貯體中的資料表會以 Apache Iceberg
格式儲存。您可以在支援 Iceberg 的查詢引擎中使用標準 SQL 來查詢這些資料表。Iceberg 具有可最佳化查詢效能的各種功能,包括結構描述演變和分割區演變。 您可以透過 Iceberg 變更資料的組織方式,使其可以隨著時間不斷發展,而無需重寫查詢或重建資料結構。Iceberg 旨在透過其對交易的支援,協助確保資料一致性和可靠性。為了協助您修正問題或執行時間歷程查詢,您可以追蹤資料如何隨時間變更,並復原至歷史版本。
- 自動化資料表最佳化
-
為了針對查詢最佳化資料表,S3 會持續執行自動維護操作,例如壓縮、快照管理和未參考檔案移除。這些操作會將較小的物件壓縮為數量較少但大小較大的檔案,以增加資料表效能。維護操作也會清理未使用的物件,以降低您的儲存成本。此自動化維護可減少手動資料表維護的需求,進而簡化大規模資料湖的操作。您可以針對每個資料表和資料表儲存貯體自訂維護組態。
- 存取管理與安全性
-
您可以使用 AWS Organizations中的 AWS Identity and Access Management (IAM) 和服務控制政策來管理資料表儲存貯體和個別資料表的存取權。S3 Tables 使用與 Amazon S3 不同的服務命名空間:s3tables 命名空間。因此,您可以專門為 S3 Tables 服務及其資源設計政策。您可以設計政策,以授予個別資料表、資料表命名空間內所有資料表或整個資料表儲存貯體的存取權。資料表儲存貯體一律會啟用所有 Amazon S3 封鎖公開存取設定,且無法停用。
- 與 AWS 分析服務整合
-
您可以透過 Amazon S3 S3主控台自動整合 Amazon S3 資料表儲存貯體與 Amazon SageMaker Lakehouse。此整合可讓 AWS 分析服務透過 自動探索和存取您的資料表資料 AWS Glue Data Catalog。整合之後,您可以使用 Amazon Athena、Amazon Redshift、Amazon QuickSight 等分析服務來使用資料表。如需整合運作方式的詳細資訊,請參閱 搭配 AWS 分析服務使用 Amazon S3 Tables。
相關服務
您可以 AWS 服務 搭配 S3 Tables 使用下列項目,以支援您的特定分析應用程式。
-
Amazon Athena - Athena 是一種互動式查詢服務,可讓您使用標準 SQL 直接在 Amazon S3 中分析資料。您還可以使用 Athena 以互動方式使用 Apache Spark 執行資料分析,而不必規劃、設定或管理資源。當您在 Athena 執行 Apache Spark 應用程式時,可提交 Spark 程式碼進行處理,並直接接收結果。
-
AWS Glue – AWS Glue 是一種無伺服器資料整合服務,可讓您探索、準備、移動和整合來自多個來源的資料。您可以使用 AWS Glue 進行分析、機器學習 (ML) 和應用程式開發。 AWS Glue 也包含用於撰寫、執行任務和實作業務工作流程的額外生產力和資料操作工具。
-
Amazon EMR – Amazon EMR 是受管叢集平台,可簡化在 上執行大數據架構,例如 Apache Hadoop和 Apache Spark, AWS 以處理和分析大量資料。
-
Amazon Redshift - Amazon Redshift 是一種在雲端的 PB 級資料倉儲服務。您可以使用 Amazon Redshift Serverless 來存取和分析資料,而無需佈建資料倉儲的所有組態。系統會自動佈建資源,並有智慧地擴展資料倉儲容量,即使是最嚴苛且無法預測的工作負載,也能為其提供快速的效能。資料倉儲閒置時不會產生費用,因此只需按實際用量支付費用。您可以在 Amazon Redshift 查詢編輯器 v2 或您最愛的商業智慧 (BI) 工具中立即載入資料並開始查詢。
-
Amazon QuickSight – Amazon QuickSight 是一種商業分析服務,可用來建立各種視覺化、執行臨機分析,並快速從資料中獲取商業見解。QuickSight 會透過使用 Amazon QuickSight 超快速的平行記憶體內計算引擎 (SPICE),順暢探索 AWS 資料來源並提供快速且反應靈敏的查詢效能。
-
AWS Lake Formation – Lake Formation 是一項受管服務,可簡化設定、保護和管理資料湖的程序。Lake Formation 可協助您探索資料來源,然後為資料進行目錄編製、清理和轉換。有了 Lake Formation,您可以在 AWS Glue Data Catalog中管理 Amazon S3 及其中繼資料上資料湖資料的精細存取控制。