選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

的文件歷史記錄 AWS Glue

焦點模式
的文件歷史記錄 AWS Glue - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

變更描述日期

支援 14 個新的 SaaS 原生連接器 AWS Glue

已新增 14 個 SaaS 原生連接器 AWS Glue。如需詳細資訊,請參閱新增 AWS Glue 連線

2025 年 1 月 30 日

支援 16 個新的 SaaS 原生連接器 AWS Glue

已新增 16 個 SaaS 原生連接器 AWS Glue。如需詳細資訊,請參閱新增 AWS Glue 連線

2024 年 12 月 17 日

自動產生資料欄統計資料

AWS Glue Data Quality 現在支援 Data Catalog 和 ETL 中的 Amazon SageMaker AI LakeHouse 資料表和 AWS Lake Formation 受管 Iceberg、Delta 和 HUDI 資料表。如需詳細資訊,請參閱AWS Glue 資料品質

2024 年 12 月 6 日

支援零 ETL 整合

Zero-ETL 是 的一組全受管整合 AWS ,可將建置 ETL 資料管道的需求降至最低。如需詳細資訊,請參閱零 ETL 整合

2024 年 12 月 3 日

支援可重複使用的連線

新的 AWS Glue 連線結構描述提供統一的方式來管理 AWS 服務和應用程式之間的資料連線 AWS Glue,例如 Amazon Athena 和 Amazon SageMaker Unified Studio。如需詳細資訊,請參閱連線至資料

2024 年 12 月 3 日

支援 5.0 AWS Glue 版。

新增 5.0 AWS Glue 版支援的相關資訊。功能包括 Apache Spark 更新至 3.52、Java 更新至 17、開放資料表格式更新、Spark 原生精細存取控制、Sagemaker Lakehouse 和資料倉儲抽象整合、Sagemaker Unified Studio 支援等。如需詳細資訊,請參閱AWS Glue 版本備註將 AWS Glue 任務遷移至 5.0 AWS Glue 版。

2024 年 12 月 3 日

AWS Glue Data Catalog 使用 AWS Glue Iceberg REST 端點連線至

AWS Glue的 Iceberg REST 端點支援 Apache Iceberg REST 規格中指定的 API 操作。使用 Iceberg REST 用戶端,您可以將在分析引擎上執行的應用程式連接到 Data Catalog 中託管的 REST 目錄。如需詳細資訊,請參閱存取 Data Catalog

2024 年 12 月 3 日

自動產生資料欄統計資料

自動產生 中新資料表的資料欄統計資料 AWS Glue Data Catalog。如需詳細資訊,請參閱自動產生資料欄統計資料

2024 年 12 月 3 日

在 中支援 Apache Spark 的生成式 AI 升級 AWS Glue

中的 Spark 升級 AWS Glue 可讓資料工程師和開發人員使用生成式 AI 升級和遷移升級,並將現有的 AWS Glue Spark 任務遷移到最新的 Spark 版本。如需詳細資訊,請參閱使用 AI 升級分析

2024 年 11 月 22 日

支援 中 Apache Spark 的生成式 AI 疑難排解 AWS Glue

中的 Apache Spark 任務的生成式 AI 故障診斷 AWS Glue 可協助資料工程師和科學家輕鬆診斷和修正 Spark 應用程式的問題。如需詳細資訊,請參閱使用 AI 疑難排解 Spark 任務

2024 年 11 月 22 日

支援 Iceberg 最佳化工具存取 VPC 中的 Amazon S3 儲存貯體

AWS Glue Data Catalog 支援 Iceberg 資料表最佳化工具使用 AWS Glue 網路連線從特定虛擬私有雲端 (VPC) 存取 Amazon S3 儲存貯體。如需詳細資訊,請參閱最佳化 Iceberg 資料表

2024 年 11 月 20 日

支援 的九個新 SaaS 原生連接器 AWS Glue

已新增 9 個以上的 SaaS 原生連接器 AWS Glue。如需詳細資訊,請參閱新增 AWS Glue 連線

2024 年 11 月 19 日

支援十個適用於 的新 SaaS 原生連接器 AWS Glue

已新增十個 SaaS 原生連接器 AWS Glue。如需詳細資訊,請參閱新增 AWS Glue 連線

2024 年 11 月 15 日

支援 AWS Glue ETL 任務的任務執行佇列

當任務因服務配額而無法立即執行時,您可以開啟任務執行佇列,稍後再執行任務。如需詳細資訊,請參閱在 中設定 Spark 任務的任務屬性 AWS Glue

2024 年 9 月 3 日

更新政策變更

記錄對 AwsGlueSessionUserRestrictedNotebookPolicyAwsGlueSessionUserRestrictedNotebookServiceRole 政策的變更,對於具有擁有者tag-on-create的工作階段支援建立時標籤。如需詳細資訊,請參閱 AWS GlueAWS 受管政策的更新

2024 年 8 月 30 日

異常偵測和動態規則現已正式推出

AWS Glue Data Quality 利用機器學習演算法從過去趨勢中學習,然後預測未來值以偵測異常。動態規則可讓您提供動態閾值。如需詳細資訊,請參閱最佳化 Iceberg 資料表的查詢效能。

2024 年 8 月 7 日

已更新政策變更

記錄對 AwsGlueSessionUserRestrictedPolicyAwsGlueSessionUserRestrictedServiceRole 政策的變更,對於具有擁有者tag-on-create的工作階段支援建立時標籤。如需詳細資訊,請參閱 AWS GlueAWS 受管政策的更新

2024 年 8 月 5 日

產生 Iceberg 資料表的資料欄統計資料現已正式推出

AWS Glue 支援計算和更新 Iceberg 資料表中每個資料欄的不同值 (NDVs數量。如需詳細資訊,請參閱 AWS Glue Data Quality 和 Dynamic 規則中的異常偵測https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-dynamic-rules

2024 年 7 月 9 日

支援 AWS Glue 用量設定檔

管理員可以為帳戶內各種類別的使用者建立 AWS Glue 用量描述檔,例如開發人員、測試人員和產品團隊。此彈性可讓管理員為每個類別的使用者套用不同的用量和成本控制。如需詳細資訊,請參閱設定 AWS Glue 用量設定檔

2024 年 6 月 18 日

支援 AWS Glue 適用於 Spark 的 Salesforce 連接器

新增 Salesforce 新 AWS Glue 連接器的相關資訊。此功能可讓您使用 AWS Glue 讓 Spark 從 Salesforce AWS Glue 4.0 版和更新版本中讀取和寫入 Salesforce。如需詳細資訊,請參閱連線至 Salesforce

2024 年 5 月 22 日

AWS Glue (GA) 中的 Amazon Q 資料整合

中的 Amazon Q 資料整合 AWS Glue 是 的新生成式 AI 功能 AWS Glue ,可讓資料工程師和 ETL 開發人員使用自然語言建置資料整合任務。工程師和開發人員可以要求 Q 撰寫任務、疑難排解問題,並回答有關 AWS Glue 和資料整合的問題。如需詳細資訊,請參閱 AWS Glue中的 Amazon Q 資料整合。此功能包含 AwsGlueSessionUserRestrictedPolicyAwsGlueSessionUserRestrictedNotebookServiceRoleAwsGlueSessionUserRestrictedServiceRole AWS 受管政策的更新。如需詳細資訊,請參閱 AWS GlueAWS 受管政策的更新

2024 年 4 月 30 日

Amazon Q 資料整合 in AWS Glue (預覽)

中的 Amazon Q 資料整合 AWS Glue 是 的新生成式 AI 功能 AWS Glue ,可讓資料工程師和 ETL 開發人員使用自然語言建置資料整合任務。工程師和開發人員可以要求 Q 撰寫任務、疑難排解問題,並回答有關 AWS Glue 和資料整合的問題。如需詳細資訊,請參閱 AWS Glue中的 Amazon Q 資料整合。此功能包含 AwsGlueSessionUserRestrictedNotebookPolicy AWS 受管政策的更新。如需詳細資訊,請參閱 AWS GlueAWS 受管政策的更新

2024 年 1 月 30 日

串流的文件更新 AWS Glue

新增了新的章節,其中包含串流的新內容和重組內容 AWS Glue 。此內容說明串流的運作方式 AWS Glue、即時資料處理的特性,以及如何監控串流任務。如需詳細資訊,請參閱 AWS Glue 串流

2023 年 12 月 27 日

支援使用微調敏感資料偵測

Detect Sensitive Data 轉換可偵測、遮罩或移除您定義或 AWS Glue預先定義的實體。微調動作可讓您進一步針對每個實體套用特定動作。如需詳細資訊,請參閱使用微調敏感資料偵測

2023 年 11 月 26 日

支援使用 AWS Glue 可觀測性指標監控任務

使用 AWS Glue 可觀測性指標來產生洞見, AWS Glue 了解 Apache Spark 任務中發生的情況,以改善問題的分類和分析。如需詳細資訊,請參閱使用 AWS Glue 可觀測性指標監控

2023 年 11 月 26 日

支援 AWS Glue Data Quality 中的異常偵測

AWS Glue 資料品質異常偵測會隨著時間將機器學習 (ML) 演算法套用至資料統計資料,以偵測難以透過規則偵測的異常模式和隱藏資料品質問題。如需詳細資訊,請參閱 AWS Glue Data Quality 中的異常偵測

2023 年 11 月 26 日

更新為預設的 Spark UI 記錄行為

產生 Spark UI 日誌的 Spark 任務現在將使用不同的檔案名稱模式寫入,以在 AWS Glue 主控台中支援 Spark UI。這不會變更 CloudWatch 日誌行為。您可以透過更新作業組態還原為舊版行為。如需詳細資訊,請參閱使用 Apache Spark web UI 監控作業

2023 年 11 月 17 日

支援 AWS Glue 適用於 Spark 的 中的新資料來源

AWS Glue內現在原生支援與 Amazon OpenSearch Service、Azure SQL、Azure Cosmos for NoSQL、SAP HANA Teradata Vantage 和 Vertica 的連線。此外,與這些資料來源的連線以及 MongoDB,現在可在 AWS Glue Studio 視覺化編輯器中使用。如需詳細資訊,請參閱 中的 AWS Glue 適用於 Spark 的 ETL 連線類型和選項,以取得 AWS Glue Spark 支援的相關資訊,以及新增 AWS Glue 連線,以取得 AWS Glue Studio 視覺化編輯器中使用 的相關資訊。

2023 年 11 月 17 日

支援產生資料欄統計資料

您可以計算 Parquet、ORC、JSON、ION、CSV 和 XML 等資料格式 AWS Glue Data Catalog 資料表的資料欄層級統計資料,而無需設定其他資料管道。如需詳細資訊,請參閱使用資料欄統計資料

2023 年 11 月 16 日

支援 Iceberg 資料表的資料壓縮

為了讓 Amazon Athena 和 Amazon EMR 等 AWS 分析服務以及 AWS Glue ETL 任務有更好的讀取效能,Data Catalog 為 Data Catalog 中的 Iceberg 資料表提供受管壓縮 (將小型 Amazon S3 物件壓縮為較大物件的程序)。如需詳細資訊,請參閱最佳化 Iceberg 資料表

2023 年 11 月 13 日

任務執行等待行為更新

標準 Spark 和 Python Shell 任務執行目前會在特定情況下轉移至 WAITING,而非立即轉移至 FAILED。如需詳細資訊,請參閱 AWS Glue 任務執行狀態

2023 年 11 月 8 日

AWS Glue Studio 使用者指南合併為 AWS Glue 開發人員指南

AWS Glue Studio 使用者指南已移至開發人員指南中,以建立適用於 AWS Glue 主控台和 AWS Glue Studio 程式設計存取 AWS Glue Studio的單一統一使用者指南。

2023 年 10 月 25 日

更新 AWSGlueServiceNotebookRole AWS 受管政策

新增 AWSGlueServiceNotebookRole AWS 受管政策次要更新的相關資訊。如需詳細資訊,請參閱 受AWS GlueAWS 管政策的更新

2023 年 10 月 9 日

AWS Glue Studio 支援五個新的內建轉換

AWS Glue Studio 支援下列五個新的內建轉換:記錄比對、移除 null 資料列、剖析 JSON 資料欄、擷取 JSON 路徑和 Regex 擷取器。如需詳細資訊,請參閱編輯 AWS Glue 受管資料轉換節點

2023 年 8 月 11 日

更新 AWSGlueServiceRole AWS 受管政策

新增 AWSGlueServiceRole AWS 受管政策次要更新的相關資訊。如需詳細資訊,請參閱 受AWS GlueAWS 管政策的更新

2023 年 8 月 4 日

支援網路爬取 Apache Hudi 資料表

已新增使用 AWS Glue 將 Amazon S3 儲存貯體中的 Hudi 資料表爬取,並將 Hudi 資料表註冊到 的相關資訊 AWS Glue Data Catalog。如需詳細資訊,請參閱 Which data stores can I crawl?Crawler properties

2023 年 7 月 21 日

更新 AWSGlueConsoleFullAccess AWS 受管政策

新增 AWSGlueConsoleFullAccess AWS 受管政策次要更新的相關資訊。如需詳細資訊,請參閱 受AWS GlueAWS 管政策的更新

2023 年 7 月 14 日

支援網路爬取 Apache Iceberg 資料表

已新增使用 AWS Glue 將 Iceberg 資料表編目至 Amazon S3 儲存貯體中,並將 Iceberg 資料表註冊至 的相關資訊 AWS Glue Data Catalog。如需詳細資訊,請參閱 Which data stores can I crawl?Crawler properties

2023 年 7 月 7 日

支援 AWS Glue 搭配 Ray

新增了有關 AWS Glue Ray 的資訊,Ray 是可恢復 AWS Glue 任務的新引擎。 AWS Glue 使用 Spark 內容重新組織現有的 以取消歧義。

2023 年 5 月 30 日

支援 AWS Glue 資料品質 (GA)

AWS Glue Data Quality 現在已全面推出。 AWS Glue Data Quality 可協助您評估和監控資料的品質。如需如何搭配 AWS Glue Data Catalog 使用 Data Quality 的詳細資訊,請參閱 AWS Glue Data Quality。若要了解 AWS Glue 的資料品質 AWS Glue Studio,請參閱使用 評估資料品質 AWS Glue Studio

2023 年 5 月 24 日

支援適用於 Apache Spark 任務的較大工作者類型

目前支援使用針對 Apache Spark 任務的 G.4XG.8X 工作者類型。這些工作者類型適合工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2023 年 5 月 8 日

支援在網路爬取資料表時建立分割區索引

新增了有關爬蟲程式如何支援為所偵測之資料表建立分割區索引的資訊。如需詳細資訊,請參閱 Setting the partition index crawler configuration option

2023 年 4 月 24 日

支援資源用量指標

新增了有關在 Amazon CloudWatch 中檢視服務的資源使用量和設定警示的資訊。如需詳細資訊,請參閱 AWS Glue resource monitoring

2023 年 4 月 7 日

更新 AWSGlueConsoleFullAccess AWS 受管政策

新增 AWSGlueConsoleFullAccess AWS 受管政策次要更新的相關資訊。如需詳細資訊,請參閱 受AWS GlueAWS 管政策的更新

2023 年 3 月 28 日

新增使用 AWS Glue 搭配 AWS SDK 與範例的指引

AWS Glue 開發人員指南有兩個新的區段,可提供資訊以協助您 AWS Glue 搭配 AWS SDK 使用 。如需詳細資訊,請參閱使用 AWS Glue 搭配 AWS SDK 和 AWS Glue 使用 AWS SDKs程式碼範例

2023 年 2 月 23 日

使用 更新 IAM 文件 AWS Glue

重新組織和新增使用 IAM 搭配 的資訊 AWS Glue。如需詳細資訊,請參閱適用於 AWS Glue的 Identity and Access Management

2023 年 2 月 15 日

支援在 4.0 AWS Glue 版中執行串流 ETL 任務

已新增有關在 Glue 4.0 版中執行串流 ETL 任務的支援、連線至 Kafka 叢集的新選項、適用於 Apache Kafka 叢集的 Amazon 受管串流,以及 Amazon Kinesis Data Streams 的相關資訊。如需詳細資訊,請參閱在 AWS Glue中新增串流 ETL 任務AWS Glue中的 ETL 連線類型和選項

2023 年 2 月 8 日

支援網路爬取 MongoDB Atlas 資料來源

新增使用 AWS Glue 來爬取 MongoDB Atlas 資料來源的相關資訊。如需詳細資訊,請參閱我可以爬取哪些資料存放區?MongoDB 和 MongoDB Atlas 連線屬性 ,以及使用 MongoDB 或 MongoDB Atlas 連線

2023 年 2 月 6 日

支援使用原生 Delta Lake 連接器網路爬取 Delta Lake 資料表

新增使用 AWS Glue 使用原生 Delta Lake 連接器來爬取 Delta Lake 資料表的相關資訊。此功能可讓您使用 AWS 查詢引擎直接查詢 Delta 交易日誌,並使用如時間行程和 ACID 保證等功能,並將 Amazon S3 交易檔案的 Delta Lake 中繼資料同步至 Data Catalog,以啟用 Lake Formation 中查詢的資料欄許可。如需詳細資訊,請參閱如何為 Delta Lake 的資料儲存指定配置選項查詢 Delta Lake 資料表

2022 年 12 月 15 日

支援 AWS Glue 資料品質 (預覽版)

Data AWS Glue Quality (預覽版) 現已提供支援。 AWS Glue Data Quality 可協助您在使用 AWS Glue 3.0 時評估和監控資料的品質。如需如何搭配 AWS Glue Data Catalog 使用 Data Quality 的詳細資訊,請參閱 AWS Glue Data Quality (預覽)。若要了解 AWS Glue 的資料品質 AWS Glue Studio,請參閱使用 評估資料品質 AWS Glue Studio

2022 年 11 月 30 日

支援具有新功能和改進效能的全新 Amazon Redshift Spark 連接器

現在支援具有新 JDBC 驅動程式的新 Amazon Redshift Spark 連接器,可與 AWS Glue ETL 任務搭配使用,以建置在 Amazon Redshift 中讀取和寫入資料的 Apache Spark 應用程式,作為資料擷取和轉換管道的一部分。如需詳細資訊,請參閱將資料移入及移出 Amazon Redshift

2022 年 11 月 29 日

支援 4.0 AWS Glue 版。

新增 4.0 AWS Glue 版支援的相關資訊。功能包括對 Apache Hudi、Delta Lake 和 Apache Iceberg 開源資料湖架構的原生支援,以及對以 Amazon S3 為基礎的雲端隨機排序儲存外掛程式 (一種 Apache Spark 外掛程式) 的原生支援,以針對隨機排序和彈性儲存容量使用 Amazon S3。如需詳細資訊,請參閱AWS Glue 版本備註將 AWS Glue 任務遷移至 4.0 AWS Glue 版。

2022 年 11 月 28 日

AWS Glue Studio 現在提供自訂視覺效果轉換

自訂視覺化轉換可讓客戶在團隊之間定義、重複使用和共用業務專屬的 ETL 邏輯。如需詳細資訊,請參閱自訂視覺化轉換

2022 年 11 月 28 日

支援使用 AWS Glue 爬蟲程式發佈 JDBC 資料存放區的中繼資料

現已支援使用 AWS Glue 爬蟲程式將註解和原始類型等中繼資料發佈至 JDBC 資料存放區的資料目錄。如需詳細資訊,請參閱爬蟲程式在 Data Catalog 資料表上設定的參數爬蟲程式屬性JdbcTarget 結構

2022 年 11 月 18 日

支援網路爬取 Snowflake 資料存放區

現已支援 AWS Glue 使用 來爬取 Snowflake 資料表和檢視,以及將中繼資料發佈至 Data Catalog 做為資料表項目。對於 Amazon S3 中的 Snowflake 外部資料表,爬蟲程式也會網路爬取 Amazon S3 位置和外部資料表的檔案格式類型,並填入為表格參數。如需詳細資訊,請參閱我可以爬取哪個資料存放區?AWS Glue 連線屬性,以及爬蟲程式在 Data Catalog 資料表上設定的參數

2022 年 11 月 18 日

支援改進 Spark 應用程式的隨機排序管理

現支援新的 Apache Spark 雲端隨機排序儲存外掛程式。如需詳細資訊,請參閱 AWS Glue Spark 隨機排序管理器與 Amazon S3Cloud Shuffle Storage Plugin for Apache Spark (Apache Spark 雲端隨機排序儲存外掛程式)。

2022 年 11 月 15 日

新增在加速爬蟲 Amazon S3 事件通知時對 Data Catalog 目標的支援

除了現有的 Amazon S3 目標支援之外,現在也支援使用 Amazon S3 事件通知加速 Data Catalog 目標的爬蟲。如需詳細資訊,請參閱使用 Amazon S3 事件通知加速編目

2022 年 10 月 13 日

支援指定爬蟲程式可建立的資料表數目上限

現在可支援指定爬蟲程式可建立的資料表數目上限。如需詳細資訊,請參閱如何指定爬蟲程式可建立的資料表數目上限

2022 年 9 月 6 日

在 中支援 Python shell 任務中的 Python 3.9 AWS Glue

支援現在可用於在 Python shell 任務中執行與 Python 3.9 相容的指令碼 AWS Glue,以及選擇使用預先封裝的程式庫集。如需詳細資訊,請參閱 AWS Glue中的 Python Shell 任務

2022 年 8 月 11 日

支援在備用容量上執行非緊急或非時間敏感 AWS Glue 任務

現在可支援設定非緊急任務 (如生產前任務、測試和一次性資料載入) 的彈性任務執行。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2022 年 8 月 9 日

支援串流任務的新工作者類型

目前支持使用適用於低容量串流任務的 G.025X 工作者類型。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2022 年 7 月 14 日

支援在 AWS Glue 連線中使用 Kafka SASL

支援現已可用於 AWS Glue 連線中的 Kafka SASL。如需詳細資訊,請參閱適用於用戶端身分驗證的AWS Glue Kafka 連線屬性

2022 年 7 月 5 日

支援適用於 protobuf 結構描述的 Apache kafka 連接器

目前支援適用於 Protobuf 結構描述的 Apache Kafka 連接器。如需詳細資訊,請參閱 AWS Glue 結構描述登錄檔

2022 年 6 月 9 日

支援 AWS Glue 任務的 Auto Scaling (GA)

新增在 3.0 AWS Glue 版中使用 Auto Scaling 進行任務以動態擴展運算資源的相關資訊。如需詳細資訊,請參閱為 AWS Glue使用 Auto Scaling

2022 年 4 月 14 日

更新文件以 AWS Glue 開發和測試 AWS Glue 任務指令碼

重新組織和新增可用開發和測試方法的相關資訊 AWS Glue,包括使用 Docker 開發的指示。如需詳細資訊,請參閱開發和測試 AWS Glue 任務指令碼

2022 年 3 月 14 日

新增通訊協定緩衝區 (protobuf) AWS Glue 做為結構描述登錄檔支援的資料格式

新增有關 Protobuf 做為支援的資料格式 (除了 AVRO 和 JSON 之外) 的相關資訊。如需詳細資訊,請參閱 AWS Glue 結構描述登錄檔

2022 年 2 月 25 日

支援爬取 Delta Lake 資料表

新增使用 AWS Glue 來爬取 Delta Lake 資料表的相關資訊。如需詳細資訊,請參閱如何為 Delta Lake 的資料儲存指定配置選項

2022 年 2 月 24 日

支援 AWS Glue 任務洞見

新增了使用 AWS Glue 任務洞見來簡化任務偵錯和最佳化的相關資訊 AWS Glue 。如需詳細資訊,請參閱使用 AWS Glue 任務洞察監控

2022 年 2 月 8 日

支援使用 VPC 端點爬取 Amazon S3 支援的 Data Catalog 資料表

除了 Amazon S3 資料存放區之外,您還可以設定 Amazon S3 支援的 Data Catalog 資料表以僅供 Amazon Virtual Private Cloud 環境 (Amazon VPC) 存取,以用於安全、稽核或控制目的。如需詳細資訊,請參閱使用 VPC 端點爬取 Amazon S3 資料存放區或 Amazon S3 支援的 Data Catalog 資料表

2022 年 2 月 3 日

支援受 Lake Formation 管控的資料表

新增 AWS Glue 支援 Lake Formation 受管資料表的相關資訊,以支援 ACID 交易、自動資料壓縮和時間行程查詢。如需詳細資訊,請參閱 AWS Glue APIAWS Lake Formation 開發人員指南

2021 年 11 月 30 日

為互動式工作階段和筆記本新增了新的 AWS 受管政策

IAM 的新受管政策為 AWS Glue 搭配互動式工作階段和筆記本使用 提供了增強的安全性。如需詳細資訊,請參閱 AWS Glue的AWS 受管政策

2021 年 11 月 30 日

串流任務現在支援 Glue 結構描述登錄檔

您可以建立串流任務來存取屬於 Glue 結構描述登錄檔的資料表。如需詳細資訊,請參閱 AWS Glue 結構描述登錄檔在 AWS Glue中新增串流 ETL 任務

2021 年 11 月 15 日

支援全新的機器學習功能

已新增有關「尋找相符項目」機器學習轉換之新功能的資訊,包括增量改進比對和相符項目得分。如需詳細資訊,請參閱尋找增量改進相符項目使用相符項目可信度分數估計項目相符品質

2021 年 10 月 31 日

(私有預覽) AWS Glue 支援彈性任務

新增了有關使用彈性執行類別設定 AWS Glue Spark 任務的資訊,適用於啟動和完成時間可能有所不同且時間不敏感的任務。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2021 年 10 月 29 日

支援使用 Amazon S3 事件通知加速編目

新增使用 Amazon S3 事件通知加速編目的相關資訊。如需詳細資訊,請參閱使用 Amazon S3 事件通知加速編目

2021 年 10 月 15 日

與存取控制和 VPC 相關的其他安全性組態選項

已新增有關如何在 上設定新的存取控制許可 AWS Glue 和 VPCs組態的資訊。如需詳細資訊,請參閱 AWS 中的標籤 AWS Glue使用條件金鑰或內容金鑰控制設定的以身分為基礎的政策 (IAM 政策),以及設定所有 AWS 呼叫以通過您的 VPC

2021 年 10 月 13 日

支援 VPC 端點政策

新增在 AWS Glue中支援虛擬私有雲端 (VPC) 端點政策的相關資訊。如需詳細資訊,請參閱 AWS Glue 和介面 VPC 端點 (AWS PrivateLink)

2021 年 10 月 11 日

Glue Studio 現在可在中國區域中使用

AWS Glue Studio 現已在中國北京和寧夏區域提供。

2021 年 10 月 11 日

AWS Glue Studio 提供筆記本撰寫,用於互動式任務編輯

筆記本可協助您撰寫和執行程式碼、視覺化結果,以及分享深入解析。通常,資料科學家使用筆記本進行實驗和資料探索任務。如需詳細資訊,請參閱使用筆記本

2021 年 10 月 1 日

現已推出直接存取串流來源功能

在視覺化編輯器中將資料來源新增至 ETL 任務時,您可以提供資訊來存取資料串流,而不必使用 Data Catalog 資料庫和資料表。

2021 年 9 月 30 日

已記錄 AWS Glue 版本支援政策

新增特定 AWS Glue 版本版本支援政策和生命週期結束階段的相關資訊 AWS Glue 。如需詳細資訊,請參閱 AWS Glue 版本支援政策

2021 年 9 月 24 日

自訂連接器現在可以搭配資料預覽使用

使用自訂連接器編輯資料來源節點時,您可以選擇「資料預覽」索引標籤來預覽資料集。如需詳細資訊,請參閱自訂連接器

2021 年 9 月 24 日

支援 AWS Glue 互動式工作階段 (私有預覽)

(私有預覽) 新增有關使用任何 Jupyter 筆記本使用 AWS Glue 互動式工作階段在雲端執行 Spark 工作負載的資訊。當您使用 AWS Glue 2.0 或更新版本時,互動式工作階段是開發 AWS Glue 擷取、轉換和載入 (ETL) 程式碼的偏好方法。如需詳細資訊,請參閱設定和執行 Jupyter Notebook 的 AWS Glue 互動式工作階段

2021 年 8 月 24 日

支援從藍圖建立工作流程 (GA)

新增在藍圖中撰寫常用擷取、轉換和載入 (ETL) 使用案例的程式碼,然後從藍圖建立工作流程的相關資訊。可讓資料分析師輕鬆建立及執行複雜的 ETL 程序。如需詳細資訊,請參閱在 AWS Glue中使用藍圖和工作流程執行複雜的 ETL 活動

2021 年 8 月 23 日

支援 3.0 AWS Glue 版。

新增支援 3.0 AWS Glue 版的資訊,該版本支援執行 Apache Spark ETL 任務的 Apache Spark 3.0 引擎升級,以及其他最佳化和升級。如需詳細資訊,請參閱AWS Glue 版本備註將 AWS Glue 任務遷移至 3.0 AWS Glue 版。此版本的其他功能包括隨機播放管理員、SIMD AWS Glue 向量化 CSV 讀取器和目錄分割區述詞。如需詳細資訊,請參閱AWS Glue 具有 Amazon S3 的 Spark 隨機播放管理員ETL 輸入和輸出的格式選項 AWS Glue,以及使用目錄分割區述詞的伺服器端篩選

2021 年 8 月 18 日

AWS GovCloud (US) Region

AWS Glue Studio 現在可在 中使用 AWS GovCloud (US) Region

2021 年 8 月 18 日

Python shell 撰寫可在 中使用 AWS Glue Studio

建立新任務時,您現在可以選擇建立 Python Shell 任務。如需詳細資訊,請參閱啟動任務建立程序在 AWS Glue Studio中編輯 Python Shell 任務

2021 年 8 月 13 日

支援使用 Amazon EventBridge 事件啟動工作流程

新增如何在事件驅動架構中 AWS Glue 成為事件消費者的相關資訊。如需詳細資訊,請參閱使用 Amazon EventBridge 事件啟動 AWS Glue 工作流程檢視已啟動工作流程的 EventBridge 事件

2021 年 7 月 14 日

新增 JSON AWS Glue 做為結構描述登錄檔支援的資料格式

新增有關 JSON 的資訊做為支援的資料格式 (除了 AVRO 之外) 的相關資訊。如需詳細資訊,請參閱 AWS Glue 結構描述登錄檔

2021 年 6 月 30 日

建立不含 Data Catalog 資料表的 AWS Glue 串流任務

create_data_frame_from_options Python 函數或 getSource for Scala 指令碼支援建立可直接引用資料串流的 ETL 任務,而不是需要 Data Catalog 資料表。

2021 年 6 月 15 日

AWS Glue 機器學習轉換現在支援 AWS Key Management Service 金鑰

您可以使用主控台、CLI 或 AWS Glue APIs 設定 AWS Glue Machine Learning 轉換時,可以指定安全組態或 AWS KMS 金鑰。如需詳細資訊,請參閱在 Machine Learning 轉換中使用資料加密AWS Glue Machine Learning API

2021 年 6 月 15 日

更新 AWSGlueConsoleFullAccess AWS 受管政策

新增 AWSGlueConsoleFullAccess AWS 受管政策次要更新的相關資訊。如需詳細資訊,請參閱 受AWS GlueAWS 管政策的更新

2021 年 6 月 10 日

在建立和編輯任務時檢視任務的資料集

您可以使用任務圖表中節點的新資料預覽索引標籤,以查看該節點處理的資料範例。如需詳細資訊,請參閱在視覺化任務編輯器中使用資料預覽

2021 年 6 月 7 日

支援指定值以指出爬蟲程式輸出的資料表位置。

新增在設定爬蟲程式輸出時指出資料表位置值的相關資訊。如需詳細資訊,請參閱如何指定資料表位置

2021 年 6 月 4 日

在爬取 Amazon S3 資料存放區時,支援爬取資料集中的檔案樣本

新增有關在爬取 Amazon S3 時如何爬取檔案範例的相關資訊。如需詳細資訊,請參閱爬蟲程式屬性

2021 年 5 月 10 日

支援 AWS Glue 最佳化 parquet 寫入器

新增使用 AWS Glue 最佳化的 DynamicFrames parquet 寫入器來建立或更新具有 parquet分類的資料表的相關資訊。如需詳細資訊,請參閱建立資料表、更新結構描述,以及從 AWS Glue ETL 任務中的資料目錄中新增分割區,以及 ETL 輸入和輸出的格式選項 AWS Glue

2021 年 5 月 4 日

支援 kafka 用戶端身分驗證密碼

新增在 中串流 ETL 任務如何 AWS Glue 支援使用 Apache Kafka 串流生產者進行 SSL 用戶端憑證驗證的相關資訊。您現在可以在定義與 Apache Kafka 叢集的 AWS Glue 連線時提供自訂憑證,這 AWS Glue 將在驗證時使用。如需詳細資訊,請參閱 AWS Glue 連線屬性連線 API

2021 年 4 月 28 日

支援在串流 ETL 任務中使用另一個帳戶中來自 Amazon Kinesis Data Streams 的資料

新增有關建立串流 ETL 任務以使用其他帳戶中 Amazon Kinesis Data Streams 資料的相關資訊。如需詳細資訊,請參閱在 中新增串流 ETL 任務 AWS Glue

2021 年 3 月 30 日

可用的 SQL 轉換

您可以使用 SQL 轉換節點以 SQL 查詢的形式編寫自己的轉換。如需詳細資訊,請參閱使用 SQL 查詢轉換資料

2021 年 3 月 23 日

支援從藍圖建立工作流程 (公開預覽)

(公開預覽) 新增在藍圖中撰寫常用擷取、轉換和載入 (ETL) 使用案例的程式碼,然後從藍圖建立工作流程的相關資訊。可讓資料分析師輕鬆建立及執行複雜的 ETL 程序。如需詳細資訊,請參閱在 AWS Glue中使用藍圖和工作流程執行複雜的 ETL 活動

2021 年 3 月 22 日

連接器可用於資料目標

現在支援為您的資料目標使用自訂或 AWS Marketplace 連接器。如需詳細資訊,請參閱使用自訂連接器編寫任務

2021 年 3 月 15 日

支援 AWS Glue 機器學習轉換的資料欄重要性指標

新增使用 AWS Glue 機器學習轉換時檢視資料欄重要性指標的相關資訊。如需詳細資訊,請參閱在 AWS Glue 主控台上使用Machine Learning轉換

2021 年 2 月 5 日

任務排程現在可在 中使用 AWS Glue Studio

您可以在 AWS Glue Studio中為任務執行定義以時間為基礎的排程。您可以使用主控台建立基本排程,或使用類似 UNIX 的 cron 語法定義更複雜的排程。如需詳細資訊,請參閱排程任務執行

2020 年 12 月 21 日

AWS Glue 自訂連接器已發行

AWS Glue Custom Connectors 可讓您探索和訂閱 中的連接器 AWS Marketplace。我們也發行了 AWS Glue Spark 執行期介面,以插入為 Apache Spark 資料來源、Athena 聯合查詢和 JDBC APIs連接器。如需詳細資訊,請參閱使用連接器和連線搭配 AWS Glue Studio

2020 年 12 月 21 日

支援在 2.0 AWS Glue 版中執行串流 ETL 任務

新增有關支援在 Glue 2.0 版中執行串流 ETL 任務的相關資訊。如需詳細資訊,請參閱在 中新增串流 ETL 任務 AWS Glue

2020 年 12 月 18 日

支援使用限制執行的工作負載分割

新增有關啟用工作負載分割以設定資料集大小上限,或 ETL 任務執行時處理的檔案數目的相關資訊。如需詳細資訊,請參閱具有限制執行的工作負載分割

2020 年 11 月 23 日

支援增強的分割區管理

新增有關如何使用新 API 在現有資料表中新增或刪除分割區索引的相關資訊。如需詳細資訊,請參閱使用分割區索引

2020 年 11 月 23 日

支援 AWS Glue 結構描述登錄檔

新增使用 AWS Glue 結構描述登錄檔以集中探索、控制和發展結構描述的相關資訊。如需詳細資訊,請參閱AWS Glue 結構描述登錄檔。

2020 年 11 月 19 日

支援串流 ETL 任務中的 grok 輸入格式

新增有關將 Grok 模式套用至串流來源 (例如日誌檔) 的相關資訊。如需詳細資訊,請參閱將 Grok 模式應用於串流來源

2020 年 11 月 17 日

支援將標籤新增至 AWS Glue 主控台上的工作流程

新增有關在使用 AWS Glue 主控台建立工作流程時新增標籤的相關資訊。如需詳細資訊,請參閱使用 AWS Glue 主控台建立和建置工作流程

2020 年 10 月 27 日

支援增量爬蟲程式執行

新增有關支援增量爬蟲程式執行的相關資訊,這只會抓取自上次執行以來新增的 Amazon S3 資料夾。如需詳細資訊,請參閱增量網路爬取

2020 年 10 月 21 日

支援串流 ETL 資料來源的結構描述偵測。支援 Avro 串流 ETL 資料來源和自我管理的 kafka

中的串流擷取、轉換和載入 (ETL) 任務 AWS Glue 現在可以自動偵測傳入記錄的結構描述,並根據每個記錄處理結構描述變更。現在支援自我管理的 Kafka 資料來源。串流 ETL 任務現在支援資料來源中的 Avro 格式。如需詳細資訊,請參閱 中的串流 ETL AWS Glue定義串流 ETL 任務的任務屬性,以及 Avro 串流來源的備註和限制

2020 年 10 月 7 日

支援網路爬取 MongoDB 和 DocumentDB 資料來源

新增有關支援網路爬取 MongoDB 和 Amazon DocumentDB (with MongoDB Compatibility) 資料來源的相關資訊。如需詳細資訊,請參閱定義爬蟲程式

2020 年 10 月 5 日

支援 FIPS 合規

新增適用於使用 AWS Glue存取資料時,需要 FIPS 140-2 驗證密碼編譯模組之客戶的 FIPS 端點的相關資訊。如需詳細資訊,請參閱 FIPS 合規

2020 年 9 月 23 日

AWS Glue Studio 提供易於使用的視覺化界面來建立和監控任務

您現在可以使用簡單的圖形介面來撰寫移動和轉換資料的任務,並在 AWS Glue中執行它們。然後,您可以使用 AWS Glue Studio 中的任務執行儀表板來監控 ETL 執行,並確保您的任務按預期執行。如需詳細資訊,請參閱 AWS Glue Studio 使用者指南

2020 年 9 月 23 日

支援建立資料表索引以改善查詢效能

新增有關建立資料表索引以讓您從資料表擷取分割區子集的相關資訊。如需詳細資訊,請參閱使用分割區索引

2020 年 9 月 9 日

支援在 AWS Glue 2.0 版中執行 Apache Spark ETL 任務時減少啟動次數。

新增 2.0 AWS Glue 版的支援相關資訊,該版本提供升級的基礎設施,以執行 Apache Spark ETL 任務,並減少啟動時間、變更日誌記錄,以及支援在任務層級指定其他 Python 模組。如需詳細資訊,請參閱 AWS Glue 版本備註以縮短的啟動時間執行 Spark ETL 任務

2020 年 8 月 10 日

支援限制並行工作流程執行的數目。

新增如何限制特定工作流程之並行工作流程執行次數的相關資訊。如需詳細資訊,請參閱使用 AWS Glue 主控台建立和建置工作流程

2020 年 8 月 10 日

支援使用 VPC 端點爬取 Amazon S3 資料存放區

新增設定 Amazon S3 資料存放區以僅供 Amazon Virtual Private Cloud 環境 (Amazon VPC) 存取的相關資訊,以用於安全、稽核或控制目的。如需詳細資訊,請參閱使用 VPC 端點爬取 Amazon S3 資料存放區

2020 年 8 月 7 日

支援繼續工作流程執行

新增有關如何繼續工作流程執行的相關資訊,這些工作流程執行僅部分完成,因為一或多個節點 (任務或爬蟲程式) 未順利完成。如需詳細資訊,請參閱修復和繼續工作流程執行

2020 年 7 月 27 日

支援在 AWS Glue中啟用 kafka 連線的私有 CA 憑證。

新增支援在 AWS Glue中為 Kafka 連線啟用私有 CA 憑證的新連線選項的相關資訊。如需詳細資訊,請參閱 中 ETL 的連線類型和選項 AWS Glue,以及 使用的特殊參數 AWS Glue

2020 年 7 月 20 日

支援讀取其他帳戶中的 DynamoDB 資料

新增 AWS Glue 支援從另一個 AWS 帳戶的 DynamoDB 資料表讀取資料的相關資訊。如需詳細資訊,請參閱從另一個帳戶中的 DynamoDB 資料讀取

2020 年 7 月 17 日

支援 1.0 AWS Glue 版或更新版本中的 DynamoDB 寫入器連線

新增支援 DynamoDB 寫入器,以及 DynamoDB 讀取或寫入的新或更新連線選項的相關資訊。如需詳細資訊,請參閱 AWS Glue中的 ETL 連線類型和選項

2020 年 7 月 17 日

支援同時使用 AWS Glue 和 Lake Formation 的資源連結和跨帳戶存取控制

新增了有關稱為資源連結的新 Data Catalog 物件,以及如何管理使用 AWS Glue 和 跨帳戶共用 Data Catalog 資源的內容 AWS Lake Formation。如需詳細資訊,請參閱授予跨帳戶存取權資料表資源連結

2020 年 7 月 7 日

支援爬取 DynamoDB 資料存放區時取樣記錄

已新增有關爬取 DynamoDB 資料存放區時可以設定新屬性的資訊。如需詳細資訊,請參閱爬蟲程式屬性

2020 年 6 月 12 日

支援停用工作流程執行。

新增關於如何停止特定工作流程之工作流程執行的資訊。如需詳細資訊,請參閱停止工作流程執行

2020 年 5 月 14 日

支援 Spark Streaming ETL 任務

新增關於使用串流資料來源建立擷取、轉換和載入 (ETL) 任務的資訊。如需詳細資訊,請參閱在 AWS Glue中新增串流 ETL 任務

2020 年 4 月 27 日

支援在執行 ETL 任務後在 Data Catalog 中建立資料表、更新結構描述,以及新增分割區

已新增有關如何啟用建立資料表、更新結構描述,以及新增分割區,以在 Data Catalog 中查看 ETL 任務結果的資訊。如需詳細資訊,請參閱在資料目錄中從 AWS Glue ETL 任務建立資料表、更新結構描述和新增分割區

2020 年 4 月 2 日

支援在 中指定 Apache Avro 資料格式的版本做為 ETL 輸入和輸出 AWS Glue

已新增指定 Apache Avro 資料格式的版本作為 AWS Glue中 ETL 輸入和輸出的相關資訊。預設版本 1.7。您可以使用 version 格式選項來指定 Avro 版本 1.8,以啟用邏輯讀取/寫入。如需詳細資訊,請參閱 中 ETL 輸入和輸出的格式選項 AWS Glue

2020 年 3 月 31 日

支援 EMRFS S3 最佳化遞交者,以將 Parquet 資料寫入 Amazon S3

已新增如何設定新標記來啟用 EMRFR S3 最佳化遞交者,以在建立或更新 AWS Glue 任務時,將 Parquet 資料寫入 Amazon S3 的相關資訊。如需詳細資訊,請參閱 使用的特殊參數 AWS Glue

2020 年 3 月 30 日

支援機器學習轉換做為資源標籤管理 AWS 的資源

新增使用 AWS 資源標籤來管理和控制對機器學習轉換的存取的相關資訊 AWS Glue。您可以將 AWS 資源標籤指派給 中的任務、觸發條件、端點、爬蟲程式和機器學習轉換 AWS Glue。如需詳細資訊,請參閱 AWS 中的標籤 AWS Glue

2020 年 3 月 2 日

支援不可覆寫的任務引數

已新增無法在觸發條件中覆寫,或在您執行任務時的特殊任務參數支援相關資訊。如需詳細資訊,請參閱在 AWS Glue新增任務

2020 年 2 月 12 日

支援用於 Amazon S3 中資料集的新轉換

新增有關 Apache Spark 應用程式搭配 Amazon S3 中資料集之新轉換 (合併、清除和轉移) 以及 Amazon S3 儲存體方案排除項目的相關資訊。如需支援這些 Python 轉換的詳細資訊,請參閱 mergeDynamicFrame在 Amazon S3 中使用資料集。對於 Scala,請參閱 mergeDynamicFramesAWS Glue Scala GlueContext APIs

2020 年 1 月 16 日

支援使用來自 ETL 任務的新分割區資訊進行 Data Catalog 更新

新增了有關如何編寫擷取、轉換和載入 (ETL) 指令碼程式碼的資訊,以 AWS Glue Data Catalog 使用新的分割區資訊更新 。利用這項功能,您不再需要在任務完成後重新執行爬蟲程式,即可檢視新的分割區。如需詳細資訊,請參閱使用新分割區更新 Data Catalog

2020 年 1 月 15 日

新教學課程:使用 SageMaker AI 筆記本

新增教學課程,示範如何使用 Amazon SageMaker 筆記本以協助部署您的 ETL 和機器學習指令碼。請參閱 教學課程:搭配開發端點使用 Amazon SageMaker 筆記本

2020 年 1 月 3 日

支援從 MongoDB 和 Amazon DocumentDB (with MongoDB compatibility) 讀取

已新增有關讀取和寫入 MongoDB 和 Amazon DocumentDB (with MongoDB Compatibility) 的新連線類型和連線選項資訊。如需詳細資訊,請參閱 AWS Glue中的 ETL 連線類型和選項

2019 年 12 月 17 日

多個修正與說明

加入完整的修正與說明。已從「已知問題」章節中移除項目內容。新增了警告,在指定 Data Catalog 加密設定和建立安全組態時,僅 AWS Glue 支援對稱的客戶主金鑰 (CMKs)。新增了 AWS Glue 不支援寫入 Amazon DynamoDB 的備註。

2019 年 12 月 9 日

支援自訂 JDBC 驅動程式

新增使用 AWS Glue 原生不支援的 JDBC 驅動程式連線至資料來源和目標的相關資訊,例如 MySQL 第 8 版和 Oracle Database 第 18 版。如需詳細資訊,請參閱 JDBC connectionType 值

2019 年 11 月 25 日

支援將 SageMaker AI 筆記本連接到不同的開發端點

新增如何將 SageMaker AI 筆記本連接到不同開發端點的相關資訊。更新以說明切換到新開發端點的新主控台動作,以及新的 SageMaker AI IAM 政策。如需詳細資訊,請參閱在 AWS Glue 主控台上使用筆記本建立 Amazon SageMaker AI 筆記本的 IAM 政策

2019 年 11 月 21 日

支援機器學習轉換中的 AWS Glue 版本

新增在機器學習轉換中定義 AWS Glue 版本的相關資訊,以指出 AWS Glue 機器學習轉換的相容版本。如需詳細資訊,請參閱在 AWS Glue 主控台上使用Machine Learning轉換

2019 年 11 月 21 日

支援倒轉您的任務書籤

已新增有關將您的工作書籤倒轉至任何先前的任務執行,導致後續任務只會從已加入書籤的任務執行重新處理資料的資訊。說明 job-bookmark-pause 選項兩個新的子選項,可讓您在兩個書籤之間執行任務。如需詳細資訊,請參閱使用任務書籤和 使用的特殊參數追蹤處理的資料AWS Glue

2019 年 10 月 22 日

支援自訂 JDBC 憑證以連接到資料存放區

新增 AWS Glue 支援自訂 JDBC 憑證以 SSL 連線至 AWS Glue 資料來源或目標的相關資訊。如需詳細資訊,請參閱在 AWS Glue 主控台上使用連線

2019 年 10 月 10 日

支援 Python Wheel

新增 AWS Glue 支援輪子檔案 (以及 egg 檔案) 做為 Python shell 任務相依性的相關資訊。如需詳細資訊,請參閱提供自己的 Python 程式庫

2019 年 9 月 26 日

支援 中的開發端點版本控制 AWS Glue

新增在開發端點Glue version中定義 的相關資訊。 Glue version會決定 AWS Glue 支援的 Apache Spark 和 Python 版本。如需詳細資訊,請參閱新增開發端點

2019 年 9 月 19 日

支援 AWS Glue 使用 Spark UI 監控

新增使用 Apache Spark UI 來監控和偵錯 AWS Glue 任務系統上執行的 AWS Glue ETL 任務,以及開發端點上的 AWS Glue Spark 應用程式的相關資訊。如需詳細資訊,請參閱AWS Glue 使用 Spark UI 監控

2019 年 9 月 19 日

增強功能以支援使用公開 AWS Glue ETL 程式庫在本機開發 ETL 指令碼

更新 AWS Glue 了 ETL 程式庫內容,以反映現在支援 1.0 AWS Glue 版。如需詳細資訊,請參閱使用 ETL 程式庫在本機開發和測試 AWS Glue ETL 指令碼

2019 年 9 月 18 日

支援在執行任務時排除 Amazon S3 儲存體方案

新增在執行從 Amazon S3 讀取檔案或分割區的 AWS Glue ETL 任務時排除 Amazon S3 儲存類別的相關資訊。如需詳細資訊,請參閱排除 Amazon S3 儲存體方案

2019 年 8 月 29 日

支援使用公有 ETL 程式庫進行本機 AWS Glue ETL 指令碼開發

新增相關資訊以說明如何在本機開發及測試 Python 和 Scala ETL 指令碼,而無需連線至網路。如需詳細資訊,請參閱使用 ETL 程式庫在本機開發和測試 AWS Glue ETL 指令碼

2019 年 8 月 28 日

已知問題

新增相關資訊以說明 AWS Glue中的已知問題。如需詳細資訊,請參閱 AWS Glue的已知問題

2019 年 8 月 28 日

支援 中的機器學習轉換 AWS Glue

新增 提供的機器學習功能相關資訊 AWS Glue ,以建立自訂轉換。當您建立任務時,您可以建立這些轉換。如需詳細資訊,請參閱 中的Machine Learning轉換 AWS Glue

2019 年 8 月 8 日

支援共用 Amazon Virtual Private Cloud

新增了有關 AWS Glue 支援共用 Amazon Virtual Private Cloud 的資訊。如需詳細資訊,請參閱共享 Amazon VPC

2019 年 8 月 6 日

支援 中的版本控制 AWS Glue

新增在任務屬性Glue version中定義 的相關資訊。 AWS Glue 版本 會決定 AWS Glue 支援的 Apache Spark 和 Python 版本。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2019 年 7 月 24 日

支援開發端點的其他組態選項

針對具有記憶體密集型工作負載的開發端點,新增組態選項的相關資訊。有兩個新的組態供您選擇,以提供每個執行程式更多的記憶體。如需詳細資訊,請參閱在AWS Glue 主控台上使用開發端點

2019 年 7 月 24 日

支援使用工作流程執行擷取、傳輸和載入 (ETL) 活動

新增了使用稱為工作流程的新建構來設計複雜多工作業擷取、轉換和載入 (ETL) 活動的相關資訊,這些活動 AWS Glue 可以做為單一實體執行和追蹤。如需詳細資訊,請參閱使用 中的工作流程執行複雜的 ETL 活動 AWS Glue

2019 年 6 月 20 日

支援 Python Shell 任務中的 Python 3.6

新增有關支援在 Python shell 任務中支援 Python 3.6 的資訊。您可以指定 Python 2.7 或 Python 3.6 作為任務屬性。如需詳細資訊,請參閱在AWS Glue新增 Python Shell 任務

2019 年 6 月 5 日

支援虛擬私有雲端 (VPC) 終端

新增透過 VPC AWS Glue 中的介面端點直接連線至 的相關資訊。當您使用 VPC 界面端點時,VPC 與 AWS 之間的通訊 AWS Glue 會在網路內完全安全地進行。如需詳細資訊,請參閱AWS Glue 搭配使用 VPC 端點

2019 年 6 月 4 日

支援 AWS Glue 任務的即時、持續記錄。

新增有關在 CloudWatch 中啟用和檢視即時 Apache Spark 任務日誌的資訊,包括驅動程式日誌、每個執行器日誌,以及 Spark 任務進度列。如需詳細資訊,請參閱持續記錄 AWS Glue 任務

2019 年 5 月 28 日

支援將現有的 Data Catalog 資料表做為爬蟲程式來源

新增將現有 Data Catalog 資料表清單指定為爬蟲程式來源的相關資訊。爬蟲程式即可在新資料可用時,偵測資料表結構描述的變更、更新資料表定義,並註冊新的分割區。如需詳細資訊,請參閱爬蟲程式屬性

2019 年 5 月 10 日

支援記憶體密集型任務的額外組態選項

新增含記憶體密集型工作負載之 Apache Spark 任務的組態選項相關資訊。有兩個新的組態供您選擇,以提供每個執行程式更多的記憶體。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2019 年 4 月 5 日

支援 CSV 自訂分類器

新增使用自訂 CSV 分類器以推斷各種 CSV 資料之結構描述的相關資訊。如需詳細資訊,請參閱撰寫自訂分類器

2019 年 3 月 26 日

支援 AWS 資源標籤

新增使用 AWS 資源標籤的相關資訊,協助您管理和控制對 AWS Glue 資源的存取。您可以將 AWS 資源標籤指派給任務、觸發條件、端點和爬蟲程式 AWS Glue。如需詳細資訊,請參閱 AWS 中的標籤 AWS Glue

2019 年 3 月 20 日

Spark SQL 任務適用的 Data Catalog 支援

新增有關設定 AWS Glue 任務和開發端點以使用 AWS Glue Data Catalog 做為外部 Apache Hive 中繼存放區的資訊。這可讓任務和開發端點直接對存放於 AWS Glue Data Catalog資料目錄之資料表直接執行 Apache Spark SQL 查詢。如需詳細資訊,請參閱 Spark SQL 任務的AWS Glue Data Catalog 支援

2019 年 3 月 14 日

支援 Python shell 任務

Python shell 任務的新增資訊和新增欄位 Maximum capacity (容量上限)。如需詳細資訊,請參閱在 AWS Glue新增 Python Shell 任務

2019 年 1 月 18 日

支援在對資料庫和資料表進行變更時的通知

針對資料庫、資料表和分割區 API 呼叫進行變更時產生之事件的新增資訊 您可以在 CloudWatch Events 中設定動作以回應這些事件。​ 如需詳細資訊,請參閱使用 CloudWatch Events 自動化 AWS Glue

2019 年 1 月 16 日

支援加密連線密碼

針對用於連線物件的加密密碼新增資訊。如需詳細資訊,請參閱加密連線密碼

2018 年 12 月 11 日

支援資源層級的許可和以資源為基礎的政策

新增使用資源層級許可和資源型政策的相關資訊 AWS Glue。如需詳細資訊,請參閱 AWS Glue中的安全性內的主題。

2018 年 10 月 15 日

支援 SageMaker AI 筆記本

新增使用 SageMaker AI 筆記本搭配 AWS Glue 開發端點的相關資訊。如需詳細資訊,請參閱管理筆記本

2018 年 10 月 5 日

加密支援

新增使用 加密的相關資訊 AWS Glue。如需詳細資訊,請參閱靜態加密傳輸中加密,以及設定 AWS Glue中的加密

2018 年 8 月 24 日

支援 Apache Spark 任務指標

新增有關使用 Apache Spark 指標的訊息,以便更佳的偵錯並分析 ETL 任務。您可以輕鬆追蹤執行時間指標,例如讀取和寫入位元組、驅動程式和執行器的記憶體用量和 CPU 負載,以及 AWS Glue 主控台執行器之間的資料隨機播放。如需詳細資訊,請參閱AWS Glue 使用 CloudWatch 指標進行監控任務監控和偵錯,以及在主控台上使用 AWS Glue 任務

2018 年 7 月 13 日

支援 DynamoDB 做為資料來源

新增有關爬取 DynamoDB 和使用它做為 ETL 任務的資料來源。如需詳細資訊,請參閱以爬蟲程式編目資料表連線參數

2018 年 7 月 10 日

對建立筆記本伺服器流程的更新

有關如何在與開發端點關聯的 Amazon EC2 執行個體建立筆記本伺服器的資訊。如需詳細資訊,請參閱建立和開發端點關聯的筆記本伺服器

2018 年 7 月 9 日

現在可以透過 RSS 獲得更新

您現在可以訂閱更新 RSS 訊息,以接收 AWS Glue 開發人員指南的更新通知。

2018 年 6 月 25 日

支援任務的延遲通知

新增任務執行時有關設定延遲閾值的相關資訊。如需詳細資訊,請參閱在 AWS Glue新增任務

2018 年 5 月 25 日

設定爬蟲程式以附加新欄

新增爬蟲程式 MergeNewColumns 新組態選項的相關資訊。如需詳細資訊,請參閱設定爬蟲程式

2018 年 5 月 7 日

支援任務逾時

新增當任務執行時有關設定逾時閾值的相關資訊。如需詳細資訊,請參閱在 AWS Glue新增任務

2018 年 4 月 10 日

支援 Scala ETL 指令碼和根據額外的執行狀態來觸發任務

加入了使用 Scala 作為 ETL 程式設計語言的相關資訊。此外,觸發 API 現在支援在符合任何條件時觸發 (除了在符合所有條件時觸發之外)。另外,也可以根據「失敗的」或「停止的」任務執行來觸發任務 (除了根據「成功的」任務執行來觸發之外)。

2018 年 1 月 12 日

舊版更新

下表說明 2018 年一月前每個 AWS Glue 開發人員指南版本的重要變更。

變更 描述 日期
支援 XML 資料來源與新的爬蟲程式組態選項 針對 XML 資料來源的分類和變更分割區用的新爬蟲程式選項,新增了相關的資訊。 2017 年 11 月 16 日
新的轉換功能、支援其他 Amazon RDS 資料庫引擎,以及開發端點的增強功能 加入關於映射與篩選轉換的資訊、Amazon RDS Microsoft SQL Server 和 Amazon RDS Oracle 的支援,以及開發端點的新功能。 2017 年 9 月 29 日
AWS Glue 初始版本 這是初版的 AWS Glue 開發人員指南 2017 年 8 月 14 日

下一個主題:

AWS 詞彙表

上一個主題:

已知問題
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。