選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

的文件歷史記錄 AWS Glue

焦點模式
的文件歷史記錄 AWS Glue - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

變更描述日期

支援 16 個新的 SaaS 原生連接器 AWS Glue

已新增 16 個 SaaS 原生連接器 AWS Glue。如需詳細資訊,請參閱新增 AWS Glue 連線

2024 年 12 月 17 日

支援零ETL整合

Zero-ETL 是 的一組全受管整合 AWS ,可將建置ETL資料管道的需求降至最低。如需詳細資訊,請參閱零ETL整合

2024 年 12 月 3 日

支援可重複使用的連線

新的 AWS Glue 連線結構描述提供統一的方式來管理 AWS 服務和應用程式之間的資料連線 AWS Glue,例如 Amazon Athena 和 Amazon SageMaker Unified Studio。如需詳細資訊,請參閱連線至資料

2024 年 12 月 3 日

支援 5.0 AWS Glue 版。

新增 5.0 AWS Glue 版支援的相關資訊。功能包括 Apache Spark 更新至 3.52、Java 更新至 17、開放資料表格式更新、Spark 原生精細存取控制、Sagemaker Lakehouse 和資料倉儲抽象整合、Sagemaker Unified Studio 支援等。如需詳細資訊,請參閱AWS Glue 版本備註將 AWS Glue 任務遷移至 5.0 AWS Glue 版。

2024 年 12 月 3 日

AWS Glue Data Catalog 使用 AWS Glue Iceberg REST端點連線至

AWS Glue的 Iceberg REST端點支援 Apache Iceberg REST規格中指定的API操作。使用 Iceberg REST用戶端,您可以將在分析引擎上執行的應用程式連接到 Data REST Catalog 中託管的目錄。如需詳細資訊,請參閱存取 Data Catalog

2024 年 12 月 3 日

自動產生資料欄統計資料

自動為 中的新資料表產生資料欄統計資料 AWS Glue Data Catalog。如需詳細資訊,請參閱自動產生資料欄統計資料

2024 年 12 月 3 日

在 中支援 Apache Spark 的生成式 AI 升級 AWS Glue

中的 Spark 升級 AWS Glue 可讓資料工程師和開發人員使用生成式 AI 升級和遷移升級,並將現有的 AWS Glue Spark 任務遷移到最新的 Spark 版本。如需詳細資訊,請參閱使用 AI 升級分析

2024 年 11 月 22 日

支援 中 Apache Spark 的生成式 AI 疑難排解 AWS Glue

中的 Apache Spark 任務的生成式 AI 故障診斷 AWS Glue 可協助資料工程師和科學家輕鬆診斷和修正其 Spark 應用程式的問題。如需詳細資訊,請參閱使用 AI 對 Spark 任務進行故障診斷

2024 年 11 月 22 日

支援 Iceberg 最佳化工具存取 中的 Amazon S3 儲存貯體 VPC

AWS Glue Data Catalog 支援 Iceberg 資料表最佳化工具,使用 AWS Glue 網路連線從特定虛擬私有雲端 (VPC) 存取 Amazon S3 儲存貯體。如需詳細資訊,請參閱最佳化 Iceberg 資料表

2024 年 11 月 20 日

支援 的九個新的 SaaS 原生連接器 AWS Glue

已新增 9 個以上的 SaaS 原生連接器 AWS Glue。如需詳細資訊,請參閱新增 AWS Glue 連線

2024 年 11 月 19 日

支援十個適用於 的新 SaaS 原生連接器 AWS Glue

已新增十個 SaaS 原生連接器 AWS Glue。如需詳細資訊,請參閱新增 AWS Glue 連線

2024 年 11 月 15 日

支援任務的任務執行佇列 AWS Glue ETL

當任務因服務配額而無法立即執行時,您可以開啟任務執行佇列,稍後再執行任務。如需詳細資訊,請參閱設定 中 Spark 任務的任務屬性 AWS Glue

2024 年 9 月 3 日

更新政策變更

已記錄對 AwsGlueSessionUserRestrictedNotebookPolicyAwsGlueSessionUserRestrictedNotebookServiceRole政策的變更,在 上 tag-on-create支援具有擁有者標籤金鑰的工作階段時需要。如需詳細資訊,請參閱 AWS GlueAWS 受管政策的更新

2024 年 8 月 30 日

異常偵測和動態規則現已正式推出

AWS Glue Data Quality 利用機器學習演算法從過去趨勢中學習,然後預測未來值以偵測異常。動態規則可讓您提供動態閾值。如需詳細資訊,請參閱最佳化 Iceberg 資料表的查詢效能

2024 年 8 月 7 日

更新政策變更

AwsGlueSessionUserRestrictedPolicyAwsGlueSessionUserRestrictedServiceRole政策的記錄變更,在 上 tag-on-create支援具有擁有者標籤金鑰的工作階段時需要。如需詳細資訊,請參閱 AWS GlueAWS 受管政策的更新

2024 年 8 月 5 日

產生 Iceberg 資料表的資料欄統計資料現已正式推出

AWS Glue 支援計算和更新 Iceberg 資料表中每個資料欄的不同值 (NDVs) 數目。如需詳細資訊,請參閱AWS Glue 資料品質和動態規則中的異常偵測https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-dynamic-rules

2024 年 7 月 9 日

支援 AWS Glue 用量設定檔

管理員可以為帳戶內各種類別的使用者建立 AWS Glue 用量描述檔,例如開發人員、測試人員和產品團隊。此彈性可讓管理員為每個類別的使用者套用不同的用量和成本控制。如需詳細資訊,請參閱設定 AWS Glue 用量設定檔

2024 年 6 月 18 日

支援 AWS Glue 適用於 Spark 的 Salesforce 連接器

新增 Salesforce 新 AWS Glue 連接器的相關資訊。此功能可讓您使用 AWS Glue 讓 Spark 從 AWS Glue 4.0 版和更新版本中讀取和寫入 Salesforce。如需詳細資訊,請參閱連線至 Salesforce

2024 年 5 月 22 日

在 AWS Glue (GA) 中整合 Amazon Q 資料

中的 Amazon Q 資料整合 AWS Glue 是 的新生成式 AI 功能 AWS Glue ,可讓資料工程師和ETL開發人員使用自然語言建置資料整合任務。工程師和開發人員可以要求 Q 撰寫任務、疑難排解問題,並回答有關 AWS Glue 和資料整合的問題。如需詳細資訊,請參閱 AWS Glue中的 Amazon Q 資料整合。此功能包含 AwsGlueSessionUserRestrictedPolicyAwsGlueSessionUserRestrictedNotebookServiceRoleAwsGlueSessionUserRestrictedServiceRole AWS 受管政策的更新。如需詳細資訊,請參閱 AWS GlueAWS 受管政策的更新

2024 年 4 月 30 日

Amazon Q 資料整合 in AWS Glue (預覽)

中的 Amazon Q 資料整合 AWS Glue 是 的新生成式 AI 功能 AWS Glue ,可讓資料工程師和ETL開發人員使用自然語言建置資料整合任務。工程師和開發人員可以要求 Q 撰寫任務、疑難排解問題,並回答有關 AWS Glue 和資料整合的問題。如需詳細資訊,請參閱 AWS Glue中的 Amazon Q 資料整合。此功能包含 AwsGlueSessionUserRestrictedNotebookPolicy AWS 受管政策的更新。如需詳細資訊,請參閱 AWS GlueAWS 受管政策的更新

2024 年 1 月 30 日

串流的文件更新 AWS Glue

新增了新的章節,其中包含適用於 AWS Glue 串流的新內容和重組內容。此內容說明串流的運作方式 AWS Glue、即時資料處理的特性,以及如何監控串流任務。如需詳細資訊,請參閱 AWS Glue 串流

2023 年 12 月 27 日

支援使用微調敏感資料偵測

Detect Sensitive Data 轉換可偵測、遮罩或移除您定義或 AWS Glue預先定義的實體。微調動作可讓您進一步針對每個實體套用特定動作。如需詳細資訊,請參閱使用微調敏感資料偵測

2023 年 11 月 26 日

支援使用 AWS Glue 可觀測性指標監控任務

使用 AWS Glue 可觀測性指標,針對 Apache Spark 任務中 AWS Glue 發生的情況產生洞見,以改善問題的分類和分析。如需詳細資訊,請參閱使用 AWS Glue 可觀測性指標監控

2023 年 11 月 26 日

支援 AWS Glue Data Quality 中的異常偵測

AWS Glue 資料品質異常偵測會隨時間將機器學習 (ML) 演算法套用至資料統計資料,以偵測難以透過規則偵測的異常模式和隱藏資料品質問題。如需詳細資訊,請參閱 AWS Glue Data Quality 中的異常偵測

2023 年 11 月 26 日

更新為預設的 Spark UI 記錄行為

產生 Spark UI 日誌的 Spark 任務現在將使用不同的檔案名稱模式寫入,以在 AWS Glue 主控台中支援 Spark UI。這不會變更 CloudWatch 日誌行為。您可以透過更新作業組態還原為舊版行為。如需詳細資訊,請參閱使用 Apache Spark web UI 監控作業

2023 年 11 月 17 日

在 AWS Glue for Spark 中支援新的資料來源

現在原生支援 Amazon OpenSearch Service、Azure SQL、Azure Cosmos for NoSQL、SAPHANATeradata Vantage 和 Vertica 的連線 AWS Glue。此外,與這些資料來源的連線以及 MongoDB,現在可在 AWS Glue Studio 視覺化編輯器中使用。如需詳細資訊,請參閱 ETL 中的 AWS Glue 適用於 Spark 的連線類型和選項,以取得 AWS Glue Spark 支援的相關資訊,以及新增 AWS Glue 連線,以取得 AWS Glue Studio 視覺化編輯器中使用 的相關資訊。

2023 年 11 月 17 日

支援產生資料欄統計資料

您可以運算 Parquet、、ORC、JSONION、 和 等資料格式 AWS Glue Data Catalog 資料表的資料欄層級統計資料CSV,XML而無需設定其他資料管道。如需詳細資訊,請參閱使用資料欄統計資料

2023 年 11 月 16 日

支援 Iceberg 資料表的資料壓縮

Data Catalog 為 Data Catalog 中的 Iceberg 資料表提供受管壓縮 (將小型 Amazon S3 物件壓縮為大型物件的程序),讓 Amazon Athena 和 Amazon EMR等 AWS AWS Glue ETL分析服務和 任務的讀取效能更佳。如需詳細資訊,請參閱最佳化 Iceberg 資料表

2023 年 11 月 13 日

任務執行等待行為更新

標準 Spark 和 Python Shell 任務執行目前會在特定情況下轉移至 WAITING,而非立即轉移至 FAILED。如需詳細資訊,請參閱 AWS Glue 任務執行狀態

2023 年 11 月 8 日

AWS Glue Studio 使用者指南合併為 AWS Glue 開發人員指南

AWS Glue Studio 使用者指南已移至開發人員指南中,以建立 AWS Glue Studio、 AWS Glue 主控台和 AWS Glue Studio 程式設計存取的單一統一使用者指南。

2023 年 10 月 25 日

受 AWSGlueServiceNotebookRole AWS 管政策的更新

已新增 AWSGlueServiceNotebookRole AWS 受管政策次要更新的相關資訊。如需詳細資訊,請參閱 受AWS GlueAWS 管政策的更新

2023 年 10 月 9 日

AWS Glue Studio 支援五個新的內建轉換

AWS Glue Studio 支援下列五個新的內建轉換:記錄比對、移除 null 資料列、剖析JSON資料欄、擷取JSON路徑和 Regex 擷取器。如需詳細資訊,請參閱編輯 AWS Glue 受管資料轉換節點

2023 年 8 月 11 日

AWSGlueServiceRole AWS 受管政策的更新

新增了 AWSGlueServiceRole AWS 受管政策次要更新的相關資訊。如需詳細資訊,請參閱 受AWS GlueAWS 管政策的更新

2023 年 8 月 4 日

支援網路爬取 Apache Hudi 資料表

已新增使用 AWS Glue 在 Amazon S3 儲存貯體中爬取 Hudi 資料表並將 Hudi 資料表註冊至 的相關資訊 AWS Glue Data Catalog。如需詳細資訊,請參閱 Which data stores can I crawl?Crawler properties

2023 年 7 月 21 日

受 AWSGlueConsoleFullAccess AWS 管政策的更新

已新增 AWSGlueConsoleFullAccess AWS 受管政策次要更新的相關資訊。如需詳細資訊,請參閱 受AWS GlueAWS 管政策的更新

2023 年 7 月 14 日

支援網路爬取 Apache Iceberg 資料表

已新增使用 AWS Glue 在 Amazon S3 儲存貯體中爬取 Iceberg 資料表並將 Iceberg 資料表註冊至 的相關資訊 AWS Glue Data Catalog。如需詳細資訊,請參閱 Which data stores can I crawl?Crawler properties

2023 年 7 月 7 日

支援 AWS Glue 搭配 Ray

新增了有關 AWS Glue Ray 的資訊,Ray 是可恢復 AWS Glue 任務的新引擎。 AWS Glue 使用 Spark 內容重新組織現有的 以取消歧義。

2023 年 5 月 30 日

支援 AWS Glue 資料品質 (GA)

AWS Glue Data Quality 現在已全面推出。 AWS Glue Data Quality 可協助您評估和監控資料的品質。如需如何搭配 AWS Glue Data Catalog 使用 Data Quality 的詳細資訊,請參閱 AWS Glue Data Quality。若要了解 AWS Glue 的資料品質 AWS Glue Studio,請參閱使用 評估資料品質 AWS Glue Studio

2023 年 5 月 24 日

支援適用於 Apache Spark 任務的較大工作者類型

目前支援使用針對 Apache Spark 任務的 G.4XG.8X 工作者類型。這些工作者類型適合工作負載包含最嚴苛轉換、彙總、聯結和查詢的任務。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2023 年 5 月 8 日

支援在網路爬取資料表時建立分割區索引

新增了有關爬蟲程式如何支援為所偵測之資料表建立分割區索引的資訊。如需詳細資訊,請參閱 Setting the partition index crawler configuration option

2023 年 4 月 24 日

支援資源用量指標

新增在 Amazon 中檢視服務資源用量和設定警示的相關資訊 CloudWatch。如需詳細資訊,請參閱 AWS Glue resource monitoring

2023 年 4 月 7 日

受 AWSGlueConsoleFullAccess AWS 管政策的更新

已新增 AWSGlueConsoleFullAccess AWS 受管政策次要更新的相關資訊。如需詳細資訊,請參閱 受AWS GlueAWS 管政策的更新

2023 年 3 月 28 日

已新增使用 AWS Glue 搭配 AWS SDK 範例的指導方針

AWS Glue 開發人員指南有兩個新的區段,可提供資訊以協助您 AWS Glue 搭配 使用 AWS SDK。如需詳細資訊,請參閱搭配使用 AWS Glue 與 AWS SDK程式碼範例以供 AWS Glue 使用 AWS SDKs

2023 年 2 月 23 日

IAM使用 更新 文件 AWS Glue

重新組織和新增使用 IAM搭配 的資訊 AWS Glue。如需詳細資訊,請參閱適用於 AWS Glue的 Identity and Access Management

2023 年 2 月 15 日

支援在 4.0 AWS Glue 版中執行串流ETL任務

新增支援在 Glue 4.0 版中執行串流ETL任務的相關資訊,以及連線至 Kafka 叢集或 Amazon Managed Streaming for Apache Kafka 叢集和 Amazon Kinesis Data Streams 的新選項。如需詳細資訊,請參閱在 中新增串流ETL任務 AWS Glue,以及 ETL 中的連線類型和選項 AWS Glue

2023 年 2 月 8 日

支援網路爬取 MongoDB Atlas 資料來源

新增使用 AWS Glue 來編目 MongoDB Atlas 資料來源的相關資訊。如需詳細資訊,請參閱我可以爬取哪些資料存放區?MongoDB 和 MongoDB Atlas 連線屬性 ,以及使用 MongoDB 或 MongoDB Atlas 連線

2023 年 2 月 6 日

支援使用原生 Delta Lake 連接器網路爬取 Delta Lake 資料表

新增使用 AWS Glue 使用原生 Delta Lake 連接器來爬取 Delta Lake 資料表的相關資訊。此功能可讓您使用 AWS 查詢引擎直接查詢 Delta 交易日誌,並使用時間行程和ACID保證等功能,並將 Amazon S3 交易檔案的 Delta Lake 中繼資料同步至 Data Catalog,以啟用 Lake Formation 中查詢的資料欄許可。如需詳細資訊,請參閱如何為 Delta Lake 的資料儲存指定配置選項查詢 Delta Lake 資料表

2022 年 12 月 15 日

支援 AWS Glue 資料品質 (預覽)

Data AWS Glue Quality (預覽版) 現已提供支援。 AWS Glue Data Quality 可協助您在使用 AWS Glue 3.0 時評估和監控資料的品質。如需如何搭配 AWS Glue Data Catalog 使用 Data Quality 的詳細資訊,請參閱 AWS Glue Data Quality (預覽)。若要了解 AWS Glue 的資料品質 AWS Glue Studio,請參閱使用 評估資料品質 AWS Glue Studio

2022 年 11 月 30 日

支援具有新功能和改進效能的全新 Amazon Redshift Spark 連接器

現在支援具有新JDBC驅動程式的新 Amazon Redshift Spark 連接器,可與任務搭配使用 AWS Glue ETL,以建置在 Amazon Redshift 中讀取和寫入資料的 Apache Spark 應用程式,作為資料擷取和轉換管道的一部分。如需詳細資訊,請參閱將資料移入及移出 Amazon Redshift

2022 年 11 月 29 日

支援 4.0 AWS Glue 版。

新增 4.0 AWS Glue 版支援的相關資訊。功能包括對 Apache Hudi、Delta Lake 和 Apache Iceberg 開源資料湖架構的原生支援,以及對以 Amazon S3 為基礎的雲端隨機排序儲存外掛程式 (一種 Apache Spark 外掛程式) 的原生支援,以針對隨機排序和彈性儲存容量使用 Amazon S3。如需詳細資訊,請參閱AWS Glue 版本備註將 AWS Glue 任務遷移至 4.0 AWS Glue 版。

2022 年 11 月 28 日

AWS Glue Studio 現在提供自訂視覺效果轉換

自訂視覺效果轉換可讓客戶定義、重複使用和與其團隊共用業務特定的ETL邏輯。如需詳細資訊,請參閱自訂視覺化轉換

2022 年 11 月 28 日

支援使用 AWS Glue 爬蟲程式發佈JDBC資料存放區的中繼資料

現已支援使用 AWS Glue 爬蟲程式將註解和原始類型等中繼資料發佈至JDBC資料存放區的資料目錄。如需詳細資訊,請參閱依爬蟲程式、爬蟲程式屬性和結構在 Data Catalog 資料表上設定的參數https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html JdbcTarget

2022 年 11 月 18 日

支援網路爬取 Snowflake 資料存放區

現已支援 AWS Glue 使用 來編目 Snowflake 資料表和檢視,以及將中繼資料發佈至 Data Catalog 做為資料表項目。對於 Amazon S3 中的 Snowflake 外部資料表,爬蟲程式也會網路爬取 Amazon S3 位置和外部資料表的檔案格式類型,並填入為表格參數。如需詳細資訊,請參閱我可以爬取哪個資料存放區?AWS Glue 連線屬性,以及爬蟲程式在 Data Catalog 資料表上設定的參數

2022 年 11 月 18 日

支援改進 Spark 應用程式的隨機排序管理

現支援新的 Apache Spark 雲端隨機排序儲存外掛程式。如需詳細資訊,請參閱 AWS Glue Spark 隨機排序管理器與 Amazon S3Cloud Shuffle Storage Plugin for Apache Spark (Apache Spark 雲端隨機排序儲存外掛程式)。

2022 年 11 月 15 日

新增在加速爬蟲 Amazon S3 事件通知時對 Data Catalog 目標的支援

除了現有的 Amazon S3 目標支援之外,現在也支援使用 Amazon S3 事件通知加速 Data Catalog 目標的爬蟲。如需詳細資訊,請參閱使用 Amazon S3 事件通知加速編目

2022 年 10 月 13 日

支援指定爬蟲程式可建立的資料表數目上限

現在可支援指定爬蟲程式可建立的資料表數目上限。如需詳細資訊,請參閱如何指定爬蟲程式可建立的資料表數目上限

2022 年 9 月 6 日

在 中支援 Python shell 任務中的 Python 3.9 AWS Glue

支援現在可用於執行 中的 Python shell 任務中與 Python 3.9 相容的指令碼 AWS Glue,以及選擇使用預先封裝的程式庫集。如需詳細資訊,請參閱 AWS Glue中的 Python Shell 任務

2022 年 8 月 11 日

支援在備用容量上執行非緊急或非時間敏感 AWS Glue 任務

現在可支援設定非緊急任務 (如生產前任務、測試和一次性資料載入) 的彈性任務執行。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2022 年 8 月 9 日

支援串流任務的新工作者類型

目前支持使用適用於低容量串流任務的 G.025X 工作者類型。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2022 年 7 月 14 日

支援在 AWS Glue 連線SASL中使用 Kafka

支援現已可用於SASL AWS Glue 連線中的 Kafka。如需詳細資訊,請參閱適用於用戶端身分驗證的AWS Glue Kafka 連線屬性

2022 年 7 月 5 日

支援適用於 protobuf 結構描述的 Apache kafka 連接器

目前支援適用於 Protobuf 結構描述的 Apache Kafka 連接器。如需詳細資訊,請參閱 AWS Glue 結構描述登錄檔

2022 年 6 月 9 日

支援 AWS Glue 任務的 Auto Scaling (GA)

新增在 3.0 AWS Glue 版中使用 Auto Scaling 進行任務以動態擴展運算資源的相關資訊。如需詳細資訊,請參閱為 AWS Glue使用 Auto Scaling

2022 年 4 月 14 日

更新文件以 AWS Glue 開發和測試 AWS Glue 任務指令碼

重組和新增了 可用開發和測試方法的相關資訊 AWS Glue,包括使用 Docker 進行開發的指示。如需詳細資訊,請參閱開發和測試 AWS Glue 任務指令碼

2022 年 3 月 14 日

新增通訊協定緩衝區 (protobuf) AWS Glue 做為結構描述登錄檔支援的資料格式

新增有關 Protobuf 作為支援資料格式的資訊 (除了 AVRO和 之外JSON)。如需詳細資訊,請參閱 AWS Glue 結構描述登錄檔

2022 年 2 月 25 日

支援爬取 Delta Lake 資料表

新增使用 AWS Glue 來編目 Delta Lake 資料表的相關資訊。如需詳細資訊,請參閱如何為 Delta Lake 的資料儲存指定配置選項

2022 年 2 月 24 日

支援 AWS Glue 任務洞見

新增了使用 AWS Glue 任務洞見來簡化任務偵錯和最佳化的相關資訊 AWS Glue 。如需詳細資訊,請參閱使用 AWS Glue 任務洞察監控

2022 年 2 月 8 日

支援使用VPC端點爬取 Amazon S3 支援的資料目錄資料表

除了 Amazon S3 資料存放區之外,您可以設定 Amazon S3 支援的 Data Catalog 資料表僅由 Amazon Virtual Private Cloud environment (Amazon VPC) 存取,以用於安全、稽核或控制目的。如需詳細資訊,請參閱使用 VPC 端點爬取 Amazon S3 Data Store 或 Amazon S3 支援的 Data Catalog 資料表

2022 年 2 月 3 日

支援受 Lake Formation 管控的資料表

新增 AWS Glue 支援 Lake Formation 受管資料表的相關資訊,以支援ACID交易、自動資料壓縮和時間行程查詢。如需詳細資訊,請參閱 AWS Glue APIAWS Lake Formation 開發人員指南

2021 年 11 月 30 日

為互動式工作階段和筆記本新增了新的 AWS 受管政策

新的 受管政策IAM提供增強的安全性,以 AWS Glue 搭配互動式工作階段和筆記本使用 。如需詳細資訊,請參閱 AWS Glue的AWS 受管政策

2021 年 11 月 30 日

串流任務現在支援 Glue 結構描述登錄檔

您可以建立串流任務來存取屬於 Glue 結構描述登錄檔的資料表。如需詳細資訊,請參閱AWS Glue 結構描述登錄檔和在 中新增串流ETL任務 AWS Glue

2021 年 11 月 15 日

支援全新的機器學習功能

已新增有關「尋找相符項目」機器學習轉換之新功能的資訊,包括增量改進比對和相符項目得分。如需詳細資訊,請參閱尋找增量改進相符項目使用相符項目可信度分數估計項目相符品質

2021 年 10 月 31 日

(私有預覽) AWS Glue 支援彈性任務

新增了有關使用彈性執行類別設定 AWS Glue Spark 任務的資訊,適用於啟動和完成時間可能不同的不限時間任務。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2021 年 10 月 29 日

支援使用 Amazon S3 事件通知加速編目

新增使用 Amazon S3 事件通知加速編目的相關資訊。如需詳細資訊,請參閱使用 Amazon S3 事件通知加速編目

2021 年 10 月 15 日

與存取控制和 相關的其他安全組態選項 VPCs

新增了有關如何在 上設定新存取控制許可 AWS Glue 和 組態的資訊VPCs。如需詳細資訊,請參閱 AWS 中的標籤 AWS Glue使用條件金鑰或內容金鑰控制設定的以身分為基礎的政策 (IAM 政策),以及設定所有 AWS 呼叫以通過您的 VPC

2021 年 10 月 13 日

支援VPC端點政策

新增支援 中的虛擬私有雲端 (VPC) 端點政策的相關資訊 AWS Glue。如需詳細資訊,請參閱 AWS Glue 和介面VPC端點 (AWS PrivateLink)

2021 年 10 月 11 日

Glue Studio 現在可在中國區域中使用

AWS Glue Studio 現已在中國北京和寧夏區域提供。

2021 年 10 月 11 日

AWS Glue Studio 提供筆記本撰寫,用於互動式任務編輯

筆記本可協助您撰寫和執行程式碼、視覺化結果,以及分享深入解析。通常,資料科學家使用筆記本進行實驗和資料探索任務。如需詳細資訊,請參閱使用筆記本

2021 年 10 月 1 日

現已推出直接存取串流來源功能

在視覺化編輯器中將資料來源新增至ETL任務時,您可以提供資訊來存取資料串流,而不必使用 Data Catalog 資料庫和資料表。

2021 年 9 月 30 日

已記錄 AWS Glue 版本支援政策

新增特定 AWS Glue 版本的版本支援政策和生命週期結束階段的相關資訊 AWS Glue 。如需詳細資訊,請參閱 AWS Glue 版本支援政策

2021 年 9 月 24 日

自訂連接器現在可以搭配資料預覽使用

使用自訂連接器編輯資料來源節點時,您可以選擇「資料預覽」索引標籤來預覽資料集。如需詳細資訊,請參閱自訂連接器

2021 年 9 月 24 日

支援 AWS Glue 互動式工作階段 (私有預覽)

(私有預覽) 新增有關使用任何 Jupyter 筆記本使用 AWS Glue 互動式工作階段在雲端執行 Spark 工作負載的資訊。當您使用 AWS Glue 2.0 或更新版本時,互動式工作階段是開發 AWS Glue 擷取、轉換和載入 (ETL) 程式碼的偏好方法。如需詳細資訊,請參閱設定和執行 Jupyter 筆記本的 AWS Glue 互動式工作階段

2021 年 8 月 24 日

支援從藍圖建立工作流程 (GA)

新增有關在藍圖中編碼常見擷取、轉換和載入 (ETL) 使用案例,然後從藍圖建立工作流程的資訊。可讓資料分析師輕鬆建立和執行複雜的ETL程序。如需詳細資訊,請參閱 中的使用藍圖和工作流程執行複雜ETL活動 AWS Glue

2021 年 8 月 23 日

支援 3.0 AWS Glue 版。

新增支援 3.0 AWS Glue 版的資訊,該版本支援執行 Apache Spark ETL任務的 Apache Spark 3.0 引擎升級,以及其他最佳化和升級。如需詳細資訊,請參閱AWS Glue 版本備註將 AWS Glue 任務遷移至 3.0 AWS Glue 版。此版本的其他功能包括 AWS Glue 隨機播放管理員、SIMD向量化CSV讀取器和目錄分割區述詞。如需詳細資訊,請參閱AWS Glue 具有 Amazon S3 的 Spark 隨機播放管理員輸入和輸出的格式選項ETL AWS Glue,以及使用目錄分割區述詞的伺服器端篩選

2021 年 8 月 18 日

AWS GovCloud (US) Region

AWS Glue Studio 現在可在 中使用 AWS GovCloud (US) Region

2021 年 8 月 18 日

Python shell 撰寫可在 中使用 AWS Glue Studio

建立新任務時,您現在可以選擇建立 Python Shell 任務。如需詳細資訊,請參閱啟動任務建立程序在 AWS Glue Studio中編輯 Python Shell 任務

2021 年 8 月 13 日

支援使用 Amazon EventBridge 事件啟動工作流程

新增如何在事件驅動架構中 AWS Glue 成為事件消費者的相關資訊。如需詳細資訊,請參閱使用 Amazon EventBridge 事件啟動 AWS Glue 工作流程檢視已啟動工作流程 EventBridge 的事件

2021 年 7 月 14 日

新增 AWS Glue JSON做為結構描述登錄檔支援的資料格式

新增有關 JSON 作為支援資料格式的資訊 (除了 之外AVRO)。如需詳細資訊,請參閱 AWS Glue 結構描述登錄檔

2021 年 6 月 30 日

建立不含 Data Catalog 資料表的 AWS Glue 串流任務

create_data_frame_from_options Python 函數或 getSource Scala 指令碼支援建立直接參考資料串流的串流ETL任務,而不需要資料目錄資料表。

2021 年 6 月 15 日

AWS Glue 機器學習轉換現在支援 AWS Key Management Service 金鑰

您可以使用 主控台CLI、 或 設定 AWS Glue Machine Learning 轉換時,指定安全組態或 AWS KMS 金鑰 AWS Glue APIs。如需詳細資訊,請參閱搭配使用資料加密與Machine Learning轉換AWS Glue Machine Learning。 API

2021 年 6 月 15 日

受 AWSGlueConsoleFullAccess AWS 管政策的更新

已新增受管政策次要更新 AWSGlueConsoleFullAccess AWS 的相關資訊。如需詳細資訊,請參閱 受AWS GlueAWS 管政策的更新

2021 年 6 月 10 日

在建立和編輯任務時檢視任務的資料集

您可以使用任務圖表中節點的新資料預覽索引標籤,以查看該節點處理的資料範例。如需詳細資訊,請參閱在視覺化任務編輯器中使用資料預覽

2021 年 6 月 7 日

支援指定值以指出爬蟲程式輸出的資料表位置。

新增在設定爬蟲程式輸出時指出資料表位置值的相關資訊。如需詳細資訊,請參閱如何指定資料表位置

2021 年 6 月 4 日

在爬取 Amazon S3 資料存放區時,支援爬取資料集中的檔案樣本

新增有關在爬取 Amazon S3 時如何爬取檔案範例的相關資訊。如需詳細資訊,請參閱爬蟲程式屬性

2021 年 5 月 10 日

支援 AWS Glue 最佳化的 parquet writer

新增使用 AWS Glue 最佳化 parquet writer for DynamicFrames 建立或更新具有 parquet分類之資料表的相關資訊。如需詳細資訊,請參閱在 中建立資料表、更新結構描述,以及從 AWS Glue ETL 任務和輸入和輸出格式選項中新增分割區 ETL AWS Glue

2021 年 5 月 4 日

支援 kafka 用戶端身分驗證密碼

新增 中的串流ETL任務如何 AWS Glue 支援與 Apache Kafka 串流生產者進行SSL用戶端憑證驗證的相關資訊。您現在可以在定義與 Apache Kafka 叢集的 AWS Glue 連線時提供自訂憑證,該叢集 AWS Glue 將在驗證時使用。如需詳細資訊,請參閱AWS Glue 連線屬性連線 API

2021 年 4 月 28 日

支援在串流ETL任務中從另一個 帳戶中使用來自 Amazon Kinesis Data Streams 的資料

新增有關建立串流ETL任務以取用來自另一個帳戶中 Amazon Kinesis Data Streams 的資料的資訊。如需詳細資訊,請參閱在 中新增串流ETL任務 AWS Glue

2021 年 3 月 30 日

SQL 可用的轉換

您可以使用SQL轉換節點,以SQL查詢的形式撰寫您自己的轉換。如需詳細資訊,請參閱使用SQL查詢轉換資料

2021 年 3 月 23 日

支援從藍圖建立工作流程 (公開預覽)

(公開預覽) 新增了有關在藍圖中編碼常見擷取、轉換和載入 (ETL) 使用案例,然後從藍圖建立工作流程的資訊。可讓資料分析師輕鬆建立和執行複雜的ETL程序。如需詳細資訊,請參閱 中的使用藍圖和工作流程執行複雜ETL活動 AWS Glue

2021 年 3 月 22 日

連接器可用於資料目標

現在支援為您的資料目標使用自訂或 AWS Marketplace 連接器。如需詳細資訊,請參閱使用自訂連接器編寫任務

2021 年 3 月 15 日

支援 AWS Glue 機器學習轉換的資料欄重要性指標

新增使用 AWS Glue 機器學習轉換時檢視資料欄重要性指標的相關資訊。如需詳細資訊,請參閱在 AWS Glue 主控台上使用Machine Learning轉換

2021 年 2 月 5 日

任務排程現在可在 中使用 AWS Glue Studio

您可以在 AWS Glue Studio中為任務執行定義以時間為基礎的排程。您可以使用主控台建立基本排程,或使用類似 UNIX 的 cron 語法定義更複雜的排程。如需詳細資訊,請參閱排程任務執行

2020 年 12 月 21 日

AWS Glue 自訂連接器已發行

AWS Glue Custom Connectors 可讓您探索和訂閱 中的連接器 AWS Marketplace。我們也發佈了 AWS Glue Spark 執行期介面,以插入為 Apache Spark 資料來源、Athena 聯合查詢和 JDBC 建置的連接器APIs。如需詳細資訊,請參閱使用 Connectors 和 連線 AWS Glue Studio

2020 年 12 月 21 日

支援在 2.0 AWS Glue 版中執行串流ETL任務

新增支援在 Glue 2.0 版中執行串流ETL任務的相關資訊。如需詳細資訊,請參閱在 中新增串流ETL任務 AWS Glue

2020 年 12 月 18 日

支援使用限制執行的工作負載分割

新增有關啟用工作負載分割以設定資料集大小上限的資訊,或ETL任務執行時處理的檔案數。如需詳細資訊,請參閱具有限制執行的工作負載分割

2020 年 11 月 23 日

支援增強的分割區管理

新增如何使用新 APIs 來新增或刪除現有資料表的分割區索引的相關資訊。如需詳細資訊,請參閱使用分割區索引

2020 年 11 月 23 日

支援 AWS Glue 結構描述登錄檔

新增使用 AWS Glue 結構描述登錄檔以集中探索、控制和發展結構描述的相關資訊。如需詳細資訊,請參閱AWS Glue 結構描述登錄檔。

2020 年 11 月 19 日

支援串流ETL任務中的 grok 輸入格式

新增有關將 Grok 模式套用至串流來源 (例如日誌檔) 的相關資訊。如需詳細資訊,請參閱將 Grok 模式應用於串流來源

2020 年 11 月 17 日

支援將標籤新增至 AWS Glue 主控台上的工作流程

新增有關在使用 AWS Glue 主控台建立工作流程時新增標籤的相關資訊。如需詳細資訊,請參閱使用 AWS Glue 主控台建立和建置工作流程

2020 年 10 月 27 日

支援增量爬蟲程式執行

新增有關支援增量爬蟲程式執行的相關資訊,這只會抓取自上次執行以來新增的 Amazon S3 資料夾。如需詳細資訊,請參閱增量網路爬取

2020 年 10 月 21 日

支援串流ETL資料來源的結構描述偵測。 支援 Avro 串流ETL資料來源和自我管理的 kafka

中的串流擷取、轉換和載入 (ETL) 任務 AWS Glue 現在可以自動偵測傳入記錄的結構描述,並根據記錄處理結構描述變更。現在支援自我管理的 Kafka 資料來源。串流ETL任務現在支援資料來源中的 Avro 格式。如需詳細資訊,請參閱 串流ETL、 AWS Glue定義串流任務的任務屬性ETL,以及 Avro 串流來源的備註和限制

2020 年 10 月 7 日

支援網路爬取 MongoDB 和 DocumentDB 資料來源

新增有關支援網路爬取 MongoDB 和 Amazon DocumentDB (with MongoDB Compatibility) 資料來源的相關資訊。如需詳細資訊,請參閱定義爬蟲程式

2020 年 10 月 5 日

合規支援 FIPS

已針對使用 存取資料時需要 FIPS 140-2 個驗證密碼編譯模組的客戶,新增FIPS端點的相關資訊 AWS Glue。如需詳細資訊,請參閱FIPS合規

2020 年 9 月 23 日

AWS Glue Studio 提供易於使用的視覺化界面,用於建立和監控任務

您現在可以使用簡單的圖形介面來撰寫移動和轉換資料的任務,並在 AWS Glue中執行它們。然後,您可以使用 中的任務執行儀表板 AWS Glue Studio 來監控ETL執行,並確保您的任務如預期般運作。如需詳細資訊,請參閱 AWS Glue Studio 使用者指南

2020 年 9 月 23 日

支援建立資料表索引以改善查詢效能

新增有關建立資料表索引以讓您從資料表擷取分割區子集的相關資訊。如需詳細資訊,請參閱使用分割區索引

2020 年 9 月 9 日

在 2.0 版中 AWS Glue 執行 Apache Spark ETL任務時,支援縮短啟動時間。

新增 2.0 AWS Glue 版支援的相關資訊,該版本提供升級的基礎設施,以執行 Apache Spark ETL任務,並減少啟動時間、變更日誌記錄,以及支援在任務層級指定其他 Python 模組。如需詳細資訊,請參閱AWS Glue 版本備註執行已縮短啟動時間的 Spark ETL任務

2020 年 8 月 10 日

支援限制並行工作流程執行的數目。

新增如何限制特定工作流程之並行工作流程執行次數的相關資訊。如需詳細資訊,請參閱使用 AWS Glue 主控台建立和建置工作流程

2020 年 8 月 10 日

支援使用VPC端點爬取 Amazon S3 資料存放區

新增有關設定 Amazon S3 資料存放區僅由 Amazon Virtual Private Cloud 環境 (Amazon VPC) 存取的資訊,用於安全、稽核或控制目的。如需詳細資訊,請參閱使用VPC端點爬取 Amazon S3 Data Store

2020 年 8 月 7 日

支援繼續工作流程執行

新增有關如何繼續工作流程執行的相關資訊,這些工作流程執行僅部分完成,因為一或多個節點 (任務或爬蟲程式) 未順利完成。如需詳細資訊,請參閱修復和繼續工作流程執行

2020 年 7 月 27 日

支援在 AWS Glue中啟用 kafka 連線的私有 CA 憑證。

新增支援在 AWS Glue中為 Kafka 連線啟用私有 CA 憑證的新連線選項的相關資訊。如需詳細資訊,請參閱 ETL 中的連線類型和選項 AWS Glue,以及 使用的特殊參數 AWS Glue

2020 年 7 月 20 日

支援讀取其他帳戶中的 DynamoDB 資料

新增 AWS Glue 支援從另一個 AWS 帳戶的 DynamoDB 資料表讀取資料的相關資訊。如需詳細資訊,請參閱從另一個帳戶中的 DynamoDB 資料讀取

2020 年 7 月 17 日

支援 1.0 AWS Glue 版或更新版本中的 DynamoDB 寫入器連線

新增支援 DynamoDB 寫入器,以及 DynamoDB 讀取或寫入的新或更新連線選項的相關資訊。如需詳細資訊,請參閱 ETL中的連線類型和選項 AWS Glue

2020 年 7 月 17 日

支援同時使用 AWS Glue 和 Lake Formation 的資源連結和跨帳戶存取控制

新增了有關稱為資源連結的新 Data Catalog 物件的內容,以及如何管理使用 AWS Glue 和 跨帳戶共用 Data Catalog 資源的內容 AWS Lake Formation。如需詳細資訊,請參閱授予跨帳戶存取權資料表資源連結

2020 年 7 月 7 日

支援爬取 DynamoDB 資料存放區時取樣記錄

已新增有關爬取 DynamoDB 資料存放區時可以設定新屬性的資訊。如需詳細資訊,請參閱爬蟲程式屬性

2020 年 6 月 12 日

支援停用工作流程執行。

新增關於如何停止特定工作流程之工作流程執行的資訊。如需詳細資訊,請參閱停止工作流程執行

2020 年 5 月 14 日

支援 Spark 串流ETL任務

新增有關使用串流資料來源建立擷取、轉換和載入 (ETL) 任務的資訊。如需詳細資訊,請參閱在 中新增串流ETL任務 AWS Glue

2020 年 4 月 27 日

支援在執行ETL任務後建立資料表、更新結構描述,以及在 Data Catalog 中新增分割區

已新增有關如何啟用建立資料表、更新結構描述,以及新增分割區的資訊,以便在 Data Catalog 中查看ETL任務的結果。如需詳細資訊,請參閱從 AWS Glue ETL任務建立資料表、更新結構描述和新增分割區。

2020 年 4 月 2 日

支援在 中指定 Apache Avro 資料格式的版本做為ETL輸入和輸出 AWS Glue

新增有關指定 Apache Avro 資料格式版本做為ETL輸入和輸出的資訊 AWS Glue。預設版本 1.7。您可以使用 version 格式選項來指定 Avro 版本 1.8,以啟用邏輯讀取/寫入。如需詳細資訊,請參閱 輸入ETL和輸出的格式選項 AWS Glue

2020 年 3 月 31 日

支援 EMRFS S3-optimized遞交者將 Parquet 資料寫入 Amazon S3

新增了有關如何設定新旗標的資訊,以啟用 EMRFR S3-optimized遞交者,以便在建立或更新 AWS Glue 任務時將 Parquet 資料寫入 Amazon S3。如需詳細資訊,請參閱 所使用的特殊參數 AWS Glue

2020 年 3 月 30 日

支援機器學習轉換做為資源標籤管理 AWS 的資源

新增有關使用 AWS 資源標籤來管理和控制對機器學習轉換的存取的資訊 AWS Glue。您可以將 AWS 資源標籤指派給 中的任務、觸發條件、端點、爬蟲程式和機器學習轉換 AWS Glue。如需詳細資訊,請參閱 AWS 中的標籤 AWS Glue

2020 年 3 月 2 日

支援不可覆寫的任務引數

已新增無法在觸發條件中覆寫,或在您執行任務時的特殊任務參數支援相關資訊。如需詳細資訊,請參閱在 AWS Glue新增任務

2020 年 2 月 12 日

支援用於 Amazon S3 中資料集的新轉換

新增有關 Apache Spark 應用程式搭配 Amazon S3 中資料集之新轉換 (合併、清除和轉移) 以及 Amazon S3 儲存體方案排除項目的相關資訊。如需支援 Python 轉換的詳細資訊,請參閱 mergeDynamicFrame在 Amazon S3 中使用資料集。如需 Scala,請參閱 mergeDynamicFramesAWS Glue Scala。 GlueContext APIs

2020 年 1 月 16 日

支援使用ETL來自任務的新分割區資訊更新 Data Catalog

新增了有關如何編寫擷取、轉換和載入 (ETL) 指令碼程式碼的資訊,以 AWS Glue Data Catalog 使用新的分割區資訊更新 。利用這項功能,您不再需要在任務完成後重新執行爬蟲程式,即可檢視新的分割區。如需詳細資訊,請參閱使用新分割區更新 Data Catalog

2020 年 1 月 15 日

新教學課程:使用 SageMaker AI 筆記本

新增教學課程,示範如何使用 Amazon SageMaker 筆記本來協助開發您的 ETL和機器學習指令碼。請參閱教學課程:搭配您的開發端點使用 Amazon SageMaker 筆記本

2020 年 1 月 3 日

支援從 MongoDB 和 Amazon DocumentDB (with MongoDB compatibility) 讀取

已新增有關讀取和寫入 MongoDB 和 Amazon DocumentDB (with MongoDB Compatibility) 的新連線類型和連線選項資訊。如需詳細資訊,請參閱 ETL 中的連線類型和選項 AWS Glue

2019 年 12 月 17 日

多個修正與說明

加入完整的修正與說明。已從「已知問題」章節中移除項目內容。新增在指定 Data Catalog 加密設定和建立安全組態時,僅 AWS Glue 支援對稱客戶主金鑰 (CMKs) 的警告。新增了 AWS Glue 不支援寫入 Amazon DynamoDB 的備註。

2019 年 12 月 9 日

支援自訂JDBC驅動程式

新增使用 AWS Glue 原生支援的JDBC驅動程式連線至資料來源和目標的相關資訊,例如 MySQL 第 8 版和 Oracle Database 第 18 版。如需詳細資訊,請參閱JDBC connectionType 值

2019 年 11 月 25 日

支援將 SageMaker AI 筆記本連接到不同的開發端點

新增如何將 SageMaker AI 筆記本連線至不同開發端點的相關資訊。更新以描述切換到新開發端點的新主控台動作,以及新的 SageMaker AI IAM政策。如需詳細資訊,請參閱在 AWS Glue 主控台上使用筆記本建立 Amazon SageMaker AI 筆記本IAM的政策

2019 年 11 月 21 日

支援機器學習轉換中的 AWS Glue 版本

新增在機器學習轉換中定義 AWS Glue 版本的相關資訊,以指出 AWS Glue 機器學習轉換的相容版本。如需詳細資訊,請參閱在 AWS Glue 主控台上使用Machine Learning轉換

2019 年 11 月 21 日

支援倒轉您的任務書籤

已新增有關將您的工作書籤倒轉至任何先前的任務執行,導致後續任務只會從已加入書籤的任務執行重新處理資料的資訊。說明 job-bookmark-pause 選項兩個新的子選項,可讓您在兩個書籤之間執行任務。如需詳細資訊,請參閱使用任務書籤和 使用的特殊參數追蹤已處理的資料AWS Glue

2019 年 10 月 22 日

支援自訂JDBC憑證以連線至資料存放區

新增 AWS Glue 支援自訂JDBC憑證以SSL連線至 AWS Glue 資料來源或目標的相關資訊。如需詳細資訊,請參閱在 AWS Glue 主控台上使用連線

2019 年 10 月 10 日

支援 Python Wheel

新增 AWS Glue 支援輪子檔案 (以及 egg 檔案) 做為 Python shell 任務相依性的相關資訊。如需詳細資訊,請參閱提供自己的 Python 程式庫

2019 年 9 月 26 日

支援 中的開發端點版本控制 AWS Glue

新增在開發端點Glue version中定義 的相關資訊。 Glue version會決定 AWS Glue 支援的 Apache Spark 和 Python 版本。如需詳細資訊,請參閱新增開發端點

2019 年 9 月 19 日

支援 AWS Glue 使用 Spark UI 監控

新增有關使用 Apache Spark UI 來監控和偵錯 AWS Glue ETL任務系統上執行 AWS Glue 的任務,以及開發端點上的 AWS Glue Spark 應用程式的資訊。如需詳細資訊,請參閱AWS Glue 使用 Spark UI 監控

2019 年 9 月 19 日

增強對使用公有 AWS Glue ETL程式庫進行本機ETL指令碼開發的支援

已更新 AWS Glue ETL程式庫內容,以反映現在支援 1.0 AWS Glue 版。如需詳細資訊,請參閱使用 AWS Glue ETL程式庫在本機開發和測試ETL指令碼

2019 年 9 月 18 日

支援在執行任務時排除 Amazon S3 儲存體方案

新增在執行 AWS Glue ETL從 Amazon S3 讀取檔案或分割區的任務時排除 Amazon S3 儲存類別的相關資訊。如需詳細資訊,請參閱排除 Amazon S3 儲存體方案

2019 年 8 月 29 日

支援使用公 AWS Glue ETL有程式庫進行本機ETL指令碼開發

新增如何在本機開發和測試 Python 和 Scala ETL指令碼的相關資訊,而不需要網路連線。如需詳細資訊,請參閱使用 AWS Glue ETL程式庫在本機開發和測試ETL指令碼

2019 年 8 月 28 日

已知問題

新增相關資訊以說明 AWS Glue中的已知問題。如需詳細資訊,請參閱 AWS Glue的已知問題

2019 年 8 月 28 日

支援 中的機器學習轉換 AWS Glue

新增 提供的機器學習功能相關資訊 AWS Glue ,以建立自訂轉換。當您建立任務時,您可以建立這些轉換。如需詳細資訊,請參閱 中的Machine Learning轉換 AWS Glue

2019 年 8 月 8 日

支援共用 Amazon Virtual Private Cloud

新增了有關 AWS Glue 支援共用 Amazon Virtual Private Cloud 的資訊。如需詳細資訊,請參閱共用 Amazon。 VPCs

2019 年 8 月 6 日

支援 中的版本控制 AWS Glue

新增在任務屬性Glue version中定義 的相關資訊。 AWS Glue 版本 會決定 AWS Glue 支援的 Apache Spark 和 Python 版本。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2019 年 7 月 24 日

支援開發端點的其他組態選項

針對具有記憶體密集型工作負載的開發端點,新增組態選項的相關資訊。有兩個新的組態供您選擇,以提供每個執行程式更多的記憶體。如需詳細資訊,請參閱在AWS Glue 主控台上使用開發端點

2019 年 7 月 24 日

支援使用工作流程執行擷取、傳輸和載入 (ETL) 活動

新增使用稱為工作流程的新建構體,以設計複雜的多工作業擷取、轉換和載入 (ETL) 活動的相關資訊,這些活動 AWS Glue 可以作為單一實體執行和追蹤。如需詳細資訊,請參閱使用 中的工作流程執行複雜ETL活動 AWS Glue

2019 年 6 月 20 日

支援 Python Shell 任務中的 Python 3.6

新增有關支援在 Python shell 任務中支援 Python 3.6 的資訊。您可以指定 Python 2.7 或 Python 3.6 作為任務屬性。如需詳細資訊,請參閱在AWS Glue新增 Python Shell 任務

2019 年 6 月 5 日

支援虛擬私有雲端 (VPC) 端點

新增有關 AWS Glue 透過 中的介面端點直接連線至 的資訊VPC。當您使用VPC介面端點時, VPC和 AWS 之間的通訊 AWS Glue 會在網路中完整且安全地進行。如需詳細資訊,請參閱搭配使用 AWS Glue 與VPC端點

2019 年 6 月 4 日

支援 AWS Glue 任務的即時、持續記錄。

新增在 中啟用和檢視即時 Apache Spark 任務日誌的相關資訊, CloudWatch 包括驅動程式日誌、每個執行器日誌和 Spark 任務進度列。如需詳細資訊,請參閱持續記錄 AWS Glue 任務

2019 年 5 月 28 日

支援將現有的 Data Catalog 資料表做為爬蟲程式來源

新增將現有 Data Catalog 資料表清單指定為爬蟲程式來源的相關資訊。爬蟲程式即可在新資料可用時,偵測資料表結構描述的變更、更新資料表定義,並註冊新的分割區。如需詳細資訊,請參閱爬蟲程式屬性

2019 年 5 月 10 日

支援記憶體密集型任務的額外組態選項

新增含記憶體密集型工作負載之 Apache Spark 任務的組態選項相關資訊。有兩個新的組態供您選擇,以提供每個執行程式更多的記憶體。如需詳細資訊,請參閱在 中新增任務 AWS Glue

2019 年 4 月 5 日

支援CSV自訂分類器

新增使用自訂CSV分類器推斷各種資料類型結構描述的相關資訊CSV。如需詳細資訊,請參閱撰寫自訂分類器

2019 年 3 月 26 日

支援 AWS 資源標籤

新增使用 AWS 資源標籤的相關資訊,協助您管理和控制對 AWS Glue 資源的存取。您可以將 AWS 資源標籤指派給任務、觸發條件、端點和爬蟲程式 AWS Glue。如需詳細資訊,請參閱 AWS 中的標籤 AWS Glue

2019 年 3 月 20 日

支援 Spark SQL任務的資料目錄

新增有關設定 AWS Glue 任務和開發端點以使用 AWS Glue Data Catalog 做為外部 Apache Hive 中繼存放區的資訊。這可讓任務和開發端點針對存放在 中的資料表直接執行 Apache Spark SQL查詢 AWS Glue Data Catalog。如需詳細資訊,請參閱AWS Glue Data Catalog 支援 Spark SQL任務

2019 年 3 月 14 日

支援 Python shell 任務

Python shell 任務的新增資訊和新增欄位 Maximum capacity (容量上限)。如需詳細資訊,請參閱在 AWS Glue新增 Python Shell 任務

2019 年 1 月 18 日

支援在對資料庫和資料表進行變更時的通知

已新增針對資料庫、資料表和分割區API呼叫的變更所產生的事件相關資訊。您可以在 CloudWatch 事件中設定動作來回應這些事件。如需詳細資訊,請參閱AWS Glue 使用 CloudWatch 事件自動化

2019 年 1 月 16 日

支援加密連線密碼

針對用於連線物件的加密密碼新增資訊。如需詳細資訊,請參閱加密連線密碼

2018 年 12 月 11 日

支援資源層級的許可和以資源為基礎的政策

新增使用資源層級許可和資源型政策的相關資訊 AWS Glue。如需詳細資訊,請參閱 AWS Glue中的安全性內的主題。

2018 年 10 月 15 日

支援 SageMaker AI 筆記本

已新增使用 SageMaker AI 筆記本搭配 AWS Glue 開發端點的相關資訊。如需詳細資訊,請參閱管理筆記本

2018 年 10 月 5 日

加密支援

已新增有關搭配 使用加密的資訊 AWS Glue。如需詳細資訊,請參閱靜態加密傳輸中加密,以及設定 AWS Glue中的加密

2018 年 8 月 24 日

支援 Apache Spark 任務指標

新增了使用 Apache Spark 指標以更好地偵錯和分析ETL任務的相關資訊。您可以輕鬆追蹤執行時間指標,例如讀取和寫入位元組、驅動程式和執行器的記憶體用量和CPU負載,以及 AWS Glue 主控台中執行器之間的資料隨機切換。如需詳細資訊,請參閱AWS Glue 使用 CloudWatch 指標監控任務監控和偵錯,以及在主控台上使用 AWS Glue 任務

2018 年 7 月 13 日

支援 DynamoDB 做為資料來源

新增有關爬取 DynamoDB 並將其用作ETL任務資料來源的資訊。如需詳細資訊,請參閱以爬蟲程式編目資料表連線參數

2018 年 7 月 10 日

對建立筆記本伺服器流程的更新

更新如何在與開發端點相關聯的 Amazon EC2執行個體上建立筆記本伺服器的相關資訊。如需詳細資訊,請參閱建立和開發端點關聯的筆記本伺服器

2018 年 7 月 9 日

現在可透過 取得更新 RSS

您現在可以訂閱 RSS摘要,以接收有關 AWS Glue 開發人員指南更新的通知。

2018 年 6 月 25 日

支援任務的延遲通知

新增任務執行時有關設定延遲閾值的相關資訊。如需詳細資訊,請參閱在 AWS Glue新增任務

2018 年 5 月 25 日

設定爬蟲程式以附加新欄

新增爬蟲程式新組態選項的相關資訊, MergeNewColumns。如需詳細資訊,請參閱設定爬蟲程式

2018 年 5 月 7 日

支援任務逾時

新增當任務執行時有關設定逾時閾值的相關資訊。如需詳細資訊,請參閱在 AWS Glue新增任務

2018 年 4 月 10 日

支援 Scala ETL指令碼,並根據其他執行狀態觸發任務

新增使用 Scala 做為ETL程式設計語言的相關資訊。此外,當符合任何條件 (除了所有條件之外) 時,觸發程序API現在支援射擊。另外,也可以根據「失敗的」或「停止的」任務執行來觸發任務 (除了根據「成功的」任務執行來觸發之外)。

2018 年 1 月 12 日

舊版更新

下表說明 2018 年一月前每個 AWS Glue 開發人員指南版本的重要變更。

變更 描述 日期
支援XML資料來源和新的爬蟲程式組態選項 已新增分割區變更的XML資料來源分類和新爬蟲程式選項的相關資訊。 2017 年 11 月 16 日
新轉換、支援其他 Amazon RDS 資料庫引擎和開發端點增強功能 新增地圖和篩選條件轉換的相關資訊、支援 Amazon RDS Microsoft SQL Server 和 Amazon RDS Oracle,以及開發端點的新功能。 2017 年 9 月 29 日
AWS Glue 初始版本 這是初版的 AWS Glue 開發人員指南 2017 年 8 月 14 日

下一個主題:

AWS 詞彙表

上一個主題:

已知問題
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。