本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
步驟 3:設定安全設定
- IAM 角色
-
爬蟲程式會擔任此角色。它必須具有類似於 AWS 受管政策 的許可
AWSGlueServiceRole
。對於 Amazon S3 和 DynamoDB 來源,它也必須具有存取資料存放區的許可。如果爬蟲程式讀取使用 AWS Key Management Service (AWS KMS) 加密的 Amazon S3 資料,則角色必須具有 AWS KMS 金鑰的解密許可。對於 Amazon S3 資料存放區,連接到角色的其他許可將類似下列內容:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::
bucket/object
*" ] } ] }對於 Amazon DynamoDB 資料存放區,連接到角色的其他許可將類似下列內容:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "dynamodb:DescribeTable", "dynamodb:Scan" ], "Resource": [ "arn:aws:dynamodb:
region
:account-id
:table/table-name
*" ] } ] }若要新增您自己的JDBC驅動程式,需要新增其他許可。
-
授予下列任務動作的許可:
CreateJob
、DeleteJob
、GetJob
、GetJobRun
、StartJobRun
。 -
授予 Amazon S3 動作的許可:
s3:DeleteObjects
、s3:GetObject
、s3:ListBucket
、s3:PutObject
。注意
如果 Amazon S3 儲存貯體政策已停用,則不需要
s3:ListBucket
。 -
在 Amazon S3 政策中授予服務主體對儲存貯體/資料夾的存取權。
Amazon S3 政策範例:
{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:ListBucket", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::bucket-name/driver-parent-folder/driver.jar", "arn:aws:s3:::bucket-name" ] } ] }
AWS Glue 會建立下列資料夾 (
_crawler
_glue_job_crawler
和 ,與 Amazon S3 儲存貯體中的JDBC驅動程式位於相同層級。例如,如果驅動程式路徑為<s3-path/driver_folder/driver.jar>
,則如果下列資料夾尚不存在,則會建立這些資料夾:-
<s3-path/driver_folder/_crawler>
-
<s3-path/driver_folder/_glue_job_crawler>
或者,您可以新增安全組態至爬蟲程式以指定靜態加密選項。
如需詳細資訊,請參閱 步驟 2:建立IAM角色 AWS Glue 和 Glue AWS 的身分和存取管理。
-
- Lake Formation 組態 – 選用
-
允許爬蟲程式使用 Lake Formation 憑證來網路爬取資料來源。
核取 Use Lake Formation credentials for crawling S3 data source (使用 Lake Formation 憑證網路爬取 S3 資料來源),可讓爬蟲程式使用 Lake Formation 憑證來網路爬取資料來源。如果資料來源屬於其他帳戶,您必須提供註冊的帳戶 ID。否則,爬蟲程式只會網路爬取與帳戶相關聯的那些資料來源。僅適用於 Amazon S3 和 Data Catalog 資料來源。
- 安全組態 – 選用
-
設定包括安全組態。如需詳細資訊,請參閱下列內容:
注意
在爬蟲程式上設定安全組態後,您可以變更,但無法將其移除。若要降低爬蟲程式的安全層級,請在您的組態
DISABLED
中明確將安全功能設定為 ,或建立新的爬蟲程式。