本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊的数据隐私 SageMaker
Amazon SageMaker 收集有关训练期间使用的 AWS自有库和开源库使用情况的汇总信息。 SageMaker 使用此汇总元数据来改善服务和客户体验。
以下各节说明了要 SageMaker 收集的元数据类型以及如何选择退出元数据收集。
收集的信息类型
- 使用信息
-
来自 AWS自有库和开源库的用于 SageMaker 训练的元数据,例如用于分布式训练、编译和量化的元数据。
- 错误
-
意外行为导致的错误,包括故障、崩溃、级联以及因与 SageMaker 训练平台交互而导致的故障。
如何选择退出元数据收集
在使用创建训练作业时,您可以选择不与 SageMaker 训练共享聚合元数据CreateTrainingJob
API。如果您使用控制台创建训练作业,则默认情况下会禁用元数据收集。
重要
对于您提交的每项训练作业,您必须选择退出元数据收集。您还必须选择退出API通话,如以下示例所示。您不能在训练脚本中选择退出。
下一节介绍如何使用 AWS CLI、 AWS SDK for Python (Boto3)或 SageMaker Python 选择退出元数据收集SDK。
使用 AWS Command Line Interface (AWS CLI) 选择退出元数据收集
要使用退出元数据收集 AWS CLI,请在1
中OPT_OUT_TRACKING
将环境变量设置create-training-job
API为,如以下代码示例所示。
aws sagemaker create-training-job \ --training-job-name
your_job_name
\ --algorithm-specification AlgorithmName=your_algorithm_name
\ --output-data-config S3OutputPath=s3://bucket-name/key-name-prefix
\ --resource-config InstanceType=ml.c5.xlarge
, InstanceCount=1
\ --stopping-condition MaxRuntimeInSeconds=100
\ --environment OPT_OUT_TRACKING=1
使用退出元数据收集 AWS SDK for Python (Boto3)
要使用SDK适用于 Python (Boto3) 的选择退出元数据收集,请在1
中OPT_OUT_TRACKING
将环境变量设置create_training_job
API为,如以下代码示例所示。
boto3.client('sagemaker').create_training_job( TrainingJobName='
your_training_job
', AlgorithmSpecification={ 'AlgorithmName': 'your_algorithm_name
', 'TrainingInputMode': 'File', }, RoleArn='your_arn
', OutputDataConfig={ 'S3OutputPath': 's3://bucket-name/key-name-prefix
', }, ResourceConfig={ 'InstanceType': 'ml.m4.xlarge
', 'InstanceCount':1
, 'VolumeSizeInGB':123
, }, StoppingCondition={ 'MaxRuntimeInSeconds':123
, }, Environment={ 'OPT_OUT_TRACKING': '1' }, )
使用 P SageMaker ython 选择退出元数据收集 SDK
要选择退出使用 SageMaker Python 收集元数据SDK,请将环境变量设置OPT_OUT_TRACKING
为 SageMaker 估算器1
内部,如以下代码示例所示。
sagemaker.estimator( image_uri='
path_to_container
', role='rolearn
', instance_count=1
, instance_type='ml.c5.xlarge
', environment={ 'OPT_OUT_TRACKING': '1' }, )
选择退出整个账户的元数据收集
如果您想选择退出多个账户的元数据收集,则可以将环境变量设置为选择不在整个账户范围内进行跟踪。您必须使用 SageMaker Python SDK 选择退出账户级别的元数据收集。
以下代码示例显示了如何选择退出整个账户的跟踪。
SchemaVersion: '1.0' SageMaker: TrainingJob: Environment: 'OPT_OUT_TRACKING': '1'
有关如何选择不在账户范围内跟踪的更多信息,请参阅在 Python SageMaker 中配置和使用默认值
其他信息
如果您的下游服务依赖于 SageMaker培训
如果您运营的服务依赖于 SageMaker 培训,强烈建议您告知客户有关 SageMaker 培训平台中收集的汇总元数据的信息,并让他们选择退出。或者,您可以代表客户选择退出元数据收集。
如果您是使用 SageMaker培训的服务的客户或客户
如果您是使用 SageMaker 培训的服务的客户或客户,请使用上一节中的首选方法选择退出元数据收集。