Creación de una instancia de cuaderno de Amazon SageMaker
importante
Las políticas de IAM personalizadas que permiten a Amazon SageMaker Studio o Amazon SageMaker Studio Classic crear recursos de Amazon SageMaker también deben conceder permisos para añadir etiquetas a dichos recursos. El permiso para añadir etiquetas a los recursos es necesario porque Studio y Studio Classic etiquetan automáticamente todos los recursos que crean. Si una política de IAM permite a Studio y Studio Classic crear recursos, pero no permite el etiquetado, se pueden producir errores AccessDenied al intentar crear recursos. Para obtener más información, consulte Concesión de permisos para etiquetar recursos de SageMaker.
Las Políticas administradas de AWS para Amazon SageMaker que conceden permisos para crear recursos de SageMaker ya incluyen permisos para añadir etiquetas al crear esos recursos.
Una instancia de cuaderno de Amazon SageMaker es una instancia de computación de machine learning totalmente administrada que se ejecuta en la aplicación de cuaderno de Jupyter. SageMaker administra la creación de la instancia y los recursos relacionados. Utilice los cuadernos de Jupyter en su instancia de cuaderno para:
-
preparar y procesar datos
-
escribir código para entrenar modelos
-
implementar modelos en el alojamiento de SageMaker
-
probar o validar modelos
Para crear una instancia con cuaderno, utilice la consola de SageMaker o la API CreateNotebookInstance
.
El tipo de instancia de cuaderno que elija dependerá del modo en que vaya a utilizarla. Asegúrese de que la instancia de cuaderno no esté vinculada por memoria, CPU o E/S. Para cargar un conjunto de datos en la memoria de la instancia de cuaderno para realizar tareas de exploración o preprocesamiento, elija un tipo de instancia que tenga suficiente memoria RAM para el conjunto de datos. Esto requeriría una instancia con al menos 16 GB de memoria (.xlarge o superior). Si planea utilizar el cuaderno para tareas de preprocesamiento de computación intensivas, le recomendamos que elija una instancia optimizada para la computación, como c4 o c5.
Una práctica recomendada cuando se utiliza un cuaderno de SageMaker es emplear la instancia de cuaderno para orquestar otros servicios de AWS. Por ejemplo, puede utilizar la instancia de cuaderno para administrar el procesamiento de conjuntos de datos de gran tamaño. Para ello, realice llamadas a AWS Glue en el caso de servicios de ETL (extraer, transformar y cargar) o Amazon EMR para asignar y reducir los datos utilizando Hadoop. Puede utilizar los servicios de AWS como medios temporales de procesamiento o almacenamiento de los datos.
Puede almacenar y recuperar los datos de entrenamiento y pruebas utilizando un bucket de Amazon Simple Storage Service. Después, puede utilizar SageMaker para entrenar y crear el modelo. De este modo, el tipo de instancia del cuaderno no influiría en la velocidad del entrenamiento del modelo y las pruebas.
Después de recibir la solicitud, SageMaker realiza las siguientes tareas:
-
Crea una interfaz de red: si elige una configuración de VPC opcional, crea la interfaz de red en su VPC. Utilice el ID de subred proporcionado en la solicitud para determinar en qué zona de disponibilidad crear la subred. SageMaker asocia el grupo de seguridad proporcionado en la solicitud con la subred. Para obtener más información, consulte Conexión de una instancia de cuaderno en una VPC a recursos externos.
-
Lanza una instancia de procesamiento de ML: SageMaker lanza una instancia de computación de ML en una VPC de SageMaker. SageMaker realiza las tareas de configuración que le permiten administrar su instancia de cuaderno. Si ha especificado su VPC, SageMaker permite tráfico entre su VPC y la instancia de cuaderno.
-
Instala paquetes y bibliotecas de Anaconda para plataformas de aprendizaje profundo comunes: SageMaker instala todos los paquetes de Anaconda incluidos en el instalador. Para obtener más información, consulte la lista de paquetes de Anaconda
. Además, SageMaker instala las bibliotecas de aprendizaje profundo de TensorFlow y Apache MXNet. -
Asocia un volumen de almacenamiento de machine learning: SageMaker asocia un volumen de almacenamiento de machine learning a la instancia de computación de machine learning. Puede utilizar el volumen como área de trabajo para limpiar el conjunto de datos de entrenamiento o para almacenar temporalmente datos de validación, prueba u otros. Elija cualquier tamaño entre 5 GB y 16384 GB, en incrementos de 1 GB, para el volumen. El valor predeterminado es 5 GB. Los volúmenes de almacenamiento de machine learning están cifrados, por lo que SageMaker no puede determinar la cantidad de espacio libre disponible en el volumen. Por este motivo, puede aumentar el tamaño del volumen al actualizar una instancia de cuaderno, pero no puede reducir el tamaño del volumen. Si desea reducir el tamaño del volumen de almacenamiento de machine learning en uso, cree otra instancia de cuaderno con el tamaño deseado.
Solo los archivos y los datos guardados dentro de la carpeta
/home/ec2-user/SageMaker
se conservan entre las sesiones de instancia de cuaderno. Los archivos y los datos que se guarden fuera de este directorio se sobrescribirán cuando la instancia de cuaderno se detenga y se reinicie. Cada directorio /tmp de instancia de cuaderno proporciona al menos 10 GB de almacenamiento en un almacén de instancias. Un almacén de instancias es un almacén temporal, de nivel de bloques, que no es persistente. Cuando la instancia se detiene o se reinicia, SageMaker elimina el contenido del directorio. Este almacenamiento temporal forma parte del volumen raíz de la instancia de cuaderno.Si el tipo de instancia utilizado por la instancia de cuaderno es compatible con NVMe, los clientes pueden utilizar volúmenes del almacén de instancias de NVMe disponibles para ese tipo de instancia. En el caso de las instancias con volúmenes de almacén de instancias de NVMe, todos los volúmenes de almacén de instancias se asocian automáticamente a la instancia en el momento de la inicialización. Para obtener más información sobre los tipos de instancias y sus volúmenes de almacén de NVMe asociados, consulte Tipos de instancias de Amazon EC2
. Para que el volumen de almacén de NVMe asociado esté disponible para su instancia de cuaderno, siga los pasos de Adición de volúmenes del almacén de instancias a una instancia de EC2. Complete los pasos con acceso raíz o mediante un script de configuración del ciclo de vida.
nota
Los volúmenes del almacén de instancias de NVMe no son almacenamiento persistente. Este almacenamiento se mantiene con la instancia y se debe volver a configurar cada vez que se lance una instancia con este almacenamiento.
-
Copia los cuadernos de Jupyter de ejemplo: estos ejemplos de código de Python muestran los ejercicios de alojamiento y entrenamiento de modelos que utilizan distintos conjuntos de datos de entrenamiento y algoritmos.
Para crear una instancia de cuaderno de SageMaker:
-
Abra la consola de SageMaker en https://console.aws.amazon.com/sagemaker/
. -
Elija Instancias de bloc de notas y, a continuación, Crear instancia de bloc de notas.
-
En la página Crear instancia de bloc de notas, proporcione la siguiente información:
-
Para Nombre de instancia del bloc de notas, escriba un nombre para su instancia de cuaderno.
-
Para el Tipo de instancia de bloc de notas, elija un tamaño de instancia adecuado para su caso de uso. Para ver una lista de los tipos de instancia admitidos, consulte Cuotas de servicio de Amazon SageMaker.
En Identificador de plataforma, elija un tipo de plataforma en el que crear la instancia del cuaderno. Este tipo de plataforma dicta el sistema operativo y la versión de JupyterLab con la que se crea la instancia de su cuaderno. Para obtener más información acerca del tipo de identificador de plataforma, consulte Instancias de cuaderno de Amazon Linux 2. Para obtener más información acerca de las versiones de JupyterLab, consulte Control de versiones de JupyterLab.
-
(Opcional) La configuración adicional permite a los usuarios avanzados crear un script de intérprete de comandos que se puede ejecutar al crear o iniciar la instancia. Este script, denominado script de configuración del ciclo de vida, se puede utilizar para establecer el entorno del cuaderno o para realizar otras funciones. Para obtener más información, consulte Personalización de una instancia de cuaderno de SageMaker mediante un script de LCC.
-
(Opcional) La configuración adicional también le permite especificar el tamaño, en GB, del volumen de almacenamiento de machine learning que está conectado a la instancia de cuaderno. Puede elegir un tamaño entre 5 GB y 16 384 GB, en incrementos de 1 GB. Puede utilizar el volumen para limpiar los conjuntos de datos de entrenamiento o para almacenar temporalmente datos de validación de la tienda u otros datos con los que trabajar.
-
(Opcional) Para obtener una versión mínima de IMDS, seleccione una versión de la lista desplegable. Si este valor se establece en v1, ambas versiones se pueden usar con la instancia de cuaderno. Si se selecciona la versión 2, solo se puede usar IMDSv2 con la instancia de cuaderno. Para obtener información acerca de IMDSv2, consulte Uso de IMDSv2.
nota
A partir del 31 de octubre de 2022, la versión de IMDS mínima predeterminada para las instancias de cuaderno de SageMaker cambiará de IMDSv1 a IMDSv2.
A partir del 1 de febrero de 2023, IMDSv1 ya no estará disponible para la creación de nuevas instancias de cuaderno. Después de esta fecha, puede crear instancias de cuaderno con una versión de IMDS mínima de 2.
-
En Rol de IAM, elija un rol de IAM ya existente en su cuenta con los permisos necesarios para obtener acceso a los recursos de SageMaker o seleccione Crear un nuevo rol. Si elige Crear un nuevo rol, SageMaker crea un rol de IAM denominado
AmazonSageMaker-ExecutionRole-
. La política administrada de AWSYYYYMMDD
THHmmSS
AmazonSageMakerFullAccess
se asigna al rol. El rol proporciona permisos que permiten que la instancia del cuaderno llame a SageMaker y a Amazon S3. -
En Acceso raíz, para conceder acceso raíz a todos los usuarios de instancia con cuaderno, elija Habilitado. Para eliminar el acceso raíz para los usuarios, elija Deshabilitar. Si concede acceso raíz, todos los usuarios de instancias de cuaderno tendrán privilegios de administrador y podrán obtener acceso a todos los archivos que contiene y editarlos.
-
(Opcional) La clave de cifrado permite cifrar los datos del volumen de almacenamiento de machine learning conectado a la instancia de cuaderno mediante una clave AWS Key Management Service (AWS KMS). Si planea almacenar información confidencial en el volumen de almacenamiento de machine learning, considere cifrar la información.
-
(Opcional) Red le permite colocar su instancia de cuaderno dentro de una nube privada virtual (VPC). Una VPC proporciona seguridad adicional y restringe el acceso a los recursos de la VPC desde orígenes ajenos a la VPC. Para obtener más información sobre VPC, consulte la Guía del usuario de Amazon VPC.
Para agregar la instancia de cuaderno a una VPC:
-
Seleccione la VPC y un SubnetId.
-
En Grupo de seguridad, seleccione el grupo de seguridad predeterminado de la VPC.
-
Si necesita que su instancia de cuaderno tenga acceso a internet, habilite el acceso directo a internet. En Acceso directo a Internet, elija Habilitar. El acceso a internet puede hacer que su instancia de cuaderno sea menos segura. Para obtener más información, consulte Conexión de una instancia de cuaderno en una VPC a recursos externos.
-
-
(Opcional) Para asociar repositorios Git con la instancia con cuaderno, elija un repositorio predeterminado y hasta tres repositorios adicionales. Para obtener más información, consulte Repositorios de Git con instancias de cuaderno de SageMaker.
-
Elija Crear instancia de bloc de notas.
En unos minutos, Amazon SageMaker lanzará una instancia de computación de machine learning, en este caso, una instancia de cuaderno, y asociará un volumen de almacenamiento de machine learning a ella. La instancia de cuaderno cuenta con un servidor de cuaderno de Jupyter configurado previamente y un conjunto de bibliotecas de Anaconda. Para obtener más información, consulte la API
CreateNotebookInstance
.
-
-
Cuando el estado de la instancia de cuaderno es
InService
, en la consola, la instancia de cuaderno está lista para su uso. Elija Abrir Jupyter junto al nombre del cuaderno para abrir el panel clásico de Jupyter.nota
Para aumentar la seguridad de su instancia de cuaderno de Amazon SageMaker, todos los dominios
regionales se registran en la lista de sufijos públicosnotebook
.region
.sagemaker.aws(PSL) de Internet. Para mayor seguridad, le recomendamos que utilice cookies con un prefijo __Host-
para establecer cookies confidenciales en los dominios de las instancias de cuaderno de SageMaker. Esta práctica lo ayuda a proteger su dominio de los intentos de falsificación de solicitudes entre sitios (CSRF). Para obtener más información, consulte la página Set-Cookieen el sitio web de la documentación para desarrolladores mozilla.org . Puede elegir Abrir JupyterLab para abrir el panel de JupyterLab. El panel proporciona acceso a su instancia con cuaderno y a los cuadernos de muestra de SageMaker que contienen tutoriales de código completos. Estos tutoriales muestran cómo utilizar SageMaker para realizar tareas de machine learning frecuentes. Para obtener más información, consulte Acceso a cuadernos de ejemplo. Para obtener más información, consulte Control del acceso raíz a una instancia de cuaderno de SageMaker.
Para obtener más información sobre los cuadernos de Jupyter, consulte la sección sobre el cuaderno de Jupyter
.