Crear una instancia de Amazon SageMaker Notebook - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Crear una instancia de Amazon SageMaker Notebook

importante

Las políticas de IAM personalizadas que permiten a Amazon SageMaker Studio o Amazon SageMaker Studio Classic crear SageMaker recursos de Amazon también deben conceder permisos para añadir etiquetas a esos recursos. El permiso para añadir etiquetas a los recursos es necesario porque Studio y Studio Classic etiquetan automáticamente todos los recursos que crean. Si una política de IAM permite a Studio y Studio Classic crear recursos, pero no permite el etiquetado, se pueden producir errores de tipo AccessDenied «» al intentar crear recursos. Para obtener más información, consulte Proporcione permisos para etiquetar los recursos de SageMaker IA.

AWS políticas gestionadas para Amazon SageMaker AIque otorgan permisos para crear SageMaker recursos ya incluyen permisos para añadir etiquetas al crear esos recursos.

Una instancia de Amazon SageMaker Notebook es una instancia de procesamiento de aprendizaje automático que ejecuta la aplicación Jupyter Notebook. SageMaker La IA gestiona la creación de la instancia y los recursos relacionados. Utilice los cuadernos de Jupyter en su instancia de cuaderno para:

  • preparar y procesar datos

  • escribir código para entrenar modelos

  • implementar modelos en el alojamiento de SageMaker IA

  • probar o validar modelos

Para crear una instancia de notebook, usa la consola de SageMaker IA o la CreateNotebookInstanceAPI.

El tipo de instancia de cuaderno que elija dependerá del modo en que vaya a utilizarla. Asegúrese de que la instancia de cuaderno no esté vinculada por memoria, CPU o E/S. Para cargar un conjunto de datos en la memoria de la instancia de cuaderno para realizar tareas de exploración o preprocesamiento, elija un tipo de instancia que tenga suficiente memoria RAM para el conjunto de datos. Esto requeriría una instancia con al menos 16 GB de memoria (.xlarge o superior). Si planea utilizar el cuaderno para tareas de preprocesamiento de computación intensivas, le recomendamos que elija una instancia optimizada para la computación, como c4 o c5.

Una buena práctica cuando se utiliza un SageMaker bloc de notas es utilizar la instancia del bloc de notas para organizar otros AWS servicios. Por ejemplo, puede utilizar la instancia de cuaderno para administrar el procesamiento de conjuntos de datos de gran tamaño. Para ello, haga llamadas a los servicios de AWS Glue for ETL (extracción, transformación y carga) o a Amazon EMR para mapeo y reducción de datos mediante Hadoop. Puede utilizar AWS los servicios como formas temporales de cálculo o almacenamiento de sus datos.

Puede almacenar y recuperar los datos de entrenamiento y pruebas utilizando un bucket de Amazon Simple Storage Service. Luego, puede usar la SageMaker IA para entrenar y construir su modelo. De este modo, el tipo de instancia del cuaderno no influiría en la velocidad del entrenamiento del modelo y las pruebas.

Tras recibir la solicitud, SageMaker AI hace lo siguiente:

  • Crea una interfaz de red: si eliges la configuración de VPC opcional SageMaker , AI crea la interfaz de red en tu VPC. Utiliza el ID de subred que se proporciona en la solicitud para determinar en qué zona de disponibilidad se va a crear la subred. SageMaker La IA asocia el grupo de seguridad que usted proporciona en la solicitud a la subred. Para obtener más información, consulte Conexión de una instancia de cuaderno en una VPC a recursos externos.

  • Lanza una instancia de procesamiento de ML: la SageMaker IA lanza una instancia de procesamiento de ML en una SageMaker VPC de IA. SageMaker La IA realiza las tareas de configuración que le permiten gestionar su instancia de notebook. Si especificó su VPC, la SageMaker IA habilita el tráfico entre su VPC y la instancia de notebook.

  • Instala los paquetes y bibliotecas de Anaconda para las plataformas de aprendizaje profundo más comunes: la SageMaker IA instala todos los paquetes de Anaconda que se incluyen en el instalador. Para obtener más información, consulte la lista de paquetes de Anaconda. SageMaker La IA también instala las bibliotecas de aprendizaje MXNet profundo TensorFlow y Apache.

  • Adjunta un volumen de almacenamiento de ML: la SageMaker IA adjunta un volumen de almacenamiento de ML a la instancia de procesamiento de ML. Puede utilizar el volumen como área de trabajo para limpiar el conjunto de datos de entrenamiento o para almacenar temporalmente datos de validación, prueba u otros. Elija cualquier tamaño entre 5 GB y 16384 GB, en incrementos de 1 GB, para el volumen. El valor predeterminado es 5 GB. Los volúmenes de almacenamiento de aprendizaje automático están cifrados, por lo que la SageMaker IA no puede determinar la cantidad de espacio libre disponible en el volumen. Por este motivo, puede aumentar el tamaño del volumen al actualizar una instancia de cuaderno, pero no puede reducir el tamaño del volumen. Si desea reducir el tamaño del volumen de almacenamiento de machine learning en uso, cree otra instancia de cuaderno con el tamaño deseado.

    Solo los archivos y los datos guardados dentro de la carpeta /home/ec2-user/SageMaker se conservan entre las sesiones de instancia de cuaderno. Los archivos y los datos que se guarden fuera de este directorio se sobrescribirán cuando la instancia de cuaderno se detenga y se reinicie. Cada directorio /tmp de instancia de cuaderno proporciona al menos 10 GB de almacenamiento en un almacén de instancias. Un almacén de instancias es un almacén temporal, de nivel de bloques, que no es persistente. Cuando la instancia se detiene o se reinicia, SageMaker AI elimina el contenido del directorio. Este almacenamiento temporal forma parte del volumen raíz de la instancia de cuaderno.

    Si el tipo de instancia utilizado por la instancia del bloc de notas es NVMe compatible, los clientes pueden usar los volúmenes de almacén de NVMe instancias disponibles para ese tipo de instancia. En el caso de las instancias con volúmenes de NVMe almacenamiento, todos los volúmenes del almacén de instancias se adjuntan automáticamente a la instancia en el momento del lanzamiento. Para obtener más información sobre los tipos de instancias y sus volúmenes de NVMe almacenamiento asociados, consulte los detalles del tipo de instancia de Amazon Elastic Compute Cloud.

    Para que el volumen de NVMe almacenamiento adjunto esté disponible para tu instancia de bloc de notas, sigue los pasos que se indican en Hacer que los volúmenes de almacén de instancias estén disponibles en tu instancia. Complete los pasos con acceso raíz o mediante un script de configuración del ciclo de vida.

    nota

    NVMe los volúmenes de los almacenes de instancias no son almacenamiento persistente. Este almacenamiento se mantiene con la instancia y se debe volver a configurar cada vez que se lance una instancia con este almacenamiento.

  • Copia los cuadernos de Jupyter de ejemplo: estos ejemplos de código de Python muestran los ejercicios de alojamiento y entrenamiento de modelos que utilizan distintos conjuntos de datos de entrenamiento y algoritmos.

Para crear una instancia de SageMaker AI notebook:
  1. Abre la consola de SageMaker IA en https://console.aws.amazon.com/sagemaker/.

  2. Elija Instancias de bloc de notas y, a continuación, Crear instancia de bloc de notas.

  3. En la página Crear instancia de bloc de notas, proporcione la siguiente información:

    1. Para Nombre de instancia del bloc de notas, escriba un nombre para su instancia de cuaderno.

    2. Para el Tipo de instancia de bloc de notas, elija un tamaño de instancia adecuado para su caso de uso. Para ver una lista de los tipos de instancias y las cuotas compatibles, consulta Amazon SageMaker AI Service Quotas.

    3. En Identificador de plataforma, elija un tipo de plataforma en el que crear la instancia del cuaderno. Este tipo de plataforma determina el sistema operativo y la JupyterLab versión con la que se crea la instancia de tu notebook. Para obtener más información acerca del tipo de identificador de plataforma, consulte Instancias de cuaderno de Amazon Linux 2. Para obtener información acerca de las versiones de JupyterLab, consulte JupyterLab control de versiones.

    4. (Opcional) La configuración adicional permite a los usuarios avanzados crear un script de intérprete de comandos que se puede ejecutar al crear o iniciar la instancia. Este script, denominado script de configuración del ciclo de vida, se puede utilizar para establecer el entorno del cuaderno o para realizar otras funciones. Para obtener más información, consulte Personalización de una instancia de SageMaker bloc de notas mediante un script LCC.

    5. (Opcional) La configuración adicional también le permite especificar el tamaño, en GB, del volumen de almacenamiento de machine learning que está conectado a la instancia de cuaderno. Puede elegir un tamaño entre 5 GB y 16 384 GB, en incrementos de 1 GB. Puede utilizar el volumen para limpiar los conjuntos de datos de entrenamiento o para almacenar temporalmente datos de validación de la tienda u otros datos con los que trabajar.

    6. (Opcional) Para obtener una versión mínima de IMDS, seleccione una versión de la lista desplegable. Si este valor se establece en v1, ambas versiones se pueden usar con la instancia de cuaderno. Si se selecciona la versión 2, solo se IMDSv2 puede usar con la instancia del bloc de notas. Para obtener información al respecto IMDSv2, consulte Uso IMDSv2.

      nota

      A partir del 31 de octubre de 2022, la versión IMDS mínima predeterminada para las instancias de SageMaker notebook cambiará de IMDSv1 a IMDSv2.

      A partir del 1 de febrero de 2023, IMDSv1 ya no estará disponible para la creación de nuevas instancias de bloc de notas. Después de esta fecha, puede crear instancias de cuaderno con una versión de IMDS mínima de 2.

    7. Para el rol de IAM, elige un rol de IAM existente en tu cuenta con los permisos necesarios para acceder a los recursos de SageMaker IA o crea un nuevo rol. Si eliges Crear un nuevo rol, SageMaker AI crea un rol de IAM denominado. AmazonSageMaker-ExecutionRole-YYYYMMDDTHHmmSS La política AWS gestionada AmazonSageMakerFullAccess está asociada al rol. El rol proporciona permisos que permiten a la instancia de notebook llamar a SageMaker AI y Amazon S3.

    8. En Acceso raíz, para conceder acceso raíz a todos los usuarios de instancia con cuaderno, elija Habilitado. Para eliminar el acceso raíz para los usuarios, elija Deshabilitar. Si concede acceso raíz, todos los usuarios de instancias de cuaderno tendrán privilegios de administrador y podrán obtener acceso a todos los archivos que contiene y editarlos.

    9. (Opcional) La clave de cifrado permite cifrar los datos del volumen de almacenamiento de machine learning conectado a la instancia de cuaderno mediante una clave AWS Key Management Service (AWS KMS). Si planea almacenar información confidencial en el volumen de almacenamiento de machine learning, considere cifrar la información.

    10. (Opcional) Red le permite colocar su instancia de cuaderno dentro de una nube privada virtual (VPC). Una VPC proporciona seguridad adicional y restringe el acceso a los recursos de la VPC desde orígenes ajenos a la VPC. Para obtener más información VPCs, consulte la Guía del usuario de Amazon VPC.

      Para agregar la instancia de cuaderno a una VPC:

      1. Elija la VPC y un. SubnetId

      2. En Grupo de seguridad, seleccione el grupo de seguridad predeterminado de la VPC.

      3. Si necesita que su instancia de cuaderno tenga acceso a internet, habilite el acceso directo a internet. En Acceso directo a Internet, elija Habilitar. El acceso a internet puede hacer que su instancia de cuaderno sea menos segura. Para obtener más información, consulte Conexión de una instancia de cuaderno en una VPC a recursos externos.

    11. (Opcional) Para asociar repositorios Git con la instancia con cuaderno, elija un repositorio predeterminado y hasta tres repositorios adicionales. Para obtener más información, consulte Repositorios de Git con instancias de SageMaker AI Notebook.

    12. Elija Crear instancia de bloc de notas.

      En unos minutos, Amazon SageMaker AI lanza una instancia de cómputo de aprendizaje automático (en este caso, una instancia de notebook) y le adjunta un volumen de almacenamiento de aprendizaje automático. La instancia de cuaderno cuenta con un servidor de cuaderno de Jupyter configurado previamente y un conjunto de bibliotecas de Anaconda. Para obtener más información, consulte la API CreateNotebookInstance.

  4. Cuando el estado de la instancia de cuaderno es InService, en la consola, la instancia de cuaderno está lista para su uso. Elija Abrir Jupyter junto al nombre del cuaderno para abrir el panel clásico de Jupyter.

    nota

    Para aumentar la seguridad de tu instancia de Amazon SageMaker Notebook, todos los notebook.region.sagemaker.aws dominios regionales se registran en la lista de sufijos públicos (PSL) de Internet. Para mayor seguridad, le recomendamos que utilice cookies con un __Host- prefijo para establecer cookies confidenciales en los dominios de las instancias de su bloc de notas. SageMaker Esta práctica lo ayuda a proteger su dominio de los intentos de falsificación de solicitudes entre sitios (CSRF). Para obtener más información, consulte la página Set-Cookie en el sitio web de la documentación para desarrolladores mozilla.org.

    Puede elegir Abrir JupyterLab para abrir el JupyterLab panel de control. El panel de control proporciona acceso a la instancia de tu bloc de notas y a ejemplos de libretas de SageMaker IA que contienen tutoriales de código completos. Estos tutoriales muestran cómo usar la SageMaker IA para realizar tareas comunes de aprendizaje automático. Para obtener más información, consulte Acceso a cuadernos de ejemplo. Para obtener más información, consulte Controle el acceso raíz a una instancia de SageMaker notebook.

    Para obtener más información sobre los cuadernos de Jupyter, consulte la sección sobre el cuaderno de Jupyter.