Algoritmo k-means

Modo de enfoque

Algoritmo k-means - Amazon SageMaker AI

Interfaz de entrada/salida para el algoritmo k-Means EC2 Recomendación de instancia para el algoritmo K-Means Cuadernos de ejemplo

k-means es un algoritmo de aprendizaje sin supervisar. Si intenta buscar agrupaciones discretas dentro de datos, en las que los miembros de un grupo son lo más parecido posible que otro y lo más diferente posible de los miembros de otros grupos. Puede definir los atributos que quiera que el algoritmo utilice para determinar la similaridad.

Amazon SageMaker AI utiliza una versión modificada del algoritmo de agrupamiento k-means a escala web. En comparación con la versión original del algoritmo, la versión utilizada por Amazon SageMaker AI es más precisa. Al igual que el algoritmo original, se escala a los conjuntos de datos masivos y ofrece mejoras en tiempo de capacitación. Para ello, la versión utilizada por Amazon SageMaker AI transmite minilotes (subconjuntos pequeños y aleatorios) de los datos de entrenamiento. Para obtener más información sobre k-means de minilotes, consulte Web-scale k-means Clustering.

El algoritmo k-means espera datos tabulares, en los que las filas representan las observaciones que desea en el clúster y las columnas los atributos de las observaciones. Los atributos n de cada fila representan un punto en el espacio dimensional n. La distancia euclidiana entre estos puntos representa la similaridad de las observaciones correspondientes. El algoritmo agrupa las observaciones con los valores de atributos similares (los puntos correspondientes a estas observaciones están más próximos). Para obtener más información sobre cómo funciona k-means en Amazon SageMaker AI, consulteFuncionamiento de la agrupación en clústeres de k-means.

Temas

Interfaz de entrada/salida para el algoritmo k-Means

Para capacitación, el algoritmo k-means espera que se proporcionen datos en el canal capacitación (recomendado S3DataDistributionType=ShardedByS3Key), con un canal de prueba opcional (recomendado S3DataDistributionType=FullyReplicated) en el que puntuar los datos. Tanto el formato recordIO-wrapped-protobuf como CSV son compatibles con la capacitación. Puede usar el modo de archivo o el modo de canalización para capacitar modelos con datos con formato recordIO-wrapped-protobuf o CSV.

Para la inferencia, se admite text/csv, application/json y application/x-recordio-protobuf. k-means devuelve una closest_cluster etiqueta y distance_to_cluster para cada observación.

Para obtener más información sobre los formatos de archivo de entrada y salida, consulte Formatos de respuesta de k-means para inferencia y Cuadernos de ejemplo de K-Means. El algoritmo k-means no es compatible con la capacitación de varias instancias, en la que el conjunto de capacitación se compone de “bolsas” etiquetadas, cada una de las cuales es un conjunto de instancias sin etiquetar.

EC2 Recomendación de instancia para el algoritmo K-Means

Recomendamos k-means de capacitación en las instancias de la CPU. Puede realizar el entrenamiento en las instancias de la GPU, pero debe limitar el entrenamiento con GPU a las instancias de una GPU (como ml.g4dn.xlarge), ya que solo se utiliza una GPU por instancia. El algoritmo K-Means admite las instancias P2, P3, G4dn y G5 para el entrenamiento y la inferencia.

Cuadernos de ejemplo de K-Means

Para ver un ejemplo de bloc de notas que utiliza el algoritmo SageMaker AI K-means para segmentar la población de los condados de los Estados Unidos según los atributos identificados mediante el análisis de componentes principales, consulte Analizar los datos del censo estadounidense para la segmentación de la población mediante Amazon SageMaker AI. Para obtener instrucciones sobre cómo crear instancias de Jupyter Notebook y acceder a ellas, que puede utilizar para ejecutar el ejemplo en SageMaker IA, consulte. Instancias de Amazon SageMaker Notebook Una vez que haya creado una instancia de bloc de notas y la haya abierto, seleccione la pestaña Ejemplos de SageMaker IA para ver una lista de todos los ejemplos de SageMaker IA. Para abrir un cuaderno, haga clic en la pestaña Usar y seleccione Crear copia.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Inferencia

Cómo funciona

Tema siguiente:

Cómo funciona

Tema anterior:

Inferencia

¿Necesita ayuda?

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies