Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Algoritmo k-means

Modo de enfoque
Algoritmo k-means - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

k-means es un algoritmo de aprendizaje sin supervisar. Si intenta buscar agrupaciones discretas dentro de datos, en las que los miembros de un grupo son lo más parecido posible que otro y lo más diferente posible de los miembros de otros grupos. Puede definir los atributos que quiera que el algoritmo utilice para determinar la similaridad.

Amazon SageMaker AI utiliza una versión modificada del algoritmo de agrupamiento k-means a escala web. En comparación con la versión original del algoritmo, la versión utilizada por Amazon SageMaker AI es más precisa. Al igual que el algoritmo original, se escala a los conjuntos de datos masivos y ofrece mejoras en tiempo de capacitación. Para ello, la versión utilizada por Amazon SageMaker AI transmite minilotes (subconjuntos pequeños y aleatorios) de los datos de entrenamiento. Para obtener más información sobre k-means de minilotes, consulte Web-scale k-means Clustering.

El algoritmo k-means espera datos tabulares, en los que las filas representan las observaciones que desea en el clúster y las columnas los atributos de las observaciones. Los atributos n de cada fila representan un punto en el espacio dimensional n. La distancia euclidiana entre estos puntos representa la similaridad de las observaciones correspondientes. El algoritmo agrupa las observaciones con los valores de atributos similares (los puntos correspondientes a estas observaciones están más próximos). Para obtener más información sobre cómo funciona k-means en Amazon SageMaker AI, consulteFuncionamiento de la agrupación en clústeres de k-means.

Interfaz de entrada/salida para el algoritmo k-Means

Para capacitación, el algoritmo k-means espera que se proporcionen datos en el canal capacitación (recomendado S3DataDistributionType=ShardedByS3Key), con un canal de prueba opcional (recomendado S3DataDistributionType=FullyReplicated) en el que puntuar los datos. Tanto el formato recordIO-wrapped-protobuf como CSV son compatibles con la capacitación. Puede usar el modo de archivo o el modo de canalización para capacitar modelos con datos con formato recordIO-wrapped-protobuf o CSV.

Para la inferencia, se admite text/csv, application/json y application/x-recordio-protobuf. k-means devuelve una closest_cluster etiqueta y distance_to_cluster para cada observación.

Para obtener más información sobre los formatos de archivo de entrada y salida, consulte Formatos de respuesta de k-means para inferencia y Cuadernos de ejemplo de K-Means. El algoritmo k-means no es compatible con la capacitación de varias instancias, en la que el conjunto de capacitación se compone de “bolsas” etiquetadas, cada una de las cuales es un conjunto de instancias sin etiquetar.

EC2 Recomendación de instancia para el algoritmo K-Means

Recomendamos k-means de capacitación en las instancias de la CPU. Puede realizar el entrenamiento en las instancias de la GPU, pero debe limitar el entrenamiento con GPU a las instancias de una GPU (como ml.g4dn.xlarge), ya que solo se utiliza una GPU por instancia. El algoritmo K-Means admite las instancias P2, P3, G4dn y G5 para el entrenamiento y la inferencia.

Cuadernos de ejemplo de K-Means

Para ver un ejemplo de bloc de notas que utiliza el algoritmo SageMaker AI K-means para segmentar la población de los condados de los Estados Unidos según los atributos identificados mediante el análisis de componentes principales, consulte Analizar los datos del censo estadounidense para la segmentación de la población mediante Amazon SageMaker AI. Para obtener instrucciones sobre cómo crear instancias de Jupyter Notebook y acceder a ellas, que puede utilizar para ejecutar el ejemplo en SageMaker IA, consulte. Instancias de Amazon SageMaker Notebook Una vez que haya creado una instancia de bloc de notas y la haya abierto, seleccione la pestaña Ejemplos de SageMaker IA para ver una lista de todos los ejemplos de SageMaker IA. Para abrir un cuaderno, haga clic en la pestaña Usar y seleccione Crear copia.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.