Introducing G2.ai, the future of software buying.Try now

Aprendizaje supervisado vs. no supervisado: diferencias explicadas

20 de Diciembre de 2024
por Alyssa Towns

Con el avance de las invenciones de aprendizaje automático avanzado, estrategias como el aprendizaje supervisado y no supervisado están ganando más presencia en el mercado. Aunque ambas tecnologías son efectivas para abordar grandes volúmenes de datos, diferenciar entre el aprendizaje supervisado y no supervisado dentro del software de aprendizaje automático allana el camino para un análisis de productos preciso. El aprendizaje supervisado permite a los algoritmos predecir tendencias no vistas, mientras que los algoritmos no supervisados detectan sentimientos, anomalías o correlaciones dentro de los datos de entrenamiento. Dado que ambos algoritmos de aprendizaje automático dependen del tipo de datos de entrenamiento que se alimentan al modelo, utilizar software de etiquetado de datos mapea la necesidad exacta de servicios de etiquetado para el modelado predictivo.

¿Cuál es la diferencia entre el aprendizaje supervisado y no supervisado?

El aprendizaje supervisado es un proceso donde se alimentan datos de entrada etiquetados y datos de salida etiquetados dentro del algoritmo de modelado predictivo para prever la clase de conjuntos de datos no vistos. El aprendizaje no supervisado es un proceso donde el conjunto de datos es crudo, no estructurado y no etiquetado, y los datos nuevos se clasifican en función de los atributos de los datos de entrenamiento no etiquetados.

¿Quieres aprender más sobre Software de aprendizaje automático? Explora los productos de Aprendizaje Automático.

¿Qué es el aprendizaje supervisado?

El aprendizaje supervisado es un tipo de aprendizaje automático (ML) que utiliza conjuntos de datos etiquetados para identificar los patrones y relaciones entre los datos de entrada y salida. Requiere datos etiquetados que consisten en entradas (o características) y salidas (categorías o etiquetas) para hacerlo. Los algoritmos analizan la información de entrada y luego infieren la salida deseada.

En el caso del aprendizaje supervisado, sabemos qué tipos de salidas deberíamos esperar, lo que ayuda al modelo a determinar lo que cree que es la respuesta correcta.

Ejemplos de aprendizaje supervisado

Algunas de las aplicaciones más comunes del aprendizaje supervisado son:

  • Detección de spam: Como se mencionó anteriormente, los proveedores de correo electrónico utilizan técnicas de aprendizaje supervisado para clasificar el contenido como spam o no spam. Esto se hace en función de las características de cada correo electrónico (o entrada), como la dirección de correo del remitente, la línea de asunto y el cuerpo del mensaje, y los patrones que el modelo aprende.
  • Reconocimiento de objetos e imágenes: Podemos entrenar modelos con un gran conjunto de datos de imágenes etiquetadas, como gatos y perros. Luego, el modelo puede extraer características como formas, colores, texturas y estructuras de las imágenes para aprender a reconocer estos objetos en el futuro.
  • Análisis de sentimiento del cliente: Las empresas pueden analizar las reseñas de los clientes para determinar su sentimiento (por ejemplo, positivo, negativo o neutral) entrenando un modelo con reseñas etiquetadas. El modelo aprende a asociar palabras y características específicas con diferentes sentimientos y puede clasificar nuevas reseñas de clientes en consecuencia.
  • Reconocimiento facial: Se utilizan datos supervisados etiquetados para predecir imágenes extranjeras a partir de fotos, videos o planos al compararlas con los atributos en los datos de entrenamiento. El modelo de aprendizaje automático supervisado detecta características faciales y embebe representaciones vectoriales para comparar resultados y obtener la confirmación correcta.
  • Reconocimiento de objetos: El aprendizaje supervisado se despliega para detectar objetos o elementos no deseados para prevenir obstrucciones en vehículos o dispositivos de autoasistencia. Requiere una supervisión humana mínima para detectar objetos no vistos y predecir la acción que se debe tomar.
  • Autenticación biométrica: Debido a la mayor precisión y predicción, los algoritmos supervisados también pueden abordar la autenticación biométrica y predecir credenciales de empleados de manera efectiva. Aprovecha tanto los conjuntos de datos de entrenamiento como de prueba para afinar la generación de salidas y autenticar individuos de manera efectiva.
  • Modelado predictivo: El aprendizaje supervisado es una estrategia ampliamente aceptada para prever tendencias y estrategias en el sector comercial. También conocido como modelado predictivo, estos ejemplos incluyen predecir las ventas del próximo trimestre, analizar datos de campañas de marketing, prever tendencias presupuestarias, personalizar contenidos OTT, y así sucesivamente.
  • Análisis prescriptivo: En esta técnica, el conjunto de datos de entrada se afina con inferencias humanas externas que optimizan la calidad del análisis realizado y la generación de salidas. Una salida precisa conduce a un mejor análisis prescriptivo, lo que implica un memorando más estratégico y estructurado para el curso de acción futuro.
  • Reconocimiento óptico de caracteres: El aprendizaje supervisado es efectivo para analizar y editar texto en formato post-data (pdf) ya que predice una correlación entre la variable dependiente e independiente y predice etiquetas para el texto. Las redes neuronales potenciadas con aprendizaje supervisado predicen la naturaleza, el tono y la criticidad del texto y los categorizan en un formato editable.
  • Reconocimiento de voz o reconocimiento de habla: Esta técnica es prominente para dictar palabras habladas y convertirlas en un comando para la acción. Basado en el conjunto de datos de audio entrenado y probado, los usuarios pueden procesar y convertir comandos de voz en flujos de trabajo automatizados en tiempo real o escritos.

Tipos de clasificación de aprendizaje supervisado

Existen múltiples métodos de clasificación en el aprendizaje supervisado. Para empezar, el conjunto de datos se preprocesa, limpia y evalúa para detectar valores atípicos. Los datos etiquetados establecen una fuerte correlación entre una variable predicha y una variable de resultado. Después de la limpieza de datos, el conjunto de datos se entrena y prueba con los datos etiquetados disponibles para verificar la precisión y clasificar los datos no vistos. Basado en el entrenamiento previo, así es como se utiliza el aprendizaje supervisado para clasificar objetos:

Clasificación binaria

En la clasificación binaria, como se mencionó anteriormente, el conjunto de datos se evalúa en función de la formación de hipótesis. Significa que si A causa B, entonces el valor de la hipótesis nula es verdadero y si no, entonces la alternativa puede ser verdadera. La clasificación A o B se define como clasificación binaria y hay cinco tipos de clasificación de aprendizaje supervisado:

  • Regresión lineal: La regresión lineal es un método de análisis de datos que comprende una variable independiente y una variable dependiente que comparten una correlación lineal y se alimentan al modelo para predecir resultados continuos. Se puede realizar con datos nominales, discretos y continuos y estos modelos pueden predecir tendencias o pronósticos de ventas.
  • Regresión logística: La regresión logística trabaja con conjuntos de datos más grandes y optimiza la probabilidad de categoría de la variable para formar modelos de buen ajuste. Basado en la distribución probabilística, asigna una categoría particular para la variable dependiente.
  • Árboles de decisión: Los árboles de decisión siguen una técnica basada en nodos para categorizar datos en atributos y comprender parámetros estadísticos para predecir un resultado específico. El mecanismo de árbol de decisión sigue reglas de decisión y se despliega en el modelado predictivo y el análisis de grandes datos.
  • Series temporales: Esta técnica se utiliza para procesar datos secuenciales como lenguaje, presupuesto, métricas de marketing, precios de acciones o datos de atribución de campañas. Algunos ejemplos populares de modelos de series temporales incluyen redes neuronales recurrentes, modelos de memoria a largo y corto plazo (LSTM), y así sucesivamente.
  • Naive Bayes: Naive Bayes destaca atributos de datos etiquetados y analiza características individuales, asigna distribución de probabilidad y prueba qué categoría es la correcta sin sobreajustar el modelo de aprendizaje automático.

Clasificación de múltiples clases

En esta técnica de clasificación de aprendizaje supervisado, los datos no vistos se asignan a múltiples (hasta tres) categorías o clases relevantes basadas en el entrenamiento del modelo. Hay tres tipos de clasificación de múltiples clases en el aprendizaje supervisado:

  • Bosque aleatorio: El bosque aleatorio combina múltiples árboles de decisión para fortalecer la prueba del modelo y mejorar la precisión. Este algoritmo se utiliza para predecir correlaciones más fuertes, promediar predicciones o predecir clases para conjuntos de datos grandes y diversos. Algunos ejemplos incluyen pronósticos del tiempo, proyecciones de victorias en partidos, predicciones económicas, y así sucesivamente.
  • K-vecinos más cercanos (KNN): Este algoritmo se utiliza para prever la probabilidad de un solo punto de datos según la categoría de un grupo heterogéneo de puntos de datos a su alrededor. K-vecinos más cercanos es una técnica de aprendizaje supervisado que evalúa una "puntuación informativa" para "K" etiquetas y calcula distancias (como Euclidiana) para predecir la categoría más cercana.

Clasificación de múltiples etiquetas

La clasificación de múltiples etiquetas es una técnica supervisada donde los algoritmos predicen múltiples etiquetas como un buen ajuste para la variable independiente. Combina los resultados del análisis de datos y el preprocesamiento humano para seleccionar tres o más categorías relevantes para la variable de salida.

  • Transformación de problemas: Con esta estrategia, puedes convertir múltiples salidas de etiquetas en una única salida más relevante para resolver la confusión. En lugar de múltiples valores de clase como perro, actor, mula, el algoritmo asigna una salida relevante. La transformación de problemas es esencial para la clasificación binaria donde tenemos una causa y un resultado.
  • Adaptación de algoritmos: Con esta técnica, los modelos de ML pueden manejar múltiples clases de manera efectiva sin sobreajustar el modelo. Ejemplos incluyen KNN, Naive Bayes, árboles de decisión, etc.
  • Impulso de gradiente de múltiples etiquetas: Esta técnica destaca el gradiente más relevante o intervalo de confianza de una variable que pertenece a una cierta categoría. Los gradientes que se destacan durante la fase de prueba son las etiquetas que se asignan al final.

Regresión de múltiples etiquetas

La regresión de múltiples etiquetas predice múltiples valores de salida continuos para un solo punto de datos de entrada. A diferencia de la clasificación de múltiples etiquetas que asigna varias categorías a los datos, este enfoque modela las relaciones entre características dentro de valores numéricos (como humedad o precipitación) y predice esos valores para prever tendencias climáticas para actividades como aterrizaje o despegue de vuelos, retrasos en partidos, y así sucesivamente.

Clasificación desequilibrada

La clasificación desequilibrada se define como una técnica supervisada para manejar clasificaciones de etiquetas desiguales durante el proceso de análisis. Debido a la disparidad en las relaciones lineales, la predicción de la clase final puede volverse errónea. A veces, también puede mostrar el caso de falsos positivos en los datos de prueba que clasifica incorrectamente los datos no vistos.

¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado es un tipo de aprendizaje automático que utiliza algoritmos para analizar conjuntos de datos no etiquetados sin supervisión humana. A diferencia del aprendizaje supervisado, en el que sabemos qué resultados esperar, este método busca descubrir patrones y revelar conocimientos de datos sin entrenamiento o etiquetas previas.

El aprendizaje no supervisado se utiliza para detectar correlaciones dentro de conjuntos de datos, relaciones y patrones dentro de variables y tendencias ocultas y composiciones de comportamiento para automatizar el proceso de etiquetado de datos. Ejemplos incluyen la detección de anomalías, la reducción de dimensionalidad, y así sucesivamente.

Ejemplos de aprendizaje no supervisado

Algunos de los casos de uso cotidianos para el aprendizaje no supervisado incluyen los siguientes:

  • Segmentación de clientes: Las empresas pueden utilizar algoritmos de aprendizaje no supervisado para generar perfiles de personas compradoras agrupando los rasgos, comportamientos o patrones comunes de sus clientes. Por ejemplo, una empresa minorista podría usar la segmentación de clientes para identificar compradores de presupuesto, compradores estacionales y clientes de alto valor. Con estos perfiles en mente, la empresa puede crear ofertas personalizadas y experiencias adaptadas para satisfacer las preferencias de cada grupo.
  • Detección de anomalías: En la detección de anomalías, el objetivo es identificar puntos de datos que se desvían del resto del conjunto de datos. Dado que las anomalías son a menudo raras y varían ampliamente, etiquetarlas como parte de un conjunto de datos etiquetado puede ser un desafío, por lo que las técnicas de aprendizaje no supervisado son adecuadas para identificar estas rarezas. Los modelos pueden ayudar a descubrir patrones o estructuras dentro de los datos que indican un comportamiento anormal para que estas desviaciones puedan ser anotadas como anomalías. El monitoreo de transacciones financieras para detectar comportamientos fraudulentos es un ejemplo destacado de esto.

Tipos de agrupamiento en aprendizaje no supervisado

Los algoritmos de aprendizaje no supervisado son más adecuados para tareas complejas en las que los usuarios desean descubrir patrones previamente no detectados en conjuntos de datos. Tres tipos de alto nivel de aprendizaje no supervisado son el agrupamiento, la asociación y la reducción de dimensionalidad. Existen varios enfoques y técnicas para estos tipos.

El aprendizaje no supervisado se utiliza para detectar relaciones internas entre puntos de datos no etiquetados para predecir una puntuación de incertidumbre y hacer un intento de asignar la categoría correcta a través del procesamiento de aprendizaje automático.

Agrupamiento en aprendizaje no supervisado

El agrupamiento es una técnica de aprendizaje no supervisado que divide datos no etiquetados en grupos, o, como su nombre indica, agrupaciones, basándose en similitudes o diferencias entre puntos de datos. Los algoritmos de agrupamiento buscan grupos naturales en datos no categorizados.

Por ejemplo, un algoritmo de aprendizaje no supervisado podría tomar un conjunto de datos no etiquetado de varios animales terrestres, acuáticos y aéreos y organizarlos en grupos basados en sus estructuras y similitudes.

Los algoritmos de agrupamiento incluyen los siguientes tipos:

  • Agrupamiento K-means: K-means es un algoritmo ampliamente utilizado para dividir datos en K-grupos que comparten características y atributos similares. Se calcula la distancia de cada punto de datos desde el centroide de estos grupos. El grupo más cercano es la categoría para ese punto de datos. Esta técnica se utiliza mejor para la segmentación de clientes o el análisis de sentimientos.
  • Análisis de componentes principales: El análisis de componentes principales descompone los datos en menos componentes, también conocidos como componentes principales. Se utiliza principalmente para la reducción de dimensionalidad, la detección de anomalías y la reducción de spam.
  • Modelos de mezcla gaussiana: Este es un modelo de agrupamiento probabilístico donde los datos de entrada se examinan en busca de correlaciones internas, patrones y tendencias. El algoritmo asigna una puntuación de probabilidad para cada punto de datos y detecta la categoría correcta. Esta técnica también se conoce como agrupamiento suave, ya que proporciona una inferencia de probabilidad a un punto de datos.

Asociación en agrupamiento de aprendizaje no supervisado

En este enfoque basado en reglas de aprendizaje no supervisado, los algoritmos de aprendizaje buscan correlaciones y relaciones de tipo si-entonces entre puntos de datos. Esta técnica se utiliza comúnmente para analizar hábitos de compra de clientes, permitiendo a las empresas comprender las relaciones entre productos para optimizar sus colocaciones de productos y estrategias de marketing dirigidas.

Imagina una tienda de comestibles que quiere entender mejor qué artículos compran sus clientes a menudo juntos. La tienda tiene un conjunto de datos que contiene una lista de viajes de compras, con cada viaje detallando qué artículos en la tienda compró un cliente.

Ejemplos de reglas de asociación en aprendizaje no supervisado

  • Personalizar la transmisión en vivo en listas recomendadas de OTT o listas de reproducción de usuarios
  • Estudiar datos de campañas de marketing para detectar comportamientos ocultos y prever soluciones
  • Ejecutar descuentos y ofertas personalizadas para compradores frecuentes
  • Predecir los ingresos brutos de taquilla después de los estrenos de películas

La tienda puede aprovechar la asociación para buscar artículos que los clientes compran con frecuencia en un solo viaje de compras. Pueden comenzar a inferir reglas si-entonces, como: si alguien compra leche, a menudo compra galletas también.

Luego, el algoritmo podría calcular la confianza y la probabilidad de que un cliente compre estos artículos juntos a través de una serie de cálculos y ecuaciones. Al descubrir qué artículos compran juntos los clientes, la tienda de comestibles puede implementar tácticas como colocar los artículos uno al lado del otro para fomentar su compra conjunta o ofrecer un precio con descuento para comprar ambos artículos. La tienda hará que las compras sean más convenientes para sus clientes y aumentará las ventas.

Reducción de dimensionalidad

La reducción de dimensionalidad es una técnica de aprendizaje no supervisado que reduce el número de características o dimensiones en un conjunto de datos, facilitando la visualización de los datos. Funciona extrayendo características esenciales de los datos y reduciendo las irrelevantes o aleatorias sin comprometer la integridad de los datos originales.

Elegir entre aprendizaje supervisado y no supervisado

Seleccionar el modelo de entrenamiento adecuado para cumplir con tus objetivos comerciales y salidas de intención depende de tus datos y su caso de uso. Considera las siguientes preguntas al decidir si el aprendizaje supervisado o no supervisado funcionará mejor para ti:

  • ¿Estás trabajando con un conjunto de datos etiquetado o no etiquetado? ¿Con qué tamaño de conjunto de datos está trabajando tu equipo? ¿Tus datos están etiquetados? ¿O tus científicos de datos tienen el tiempo y la experiencia para validar y etiquetar tus conjuntos de datos en consecuencia si eliges esta ruta? Recuerda, los conjuntos de datos etiquetados son imprescindibles si deseas seguir el aprendizaje supervisado.
  • ¿Qué problemas esperas resolver? ¿Quieres entrenar un modelo para ayudarte a resolver un problema existente y dar sentido a tus datos? ¿O quieres trabajar con datos no etiquetados para permitir que el algoritmo descubra nuevos patrones y tendencias? Los modelos de aprendizaje supervisado funcionan mejor para resolver un problema existente, como hacer predicciones utilizando datos preexistentes. El aprendizaje no supervisado funciona mejor para descubrir nuevos conocimientos y patrones en conjuntos de datos.

Aprendizaje supervisado vs. no supervisado: diferencias clave

Aquí hay un resumen de los diferenciadores clave entre el aprendizaje supervisado y no supervisado que explica los parámetros y aplicaciones de ambos tipos de modelado de aprendizaje automático:

 

Aprendizaje Supervisado

Aprendizaje No Supervisado

Datos de entrada

Requiere conjuntos de datos etiquetados

Utiliza conjuntos de datos no etiquetados

Objetivo

Predecir un resultado o clasificar datos en consecuencia (es decir, tienes un resultado deseado en mente)

Descubrir nuevos patrones, estructuras o relaciones entre datos

Tipos

Dos tipos comunes: clasificación y regresión

Agrupamiento, asociación y reducción de dimensionalidad

Casos de uso comunes

Detección de spam, reconocimiento de imágenes y objetos, y análisis de sentimiento del cliente

Segmentación de clientes y detección de anomalías

Supervisa o no supervises, según lo veas conveniente

Ya sea que elijas una técnica no supervisada o supervisada, el objetivo final debe ser hacer la predicción correcta para tus datos. Aunque ambas estrategias tienen sus beneficios y anomalías, requieren diferentes recursos, infraestructura, mano de obra y calidad de datos. Tanto el aprendizaje supervisado como el no supervisado están liderando en sus propios dominios, y el futuro de las industrias depende de ellos.

Aprende más sobre modelos de aprendizaje automático y cómo entrenan, segmentan y analizan datos para predecir resultados exitosos.

Alyssa Towns
AT

Alyssa Towns

Alyssa Towns works in communications and change management and is a freelance writer for G2. She mainly writes SaaS, productivity, and career-adjacent content. In her spare time, Alyssa is either enjoying a new restaurant with her husband, playing with her Bengal cats Yeti and Yowie, adventuring outdoors, or reading a book from her TBR list.