¿Qué es la detección de anomalías?
La detección de anomalías es una parte crítica de la minería de datos que identifica información u observaciones que son significativamente diferentes del patrón general de comportamiento del conjunto de datos.
También conocida como análisis de valores atípicos, la detección de anomalías encuentra errores como fallos técnicos y señala cambios que podrían resultar del comportamiento humano. Después de reunir suficientes datos para formar una línea base, las anomalías o puntos de datos que se desvían de la norma son más claramente visibles cuando ocurren.
Poder encontrar anomalías correctamente es esencial en muchas industrias. Aunque algunas anomalías pueden ser falsos positivos, otras significan un problema mayor.
El hacking y el fraude bancario son algunas de las anomalías más comúnmente identificadas en los datos, donde se detecta un comportamiento inusual utilizando software de forense digital. Muchos de estos sistemas ahora utilizan inteligencia artificial (IA) para monitorear automáticamente las anomalías las 24 horas del día.
Tipos de detección de anomalías
Si bien cada industria tendrá su propio conjunto de datos cuantitativos únicos para lo que hacen, cualquier información evaluada para la detección de anomalías cae en una de dos categorías.
- Detección supervisada. Se utilizan datos previos para entrenar máquinas operadas por IA para identificar anomalías en conjuntos de datos similares. Esto significa que la máquina puede entender qué patrones esperar, pero puede causar problemas con anomalías que no se han visto antes.
- Detección no supervisada. La mayoría de las empresas no tienen suficientes datos para entrenar con precisión los sistemas de IA para la detección de anomalías. En su lugar, utilizan conjuntos de datos no etiquetados que la máquina puede marcar cuando cree que hay valores atípicos presentes sin compararlo con un conjunto de datos existente. Los equipos pueden entonces decir manualmente a la máquina qué comportamiento es normal y cuál es una verdadera anomalía. Con el tiempo, la máquina aprende a identificarlas por sí sola.
Elementos básicos de la detección de anomalías
Las técnicas de detección utilizadas para encontrar anomalías serán determinadas por el tipo de datos utilizados para entrenar la máquina, y la organización está continuamente recopilando eso.
Algunas de las técnicas más comúnmente utilizadas son:
- Algoritmos basados en clústeres. Los puntos de datos se asignan en clústeres en un gráfico basado en características compartidas. Cualquier cosa que no encaje en un clúster podría ser un valor atípico, siendo aquellos más alejados del clúster más propensos a ser una anomalía. Los puntos de datos más alejados del clúster son las anomalías más significativas.
- Redes neuronales. Los datos con marca de tiempo pronostican patrones futuros esperados; las anomalías no se alinean con las tendencias históricas vistas en los datos iniciales. Las secuencias y puntos de desviación se utilizan a menudo en este tipo de detección.
- Algoritmos basados en densidad. Al igual que los clústeres, los métodos de detección basados en densidad buscan valores atípicos basándose en la proximidad de los puntos de datos a un grupo establecido de otros puntos de datos. Las áreas de mayor densidad indican más puntos de datos, por lo que las anomalías fuera de esto son más notables ya que están separadas del grupo más denso.
- Redes bayesianas. La previsión futura también es importante en esta técnica. Las probabilidades y las probabilidades se determinan por factores contribuyentes en el conjunto de datos y encontrando relaciones entre puntos de datos con la misma causa raíz.
Beneficios de la detección de anomalías
Las empresas ahora operan con miles de diferentes piezas de datos. Hacer un seguimiento de este nivel de información manualmente es imposible, lo que hace que encontrar errores sea más difícil. Por eso la detección de anomalías es útil, ya que puede:
- Prevenir violaciones de datos o fraudes. Sin sistemas de detección automatizados, los valores atípicos causados por ciberdelincuentes pueden pasar fácilmente desapercibidos. Los sistemas de detección de anomalías funcionan constantemente, escaneando cualquier cosa inusual y marcándola para revisión de inmediato.
- Encontrar nuevas oportunidades. No todas las anomalías son malas. Los valores atípicos en ciertos conjuntos de datos pueden señalar posibles avenidas de crecimiento, nuevos públicos objetivo u otras estrategias de mejora del rendimiento que los equipos pueden usar para mejorar su retorno de inversión (ROI) y ventas.
- Automatizar informes y análisis de resultados. Usando métodos de informes tradicionales, las anomalías pueden tardar un tiempo significativo en encontrarse. Cuando las empresas intentan alcanzar ciertos indicadores clave de rendimiento (KPI), ese tiempo puede ser costoso. Automatizar muchos de estos sistemas para la detección de anomalías significa que los resultados pueden revisarse mucho más rápido, por lo que los problemas pueden corregirse rápidamente para cumplir con los objetivos comerciales.
Mejores prácticas para la detección de anomalías
Como con cualquier sistema automatizado, los resultados pueden volverse abrumadores. Al implementar por primera vez la detección de anomalías, es una buena idea:
- Entender la técnica más efectiva para el tipo de datos evaluados. Con tantas metodologías, seleccionar algo que funcione bien con el tipo de datos que se está revisando es esencial. Investiga esto con anticipación para evitar complicaciones.
- Tener una línea base establecida para trabajar. Incluso las empresas estacionales pueden encontrar un patrón promedio con suficientes datos. Conocer cuáles son los patrones de comportamiento normales en los datos es la única manera de saber qué puntos no cumplen con las expectativas y podrían ser anomalías.
- Implementar un plan para abordar falsos positivos. Revisar manualmente posibles falsos positivos o usar un conjunto de filtros puede prevenir conjuntos de datos sesgados y tiempo perdido persiguiendo falsas anomalías.
- Monitorear continuamente los sistemas para detectar errores. La detección de anomalías es un proceso continuo. Cuantos más datos use y aprenda la máquina, más inteligente se vuelve y más fácil es identificar valores atípicos. Un humano aún debe realizar revisiones manuales periódicamente para asegurar que la máquina aprenda de información precisa y no se entrene en conjuntos de datos que contengan errores.
Mantén protegidos los datos de tu empresa las 24 horas del día con software de prevención de pérdida de datos (DLP) automatizado para identificar violaciones o fugas.

Holly Landis
Holly Landis is a freelance writer for G2. She also specializes in being a digital marketing consultant, focusing in on-page SEO, copy, and content writing. She works with SMEs and creative businesses that want to be more intentional with their digital strategies and grow organically on channels they own. As a Brit now living in the USA, you'll usually find her drinking copious amounts of tea in her cherished Anne Boleyn mug while watching endless reruns of Parks and Rec.