O que é detecção de anomalias?
A detecção de anomalias é uma parte crítica da mineração de dados que identifica informações ou observações que são significativamente diferentes do padrão geral de comportamento do conjunto de dados.
Também conhecida como análise de outliers, a detecção de anomalias encontra erros como bugs técnicos e identifica mudanças que podem resultar do comportamento humano. Após reunir dados suficientes para formar uma linha de base, as anomalias ou pontos de dados que se desviam da norma tornam-se mais claramente visíveis quando ocorrem.
Ser capaz de encontrar anomalias corretamente é essencial em muitas indústrias. Embora algumas anomalias possam ser falsos positivos, outras indicam um problema maior.
Hacking e fraude bancária são algumas das anomalias mais comumente identificadas em dados, onde comportamentos incomuns são detectados usando software de forense digital. Muitos desses sistemas agora usam inteligência artificial (IA) para monitorar anomalias automaticamente 24 horas por dia.
Tipos de detecção de anomalias
Embora cada indústria tenha seu próprio conjunto de dados quantitativos únicos para o que fazem, qualquer informação avaliada para detecção de anomalias se enquadra em uma das duas categorias.
- Detecção supervisionada. Dados anteriores são usados para treinar máquinas operadas por IA para identificar anomalias em conjuntos de dados semelhantes. Isso significa que a máquina pode entender quais padrões esperar, mas pode causar problemas com anomalias que não foram vistas antes.
- Detecção não supervisionada. A maioria das empresas não tem dados suficientes para treinar sistemas de IA para detecção de anomalias com precisão. Em vez disso, usam conjuntos de dados não rotulados que a máquina pode sinalizar quando acredita que há outliers presentes, sem compará-los a um conjunto de dados existente. As equipes podem então dizer manualmente à máquina qual comportamento é normal e qual é uma verdadeira anomalia. Com o tempo, a máquina aprende a identificá-los por conta própria.
Elementos básicos da detecção de anomalias
As técnicas de detecção usadas para encontrar anomalias serão determinadas pelo tipo de dados usados para treinar a máquina, e a organização está continuamente reunindo isso.
Algumas das técnicas mais comumente usadas são:
- Algoritmos baseados em clusters. Pontos de dados são atribuídos em clusters em um gráfico com base em características compartilhadas. Qualquer coisa que não se encaixe em um cluster pode ser um outlier, sendo que aqueles mais distantes do cluster são mais propensos a serem uma anomalia. Os pontos de dados mais distantes do cluster são as anomalias mais significativas.
- Redes neurais. Dados com carimbo de tempo preveem padrões futuros esperados; anomalias não se alinham com as tendências históricas vistas em dados anteriores. Sequências e pontos de desvio são frequentemente usados nesse tipo de detecção.
- Algoritmos baseados em densidade. Como os clusters, os métodos de detecção baseados em densidade procuram outliers com base na proximidade dos pontos de dados a um grupo estabelecido de outros pontos de dados. Áreas de maior densidade indicam mais pontos de dados, então anomalias fora disso são mais notáveis, pois estão separadas do grupo mais denso.
- Redes bayesianas. A previsão futura também é importante nessa técnica. Probabilidades e probabilidades são determinadas por fatores contribuintes no conjunto de dados e encontrando relações entre pontos de dados com a mesma causa raiz.
Benefícios da detecção de anomalias
As empresas agora operam com milhares de diferentes peças de dados. Acompanhar esse nível de informação manualmente é impossível, tornando mais difícil encontrar erros. É por isso que a detecção de anomalias é útil, pois pode:
- Prevenir violação de dados ou fraude. Sem sistemas de detecção automatizados, outliers causados por cibercriminosos podem facilmente passar despercebidos. Sistemas de detecção de anomalias funcionam constantemente, escaneando por qualquer coisa incomum e sinalizando para revisão imediata.
- Encontrar novas oportunidades. Nem toda anomalia é ruim. Outliers em certos conjuntos de dados podem apontar para potenciais avenidas de crescimento, novos públicos-alvo ou outras estratégias de melhoria de desempenho que as equipes podem usar para melhorar seu retorno sobre o investimento (ROI) e vendas.
- Automatizar relatórios e análise de resultados. Usando métodos tradicionais de relatório, anomalias podem levar um tempo significativo para serem encontradas. Quando as empresas tentam alcançar certos indicadores-chave de desempenho (KPIs), esse tempo pode ser caro. Automatizar muitos desses sistemas para detecção de anomalias significa que os resultados podem ser revisados muito mais rapidamente, para que os problemas possam ser corrigidos rapidamente para atender aos objetivos de negócios.
Melhores práticas para detecção de anomalias
Como em qualquer sistema automatizado, os resultados podem se tornar avassaladores. Ao implementar a detecção de anomalias pela primeira vez, é uma boa ideia:
- Entender a técnica mais eficaz para o tipo de dados avaliados. Com tantas metodologias, selecionar algo que funcione bem com o tipo de dados sendo revisados é essencial. Pesquise isso com antecedência para evitar complicações.
- Ter uma linha de base estabelecida para trabalhar. Mesmo empresas sazonais podem encontrar um padrão médio com dados suficientes. Saber quais são os padrões comportamentais normais nos dados é a única maneira de saber quais pontos não se encaixam nas expectativas e podem ser anomalias.
- Implementar um plano para lidar com falsos positivos. Revisar manualmente possíveis falsos positivos ou usar um conjunto de filtros pode prevenir conjuntos de dados distorcidos e tempo desperdiçado em perseguir falsas anomalias.
- Monitorar continuamente os sistemas para erros. A detecção de anomalias é um processo contínuo. Quanto mais dados a máquina usa e aprende, mais inteligente ela se torna e mais fácil é identificar outliers. Um humano ainda deve realizar revisões manuais periodicamente para garantir que a máquina aprenda com informações precisas e não treine em conjuntos de dados contendo erros.
Mantenha os dados da sua empresa protegidos 24/7 com software automatizado de prevenção de perda de dados (DLP) para identificar violações ou vazamentos.

Holly Landis
Holly Landis is a freelance writer for G2. She also specializes in being a digital marketing consultant, focusing in on-page SEO, copy, and content writing. She works with SMEs and creative businesses that want to be more intentional with their digital strategies and grow organically on channels they own. As a Brit now living in the USA, you'll usually find her drinking copious amounts of tea in her cherished Anne Boleyn mug while watching endless reruns of Parks and Rec.