Cerved: mais qualidade de Dados e redução de custos com Machine Learning Serverless na AWS

Sobre a Cerved

A Cerved é uma das maiores provedoras de informações empresariais e uma das principais agências de rating da Europa. Sua missão é ajudar empresas, bancos, instituições e pessoas físicas a se protegerem de riscos e alcançarem um crescimento sustentável em seus investimentos. Com um repositório único de dados e analytics, a Cerved oferece serviços, consultoria e plataformas digitais para gestão de riscos e tomada de decisões orientadas por dados.

O Desafio

O serviço de monitoramento de mídia da Cerved, responsável por categorizar automaticamente notícias sobre empresas, estava ancorado em um sistema legado, baseado em regras predefinidas, instalado on-premises. O modelo era rígido, caro de manter e limitado em sua capacidade de evoluir.

Três problemas eram urgentes: baixa precisão na categorização das notícias, gerando retrabalho para a equipe editorial, infraestrutura superdimensionada e ociosa fora dos picos de uso, pagando por capacidade que ficava parada e dificuldade de escalar e evoluir o sistema para novos modelos e funcionalidades.

A Cerved tinha uma equipe técnica competente, com bons cientistas de dados e engenheiros, mas faltava expertise em MLOps e DevOps para machine learning em nuvem. Era hora de encontrar o parceiro certo.

A Solução Claranet

A Claranet entrou no projeto como parceira estratégica, cobrindo exatamente a lacuna que a Cerved precisava preencher: a ponte entre ciência de dados e operação em nuvem em larga escala. Com AWS Lambda como espinha dorsal, os modelos de machine learning foram empacotados como Lambda Layers e implantados de forma totalmente serverless. O sistema só consome recursos, e gera custos, durante as janelas de processamento de notícias, que duram tipicamente 2 a 3 horas por dia. Fora desse período o custo é zero.

Agora, na nuvem com uma solução serverless AWS, usamos o sistema somente quando precisamos, durante as duas ou três horas em que as notícias chegam. Pagamos apenas pelo uso real nesse período.

Daniele Tavolaro, Data Engineer, Cerved

Pipeline de dados em tempo real com Amazon Kinesis

O Amazon Kinesis Data Streams coleta notícias de múltiplas fontes em tempo real. O Amazon Kinesis Data Firehose consolida os resultados das classificações e os indexa no Amazon OpenSearch Service, tornando o conteúdo pesquisável e acessível para a equipe editorial por meio de uma interface customizada.

Treinamento e deployment de modelos com Amazon SageMaker

O Amazon SageMaker suporta o pipeline de treinamento de dezenas de modelos independentes de classificação binária. Os modelos reconhecem tipos de eventos corporativos, identificam empresas entre mais de 6 milhões de organizações ativas e detectam localizações geográficas com base em fontes externas.

Transferência de conhecimento e capacitação em MLOps

Além de construir a solução, a Claranet investiu no desenvolvimento do time da Cerved. Por meio de uma trilha de capacitação estruturada, incluindo cursos de big data e machine learning, a equipe interna ganhou autonomia real para operar, monitorar e evoluir os modelos no longo prazo.

Gerenciar ambientes completamente predefinidos simplifica o desenvolvimento. Essa abordagem nos permite ser flexíveis e independentes.

Gabriele Sotto, Data Scientist, Cerved

Os Resultados

Os números falam por si:

  • +25% de precisão na categorização automática de notícias, ocasionando em menos artigos mal classificados chegando à equipe editorial;
  • Redução significativa de custos de infraestrutura com o modelo pay-per-use serverless, eliminando gastos com servidores ociosos;
  • Processamento sob demanda em janelas de 2 a 3 horas, sem desperdício de recursos fora dos picos;
  • Menos retrabalho operacional onde a equipe técnica deixou de gerenciar infraestrutura e passou a focar em inovação;
  • Base sólida para expansão. A Cerved já planeja estender o ambiente MLOps para novos modelos e expor as capacidades via API como novas linhas de produto.

O ecossistema AWS está tornando nosso sistema flexível e mais fácil de manter, além de oferecer melhor qualidade para nossos clientes e gerar economia de custos para a Cerved.

Divna Djordjevic, Data Scientist, Cerved