
Nos últimos anos, as empresas estão convergindo para um cenário de transformação digital. Entre outras ações, têm mobilizado seus times em projetos e iniciativas que se beneficiam de informações e gestão dados – também chamados de “novo petróleo” – parafraseando Peter Sondergaard, que foi VP de Pesquisa da Gartner, “(…) a informação é o petróleo do século 21 e o Analytics é o motor”. [1]
Embora seja plausível promover a ciência de dados como um “novo petróleo”, já que existe um consenso de que o foco em dados aumente consideravelmente a agregação de valor nas empresas e por consequência a geração de riqueza, as comparações param por aí.
A começar pelo fato de que, do ponto de vista dos processos, a exploração do petróleo é relativamente estável desde o século XIX. Por sua vez, a análise de dados possui um ingrediente “perverso” que faz toda a diferença: as constantes mudanças em decorrência das oscilações do mercado e das relações humanas.
Dentro da ciência de dados a mudança se materializa de formas diferentes, mas todas elas convergindo em direção a modelos que não conseguem responder suas perguntas fundamentais. Ou pior: a modelos que podem eventualmente retornar respostas erradas.
Desafios da gestão de dados
Nos primeiros anos do boom do Big Data, quando a UniSoma deu início a projetos nesta área, o foco típico dos nossos clientes era o processamento de grandes volumes de dados para coleta de insights que trouxessem efeitos positivos para o negócio. Isso exigia inegavelmente:
Sem dúvida nenhuma, a adoção de técnicas para análise de dados gerou inúmeros benefícios, mas também revelou uma série de desafios técnicos e de gestão dos dados, entre eles:
Viés: modelos preditivos se baseiam em dados históricos para “projetar” o futuro, assim mostrou-se fundamental fazer uma boa análise exploratória para garantir que eventuais vícios dos dados não fossem reforçados pelo modelo;
Concept Drift: os modelos são treinados com um conjunto de dados previamente tratados e, para evitar que percam a acurácia ao longo do tempo por conta de novos dados ou situações não previstas, precisam ser constantemente acompanhados e revistos;
Qualidade e limpeza dos dados: mesmo dados bem estruturados na fonte podem conter ruídos, Assim, se fazem necessárias técnicas para tratar este tipo de situação de forma sistemática, já que “dado” é um ativo perecível;
Políticas e Regulamentações: cada segmento do mercado possui regras rígidas junto a órgãos de regulação que precisam ser respeitados. Além disso, a nova lei de proteção da privacidade (LGPD) atingiu todas as empresas brasileiras, colocando a questão da governança dos dados como prioritária. Mais do que nunca, ter controle sobre a “esteira” das soluções de Analytics passou a ser imprescindível para garantir compliance e rastreabilidade das informações.
Data Science UniSoma: governança de dados
Quando a UniSoma estabeleceu o seu time de Data Science, um dos valores definidos na sua missão foi possibilitar aos seus clientes a governança de dados – e do ciclo de vida deles.
Por isso, antes mesmo da construção de soluções utilizando as mais diversas técnicas de inteligência artificial, tudo estaria permeado por um processo de validação e monitoramento que garantisse que os modelos acompanhassem as oscilações do negócio. Em outras palavras, assegurasse o Accountability do processo.
Na prática, o time UniSoma passou a adotar as seguintes metodologias:
- Rastreabilidade: para localizar quando determinado comportamento passou a ocorrer e também para restaurar determinada condição inicial;
- Padronização: na forma como os modelos são desenvolvidos, tanto do ponto de vista de estilo quanto da utilização de boas práticas que facilitassem a manutenção dos modelos, permitindo que eles passassem por uma esteira similar a um pipeline DevOps que validasse uma série de regras, gerando indicadores de qualidade;
- Automatização: sempre que possível, de acordo com as políticas de segurança e privacidade dos seus clientes. A UniSoma implementa rotinas automatizadas de extração de dados para facilitar o processo de limpeza e carregamento de dados para o modelo;
- Monitoramento: do desempenho dos seus modelos para acompanhar eventuais desvios causados por Concept Drift;
- Uso de containers: está sendo fortemente adotado tanto para deploy da solução quanto para setup do ambiente de desenvolvimento do cientista de dados;
- Privacy by design: o conceito é praticado com seriedade, envolvendo o cliente desde o início na avaliação de potenciais dados sensíveis que possam violar a privacidade ou a segurança de seus clientes.
Ter um processo de DataOps traz aos nossos projetos muito mais qualidade e confiança de que os resultados serão duradores e consistentes ao longo do tempo. Quer entender um pouco mais sobre como a UniSoma trabalha e de que forma podemos ajudar a sua empresa? Entre em contato conosco.

- “Information is the oil of the 21st century, and analytics is the combustion engine.” A quote by Peter Sondergaard (1965 – ), senior vice president and global head of Research at Gartner, Inc. The quote may be used in discussing the importance of data and data analytics. The quote came from a speech given by Mr. Sondergaard at the Gartner Symposium/ITxpo in October, 2011 in Orlando, Florida. ↩︎