Nos últimos anos, as empresas estão convergindo para um cenário de transformação digital. Entre outras ações, têm mobilizado seus times em projetos e iniciativas que se beneficiam de informações e gestão dados – também chamados de “novo petróleo” – parafraseando Peter Sondergaard, que foi VP de Pesquisa da Gartner, “(…) a informação é o petróleo do século 21 e o Analytics é o motor”. [1]
Embora seja plausível promover a ciência de dados como um “novo petróleo”, já que existe um consenso de que o foco em dados aumente consideravelmente a agregação de valor nas empresas e por consequência a geração de riqueza, as comparações param por aí.
A começar pelo fato de que, do ponto de vista dos processos, a exploração do petróleo é relativamente estável desde o século XIX. Por sua vez, a análise de dados possui um ingrediente “perverso” que faz toda a diferença: as constantes mudanças em decorrência das oscilações do mercado e das relações humanas.
Dentro da ciência de dados a mudança se materializa de formas diferentes, mas todas elas convergindo em direção a modelos que não conseguem responder suas perguntas fundamentais. Ou pior: a modelos que podem eventualmente retornar respostas erradas.
Desafios da gestão de dados
Nos primeiros anos do boom do Big Data, quando a UniSoma deu início a projetos nesta área, o foco típico dos nossos clientes era o processamento de grandes volumes de dados para coleta de insights que trouxessem efeitos positivos para o negócio. Isso exigia inegavelmente:
- O conhecimento no negócio em si;
- Fluência das técnicas aplicadas à Analytics como machine learning, previsão estatística e otimização baseada em modelos matemáticos.
Sem dúvida nenhuma, a adoção de técnicas para análise de dados gerou inúmeros benefícios, mas também revelou uma série de desafios técnicos e de gestão dos dados, entre eles:
Viés: modelos preditivos se baseiam em dados históricos para “projetar” o futuro, assim mostrou-se fundamental fazer uma boa análise exploratória para garantir que eventuais vícios dos dados não fossem reforçados pelo modelo;
Concept Drift: os modelos são treinados com um conjunto de dados previamente tratados e, para evitar que percam a acurácia ao longo do tempo por conta de novos dados ou situações não previstas, precisam ser constantemente acompanhados e revistos;
Qualidade e limpeza dos dados: mesmo dados bem estruturados na fonte podem conter ruídos, Assim, se fazem necessárias técnicas para tratar este tipo de situação de forma sistemática, já que “dado” é um ativo perecível;
Políticas e Regulamentações: cada segmento do mercado possui regras rígidas junto a órgãos de regulação que precisam ser respeitados. Além disso, a nova lei de proteção da privacidade (LGPD) atingiu todas as empresas brasileiras, colocando a questão da governança dos dados como prioritária. Mais do que nunca, ter controle sobre a “esteira” das soluções de Analytics passou a ser imprescindível para garantir compliance e rastreabilidade das informações.
Data Science UniSoma: governança de dados
Quando a UniSoma estabeleceu o seu time de Data Science, um dos valores definidos na sua missão foi possibilitar aos seus clientes a governança de dados – e do ciclo de vida deles.
Por isso, antes mesmo da construção de soluções utilizando as mais diversas técnicas de inteligência artificial, tudo estaria permeado por um processo de validação e monitoramento que garantisse que os modelos acompanhassem as oscilações do negócio. Em outras palavras, assegurasse o Accountability do processo.
Na prática, o time UniSoma passou a adotar as seguintes metodologias:
- Rastreabilidade: para localizar quando determinado comportamento passou a ocorrer e também para restaurar determinada condição inicial;
- Padronização: na forma como os modelos são desenvolvidos, tanto do ponto de vista de estilo quanto da utilização de boas práticas que facilitassem a manutenção dos modelos, permitindo que eles passassem por uma esteira similar a um pipeline DevOps que validasse uma série de regras, gerando indicadores de qualidade;
- Automatização: sempre que possível, de acordo com as políticas de segurança e privacidade dos seus clientes. A UniSoma implementa rotinas automatizadas de extração de dados para facilitar o processo de limpeza e carregamento de dados para o modelo;
- Monitoramento: do desempenho dos seus modelos para acompanhar eventuais desvios causados por Concept Drift;
- Uso de containers: está sendo fortemente adotado tanto para deploy da solução quanto para setup do ambiente de desenvolvimento do cientista de dados;
- Privacy by design: o conceito é praticado com seriedade, envolvendo o cliente desde o início na avaliação de potenciais dados sensíveis que possam violar a privacidade ou a segurança de seus clientes.
Ter um processo de DataOps traz aos nossos projetos muito mais qualidade e confiança de que os resultados serão duradores e consistentes ao longo do tempo. Quer entender um pouco mais sobre como a UniSoma trabalha e de que forma podemos ajudar a sua empresa? Entre em contato conosco.
Alberto Pereto atua há mais de 20 anos na área de TI, 12 deles em projetos de Advanced Analytics de clientes da UniSoma nos mais diversos segmentos.
[1] “Information is the oil of the 21st century, and analytics is the combustion engine.” A quote by Peter Sondergaard (1965 – ), senior vice president and global head of Research at Gartner, Inc. The quote may be used in discussing the importance of data and data analytics. The quote came from a speech given by Mr. Sondergaard at the Gartner Symposium/ITxpo in October, 2011 in Orlando, Florida.