Volnei dos Santos*
Vamos à uma das paixões nacionais: o futebol. Impossível pensar em um espetáculo como uma bela partida sem a existência de jogadores atuando nas diferentes posições. Goleiro, defesa, meio, lateral, centroavante – sem falar do técnico, orientando da lateral do campo. Cada um com sua habilidade e especialidade em fazer a bola correr rumo ao mesmo objetivo: atingir o gol do time adversário. Assim como o futebol precisa de diferentes especialistas para o jogo acontecer, conseguimos estabelecer um paralelo com uma ciência que vem ganhando espaço nos últimos tempos: a Data Science.
É muito comum observarmos no mercado uma designação bastante ampla para a atuação do Data Scientist, como se ele, sozinho, fosse capaz de “ganhar o jogo” por possuir diferentes habilidades e conhecimentos. Isso até pode acontecer em algumas raras situações, mas o fato é que um processo de Data Science é bastante abrangente e multidisciplinar, envolvendo diversas expertises para um resultado satisfatório aos negócios.
Escalação do time
Combinar diferentes conhecimentos e atuações é fundamental para extrair e gerar valor a partir do Data Science. Não que cada jogador não possa atuar em diferentes funções de acordo com o desafio e o contexto, mas é possível identificar diferentes posições necessárias para a escalação de um time campeão:
- Data Scientist (Cientista de Dados): é o “centroavante” do time. Por meio de muita técnica e espírito investigativo – como um verdadeiro cientista – conseguirá extrair inteligência de um dos bens mais valiosos do mundo moderno: os dados. Sua formação é muito diversa, reflexo de uma formação nova no mercado – e muitas vezes relacionada com o espírito da geração millennial. Aqui encontramos estatísticos, cientistas de computação, engenheiros e toda sorte de profissionais com sólida formação analítica e flexibilidade para aprender técnicas e ferramentas que se expandem a cada dia.
- Data Engineer (Engenheiro de Dados): atua com foco em acessar e tratar os dados em si, que podem estar em um ERP, planilhas Excel, sistemas legados, ou outros. Precisa combinar diferentes fontes de dados e relacionar registros – muitas vezes de forma nada trivial – a fim de consolidar a informação e, então, passar a bola para o cientista de dados.
- Desenvolvedor: responsável por implementar as aplicações necessárias para integração de dados, análise de resultados e execução do workflow de uso dos algoritmos, necessários para a completa operacionalização dos modelos – isto é, fazê-los rodar fora dos computadores dos cientistas de dados. Este é um papel nem sempre pensado ao se falar de Data Science, mas é uma habilidade importante que nem sempre o cientista ou engenheiro de dados possui.
- Analista de Negócios: encarregado de entender as dinâmicas e o perfil do negócio, traduzindo o desafio que precisa ser solucionado para o time de cientistas de dados. Há quem diga que não há muita necessidade de se entender o negócio para aplicar algoritmos de machine learning, por exemplo; mas, na prática, só se obtêm respostas assertivas quando se conhece bem as perguntas e seus porquês, o que só é possível ao conhecer o contexto no qual a empresa está inserida. Com maior amplitude na visão de negócios, ele consegue direcionar melhor os esforços do cientista e do engenheiro de dados para gerar o maior valor ao negócio.
Escolhendo as ferramentas
Existem várias ferramentas disponíveis para dar suporte a uma empreitada de Data Science, como Estatística (modelos preditivos), Business Intelligence (BI), Machine Learning, Deep Learning e Otimização (modelos prescritivos). O ponto crucial, no entanto, não diz respeito à qual ferramenta utilizar, mas à clareza em relação à pergunta para a qual se busca uma resposta, além da realidade dos dados e do negócio do cliente, para, então, escolher entre as técnicas disponíveis e operacionalizá-las.
Por exemplo, vejamos duas técnicas muito utilizadas no mercado: BI e Machine Learning. A primeira utiliza técnicas de data visualization e data storytelling para gerar resultados, e depende de uma atividade humana mais intensa, com total controle dos dados e variáveis envolvidas na análise. Por meio de manipulação através de gráficos, tabelas e recursos de visualização de dados, o BI permite analisar recortes dentro de uma massa de dados para entender o contexto e os comportamentos e, então, extrair valor por meio de respostas aos questionamentos estabelecidos.
Já a técnica de Machine Learning acaba sendo mais robusta para extração de insights, pela possibilidade de lidar com uma massa gigantesca de dados e identificar impactos, desvios e padrões sem a necessidade de um direcionamento de recorte ou variáveis por ação humana. Por meio de tais algoritmos, ao se investigar um histórico de dados, é possível obter respostas e detectar insights que dificilmente o olhar humano poderia fazer no mesmo espaço de tempo.
Imagine, por exemplo, uma rede varejista que precisa definir a política de preços para seus produtos e deseja conhecer o comportamento de seus consumidores, o impacto e a sensibilidade à variação de preços e quão reativos eles podem se tornar a uma mudança. Com a aplicação do Machine Learning, é possível analisar o histórico e identificar padrões (ou desvios) nas diferentes categorias de consumidores, produtos, regiões, entre outras, num nível muito mais profundo e detalhado do que análises manuais de dados. E direcionar as políticas de preços em nível “micro” a partir destes insights. A área de Pricing é um celeiro fértil para aplicação de Machine Learning.
E há também novas ferramentas surgindo no mercado, como as de Augmented Analytics, que unem o poder de BI com ML. O importante é sabermos que cada caso é um caso. A escolha pela ferramenta mais adequada vai depender da quantidade de dados e de variáveis, o nível de sensibilidade dos dados ou a capacidade de encontrar correlações, além da própria “explicabilidade” necessária na resposta dos algoritmos, muitas vezes essencial ao desafio de negócio.
Empreitada de Data Science
Uma empreitada em Data Science é um desafio complexo, e não há fórmulas prontas! Pela própria natureza investigativa, é preciso levar em conta as peculiaridades de cada ambiente e desafio. No entanto, podemos identificar algumas fases essenciais que vão evoluindo com o passar da jornada:
- Inicia-se pela exploração da ideia, que pode ser uma dor do cliente ou um desafio de negócios, para se identificar a pergunta fundamental a ser respondida. Afinal, nenhuma grande resposta veio sem antes se conhecer bem a pergunta, muito embora não é raro encontrarmos casos em que a decisão por se fazer um algoritmo (especialmente em Machine Learning) vem antes de se entender a real necessidade dele;
- Segue-se com a investigação, em que o cientista de dados vai analisar o histórico de informações disponível e buscar entender se tais dados são suficientes para responder ao desafio, além de mapear de que forma ele será respondido. Muitas vezes, descobre-se aqui a necessidade de se obter mais dados ou de enriquecer os dados existentes;
- A próxima etapa é a modelagem, que se traduz na aplicação da estratégia de uso das técnicas analíticas definidas, com a criação de modelos e algoritmos. Aqui, cientistas e engenheiros de dados trabalham em conjunto para coletar, tratar e inserir os dados de forma robusta em modelos que respondam de forma correta à pergunta de negócio;
- Depois vem a fase de operacionalização, que consiste em transferir os modelos e aplicações criados para o ambiente de informação da empresa – hoje em dia, frequentemente um ambiente cloud – para que passem a coletar inputs, rodar o modelo e trazer as respostas de forma praticamente automatizada (ou com o mínimo de intervenção humana possível);
- E temos, finalmente, a medição dos ganhos e acompanhamento, já que não adianta criar algoritmos revolucionários se não medirmos o quanto estes trazem de resultado para a companhia. Por meio deste acompanhamento contínuo, é possível descobrir se a resposta ao desafio de negócios está se traduzindo em ganhos, sejam eles financeiros, operacionais, de satisfação ou qualquer outro relevante aos negócios. Além disso, é possível perceber se os modelos necessitam de calibração por conta de mudanças nos padrões dos dados.
A união faz a força
Viu quantos elementos estão envolvidos numa empreitada analítica, sejam de perfis de profissionais, técnicas e atividades? Quando o assunto é Data Science, é fundamental ter um olhar crítico sobre todos esses pontos, mesmo porque estamos no meio de uma verdadeira hype, em que muito se diz sobre o assunto, mas poucas vezes com propriedade.
Em resumo, Data Science diz respeito ao uso de algoritmos e dados para responder desafios de negócios e suportar decisões que o ser humano precisa tomar. As possibilidades de aplicação são inúmeras e é preciso tratar do tema com responsabilidade, pois não existe uma fórmula ou algoritmo pronto no mercado que seja capaz de dar respostas para diferentes tipos de problemas e dados. Por isso, pesquise e opte sempre por parceiros de negócios reconhecidos no mercado, com estruturas robustas e multidisciplinares e que olhem para uma empreitada de Data Science com o conhecimento necessário para gerar valor, e evite que sua empresa caia em armadilhas.
*Volnei dos Santos é Engenheiro de Computação, formado pela Unicamp, e diretor Técnico e de Operações da UniSoma.