O Futuro da Ciência de Dados

“Em 10 anos os cientistas de dados vão desaparecer”. A afirmação contundente me acordou naquela tarde sonolenta de sexta-feira.

“Em 10 anos os cientistas de dados vão desaparecer”.

A afirmação contundente me acordou naquela tarde sonolenta de sexta-feira. Explico: me reúno periodicamente com um grupo de colegas, principalmente pesquisadores e especialistas de IA, para trocar ideias, experiências ou simplesmente jogar conversa fora. Como estamos espalhados por diversas partes do mundo, os horários são combinados para acomodar a maioria. Neste dia em especial, era por volta das 16h no Brasil e estava sofrendo daquela sonolência do meio da tarde que me é característica. O colega em questão estava na Califórnia e tinha acabado de voltar do almoço. Outro colega, na Alemanha, que já deveria estar pensando no jantar, perguntou se ele havia comido algo estragado. O colega californiano resolveu então aprofundar um pouco mais a afirmação, explicando os motivos de a haver feito.

A seguir, pretendo fazer um resumo do nosso debate e conclusão. Importante reforçar que as ideias e visões discutidas são baseadas nas observações e experiências dos participantes. Não há pretensão científica aqui ou de apresentar evidências que comprovem teses. É fruto de conversas entre colegas que trabalham no mesmo ramo e gostam de falar sobre ele, acompanhados de xícaras de café (como no meu caso e do colega californiano) ou de um bom copo de cerveja (como no caso do colega alemão).     

Apesar do acesso à ciência de dados em um nível básico, diga-se de passagem, tornar-se cada vez mais democrático [2], há uma tendência dentro das empresas em favorecer perfis que possuam expertise em análise de gerenciamento de dados, aprendizado de máquina e IA e sua integração na estrutura em nuvem da empresa. Embora barreiras de entrada tradicionais do campo, como por exemplo a falta de dados ou o poder de processamento computacional, tenham sido eliminadas ou minimizadas por softwares como Power BI  e computação em nuvem poderosas como da AWS  [2], há cada vez mais necessidade de um conjunto de habilidades altamente específicas e especializadas. Só para efeito de comparação, lembro que quando iniciei na área, fiz algumas disciplinas avulsas no IMPA, principalmente relacionadas à estatística. Um colega de lá apresentou-me o mapa feito pelo Swami Chandrasekaran (Figura 1), com os conhecimentos que um cientista de dados deveria dominar.  

Figura 1: Mapa com os domínios de conhecimento da ciência de dados. Fonte: Swami Chandrasekaran.

Embora muitos vejam a ciência de dados como um campo interdisciplinar (como o mapa do Chandrasekaran demonstra), onde conhecimentos como big data, data mining ou construção de modelo preditivo são sempre bastante mencionados, creio que há um item particular muito esquecido, quando se fala da interdisciplinaridade da ciência de dados. Me refiro ao domínio de conhecimento, que é especializado (em outras palavras, disciplinar). É o que permite usar data science como uma ferramenta para resolver problemas do mundo real.   

Essa dicotomia entre interdisciplinaridade e especialização talvez seja o “calcanhar de aquiles” da história. Explico, li certa vez que a ciência de dados tem a curiosa distinção de ser um dos poucos campos do conhecimento que deixa o profissional sem domínio [2]. Segundo este argumento, enquanto estudantes de farmácia tornam-se farmacêuticos, estudantes de direito tornam-se advogados, estudantes de contabilidade tornam-se contadores, estudantes de ciência de dados se tornam, por conclusão lógica, cientistas de dados. Será mesmo? São cientistas de quais dados? Ao mesmo tempo em que a ciência de dados é uma poderosa ferramenta que pode ser aplicada a qualquer setor onde dados são gerados e capturados [2], a sua aplicabilidade geral não garante que o cientista de dados tenha um conhecimento pregresso do domínio de tais indústrias antes da análise dos dados. Muitas vezes nem aí, já que o resultado é interpretado estatisticamente, por exemplo, p < 0.05 significa que a hipótese de teste (chamada de null hypothesis) é falsa e deve ser rejeitada. Se a hipótese é que há correlação entre um conjunto de variáveis, o resultado significa que não há correlação estatística entre elas. Mas, o que essas variáveis significam para o negócio? Que decisão pode ser tomada com base nisso? São interpretações que precisam ser baseadas em experiência no ramo analisado.

Outros pontos importantes que influenciam a área são a automação e a computação quântica. Apesar de ninguém poder afirmar quando a supremacia quântica será atingida de fato (o Google e a China alegam já a terem atingido), estima-se que ela o será antes da metade do século. Embora haja controvérsias de que a supremacia quântica seja possível, já que para alguns pesquisadores os computadores quânticos nunca se posicionarão “supremos” sobre os computadores clássicos, mas sim trabalharão em conjunto com eles [4], o fato é que atingir uma capacidade quântica muda o mundo como o conhecemos hoje.

A computação quântica combina física quântica, ciência da computação e teoria da informação. Ela usa bits quânticos (qubits) ou invés de bits comuns (que registram a informação na forma de um ou zero). Uma série de bits juntos é chamada de código binário. Por exemplo, a letra “A” na computação clássica é armazenada em binário como 01000001. Os qubits expandem os limites binários seguindo a lógica quântica, representada como um ou zero dos códigos binários, e a lógica de superposição, em que um qubit é representado não apenas por um estado, mas por ambos. Isso quer dizer que podemos representar uma informação como um e zero ao mesmo tempo [3]. A superposição diminui o número de operações necessárias para resolver problemas complexos, sendo capaz de executar cálculos de forma simultânea em velocidades mais rápidas e com menor consumo de energia [3].

Tomemos o exemplo do machine learning. ML requer uma grande quantidade de dados e precisa ser constantemente alimentado com novas informações, para que possa aprender como os dados mudam e identificar tendências ao longo do tempo. No entanto, conforme o volume de dados aumenta, a complexidade da computação aumenta junto. Soma-se a isto, o tempo necessário para analisar, calcular, identificar, interpretar e fornecer qualquer saída relevante. É preciso lembrar que as máquinas não sabem “contar uma história” com dados, elas simplesmente fornecem a matéria-prima. Isto é automatizável, o que pode reduzir a necessidade de se ter um cientista de dados. O “contar” da história necessariamente precisa ser feito por um ser-humano, que muito provavelmente não será o cientista de dados, como vimos acima. 

Ser parte de um campo generalista facilita a difusão da ciência de dados e estimula que suas ferramentas e técnicas possam ser aplicadas a uma ampla variedade de problemas. De maneira diferente da ciência tradicional, que tende a se isolar em silos (ou caixinhas se preferir), a ciência de dados se fortalece sempre que alguém com especialização em um domínio seja capaz de trabalhar em outro. Mas, sendo uma matéria relativamente nova, ainda é difícil para muitos entenderem o que ela é, o que se pode fazer com ela e quais são suas limitações. Muitas vezes, em um ambiente corporativo, espera-se que você faça um trabalho que é mais adequado para outras disciplinas relacionadas, como por exemplo engenharia de software, análise de negócios ou DevOps. Por isso, a ciência de dados vem passando, ao meu ver, por um processo de aumento de especialização.  

Assim, voltamos à polêmica afirmação de que os cientistas de dados serão extintos em 10 anos (mais ou menos). Chegamos à conclusão de que, pelo menos, o nome do cargo será. O fato é que já hoje as tarefas ou funções de trabalho de um cientista de dados são bastante parecidas às realizadas por business intelligence (BI), embora existam algumas distinções aparentes. BI se destina a analisar dados específicos usando estratégias e tecnologias específicas para oferecer visões passadas, presentes e preditivas das operações diárias de uma empresa enquanto a ciência de dados usa programação e dados (estruturados, semi-estruturados e não-estruturados), com forte base em conceitos matemáticos, para realizar análises estatísticas e preditivas sofisticadas. Tome por exemplo a IA. Ela demanda que o cientista de dados se torne cada vez mais especialista. Em vez de cientistas de dados que possam fazer um pouco de tudo (e que acabam sendo confundidos com BI), empresas que investem em implementações baseadas em IA procuram especialistas que saibam rotulagem de dados, aprendizado de máquina ou computação paralela. No final, você não é mais cientista de dados e sim especialista em IA. Com isso, penso que o cientista de dados terá que necessariamente escolher um campo para mergulhar (p.ex. IA, realidade virtual, banco de dados).       

Por último (mas não menos importante), para aqueles que estão considerando uma carreira em ciência de dados ou começando seus estudos, deixo dois conselhos. O primeiro, é que pode ser útil consultar constantemente o diagrama de Venn (Figura 2), que mostra a relação lógica entre conjuntos e que muito provavelmente você encontrará ao iniciar seus primeiros passos. Apesar de existirem inúmeras variações dele, o diagrama busca descrever a ciência de dados como uma convergência entre matemática (principalmente estatística), programação e domínio de conhecimento. Como toda abstração, o diagrama de Venn da ciência de dados não captura as particularidades do mundo de carne-e-osso. Apesar de cada um dos seus elementos ocupar uma parte igual da área de interseção, dependendo do caso, alguns podem ter um peso maior do que outros. Por isso, entender muito bem os conceitos por trás de cada modelo e os dados aos quais ele será aplicado, é fundamental. 

Figura 2: Diagrama de Venn da ciência de dados. Fonte: Shelly Palmer [1].

O segundo, como é o caso com a maioria dos cientistas de dados, você pode estar tentando mudar para este campo vindo de algum outro. Neste caso, leve em consideração que levará algum tempo para se tornar proficiente o suficiente para ter um bom desempenho profissional. Portanto, dê-se tempo. Seja paciente, mas também persistente. E lembre-se de que o campo está repleto de pessoas que adoram interagir e compartilhar seus conhecimentos. Por isso, não seja tímido e participe de fóruns de Q&A, como stackoverflow ou de meetups. E quando alcançar uma proficiência, não deixe de ajudar quem está começando.  

[1] Palmer, Shelly. (2015). “Data Science Advisory”. Shelly Palmer. https://www.shellypalmer.com/data-science/.

[2] Mew, Mikhail. (2021). “Data Scientists Will Be Extinct in 10 Years”. Medium, https://towardsdatascience.com/data-scientists-will-be-extinct-in-10-years-a6e5dd77162b.

[3] Mermin, N. David. (2007). Quantum Computer Science: An Introduction. Cambridge University Press.

[4] Pednault, Edwin; Gunnels, John; Maslov, Dmitri; Gambetta, Jay. (2019). “On ‘Quantum Supremacy’”. IBM Research Blog, https://www.ibm.com/blogs/research/2019/10/on-quantum-supremacy/

2 comments
  1. Muito bom! Cheguei aqui buscando o termo que é o título do texto. Estou “namorando” de longe, ou melhor, flertando com o Data Science/Analytics há alguns anos mas ainda não tomei coragem de iniciar a fundo os estudos. Vamos ver se esse 2022 o negócio vai! Esse esquema do Swami é ao mesmo tempo lindo e me dá um cagaço do tipo: quantas décadas para aprender tudo isso?! Sabendo que quando aprender todo esse mapa, pelo tempo que vai levar, muita coisa já deve ter mudado! Blow my mind!

Deixe um comentário

Keep Up to Date with the Most Important News

By pressing the Subscribe button, you confirm that you have read and are agreeing to our Privacy Policy and Terms of Use