Em 2018, foi publicado na revista Harvard Business Review um artigo cujo objetivo era ajudar o leitor a definir quais conteúdos, no campo da ciência de dados, priorizar [1]. O título, “Priorize quais habilidades de dados sua empresa precisa com esta matriz 2 × 2”, em tradução livre, já dá a dica do que esperar.
Basicamente, o texto apresenta uma tentativa de aplicar uma estrutura bem conhecida de estratégia de negócios às habilidades de dados, a matriz de custo-benefício. O autor usa a ferramenta, definindo o custo como o “tempo gasto para aprender” uma habilidade de dados e o benefício como sendo a “utilidade” dessa habilidade de dados para a organização. É sugerido no texto que essa é uma estrutura útil para determinar em quais habilidades de dados investir.
A princípio, matrizes são estruturas úteis para ajudar a priorizar algumas considerações-chave, embora muitas vezes seus eixos não sejam tão independentes quanto se pensa. No entanto, ao usar essa matriz para traçar habilidades de dados, o autor faz uma suposição, no mínimo, bastante ingênua. O texto presume que essas habilidades podem ser consideradas de maneira independente umas das outras. Isto torna o texto, na minha opinião, muito perigoso porque incentiva as pessoas a pensarem sobre ciência de dados de uma maneira que é impraticável e totalmente errada. O gráfico principal do artigo pode ser visto na Figura 1, abaixo:
A essa altura, você já deve ter percebido que não sou fã desse texto. A HBR é conhecida por seus artigos sobre estratégia de negócios, mas claramente não é uma boa fonte em conteúdo técnico, e este artigo certamente ilustra isso (para os interessados, sugiro as publicações da ACM, Association for Computing Machinery, para material ligado à computação e tecnologia).
Em que o artigo erra?
Bom, fica até difícil escolher por onde começar, mas farei um esforço. Vamos lá:
Primeiro, como comentei acima, essas habilidades não podem ser simplesmente discriminadas e consideradas de forma independente. Como você pode aprender programação estatística sem aprender estatística? Qual é a diferença entre “Data Science” e “Machine Learning” ou “Predictive Analytics” e várias outras habilidades listadas, como “Machine Learning” mesmo ou mineração de dados? Como, por exemplo, a “análise financeira – financial analysis” é diferente da “inteligência de negócios – business intelligence”? Imagine um(a) executivo(a) dizendo a seus cientistas de dados para se concentrarem na visualização de dados, mas não se preocuparem com a limpeza desses dados. Soa risível, não?
Segundo, o artigo dá a entender que as habilidades de dados podem ser vistas de forma pejorativa, com algumas habilidades sendo “fáceis” e outras “mais úteis”. A natureza pejorativa disso não é determinada apenas por declarações binárias como “não é útil” e “não consome tempo”. Acredito que a percepção passada é inerentemente problemática e qualquer gestor(a) que tenha essa visão a respeito de ciência de dados vai, basicamente, dar início a uma guerra de classes dentro da própria equipe.
O perigo mais óbvio que visualizo, é que alguém não tão preparado pode usar este artigo para definir a estratégia de dados da sua organização. Algo assim, feito de maneira precipitada, pode causar muita dor e angústia para muitos profissionais e fazer com que outros sintam que suas habilidades e experiência foram desconsideradas de maneira grosseira. A grande maioria das atividades de dados e suas análises requerem habilidade ou conhecimentos especializados e sugerir que algumas dessas habilidades são mais fáceis de aprender ou mais ou menos úteis do que outras é simplesmente errado.
Terceiro, apesar do artigo enfatizar que a priorização ilustrada na Figura 1 é apenas um exemplo, é preciso ter em mente que um exemplo só é útil se for crível, e este certamente não o é. Tente fazer ciência de dados sem uma boa limpeza e armazenamento de dados, ou sem conhecimento em matemática ou estatística. Não vai ser muito bom, posso garantir. Se as habilidades de visualização de dados “não são tão demoradas para adquirir”, como o exemplo dá a entender, por que então bons profissionais de visualização de dados são tão difíceis de encontrar? Por que a demanda por eles é tão alta [2]?
Alguém acha realmente que se pode concentrar inteiramente nas habilidades da caixa superior direita e não se preocupar com o restante?
Este artigo usa um exemplo ilustrativo incrivelmente maroto para tentar dar vida a uma estrutura que não funciona. Quando você tira toda a minha reclamação (e peço desculpas pela diatribe), o que resta é uma estrutura vazia que não pode ser aplicada às habilidades de ciência de dados porque elas são avançadas e entrelaçadas demais para serem discriminadas dessa maneira.
Para finalizar, deixo uma frase que me foi dita pelo Alejandro, um colega chileno que tive no IMPA. Quando estava tendo dificuldades com a disciplina que estava cursando, programação estocástica, ele me disse mais ou menos isso: “matemática se constrói do mais fácil para o mais difícil”. Não dá para pular para o mais complexo sem antes passar pelo simples. É tudo interligado.
Para quem quiser saber sobre quais conhecimentos são importantes para se fazer bem ciência de dados, deixo o mapa criado pelo Swami Chandrasekaran (Figura 2), que é um excelente profissional no campo da ciência de dados e IA e que tem me ajudado bastante ao longo dos anos.
Referências
[1] Littlewood, Chris. “Prioritize Which Data Skills Your Company Needs with This 2×2 Matrix”. Harvard Business Review, October 18, 2018. hbr.org, https://hbr.org/2018/10/prioritize-which-data-skills-your-company-needs-with-this-2×2-matrix.
[2] Verougstraete, Remie.“What Job Postings Tell Us About Demand for Data Viz”. Lightcast, https://lightcast.io/resources/blog/what-job-postings-tell-us-about-demand-for-data-viz. Accessed October 25, 2022.