Volta e meia recebo perguntas questionando como é trabalhar com IA. Acho que para muitos pode parecer algo bem misterioso, mas a verdade é que boa parte do tempo é gasto trabalhando dados, uma vez que eles são o “alimento” das máquinas “inteligentes”. Basicamente é identificar partes incompletas, incorretas, imprecisas ou irrelevantes dos dados e, em seguida, substituir, modificar ou excluir dados considerados sujos ou grosseiros. É um troço trabalhoso e maçante. Mas tem também a parte legal. Uma das coisas que mais acho interessante é construir modelos que ajudem a “surfar as incertezas” (tirei a frase do título de um livro que gosto muito).
“Surfar as incertezas” é geralmente alcançada por meio de modelos preditivos. Em IA, eles tentam imitar o processo preditivo natural do ser humano, que é ajudado pelos nossos sentidos. Por exemplo, se você vir a silhueta de um elefante encoberto pela névoa ao longe e estiver em São Paulo, provavelmente vai rotular a probabilidade daquilo ser real como muito baixa (o que muda um pouco, se você estiver em uma savana africana). Ao contrário, se você estiver em um zoológico em um dia claro e parar em frente a um elefante, a visão será rotulada com uma probabilidade muito alta de ser real. Depende do contexto e da informação disponível. Uma máquina não possui nossos 5 sentidos para usar a informação disponível no entendimento do contexto, ela precisa fazer isto de forma matemática. Para tal, usa a lei da probabilidade que governa a força da evidência. Minha intenção aqui é explicar de maneira intuitiva como esse tipo de coisa é feita. Pode ser que alguém se interesse e veja que não é um bicho de 7 cabeças.
O embasamento teórico usado para modelos preditivos é o Teorema de Bayes. Trocando em miúdos, é a regra que diz o quanto revisar nossas probabilidades (mudar de ideia) quando descobrimos um fato novo ou observamos uma nova evidência. A equação do teorema é a seguinte:
onde A e B são os eventos em questão e a probabilidade de B, escrita como P(B), é diferente de zero. A barra ( | ) representa uma probabilidade condicionada, ou seja, a probabilidade de acontecer A quando já se sabe que aconteceu B, ou P(A|B) – se pronuncia a probabilidade de A dado B.
A primeira vista pode parecer que Bayes é importante apenas para quem trabalha com estatística (ou IA, como é o meu caso). Mas a verdade é que o que Bayes propõe é basicamente o que todos nós fazemos no dia-a-dia para tentar prever algo. No dia-a-dia, raramente processamos os números de forma explícita [1] (tem uma versão em português do livro aqui), por isso mais importante do que a equação, é o insight que Bayes teve de se aproximar gradualmente da “realidade” por meio da atualização constante do peso da evidência (é o que nos faz olhar para o céu para decidir se levamos ou não o guarda-chuva ao sair de casa). Esse insight é comumente chamado de raciocínio bayesiano e mostra como revisar nossas crenças à luz das evidências. A ideia é que a gente veja isso de maneira bem básica, por meio dos chamados diagramas de frequência. Começaremos considerando um cenário em que a força das evidências têm números claros (não se preocupe se não souber como resolver o problema a seguir, veremos isto juntos).
Imagine que você seja um enfermeiro ou uma enfermeira que precisa fazer a triagem de um grupo de alunos que podem estar com uma doença chamada Apartamentite. Você já sabe (por conta de experiências passadas) que por volta de 20% dos estudantes pegam Apartamentite nessa época do ano. Você está testando os alunos usando um abaixador de língua que muda de cor (fica preto) se a pessoa tiver a doença. A taxa de acerto do teste é de 90% entre os pacientes com Apartamentite, isto significa que 90% dos abaixadores ficam preto ao entrar em contato com alguém com a doença. No entanto, o abaixador de língua não é perfeito e também fica preto 30% das vezes para pessoas saudáveis.
Um dos alunos entra no ambulatório, faz o teste e o abaixador de língua fica preto. Qual é a probabilidade dele ter a doença?
Quer tentar fazer o cálculo antes de continuar? A resposta está lá nesta primeira nota de rodapé1.
Vamos ver como resolver usando o diagrama de frequência. Para facilitar, imagine uma população de 100 estudantes, dos quais 20 têm Apartamentite e 80 estão saudáveis.
Sabemos que 90% dos estudantes doentes e 30% dos estudantes saudáveis deixam o abaixador de língua preto. A computação feita é a seguinte: para o caso de estudantes doentes temos 0,9 X 20 = 18 e para o caso de estudantes saudáveis temos 0,3 X 80 = 24, como na imagem abaixo.
Para saber a probabilidade do aluno que fez o teste no ambulatório realmente ter Apartamentite, imagine um saco com todos os estudantes (doentes e saudáveis) que deixaram o abaixador de lingua preto. Temos um total de 42 deles (18 + 24). Se você colocar a mão dentro do saco e puxar um deles, a chance dele estar realmente doente é o quociente (resultado de uma divisão) entre o número de estudantes doentes com resultado positivo e o número total. Ou seja, 18/42 = 3/7 = 0,42857 = aproximadamente 43%.
Muitos podem achar o resultado não intuitivo, afinal o teste do abaixador de língua detecta a doença 90% das vezes. Como pode o resultado do teste dar positivo e ainda assim poder estar mais de 50% errado? Bom, é aí que entra Bayes. O teste pode também detectar incorretamente a doença em 30% dos pacientes saudáveis. Com esta evidência, você acha os tais 90% lá muito confiáveis? De qualquer forma, o teste eleva a probabilidade do paciente estar doente de 20% (número de doentes que se acredita ter na população) para 43%. Já é alguma coisa. Não é à toa que um médico pede para fazermos uma bateria de exames diferentes para dar um diagnóstico mais concreto.
Se você acha que pegou o insight de Bayes, que tal desenvolver um pouco mais o seu raciocínio bayesiano? Qual é a probabilidade de um estudante que não deixou o abaixador de língua preto ter Apartamentite? Uma dica, comece novamente com a proporção 20% doentes e 80% saudáveis. Com isto, temos que 70% dos alunos saudáveis e 10% dos alunos doentes recebem um resultado negativo. A resposta está na segunda nota de rodapé2.
[1] Tetlock, P. E., & Gardner, D. (2015). Superforecasting: The art and science of prediction. Crown Publishers/Random House.
1 A probabilidade é de 3/7, o que dá mais ou menos 43%.
2 Primeiro compute a proporção 20/80. Alunos doentes que recebem resultado negativo são 0,1 X 20 = 2. Alunos saudáveis que recebem resultado negativo são 0,7 X 80 = 56. Total de alunos com resultado negativo são 2 + 56 = 58. Divida o número de doentes com resultado negativo pelo número total: 2/58 = 1/29 = 0,03448 = aproximadamente 3,45%.
Legal! A estatística tem várias aplicações. Há um projeto que também usa probabilidade para tentar medir a qualidade de comentários na internet. http://www.vin3.org