Depois de uma tentativa frustrada pela manhã, cheguei com uma hora e meia de antecedência e consegui um lugar na já imensa fila da reprise da palestra do pessoal do Netflix, chamada Design like a Scientist: A/B Testing UX at Netflix.
Navin Iyengar é design de produtos na empresa e liderou as principais transformações no site e nos apps para iPad e iPhone do Netflix. Como ele mesmo disse, o design é levado muito a sério por lá, já que a experiência do usuário é fator chave de sucesso. Por trás de todo esse processo, no entanto, estão os Testes AB. Eles simplesmente realizam experiências no mundo real antes de tomar qualquer decisão de design e de funções. Existem muitos trabalhos em pesquisa quanti, quali, análise de data trends, mas no contexto do design o mais forte é realmente o de testes AB. E ele foi bem didático ao apresentar o passo a passo do que realizam por lá.
São 3 os níveis de ideias que podem ser testadas. E ai a criatividade é input. São elas: ideias com potencial, ideias loucas e ideias estúpidas. Todas são testadas e podem se transformar em novidades que ajudem a alcançar novos desafios do negócio. Com os testes, a especulação sai de cena, e o que fica são opções reais e baseadas em dados.
A base de tudo é uma metodologia que é, na verdade, uma simplificação do método científico. Os testes AB, segundo ele, nada mais são do que uma avaliação analítica baseada na realidade das pessoas para descobrir a relação causa e efeito. Na prática, começa com uma hipótese clara do que será testado. É hora de entender as possibilidades. E é tão simples como pensar em: colocar um botão vermelho no rodapé da página aumentará a conversão na home, ou aumentar o título em 3 pontos vai aumentar o acesso aos vídeos em destaque na página y.
Depois vem as derivações. A ideia inicial é a ideia de controle. Mas você pode ter outros pontos de avaliação. Nessa parte, a forma como eles fazem me chamou a atenção. Foi o que ele deu o título de: faça design para os extremos. Lá, eles trabalham com o público ativo, que é o que gosta de realizar as coisas sozinho, e o público passivo, que quer facilidade ao extremo. E com o diferente e o uniforme, que resultou em 4 quadrantes. É, segundo ele, a melhor forma de se desenhar as possibilidades para o teste.
Em seguida, é hora de quantificar o resultado desejado, de criar o fator de sucesso. São as metas que determinarão se algo vira mudança ou não. E aí é essencial ser o mais específico possível. Aumentar a conversão em quanto? Aumentar o acesso ao vídeo destaque em quanto?
Depois é rodar o teste é terá um vencedor. Ou então a constatação de que aquele não é o caminho.
Ao longo da conversa, Iyengar foi mostrando as transformações no site do Netflix, que não vou entrar em detalhes aqui. Mas foi muito interessante ver um pouco das telas e funções testadas. E de como o que vemos hoje ao acessar a plataforma foi todo escolhido de foma tão analítica.
Iyengar alertou que, para a seleção do público, é essencial que ele seja grande o suficiente para ter validade estatística e que represente, em termos de persona, a composição geral dos usuários. Nas perguntas, ao ser questionado sobre como lidar com usuário antigos x usuários novos, ele deu outra dica legal. Segundo ele, os antigos já possuem um padrão de comportamento de uso bem definido e vão estranhar com o diferente. É importante que eles tenham contato com as novidades depois que elas são definitivas. Já os novatos, vão experimentar de uma forma mais aberta, mesmo sem saber que são experiências, e aí tudo fica mais fácil.
No caso do Netflix, eles só realizam testes globais, não se preocupando com nichos dentro desse público geral. É só o que vale para todo mundo, comentou. Como acabei ficando no Salon E do JW Marriot para ver o painel seguinte, sobre o mesmo assunto, foi interessante constatar as diferenças de abordagem. No papo A/B Testing Secrets Revealed: Uber, Etsy & Intuit, Alkash Parikh, Head of Experimentation da Uber, contou que por lá realizam muitos microtestes, principalmente para promoções e coisas ligadas à objetivos de conversão, incluindo ai coisas ligadas a um bairro específico ou a uma cidade específica. Aliás, para ele, o próximo passo dos testes AB é o de definir formas mais efetivas de personalização.
O executivo da Uber também colocou pontos interessantes em termos do que pode dar errado ao realizar um teste AB. Tem muito trabalho sendo feito sem fundamentação e sem habilidades profundas de estatística. Tem gente manipulando hipóteses para confirmar o que já pensa. Mas nada disso chega perto do que ele chamou de influência cruzada. Segundo Parikh, é preciso se atentar para os outros fatores que podem influenciar no resultado. Se você não se atenta e não considera que a função foi testada em um dia de chuva ou durante a realização de um mega show, por exemplo, pode acabar achando que uma métrica como o aumento de passageiros foi resultado do seu teste. E ai, vai errar na certa.
[signoff]