Mensurar qualquer fenômeno com precisão não é nada simples. Por mais que haja sempre estudos científicos sobre a melhor forma de se mensurar determinadas dimensões de atitude, comportamento, opinião etc., todos os métodos tem sua limitações e precisamos lidar com elas. Aliás, já falamos por aqui da diferença entre precisão e exatidão e como isso ajuda nossa compreensão sobre o trabalho com dados.
Outro aspecto que se impõe é a prática. Por mais que tenhamos boa compreensão teórica de determinados fenômenos e instrumentos potencialmente bem calibrados para mensurá-los, muitas vezes não temos os recursos para operacionalizar isso. E é aí que entra um grande aliado: as proxy metrics.
Proxy é um tipo de métrica que não mede exatamente o que se está estudando, mas faz aproximações suficientes para que o objeto seja de alguma forma mensurado. Por exemplo, a maneira ideal para se mensurar atenção provavelmente é a combinação de técnicas de mapeamento cerebral combinadas com mapas de calor produzidos por eye-trackers. E raramente é possível ter todo esse aparato à disposição para mensurar atenção. Porém, uma boa proxy para medir a atenção, por exemplo, em uma aula, é saber quanto a pessoa consegue repetir o que foi dito pelo professor.
Nesse exemplo, o instrumento não mede atenção diretamente, mas é uma aproximação que consegue dizer com boa segurança se e quanto a pessoa estava atenta à aula. Não é perfeito, mas é o possível. E como diz o filósofo e lógico inglês Carveth Read, em uma frase que adoramos por aqui:
It is better to be vaguely right than exactly wrong.
Um bom exemplo de um uso inteligente de proxy metrics, disponível a todos, é o Google. Mais especificamente, o Google Trends, ferramenta que nos dá possibilidade de entender o comportamento de busca das pessoas nos mais determinados temas, com quebras de tempo, região etc.
O que as pessoas buscam podem ser excelentes proxy para entender fenômenos bem cascudos. E quem fez isso com muita competência nos últimos anos foi o ex-data scientist do Google e atual colunista do New York Times, Seth Stephens-Davidowitz, que escreveu o livro “Everybody Lies” mostrando diferenças sensíveis entre pesquisas declaratórias e comportamentos de busca.
Em especial, ele se interessou por entender temas sensíveis nas últimas eleições americanas como racismo, descobrindo uma série de paralelos entre o tipo de coisa que as pessoas buscavam e o alinhamento eleitoral delas. Por exemplo, as regiões em que Donald Trump teve melhor performance tinham muito mais buscas por “n*** president” do que por “first black president”. E o olhar em retrospectiva mostrou como a “N-word” tem uma divisão de volumes de busca muito mais diferente nas costas leste e oeste do que nas regiões norte e sul. E isso também ajuda a explicar em partes a eleição de Trump.
Claro que esse é só um exemplo de um olhar criativo para proxy metrics, que não encerra praticamente nenhuma questão e não tem o poder de gerar grandes modelos de causalidade ou preditivos [até porque os dados são agregados, o que dificulta muito]. Mas é uma mostra de como buscar maneiras de criar aproximações lógicas podem nos levar a superar barreiras teóricas e operacionais de mensuração.
E, obviamente, um enorme disclaimer: se isso não for feito com parcimônia e muita lógica, pode levar a grosseiros erros. Voltando ao exemplo da mensuração de atenção na sala de aula, a performance de um aluno na prova seria uma péssima proxy de atenção [pelo menos de forma isolada]. Apesar de fazer algum sentido que a performance em uma prova dependa da atenção em sala de aula, isso depende de muitos outros fatores que tornam a métrica uma proxy insuficiente – para não dizer ruim mesmo.