PRECISAMOS DE MELHORES PERGUNTAS, NÃO MELHORES TÉCNICAS

Screen Shot 2019-05-09 at 07.01.35.png

Com os avanços da tecnologia e capacidade de processamento, vivemos em uma corrida pelos melhores modelos estatísticos, os melhores algorítmos, o machine learning mais preciso, a programação mais metida, o data visualization mais impressionante… e por aí vai. Se você buscar conteúdo de data science por aí, vai sair da sua busca cheio de termos aparentemente complicados [data lakes, warehouses, mining, cross-validation, overfit, bla, bla e bla] e todos absolutamente técnicos. Não a toa os líderes da disciplina acabam invariavelmente sendo estatísticos e, principalmente, pessoas de TI.

Na Sandbox abordamos isso de uma forma bastante diferente., tentando dar alguns passos atrás e se fazendo a pergunta que se fez nesse texto o professor Roger Peng, do departamento de Bioestatística da Universidade Johns Hopkins: qual o objetivo de se analisar tantos dados e com tanta tecnologia assim? Qual é o ponto disso tudo?

E ele faz isso inspirado no paper “The Future of Data Analysis”, um clássico do professor John Tukey, escrito em 1962, [quando ninguém usava esses termos metidos todos que eu citei] que traz exatamente essa discussão dos porquês e não dos “comos”. Talvez o trecho mais famoso do paper seja a frase:

“Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise.”

A discussão de Tukey é que os matemáticos, estatísticos [ou cientistas de dados como chamamos hoje] são obcecados pelas técnicas e a grande corrida é pela precisão dos modelos. Porém ele argumenta que mais do que precisão, é necessário buscar exatidão, ou seja, é muito mais importante entender exatamente o que se está tentando responder do que achar a maneira mais precisa de responder algo que não tenha relevância. Nessa figura, o professor Peng explica muito o que isso significa.

question_evidence.png

Gastamos muito pouco tempo tentando elaborar as perguntas certas e muito dele criando formas malucas de responder as erradas. Por isso, a ideia é que o trabalho de data analysis e data science de forma geral seja muito sobre explorar os dados por meio de perguntas, aproximando-se das respostas e gerando novas perguntas. A ideia de responder precisamente gera uma corrida técnica e tecnológica, mas a serviço da irrelevância muitas vezes.

Ficamos então com outra boa frase do professor Tukey, dessa vez em seu livro “Exploratory Data Analysis”:

“It is important to understand what you CAN DO before you learn to measure how WELL you seem to have DONE it”

Fica a dica aí para quem trabalha de alguma forma com Data Intelligence: primeiro melhores perguntas, depois melhores métodos.