No limite, epifania é aquilo que as pessoas esperam diante de um projeto de data science: um insight que vai explodir a cabeça de todo mundo, uma revelação maravilhosa, um novo mundo.
Mas na prática, o que muitas vezes acontece é algo muito parecido com a apofenia, um viés cognitivo proposto pelo psicólogo Klaus Conrad em 1959, que fala basicamente sobre como nós enxergamos padrões ou conexões em estímulos completamente aleatórios. Sabe quando as pessoas enxergam coelhos em nuvens ou o Elvis Presley em biscoitos? Pois é.
O problema é que isso acontece muito em análise de dados. Imagine um dataset enorme, cheio de casos e variáveis. Em toda sua riqueza e complexidade, alguma coisa precisa ser encontrada ali. E lá vamos nós encontrar, custe o que custar.
É sobre isso que fala em um dos seus textos a Chief Decision Scientist do Google Cassie Kozyrkov [já falamos dela aqui, explicando de forma super didática o que é Machine Learning], explorando por que isso acontece e quais as implicações práticas desse olhar enviesado para os dados.
A primeira coisa importante é que não é [necessariamente] por mal que a gente encontra padrões equivocados para os dados. Apofenia é realmente um viés cognitivo que “assola” a nós todos. Nossa mente tem tendência a encontrar padrões para as coisas e temos que lidar com isso. Em outras áreas da psicologia mesmo isso é usado para tentar decodificar a personalidades das pessoas, como no famoso teste de Rorschach, em que as pessoas tentam encontrar padrões em manchas de tinta e isso diz sobre a forma como elas enxergam o mundo de maneira geral.
O problema é que a análise de dados não é algo interpretativo a esse ponto. É de alguma forma uma busca por uma verdade mais definitiva, baseada em evidências, que pode nos assegurar um caminho de algo que realmente existe. Em outras palavras, a busca é por padrões de fato e não inventados pela nossa percepção.
Só que o “simples” fato de precisarmos encontrar padrões reais não faz com que nossa cabeça simplesmente haja de forma diferente como ela faz com as nuvens, os biscoitos ou as manchas de tinta.
E há pelos menos 4 fenômenos que nos fazem tornar o problema ainda maior:
1. A estatística
Estatística é uma técnica que em essência serve para encontrar relação entre os dados. Sejam elas de associação, de distinção, de agrupamento, de causalidade… as técnicas estatísticas encontram esses padrões entre variáveis, o que em grande medida serve para fazermos importantes descobertas ou criarmos modelos de repetição [machine learning mesmo no fundo é pura estatística].
O grande ponto é que a estatística é “fria” e pode encontrar relação entre literalmente qualquer coisa, como o número de afogamentos em uma piscina e os filmes do Nicholas Cage. Não há nenhum fundamento teórico para estabelecer qualquer relação entre as duas coisas. Mas estatisticamente é um fato. Não é verdade, mas é um fato estatístico.
2. A análise exploratória
Hoje em dia é bonito falar sobre análise exploratória, ainda mais no contexto de big data. Há um tempo, Chris Andersson decretou “o fim da teoria”. É a ideia de que temos tantos dados à disposição, que a análise exploratória deles vai fazer cada vez mais com que as conclusões sejam tiradas quase que por si só, contrariando o padrão científico de hipótese-teste.
E a gente não poderia concordar menos. Exatamente pelo ponto anterior. Encontrar padrões é da nossa natureza e o trabalho-base da estatística. Mas encontrar um padrão no meio de uma exploração não significa necessariamente encontrar a verdade. Podemos encontrar coisas interessantes, curiosas, que nos acendam a curiosidade para explorar mais e colocar aquilo à prova cientificamente. E esse sim é o valor de uma análise exploratória. Ela é o começo, não o final.
3. O Data Storytelling
Outra coisa que está na moda é falar sobre como constar histórias por meio de dados. Nós aqui amamos data Science e apoiamos incondicionalmente o storytelling. Mas quando se fala em contar histórias, existe uma linha MUITO tênue separando o tempo todo a realidade e a fantasia. Muitas vezes, no ímpeto de contar uma história fechadinha e sem buracos, esticamos a corda dos dados e/ou fazemos inferências de coisas que os dados não falam, que não é possível concluir ou justificar.
Apesar de andar sempre embasada em fatos, a ciência raramente é tão definitiva e não deixa espaço para a dúvida ou a falta de completude no entendimento. E tentar forçar a barra para isso é uma necessidade que nós temos de que as coisas façam total sentido. Storytelling não serve para nos dar essa sensação e sim para nos ajudar a compreender a conexão entre as coisas. Mas só aquelas que realmente existem. É para ser documentário, não ficção.
4. O viés de confirmação
Como se tudo isso já não fosse o bastante, ainda temos mais um viés cognitivo para nos atrapalhar: o viés cognitivo, que já falamos por aqui também. É a nossa tendência de não conseguir desapegar da primeira coisa que a gente compreendeu e ter uma dificuldade enorme para reprocessar na nossa cabeça uma conclusão diferente.
Por isso, nas análises exploratórias, os primeiros padrões que se encontram viram uma espécie de epifania, que dá essa sensação de que tudo faz sentido e dificilmente vamos fazer o chato trabalho de colocar à prova o rigor desse padrão, para ver se não é só uma relação espúria ou uma apofenia.
Bom, já deu para ver que tem coisa demais fazendo com que a gente olhe para o céu e veja de um tudo. A grande dica aqui é, primeiramente, ter consciência de que tudo isso acontece com qualquer análise de dados.
E, tendo essa consciência, criar mecanismos para combater essa tendência. Analisar com base em hipóteses teóricas, desconfiar da estatística, não esticar a corda para “fazer storytelling” e colocar a todo tempo suas conclusões à prova.
É difícil, mas é o que de fato é necessário para ser um bom analista de dados.