Mashmallow para o Brasil

Tem um experimento famoso em psicologia (e como muitos deles, acabaram não replicando) em que crianças são expostas a um mashmallow e o cientista diz que, se elas esperarem 15 minutos sem comer o mashmallow, ganham um segundo em seguida. Descobriu-se (sic) depois que havia uma correlação entre quem tinha capacidade de postergar o consumo para obter uma recompensa maior no futuro e desempenho escolar. O experimento não replicou, e a ironia da coisa é que, como aponta a matéria do Vox linkada, a sociedade queria uma solução fácil e rápida para os problemas educacionais e “ensinar paciência” pareceria ser essa solução mágica.

Lembrei desse experimento ao ler esse tuíte do Lobão:

A direita brasileira viu uma oportunidade de chegar ao poder (seu mashmallow) e não se fez de rogada em comer tudo e se lambuzar com ele o mais rápido possível. Agora estão tendo uma dor de barriga e começam a ficar arrependidos.

Em breve vão inventar alguma nova solução, rápida e fácil, que vai resolver nossos problemas. Como foi quando tiraram a Dilma. Sério, a elite brasileira precisa resistir aos mashmallows, para obter uma gratificação maior lá na frente. É construindo instituições melhores e tornando o jogo da democracia mais benéfico para os políticos que iremos avançar. Tem toneladas de estudos científicos apontado nessa direção.

Mas talvez seja nossa tradição antropofágica que nos leva a querer deglutir rápido a nós mesmos. Deus nos dibre.

Publicado em Política e Economia | 1 Comentário

Racismo estrutural como um DAG

O perfil no twitter do Brasil em Dados (grupo do qual faço parte) publicou um gráfico com a desigualdade na taxa de desemprego entre negros e brancos.

Um comentário sugeriu que a comparação não era válida, pois há outras diferenças entre brancos e negros que explicam esse gap, como por exemplo, escolaridade. De fato, como o próprio Brasil em Dados mostrou em postagem mais antiga, há diferenças no acesso à escola entre negros e brancos, por exemplo — ainda que venha caindo ao longo do tempo:

Mas isso significa que a comparação não é válida?

Para entender o que cada comparação mede, precisamos trazer aqui duas abordagens que normalmente não se conversam, a de racismo estrutural e causalidade com Directed Acyclic Graphs (DAG).

Racismo Estrutural

O Aspen Institute forneceu uma definição de racismo estrutural que é:

A system in which public policies, institutional practices, cultural representations, and other norms work in various, often reinforcing ways to perpetuate racial group inequity. It identifies dimensions of our history and culture that have allowed privileges associated with “whiteness” and disadvantages associated with “color” to endure and adapt over time. Structural racism is not something that a few people or institutions choose to practice. Instead it has been a feature of the social, economic and political systems in which we all exist.

Em resumo, o racismo estrutural é uma norma existente na sociedade de maneira generalizada que enquadra quem se desvia dela, no caso, favorecendo brancos e prejudicando negros.

DAGs

DAGs são uma forma simples de modelar relações causais entre variáveis. A vantagem, além de ser intuitivo, é que foi desenvolvido um cálculo de causalidade – do mesmo modo que existe cálculo proposicional na lógica, cálculo diferencial e integral na matemática – que permite computar se é possível (ou não) estimar o efeito causal de uma variável sobre outra, bem como derivar outras proposições testáveis sobre as relações estabelecidas.

Eu desenhei um modelo de como o racismo pode causar o diferencial de riqueza entre brancos e negros. O modelo é o da imagem abaixo:

DAG racismo v2

O que a imagem mostra é o seguinte. Cada bola é uma variável, e cada flecha mostra a direção da causalidade. Ausência de flecha implica que não há causalidade entre aquelas variáveis. ,

Nós estamos interessados em estimar o efeito causal da discriminação racial de jovens (variável amarela) sobre a diferença de riqueza (wealth gap, com “I” na bola). A parte de baixo do gráfico tem as relações causais dos jovens, e a parte de cima dos pais e como isso impacta nos filhos (os jovens). Comecándo pela parte de cima do gráfico, sabemos que a discriminação racial faz mulheres negras terem um pré-natal pior que mulheres brancas. Logo, uma flecha dessa variávei para qualidade da gestação. A gestação afeta como será a primeira infância, que por sua vez é influenciada pela renda, escolaridade e riqueza dos pais. A primeira infância influencia o QI das crianças e suas habilidades não cognitivas. Estas, por sua vez, influenciam a escolaridade, que conjuntamente com QI e habilidades não-cognitivas vão influenciar empregabilidade, salário e acumulação de riqueza. Além disso, riqueza dos pais também influencia riqueza dos filhos, já que existe herança, além de outras ajudas que os mais ricos conseguem dar aos filhos.

Chegando na parte de baixo do DAG, vemos que a discriminação racial sobre os filhos afeta já a primeira infância (por exemplo, reduzindo auto-estima), que afeta as demais variáveis (como por exemplo habilidades não-cognitivas de controlar impulsos e não ser violento). Além disso, a discriminação ocorre durante toda a vida, na escola (afetando escolaridade), na hora de conseguir um emprego ou não ser demitido, de receber promoção ou aumento de salário e para conseguir empréstimo para comprar casa, tendo efeito em todas as variáveis e contribuindo para o wealth gap. No modelo acima, nem coloquei esse efeito direto sobre riqueza ou desemprego, porque já tinha flecha demais. Mas não ia mudar qualitativamente o resultado.

Nesse modelo, uma regressão do diferencial de riqueza (wealth gap) sobre discriminação racial tem o efeito causal identificado, sem controlar por nenhum variável. Nesse caso, mede-se o efeito total (isto é, o efeito direto + o efeito indireto, via variáveis mediadores). Se eu “controlar” pela educação, por exemplo, o efeito total não é mais identificável. Para eu estimar o efeito direto (que no modelo acima é zero, pois não há flecha da discriminação racial para wealth gap), tenho que controlar para desemprego, habilidades não-cognitivas, riqueza dos pais, educação e renda.

Quando, portanto, as pessoas dizem que é preciso controlar para educação, QI etc., de forma a medir o efeito do racismo, elas na verdade estão tornando impossível medir o efeito total do racismo sobre a diferença de riqueza, e tornando possível medir apenas o efeito direto.

Obviamente, isto vale para a questão de gênero (as melhores estimativas do efeito direto do machismo sobre diferencial de salário nos EUA, por exemplo, é de 7%. Mas o efeito total é muito maior, pelas razões acima). Então, quando se fala de racismo estrutural, as pessoas têm em mente um modelo como o DAG acima. Na verdade, elas têm em mente um DAG mais complexo ainda, com mais variáveis. Por exemplo, temos a questão do racismo no sistema de justiça, na chance de uma mulher negra casar, na falta de exemplos de liderança nos espaços em que convivem, etc. Então o DAG é bem mais complexo que isso. Cada uma dessas variáveis isoladamente pode ter um efeito causal pequeno, mas é o conjunto delas que torna um efeito total grande, e que torna completamente diferente o racismo de um bullying, e também porque dizemos que não há racismo reverso. O racismo não é apenas o ato direto, mas o ato direto reforçando toda uma cadeia de causalidade gigantesca indo na mesma direção.

Assim, lá onde se aparente sofisticação ao demandar que a comparação seja feita controlando para diversas variáveis, de modo a identificar corretamente o tamanho do racismo, temos na verdade é falta de sofisticação. A comparação simples, que parece menos sofisticada, é na verdade mais sofisticada, pois está captando o efeito total do racismo, e não o efeito localizado. E, como se pode perceber e é o que diz quase todo o movimento negro quando fala de racismo estrutural, é o efeito total que é grande. É por isso, por exemplo, que cotas raciais também são importantes e porque quando se fala de brancos pobres se está ignorando o racismo estrutural.

DAGs

Publicado em Política e Economia | Deixe um comentário

Python em máquina virtual (com Linux)

Aproveitei que estava doente e descansei configurando meu computador para rodar python em uma máquina virtual com linux. Aqui vai uma breve documentação de como fazer isso.

  1. Máquina virtual

Eu escolhi instalar o virtual box no meu windows 10 para rodar minha máquina virtual. É simples e fácil de instalar. Eu não precisei configurar teclado, mouse ou acesso à internet. Foi tudo automático. Para  baixar, basta acessar o site da Oracle e baixar o arquivo correspondente ao seu SO. Depois, eu segui o passo-a-passo do site da TechTudo, que explica tudo direitinho sobre como configurar o linux. No meu caso, eu escolhi minha máquina virtual com 2gb de ram e 10gb de HD. Se você tiver mais espaço do que eu tenho (meu notebook é ssd com 128gb de espaço apenas), recomendo deixar 20gb. Depois que instalei tudo do python fiquei com pouco mais de 2gb livres, o que acho relativamente pouco.

Um detalhe da configuração da VM que tive um pouco de dificuldade foi que precisei baixar o Ubuntu em formato .iso para utilizar a opção de disco virtual. Mas depois que entendi isso foi tranquilo.

2. Python

Para instalar o Python, depois de muito pesquisar, perguntar e perambular por aí, resolvi utilizar a distribuição Anaconda. A vantagem da Anaconda é que muita coisa já vem instalada e facilitada, particularmente a instalação de pacotes. Eu escolhi a instalação miniconda, que é menor e mais rápida. A documentação que eu utilizei foi essa aqui. Basta seguir os passos deles para instalar a distribuição. Mas basicamente você baixa o instalador pelo navegador da máquina virtual e aí basta rodar:

bash Anaconda3-4.4.0-Linux-x86_64.sh

Quando eu rodei, o comando não funcionou, pois tem toda aquela história de apontar para o caminho certo etc. Então, se isso acontecer com você, basta apontar seu diretório no terminal para onde você fez o download e aí rodar o comando acima. Os comandos ls e cd são úteis para mudar diretório no terminal do linux. Ls lista as pastas existentes e cd pasta1 vai para o diretório seguinte. E cd .. (com o espaço) para voltar.

Eu recomendo fazer o test drive do conda depois de instalá-lo, se você não tem familiaridade com essa distribuição.

Por fim, resta saber que IDE utilizar com o python. Eu decidi pela spyder, pois é voltado para análise de dados, parecida com o Rstudio (que já estou acostumado) e é fácil de instalar com a distribuição Conda. Eu demorei um tempão para descobrir que dava para instalar o Spyder com o Conda e fiquei tentando instalar do modo tradicional (com pip install) e não estava dando certo. Então, com o Conda, basta rodar:

conda install spyder

E é isso. Depois basta digitar spyder no terminal e ele vai abrir a IDE. Qualquer dúvida, só mandar nos comentários, que eu tento ajudar.

Publicado em estatística, programação | Marcado com , , , , , , , , , | Deixe um comentário

Sobre ditadura do proletariado em Marx

Apenas para referência futura, esse trecho de texto do Ruy Fausto.

No leninismo, temos uma cristalização da ideia de “ditadura do proletariado”, que, em Marx e Engels, era um momento (quase equivalente, como assinalou Draper, da “ditatura” em sentido romano), um vanguardismo que é estranho à concepção “massista” de revolução, que encontramos em geral em Marx, e um à vontade nos métodos que ultrapassa de longe o “distanciamento” em relação à moral (que não vai, apesar de tudo, sem certas exigências e escrúpulos, implícitos ou explícitos) no pensamento de Marx e de Engels.

E esse outro trecho, de outro texto:

Politicamente, a ênfase no automovimento do proletariado, e na revolução das maiorias, apesar das opiniões correntes, fazem do Manifesto [Comunista, MG] um texto que, em primeira instância, é dificilmente compatível com a leitura da política marxista que farão alguns no século XX: Creio que a política do Manifesto – que não fala em “ditadura do proletariado”, só em “dominação” (Herrschaft) do proletariado, mas não é isso o essencial – é em primeira instância incompatível com o vanguardismo bolchevique. Do Manifesto é difícil tirar a idéia de partido único. Entretanto, como veremos a partir de uma outra vertente, ele pode dar armas a um projeto antidemocrático (nos limites desse texto, diria que são os direitos da “minoria” não-revolucionária – não necessariamente contra-revolucionaria – que ficam vulneráveis. Mas a partir dessa brecha, tudo se torna possível, mesmo a autodeterminação do proletariado acaba sendo ameaçada).

Publicado em Manoel Galdino, Política e Economia | Marcado com , , , , , , | Deixe um comentário

[Projeto] Inteligência Artificial para anonimização de dados

A Transparência Brasil lançou um site, o Achados e Pedidos, que serve como um repositório de pedidos de acesso à informação e suas respostas. Um dos desafios desse projeto, contudo, é o fato de que muitos pedidos e respostas não estão anonimizados. Ou seja, informações pessoais como nome, CPF etc. aparecem em muitos pedidos e respostas. Quando é o próprio usuário que coloca suas informações pessoais no site, não é um problema. Porém, parte dos arquivos disponibilizados foram obtidos em parceria com órgãos governamentais, que por falta de tecnologia e infra-estrutura disponibilizaram para nós arquivos não-anonimizados.

Nosso desafio é, portanto, anonimizar os dados. Como porém são centenas de milhares de pedidos, é virtualmente impossível fazer a anonimização manualmente. Resta como solução utilizar algoritmos de inteligência artificial para fazer esse trabalho. O objetivo desse post é anunciar que irei documentar, numa série de posts futuros, nossa tentativa de enfrentar essa questão e achar uma solução.

O desafio, da forma como estamos estruturando, consiste em duas partes. Em primeiro lugar, desenvolver ou achar um algoritmo que anonimize de forma eficiente informações pessoais. Em segundo lugar, ser capaz de utilizar esse algoritmo em produção, de forma integrada ao site. Ou seja, não basta a gente conseguir, digamos, classificar no R uma palavra de um texto como informação pessoal. Eu gostaria que fôssemos capazes de integrar a solução encontrada ao site, de forma que uma vez que um pedido novo fosse carregado, o pedido fosse automaticamente anonimizado, antes de ficar disponível para o público. Ou pelo menos, que houvesse uma opção do usuário escolher se quer que aquele pedido fosse anonimizado ou não.

Uma dificuldade que teremos nessa empreitada é que ninguém na Transparência Brasil tem a mínima experiência com algo do tipo. Assim, esse post serve também como um pedido de ajuda a quem quiser fazer uma trabalho voluntário desafiador, mas com potencial impacto muito grande. Apenas a título de exemplo de impacto possível, alguns entes governamentais mostraram-se interessados em utilizar quaisquer tecnologias que desenvolvêssemos que os ajudassem a anonimizar dados, uma vez que esse é um problema que o próprio estado brasileiro enfrenta e não tem solução para isso.

Para os interessados em ajudar, eis o caminho que estamos pensando em seguir: nossa ideia para resolver a primeira parte do desafio é utilizar aprendizagem supervisionada com modelos de redes neurais recorrentes, que já foram empregados na literatura na anonimização de registros médicos de pacientes em língua inglesa. A segunda parte do desafio envolve ser capaz de lidar com inputs não estruturados. Isto é, uma coisa são os inputs estruturados que iremos utilizar para treinar o algoritmo. Outra coisa são os pedidos de acesso à informação e suas respostas, que podem vir em qualquer formato. Por exemplo, alguém pode ter feito um pedido de um mapa, e a resposta ser uma imagem em png. Nossa solução deverá saber que esse tipo de arquivo não é anonimizável e descartá-lo (para o processo de anonimização), ao invés de emitir uma mensagem de erro qualquer.

Se você tem algum background que possa ser útil, tempo e interesse em ajudar, pode mandar um e-mail para mim em mgaldino arroba transparencia ponto org ponto br.

Publicado em estatística | Marcado com , , , , , , , | Deixe um comentário

Não, provavelmente o Trump não sabe mais sobre você do que você mesmo

Há algumas semanas, começou a circular na internet o texto, em inglês, de título “The data that turned the world upside down” ou “Trump Knows You Better Than You Know Yourself”, traduzido do original em alemão, que explicaria como Donald Trump teria ganhado a eleição. Nesta última semana, surgiu uma tradução para o português, com o título “Big Data: toda democracia será manipulada?”.

A tese central do texto pode ser resumida da seguinte forma: Do Brexit a Ted Cruz e terminando no Trump, uma empresa inglesa, Cambridge Analytica, explicaria os resultados improváveis pelo uso de Big Data. Ela seria capaz de acessar os likes das pessoas no Facebook, cruzar com outras bases de dados sobre todos os eleitores dos países (EUA e Reino Unido) e daí concluir qual tipo de mensagem (propaganda) funciona melhor com cada pessoa individualmente.

O texto beira a teoria da conspiração o tempo todo, sugerindo que cientistas de dados “do mal” foram os responsáveis pela eleição do Trump. Até mesmo uma derrota (a do Ted Cruz) é creditada como mérito para esses cientistas de dados, que trabalharam em sua campanha mas não conseguiram superar o fenômeno Trump. Um caso realmente incrível de marketing. O texto, porém, apresenta vários “red flags” que devem nos fazer suspeitar dessa teoria de que o Big Data explica a vitória de Donald Trump. Meu objetivo é, portanto, mostrar quais são essas “red flags” e permitir que o leigo possa avaliar melhor quão crível é essa tese.

1. Em primeiro lugar, o texto é o típico exemplo de mau-jornalismo, em que procura a todo momento confirmar uma tese, mas não ouve especialistas que poderiam discordar do argumento central ou oferecer um outro lado. Em suma, viés de confirmação.

2. O texto fala do Ted Cruz como um caso de sucesso da Cambridge Analytica. Mas é um caso tão furado, cheio de “cherry picking” (ou, na versão do Ricupero, “o que é bom a gente fatura, o que é ruim a gente esconde”), que me espanta que as pessoas comprem um fracasso como sucesso. Como bem notou Martin Robbins, “This would be the campaign where Ted Cruz was wiped out in a few short weeks by a reality TV demagogue with no data science operation, and subjected to months’ long national humiliation (grifos meus).” E lembrando que a operação de analytics de Trump supostamente se resumia, até então, a um website que teria custado US$ 1.500,00.

3. O texto sugere que a Cambridge Analytica teria acesso aos likes de todos os americanos. Mas isso é improvável, pois como os próprios autores notam, o Facebook fechou o acesso aos likes dos usuários. Afinal, é um dado muito importante e o monopólio dele faz parte do modelo de negócio do Facebook. Com exceções de aplicativos e páginas, é bem restrita a capacidade de terceiros cruzar likes do Facebook com outros dados como registro eleitoral e dados sócio-demográficos.

Um dos fatores que explicam a crise do jornalismo é a capacidade do Facebook (e só o Facebook, além do Google) ser eficaz no micro-targeting de propaganda. Nem o NYT ou Washington Post são capazes de cruzar likes com dados de leituras dos jornais deles, para aumentar a eficácia da propaganda on-line nos portais de notícias. Ou seja, tudo indica que essa história é furada. Furo aparentemente confirmado pela própria Cambridge Analtytica, que teria negado usar dados do Facebook.

4. Os autores gastam muita tinta para falar do uso do Big Five para prever o que cada um gosta e esse teria sido o “pulo do gato” a explicar o maior sucesso da Cambridge Analytica em relação à campanha de Clinton. Como o tema aqui é complexo, vou me estender um poco mais sobre ele.
Para entender os limites do Big Five, pode ajudar entender um pouco da história do Big Five(i). Entre os anos 50 e 70, psicólogos coletaram todas as palavras da língua inglesa que descreveriam as personalidades das pessoas, viram quais eram sinônimas ou não, e tentaram a partir daí agrupar esses traços de personalidades em grupos e subgrupos. Catell, um dos pioneiros dessa linha, chegou a listar 171 descrições de comportamento. Exemplos de traços descritos liguisticamente seriam: nervoso, energético, original, letárgico, cuidadoso, tolerante à ambiguidade, dedicado etc. O que ele acreditava é que algumas descrições de traços estavam correlacionadas. Quem fosse nervoso provavelmente seria também descrito como preocupado, apreensivo, temeroso ansioso e assim por diante.

Embora os resultados tenham sido inconsistentes inicialmente, essa linha de pesquisa acabou convergindo em 5 grandes traços de personalidade, que agrupariam as palavras dos dicionários. Assim, o fator “extroversão” descreve traços de personalidade como caloroso, desinibido, “dado” e animado, por exemplo.

Tecnicamente falando, para encontrar esses padrões se utiliza algo chamado Análise de Componentes Principais (ACP), que é algo que foi desenvolvido na estatística ainda no fim do séc. XIX e começo do séc. XX. Ou seja, é uma técnica básica e bem antiga. E ao aplicar a técnica de ACP nos dados, o que obtemos são 5 componentes principais, que são os tais grupos de correlação. A técnica de PCA é feita para encontrar o máximo de correlação possível por grupo a partir dos dados, independentemente se esses grupos causam a correlação ou não. Daí o nome Big Five. Esse resultado é “replicado” entre países e no tempo, o que sugere estabilidade dos resultados. As cinco dimensões ou traços seriam: neuroticismo ou instabilidade emocional (ingl. neuroticism); extroversão (extraversion); amabilidade (agreeableness); escrupulosidade (conscientiousness); abertura para a experiência (openness to experience).

Contudo, como alertam pesquisadores em livro sobre o Big Five[1],
it is not a theory of personality; it does not explain how traits function in daily life, or how individuals understand themselves, or how people adapt to the cultures in which they find themselves (p. 277).

Isso significa que da classificação de um indivíduo nos cinco traços de personalidade para se saber que tipo de mensagem funciona ou não, há um pulo gigantesco que a psicologia ainda não foi capaz de dar. Por ser uma “teoria” essencialmente indutiva, ela não é muito útil em sugerir caminhos ou hipóteses a serem testadas por quem quer fazer uma comunicação mais assertiva. A partir dela, múltiplos caminhos igualmente plausíveis surgem, de forma que ela não exerce o papel de outros construtos teóricos mais robustos, de diminuir o espaço de hipóteses plausíveis e servir como um ”edge” na busca de hipóteses mais prováveis de serem verdadeiras. Assim, não é difícil imginar que do “fato” de que fulano é aberto à experiência, isso não me ajude a definir quais cores usar nos meus anúncios, nem quanto de texto, vídeo e imagem, ou ainda se é melhor falar de mudança para o novo (Trump) ou se por ser aberto à experiência (e ter experiência em testar coisas novas) ele sabe avaliar melhor quando coisas novas parecem promissoras ou não. Nem é possível saber como situações pessoais (feliz no casamento/infeliz no casamento) podem interagir com seus traços de personalidade para sugerir caminhos mais eficazes de comunicação. A psicologia não tem a mais remota ideia de como ajudar nisso e é altamente improvável que o time do Trump tenha resolvido essas questões altamente complexas do dia para a noite.

Além disso, e como peça final de incredulidade, para se estimar os traços de personalidades é em geral necessário que as pessoas respondam a um questionário de mais de 50 perguntas. E como os likes (que supostamente permitiriam estimar os traços de personalidade sem esse questionáro) não parecem estar amplamente disponíveis, é improvável que eles tenham essa estimativa para 200 milhões de adultos americanos. Novamente, a conta não fecha.

5. O total desconhecimento dos autores sobre as técnicas de analytics utilizadas pela campanha de Clinton é outro ponto relevante. Se lermos as reportagens similarmente laudatórias sobre o time de analytics do Obama, veremos que eles já faziam quase todas essas coisas que a campanha do Trump diz ter feito (exceto a parte do Big Five, e talvez dos likes, o que está obscuro). Assim, é improvável que, quatro anos depois, o partido democrata tenha regredido em termos de estado da arte do marketing digital.

6. Supostamente, a campanha de Trump teria rodado 175 mil experimentos em um dia. O número tem toda a cara de ter sido “made up”. Apenas a título de comparação, o Google realizava 10 mil experimentos na sua ferramenta de busca (melhoria na busca ou na parte de propaganda) por ano por volta de 2011(ii). Em se tratando de internet, 5 anos é bastante tempo, mas mesmo que o Google tenha aumentado em 10x o número de experimentos no ano, ainda seria seria quase 50% do que a campanha de Trump teria realizado no dia do terceiro debate entre ele e Hillary (“On the day of the third presidential debate between Trump and Clinton, Trump’s team tested 175,000 different ad variations for his arguments, in order to find the right versions above all via Facebook”)(iii) .

A coisa toda fica ainda mais inacreditável se atentarmos para o tanto de trabalho manual requerido para a realização de um simples experimento.
No meu trabalho anterior, uma das minhas atividades era planejar e avaliar esses experimentos. Um experimento típico, de forma superficial, envove as seguintes atividades: 1. Determinar a hipótese que se quer testar (digamos, fundo verde leva a 5% mais cliques que fundo amarelo); passar para o time de design fazer as variações do experimento; determinar o tamanho amostral e o período de duração do teste (usualmente é preciso esperar pelo menos uma semana, para evitar efeitos de sazonalidade dos dias da semana. Vejam esse artigo de pesquisadores da Microsoft sobre esses e outros desafios); realizar o experimento e analisá-lo.

É possível automatizar a análise com alguns softwares (e as grandes empresas o fazem), de forma que esse passo é de todos o menos relevante. Contudo, fica óbvio que há um limite para o que se pode testar em um único ano. Esse limite é dado pelo número de usuários potencialmente testáveis (você não pode fazer vários experimentos diferentes em seguida com o mesmo usuário, sob pena do teste anterior contaminar o resultado do novo experimento), o tempo mínimo de duração do experimento, e a equipe de design que tem de desenhar o anúncio de cada variação. Considerando que o universo era de aproximadamente 200 milhões de eleitores americanos, e lembrando que eles não gastariam dinheiro com quem não é democrata nem em estados totalmente azuis, como NY) talvez teríamos um universo potencial de 50 milhões, o que dá uma amostra de 285 pessoas por experimento, supondo que conseguem atingir todos os 50 milhões igualmente e quando quiserem (o que é obviamente falso). E o tamanho da equipe de design teria de ser gigantesco. Não é à toa que o Google rodava “apenas” 10 mil experimentos em um ano, e em todo o mundo. A conta simplesmente não fecha.

7. Sobre microtargeting. Um temor que dá uma credibilidade inicial para o texto são as histórias que ouvimos sobre a capacidade do Big Data fazer coisas altamente personalizadas. No dizeres do texto, Cambridge Analytica conseguiria “address villages or apartment blocks in a targeted way. Even individuals”. Entretanto, nem o Google ou o Facebook, as empresas de mídia com mais dados sobre os indivíduos no mundo, disponibilizam aos seus clientes esse nível de personalização de propaganda. Quer dizer então que eles têm mais conhecimento e eficácia que o Google e Facebook, e todo o mercado está perdendo tempo com anúncios relativamente ineficazes no Google e Facebook? Não faz nenhum sentido.

8. Por fim, vale lembrar que, de acordo com o noticiado pelos principais meios de comunicação americanos, mesmo a equipe de Trump se surpreendeu com os resultados. Não é que eles tivessem dados e/ou modelos superiores e que permitissem a eles antever o resultado da eleição e ela tenha ocorrido como esperado. O que é mais uma evidência de que essa história da Cambridge Analytica é “conversa para boi dormir”.

Mas se é assim, algum leitor poderá argumentar, como um texto com tantas fraquezas saiu de uma publicação relativamente obscura em língua alemã (Das Magazine), apareceu em inglês, e ganhou tanta tração entre muita gente inteligente e chegou agora a uma tradução para o português? Minha explicação é que ele junta “a fome com a vontade de comer”, por assim dizer. De um lado, é preciso explicar como um candidato tão obviamente inadequado para o cargo de presidente da maior potência do mundo conseguiu ser eleito na suposta democracia mais robusta do mundo. De outro, o texto oferece uma explicação que apela a um temor do desconhecido que aparece no Big Data e os poderes dos marqueteiros, diante de tanta notícia que vemos todos os dias sobre as maravilhas do Big Data e da inteligência artificial/ciência de dados. Com a vantagem de preservar a robustez da democracia americana – afinal, os eleitores só teriam elegido Trump porque foram manipulados.

Diante dessas evidências e considerações, podemos afirmar categoricamente que é tudo mentira ou que pelo menos a maior parte do que foi sugerido pelo texto é falso? Claro que não, porque não temos nenhum tipo de inside information sobre como funcionou a operação do Trump. Mas creio que deu para fornecer suficiente contexto para ser bastante cético dos argumentos e teses apresentadas, sobre como o Big Data teria corrompido o que seria de outro modo uma vitória tranquila de Clinton. Como diz o Andrew Gelman, estatística é comparação, e comparar é colocar as coisas em contexto. Acho que temos elementos para comparar os argumentos do texto com nossa informação a priori e perceber que é altamente improvável que o cerne do artigo seja verdadeiro.

[1] Tellegen, Auke, and Niels G. Waller. “The SAGE handbook of personality theory and assessment.” (2008): 261-292.
i) Os autores aparentemente não sabem que há uma distinção conceital entre o chamado Big Five e o Five Factor Model (ainda que na prática sejam similares), o que torna mais difícil entender o que eles estao falando. Mas como a Cambridge Analytica menciona ela mesma o big Five, concentraremo-nos nele.
ii) Para efeito de comparação, em Fevereiro de 20015, o Google anunciou que em cinco anos tinha atingido um mil experimentos com o Chrome.
iii) Mesmo que o problema seja a redação, e na verdade os autores queiram dizer que até o tercceiro debate, eles já haviam rodado 175 mil experimentos, isso daria três a quatro meses apenas, ainda assim um número absurdo.

Publicado em Política e Economia | 3 Comentários

QI está correlacionado com sucesso na vida?

Quem conhece a literatura sobre fatores que afetam o sucesso na vida, sabe que inteligência, medida por testes de QI, é um destes fatores (supostamente). Para vocês, recomendo que leiam este paper. O abstract:

Intelligence tests are widely assumed to measure maximal intellectual performance, and predictive associations between intelligence quotient (IQ) scores and later-life outcomes are typically interpreted as unbiased estimates of the effect of intellectual ability on academic, professional, and social life outcomes. The current investigation critically examines these assumptions and finds evidence against both. First, we examined whether motivation is less than maximal on intelligence tests administered in the context of low-stakes research situations. Specifically, we completed a meta-analysis of random-assignment experiments testing the effects of material incentives on intelligence-test performance on a collective 2,008 participants. Incentives increased IQ scores by an average of 0.64 SD, with larger effects for individuals with lower baseline IQ scores. Second, we tested whether individual differences in motivation during IQ testing can spuriously inflate the predictive validity of intelligence for life outcomes. Trained observers rated test motivation among 251 adolescent boys completing intelligence tests using a 15-min “thin-slice” video sample. IQ score predicted life outcomes, including academic performance in adolescence and criminal convictions, employment, and years of education in early adulthood. After adjusting for the influence of test motivation, however, the predictive validity of intelligence for life outcomes was significantly diminished, particularly for nonacademic outcomes. Collectively, our findings suggest that, under low-stakes research conditions, some individuals try harder than others, and, in this context, test motivation can act as a third-variable confound that inflates estimates of the predictive validity of intelligence for life outcomes.

 

Publicado em ciência, estatística, Política e Economia | Marcado com , , , | Deixe um comentário

Livros de 2016 (e 2015…)

Se eu fosse bom em escrever, ia conseguir resumir em poucas linhas os livros que li em 2016 (e 2015, porque minha memória é ruim e tem livro que devo ter lido em 2015 e acho que foi 2016). Como não sou, falo dos livros mal-ajambradamente mesmo.

  1. Between the World and Me, do Ta–Nehisi Coates. Quase certeza que li esse livro em 2015 ainda. Livro fantástico, e que teve um impacto profundo na minha forma de ver o mundo.
  2. Nexus (outro que pode ter sido de 2015). Livro de ficção científica. É um mundo em que dá para fazer upload de conhecimentos no cérebro, por meio de uma mistura de drogas e programas de computador. Divertido e que coloca algumas questões interessantes, mas nada muito profundo.
  3. Superforecasting, the art and science of prediction, do Tetlock. Livro bem fraco. Dava para resumir em umas 30 páginas. Nessas 30 páginas teriam coisas bem úteis, o resto não acrescenta muito. Se você não conhece nada do trabalho dele, dá para tirar um pouco mais de coisa do livro e pode valer ler a metade dele. O final, em que ele fica falando de liderança, é pura bullshetagem para vender na seção de business.
  4. Misbehaving: the making of behavioral economics, do Richard Thaller. Livro muito bom. Conta a história intelectual do Thaller e, por extensão, da criação do campo da ciência comportamental (behavioral economics + na psicologia, direito etc.), os embates no interior da academia… Aprendi muito com o livro, mesmo já tendo lido o livro do Kahneman e outros trabalhos na área. Não chega a ser um manual, mas creio que serviria como auxílio para um curso.
  5. On Bullshit, do Harry Frankfurt. Descobri esse livro pequeno após uma referência a ele num artigo sobre o Trump. Esperava um pouco mais do livro, mas é útil a distinção entre quem se engaja em bulhestagem e o mentiroso. Ainda mais que pós-verdade foi escolhida palavra do ano pelo dicionário Oxford. Eu não li o que eles escreveram sobre pós-verdade, mas parece-me que, mais do  que dizer que o Trump é um mentiroso, ele de fato é cheio da bullshetagem.
  6. Tempos vividos, sonhados e perdidos, do Tostão. O livro mostra a visão do Tostão sobre o futebol, misturado com a vida do próprio Tostão, numa espécie de curto livro de memórias. Tem várias passagens deliciosas, mas o livro não tem uma fluidez tão boa. Às vezes parece uma coletânea de artigos de jornais.
  7. Without You, There is no Us, de Suki Kim. É um livro que conta o tempo que a autora passou na Coreia do Norte, ensinando inglês numa Universidade de lá. Instrutivo sobre como é a Coréia do Norte. Tem umas passagens emocionantes sobre como foi a separação da Coréia do Norte e do Sul, já que a autora é sul-coerana e a família dela viveu na pele o drama da separação (o avô estava em viagem de negócios no que seria Coréia do Norte e nunca pode voltar pro Sul, por exemplo). Mas é meio repetitivo e no geral a leitura não flui tanto. E as partes sobre a vida dela são… desinteressantes. Parei um pouco depois da metade.
Publicado em Política e Economia | Marcado com , , , , | Deixe um comentário

Black Mirror está próximo, e é pior do que você imagina.

Essa reportagem conta como um algoritmo conseguiu distinguir com praticamente 90% de acurácia criminosos de não-criminosos, com base apenas na foto das faces das pessoas.

É importante, porém, especialmente para quem não tem o conhecimento técnico, entender o que o algoritmo faz e o que ele não faz.

O que ele faz:
1. Dadas fotos de pessoas na China (uma amostra apenas com homens), ele parece ser capaz de acertar com 90% de acurácia se a pessoa já foi condenada por um crime ou não.

O que ele não faz:
1. Ele não mostra que existe uma relação causal entre características da face e tendência a cometer crime. Mesmo que o algoritmo distinguisse com 100% de acurácia criminosos de não-criminosos, ainda assim ele não demonstraria que pessoas com determinada face têm a face de criminosos ,e outros de não-criminosos. E isso porque a amostra é resultado do processo humano de produzir criminosos e não-criminosos. Se a justiça for viesada e nós seres humanos (ainda que sem perceber) condenarmos mais pessoas com determinado tipo de face, então essa variável (Determinado tipo de face) vai ser um preditor de se a pessoa é um criminoso condenado, mas não necessariamente se ele de fato tem maior propensão a cometer crime. Ele vai refletir apenas nosso sistema judicial viesado, ainda que o viés não seja conscientemente aplicado.

2. Ele não identifica os mecanismos que fazem alguém cometer crime. Ou seja, isso não quer dizer que pessoas com determinado tipo de face porque têm essa face têm maior tendência a cometer crimes.

3. As características identificadas não são marcadores confiáveis de criminalidade. Como o estudo usa redes neurais, não é tão simples entender o que são as variáveis preditoras. Embora eles façam um estudo interpretativo das variáveis (e digam que, por exemplo, a curvatura do lábio superior etc. é preditivo), nós sabemos que algoritmos de reconhecimento de imagem com redes neurais são sensíveis a modificações pequenas em alguns pixels imperceptíveis ao olho humano. Então o que parece ser a curvatura do lábio superior, pode ser alguma outra coisa, de forma que seres humanos não deveriam usar tais características (medindo analogicamente) e esperar o mesmo grau de acurácia. Aliás, isso pode ser verificado justamente fazendo medições analógicas e utilizando métodos estatísticos mais simples que redes neurais como regressão, para ver que há essa sensibilidade. Pelo que vi do paper, eles não fizeram isso. Eu aposto (e espero!) que se eles fizessem, em uma nova amostra, os resultados seriam desapontadores.

Então, minhas conclusão é:
1. O paper mostra que é possível (mas não certo) que com mais dados e estudos se consiga construir um algoritmo que prevê com grande acurácia quem a nossa sociedade julga como criminoso.

2. Ele não mostra nada sobre pessoas com determinado tipos de faces serem mais propensas a cometerem crimes, nem que seja possível identificar tipos criminoso apenas pelo rosto. E felizmente, não estamos perto de isso acontecer.

3. É extremamente preocupante, porque dada nossa sociedade racista etc. etc., pode vir a ser usada para colocar na cadeia quem a própria sociedade já usa como alvo. É preciso ficar de olho. E a história da tecnologia mostra como o racismo estrutural impactou o desenho da tecnologia para prejudicar ou não funcionar tão bem para algumas minorias (veja por exemplo a história das máquinas fotográficas, cuja revelação de foto foi otimizada para brancos, prejudicando a qualidade das fotos dos negros). Em suma, não existem dados neutros nem tecnologia neutra.

Publicado em ciência, estatística, Política e Economia | Marcado com , , , , , , , | Deixe um comentário

Comparando editoriais do Estadão sobre Trânsito/multas em SP antes e depois da eleição

Guest Post por Caio Carbone (texto originalmente publicado no facebook do Caio, e que ele gentilmente aceitou republicar aqui no blog). Para quem quiser ler mais textos do Caio, recomendo o blog dele.

Hoje [04/11] o Estadão traz o seguinte editorial: “Maior Rigor no Trânsito”. Apesar de tratar de uma medida aprovada pela gestão Haddad, vale comparar com editoriais pré-eleição para identificar algo meio estranho.

Começa o texto de hoje, que trata da elevação de multas para o uso do celular, dirigir embriagado e outras coisas mais: “O aumento das multas de trânsito (…) é uma medida importante para tentar reduzir o altíssimo número de acidentes com vítimas”. Ao longo do texto há diversas afirmações no mesmo sentido, como “o rigor no combate às infrações justifica-se plenamente, em vista do elevado número de acidentes de trânsito nas ruas e estradas do País”, citando inclusive dados de mortes no trânsito e estudos relacionando o ilícito a riscos concretos de acidente. Diz também que “o fenômeno é universal e (…) vem sendo combatida com muito rigor em todo o mundo. A nova lei apenas adapta o Brasil a essa nova realidade”. Há só um alerta no final do texto (duas frases no último parágrafo) sobre o cuidado para que a ação não seja culminada numa “indústria”, por meio de ações educacionais. Quem ótimo texto!

Mas como o assunto foi tratado há alguns poucos meses? Para começar, vale notar que até muito recentemente não havia muita reverberação de informações como a redução dos limites de velocidade em diversos países (sob recomendação da ONU) e estudos sobre a letalidade de acidentes acima de 40km/h (o Estadão publicou recentemente um vídeo muito informativo sobre o assunto, mas infelizmente só depois das eleições). Mas sejamos mais específicos. Em 17/08/2016, por exemplo, o título de outro editorial do jornal já era claro (“muita multa, pouca educação”), e a única menção ao mérito da política de redução de velocidade era a seguinte frase: “o limite estabelecido para praticamente todas as demais vias [fora as marginais] é razoável e segue padrões internacionais”. O restante consistia em críticas às multas. Vamos a mais algumas diferenças entre esse editorial e o publicado hoje, ponto a ponto:

Antes: “Se a Prefeitura tivesse (…) preparando os motoristas para se adaptarem às novas regras, certamente não seria tão elevado o número dos multados”

Agora: “os motoristas tiveram tempo suficiente para se preparar para essa nova realidade, porque o projeto nesse sentido aprovado pelo Congresso, e amplamente divulgado, foi sancionado há seis meses”
____

Antes: “O Departamento de Operações do Sistema Viário (DSV) vem atrasando o envio ao Detran de solicitações de quem conduzia o veículo, quando multado – se o proprietário ou alguém mais. (…) O problema é grave porque, em decorrência da multiplicação das multas, aumentou muito também o número de CNHs suspensas – 14 mil, em média, por mês”

Agora: “O aumento do tempo de suspensão do direito de dirigir, quando o motorista atinge 20 pontos na Carteira Nacional de Habilitação por causa de infrações cometidas, é mais uma medida que pode levar os motoristas a serem cuidadosos. O prazo de suspensão passa de um para seis meses”
____

Antes (esse de um editorial de 10/mar/2016, “mais radares e multas”): “A multa, por si só, não educa. E a melhor prova disso é o seu próprio aumento constante e acelerado. Se elas sozinhas educassem, teriam de estar diminuindo.”

Agora: “Para o especialista em trânsito Paulo Bacaltchuck, a multa certamente vai ajudar, ‘porque o bolso é o que mais pesa na tomada de decisão do motorista’”.
____

Aí o editorial de hoje diz “mas para melhorar esse quadro desolador é preciso mais do que apenas elevar o valor das multas (…) A isso é indispensável acrescentar a melhoria da fiscalização”. E eu pergunto: vai fiscalizar com educação ou agora o radar e os agentes da CET de repente viraram bons instrumentos auxiliares?

Note que não estou dizendo que os textos são necessariamente contraditórios – apesar de serem algumas vezes. Apenas chamo atenção que a escolha da pauta e de como abordar o assunto define a ideia que se quer passar (escrevi um post sobre isso no meu blog, chamado “pauta já é discussão”). E para mim o objetivo, há alguns meses, não era informar o cidadão.

 

Publicado em Política e Economia | Deixe um comentário