quinta-feira, 15 de maio de 2014

Econometria sem Economia: o problema do p-value


Dando continuidade ao alerta do Mauro sobre os problemas da Econometria sem Economia...

Você encontra um paper que apresenta uma regressão de Y em X mostrando que o p-valor é 1%. Baseado nisso, o autor conclui que X é significante. Aparentemente, a chance de ele estar enganado é de apenas 1% (erro tipo 1). Aceita-se que X afeta Y. O resultado é intrigante e o paper é publicado.

Cuidado. A probabilidade do erro tipo 1 pode ser muito maior do que isso!

Imaginem que a metodologia que o autor utilizou para produzir esse paper se baseou no seguinte algoritmo:

-> 1: ele vai à internet e baixa uma variável X ao acaso;
-> 2: ele regride Y contra a variável X obtida em 1;
-> 3: se o p-value for maior do que 1%, ele volta a 1; se o p-value for 1% ou menos, o algoritmo termina  e ele submete o paper.

Você acha que nesse caso a probabilidade do erro tipo 1 da variável publicada é de fato 1%? Obviamente não. É muito maior.

Quando X vem de alguma teoria, isso diminui em muito a chance de processos como o algoritmo acima serem utilizados.

12 comentários:

  1. Sobre mau uso dos p-valores, eu recomendo a dissertação do Carlos "Análise Real" Cinelli:
    http://repositorio.unb.br/handle/10482/11230

    ResponderExcluir
  2. Bruno,
    Pelo jeito está precisando enfatizar mais a relação entre Econometria e Teoria Econômica na graduação! Molecada decorando estimador mas sem entender o que fazer com eles é grave né!

    ResponderExcluir
  3. Mas aí o problema está em que a amostragem feita não foi aleatória, certo?

    ResponderExcluir
    Respostas
    1. Não, o problema é que o pesquisador vai rodando regressões até achar um X que da certo. Imagine só: fique gerando Xizes aleatórios no computador que não têm nada a ver com Y. Uma hora, com certeza, o p-valor de algum deles vai dar menor do que 1%, simplesmente por acaso (ruído amostral). Coisas análogas a isso acontecem muito.

      OK, raramente o mesmo pesquisador vai ficar fazendo isso. Mas o mesmo argumento vale para vários pesquisadores na mesmo área de pesquisa. Todos tentando explicar algum Y empiricamente. Uma hora vem algum com alguma regressão significante... é significante mesmo?

      Excluir
  4. Leo, valeu pela referência!

    Bruno, só uma correção quanto ao:"aparentemente, a chance de ele estar enganado é de apenas 1% (erro tipo 1)".

    Na verdade isso seria uma probabilidade a posteriori, pois o erro tipo 1 não é a probabilidade de o pesquisador estar enganado. O erro tipo 1 é a probabilidade se rejeitar a hipótese nula supondo que ela seja verdadeira. Para saber a probabilidade de o pesquisador estar engando precisaríamos saber a probabilidade a priori da hipótese nula ser verdadeira também.

    Abs

    ResponderExcluir
    Respostas
    1. **A probabilidade de erro tipo 1 é a probabilidade de se rejeitar a hipótese nula supondo que ela seja verdadeira.

      Excluir
  5. Vira Bayesiano que resolve esse problema de stopping rule ;)

    ResponderExcluir
  6. Acho que o Krugman quer ser Professor Emérito da Unicamp... acabou de criar a inferência com uma observação no grupo de tratamento!!!

    http://krugman.blogs.nytimes.com/2014/05/16/faith-based-freaks/?module=BlogPost-Title&version=Blog%20Main&contentCollection=Opinion&action=Click&pgtype=Blogs&region=Body

    ResponderExcluir
  7. Bruno, e se a existência de teoria for interpretada pelos pesquisadores como uma restrição adicional para que o artigo seja publicado: uma restrição de sinal do coeficiente?
    Imagine um mundo de pesquisadores problemáticos como os que você descreveu ("buscadores de significância"), e onde não haja teoria. O problema com as publicações deste campo será um excesso de artigos com p-value baixo, mas ao menos não haverá nenhum bias quanto à direção dos resultados (coeficientes positivos ou negativos).
    Agora imagine o mesmo mundo problemático, cheio de pesquisadores buscadores de significância, e adicione a ele uma teoria dizendo que um determinado coeficiente beta deve ser positivo. Os pesquisadores não vão apenas buscar um p-value baixo, mas sim um p-value baixo e um beta positivo. Então haverá um viés na direção dos coeficientes dos artigos aceitos para publicação, o que parece um problema bem mais grave que o anterior.


    (sou fã de teoria, acho que ela resolve outros problemas - mas esse aí não...)

    ResponderExcluir