¿Qué es el dragado de datos y por qué hace tanto daño a la investigación científica?
Xakata Ciencia
El p-hacking o dragado de datos, es aquello que ocurre cuando los investigadores recopilan o seleccionan datos o análisis estadísticos hasta que los resultados no significativos se vuelven significativos.
El p-hacking se refiere a una práctica en la que los investigadores seleccionan el análisis que produce un resultado satisfactorio.
La p se refiere al valor p, una entidad estadística que es esencialmente una medida de cuán sorprendentes serían los resultados de un estudio si el efecto que está buscando no estuviera allí. P sería la probabilidad de que un hallazgo o hipótesis sea el resultado de la casualidad.
Los primeros en detectar esta manipulación fueron los psicólogos Uri Simonsohn, Joseph Simmons y Leif Nelson que definieron el concepto de “p-hacking”, demostrando que seleccionando los datos a considerar y adaptando el tamaño de las muestras era posible alterar el valor “p” de una hipótesis.
Cuando se prueban suficientes hipótesis, es prácticamente seguro que algunas serán consideradas estadísticamente significativas (aunque esto sea engañoso). Ya que es probable que casi todos los conjuntos de datos con algún grado de aleatoriedad contengan (por ejemplo) algunas correlaciones falsas .
Si no son cautelosos, los investigadores que utilizan técnicas de minería de datos pueden ser fácilmente engañados por estos resultados.
Vía Xatakaciencia