jueves, 3 de septiembre de 2015

Psicología, replicabilidad y ciencia

 Hace apenas una semana se ha dado a conocer el artículo "Estimating the reproducibility of psychological science". Se trata del informe final de un ambicioso proyecto que ha llevado a cabo la réplica de un centenar de experimentos psicológicos que se habían publicado en tres de las más prestigiosas revistas de su campo en años pasados. La sorpresa y la polémica no han tardado en desatarse cuando se ha conocido que más del 60% de los experimentos "fracasaban", en el sentido de que no conseguían reproducir los resultados del experimento original. Siendo la reproducibilidad cacareada como una característica esencial del Método Científico, enseguida surgieron recelos y comentarios sobre la robustez y rigor de las investigaciones psicológicas. En efecto, ¿de qué vale un resultado experimental si no se puede volver a obtener por procedimientos análogos?

Un antecedente de este trabajo, que data de 2012, es " Replications in Psychology Research: 
How Often Do They Really Occur?", que ya adelanta la preocupación sobre la increíble falta de reproducibilidad de ciertos experimentos psicológicos. Como consecuencia, algunos psicólogos se han girado para mirar a sus primos mayores, las ciencias naturales, para entender cómo la replicabilidad juega un papel decisivo en el Método Científico y, por tanto, en la generación de un conocimiento que podamos llamar "científico".

Si bien la replicabilidad es una preocupación de peso en la práctica de la psicología experimental, pronto han salido al paso voces autoritarias y de prestigio que han calmado los ánimos y se han dado a (tratar de) explicar porque esto no representa ningún aspecto negativo sobre el estado de forma de la psicología.

Un pensamiento sugerido en el acto por estos resultados es que, si la reproducibilidad falla, es porque de hecho los resultados a reproducir no eran muy sólidos. En otras palabras: hay cantidad de resultados por ahí publicados que son, sin eufemismos, falsos. Es interesante un trabajo de John Ioannidis de hace ya diez años que lleva el nada tímido título de "Why most published research findings are false" (desde el punto de vista de alguien dedicado a la física o a la química, este enunciado puede ser absurdo; pero Ioannidis se dedica a temas de salud más próximos a las Ciencias Sociales).



El propio Ioannidis, sin embargo, da una nota optimista a este nuevo proyecto de replicabilidad a gran escala al comentar que espera que estos resultados sirvan para impulsar la cultura de la replicación en psicología. Él parece consciente de que la no replicabilidad es un problema grave y aspira, por consiguiente, a que la situación cambie.

Enfrentados a esta situación, caben varias preguntas: ¿Es dicha situación realmente un problema para la psicología, o no? ¿Tal problema es intrínseco a la práctica de la psicología, o se puede remediar?  ¿Por qué la psicología ha adquirido estos defectos? ¿Qué se puede hacer para que la psicología sea una "mejor ciencia"?  Por supuesto, si no se responde afirmativamente a la primera pregunta, las demás carecen de sentido.

Mi visión sobre el asunto es que sí hay una crisis en la psicología. Más concretamente, hay una crisis en su metodología, que presenta una profunda disfuncionalidad que me fuerza a no poder llamar ciencia a la psicología (a la psicología como disciplina, en conjunto; por supuesto, dentro de la psicología hay trabajos científicos).  Para entender el porqué de esta postura, hay que entender en qué consiste el Método Científico y en qué consiste la actividad científica. De manera esquemática, el Método Científico consiste en lo siguiente: 
1º Se plantea un problema, derivado de ciertas observaciones, experimentos o conflictos entre modelos anteriores,
 2º Se crean ciertas hipótesis que, en el marco del paradigma coetáneo, resuelven el problema en cuestión, 
3º Se derivan predicciones contrastables de las hipótesis formuladas
4º Descartamos aquellas hipótesis cuyas predicciones fracasan. Si una hipótesis sobrevive a muchas pruebas y es una buena herramienta explicativa y predictiva, acabamos incorporando esa hipótesis a nuestro paradigma (aunque siempre sujeta a revisión)

La primera crítica que un científico social puede hacer a este esquema es que no cuadra con las metodologías típicamente usadas para experimentos sociales, psicológicos o médicos. Sin embargo, esencialmente debería seguirse la misma lógica, a pesar de que la ausencia de un espíritu falsacionista pueda hacer que la prensa transmita la sensación de que los científicos se dedican a "corroborar hipótesis" y darlas así por sentado. La predictibilidad, en este caso, debería consistir en la apuesta por la regularidad: regularidad con respecto a lo observado en pruebas anteriores.

Otro aspecto esencial del Método, en realidad implícito en lo ya dicho, es la replicabilidad. No replicar unos resultados anteriores quiere decir que o bien falla la posibilidad de testar una hipótesis o bien la hipótesis está siendo refutada. En cualquier caso, no estamos procediendo de manera científica. Una tercera posibilidad es, por supuesto, que no estemos concediendo un rol crucial a las hipótesis, sino que simplemente hacemos informes relatando las observaciones asociadas a cierta experiencia. Sin embargo, este tercer caso lo que indicaría es que no se desea siquiera tratar de reproducir el experimento y sus resultados, en cuyo caso la hipótesis lógica sería la apuesta por la regularidad y la reproducción positiva de los resultados. Si éste es el caso, entonces, en mi opinión, estamos tan alejados de la ciencia como un libro de Jiménez del Oso.

Por todo lo anterior, tengo que concluir que la psicología, en conjunto, no es una actividad completamente científica, si bien se encuentran en ella estudios muy valiosos e interesantes. No obstante, no sería muy difícil "cientificar" ciertas prácticas psicológicas que se llevan a cabo de forma deplorable. En este punto, no puedo sino acordarme de la "Cargo Cult Science", un brillantísimo escrito de Richard Feynmann en que son nos cuenta cómo un científico diseñó una cuidadosa serie de experimentos sobre psicología conductista con ratas y cómo se le ignoró totalmente en su campo porque no había descubierto nada sobre las ratas. Básicamente, como dice Feynmann, "había descubierto todas las cosas que se deben hacer para poder descubrir algo". La crítica de Feynmann a las ciencias sociales, de una lucidez y una sencillez espectaculares, sigue poderosamente vigente, y ciertamente la lectura de sus pensamientos fácilmente puede recordar al pretendido espíritu científico de ciertas actividades. Feynmann pone de manifiesto la cantidad de errores, suposiciones negligentes y procederes sesgados que inundan un sencillo experimento con ratas. Su mentalidad aguda de científico puro estaba entrenada para captar rápidamente fallas en un mecanismo supuestamente destinado a generar conocimiento. Sin duda, se puede aprender mucho de la lectura de sus ideas sobre los errores de los procederes habituales de distintas ciencias sociales.

Dicho esto, querría aclarar que no estoy criticando a la psicología por no ser una ciencia. Hay muchas cosas maravillosas en la vida que no son ciencia. La pintura no es ciencia, ni lo es el deporte, y no por ello las sitúo en alguna suerte de escalón moral inferior ¿Cuál es mi problema entonces con la psicología?  Mi problema es, en breve, que tantos psicólogos tengan la pretensión de que su trabajo sea científico cuando lo que hacen es, de hecho, muy poco científico.
"El sueño de la razón produce monstruos", nos dice un cuadro de Goya. Pues bien, mucho peor es mandar a dormir a la razón mientras se cree que se está actuando de la manera más racional. En esta situación, el Cthulhu de los ensayos puede surgir. Metáforas aparte, el creer que se tiene un resultado científico cuando el proceder no ha seguido el Método correspondiente es un caldo de cultivo para dogmas, malentendidos y falsedades que no hacen más que dañar los intentos reales por generar conocimiento.


Me gustaría señalar que tampoco estoy abocando aquí mi deseo de que toda la actividad psicológica se convierta en una empresa científica. Hay aspectos de la psicología que son pretendidamente no científicos, y eso es bueno.  De hecho, los primeros psicólogos fueron siempre filósofos, y en ese sentido la psicología tiene un componente de filosofía enriquecedor al que no hay que renunciar. De manera similar, yo acostumbro a decir, medio serio y medio en broma, que Dostoievski hizo uno de los trabajos más finos de la historia en psicología al crear a Raskolnikoff. Evidentemente no creo que "Crimen y Castigo" sea algo científico, pero no me parece disparatado decir que se trata de una obra con importantes toques de piscología. En otra línea, hay subdisciplinas de la psicología, como el psicoanálisis, que pueden ser muy interesantes mientras no les entre la compulsión febril de convertirse en una ciencia. Si el psicoanálisis está asociado en la cultura popular al "complejo de pene", para mí estará asociado por siempre al "complejo de ciencia", pues no hay disciplina que se haya degradado tanto por obsesionarse con convertirse en algo que no es.

Insisto en esto porque creo fundamental dejar claro que no considero como algo negativo ni que algo no sea ciencia, ni que la psicología tenga partes no científicas. Pero considero algo profundamente perjudicial que se tenga la pretensión de hacer ciencia sin conocer a fondo el Método requerido para realmente generar un conocimiento fiable sobre algo. Éste es, por supuesto, el caso de los experimentos que fracasan a la hora de ser replicados. No porque sus resultados no se repliquen, no; sino porque el espíritu de sus autores es que esas replicaciones no son un punto fundamental de sus investigaciones. Si así es, ¿cómo podemos aspirar a que esos estudios nos revelen alguna información no trivial? Si la reproducibilidad es superflua, no existe lugar para ninguna clase de hipótesis o "apuestas". Si no hay hipótesis, no hay predictibilidad ni falsacionismo, lo que es como decir que no hay un procedimiento fiable para generar y contrastar conocimiento. El hecho de que se justifique esta no-replicabilidad y se mantenga la naturaleza científica de los estudios en cuestión, huele al tufo de justificaciones ah hoc propio de una religión como el cristianismo (y, me gustaría añadir aquí, también del marxismo, ¡pero por favor, no quiero entrar en esa discusión!).

Para contribuir al espíritu científico de este tipo de trabajos, considero crucial sustituir de manera crucial las inferencias verbosas por un tratamiento estadístico de los datos completamente profesional y minucioso. Creo que el hacer de la psicología una ciencia plena (mejor dicho, de aquellas subdisciplinas de la psicología que aspiren a ello) pasa por profesionalizar el uso de la estadística entre los estudiantes de psicología. Por supuesto, uno encuentra a menudo cantidad de estudios de psicología completamente profesionales en este sentido. Sin embargo, lo contrario también abunda, y me indigna ver como los programas universitarios de psicología en España (no sé, por ahora, de otros países, aunque podría hacer suposiciones) muestran una deplorable carencia de estadística para una ciencia experimental que trata de convertirse en una actividad genuinamente científica. Sé perfectamente lo que me dirían muchos estudiantes de psicología: que han estudiado suficiente estadística y análisis de datos, y que no falta de eso en la carrera. Lamentablemente, se trata de algo completamente falso. Tanto desde el punto de vista de la estadística matemática como de los recursos informáticos, la formación que reciben los estudiantes es muy pobre en comparación con el nivel de rigor y formalidad que exige un estudio donde haya que sacar conclusiones valiosas de muestras poblacionales enormes. Sé de programas de Másters y Doctorado en psicología donde los alumnos aprender las técnicas necesarias, pero lo cierto es que la mayoría nunca aprende las nociones y habilidades prácticas de estadística para conducir un estudio de manera rigurosa.  

El estudio de la estadística, hasta el punto de tener una comprensión profunda de los conceptos matemáticos involucrados, es de todo punto necesario para poder llamar ciencia a un estudio experimental.
Quiero insistir en esto porque me parece que podemos responder con gran optimismo a la segunda pregunta que planteé: ¿Tal problema es intrínseco a la práctica de la psicología, o se puede remediar? Creo, en efecto, que el problema del que hablábamos se puede remedir, y que sólo es una cuestión de voluntad por parte de los investigadores, que quizá vengan, típicamente, de un mundo más "social" donde el rigor estadístico y metodológico no se concibe de la misma manera. 

Aunque no basta sólo con la profesionalización del uso de la estadística entre los psicólogos, creo que este es el primer punto a tratar para que aquellos trabajos con pretensión de ser ciencia se conviertan realmente en ciencia. Por lo demás, sería sano dejarse influir por el análisis aséptico y libre de inferencias que uno esperaría en un experimento conductista o puramente biológico. 

Creo firmemente que, además, esta "cientificación" de la psicología tendrá, a la larga, otro efecto muy notable sobre ciertos debates concernientes a la Filosofía de la Ciencia, pues, en mi opinión, la perversión de las metodologías, al conducir a una imagen fallida de la naturaleza del conocimiento científico y de cómo éste se genera, es uno de los orígenes de ciertas visiones erradas sobre la ciencia, como el constructivismo (en su versión más fuerte) o el anarquismo de Feyerabend. El hecho de que los defensores de las mencionadas doctrinas típicamente desconozcan los entresijos del funcionamiento de las ciencias naturales no hace sino que me reafirme en esta opinión.

Como se ha advertido ya, introducir "la cultura de la replicabilidad", en palabras de Ioannidis, es fundamental para la maduración de la psicología. Pero me gustaría desglosar un poco más en qué consiste esta replicabilidad, distinguiendo, de hecho, dos etapas distintas. Pensemos que el experimentador X ha reunido una serie de datos -una población- y, siguiendo cierta metodología (que, idealmente, debería querer decir no más que un cierto tratamiento estadístico de los datos), llega a ciertas conclusiones C. Ahora imaginemos que le proporcionamos los mismos datos experimentales al experimentador B. Es de esperar que B, analizando los datos por su cuenta, llegue a unas conclusiones muy parecidas a C. Este proceso es lo que yo llamo (desconozco si alguien ha nombrado ya esto, en cuyo caso me disuclparía) replicación isomuestral, por razones obvias. Después de una serie (¡necesaria!) de replicaciones isomuestrales se debe llegar a cierta "clase de equivalencia" de conclusiones (perdón por la broma matemática). En palabras más simples: después de que muchas personas, independientemente, analicen los datos experimentales, tiene que se4r posible llegar a cierta conclusión. Esto es así en astronomía, en genética, y no veo razón por qué debiera ser distinto en un análisis de datos en psicología. Después viene la parte más difícil, donde realmente se pone a prueba la validez de una hipótesis científica y no sólo el sentido común del investigador de turno. Se tiene que poder ser capaz de replicar las mismas conclusiones C partiendo de otra población inicial aleatoriamente escogida. Si esto no se consigue, se hará necesario un examen estadístico que discierna las diferencias entre los métodos de selección aleatoria usados en cada caso, o bien poner en cuestión las conclusiones C y buscar algo nuevo. La replicabilidad puede fallar y aún así no querer decir que estamos ante un mal trabajo. Podría ser que no hubiésemos conseguido reproducir ciertas características poblacionales en la replicación del experimento. Pero es absolutamente esencial conseguir una nueva réplica que si nos dé seguridad de contar con características poblacionales análogas. En caso de que eso no sea posible, quiere decir que el trabajo en cuestión es intrínsecamente no científico porque se desconocen variables que permitan interpretar de una manera significativa los resultados. 

Dicho todo esto, me gustaría concluir comentando brevemente sobre un artículo que ha aparecido hace dos días, y que es el que me ha animado a escribir este pequeño texto. Se trata de "Psychology is not in crisis" que escribe Lisa Felman Barret, profesora de psicología en la Northeastern University. La profesora Barret claramente estaría en contra de la gran cantidad de opiniones vertidas en este texto mío, y es por ello que me gustaría contestar a algunos de sus puntos.

En primer lugar, Barret comenta en el segundo párrafo que "But the failure to replicate is not a cause for alarm; in fact, it is a normal part of how science works." [El fracaso al replicar no es motivo de alarma; de hecho, es una parte más de cómo funciona la ciencia]. 

Lo cierto es que me parece muy grave que una profesora universitaria de psicología tenga esta opinión sobre el funcionamiento del Método Científico. Como ya he comentado, la replicabilidad es absolutamente esencial. Si se prefiere, se podría decir que la replicabilidad es una característica definitoria de los procesos de generación de conocimiento científico. Aparte de lo ya he expuesto, una buena recopilación de testimonios sobre lo crucial que resulta la replicabilidad en ciencia se puede encontrar en el artículo "Physics envy: Do 'hard' sciences hold the solution to the replication crisis in psychology?", que ya fué citado antes.

En otro párrafo, Barret comenta: "If the studies were well designed and executed, it is more likely that the phenomenon from Study A is true only under certain conditions. The scientist’s job now is to figure out what those conditions are, in order to form new and better hypotheses to test."[ Si los estudios estuvieran bien diseñados y bien llevados a cabo, es más probable que el fenómeno del estudio A sea cierto sólo bajo ciertas condiciones. La labor del científico es determinar qué condiciones son ésas, para así formar nuevas y mejores hipótesis que poner a prueba]

Esto es casi correcto.  Claro que hay investigar esas condiciones y formar nuevas hipótesis (esto ya lo he dicho antes), pero el fallo al replicar es un fracaso en sí y, para solucionarlo, habrá que hacer nuevas replicaciones que pongan a prueba las hipótesis que comenta Barret. La replicación sigue siendo esencial y hay que seguir hasta que tengamos éxito en la replicación.

Lo último que voy a comentar es el argumento, pretendidamente robusto y definitivo, de que "Similarly, when physicists discovered that subatomic particles didn’t obey Newton’s laws of motion, they didn’t cry out that Newton’s laws had “failed to replicate.” Instead, they realized that Newton’s laws were valid only in certain contexts, rather than being universal, and thus the science of quantum mechanics was born." [Análogamente, cuando los físicos descubrieron que las partículas subatómicas no obedecían las leyes de Newton, no se limitaron a gritar que las leyes de Newton habían "fracasado a replicar". Lo que hicieron es advertir que las leyes de Newton son válidad sólo en ciertos contextos, en vez de ser universales, y así la ciencia de la mecánica cuańtica]


Este malentendido es particularmente molesto para alguien que venga del mundo de las ciencias "duras". Para empezar, esta fuera de toda discusión que la naturaleza de la investigación en física y en psicología es totalmente distinta. El estatus de las "verdades" en cada una de estas disciplinas es también muy distinto, como cualquiera puede reconocer. Es por ello que la comparación con la física es muy desafortunada. Entrando en detalles, tengo que decir que es atronadoramente injusto decir que las leyes de Newton "fracasaron al replicar". Las leyes de Newton se corroboraron en experimentos exitosamente replicados durante siglos antes de que, en situaciones donde se percibían muy claramente el cambio de contexto (altas velocidades o dimensiones microscópicas), fracasaran. Además, hay que entender en qué consiste este fracaso. Las leyes de Newton se siguen usando todos los días, hasta de que los cohetes humanos llegan a la luna gracias a ellas. Así que las leyes de Newton se siguen "replicando" exitosamente todos los días. Nada parecido pasa con los ensayos en psicología que no logran replicar con éxito ni una sola vez, lo cual es un asunto muy distinto.


Como conclusión, creo que este momento de crisis puede ser muy enriquecedor para la psicología, y que es el momento de que los experimentadores, en conjunto, maduren sus metodologías y aprendan un poco de las ciencias viejas. Similarmente, insisto en lo crucial de mejorar enormemente la enseñanza de la estadística y el análisis de datos en aquellos que van a llevar a cabo investigaciones sociales. 

Si todo va bien, confío en que la psicología, manteniendo su personalidad y la gran cantidad de aspectos no científicos igualmente enriquecedores que tiene, pueda terminar de madurar en su faceta como ciencia y depararnos un futuro de resultados muy interesantes y, finalmente, científicos.