Siempre se necesita aquello que uno ignora, y nunca podemos hacer uso de lo que sabemos.

 Fausto – Johann Wolfgang Goethe (1808)

Tras sitiar Jerusalén, Nabucodonosor, rey de Babilonia, ordenó a Aspenaz, jefe de sus eunucos, que seleccionara a jóvenes israelitas de noble cuna para servir en su corte. Entre los elegidos, el profeta Daniel quiso evitar contaminarse con los manjares y el vino que les ofrecía el rey y pidió a Aspenaz que no le sirviese más que legumbres. Ante las dudas del eunuco, Daniel le propuso un experimento: durante diez días les daría legumbres a un grupo de israelitas y vino y manjares al resto. Después, el propio Aspenaz podría comparar la salud de cada grupo y determinar la dieta más adecuada.

Según la mitología económetra, este episodio bíblico fue el primer experimento humano de la historia. Milenios más tarde, las pruebas controladas aleatorias (RCT por sus siglas en inglés), inmensamente populares en Medicina y Farmacología, han irrumpido con fuerza en las ciencias sociales. En ellas se asigna aleatoriamente un tratamiento a los sujetos de investigación, llamando grupo control, a quienes no lo reciben y comparándolo al grupo tratado para descubrir el impacto del tratamiento. Una generación de académicos, los randomistas, ha colocado las pruebas controladas aleatorias en el corazón de la investigación socioeconómica aplicada, entre los que destaca la cofundadora del laboratorio J-PAL Esther Duflo, flamante premio princesa de Asturias de ciencias sociales. ¿A qué se debe el éxito de los RCT? ¿Cuáles son sus ventajas y limitaciones?

 

Virtudes de las Pruebas Controladas Aleatorias

Para evaluar el impacto de cualquier política, idealmente compararíamos el estado de los beneficiarios con el estado de los mismos si no hubiesen sido afectados por la medida. Mientras no seamos capaces de generar universos paralelos, seguiremos sin observar estos dos estados simultáneamente. Este es el Problema de Evaluación que las pruebas aleatorias tratan de resolver. La idea fundamental es que, al definir de manera aleatoria los grupos de tratamiento y control, solo debería diferenciarlos la asignación del tratamiento, única fuente de variación entre ellos. En consecuencia y en teoría, los RCT en ciencias sociales revelan la relación de causalidad entre una política y el estado de los beneficiarios. Esta es la más celebrada, pero no la única ventaja de las pruebas aleatorias.

En ocasiones, los economistas amoldan la temática de su investigación a los datos disponibles. Miran dónde hay luz y lo que sea que encuentren se convierte en lo andaban buscando. Abhijit Banerjee apunta que, gracias a los RCT, el investigador puede empezar postulando una hipótesis y diseñar después un experimento que genere los datos necesarios para testarla. Una vez obtenidos los resultados, resulta difícil mirar hacia otro lado si nuestras creencias se ven contradichas. La diversidad de medidas que pueden evaluarse utilizando RCT es prácticamente ilimitada. Las pruebas controladas aleatorias han servido para mostrar que la desparasitación infantil puede reducir el absentismo escolar en casi un 25 % en Kenia, que la terapia psicológica puede reducir la delincuencia en Liberia o que la experiencia de un profesor de guardería tiene efectos significativos para la toda la vida en Tennessee, EE. UU.

En palabras de un reputado randomista, los RCT son tan sencillos que hasta los políticos pueden entenderlos. De haber un gobierno benevolente, la evidencia conseguida a través de la experimentación puede ser la más convincente y capaz de impactar la toma de decisiones. Además, la relativa sencillez de las pruebas aleatorias facilita su replicación.

 

Motivos para el escepticismo

Mientras las ventajas de las pruebas controladas aleatorias se publicitan a los cuatro vientos, tengo la impresión de que sus limitaciones no siempre reciben la atención necesaria. Los economistas James Heckman y Angus Deaton y la filósofa Nancy Cartwright llevan años en la vanguardia del escepticismo experimental y han desarrollado la mayoría de ideas que tomo prestadas en esta sección. Las desventajas de los RCT pueden listarse en dos categorías: aquellas que existen incluso en condiciones ideales y aquellas que surgen de las dificultades de la implementación.

Los RCTs suelen utilizarse para descubrir qué intervenciones funcionan pero no porqué funcionan

Empecemos asumiendo condiciones óptimas para la experimentación. Nos gustaría conocer el impacto de una política, por ejemplo un impuesto negativo sobre la renta que ofrezca transferencias monetarias a las rentas más bajas. Una prueba controlada aleatoria sería incapaz de informarnos del efecto de la medida en los salarios: la curva de oferta de empleo poco cualificado apenas se vería afectada si un número reducido de personas se benefician del programa, como en el caso de un experimento, pero cambiaría de posición si el programa se universalizase, modificando los salarios de equilibrio. Este caso ilustra que los resultados de los RCT informan acerca del equilibrio parcial de un sistema, no el equilibrio general que queremos predecir al expandir una política.

Incluso obviando esta limitación, los RCT suelen utilizarse para descubrir qué intervenciones funcionan pero no por qué funcionan. Con frecuencia, se da por sentado que si una política tuvo éxito en Tegucigalpa, debería tenerlo en Maputo. Sin embargo, para que una medida produzca los efectos deseados necesita factores de apoyo[1]. Por ejemplo, un programa de transferencias monetarias condicionadas que pague una cierta cantidad a los hogares por escolarizar a sus menores podrá funcionar en comunidades donde existan escuelas cerca y de cierta calidad, pero de lo contrario, probablemente fracase. Aquí la presencia de escuelas decentes cerca de los hogares es un factor de apoyo necesario para el éxito de las transferencias condicionadas. Mientras los investigadores no identifiquen los mecanismos que explican el éxito o fracaso de las intervenciones, corren el riesgo de omitir los factores de apoyo necesarios para su funcionamiento. De tal manera, pueden recomendar políticas inadecuadas en comunidades donde no se dan las condiciones que permitieron el éxito de las mismas políticas en otras comunidades.

En una línea similar, las pruebas controladas aleatorias no son del todo aptas para el proceso de prueba y error. Angus Deaton cuenta la proeza de su nieta que aprendió a jugar al Angry Birds sin conocimiento alguno de física newtoniana. Le bastó con sacrificar algunos pajaritos para entender el juego, siguiendo la lógica de prueba y error. Por un problema de dimensionalidad, los RCT difícilmente pueden seguir esta dinámica: en el caso de las transferencias condicionadas, habría que probar con los importes A, B, C… entregados en formato U, V, W… para cada condición X, Y, Z… De tal forma, una prueba controlada aleatoria podrá informarnos del éxito o fracaso de una medida pero, mientras no se entiendan los mecanismos subyacentes, tendrá escaso poder predictivo si se altera marginalmente su diseño. Además, los RCT suelen ser relativamente caros y necesitan cierto tiempo para producir resultados interesantes.

La prensa y los votantes son más propensos a cebarse con los fracasos que a celebrar los programas que cumplen sobriamente con su cometido

En la práctica, las condiciones de experimentación casi nunca son idóneas. Si, por ejemplo, solo se selecciona a voluntarios para participar en un RCT, es posible que los efectos de la política testada en el grupo de tratamiento sean diferentes a los que tendría en toda la población, que incluye a los no voluntarios. Otra potencial fuente de sesgo sería el abandono selectivo: individuos con ciertas características tenderían a dejar de participar en el estudio con mayor frecuencia que el resto. También podría darse el caso que los integrantes del experimento cambiasen su comportamiento por el hecho de participar en él, al saberse observados o puestos «a prueba».

Por último, las pruebas controladas aleatorias se enfrentan a dos obstáculos de economía política. Primero, las autoridades no siempre ven con buenos ojos que se evalúe sus políticas de manera rigurosa: la prensa y los votantes son más propensos a cebarse con los fracasos que a celebrar los programas que cumplen sobriamente con su cometido. Segundo, como apuntó Lant Pritchett en el décimo aniversario de J-PAL, tal vez los RCT produzcan la mejor evidencia disponible para mejorar las políticas públicas, pero puede que los políticos les hagan caso omiso. Al fin y al cabo, no está nada claro que el votante medio siempre conozca o prefiera las medidas más eficientes a su alcance.

Estos motivos para el escepticismo no implican que los experimentos en política no puedan ser una gran herramienta para entender y mejorar la sociedad. De estar bien diseñadas, nos descubren el impacto real de las políticas testadas, en un cierto contexto y con mayor seguridad que cualquier otro método. Puede no sonar muy ambicioso, pero siendo tanto lo que desconocemos, es suficiente para mejorar nuestras políticas, que no es poco. Sin embargo, espero haber demostrado que los RCT están lejos de ser infalibles. Cualquier técnica de inferencia tiene sus limitaciones y es necesario ser conscientes de ellas para optimizar el uso político de la evidencia.

[1] ^ Helping factors en Cartwright (2007), pueden entenderse como el contexto en el que se desarrolla un fenómeno social.