La UE nos sorprendió a todos la semana pasada con una noticia malísima: va a permitir a los fabricantes que los coches contaminen más. No debía cumplir las normas ninguno de los ellos, pero la solución alcanzada, lejos de castigarles por no cumplir una normativa comunitaria ya asentada, da vía libre a la piratería y sienta un triste precedente que dice mucho y no precisamente bueno de la UE. Y es que, cuando por fin parecía haber calado el mensaje de que las Administraciones Públicas deben velar por un reparto modal, tanto de pasajeros como de mercancías, que prime el uso de los modos de transporte más respetuosos con el medio ambiente por la evidente relación entre los índices de contaminación y determinados problemas que afectan a la salud pública, va la UE y tira por tierra décadas de esfuerzos. Ahora parece que la solución sólo podrá pasar por una fiscalidad menos permisiva con el consumo de combustibles fósiles. Pero esta solución no es una buena medida, pues transmite todos los costes a los usuarios cuando gran parte de la culpa es de los fabricantes…

Aunque tampoco hace falta irse a Bruselas para observar este tira y afloja entre el aprecio al coche a cualquier precio y el respeto a la salud pública. Lo tenemos bien cerca: mientras el ayuntamiento de Madrid se ha fijado el objetivo de reducir los niveles de contaminación, algún alcalde vecino se ha despistado un poco aludiendo a la Constitución como garante para poder conducir cuando y como sea:

Y, es que, el derecho de los alcorconeros queda garantizado por las alternativas de transporte público y porque, en el supuesto de que se alcanzara el escenario 4 (algo muy poco probable), podrían seguir circulando las motos (no me parece algo positivo, pero han quedado fuera del nuevo protocolo), los vehículos de reparto, los taxis y los coches eléctricos. Pero, es que, aunque no fuera así, ¿debería primar el derecho individual a ir en coche por encima del derecho común a la salud?

En este escenario, eldiario.es publicó el siguiente artículo: Los picos de contaminación causan un aumento radical en los ingresos hospitalarios”. En él se comparan los registros de “ingresos hospitalarios” y “concentración de NO2” y se concluye que existe relación entre estas dos variables. Pero vamos a analizar cómo podría concluirse de forma algo más adecuada esta cuestión.

Técnicas utilizadas en la planificación (2). El estimador diff-in-diff

A la vista del gráfico que se presentaba en el artículo, hay dos detalles a comentar. El primero es que a los autores del mismo les debieron enseñar una formulación diferente que la que me enseñaron a mí porque le ponen el 2 al dióxido de nitrógeno como superíndice en lugar de como subíndice. El segundo es más puñetero: la correlación no implica causalidad. Es condición necesaria, pero no suficiente (y con cuidado, porque puede ser correlación negativa, no siempre positiva). Y es aquí donde quería llegar para explicar el uso del estimador diff-in-diff.

Técnicas utilizadas en la planificación (2). El estimador diff-in-diff

La imagen original es de https://xkcd.com/552. Sobre la traducción no ha sido posible esclarecerlo porque está por todos lados.

Pero antes me voy a parar a analizar cuán correlacionadas están las dos muestras, porque aunque en el artículo se dé por supuesta, no lo tengo tan claro. Al carecer de datos numéricos, sólo queda la descripción pura y dura: el número de ingresos hospitalarios parece seguir una periodicidad bastante marcada y tener una media más o menos homogénea y cierta homocedasticidad; esto no pasa con la muestra de concentración de NO2 (por cierto, sin unidades en el gráfico y las unidades son importantes cuando se estudia la correlación. Se suele medir en µg/m3 pero, dado que la superación en el protocolo es de 400 µg/m3 y la escala del gráfico termina en 80, no alcanzo a adivinar las unidades empleadas), que presenta una recurrencia que no puede llegarse a considerar periodicidad, una media que se reduce paulatinamente en el periodo 2006-2013 (ojo, que 2014 parece invertir la tendencia) y una varianza cambiante. Así que, aunque “bailen juntas” en su variación temporal, con una cadencia similar, estas curvas no demuestran tener una correlación fuerte. En todo caso, puede hablarse de coocurrencia, eso es innegable.

Pero supongamos que sí estuvieran correlacionadas, ¿significaría esto que la concentración de NO2 es la causa de los ingresos hospitalarios? Rotundamente, no. Y lo demuestro con un contraejemplo: el consumo de mozzarella está fuertemente correlacionado con el número de doctorados en ingeniería civil y sin embargo… 

Técnicas utilizadas en la planificación (2). El estimador diff-in-diff

(pinchad en la imagen, que hay algunas correlaciones muy chulas)

… al menos en mi caso, no debe estar motivado por mi consumo de mozzarella porque, aunque el queso en general me encanta, la mozzarella apenas la como. Así que, quizá se trate de una casualidad. Quizá…

El estimador diff-in-diff

En términos generales, es prácticamente imposible demostrar a ciencia cierta la causalidad, pero hay técnicas que la aproximan. Una de ellas consiste en emplear el estimador diff-in-diff (difference in differences). Este estimador, muy empleado en econometría, mide el efecto de aplicar un tratamiento en un determinado periodo de tiempo y compararlo con la tendencia esperada (se distinguen así los grupos de tratamiento y de control). Pero cuidado: la confirmación de causalidad no implica que sea la única causa y a veces varias causas no explican todos los efectos si no tenemos en cuenta las sinergias (correlaciones entre las causas).

El método de aplicación del estimador diff-in-diff consiste simplemente en sacar diferencias (restas), primero en dos momentos distintos para cada individuo y luego entre el promedio del grupo tratamiento y el del grupo control. Esta aplicación puede realizarse como un test de diferencia de medias entre estos dos grupos de observaciones o puede implementarese a través de una regresión econométrica. Sin entrar en el aparato matemático que sustenta el método (si lo queréis ver, lo tenéis por ejemplo, en estas referencias: enlace 1, enlace 2), lo que se evalúa es si la variable dependiente presenta variaciones significativas en el grupo de tratamiento respecto al grupo de control que sean atribuibles a las diferencias introducidas en la variable independiente. Esto se suele estudiar a través de tres métricas: 1) endogeneidad, 2) correlación intragrupo y 3) autocorrelación. Si hay diferencias entre ambos grupos antes y después de la aplicación de la medida de diferenciación, la variable dependiente será consecuencia de la variable independiente (en realidad, en estadística todo es siempre más tibio y se dice que no parece que sean independientes, pero no se habla tal cual de causa y consecuencia). De este modo, un caso de causalidad es algo tal que así:

Técnicas utilizadas en la planificación (2). El estimador diff-in-diff

La imagen está sacada de aquí: http://www.advancedepidemiology.org/difference-in-difference-estimation/

Al no tener los datos numéricos, no puedo decir si efectivamente hay causalidad en el ejemplo presentado, sólo que la forma más sencilla de demostrarla es con el operador diff-indiff. Eso sí, aunque dudo de la metodología empleada no dudo de las conclusiones, a la vista de tantos estudios (enlace 1, en castellano; enlace 2, en inglés). Ahora sólo cabe esperar que la UE y el alcalde de Alcorcón recuperen la cordura.


Nota:

Hay un “pero” en este planteamiento y, aunque lo he apuntado, prefiero repetirlo para dejarlo claro porque no es baladí: normalmente las consecuencias no tienen una causa única sino un cóctel de causas y evaluar la fortaleza de cada una no se puede medir con sencillez con el estimador diff-in-diff. Y para ello suele ser más apropiado ir hacia análisis factorial, estadística inferencial o técnicas de minería de datos/inteligencia artificial, como las Redes Bayesianas. Quizá me anime y la próxima técnica de esta serie sean las Redes Bayesianas, pero no lo prometo porque la verdad es que he terminado un poco harto de ellas por la Tesis.


Actualización:

Me pasan por Twitter dos estudios sobre el tema que emplean diseño experimental, que es una técnica estadística que consiste en usar varios grupos y comparar sus comportamientos antes la manipulación de una o varias variables. Como veis, lo mismo que diff-in-diff, pero desde la perspectiva médica en lugar de desde la perspectiva econométrica. Los podéis leer en [enlace 1] y [enlace 2].