Archivo de la etiqueta: Estimador diff-in-diff

Recopilación de noticias de febrero de 2016

Aquí van las noticias que he recopilado a lo largo de febrero de 2016. Espero que os resulten interesantes:

1. El grafitero Muelle tendrá una calle en Madrid [enlace]

2. San Sebastián será escenario de pruebas de un autobús sin conductor [enlace1, enlace2]

3. Los picos de contaminación causan un aumento radical en los ingresos hospitalarios [enlace]

A este artículo respondí con un post metodológico que apuntaba a cómo “demostrar” la causalidad y no sólo la correlación.

4. La Eurocámara respalda la propuesta que permite doblar el límite de emisiones en test de carretera [enlace]

Ésta es claramente la peor noticia del mes y de lo que va de año en lo que a sostenibilidad se refiere.

5. Nueva reordenación del tráfico en la calle de los Reyes [enlace]

6. La dispersión urbanística cuesta un 19 % más a los ayuntamientos [enlace]

7. El ‘cifuentazo’ de la línea 1 de metro afectará a 13.000 viajeros cada hora durante cuatro meses [enlace]

El titular es francamente mejorable, por todo, pero bueno, ahí queda esta reflexión sobre el cierre de la L1 de Metro durante cuatro meses.

8. Un nuevo plano para guiar pasos por una ciudad complicada [enlace]

Es el segundo mes que comparto una noticia sobre un nuevo plano que sirve para saberse mover como peatón por ciudad. Espero que no haya dos sin tres (o, aún mejor, que sean muchos meses contando lo mismo cambiando únicamente el nombre de la ciudad).


Quiero haceros también una recomendación: Curso de Big Data aplicado a Ingeniería Civil

Este curso es el paso siguiente y más completo de un curso del que ya hablé por aquí, que realicé y que recomiendo encarecidamente.

Vídeo presentación Curso Online «Big Data aplicado a Ingeniería Civil» from Ingeoexpert on Vimeo.


 

Y, por último, el proceso para elaborar los presupuestos participativos ya se ha iniciado. Podéis ver todo en EBxM, quienes se han propuesto servir de altavoz para las propuestas de movilidad urbana sostenible.

Recopilación de noticias de febrero de 2016
(Pulsad en la imagen para ir directamente a la parte de Decide Madrid dedicada al proceso de presupuestos participativos)

Yo ya he participado con dos propuestas que espero que tengan tirón. Como por el momento creo que no son propuestas públicas, aparte del enlace, dejo el texto que las acompaña. Creo que desde ecomovilidad.net también propondremos algunas inversiones para los distritos, pero de momento lo que es seguro es que podéis usar EBxM para hacer llegar vuestras propuestas y que sean consideradas por su nutrido grupo de lectores.

–  «Priorización semafórica en la glorieta frente al metro de Casa de Campo»

La inversión en «Priorización semafórica en la glorieta frente al metro de Casa de Campo» consistiría en el proyecto y la instalación de semáforos en la citada glorieta dado el nivel de inseguridad que genera para los peatones el cruce actual, pues se respetan poco o nada los diferentes pasos de peatones (en gran medida, es un hecho motivado por la sección, puramente de pesa en el enlace con la A-5).

La solución barata es esta priorización, la cara la integración urbana de todo el eje de la A-5. Si no se propone ésta última es pensando en el presupuesto asignado para el distrito de Latina, aunque a futuro será una actuación imprescindible.

“Ascensor para bicicletas en la Cuesta de San Vicente”

La propuesta «Ascensor para bicicletas en la Cuesta de San Vicente» consiste en replicar el cyclocable de la ciudad noruega de Trondheim en la Cuesta de San Vicente.

 

Añado unas notas técnicas sobre el proyecto:

– Habrá que ver y coordinar la propuesta con lo que salga del futuro proyecto de reforma de la Plaza de España.

– El tráfico en la Cuesta de San Vicente es intenso y muy rápido. La diferencia de velocidad coche-bici es determinante para que muchos se suban/nos subamos a la acera para subir la cuesta.

– Una ayuda mecánica para subir resolvería parcialmente el problema: bajaría a todos a la calzada pero la diferencia de velocidad seguiría siendo evidente. Para paliarlo, haría falta dotar de una reserva de espacio que exigiría o bien suprimir un carril de subida o bien estrechar todos los carriles de la sección. Yo iría por la segunda opción para calmar la velocidad tanto de subida como de bajada.

– Quizá sea un modelo replicable para otras cuestas desde el río, pero ésta me parece la más representativa como modelo para que después se piense en otras.

Técnicas utilizadas en la planificación (2). El estimador diff-in-diff

La UE nos sorprendió a todos la semana pasada con una noticia malísima: va a permitir a los fabricantes que los coches contaminen más. No debía cumplir las normas ninguno de los ellos, pero la solución alcanzada, lejos de castigarles por no cumplir una normativa comunitaria ya asentada, da vía libre a la piratería y sienta un triste precedente que dice mucho y no precisamente bueno de la UE. Y es que, cuando por fin parecía haber calado el mensaje de que las Administraciones Públicas deben velar por un reparto modal, tanto de pasajeros como de mercancías, que prime el uso de los modos de transporte más respetuosos con el medio ambiente por la evidente relación entre los índices de contaminación y determinados problemas que afectan a la salud pública, va la UE y tira por tierra décadas de esfuerzos. Ahora parece que la solución sólo podrá pasar por una fiscalidad menos permisiva con el consumo de combustibles fósiles. Pero esta solución no es una buena medida, pues transmite todos los costes a los usuarios cuando gran parte de la culpa es de los fabricantes…

Aunque tampoco hace falta irse a Bruselas para observar este tira y afloja entre el aprecio al coche a cualquier precio y el respeto a la salud pública. Lo tenemos bien cerca: mientras el ayuntamiento de Madrid se ha fijado el objetivo de reducir los niveles de contaminación, algún alcalde vecino se ha despistado un poco aludiendo a la Constitución como garante para poder conducir cuando y como sea:

Y, es que, el derecho de los alcorconeros queda garantizado por las alternativas de transporte público y porque, en el supuesto de que se alcanzara el escenario 4 (algo muy poco probable), podrían seguir circulando las motos (no me parece algo positivo, pero han quedado fuera del nuevo protocolo), los vehículos de reparto, los taxis y los coches eléctricos. Pero, es que, aunque no fuera así, ¿debería primar el derecho individual a ir en coche por encima del derecho común a la salud?

En este escenario, eldiario.es publicó el siguiente artículo: «Los picos de contaminación causan un aumento radical en los ingresos hospitalarios». En él se comparan los registros de “ingresos hospitalarios” y “concentración de NO2» y se concluye que existe relación entre estas dos variables. Pero vamos a analizar cómo podría concluirse de forma algo más adecuada esta cuestión.

Técnicas utilizadas en la planificación (2). El estimador diff-in-diff

A la vista del gráfico que se presentaba en el artículo, hay dos detalles a comentar. El primero es que a los autores del mismo les debieron enseñar una formulación diferente que la que me enseñaron a mí porque le ponen el 2 al dióxido de nitrógeno como superíndice en lugar de como subíndice. El segundo es más puñetero: la correlación no implica causalidad. Es condición necesaria, pero no suficiente (y con cuidado, porque puede ser correlación negativa, no siempre positiva). Y es aquí donde quería llegar para explicar el uso del estimador diff-in-diff.

Técnicas utilizadas en la planificación (2). El estimador diff-in-diff
La imagen original es de https://xkcd.com/552. Sobre la traducción no ha sido posible esclarecerlo porque está por todos lados.

Pero antes me voy a parar a analizar cuán correlacionadas están las dos muestras, porque aunque en el artículo se dé por supuesta, no lo tengo tan claro. Al carecer de datos numéricos, sólo queda la descripción pura y dura: el número de ingresos hospitalarios parece seguir una periodicidad bastante marcada y tener una media más o menos homogénea y cierta homocedasticidad; esto no pasa con la muestra de concentración de NO2 (por cierto, sin unidades en el gráfico y las unidades son importantes cuando se estudia la correlación. Se suele medir en µg/m3 pero, dado que la superación en el protocolo es de 400 µg/m3 y la escala del gráfico termina en 80, no alcanzo a adivinar las unidades empleadas), que presenta una recurrencia que no puede llegarse a considerar periodicidad, una media que se reduce paulatinamente en el periodo 2006-2013 (ojo, que 2014 parece invertir la tendencia) y una varianza cambiante. Así que, aunque “bailen juntas” en su variación temporal, con una cadencia similar, estas curvas no demuestran tener una correlación fuerte. En todo caso, puede hablarse de coocurrencia, eso es innegable.

Pero supongamos que sí estuvieran correlacionadas, ¿significaría esto que la concentración de NO2 es la causa de los ingresos hospitalarios? Rotundamente, no. Y lo demuestro con un contraejemplo: el consumo de mozzarella está fuertemente correlacionado con el número de doctorados en ingeniería civil y sin embargo… 

Técnicas utilizadas en la planificación (2). El estimador diff-in-diff
(pinchad en la imagen, que hay algunas correlaciones muy chulas)

… al menos en mi caso, no debe estar motivado por mi consumo de mozzarella porque, aunque el queso en general me encanta, la mozzarella apenas la como. Así que, quizá se trate de una casualidad. Quizá…

El estimador diff-in-diff

En términos generales, es prácticamente imposible demostrar a ciencia cierta la causalidad, pero hay técnicas que la aproximan. Una de ellas consiste en emplear el estimador diff-in-diff (difference in differences). Este estimador, muy empleado en econometría, mide el efecto de aplicar un tratamiento en un determinado periodo de tiempo y compararlo con la tendencia esperada (se distinguen así los grupos de tratamiento y de control). Pero cuidado: la confirmación de causalidad no implica que sea la única causa y a veces varias causas no explican todos los efectos si no tenemos en cuenta las sinergias (correlaciones entre las causas).

El método de aplicación del estimador diff-in-diff consiste simplemente en sacar diferencias (restas), primero en dos momentos distintos para cada individuo y luego entre el promedio del grupo tratamiento y el del grupo control. Esta aplicación puede realizarse como un test de diferencia de medias entre estos dos grupos de observaciones o puede implementarese a través de una regresión econométrica. Sin entrar en el aparato matemático que sustenta el método (si lo queréis ver, lo tenéis por ejemplo, en estas referencias: enlace 1, enlace 2), lo que se evalúa es si la variable dependiente presenta variaciones significativas en el grupo de tratamiento respecto al grupo de control que sean atribuibles a las diferencias introducidas en la variable independiente. Esto se suele estudiar a través de tres métricas: 1) endogeneidad, 2) correlación intragrupo y 3) autocorrelación. Si hay diferencias entre ambos grupos antes y después de la aplicación de la medida de diferenciación, la variable dependiente será consecuencia de la variable independiente (en realidad, en estadística todo es siempre más tibio y se dice que no parece que sean independientes, pero no se habla tal cual de causa y consecuencia). De este modo, un caso de causalidad es algo tal que así:

Técnicas utilizadas en la planificación (2). El estimador diff-in-diff
La imagen está sacada de aquí: http://www.advancedepidemiology.org/difference-in-difference-estimation/

Al no tener los datos numéricos, no puedo decir si efectivamente hay causalidad en el ejemplo presentado, sólo que la forma más sencilla de demostrarla es con el operador diff-indiff. Eso sí, aunque dudo de la metodología empleada no dudo de las conclusiones, a la vista de tantos estudios (enlace 1, en castellano; enlace 2, en inglés). Ahora sólo cabe esperar que la UE y el alcalde de Alcorcón recuperen la cordura.


Nota:

Hay un «pero» en este planteamiento y, aunque lo he apuntado, prefiero repetirlo para dejarlo claro porque no es baladí: normalmente las consecuencias no tienen una causa única sino un cóctel de causas y evaluar la fortaleza de cada una no se puede medir con sencillez con el estimador diff-in-diff. Y para ello suele ser más apropiado ir hacia análisis factorial, estadística inferencial o técnicas de minería de datos/inteligencia artificial, como las Redes Bayesianas. Quizá me anime y la próxima técnica de esta serie sean las Redes Bayesianas, pero no lo prometo porque la verdad es que he terminado un poco harto de ellas por la Tesis.


Actualización:

Me pasan por Twitter dos estudios sobre el tema que emplean diseño experimental, que es una técnica estadística que consiste en usar varios grupos y comparar sus comportamientos antes la manipulación de una o varias variables. Como veis, lo mismo que diff-in-diff, pero desde la perspectiva médica en lugar de desde la perspectiva econométrica. Los podéis leer en [enlace 1] y [enlace 2].