Lo que sigue es más o menos el texto de mi presentación en TEDxDFSalon sobre datos abiertos.

Mi contribución va a ser modesta y sencilla. Sólo quiero tratar de contestar cuatro preguntas básicas:

  • Qué son datos abiertos?
  • Cómo se ven los datos abiertos?
  • Qué son tres ejemplos de los datos abiertos?
  • Por qué nos importan?

Los datos abiertos son como los hipsters. Está muy de moda usar la palabra, siempre la usamos, pero nadie sabe como definir que es un hipster, igual que casi nadie sabe definir que son las datos abiertos.

Datos abiertos 003

Es justamente por eso que en 2007 30 llamados expertos en el tema de datos abiertos y gobierno abierto se reunieron en Sebastabol, California para establecer los ocho principios de los datos abiertos:

  • Completo: todos los datos públicos está disponible. Los datos público no contempla datos privados ni limitaciones de seguridad o privilegios.
  • Primario: los datos son recolectados en la fuente de origen, con el nivel de granularidad mas alto posible, no en forma agregada ni modificada.
  • Oportuno: los datos están disponibles tan rápido como sea necesario para preservar el valor de los datos.
  • Accesible: los datos están disponibles para el rango mas amplio de usuarios para el rango mas amplio de propósitos.
  • Procesable por maquinas: los datos están estructurados razonablemente para permitir un procesamiento automático.
  • No discriminatorio: los datos están disponibles a cualquiera, sin requerir un registro.
  • No propietario: los datos están disponibles en un formato sobre el cual ninguna entidad tiene un control exclusivo.
  • Libre de licencias: los datos no están sujetas a ningún derecho de autor, patenté, marca registrada o regulaciones de acuerdo de secreto. Razonable privacidad, limitaciones de seguridad y privilegios están permitidos.

Yo había pensado que no existían los 8 principios de los hipsters, pero de hecho …

Cómo se ven los datos abiertos?

Datos abiertos 007

Se pueden ver así. Esta información viene de la plataforma de datos abiertos de la ciudad de Buenos Aires. Lo que ves es la información directamente de su base de datos del sistema de bicicletas públicas. Es la versión de Ecobici de Buenos Aires. El formato de esta información es CSV o valores separados por comas. Cada valor, es decir, cada dato, está separado por una coma. Y la primera fila de la información describe de que se trata cada dato. Así que vemos que tenemos acceso a la dirección de cada estación, el número mínimo de bicicletas que debe tener cada estación, el número máximo de bicicletas de cada estación, el número de cascos de cada estación, la fecha de inauguración, y los datos de ubicación de GPS.

Datos abiertos 008

Los datos abiertos también se ven así. Esta es la misma información que acabamos de ver, pero visualizada en una tabla de Excel. Así es un poco más fácil entender la información y podemos ver, por ejemplo que en una de las estaciones los pobres han perdido 19 cascos.

Datos abiertos 009

Por fin, los datos abiertos también se ven así. Esta información viene del Servicio Nacional del Clima de los Estados Unidos y está en formato XML. Ahora las descripciones de los valores no están en la primera fila, sino están entre los símbolos de menor que y mayor que. Entonces el primer indicador es ubicación y el valor es el aeropuerto John F. Kennedy en Nueva York.

Bien. Ahora sabemos que son los datos abiertos y como se ven. Ahora tres ejemplos. El primer ejemplo viene de un sitio argentino que se llama Qué pasa, Riachuelo. Igual que el gobierno del Distrito Federal, el gobierno de Buenos Aires también colecciona información sobre contaminación. Pero la diferencia es que en Buenos Aires esta información está disponible para descargar en datos abiertos. Un grupo de programadores que se llama Garage Lab descargaron los datos, los analizaron utilizando varios filtros y los visualizaron en un mapa. Lo que encontraron es que la peor contaminación está en los barrios con menos recursos. Es decir que hay una relación entre la pobreza y la contaminación. Ahora están haciendo un monitoreo para ver cuales colonias mejoran y en cuales no.

En México tenemos acceso a la pagina web de SIMAT que tiene un mapa de la calidad de aire y los puntos de industria, pero no podemos descargar la información entonces no podemos hacer nuestro propio análisis o comparar como ha estado la calidad de aire este año con el año pasado.

El segundo ejemplo de datos abiertos es el portal de cirujanos cardiacos de inglaterra. El gobierno de gran británico siempre ha coleccionado datos de la tasa de mortalidad de cada cirujano, pero la información nunca estaba disponible al público hasta 2006. Cuando la información se hizo pública la tasa de mortalidad cayó de los 4 por ciento de las cirugías a los 2 por ciento. Hay tres posibles explicaciones: 1) les dio pena a los cirujanos que todos sabían que sus pacientes no estaban sobreviviendo y entonces mejoraron. 2) que los pacientes antes de su cirugía revisaron la información y eligieron los mejores cirujanos, o 3) la tecnología y las practicas de la cirugía cardiaca simplemente han mejorado y no tiene nada que ver con el acceso a los datos. Yo supongo que era una mezcla de los tres factores.

El tercer ejemplo viene de Washington DC, el capital de mi bendito país y el pueblito de nuestro invitado Eric Gunderson. Esta tabla muestra las cifras de entradas de personas en todas las estaciones del metro de Washington DC desde 1977 a 2011. Alguien quería saber cuales son las estaciones de metro que más han aumentado en uso.

Datos abiertos 013

Entonces convertió la tabla al formato CSV y subió todos los datos a Google Fusion Tables en donde pudo visualizar y comprar el crecimiento de cada estación.

Datos abiertos 015

Aquí ves un mapa del metro de Washington DC y los círculos más grandes son las estaciones que más han aumentado en uso durante los últimos 20 años. Digamos que quieres abrir un puesto de hot dogs, donde te conviene ponerlo? Por la salida de la estación con más tráfico de peatones en toda la ciudad.

Por qué nos importan los datos abiertos? Pues el proyecto de Que pasa Riachuelo nos ayuda cuidar el medio ambiente y la salud pública. El portal de estadísticas de los cirujanos cardiacos puede salvar vidas. El mapa del uso del metro nos puede ayudar a mejorar el urbanismo (y vender hoy dogs). Los datos abiertos crean empleo cuando se venden a través de las aplicaciones móviles.

Pero en general, los datos abiertos nos important porque sólo cambiamos lo que vemos. Tenemos que visualizar los problemas que tenemos para resolverlos y tenemos que visualizar el progreso que hemos logrado para apreciarlo.