El peligro de los datos anónimos

Una startup con implantación de éxito en más de veinte países europeos.

La noticia del mes en materia de privacidad ha sido que el Instituto Nacional de Estadística está comprando los datos de geolocalización de los usuarios de la red de telefonía móvil. Este tema lo hemos tratado en profundidad en nuestro blog por dos sencillas razones: 1) la noticia es preocupante por el uso que se le puede llegar a dar a esta información y 2) el organismo estadístico no ha dado prácticamente información sobre los detalles de este estudio.

Patrones y datos agregados

El pasado lunes el INE publicó una escueta nota informativa en la que nos remitía a un informe de octubre de 2019 con algunos detalles sobre cómo se iba a llevar a cabo el estudio. El documento insiste en que los datos que se van a recopilar son anónimos y agregados, esto quiere decir que, en principio, el INE sólo recibirá la información de cuántas personas hay conectadas en determinadas franjas horarias a cada torre de repetición (celdas).

Vamos a olvidarnos por un momento del estudio del INE para entender mejor qué está pasando. Imaginemos que tenemos tres personas que hacen vida normal cargando con sus teléfonos móviles día y noche. Si pudiéramos tener acceso a los datos de la compañía de teléfono podríamos reconstruir con gran precisión cómo se han movido por la ciudad a lo largo del día como se ve en la Figura 1.

El objetivo declarado del INE no es saber dónde estamos cada uno de nosotros, a título individual, en cada momento, sino generar a través de los datos agregados patrones de movilidad. De acuerdo con esto no habría motivos para preocuparnos por nuestra privacidad, ¿o sí?

Cuando agregamos los datos de estas tres personas tenemos una visión de conjunto diferente, pero podemos saber qué tienen en común todas ellas y a raíz de ahí es relativamente sencillo deducir qué es lo que comparten. Por ejemplo, imaginemos que los puntos que tienen en común estos patrones de desplazamiento se corresponden a la entrada y salida de una playa (Figura 2).

Gracias a que hemos podido agregar los datos de estas personas podemos identificar no sólo cuánta gente va a la playa, sino también la popularidad de esa playa entre diferentes usuarios. Esto es sencillo de extraer si sabemos cuántas personas están conectadas a estas celdas durante todo el día, e incluso podemos llegar a saber el estatus socioeconómico de las personas que la frecuentan, ¿cómo? Muy sencillo. Recordemos que al dibujar patrones de movilidad lo que estamos consiguiendo es ver qué lugares son más frecuentados por las personas en cada momento, de ahí podemos deducir con cierta facilidad dónde duermen y dónde trabajan, y qué mejor para calcular aproximadamente la renta de una persona que saber la zona en la que vive y trabaja.

Fines publicitarios

Cómo nos desplazamos y qué tipo de lugares frecuentamos es una información muy jugosa para el mundo del marketing. Si quiero promocionar un establecimiento de copas cerca de una playa puedo dirigir mis anuncios a las personas que suelen ir a esta playa, aunque eso quizá no me sirva de mucho, ya que es bastante probable que ya conozcan mi establecimiento y suelan ir. Así que lo que necesito es llegar a las personas que comparten intereses con mis clientes pero que aún no me conocen o que aún no han venido a mi negocio porque suelen frecuentar otras playas similares. Esas personas son el público objetivo al que tengo que convencer de que prueben mi bar de copas y para ello debo utilizar un lenguaje y unas promociones diferentes que las que utilizo con las personas que ya conocen mi establecimiento; entre otras razones porque debo convencerles de que cambien sus hábitos (ir a una playa diferente) para que lleguen hasta mi negocio.

Los puntos rojos de la Figura 3 nos muestran por dónde se han movido nuestros individuos playeros mientras no estaban disfrutando del mar. Conocer esto nos da una información muy valiosa, ya que nos dice dónde debemos enfocar nuestros esfuerzos de marketing para llegar a las personas que están interesadas en ir a la playa pero que aún no han ido, así que son las zonas donde es mejor colocar publicidad sobre mi bar. ¿Por qué? Porque es mucho mejor que se planteen ir a una playa distinta cuando aún tienen la posibilidad de decidir a donde ir, y no tanto cuando ya están en una playa diferente a la que a mí me interesa que vayan.

¿Y si hablamos de política?

En nuestro ejemplo hemos usado algo tan inocuo como ir a una playa u a otra en función de la oferta de ocio que hay alrededor. Nada que nos vaya a cambiar radicalmente la vida. Pero pensemos por un momento lo que se podría llegar a hacer con estos datos en otro ámbito distinto, como podría ser la política.

Gracias a los patrones agregados de movilidad podríamos saber, con bastante más precisión que preguntando al azar, dónde viven y en qué trabajan las personas que van a una concentración de protesta o un mitin político. De este modo, podríamos adaptar los mensajes en campaña en función de los problemas concretos que padece la gente que vive en el barrio X. También podríamos usar esta información para saber en qué zonas debemos trabajar más para llegar a otros votantes o en qué problemas laborales y económicos debemos fijarnos para retener la atención de nuestros votantes.

¿Y qué pasaría si un día llega al poder alguien que no tiene muchos escrúpulos? Confiamos en el Estado de Derecho porque ahora, con sus limitaciones, funciona. Pero la historia está llena de ejemplos en los que este tipo de instituciones desaparecen de un día para otro. Los controles existen porque se cumplen, y eso permite que la información que usa el poder político esté controlada, pero si un día desaparecen esos controles la información que custodian no se irá con ellos. ¿Qué podría llegar a hacer un partido xenófobo y racista con esta información? Mejor no llegar a saberlo y pensar formas para protegernos antes de que tengamos que curarnos las heridas.