"Una revolución", en términos de técnica estadística, es por ejemplo que el Instituto Nacional de Estadística (INE) ya pueda recibir, procesar e incorporar al IPC los precios medios semanales de todos los productos que venden todos los hipermercados de una multinacional del comercio. El presidente del INE echó ayer un vistazo al futuro contando lo que ya está ensayando la institución que encabeza, e invitando a ver en las fuentes de datos masivos, en el "big data", "un campo muy amplio y muy ambicioso en el que trabajar" para acompasar al paso del tiempo la muy "lenta, minuciosa y conservadora" estadística oficial.

Juan Manuel Rodríguez Poo esbozó ayer en Oviedo los pasos que la institución está tanteando ya para adentrarse en un territorio de novísimas maneras de extraer información y de novedosas fuentes públicas y privadas de datos masivos de extraordinario volumen y precisión. Compuso a su alrededor un inventario de posibilidades y peligros en el que ganan claramente las primeras.

El economista cántabro, catedrático de Fundamentos de Análisis Económico, repasó en la Universidad de Oviedo las "experiencias piloto interesantes" que remiten al futuro inmediato de la estadística y que el INE ya ha traducido en ensayos. Habló del uso de los datos sobre geolocalizaciones de móviles para afinar estudios sobre la movilidad de personas, del aprovechamiento del rastro que dejan las tarjetas de crédito para componer estadísticas turísticas, de la extracción de información de sitios web mediante programas especializados -citó los precios inmobiliarios del portal Idealista- o un ejemplo reciente de acceso a datos de empresas privadas: han llegado a acuerdos, por ejemplo con Carrefour, para obtener, e incorporar al IPC, referencias semanales actualizadas de los precios de los productos que venden en todos sus hipermercados de España?

El INE, que este año cumple 75 años, ha partido del "sufrido agente de campo", del puerta a puerta, el teléfono fijo y los cuestionarios de papel para llegar a este rastreo intensivo de datos en la fronda informativa de la sociedad ultraconectada del siglo XXI, a esta capacidad de acceso casi ilimitada a todo tipo de datos de una enorme variedad de fuentes. Como consecuencia, las técnicas estadísticas "se están desarrollando de una manera muy importante". Los técnicos de análisis de datos masivos, dijo Rodríguez Poo a los alumnos de Económicas que le escuchaban, "están muy bien remunerados".

A sala desbordada en la Facultad de Economía y Empresa, ante un auditorio de un centenar largo de estudiantes, profesores e investigadores de la Universidad de Oviedo, Rodríguez Poo estiró todas las posibilidades que se le abren a la estadística en la "sociedad de los datos" que daba título a su charla. Recordando que en este ámbito muy garantista no caben los saltos abruptos de una técnica a otra -de ahí las experiencias "piloto"-, el presidente del INE enfocó la disertación hacia el futuro, sin dejar atrás los riesgos ni las respuestas a las sospechas que puede generar el acceso a tan ingente abundancia de datos. Ya ha experimentado en carne propia los recelos sobre la intimidad, la seguridad, la custodia de la información. Ayer retrocedió hasta noviembre del año pasado y recordó las prevenciones de seguridad e intimidad colectivas que generó la divulgación del acuerdo de la institución con las principales operadoras de telefonía móvil para tener acceso a los datos de geolocalización y movimiento de sus usuarios.

Se asustó, cuenta, al oír por ejemplo "el disparate de que estábamos escuchando conversaciones telefónicas" y tras asumir que entonces cometieron un "error de comunicación" dedicó mucho tiempo a asegurar que "el INE no sigue a nadie, cuenta datos" garantizando el anonimato, que "a efectos de seguridad y secreto estadístico" es "una cámara sellada". Resulta importante destacarlo para delimitar el trabajo de una institución que tiene "legitimidad para entrar en casi todos los sitios", pero a la que la ley también obliga a "guardar el secreto". "La información que detentamos en el INE es confidencial y no puede ser suministrada a ningún otro organismo de la Administración", remarcó.

Garantizado eso, el campo de posibilidades que abre el "big data" tiene ventajas capaces de rebajar los "costes altísimos" del muestreo tradicional y entre otras cuestiones mejora "la velocidad con la que recibimos los datos" o su "nivel de desagregación", pero plantea riesgos porque genera "ruido", tiene "comportamientos estacionales muy fuertes" e incluye algún sesgo "malvado" como el de la homogeneidad en el espacio o el de la "autoselección", que se plantea por ejemplo cuando se recopilan datos de uso de tarjetas de crédito y se repara en que no todo el mundo tiene. Son sin embargo problemas conocidos de otros tipos de estudios estadísticos y "sabemos cómo tratarlos".

Como emblema de la evolución, y de los pasos que se dan poco a poco, el "censo de población y viviendas" que el INE produce cada diez años era hasta 2001 un "censo exhaustivo" que se elaboraba contratando a "no recuerdo los miles de encuestadores". "Para el de 2021 se realizará una encuesta, porque hay que hacerla, pero se elaborará casi en su totalidad cruzando registros administrativos, de ellos el más importante el padrón de habitantes".