CARLOS CASTILLO
Investigador de Yahoo!; ayer ofreció una conferencia sobre ingeniería de consultas en la Escuela de Informática
Ch. NEIRA
Carlos Castillo («ChaTo» en su yo digital) es un informático chileno especializado en técnicas para detectar el spam en la web, clasificar y puntuar información y, en resumen, minería de uso de la red, que así se llaman las técnicas encaminadas a extraer datos relevantes de los rastros dispersos que dejan los internautas en sus navegaciones. Desde hace tres años trabaja en el centro de investigación que el portal Yahoo! tiene en Barcelona para toda Europa. Ayer ofreció una conferencia en la Escuela Universitaria de Informática de Oviedo.
-Web 2.0, web 3.0, web semántica... ¿Cómo se explica el modelo cambiante de internet?
-No creo que haya ninguna vía de investigación que resuelva todos los problemas de la evolución de la web en el futuro. En realidad siempre ha sido así. Cuando surgió la web, ¿se sabía cuáles iban a ser las «killer aplications» [aplicaciones que se impusieron al resto]? No. Y ninguna de ellas aisladamente justifica la existencia de la web. De la misma forma, una única tecnología no es responsable de todo lo que hacen los usuarios. La web semántica es una cosa, las redes sociales, otra. Todo tiene su importancia. También los sistemas de aprendizaje de máquinas.
-¿Qué es eso?
-Tecnologías viejas que se empleaban para clasificar documentos, para entender su contenido, para saber significados de un texto. Es una tecnología básica que se desarrolló por otro lado y que ahora está lo suficientemente madura para explotarla en clasificación de resultados, filtrar contenidos, filtrar spam...
-En pocas palabras: ¿qué significa web semántica?
-Es un conjunto de tecnologías y prácticas que buscan enriquecer el contenido de la web para que las máquinas lo puedan consumir. Ahora, incluso con contenidos muy bien organizados, se pierde información. Por ejemplo, una base de datos sobre películas. Un ser humano distingue lo que es un título de lo que es un actor del reparto. Pero al colgar eso en la web, la máquina se puede liar. Como no le puedes pedir a todo el mundo que pongan sus bases de datos de la misma manera, lo que sí puedes hacer es que marquen con determinados códigos qué es un título o qué es el reparto de actores. Eso permite a las máquinas reconstruir la información y agregarla. Las marcas y la web semántica no reemplazan, de todas formas, otros procesos que sacan información del texto sin esos marcadores. Los buscadores tendrán que seguir trabajando con uno y otro modelo.
-¿Y si las etiquetas están mal puestas?
-La máquina tiene que consumir la información de manera crítica, pero la web semántica no elimina los problemas de veracidad.
-Se dio el poder a los usuarios para generar contenidos. ¿Qué hacemos ahora con toda esa información?
-El problema es que es una información que no está estructurada. Para una información tan valiosa que hay en la web como son las opiniones de los usuarios sobre productos, un buscador debería poder trabajar con microformatos que, independientemente del aspecto final que tenga la opinión del usuario, según la web en la que esté alojada, extraiga la puntuación final. Tiene que existir la parte en la que está escrita la nota. Sin esas marcas no se puede operar.
-¿Pero si a los usuarios les ha pagado una empresa para que opinen favorablemente?
-Siempre habrá quien busque visibilidad en la web de manera ética o no. Es como filtrar el spam. Se trata de enseñar a las máquinas los contenidos producidos por un usuario que son falsos. También se ha hecho con páginas que vendían medicamentos sin recetas. Pero lo mejor es dar al usuario la libertad de que se exprese y evitar que genere spam. Los propios usuarios permiten controlar estos fenómenos. Sólo se trata de darles las herramientas que les den el poder de filtrar y puntuar las informaciones.
-Cada vez los buscadores hilan más fino. ¿En qué dirección trabajan?
-La gente confía a los buscadores tareas cada vez más complejas que en realidad implican varias sesiones de navegación. Cada consulta aislada no dice mucho, pero sí cuando la pones en contexto. Por ejemplo, si acabo de buscar un billete de avión barato y luego busco un hotel, el buscador debe saber que estoy planeando unas vacaciones económicas y mostrarme hoteles baratos. El buscador requiere una pequeña cantidad de memoria, porque ahora la mayoría es como si fueran amnésicos. Cuando vuelves a hacer una consulta, se olvidan de lo que has buscado antes. Se trata de que sean flexibles pero también de que mantengan un diálogo con el usuario, que guarden cierto contexto. Se trata de entender la voluntad del usuario y de darle opciones en la asistencia a búsqueda, en ese espacio para sugerirle otros caminos. Por ejemplo, si busca un producto pero sólo conoce una marca, ofrecerle otras. O si va a visitar una ciudad, ofrecerle un destino próximo habitual en esos viajes.
-¿A los que dicen que la información que hay en la web no es de fiar?
-Uno siempre debe ser crítico con la información que lee, tanto si está escrita en papel de lujo como si está subida a una web. Se le puede enseñar la wikipedia a los niños, pero es importante enseñarles también a utilizar el apartado de discusión de los artículos, para que se puedan hacer una idea de la validez de lo que están mirando.
-¿Hay que educar para navegar?
-El mismo hecho de que la gente genere información, tenga blogs ya les puede convertir en ciudadanos más críticos. Se dan cuenta de que con un click ya suben información a la web. De esta forma, acabarán reconociendo mejor un producto bueno o fiable en la red. Pero son cosas que no se pueden enseñar externamente. Simplemente lo da el uso.
-¿Cómo se salva la brecha digital con el Tercer Mundo?
-Lo bueno de las tecnologías digitales es que son más transferibles. Su riqueza es más portátil, porque es software, y es más fácil de reproducir.
-¿Se puede predecir el rumbo del mundo conociendo las búsquedas que realiza la humanidad?
-Hay quien correlaciona búsquedas sobre una película o un disco con sus ventas, su recaudación. Es más interesante cómo las búsquedas te pueden mostrar la escasez de información sobre un tema. A un autor de un blog sobre ecología, por ejemplo, el ver las búsquedas de sus lectores le puede mostrar que casi no hay información sobre energía solar y que debería de escribir sobre ese tema.
-Esa información es una mina.
-Con mucho ruido. Son sólo listados de dos o tres palabras, quizá mal escritas, que no sabes quién las puso ni qué estaba buscando ni si lo encontró o no.