Inteligencia Artificial
Podríamos quedarnos sin información para "alimentar" a la IA en 2026
Esto alteraría la trayectoria de la revolución de la Inteligencia Artificial, que se encuentra en pleno auge
Pablo Javier Piacente
Los investigadores advierten que podríamos quedarnos sin datos para nutrir a la Inteligencia Artificial (IA) en solamente tres años. Los científicos creen que la industria podría estar quedándose sin datos de entrenamiento, el "combustible" que hace funcionar los potentes sistemas de IA. Esto podría frenar el crecimiento de los modelos de Inteligencia Artificial, sobretodo en el caso de los modelos de lenguaje grande o extenso (MLL, según las siglas en inglés).
Un artículo publicado recientemente en The Conversation y un estudio que apareció en 2022 en ArXiv concluyen que existen amplias probabilidades de que la industria ligada a la Inteligencia Artificial (IA) afronte la carencia de datos de alta calidad para alimentar y entrenar a sus modelos sobre 2026. De confirmarse esta situación, se podría producir un freno en el desarrollo de la IA, que actualmente alcanza la cima de su popularidad.
¿La IA se queda sin datos para entrenarse?
La Inteligencia Artificialsustenta su capacidad para construir discursos coherentes y ofrecer soluciones útiles para la humanidad a partir de un “alimento” básico: los datos y la información. Los mismos hacen posible el entrenamiento de los modelos de lenguaje grande (MLL), que han propiciado avances como ChatGPT, la aplicación de chatbot que presenta una conversación fluida similar a la comunicación humana.
De esta manera, la calidad y cantidad de los datos empleados en estos entrenamientos son vitales para el éxito de los sistemas de IA, como indica en The Conversation la especialista Rita Matulionyte, de la Universidad Macquarie, en Australia. Por ejemplo, ChatGPT se entrenó con 570 gigabytes de datos de texto, o alrededor de 300 mil millones de palabras. Pero la cantidad no es suficiente: también se requiere información confiable y precisa.
La calidad de los datos puede marcar el camino que tomará la IA: sistemas artificiales que propician el desarrollo tecnológico y económico o propuestas que pueden volverse hasta peligrosas para la humanidad. Por ejemplo, el texto tomado de las plataformas de redes sociales puede ser sesgado o prejuicioso, o puede incluir desinformación o contenido ilegal que el modelo podría replicar. Cuando Microsoft intentó entrenar su robot de IA utilizando contenido de Twitter, el modelo aprendió a producir resultados racistas y misóginos.
Un cuello de botella a superar
Debido a esto, las empresas que compiten por el dominio del segmento de la IA requieren una cantidad cada vez mayor de datos e información de calidad, provenientes de portales digitales reconocidos, artículos científicos, textos elaborados por expertos e incluso contenido digitalizado que se produjo antes de Internet, disponible en principio en libros o enciclopedias, por ejemplo. Al parecer, esta necesidad creciente podría derivar en la saturación de la oferta disponible.
Según un estudio liderado por el científico Pablo Villalobos, que apareció el año pasado en ArXiv, esta situación propiciará que el texto de alta calidad disponible para el entrenamiento de IA se agote antes de 2026, si continúan las tendencias actuales. Los investigadores también estimaron que los datos lingüísticos de baja calidad se agotarán entre 2030 y 2050, y los datos de imágenes de baja calidad entre 2030 y 2060.
Para hacer frente a este “cuello de botella” que deberá superar la IA, algunas empresas del sector están optando por el llamado contenido sintético, o sea un tipo de contenido elaborado artificialmente para el propio consumo de los sistemas de IA. Al mismo tiempo, los expertos creen que otra posible salida será ofrecer un mayor reconocimiento económico a los creadores de contenidos digitales, cuyo material es aprovechado actualmente de forma gratuita en el entrenamiento de la mayoría de los modelos de IA.
Referencia
Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. Pablo Villalobos et al. ArXiv (2022). DOI:https://doi.org/10.48550/arXiv.2211.04325
- Buenas noticias para los padres con hijos en el colegio nacidos después de 2006: el regalo de 1.700 euros que van a recibir si cumplen este requisito
- Luitingo presume feliz de su nueva paternidad con Jessica Bueno: 'Te quiero y te querré, mi niño
- Adiós a Paz Herrera de El Cazador: el programa de La 1 ya tiene a su nuevo Óscar de Pasapalabra
- Buenas noticias para los mayores de 66 años: el regalo de 1.789 euros en total que van a recibir en los meses de verano
- Víctor Sandoval se pronuncia sobre su salida del nuevo Sálvame tras el nuevo fichaje del programa: 'Este ya me quita el sitio
- Adiós a Manu en Pasapalabra: esto es lo que ha pasado con el nuevo Moisés tras su derrota
- Detenido en Oviedo un peruano pendiente de expulsión del país desde 2022 tras ser sorprendido conduciendo un patinete de forma temeraria
- Adiós al mosquito en la habitación: el método japonés que los destierra para siempre