Inteligencia Artificial

Podríamos quedarnos sin información para "alimentar" a la IA en 2026

Esto alteraría la trayectoria de la revolución de la Inteligencia Artificial, que se encuentra en pleno auge

Un nuevo análisis indica que el stock de datos lingüísticos de alta calidad para entrenar a los modelos de IA se agotará pronto, probablemente antes de 2026, de acuerdo a las tendencias actuales. / Crédito: kiquebg en Pixabay.

Pablo Javier Piacente

13 NOV 2023 12:13 Actualizada 17 NOV 2023 12:57

Los investigadores advierten que podríamos quedarnos sin datos para nutrir a la Inteligencia Artificial (IA) en solamente tres años. Los científicos creen que la industria podría estar quedándose sin datos de entrenamiento, el "combustible" que hace funcionar los potentes sistemas de IA. Esto podría frenar el crecimiento de los modelos de Inteligencia Artificial, sobretodo en el caso de los modelos de lenguaje grande o extenso (MLL, según las siglas en inglés).

Un artículo publicado recientemente en The Conversation y un estudio que apareció en 2022 en ArXiv concluyen que existen amplias probabilidades de que la industria ligada a la Inteligencia Artificial (IA) afronte la carencia de datos de alta calidad para alimentar y entrenar a sus modelos sobre 2026. De confirmarse esta situación, se podría producir un freno en el desarrollo de la IA, que actualmente alcanza la cima de su popularidad.

¿La IA se queda sin datos para entrenarse?

La Inteligencia Artificialsustenta su capacidad para construir discursos coherentes y ofrecer soluciones útiles para la humanidad a partir de un “alimento” básico: los datos y la información. Los mismos hacen posible el entrenamiento de los modelos de lenguaje grande (MLL), que han propiciado avances como ChatGPT, la aplicación de chatbot que presenta una conversación fluida similar a la comunicación humana.

De esta manera, la calidad y cantidad de los datos empleados en estos entrenamientos son vitales para el éxito de los sistemas de IA, como indica en The Conversation la especialista Rita Matulionyte, de la Universidad Macquarie, en Australia. Por ejemplo, ChatGPT se entrenó con 570 gigabytes de datos de texto, o alrededor de 300 mil millones de palabras. Pero la cantidad no es suficiente: también se requiere información confiable y precisa.

La calidad de los datos puede marcar el camino que tomará la IA: sistemas artificiales que propician el desarrollo tecnológico y económico o propuestas que pueden volverse hasta peligrosas para la humanidad. Por ejemplo, el texto tomado de las plataformas de redes sociales puede ser sesgado o prejuicioso, o puede incluir desinformación o contenido ilegal que el modelo podría replicar. Cuando Microsoft intentó entrenar su robot de IA utilizando contenido de Twitter, el modelo aprendió a producir resultados racistas y misóginos.

Un cuello de botella a superar

Debido a esto, las empresas que compiten por el dominio del segmento de la IA requieren una cantidad cada vez mayor de datos e información de calidad, provenientes de portales digitales reconocidos, artículos científicos, textos elaborados por expertos e incluso contenido digitalizado que se produjo antes de Internet, disponible en principio en libros o enciclopedias, por ejemplo. Al parecer, esta necesidad creciente podría derivar en la saturación de la oferta disponible.

Según un estudio liderado por el científico Pablo Villalobos, que apareció el año pasado en ArXiv, esta situación propiciará que el texto de alta calidad disponible para el entrenamiento de IA se agote antes de 2026, si continúan las tendencias actuales. Los investigadores también estimaron que los datos lingüísticos de baja calidad se agotarán entre 2030 y 2050, y los datos de imágenes de baja calidad entre 2030 y 2060.

Para hacer frente a este “cuello de botella” que deberá superar la IA, algunas empresas del sector están optando por el llamado contenido sintético, o sea un tipo de contenido elaborado artificialmente para el propio consumo de los sistemas de IA. Al mismo tiempo, los expertos creen que otra posible salida será ofrecer un mayor reconocimiento económico a los creadores de contenidos digitales, cuyo material es aprovechado actualmente de forma gratuita en el entrenamiento de la mayoría de los modelos de IA.

Referencia

Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. Pablo Villalobos et al. ArXiv (2022). DOI:https://doi.org/10.48550/arXiv.2211.04325

TEMAS

Inteligencia artificial

Comenta esta noticia

RRSS WhatsApp RRSS Facebook RRSS Twitter RRSS email Copiar URL

Nazanin Bionadi, la actriz que alza la voz en favor de las mujeres iraníes, sobre la muerte de Raisi: "No lo echaremos de menos"

19:36

Podríamos quedarnos sin información para "alimentar" a la IA en 2026

Esto alteraría la trayectoria de la revolución de la Inteligencia Artificial, que se encuentra en pleno auge

¿La IA se queda sin datos para entrenarse?

Un cuello de botella a superar

Referencia

TEMAS

Cirsa gana 15,4 millones en el primer trimestre, un 16,7 % menos, e impulsa sus ingresos

La exmujer de Antonio David Flores reaparece tras los rumores de ruptura: "No voy a decir nada, de verdad"

Las europeas ponen a prueba la resistencia de Sánchez tras la amnistía y el recorrido de Feijóo

Nazanin Bionadi, la actriz que alza la voz en favor de las mujeres iraníes, sobre la muerte de Raisi: "No lo echaremos de menos"

La nuclear de Ascó para de forma imprevista para una reparación

Herido un motorista tras ser arrollado por un turismo en la calle Ezcurdia (Gijón)

Nuevo cambio MasterChef: el concurso mueve su programación una vez más

La crítica de Monegal: El día que Antena 3 informó en directo para Telecinco