ChatGPT es capaz de responder, de forma virtual, a cualquier pregunta que el usuario haya realizado en caso de una segunda pregunta. Sin embargo, es posible (mucho) que la herramienta sea totalmente fiable. Bien lo sabe Sam Altman, director ejecutivo de la empresa OpenAI, creadora de la máquina; por eso, siempre que hay oportunidad, recuerdo todo lo que se debate para escuchar los “tonos” que son las soluciones que crean texto e imágenes a partir de las palabras del día. También estará alerta de los errores que surjan. Errores que en muchos casos sirven para entrar directamente en los algoritmos como lo mismo. Sí, este es un problema que podría ser mucho más grave en el futuro.
Según un estudio publicado en 'Nature', el uso de datos generados directamente por inteligencia artificial para herramientas de formación como ChatGPT Puedo causar que este colapso tenga lugar y muestra discreción en tus resultados, que además serán modestos y mucho más limitados.
“Imaginemos a un estudiante que estudia sus propias habilidades solo, copia una parte de una pieza con una forma incorrecta, ignorando por completo el libro de texto de la clase y las lecciones correspondientes. También se coincide en que los errores son correctos y que proporcionan una comprensión sólida de los propios errores”, explica el ABC. Ilia ShumailovInvestigador de la Universidad de Oxford (Reino Unido) y autor principal del estudio.
Shumailov dice que el exalumno tiene buenos datos, que son erróneos y muy limitados, y «aquí ocurre algo parecido con los modelos (IA)»: «Se convencen a sí mismos de que los errores son unea fuente de verdad y que los hallazgos probables son lo más importante de lo que es en realidad”.
una raza de perro
El auge de ChatGPT y la llamada roja de muchas soluciones de IA generativa similares, como el caso de Geminisde Google, o Lama, de Meta, ha provocado que en los últimos meses el número de contenidos generados por inteligencia artificial haya aumentado considerablemente en Internet. Es fácil entrar en páginas web y ver que las imágenes que el ciudadano ha creado son máquinas, y esto también pasa con los textos.
El problema es que para crear todo este contenido previamente han entrado máquinas con información publicada tanto en Internet como en blogs, portales de notificaciones o redes sociales. Y dentro del rojo, como decíamos, ahora, y cada día más en el futuro, también encontramos texto e imágenes generados por IA, que ya estás activado para poder utilizar las herramientas, entre otras ChatGPT.
«Si observa la información correspondiente a GPT, encontrará que utiliza algunos datos sintéticos durante el proceso de registro», dice Shumailov.
El estudio, efectivamente, asegura que el uso de los datos generados provoca que las herramientas de IA colapsen, y esto provocará, con el tiempo, una menor precisión en sus resultados, y, por tanto, que puedan contener cada vez más personas y de forma limitada. También elementos antiguos de nuestros datos de entrenamiento originales y ocurre solo con lo que es recurrente en la forma, como señala Emily Wenger, ingeniera informática de la Universidad de Duke, en un análisis del estudio.
Wenger dice que, por ejemplo, una herramienta para generar imágenes de perros tiende a replicarse en sus resultados, con las razones más comunes por las que se interactúa con los datos. Por tanto, si tienes mucha información sobre el golden retriever, podrás descubrir todos los problemas. Y si los modelos futuros incorporan datos generados por IA que representen fielmente este tipo concreto de perro, el problema empeorará. En ese punto, el modelo generará imágenes de esa clase de plegado por sí solo en el proceso..
“Cuando el contenido generado por IA se incluye en los conjuntos de datos que se utilizan para impulsar los modelos, esos modelos aprenden a generar conceptos, frases y tonos conocidos más fácilmente que las ideas y formas de escritura humanas comunes. Ese es el problema”, dijo el ingeniero.
Shumailov y sus colegas creen que hay una manera de evitar que una máquina generadora de contenidos colapse. “Hay varias formas posibles, aunque la literatura académica actualmente carece de una comprensión clara de lo que puede ser útil. En primer lugar, siempre debemos comprobar los modelos de medio plazo, certificar explícitamente el desuso de datos minoritarios”, indicó el investigador de Oxford.
«En segundo lugar, es necesario asegurarse de que los datos se filtren y no incluyan puntos de datos incorrectos o corruptos en el proceso», continúa. De hecho, el estudio aborda la necesidad de que las empresas de desarrollo de IA, como OpenAI, desarrollen estrategias que mitiguen el impacto de la colaboración de sus herramientas para ayudar a que sea más precisa y eficiente en este momento. Por lo tanto, además, la cantidad de contenido generado por una IA promedio disponible en números rojos no va a disminuir de inmediato. Pero haz todo lo contrario.