OpenAI revela un nuevo algoritmo para sus IAs
800 Noticias | Foto: Referencial
OpenAI ha lanzado un nuevo algoritmo para entender mejor a sus IAs, y más específicamente, a sus modelos de lenguaje pequeños —tales como ChatGT— que se nutren de otros modelos de lenguaje de mayor tamaño —como GPT-4— para responder las dudas o cualquier consulta que realiza el usuario. El objetivo, según la compañía, es que los modelos más débiles puedan crear textos que los humanos puedan entender de una manera más efectiva y, por ende, mejorar la legibilidad de los mismos.
En un artículo publicado por la propia OpenAI y titulado “Los juegos de comprobación y verificación mejoran la legibilidad de los resultados de los LLM”, la compañía destaca que hasta ahora han optimizado “el proceso de resolución de problemas de modelos sólidos” con el objetivo de únicamente obtener una respuesta correcta. Pero que, sin embargo, en la mayoría de ocasiones estas soluciones pueden ser difíciles de entender.
La solución para este problema es crear un sistema de juegos de comprobación y verificación, donde, por un lado, se garantiza que la respuesta que ofrece la IA sea correcta, a la vez que fácil de entender por el usuario y fácilmente verificable por otros sistemas de IA.
Lo cierto es que este sistema de IA que está empezando a usar OpenAI para entrenar a sus modelos no es algo nuevo. De hecho, lo descubrieron en 2021 varios investigadores de aprendizaje automático de la Universidad de Toronto y el Instituto Vector de Inteligencia Artificial. Consiste en combinar dos modelos de IA: uno más potente que se encarga de probar, y otro menos avanzado; el verificador, cuyo cometido es —tal y como su propio nombre indica— verificar que el probador ha lanzado la respuesta correcta.
Después, el probador se dedica a ofrecer soluciones, tanto correctas como incorrectas, que intenten convencer al verificador, mientras que el objetivo del verificador es seleccionar la respuesta correcta, pese a que el probador, para distraerle, intente convencerle de que no lo es.
OpenAI, sin embargo, ha usado este sistema cambiando un poco las reglas: configuraron el modelo más avanzado para que fuera “útil” y diera la respuesta correcta al verificador (un modelo más simple) o, en cambio, “astuto” para que pudiese convencer al verificador de que su respuesta era correcta sin importar si lo era. El modelo menos inteligente no sabía si estaba tratando con un comprobador útil o astuto y tenía que evaluar las respuestas basándose solo en su propio entrenamiento sobre si eran correctas o no.
Con información de Hipertextual
Únete a nuestro canal de Telegram, información sin censura: https://t.me/canal800noticias