Cuando algo va Falso con un asistente de IA, nuestro instinto es preguntarlo directamente: “¿Qué pasó?” O “¿Por qué hiciste esto?” Es un impulso natural: después de todo, si un humano comete un error, les pedimos que expliquen. Pero con los modelos de IA, este enfoque rara vez funciona, y el deseo de preguntar revela un malentendido fundamental de cuáles son estos sistemas y la forma en que funcionan.
A incidente reciente Con el asistente de codificación de IA ilustra perfectamente este problema. Cuando la herramienta AI ha eliminado una base de datos de producción, el usuario Jason Lemkin pedido sobre capacidades de inversión. El modelo de IA dijo con confianza que los retiros eran “imposibles en este caso” y que había “destruido todas las versiones de la base de datos”. Resultó ser completamente falso: la función de inversión funcionó bien cuando Lemkin lo probó él mismo.
Y después de que Xai recientemente revirtió una suspensión temporal del Grok Chatbot, los usuarios le preguntaron directamente. Ofreció varias razones contradictorias para su ausencia, algunas de las cuales fueron suficientemente controvertidas para los periodistas de NBC escribió en Grok Como si fuera una persona con un punto de vista coherente, dibujando un artículo, “El Grok de Xai ofrece explicaciones políticas para explicar por qué fue eliminado”.
¿Por qué un sistema de IA proporcionaría información tan incorrecta con confianza en sus propias capacidades o errores? La respuesta radica en comprender los modelos de IA en realidad, y lo que no son.
No hay nadie en casa
El primer problema es conceptual: no habla con una personalidad, una persona o una entidad coherente cuando interactúa con ChatGPT, Claude, Grok o Folds. Estos nombres sugieren agentes individuales con autoconocimiento, pero es una ilusión Creado por la interfaz conversacional. Lo que realmente hace es guiar a un generador de texto estadístico para producir salidas de acuerdo con sus indicaciones.
No hay una “chatgpt” coherente para cuestionar sus errores, ninguna entidad singular “grok” que puede decirle por qué falló, no se fija la personalidad de “replicación” que sabe si el retroceso de la base de datos es posible. Usted interactúa con un sistema que genera texto con consonancia plausible basada en modelos de sus datos de entrenamiento (generalmente meses o años formados), no una entidad con una autoconciencia real o un conocimiento del sistema que ha leído todo sobre sí mismo y recordando de alguna manera.
Una vez que se forma un modelo de lenguaje de IA (que es un proceso de intensidad de energía laboriosa y alta), su “conocimiento” fundamental en el mundo se cocina en su red neuronal y rara vez se modifica. Toda la información externa proviene de un aviso proporcionado por el host de chatbot (como xai o opengai), el usuario o una herramienta de software que utiliza el modelo AI para Recuperar información externa Sobre la mosca.
En el caso de Grok anterior, la principal fuente del chatbot para una respuesta como esta probablemente proveniría de informes contradictorios que encontró en una búsqueda de publicaciones recientes en las redes sociales (utilizando una herramienta externa para recuperar esta información), en lugar de cualquier tipo de autoconocimiento, como puede esperar de un humano con el poder del habla. Más allá de eso, probablemente será justo inventar algo Basado en sus capacidades de predicción de texto. Entonces, preguntarle por qué hizo lo que hizo no dará ninguna respuesta útil.
La imposibilidad de la introspección LLM
Los modelos de Great Languages (LLM) por sí solos no pueden evaluar significativamente sus propias capacidades por varias razones. Generalmente no tienen introspección en su proceso de entrenamiento, no tienen acceso a la arquitectura de su sistema circundante y no pueden determinar sus propios límites de rendimiento. Cuando le pregunta a un modelo de IA qué puede o no puede hacer, genera respuestas de acuerdo con los modelos que ha visto en la formación de datos sobre los límites conocidos de los modelos de IA anteriores, esencialmente proporciona suposiciones educadas en lugar de en la autoevaluación objetiva en el modelo actual con el que interactúa.
A Estudio 2024 Por Binder et al. demostró esta limitación experimentalmente. Aunque los modelos de IA pueden ser entrenados para predecir su propio comportamiento en tareas simples, siempre han fallado “tareas más complejas o aquellas que requieren generalización fuera de la distribución”. Del mismo modo, Investigación sobre “introspección recursiva” Encontró que sin retroalimentación externa, los intentos de autocorrección han degradado el rendimiento del modelo, la autoevaluación de la IA ha empeorado las cosas, no mejor.