¿Por qué los agentes de IA aún fracasan en tareas de trabajo autónomo?

¿El trabajo de oficina corre peligro? La sorprendente verdad sobre si la IA puede o no con el freelance.
¿Alguna vez les ha surgido la duda de si este o el otro año será cuando nos reemplazará un robot? Tranquilos, es un pensamiento que nos persigue a todos.
Los titulares gritan a todo pulmón que la IA generativa está muy próxima a arrasar con los trabajos de oficina. Hablamos del reemplazo de un copy writter, un asistente personal o hasta un diseñador audiovisual.
El CEO de Anthropic, Dario Amodei, predice que la IA podrá reemplazar al 90% del trabajo de los programadores en menos de 12 meses.
Todo apunta a que estamos al borde de la revolución en las que las computadoras serán tomadas por un ejercito de bits inteligentes. ¿Pero qué pasaría si les digo que la realidad, por el momento, es mucho más... torpe?
Contenido relacionado: ¿Qué son los agentes de IA basados en LLMs?
Poniendo a prueba a los agentes de IA
Los investigadores de la empresa de anotación de datos Scale AI y el Centro para la Seguridad de la IA (CAIS) prefirieron poner a prueba los agentes en el mundo real y crearon un algo llamado Índice de trabajo remoto. La idea fue simple: dar a estos modelos tareas de trabajo autónomo.
Imaginemos a un grupo de freelancers que fueron contratados para hacer ciertas tareas:
Edición de video: "corta y monta estas tomas y crea un anuncio de 30 segundos".
Diseño gráfico: "crea un logo sobrio para una cafetería".
Tareas administrativas: "analiza las siguientes hojas de vida y preselecciona los que tengan más de 2 años de experiencia".
Para esto les proporcionaron la descripción de la tarea, los archivos necesarios y un ejemplo de una tarea similar finalizada por un humano.
Los resultados
Si esperaban una sorprendente conclusión a este experimento, lamento decirles que la realidad es un poco más decepcionante.
Los investigadores ya tenían calculado que se ganaba un total de 143.991 dólares estadounidenses por completar todas las tareas. Pero las máquinas solo lograron un total de 1.819 dólares estadounidenses, menos del 3% del trabajo total.
"Espero que esto dé una impresión mucho más precisa de lo que está ocurriendo con las capacidades de la IA", concluyó el director de CAIS, Dan Hendrycks.
Pero tampoco nos vayamos al extremo. No es que la IA sea completamente inútil. Lo que sucede es que es increíblemente especializada. Es como tener al mejor chef del mundo, pero que no sepa cómo se prende la estufa o dónde están los cuchillos.
Contenido relacionado: Podcast TI para ti: ¿Qué es el razonamiento de IA?
El ranking del error
Aquí está la tabla de posiciones, del más capaz al menos capaz. Sin embargo, recuerden que todos quedaron por debajo del 3%:
Manus (de una startup china)
Grok (de xAI, la empresa de Elon Musk)
Claude (de Anthropic)
ChatGPT (de OpenAI)
Gemini (de Google)
A pesar de que la Inteligencia Artificial ha mejorado drásticamente en múltiples habilidades, tales como codificación o razonamiento lógico, la verdad es que el mundo real es una batalla completamente diferente.
¿Por qué el fallo?
La pregunta sería por qué estas herramientas que escriben poemas y crean código en segundos tienen un bajo desempeño en las tareas cotidianas de una oficina.
La respuesta es lo que los humanos hacemos sin esfuerzo y la IA no puede: la interacción compleja y el contexto.
Razón #1 : la memoria y la herramienta
No pueden usar herramientas externas. Un freelancer humano a menudo requiere entrar en un navegador, una hoja de calculo, un correo o un editor de video y luego saltar a otra herramienta. A la Inteligencia Artificial le toca luchar por integrar y operar las múltiples herramientas y programas en un solo lugar.
No tienen memoria a largo plazo. Cuando trabajamos en algún proyecto, los humanos normalmente sabemos lo que hicimos ayer y cómo afecta eso en el flujo de trabajo de hoy. Los modelos de IA son algo olvidadizos y, aunque puede que recuerden la solicitud más reciente, tal vez ya se les haya olvidado lo que les pidieron hace 3 días.
Les cuesta seguir múltiples pasos. A veces una simple tarea como diseñar un logo puede tener al menos 15 pasos intermedios. Para los modelos de IA, esto es un poco confuso y suelen perderse en el camino. Para cualquier oficinista, sería pan comido.
Razón #2: el toque humano
La comunicación y retroalimentación, aunque no fueron factores directamente medidos, estuvieron indirectamente muy presentes en la conclusión del experimento.
Cuando un freelancer entrega un borrador, el cliente o jefe le puede decir "Me gusta, ¿pero podríamos hacerlo un poco más extravagante y cambiar la fuente por una que vaya más con la personalidad de la marca?". Ese directo mensaje es la kriptonita para la IA. Requiere comprensión de la intención, inferencia y ajustes constantes.
Contenido relacionado: ¿Cómo usar IA generativa en el trabajo?
La IA es un copiloto, no un piloto

Funcionamiento de un agente de IA | Amazon Web Services
Las anteriores olas de información sobre la IA, las que decían que esta herramienta iba a reemplazarnos a todos en poco tiempo, ya nos enseñaron una lección: las predicciones de desempleo masivo causado por la IA a menudo son erróneas.
En este caso, la transformación digital en este caso no es de reemplazo, sino de asistencia. La IA puede ser nuestro copiloto en este viaje, pero por el momento no tiene la licencia de conducción aprobada para tomar el volante por completo.
Así que en vez de tenerle miedo a la extinción laboral, deberíamos enfocarnos en aprovechar esas herramientas para aumentar todos los niveles de productividad y poder trabajar en conjunto.
Por ahora podemos respirar hondo, tomar un café y seguir confiados de que nuestro trabajo en oficina tiene un cierto factor de complejidad que la IA aún no llega a dominar.