IA que utiliza computadoras como humanos

¿Es Claude Compute Use el futuro de las pruebas de extremo a extremo?

Walter Gandarella • 26 de octubre de 2024

Imagina: estás sentado en tu escritorio y, a tu lado, tienes un asistente virtual que no solo habla contigo, sino que también opera la computadora como si fuera una persona real. ¿Parece ciencia ficción? Pues bien, acaba de convertirse en realidad. Anthropic acaba de anunciar una actualización revolucionaria para su IA Claude, y esta vez va en serio: estamos hablando de un asistente que puede literalmente usar una computadora como tú y yo.

La Gran Novedad: Uso de Computadoras

El equipo de Anthropic decidió hacer algo diferente. En lugar de crear herramientas específicas para cada tarea (saben, esa historia de "para cada problema, un programa diferente"), enseñaron a Claude a usar la computadora como lo haría un ser humano. Es como enseñar a alguien a pescar en lugar de darle el pez; solo que en este caso, estamos enseñando a una IA a usar el ratón, mirar la pantalla y escribir.

Y no es solo palabrería vacía. Claude 3.5 Sonnet (la versión más poderosa del sistema) ya está mostrando resultados impresionantes. En pruebas en OSWorld, que evalúa cómo las IA se desenvuelven usando computadoras, alcanzó una puntuación del 14,9% en la categoría de visualización de pantalla, prácticamente el doble que el segundo clasificado, que obtuvo un mero 7,8%.

Poner Manos a la Obra (¿o sería el Ratón?)

El profesor Ethan Mollick, conocido por sus análisis sobre la IA, tuvo la oportunidad de probar el sistema y compartió algunas experiencias interesantes. Una de ellas consistió en pedirle a Claude que creara un plan de lección sobre "El Gran Gatsby". En lugar de quedarse solo en la conversación, la IA fue y realizó el trabajo completo: descargó el libro, investigó planes de lección en la web, abrió una hoja de trabajo y llenó todo por sí sola, incluyendo los enlaces a los estándares del Common Core (el currículo base estadounidense).

Pero la historia se vuelve aún más interesante cuando Mollick decidió probar el sistema con un juego llamado Paperclip Clicker (irónicamente, un juego sobre una IA que destruye a la humanidad en su obsesión por hacer clips de papel; ¿alguien ahí notó la ironía?). Claude no solo comprendió el juego, sino que desarrolló sus propias estrategias, realizó pruebas A/B de precios (aunque a veces interpretara los resultados de manera incorrecta) e incluso intentó automatizar el proceso escribiendo código.

Los Superpoderes del Nuevo Claude

La actualización de Claude 3.5 Sonnet no solo trajo la capacidad de utilizar computadoras. La IA también dio un salto significativo en sus capacidades de programación. En el benchmark SWE-bench Verified, subió del 33,4% al 49%, superando todos los modelos disponibles públicamente, incluyendo GPT-4 y sistemas especializados en codificación.

Las empresas que ya están probando el sistema informan mejoras impresionantes. GitLab, por ejemplo, encontró un aumento de hasta el 10% en el razonamiento en casos de uso de DevSecOps. La Browser Company afirma que Claude 3.5 Sonnet superó todos los modelos que habían probado anteriormente.

Una Revolución en las Pruebas de Software

Una de las aplicaciones más prometedoras de esta nueva capacidad es en el campo de las pruebas de software, especialmente en las pruebas end-to-end. Como desarrollador, siempre me he frustrado con la complejidad y el trabajo manual necesario para crear y mantener pruebas de interfaz. ¿Sabes esa historia de usar Selenium o herramientas similares? Es un proceso laborioso que requiere la escritura de scripts detallados para cada escenario de prueba.

Ahora, imagina poder simplemente hablar con una IA y decir: "Hey, necesito verificar si el flujo de registro del usuario está funcionando correctamente" o "¿Puedes probar si el carrito de compras está calculando los descuentos adecuadamente?". Claude podría navegar por la interfaz como un usuario real, ejecutando las pruebas y reportando los resultados; todo esto sin la necesidad de escribir una línea de código de prueba. Es como tener un QA automatizado que realmente comprende el contexto de lo que está probando.

Este enfoque no solo ahorraría tiempo valioso en el desarrollo, sino que también haría las pruebas más exhaustivas y naturales, ya que la IA puede interactuar con la interfaz exactamente como lo haría un usuario real. Es un cambio de paradigma que puede revolucionar la forma en que garantizamos la calidad de nuestras aplicaciones.

El Hermano Menor: Claude 3.5 Haiku

Junto a todas estas novedades, Anthropic también anunció Claude 3.5 Haiku, una versión más ligera y rápida del sistema. Lo interesante es que, a pesar de ser más "económico", logra superar al antiguo modelo de gama alta (Claude 3 Opus) en varias métricas de inteligencia. Es como tener un coche compacto con motor de Ferrari, ¡y gastando menos combustible!

Los Desafíos del Mundo Real

Por supuesto, no todo son rosas en el jardín de la IA. Como cualquier tecnología nueva, el sistema aún tiene sus limitaciones. A veces puede ser obstinado (como cuando insistió en mantener los precios bajos en el juego de los clips, incluso en contra de las instrucciones), y ciertas acciones que son triviales para nosotros, los humanos, como desplazarse por la página o arrastrar archivos, siguen siendo desafiantes para él.

Además, existe la preocupación por posibles usos maliciosos de la tecnología. Anthropic es consciente de esto e implementó clasificadores especiales para identificar cuándo se está utilizando el Uso de Computadoras y si está ocurriendo algún tipo de actividad perjudicial. Lo más fascinante de todo esto es la forma en que esta tecnología está cambiando la manera en que interactuamos con la IA. Ya no se trata solo de dar comandos y recibir respuestas; ahora es como tener un asistente real que puede ejecutar tareas complejas de forma independiente. Es como si estuviéramos pasando de una era de "conversaciones con robots" a una era de "colaboración con agentes inteligentes".

¿Y sabes qué es lo más interesante? Esto es solo el comienzo. Anthropic ya ha dejado claro que espera ver mejoras rápidas en los próximos meses. Aquí en Yes Marketing, ya estamos atentos a este potencial transformador; tanto que hemos destacado un equipo dedicado de desarrolladores para explorar esta nueva funcionalidad. Nuestra misión es identificar y desarrollar soluciones innovadoras que puedan hacer una verdadera diferencia en los procesos de nuestros clientes. Realmente estamos entrando en un territorio inexplorado, donde las fronteras entre la interacción humana y artificial con las computadoras comienzan a disolverse. El futuro promete ser muy interesante, y quizás un poco aterrador, pero definitivamente emocionante.

¿Y yo? Bueno, ya estoy ansioso por ver a Claude jugando The Sims. ¿Hará las mismas travesuras que todos nosotros hemos hecho con nuestros personajes? 🤔


Últimos artículos relacionados