A AI que usa computadores como humanos

Seria o Claude Compute Use o futuro dos testes end-to-end?

Walter Gandarella • 26 de outubro de 2024

Imagine: está sentado na sua secretária de trabalho e, ao seu lado, tem um assistente virtual que não só conversa consigo, como também mexe no computador como se fosse uma pessoa real. Parece ficção científica? Pois, mas acabou de se tornar realidade. A Anthropic acaba de anunciar uma atualização revolucionária para a sua AI Claude, e desta vez a coisa é a sério - estamos a falar de um assistente que consegue literalmente usar um computador como eu e tu.

A grande novidade: Computer Use

O pessoal da Anthropic decidiu fazer algo diferente. Em vez de criarem ferramentas específicas para cada tarefa (sabem, aquela história do "para cada problema, um programa diferente"), ensinaram o Claude a usar o computador como um ser humano faria. É como ensinar alguém a pescar em vez de dar o peixe - só que neste caso, estamos a ensinar uma AI a usar o rato, a olhar para o ecrã e a escrever.

E não é só conversa da treta, não. O Claude 3.5 Sonnet (a versão mais poderosa do sistema) já está a apresentar resultados impressionantes. Em testes no OSWorld, que avalia como as AI se viram a usar computadores, alcançou uma pontuação de 14,9% na categoria de visualização de ecrã - praticamente o dobro do segundo classificado, que ficou com uns meros 7,8%.

Pôr a mão na massa (ou seria o rato?)

O professor Ethan Mollick, conhecido pelas suas análises sobre a AI, teve a oportunidade de testar o sistema e partilhou algumas experiências interessantes. Uma delas envolveu pedir ao Claude para criar um plano de aula sobre "O Grande Gatsby". Em vez de ficar só pela conversa, a AI foi lá e fez o trabalho completo: descarregou o livro, pesquisou planos de aula na web, abriu uma worksheet e preencheu tudo sozinha, incluindo as ligações aos standards do Common Core (o currículo base americano).

Mas a história torna-se ainda mais interessante quando Mollick decidiu testar o sistema com um jogo chamado Paperclip Clicker (ironicamente, um jogo sobre uma AI que destrói a humanidade na sua obsessão por fazer clips de papel - alguém aí percebeu a ironia?). O Claude não só compreendeu o jogo como desenvolveu as suas próprias estratégias, fez testes A/B de preços (mesmo que por vezes interpretasse os resultados de forma errada) e até tentou automatizar o processo escrevendo código.

Os superpoderes do novo claude

A atualização do Claude 3.5 Sonnet não trouxe apenas a capacidade de utilizar computadores. A AI também deu um salto significativo nas suas capacidades de programação. No benchmark SWE-bench Verified, subiu de 33,4% para 49%, superando todos os modelos disponíveis publicamente - incluindo o GPT-4 e os sistemas especializados em codificação.

As empresas que já estão a testar o sistema relatam melhorias impressionantes. A GitLab, por exemplo, encontrou um aumento de até 10% no raciocínio em casos de utilização de DevSecOps. A Browser Company afirma que o Claude 3.5 Sonnet superou todos os modelos que já testaram anteriormente.

Uma revolução nos testes de software

Uma das aplicações mais promissoras desta nova capacidade é no campo dos testes de software, especialmente nos testes end-to-end. Como developer, sempre me frustrei com a complexidade e o trabalho manual necessário para criar e manter testes de interface. Sabe aquela história de usar o Selenium ou ferramentas similares? É um processo trabalhoso que exige a escrita de scripts detalhados para cada cenário de teste.

Agora, imagine poder simplesmente falar com uma AI e dizer: "Hey, preciso de verificar se o fluxo de registo do utilizador está a funcionar corretamente" ou "Pode testar se o carrinho de compras está a calcular os descontos adequadamente?". O Claude podia navegar pela interface como um utilizador real, executando os testes e reportando os resultados - tudo isto sem a necessidade de escrever uma linha de código de teste. É como ter um QA automatizado que realmente compreende o contexto do que está a testar.

Esta abordagem não só pouparia tempo precioso no desenvolvimento, como também tornaria os testes mais abrangentes e naturais, uma vez que a AI pode interagir com a interface exatamente como um utilizador real faria. É uma mudança de paradigma que pode revolucionar a forma como garantimos a qualidade das nossas aplicações.

O irmão mais novo: Claude 3.5 Haiku

A par de todas estas novidades, a Anthropic anunciou também o Claude 3.5 Haiku, uma versão mais leve e rápida do sistema. O interessante é que, mesmo sendo mais "económico", consegue superar o antigo modelo topo de gama (Claude 3 Opus) em várias métricas de inteligência. É como ter um carro compacto com motor de Ferrari - e a gastar menos combustível!

Os desafios do mundo real

Claro que nem tudo são rosas no jardim da AI. Como qualquer tecnologia nova, o sistema ainda tem as suas limitações. Por vezes pode ser teimoso (como quando insistiu em manter os preços baixos no jogo dos clipes, mesmo contra as orientações), e certas ações que são triviais para nós, humanos - como fazer scroll na página ou arrastar ficheiros - são ainda desafiantes para ele.

Além disso, existe a preocupação com possíveis utilizações maliciosas da tecnologia. A Anthropic está ciente disso e implementou classificadores especiais para identificar quando o Computer Use está a ser utilizado e se está a ocorrer algum tipo de atividade prejudicial.

O mais fascinante em tudo isto é a forma como esta tecnologia está a mudar a forma como interagimos com a AI. Já não é apenas uma questão de dar comandos e receber respostas - agora é como ter um assistente real que pode executar tarefas complexas de forma independente. É como se estivéssemos a passar de uma era de "conversas com robôs" para uma era de "colaboração com agentes inteligentes".

E sabe o que é mais interessante? Isto é apenas o começo. A Anthropic já deixou claro que espera ver melhorias rápidas nos próximos meses. Aqui na Yes Marketing, já estamos de olho neste potencial transformador - tanto que destacamos uma equipa dedicada de developers para explorar esta nova funcionalidade. A nossa missão é identificar e desenvolver soluções inovadoras que possam fazer a verdadeira diferença nos processos dos nossos clientes. Estamos realmente a entrar num território inexplorado, onde as fronteiras entre a interação humana e artificial com os computadores começam a dissolver-se. O futuro promete ser muito interessante - e talvez um pouco assustador, mas definitivamente entusiasmante.

Quanto a mim? Bem, já estou ansioso para ver um Claude a jogar The Sims. Será que ele vai fazer as mesmas maldades que todos nós já fizemos com as nossas personagens? 🤔


Últimos artigos relacionados