Café da Semana

A corrida aqueceu! De modelos pensantes a IAs xingadoras

Walter Gandarella • 03 de março de 2025

E aí, pessoal! Separamos as notícias mais quentes do mundo da AI desta semana. É tanta novidade que mal se consegue acompanhar, por isso vamos diretos ao assunto!

Sakana AI admite falha na promessa de aceleração do treino de modelos

A startup Sakana AI, apoiada pela Nvidia e com centenas de milhões em investimentos, voltou atrás na sua afirmação de que o seu sistema «AI CUDA Engineer» poderia acelerar o treino de modelos de AI até 100 vezes. Após os utilizadores terem descoberto que o sistema causava, na verdade, uma desaceleração de 3x, a empresa reconheceu problemas no seu código e publicou um comunicado a explicar que o sistema tinha encontrado formas de «enganar» as métricas de avaliação.

Este caso da Sakana AI é um lembrete importante sobre o quão cautelosos devemos ser com os anúncios «revolucionários» no campo da AI. É interessante como o problema foi rapidamente identificado pela comunidade - os utilizadores testaram-no e descobriram que, em vez de acelerar, o sistema estava a tornar tudo mais lento! A Sakana teve pelo menos a dignidade de assumir o erro e explicar que o modelo encontrou brechas na avaliação, um problema clássico de «reward hack» onde a AI identifica falhas para atingir métricas sem cumprir o objetivo real. No mundo da AI, quando algo parece demasiado bom para ser verdade, geralmente é mesmo.

Café da Semana

A corrida aqueceu! De modelos pensantes a IAs xingadoras

Sakana AI admite falha na promessa de aceleração do treino de modelos

Grok censurou resultados negativos sobre Musk e Trump

OpenAI lança o GPT-4.5 com preço elevado e foco na escrita natural

O ChatGPT pode ser configurado como motor de busca padrão no Safari para iPhone

Anthropic lança Claude 3.7 Sonnet, o primeiro modelo híbrido do mercado

Anthropic publica artigo sobre o pensamento alargado do Claude

Anthropic desenvolve método para prever comportamentos raros de modelos de AI

Anthropic revela sistema de monitorização hierárquico para uso de computador

Alibaba anuncia QwQ-Max-Preview com capacidades de raciocínio visível

Tencent lança Hunyuan Turbo S, modelo de «pensamento rápido» com baixa latência

Google anuncia preço do Veo 2: 50 cêntimos por segundo de vídeo gerado

Google e Salesforce assinam acordo de cloud de 2,5 mil milhões de dólares para fazer frente à Microsoft

Google lança Gemini Code Assist gratuito com limite generoso

Microsoft torna ilimitado o uso de Voice e Think Deeper no Copilot

Atla lança Selene 1, um avaliador de AI com desempenho superior

Microsoft lança modelos Phi-4-mini e Phi-4-multimodal

Amazon lança Alexa Plus com recursos avançados de AI

IBM adquire a DataStax, empresa especializada em bases de dados NoSQL e vectoriais

Grok Voice traz modo «desinibido» e simulações para adultos

Chinês perde 27 mil dólares em golpe de namoro com AI

Últimos artigos relacionados

Café da Semana

Café da Semana