
Café da Semana
Onde os modelos pensam, os golfinhos conversam e gastam-se biliões
Bem-vindos a mais uma edição do DevCafé, onde vos sirvo as notícias mais quentes do mundo da AI enquanto tomam aquele café! Esta semana foi uma verdadeira montanha-russa no universo da tecnologia, com startups a atingir avaliações astronómicas, gigantes a lançar novas funcionalidades e até golfinhos a falar com AI. Pegue na sua chávena preferida e vamos mergulhar nas principais novidades que agitaram o setor nos últimos dias!
Cofundador da OpenAI Ilya Sutskever's Safe Superintelligence está avaliado em 32 mil milhões de dólares
A Safe Superintelligence (SSI), a startup de AI liderada pelo cofundador da OpenAI e ex-cientista principal Ilya Sutskever, angariou mais 2 mil milhões de dólares em financiamento com uma avaliação de 32 mil milhões de dólares. Sutskever deixou a OpenAI em maio de 2024, depois de parecer desempenhar um papel numa tentativa falhada de derrubar o CEO Sam Altman. Fundou a SSI com Daniel Gross e Daniel Levy, e estes disseram que a empresa tinha «um objetivo e um produto: uma superinteligência segura».
Ui, parece que montar uma startup de AI com um nome pomposo e uma frase de efeito sobre «superinteligência» é o novo «abrir uma padaria artesanal»! Agora a sério, surpreende-me como Sutskever conseguiu recuperar tão rapidamente depois daquele drama na OpenAI. 32 mil milhões de dólares para uma empresa que ainda não entregou nada de concreto mostra como o mercado está sedento por tudo o que esteja relacionado com a segurança em AI. Se a SSI realmente cumprir o que promete, poderá ser revolucionário. Se não... bem, não seria a primeira vez que víamos uma bolha de avaliação rebentar, pois não?
Pioneiro do código aberto quer libertar robôs
A Hugging Face adquiriu a startup de robôs de código aberto Pollen Robotics para ajudar a «democratizar» a robótica. A Hugging Face planeia vender o robô e também permitir que os programadores descarreguem, modifiquem e sugiram melhorias para o seu código.
Robôs de código aberto? Parece-me o início de um filme de ficção científica que não acaba muito bem para a humanidade! Mas a sério, adoro esta iniciativa da Hugging Face. Já revolucionaram o acesso a modelos de AI com a sua plataforma, e agora estão a levar essa mesma filosofia para a robótica. Imaginem só o potencial quando milhares de developers puderem colaborar em robots que realmente resolvam problemas reais, sem ficarem presos aos interesses corporativos das grandes empresas. Se o futuro da robótica seguir o mesmo caminho do software de código aberto, podemos esperar uma explosão de inovação nos próximos anos.
Perplexity AI está em negociações para integrar assistente no Samsung e Motorola Phones
A Perplexity AI Inc. está em negociações com a Samsung Electronics Co. sobre a integração do seu assistente nos dispositivos da gigante dos smartphones e já chegou a acordo com a Motorola da Lenovo Group Ltd. para um acordo semelhante.
A Perplexity está a jogar o jogo dos grandes agora! E vejam como estão a conseguir furar a bolha dos assistentes tradicionais como o Google Assistant, Siri e Alexa. A estratégia de integração direta com os fabricantes de smartphones é demasiado inteligente – afinal, de que serve ter o melhor assistente de AI se ninguém o utiliza? Se estes acordos se concretizarem, a Perplexity poderá tornar-se um nome familiar da noite para o dia. Para nós, consumidores, isto só tende a melhorar a concorrência e, consequentemente, a qualidade dos assistentes disponíveis. Sinto que a Google e a Apple devem estar a coçar a cabeça neste momento!
A Wikipédia está a dar aos programadores de AI os seus dados para afastar os bot scrapers
A Wikipédia está a tentar impedir que os desenvolvedores de inteligência artificial raspeem a plataforma, lançando um conjunto de dados especificamente otimizado para treinar modelos de AI. A Wikimedia Foundation anunciou na quarta-feira que estabeleceu uma parceria com a Kaggle - uma plataforma de comunidade de ciência de dados propriedade da Google que aloja dados de aprendizagem automática - para publicar um conjunto de dados beta de «conteúdo estruturado da Wikipédia em inglês e francês».
É como aquela tática dos pais que permitem que o adolescente faça uma pequena festa em casa controlada para evitar que vá para as discotecas sem supervisão! A Wikipédia finalmente entendeu que não consegue impedir os modelos de AI de utilizarem os seus dados, pelo que decidiu oferecer um conjunto de dados «oficial» para ter algum controlo sobre o processo. Esperto, não? Além disso, esta abordagem pode beneficiar todos: os programadores ganham acesso estruturado aos dados, a Wikipédia mantém algum controlo sobre a forma como o seu conteúdo é utilizado, e os modelos de AI tornam-se potencialmente mais precisos quando citam informação da enciclopédia. Uma jogada diplomática inteligente num campo cheio de tensões sobre o uso de dados.
Chatbot Arena está a tornar-se uma empresa real
O Chatbot Arena, um projeto académico cuja página se tornou um local popular para os visitantes testarem novos modelos de inteligência artificial, está a transformar-se numa empresa. Os líderes do Chatbot Arena anunciaram a formação do LMArena, que esperam que lhes permita expandir-se mais rapidamente. A plataforma permite que as pessoas testem uma série de modelos de AI de ponta frente a frente e, em seguida, votem nos que preferirem nas tabelas de classificação do site, que são observadas de perto pela comunidade tecnológica.
Quem diria que um «quem é melhor: Claude ou GPT?» se transformaria num negócio real? A história do Chatbot Arena é um lembrete de como os projetos paralelos podem evoluir para algo muito maior. O que começou como uma experiência académica tornou-se uma espécie de «Billboard Hot 100» para os modelos de AI, com as empresas a ajustarem literalmente as suas estratégias com base nas classificações. Agora que se tornou uma empresa, estou curioso para ver como vão rentabilizar sem perder a credibilidade que construíram. Será que o «teste cego» continuará a ser tão imparcial quando estiver em causa o lucro dos investidores? De qualquer forma, nunca subestime o poder de um bom ranking e da competitividade humana!
Netflix testa novo motor de pesquisa com AI para recomendar programas e filmes
A Netflix Inc. está a testar uma nova tecnologia de pesquisa para subscritores que emprega inteligência artificial para os ajudar a encontrar programas de televisão e filmes, expandindo a utilização da tecnologia. O motor de pesquisa com tecnologia OpenAI permite aos clientes procurar programas utilizando termos muito mais específicos, incluindo o humor do subscritor, por exemplo, disse a empresa. Em seguida, recomendará as opções do catálogo da empresa.
Já não era sem tempo, Netflix! Fartei-me de escrever «filme de ação com submarino» e de receber comédias românticas como sugestão. Esta atualização pode realmente resolver um dos maiores problemas da plataforma: ajudar as pessoas a encontrar o que realmente querem ver nos 15 minutos que têm antes de adormecerem. Imagina poder dizer «estou de coração partido e preciso de algo que me faça rir, mas não sejas demasiado parvo» e encontrar realmente algo adequado! A parceria com a OpenAI mostra também como até gigantes como a Netflix precisam de ajuda externa quando se trata de AI avançada. Se funcionar bem, aposto que vamos ver todas as outras plataformas de streaming a correr para implementar algo semelhante.
A música gerada por AI corresponde a 18% de todas as faixas carregadas no Deezer
Cerca de 18% das músicas carregadas no Deezer são totalmente geradas por AI. A plataforma francesa de streaming disse que mais de 20.000 faixas geradas por AI são carregadas na sua plataforma todos os dias, quase o dobro do número relatado há quatro meses. A crescente utilização de AI generativa nas indústrias criativas desencadeou uma onda de processos judiciais, com artistas, autores e detentores de direitos a acusarem as empresas de AI de utilizarem material protegido por direitos de autor sem consentimento ou compensação para treinar os seus modelos.
Uau, 18%! É como se em cada 5 músicas novas no Deezer, quase 1 fosse criada por robôs! Este número deixa-me com sentimentos mistos. Por um lado, é incrível ver como a tecnologia democratizou a criação musical - agora qualquer pessoa pode produzir uma faixa sem ter de passar anos a aprender a tocar instrumentos. Por outro lado, como ficam os artistas humanos nesta história? Será que daqui a uns tempos teremos playlists inteiras geradas por AI sem qualquer toque humano? O mais interessante é que muitas pessoas provavelmente nem se apercebem quando estão a ouvir uma música feita por AI. Acho que estamos a entrar numa era em que a pergunta já não será «gostas desta música?», mas sim «sabes quem (ou o quê) fez esta música?».
A ElevenLabs estabelece a subsidiária japonesa, a ElevenLabs G.K.
O líder global em tecnologia de voz com inteligência artificial expande-se para a região da Ásia-Pacífico, lançando um hub internacional no Japão. A nova entidade japonesa irá concentrar-se na adaptação da plataforma de geração de voz de ponta da ElevenLabs ao mercado japonês, abordando os requisitos linguísticos e culturais únicos da região. A ElevenLabs estabeleceu uma parceria com a DOCOMO Innovations, TBS, MBC C&I CO., LTD e LLSOLLU. A empresa recebeu um forte apoio dos seus investidores, que vêem o Japão como um mercado estratégico para a tecnologia de voz com inteligência artificial.
Inteligente esta jogada da ElevenLabs! O Japão não é apenas uma potência tecnológica, mas também um enorme centro cultural com anime, jogos e outros media que podem beneficiar tremendamente das vozes geradas pela AI. Imaginem só o impacto na indústria de dobragem e localização! A adaptação para japonês não deve ser tarefa fácil - é uma língua com importantes nuances tonais e expressões culturais únicas. Mas se conseguirem acertar, o mercado é gigantesco. Além disso, a experiência adquirida pode abrir portas a outros mercados asiáticos como a Coreia e a China. Esta expansão mostra como a geração de voz por AI está rapidamente a deixar de ser uma curiosidade tecnológica para se tornar uma componente fundamental em várias indústrias em todo o mundo.
Copilot Vision já está disponível, gratuito no Microsoft Edge
Copilot Vision já está disponível, gratuitamente no Microsoft Edge. Pode literalmente ver o que vê no ecrã (se optar por participar). É incrível! Ele pensará em voz alta consigo quando estiver a navegar online. Chega de explicar demais, copiar e colar ou lutar para colocar algo em palavras.
Um assistente que consegue ver o meu ecrã? Parece útil, mas também um bocadinho assustador! A Microsoft continua a apostar todas as fichas na AI com o Copilot, e esta função de visão pode realmente mudar a forma como interagimos com a web. Imagine já não ter de copiar e colar excertos de um artigo para fazer perguntas sobre o mesmo? Ou poder perguntar «o que significa este erro?» enquanto o Copilot olha diretamente para o ecrã de erro? É uma mão na roda para programadores, investigadores e até para a avó que liga sempre a pedir ajuda com o computador. Claro que isto levanta questões de privacidade (nem quero pensar no Copilot vendo o meu histórico de compras online), mas se a funcionalidade «opt-in» for bem implementada, pode ser um game changer para a navegação na web.
Satya Nadella anuncia novas funcionalidades de agente do Copilot Studio
Satya Nadella anunciou que o Copilot Studio tem agora capacidades de agente que permitem a qualquer pessoa criar agentes que atuem na interface do utilizador em aplicações de desktop e web. Charles Lamanna anunciou ainda que os agentes podem agora clicar, digitar e interagir com aplicações de desktop e web, sem necessidade de APIs.
A Microsoft está realmente a abocanhar o mercado da automação. Estas novas capacidades do Copilot Studio são um game-changer, especialmente a parte de não necessitar de APIs. Qualquer pessoa que já tenha tentado automatizar tarefas no trabalho sabe a dor de cabeça que é lidar com sistemas legados sem APIs decentes. Agora, imagine poder criar um assistente que simplesmente «vê» e interage com qualquer aplicação como um ser humano faria? É praticamente magia! Isto pode revolucionar setores como o suporte técnico, o atendimento ao cliente e as tarefas administrativas. O mais interessante é que a Microsoft está a democratizar estas ferramentas - «qualquer pessoa» pode criar estes agentes. Parece que o Nadella está a tentar transformar-nos a todos em pequenos criadores de AIs. Será que em breve teremos marketplaces de «agentes Copilot» criados por utilizadores comuns?
Claude realiza investigação em novos lugares
A Anthropic lançou novas funcionalidades para o Claude, incluindo a pesquisa e a integração com o Google Workspace, de forma a torná-lo um colaborador mais informado e capaz. A funcionalidade de pesquisa permite ao Claude encontrar e analisar informações de várias fontes, enquanto a integração com o Google Workspace o liga ao e-mail, calendário e documentos do utilizador.
Finalmente o Claude ganhou super-poderes de investigação. Era frustrante ver o pobrezinho a tentar responder a perguntas sobre acontecimentos recentes sem acesso à internet. Com esta atualização, a Anthropic está claramente a visar o território do GPT e do Perplexity. A integração com o Google Workspace é interessante - imagine pedir ao Claude para resumir todos os e-mails importantes da última semana ou para ajudar a organizar o seu calendário? É como ter um assistente pessoal que já tem acesso a toda a sua vida digital. Claro que isto levanta questões sobre privacidade e segurança, mas se for bem implementado, pode transformar o Claude de um chatbot inteligente numa ferramenta de produtividade essencial para o dia a dia. A corrida dos assistentes de AI está cada vez mais renhida!
xAI adiciona uma funcionalidade de 'memória' ao Grok
A xAI está a introduzir uma funcionalidade de «memória» para o chatbot Grok, permitindo-lhe recordar detalhes de conversas passadas com os utilizadores. Esta melhoria tem como objetivo fornecer respostas mais personalizadas com base nas preferências aprendidas. A funcionalidade está disponível em versão beta no Grok.com e nas aplicações Grok iOS e Android, com planos de expansão para a experiência no X.
Depois de entrar tardiamente na festa dos LLMs com o Grok, agora está a tentar diferenciar-se com este recurso de memória. Na teoria, é brilhante - quem não se irrita quando tem de estar sempre a reexplicar as preferências pelos assistentes virtuais? Um Grok que se lembre que detesta filmes de terror ou que prefere explicações técnicas pode realmente criar uma experiência mais personalizada. Mas também tenho as minhas preocupações: quão profunda é esta «memória»? O quanto o Grok se vai lembrar? E o que acontece a estes dados? Conhecendo o histórico do Musk com a privacidade de dados (especialmente no X), penso que devemos manter um olho neste desenvolvimento. De qualquer forma, é mais um passo na direção de assistentes de AI que parecem realmente conhecer-nos como pessoas reais.
Grok ganha uma ferramenta semelhante a um canvas para criar documentos e aplicações
Grok ganhou uma funcionalidade semelhante a um canvas para edição e criação de documentos e aplicações básicas. Chamado Grok Studio, a funcionalidade foi anunciada no X na passada terça-feira. Está disponível para utilizadores Grok gratuitos e pagos em Grok.com. O Grok Studio não parece materialmente diferente das ferramentas semelhantes a canvas que vieram antes. Permite visualizar excertos de HTML e executar código em linguagens de programação como Python, C++ e JavaScript. Todo o conteúdo é aberto numa janela do lado direito das respostas de Grok.
Parece que o Musk quer transformar o Grok num canivete suíço da AI. Primeiro a memória, agora um canvas para desenvolvimento. O Grok Studio faz lembrar muito os playgrounds que já vemos em ferramentas como o CodePen ou o Replit, mas integrado directamente no chatbot. É uma adição interessante, especialmente para programadores que queiram testar rapidamente snippets de código ou criar protótipos simples. No entanto, como a própria notícia refere, não há aqui nada de revolucionário - outras plataformas já oferecem funcionalidades semelhantes. A diferença está na integração com o ecossistema do Grok e, potencialmente, do X. Estou curioso para ver se isto vai além de ser apenas mais um playground de código ou se a xAI tem planos maiores para transformar o Grok Studio numa plataforma de desenvolvimento mais robusta.
DolphinGemma: Como a AI da Google está a ajudar a descodificar a comunicação dos golfinhos
DolphinGemma, um modelo de linguagem grande desenvolvido pela Google, está a ajudar os cientistas a estudar como os golfinhos comunicam e, espera-se, a descobrir o que estão a dizer. O projeto, em colaboração com investigadores da Georgia Tech e com o trabalho de campo do Wild Dolphin Project (WDP), visa analisar as vocalizações dos golfinhos, gerar sequências de som semelhantes aos golfinhos e, eventualmente, estabelecer um vocabulário partilhado para a comunicação interespécies. Ao identificar padrões sonoros recorrentes, o modelo pode ajudar os investigadores a descobrir estruturas ocultas e potenciais significados na comunicação natural dos golfinhos, aproximando-nos de uma futura comunicação humano-golfinho. A Google planeia partilhar o DolphinGemma como modelo aberto este verão para auxiliar os investigadores que estudam outras espécies de cetáceos.
Agora sim a AI está a ser usada para algo verdadeiramente incrível! A sério, quem nunca sonhou poder conversar com golfinhos? O DolphinGemma mostra como a AI pode transcender aplicações puramente humanas e ajudar-nos a estabelecer pontes com outras espécies inteligentes. Imagina descobrir que os golfinhos têm piadas internas, mexericos de grupo ou debates filosóficos? Para além do aspeto «uau» desta investigação, ela tem enormes implicações para a conservação marinha e bioética. Se conseguirmos compreender o que as outras espécies estão a comunicar, talvez possamos finalmente considerar os seus «interesses» de forma mais directa nas nossas decisões ambientais. O facto de a Google planear disponibilizar isto como modelo aberto é especialmente entusiasmante - podemos ver investigadores a aplicar técnicas semelhantes para compreender a comunicação de baleias, elefantes e outros animais sociais complexos. Douglas Adams estaria orgulhoso!
Google implementa oficialmente links nas visões gerais de AI para os seus próprios resultados de pesquisa
Depois de testar isto durante um mês, a Google lançou oficialmente este método para ajudar os investigadores a explorar mais tópicos. A Google disse que está a fazer isto para facilitar aos investigadores a exploração de tópicos e ouviu dos utilizadores que acham útil estarem ligados diretamente a uma página de resultados relevante.
Hmm, o Google está a facilitar a passagem da sua AI... para mais Google? Que conveniente! Esta integração faz sentido do ponto de vista da experiência do utilizador. Se o resumo de AI me dá uma visão geral sobre «como fazer pão de fermentação natural», é natural querer clicar para ver resultados mais detalhados. O lado cínico em mim vê isto como uma forma de o Google proteger o seu negócio principal de pesquisa - afinal, se os utilizadores ficarem satisfeitos apenas com as respostas da AI, quem vai clicar nos anúncios da página de resultados? Ao mesmo tempo, esta abordagem pode realmente ajudar a combater a desinformação, uma vez que, teoricamente, permite aos utilizadores verificar as fontes por detrás dos resumos gerados pela AI. É um pequeno passo que mostra como a Google está a tentar integrar a AI sem canibalizar o seu modelo de negócio principal.
Google torna a câmara Gemini Live e a partilha de ecrã gratuitas no Android
A Google começou a implementar amplamente a câmara Gemini Live e a partilha de ecrã para subscritores Advanced, e as funcionalidades com tecnologia Project Astra serão em breve gratuitas para todos os utilizadores Android. O Gemini Live permite agora que faça perguntas sobre o que está no seu ecrã ou câmara. A partilha de ecrã pode ser iniciada rapidamente ao iniciar a sobreposição do Gemini e tocar no novo chip «Partilhar ecrã com o Live». Depois de confirmar, verá uma contagem ao lado da hora na sua barra de estado. A Google lançou a nova notificação ao estilo de chamada telefónica para o Live. A câmara e a partilha de ecrã juntam-se à forma como pode conversar com o Gemini Live sobre uma imagem, PDF ou vídeo do YouTube.
O Google está a jogar as cartas na mesa. Disponibilizar gratuitamente funcionalidades premium, especialmente algo tão poderoso como a análise de câmaras em tempo real, mostra o quão determinados estão a não perder terreno na corrida da AI para a Microsoft e OpenAI. É uma ótima notícia para os utilizadores Android, que agora podem ter um assistente realmente capaz de compreender o mundo visual à sua volta sem pagar nada. Imagine poder apontar para um prato num restaurante e perguntar «há glúten nisto?» ou mostrar uma planta e saber como cuidar dela. A partilha de ecrã também é muito útil para ajuda técnica remota - agora pode literalmente mostrar ao Gemini o que está a acontecer no seu telemóvel e pedir ajuda. Claro que há aqui preocupações de privacidade (estamos literalmente a dar olhos à Google), mas para muitos utilizadores, a conveniência vai facilmente superar estas preocupações.
Gemini 2.5 Flash lançado!
A Google DeepMind lançou o Gemini 2.5 Flash, um modelo de raciocínio híbrido que lhe permite controlar o quanto «pensa», tornando-o ideal para tarefas como a criação de aplicações de chat, a extracção de dados e muito mais. Uma versão inicial está disponível no Google AI Studio.
A Google finalmente entrou na onda do «raciocínio», hein? Depois da OpenAI e da Anthropic terem começado com esta história dos modelos que «pensam», era uma questão de tempo até a Google seguir o mesmo caminho. O interessante do Gemini 2.5 Flash é este controlo sobre o «quanto» pensa - como se fosse um deslizador entre a velocidade e a profundidade. Isto é ótimo para os programadores que precisam de equilibrar custos, latência e qualidade das respostas. Para tarefas simples, pode deixar o modelo responder rapidamente; para análises complexas, pode pedir-lhe que «pense mais». É como ter um estagiário que pode instruir para trabalhar mais rápido ou mais meticulosamente dependendo da tarefa. Ansioso para ver como os programadores vão usar isto para criar aplicações mais responsivas e inteligentes sem sacrificar a qualidade das respostas.
Avançando os sistemas de AI através do progresso na perceção, localização e raciocínio
A Meta FAIR está a lançar novos artefactos de investigação que melhoram a compreensão da perceção e apoiam o objetivo de alcançar a inteligência de máquina avançada (AMI). Isto inclui o Meta Perception Encoder, o Perception Language Model (PLM) e o Collaborative Reasoner.
A Meta está sossegadinha no seu canto a fazer um trabalho incrível. Enquanto todos ficamos hypados com os lançamentos da OpenAI e da Google, o Meta FAIR continua a avançar em áreas fundamentais como a perceção e o raciocínio colaborativo. O mais giro é que costumam disponibilizar muitas destas pesquisas de forma aberta, contribuindo para o campo como um todo. Este foco na perceção é particularmente interessante - afinal, para uma AI compreender realmente o mundo como nós, precisa de o «perceber» de forma mais completa e contextualizada. O Collaborative Reasoner também soa promissor para aplicações em que vários agentes têm de trabalhar em conjunto para resolver problemas complexos. É como se a Meta estivesse a construir os blocos fundamentais enquanto outras empresas estão focadas em produtos finais mais chamativos. A longo prazo, este tipo de investigação básica pode ter impactos muito mais profundos.
A OpenAI está a construir uma rede social
A OpenAI está a trabalhar na sua própria rede social semelhante ao X, de acordo com várias fontes familiarizadas com o assunto. Embora o projeto ainda esteja nos seus estágios iniciais, foca-se na geração de imagens do ChatGPT que tem um feed social. Isto pode aumentar a já amarga rivalidade de Altman com Elon Musk e colocar a OpenAI em rota de colisão com a Meta, que também planeia adicionar um feed social à sua próxima aplicação independente para o seu assistente de AI.
Mais uma rede social? É a sério, OpenAI? Como se já não tivéssemos opções suficientes para desperdiçar o nosso tempo! Imagino que seria uma espécie de Instagram onde, em vez de filtros, se usam prompts para gerar imagens incríveis. A diferença poderá ser precisamente este foco no conteúdo gerado por AI, criando um espaço onde a criatividade não depende das competências técnicas, mas sim da sua capacidade de criar prompts interessantes. A rivalidade com Musk acrescenta uma camada extra de drama a tudo isto - parece que cada movimento da OpenAI é agora interpretado através da lente desta luta. O que me preocupa é o possível impacto na já saturada economia da atenção. Precisamos mesmo de mais uma plataforma a competir pelo nosso tempo limitado? Por outro lado, se conseguirem criar algo realmente único... bem, estou curioso para ver.
OpenAI em negociações para comprar o Windsurf por cerca de 3 mil milhões de dólares
A OpenAI está em negociações para adquirir o Windsurf, uma ferramenta de codificação assistida por inteligência artificial anteriormente conhecida como Codeium, por cerca de 3 mil milhões de dólares. O negócio seria a maior aquisição da OpenAI até à data e pode ajudar a empresa a enfrentar a crescente concorrência no mercado de assistentes de codificação orientados por AI.
Eita, a OpenAI tem o bolso cheio, hein? 3 mil milhões de dólares não é troco de pão! Esta compra faz todo o sentido estratégico - o mercado dos assistentes de código é um dos campos de batalha mais ferozes da AI atualmente, com o Github Copilot (da Microsoft) a dominar o cenário. O Windsurf (ou Codeium, para os íntimos) tem uma tecnologia agradável e uma base de utilizadores fiéis, mas precisa de músculo financeiro para competir com os gigantes. A OpenAI quer claramente dominar não só o mercado dos chatbots, mas também o das ferramentas específicas para developers. O curioso é que isto contradiz um pouco o discurso inicial da OpenAI como uma organização sem fins lucrativos focada na «AI para o bem da humanidade». Agora parece mais uma empresa tecnológica tradicional a fazer as suas aquisições bilionárias. Como se costuma dizer, se não pode com eles, compre-os! O mau é que o Widsurf é o meu assistente de codificação com AI preferido, e se a OpenAI realmente o comprar, bem, vou deixar de usá-lo. A cada dia que passa que me distanciar mais da OpenAI e das suas estratégias...
Apresentando o GPT-4.1 na API
Uma nova série de modelos GPT com grandes melhorias na codificação, seguimento de instruções e contexto longo - para além do nosso primeiro modelo nano. Os modelos GPT-4.1 superam o GPT-4o e o GPT-4o mini em todos os aspetos, com grandes ganhos na codificação e seguimento de instruções. Têm também janelas de contexto maiores - suportando até 1 milhão de tokens de contexto - e são capazes de utilizar melhor este contexto com uma melhor compreensão do contexto longo. Apresentam um corte de conhecimento atualizado de junho de 2024.
A OpenAI continua neste ritmo frenético de lançamentos! Ainda mal tive tempo para me habituar ao GPT-4o e já há um modelo novo na praça. Este GPT-4.1 parece ter dado especial atenção aos programadores, com melhorias na codificação. A janela de contexto de 1 milhão de tokens é algo sério - imagine poder jogar livros inteiros ou bases de código gigantescas e ter o modelo a compreender realmente tudo! Mas o que mais me chamou a atenção foi este modelo «nano» que referem. Será que finalmente teremos versões poderosas do GPT a correr localmente nos nossos dispositivos? Isto seria revolucionário para a privacidade e utilização offline. De qualquer forma, a corrida dos modelos continua a todo o gás, e quem ganha somos nós, utilizadores, com ferramentas cada vez mais capazes. Só precisamos de correr para acompanhar todas estas mudanças!
A última tendência viral do ChatGPT está a fazer 'pesquisa reversa de localização' a partir de fotos
Está a surgir um novo comportamento viral no ChatGPT, em que os utilizadores utilizam a ferramenta para tentar descobrir a localização de imagens carregadas. O ChatGPT foi atualizado com os novos modelos de AI, o3 e o4-mini, que podem «raciocinar» através de imagens carregadas. Os modelos podem cortar, rodar e ampliar fotografias (mesmo desfocadas e distorcidas) para as analisar completamente. Esta capacidade, combinada com a capacidade do ChatGPT de pesquisar na web, cria uma poderosa ferramenta de localização. Embora esta tendência possa ser divertida, também levanta algumas preocupações sobre a privacidade. O ChatGPT pode ser utilizado para descobrir informações sobre pessoas sem o seu conhecimento ou consentimento. A OpenAI afirma que está a trabalhar para resolver estas preocupações e que está empenhada em proteger a privacidade dos utilizadores.
Ok, isto é simultaneamente incrível e assustador. Já era difícil esconder alguma coisa na internet, agora tornou-se praticamente impossível. Imagina só: tiras uma selfie num sítio aleatório e publicas nas redes sociais. Alguém com más intenções pode utilizar o ChatGPT para descobrir exatamente onde estava, identificando até estabelecimentos em segundo plano ou marcos geográficos subtis. Por um lado, esta tecnologia pode ajudar nas investigações, encontrar pessoas desaparecidas ou simplesmente satisfazer aquela curiosidade de «onde foi tirada esta foto incrível?». Por outro lado, é um pesadelo de privacidade à espera de acontecer. Caminhamos para um mundo onde o anonimato visual se torna quase impossível. A parte mais preocupante é que esta capacidade não estava necessariamente nos planos da OpenAI - foi algo que os utilizadores descobriram por conta própria. Que outros «superpoderes» inesperados têm estes modelos que ainda não descobrimos?
Apresentamos o OpenAl o3 e o4-mini
A OpenAl lançou o OpenAl o3 e o4-mini, os modelos mais inteligentes e capazes até à data, com acesso total às ferramentas. O OpenAl o3 é um modelo poderoso que avança nas fronteiras da programação, matemática, ciência e perceção visual, enquanto o OpenAl o4-mini está otimizado para um raciocínio rápido e económico. Os modelos demonstram melhorias no seguimento de instruções e respostas verificáveis, graças à inteligência melhorada e à inclusão de fontes web. A OpenAl está também a lançar o Codex CLI, um agente de codificação leve que pode ser executado a partir do terminal, e uma iniciativa de 1 milhão de dólares para apoiar projetos que utilizam o Codex CLI e os modelos da OpenAl.
Estes novos modelos o3 e o4-mini parecem ser uma resposta direta à crescente concorrência de Claude, Gemini e outros. O foco no «raciocínio» e nas respostas verificáveis mostra que estão a ouvir as críticas sobre alucinações e problemas de fiabilidade. Achei particularmente interessante este Codex CLI - vamos finalmente ter um assistente de AI nativo no terminal! Para nós, developers, isto pode ser um game-changer para a produtividade. Imagina poder pedir «criar um script que organize as minhas fotos por data» directamente no terminal e ver o código aparecer, pronto a ser executado? E aquele fundo de 1 milhão de dólares para projetos é uma jogada inteligente para criar um ecossistema em torno destes novos produtos. A OpenAI está claramente a tentar consolidar a sua posição como líder de mercado enquanto as outras empresas tentam alcançá-la.
Paper: DeepSeek-R1 Thoughtology: vamos sobre o raciocínio LLM
Modelos de raciocínio de grande dimensão como o DeepSeek-R1 marcam uma mudança fundamental na forma como os LLM abordam problemas complexos, uma vez que criam cadeias de raciocínio detalhadas de várias etapas, aparentemente «pensando» sobre um problema antes de fornecer uma resposta. O processo de raciocínio está disponível publicamente para o utilizador, criando oportunidades infinitas para estudar o comportamento de raciocínio do modelo e abrindo o campo da Thoughtology. As nossas análises no DeepSeek-R1 investigam o impacto e a controlabilidade do comprimento do pensamento, a gestão de contextos longos ou confusos, as preocupações culturais e de segurança e o estado dos fenómenos cognitivos do DeepSeek-R1, como o processamento de linguagem semelhante ao humano e a modelação do mundo.
Uau, «Thoughtology» é um termo que parece saído de um filme de ficção científica, mas estamos a vivê-lo agora! Estamos a começar a estudar o «pensamento» das AI como se fosse uma disciplina científica própria. O DeepSeek-R1 traz algo realmente interessante para cima da mesa: transparência no processo de raciocínio. Em vez de simplesmente receber uma resposta mágica, podemos ver o modelo a construir o seu raciocínio passo a passo, quase como assistir aos rascunhos mentais de alguém a resolver um problema. Isto não só melhora a fiabilidade, como também nos ajuda a compreender onde e como os modelos podem estar a «pensar mal». Imagina usar isto na educação, onde os alunos podem ver não só a resposta, mas o caminho completo para chegar até ela? Ou em áreas críticas como a medicina, onde compreender o raciocínio é tão importante como a conclusão final? Estamos realmente a entrar numa nova era onde não só usamos as AI como ferramentas, mas estudamos o seu funcionamento cognitivo como uma disciplina científica própria.
Paper: Alavancando respostas de modelos de raciocínio para melhorar a capacidade de modelos sem raciocínio
Avanços recentes em grandes modelos de linguagem (LLMs), como o DeepSeek-R1 e o OpenAI-o1, demonstraram a eficácia significativa do escalonamento do tempo de teste, alcançando ganhos substanciais de desempenho em vários benchmarks. Estes modelos avançados utilizam etapas deliberadas de «pensamento» para melhorar sistematicamente a qualidade da resposta. No artigo propõe-se aproveitar estas saídas de alta qualidade geradas por modelos de raciocínio intensivo para melhorar modelos menos exigentes computacionalmente e sem raciocínio. Exploram e comparam metodologias para utilizar as respostas produzidas por modelos de raciocínio para treinar e melhorar modelos sem raciocínio. Através de experiências diretas de ajuste fino supervisionado (SFT) em benchmarks estabelecidos, demonstram melhorias consistentes em vários benchmarks, sublinhando o potencial desta abordagem para o avanço da capacidade dos modelos de responder a questões diretamente.
Que ideia brilhante! É como ter um professor super inteligente (mas lento) a treinar um assistente mais rápido (mas inicialmente menos capaz). Esta pesquisa aborda um dos maiores dilemas da AI atual: queremos respostas profundas e bem pensadas, mas também queremos que sejam rápidas. Os modelos de raciocínio como o DeepSeek-R1 e o OpenAI-o1 são incrivelmente poderosos, mas aquele tempo de «pensamento» pode ser frustrante quando apenas se pretende uma resposta rápida. Usar estes modelos «pensadores» para treinar versões mais leves e rápidas é como ter o melhor dos dois mundos! Imagina ter a qualidade do GPT-4 com o tempo de resposta do GPT-3.5? Isto poderá democratizar o acesso a AI avançada, uma vez que os modelos mais leves podem correr em hardware mais barato e com menos consumo de energia. É uma abordagem super promissora que pode ajudar a tornar a AI avançada mais acessível e prática para o uso diário, sem sacrificar a qualidade.
Paper: POCUS guiado por AI supera especialistas na deteção de tuberculose em áreas carenciadas
O ultrassom no ponto de atendimento (POCUS) guiado por AI pode detetar com precisão a tuberculose (TB), de acordo com uma investigação apresentada na conferência da Sociedade Europeia de Microbiologia Clínica e Doenças Infeciosas (ESCMID) em Viena, Áustria. A tecnologia pode ter aplicações em áreas clinicamente carenciadas.
Isto sim é a AI a ser usada para salvar vidas de verdade. A tuberculose continua a ser um grande problema em muitas partes do mundo, especialmente em áreas com poucos recursos médicos. O que torna esta investigação tão especial é que combina duas tecnologias relativamente acessíveis – o ultrassom portátil e a AI – para criar uma solução que pode funcionar mesmo em locais remotos sem acesso a grandes hospitais ou especialistas. O facto de superar os especialistas humanos em precisão é impressionante, mas o verdadeiro impacto está na escalabilidade: podemos treinar muito mais técnicos para utilizar um POCUS guiado por AI do que formar médicos especialistas. É exatamente este o tipo de aplicação de AI que precisamos de ver mais: tecnologia que resolve problemas reais para pessoas que realmente precisam, e não apenas conveniências para quem já tem acesso a bons recursos. Espero que esta investigação avance rapidamente para implementação no terreno, especialmente nas regiões mais afetadas pela tuberculose.
Ufa! Que semana intensa no mundo da AI, hein? Se há algo que ficou claro nestas últimas notícias é que a velocidade de inovação é cada vez mais alucinante. Lembra-se quando os lançamentos de produtos importantes aconteciam uma vez por ano? Temos agora novos modelos, recursos e ferramentas a surgir quase diariamente!
O que mais me chamou a atenção esta semana foi como estamos rapidamente a passar a fase «uau, isto é fixe!» para aplicações verdadeiramente transformadoras – seja decifrando a linguagem dos golfinhos, diagnosticando a tuberculose em regiões carenciadas ou criando agentes que automatizam tarefas em interfaces existentes.
É também interessante observar as diferentes abordagens das empresas: enquanto a OpenAI continua a sua estratégia agressiva de lançamentos frequentes e aquisições bilionárias, vemos players como a Meta e a Google DeepMind a focarem-se em pesquisas fundamentais que podem ter impactos a longo prazo ainda mais profundos.
E você, o que achou destas notícias? Alguma em particular lhe chamou a atenção? Não se esqueça de voltar na próxima semana para mais novidades quentinhas do mundo da AI, sempre aqui no DevCafé, com aquele aroma de café fresco e tecnologia de ponta!
Até à próxima e bons códigos!