
Café da Semana
«Estou? É o ChatGPT a falar!» e outras novidades incríveis do mundo da tecnologia
Hey, malta! Chegou a altura do nosso resumo semanal, e olhem... que semana intensa esta que foi! Parece que toda a gente decidiu lançar novidades de uma vez - deve ser aquela pressa de fim de ano para bater as metas, certo? 😄 Temos um pouco de tudo: desde AIs que te podem atender ao telefone até robôs que aprendem a dançar. E o mais giro? Cada novidade parece mais impressionante que a outra!
O AGI não é assim tão importante
Um artigo provocador defende que o mercado está excessivamente focado em melhorar os LLMs e em alcançar o AGI, quando na verdade a verdadeira transformação virá do software que controla e orquestra estas ferramentas. O autor defende que mesmo que alcancemos AGI, o seu impacto será menos disruptivo do que se imagina, e que o real valor está na capacidade de mimese e automatização de processos através de software bem estruturado.
Achei a perspetiva do autor interessante e, sinceramente, um alívio no meio de tanta histeria sobre AGI. É como se todos estivessem a correr atrás do Santo Graal da inteligência artificial, enquanto ignoram as incríveis ferramentas que já temos à disposição. O ponto sobre a mimese é especialmente perspicaz - as AI já são impressionantes a imitar e automatizar processos, e isso por si só já tem imenso valor quando bem aplicado.
Elon Musk queria uma OpenAI com fins lucrativos
A OpenAI divulgou uma linha temporal detalhada mostrando como Elon Musk questionou inicialmente a estrutura sem fins lucrativos da organização, posteriormente exigiu um controlo maioritário e um cargo de CEO quando surgiu a possibilidade de a transformar numa empresa com fins lucrativos, e finalmente deixou a organização quando as suas exigências não foram atendidas. O documento revela que Musk chegou a criar uma empresa de benefício público chamada "Open Artificial Intelligence Technologies, Inc." como estrutura proposta para a OpenAI.
Esta história fez-me lembrar aqueles dramas corporativos que dariam um filme da Netflix, não é? A narrativa do Musk de "defensor da AI ética" choca com estes documentos que mostram que ele queria o básico dominar a empresa. O mais irónico é que depois de tanto criticar a OpenAI por se ter tornado uma empresa com fins lucrativos (mesmo que limitados), acabou por fundar a sua própria empresa de AI, a xAI. É mesmo como se diz por aí: faz o que eu digo, mas não faças o que eu faço!
GitHub lança versão gratuita do Copilot
O GitHub anunciou uma versão gratuita do seu popular assistente de programação Copilot, que virá agora por defeito com o editor VS Code. A versão gratuita tem algumas limitações, como 2000 completions de código por mês e acesso a apenas alguns modelos de linguagem (Claude 3.5 Sonnet e GPT-4o), mas ainda assim representa um movimento significativo para democratizar o acesso a ferramentas de AI para programação.
Esta é uma daquelas notícias que nos fazem pensar "finalmente!". É bom ver o GitHub a seguir a tendência de tornar as ferramentas de AI mais acessíveis, especialmente para os programadores em países onde 10 dólares por mês não é coisa pouca. Claro que as limitações existem, mas hey, 2.000 completions por mês dá para fazer uma experimentação muito boa!
Google lança NotebookLM para empresas
A Google está a expandir a sua aplicação de pesquisa e anotações potenciada por AI, o NotebookLM, para o mercado empresarial. A versão Plus oferece funcionalidades adicionais de segurança e privacidade, permite a partilha entre membros da organização e inclui resumos áudio ao estilo podcast. O serviço faz parte do Agentspace, a nova plataforma da Google Cloud para "agentes" de AI.
A minha ferramenta de organização pessoal favorita pode agora ser utilizada no trabalho? É exatamente isso que a Google está a proporcionar aqui. O NotebookLM já era porreiro para uso pessoal, mas agora com as funcionalidades empresariais pode tornar-se ainda melhor. A função de resumo áudio é muito interessante - imagina poder transformar aquela reunião aborrecida de duas horas num podcast de 15 minutos com os pontos principais?
Google DeepMind apresenta novo modelo de vídeo para competir com Sora
O DeepMind anunciou o Veo 2, um modelo de geração de vídeo que promete superar o Sora da OpenAI em alguns aspectos técnicos, como a resolução (até 4K) e a duração (superior a 2 minutos). Embora atualmente limitado na sua versão de teste, o modelo promete uma melhor compreensão da física, controlos de câmara mais precisos e uma geração mais clara de texturas e imagens em movimento. O DeepMind está também a implementar a tecnologia de marca de água SynthID para combater os deepfakes.
Fico parvo ao ver como a rivalidade entre a OpenAI e a Google DeepMind começa a parecer aquela disputa clássica entre a Marvel e a DC, mas aqui não se trata de super-heróis, estamos a falar de modelos de AI cada vez mais impressionantes. O Veo 2 parece realmente promissor, especialmente com aquela resolução 4K, mas como sempre, o diabo mora nos detalhes. Para já, a versão disponível está muito limitada, na teoria é lindíssimo, na prática... bem, vamos ver. Pelo menos estão a levar a sério a questão das deepfakes com a tecnologia de marca de água, o que é um ponto muito importante nos dias de hoje.
Google lança o seu modelo de "raciocínio"
A Google anunciou o lançamento do Gemini 2.0 Flash Thinking Experimental, um novo modelo de AI focado nas capacidades de raciocínio. Disponível no AI Studio, a plataforma de prototipagem da empresa, o modelo foi desenvolvido para compreensão multimodal, raciocínio e programação, com foco na resolução de problemas complexos em áreas como a programação, matemática e física.
Já tentou explicar algo a alguém e a pessoa demora um bocadinho a processar antes de dar aquela resposta mais elaborada? É mais ou menos isso que a Google está a tentar fazer com este novo modelo. Só que nem tudo são rosas - nos testes iniciais, o modelo ainda está meio a "patinar". Enganou-se até a contar quantos "R" tem na palavra "strawberry" (disse que tinha dois!). Mas hey, toda a gente começa por algum lado. E com a Google a investir fortemente nesta área, é uma questão de tempo até estas "gafes" serem coisa do passado.
IBM anuncia Granite 3.1 com melhorias significativas
A IBM lançou uma atualização significativa para a sua série de modelos de linguagem Granite, trazendo melhorias de performance, contexto mais longo e novos modelos de embedding. O Granite 3.1 8B Instruct apresenta maior performance em benchmarks académicos, contexto expandido para 128K tokens e novas funcionalidades para detetar alucinações em workflows com agentes de AI.
A IBM está a chegar com tudo! O mais giro é que não só melhoraram o que já tinha, como também acrescentaram aquela cereja no topo do bolo: um detetor de "viagens" da AI (sabem quando é que ela inventa alguma coisa? Pois é!). E o melhor: tudo isto é open source, pelo que qualquer pessoa pode meter as mãos na massa e fazer as suas próprias modificações.
Meta adiciona AI ao vivo e traduções aos seus óculos inteligentes
A Meta está a expandir as capacidades dos seus óculos Ray-Ban inteligentes com três novas funcionalidades: AI ao vivo, traduções ao vivo e Shazam. As funções de AI e tradução estarão disponíveis apenas para os membros do Programa de Acesso Antecipado, enquanto o Shazam estará disponível para todos os utilizadores nos EUA e Canadá.
Fiquei a imaginar os momentos em que estamos no mercado a olhar para uma curgete e a pensar "o que é que eu faço com isto?". Agora imagina poder perguntar a uma AI através dos teus óculos e receber sugestões de receitas! Fixe! Mas calma que há mais: os óculos também podem traduzir conversas em tempo real de inglês para espanhol, francês ou italiano. E para fechar com chave de ouro, ainda dá para descobrir qual é aquela música que está a tocar no fundo do restaurante. O futuro chegou, e ele usa óculos! (tinha de fazer esta piada)
Perplexity AI triplica o seu valor em 6 meses
A startup de pesquisa Perplexity AI fechou uma ronda de financiamento de 500 milhões de dólares no início de dezembro, elevando a sua avaliação para 9 mil milhões de dólares. Isto representa um triplo aumento do seu valor em apenas seis meses, após um investimento anterior da SoftBank que avaliou a empresa em 3 mil milhões de dólares em junho.
E não é que o pessoal da Perplexity está a fazer a festa? Em seis meses, conseguiram o que muita empresa demora anos a alcançar! E olhem que interessante: mesmo com toda aquela polémica sobre os direitos de autor (já falámos sobre isto num [Café da Semana](https://devcafe.yesmkt.com/pt/opini%C3%A3o/2024/10/25/dev -cafe/) anterior, estão a ser processados pela News Corp), os investidores continuam a atirar-lhes dinheiro como se não houvesse amanhã. O mundo da AI está cada vez mais parecido com uma montanha russa financeira, e pelos vistos, toda a gente quer dar uma voltinha!
Midjourney lança sistema de perfis e moodboards personalizados
O Midjourney anunciou uma atualização significativa na sua infraestrutura de personalização de modelos, permitindo agora aos utilizadores terem múltiplos perfis de personalização e utilizarem "moodboards" - coleções de imagens que servem de inspiração para o modelo. O processo de personalização tornou-se até 5x mais rápido e requer muito menos ratings para começar - apenas 40, contra os milhares necessários anteriormente.
Quem nunca quis ter uma personalidade múltipla (no bom sentido) na criação de imagens? Agora o Midjourney está a tornar isso possível! O que é giro é que já não precisa de estar a dar milhares de notas às imagens para ensinar o modelo - com 40 já dá para começar a brincadeira. É promissor, espero mesmo que evolua.
Perplexity confirma compra da startup Carbon para expandir pesquisa empresarial
A Perplexity anunciou oficialmente a aquisição da Carbon, uma startup especializada na ligação de fontes externas de dados com modelos de linguagem. A integração permitirá aos utilizadores ligar apps como o Notion e o Google Docs diretamente à Perplexity, facilitando as pesquisas em dados corporativos internos.
Parece que a Perplexity está a querer mostrar que não está para brincadeiras! Depois de um 2024 cheio de novidades e de uma valorização que faria até um bilionário ficar com inveja, compraram agora a Carbon para resolver aquela dor de cabeça que toda a gente tem no trabalho: encontrar informação importante espalhada por 500 sítios diferentes. E há mais, estão a levar a sério aquela história do "o que é teu é teu" - prometeram que vai ser tudo encriptado e que só quem tem permissão é que poderá aceder aos dados. Mas não ficou claro se já estão a utilizar o protocolo padrão de conectividade de LLMs à fontes de dados proposto pela Anthropic, será que este padrão não vai descolar?
Anthropic publica estudo revelador sobre vulnerabilidades nas AI
A Anthropic divulgou um estudo sobre o algoritmo Best-of-N Jailbreaking (BoN), que demonstra como os modelos de AI de fronteira podem ser explorados em múltiplas modalidades. O método conseguiu atingir taxas de sucesso de até 89% no GPT-4o e 78% no Claude 3.5 Sonnet utilizando 10.000 amostras.
Uau, a Anthropic decidiu deitar todas as cartas na mesa! Basicamente criaram um "manual do hacker de AI" para mostrar onde o sapato aperta nos modelos mais avançados que temos hoje. O impressionante é que o seu método funciona assustadoramente bem - quase 90% de sucesso no GPT-4o! Mas calma, que isto é para o bem - quanto mais conhecermos as vulnerabilidades, mais podemos trabalhar para as corrigir.
Ilya Sutskever faz reflexão histórica sobre a evolução da AI
Numa palestra reflexiva, Ilya Sutskever, um dos pioneiros da AI moderna, discutiu a evolução da área nos últimos 10 anos, desde o paper "Sequence to sequence learning" até aos dias de hoje. Abordou a forma como a pré-formação revolucionou a área, mas também apontou os seus limites, como a finitude dos dados disponíveis na internet.
Tocou num ponto super interessante: é como se tivéssemos chegado ao "pico petrolífero" dos dados da internet. Afinal, só há uma internet no mundo. E vejam que gira a analogia que fez com o cérebro dos mamíferos - pelos vistos até a natureza tem os seus truques de "escalabilidade". Será que ainda vamos descobrir algum truque destes para a AI também? Como diria o próprio Ilya, impossível prever o futuro, mas será certamente uma viagem e tanto!
OpenAI lança serviço telefónico com ChatGPT
A OpenAI anunciou que o ChatGPT já pode ser acedido por telefone e WhatsApp. Os utilizadores nos EUA podem ligar para 1-800-CHAT-GPT (1-800-242-8478) e conversar com o modelo por voz, enquanto os utilizadores globais podem interagir através do WhatsApp. O serviço gratuito oferece 15 minutos de chamadas por mês, com opção de tempo adicional para os assinantes.
É aquele momento em que percebes que o futuro chegou mesmo - agora podes ligar para o ChatGPT! Já não precisa de abrir o browser, fazer login... Agora é só pegar no telefone e dizer "estou"! E o mais giro é que até o testaram num telefone de disco daqueles antigos (e funcionou!). Imaginem a cena: o vosso avô a tirar aquele telefone cheio de pó da gaveta e a perguntar ao ChatGPT a receita do pão de ló. 😄
OpenAI anuncia novas funcionalidades para programadores
Numa edição especial do "DevDay Holiday Edition", a OpenAI lançou várias novidades para programadores, incluindo o modelo O1 com funções de chamada, saídas estruturadas e mensagens de programador. O modelo recebeu ainda suporte para entradas de visão e um novo parâmetro de "esforço de raciocínio" que permite ajustar o tempo que o modelo deve gastar a pensar em problemas.
Quem diria que até os developers receberiam presentes de Natal da OpenAI? O que mais gostei é esta coisa do "esforço de raciocínio" - agora já se pode dizer ao modelo "pensa lá mais um bocadinho" ou "relaxa, não é preciso pensar tanto". Assim poupamos alguns tokens!
ChatGPT ganha sistema de projetos e organização
A OpenAI lançou uma nova funcionalidade de projetos no ChatGPT, permitindo aos utilizadores organizar conversas, fazer o upload de ficheiros e definir instruções personalizadas para cada projeto. A funcionalidade inclui integração com todas as funcionalidades existentes como a pesquisa e o canvas, além de poder ser utilizada como sistema de arquivo para organizar conversas.
Já estava farto com a confusão dos chats? Assim, agora já dá para organizar tudo bonitinho em pastinhas, exatamante como já existia no Claude, ou seja, a OpenAI não deixa nenhuma feature exclusiva para a concorrência! O Drew, um dos engenheiros da OpenAI, mostrou como se usa para se lembrar quando se troca o filtro do frigorífico (que, aliás, já toda a gente precisa de trocar!). O mais divertido foi que também mostrou como organiza a troca secreta de presentes de fim de ano - e o ChatGPT até ajudou a fazer o sorteio, garantindo que não tinha nenhuma batota! 😂
OpenAI expande funcionalidade de pesquisa do ChatGPT
O ChatGPT oferece agora a pesquisa na web para todos os utilizadores gratuitos com sessão iniciada. A funcionalidade, antes restrita a utilizadores pagos, foi melhorada com mais velocidade, melhor experiência móvel e novas funcionalidades de mapas. A pesquisa foi também integrada no modo de voz avançado, permitindo o acesso a informações atualizadas durante as conversas por voz.
E não é que a OpenAI decidiu dar um presente de Natal antecipado a todos? Agora qualquer pessoa pode usar o ChatGPT para fazer aquela pesquisa marota na web! E funciona mesmo quando estás a falar por voz com ele. Quer saber onde vai haver festa no fim de semana? Só perguntar! Já tardava heim OpenAI?
ChatGPT ganha integração com aplicações desktop
A OpenAI expandiu as capacidades do ChatGPT Desktop, permitindo ao assistente trabalhar directamente com aplicações do computador. A funcionalidade inclui suporte para editores de código como o XCode e o VS Code, bem como aplicações de texto como o Apple Notes, Notion e Quip. A funcionalidade foi também integrada com o modo de voz avançado, permitindo interações por voz com as aplicações.
Basta carregar numas teclinhas mágicas (Option + Espaço) e ele aparece, pronto a ajudar. Porreiro é que não é daqueles assistentes intrometidos que andam a bisbilhotar tudo - só olha para o que deixar. Mas tem limitações, por exemplo, ele não pode alterar nada nestas aplicações, se gostar de alguma sugestão, tem de ser você a copiar do chat e colar na aplicação menualmente.
Meta avança na compreensão da mente com ExploreToM
A Meta apresentou o ExploreToM, uma nova abordagem que utiliza algoritmos de pesquisa A e linguagens específicas para gerar histórias sintéticas que testam a capacidade dos modelos de linguagem em compreender estados mentais de outras pessoas (Theory of Mind - ToM). O sistema cria cenários complexos e acompanha as crenças e intenções das personagens, revelando limitações fundamentais nos modelos atuais.
Sabe quando o seu amigo jura que sabe o que está a pensar, mas na verdade não faz a mínima ideia? A Meta criou uma ferramenta para perceber se as AI também sofrem deste problema! O ExploreToM é um realizador de novelas digitais - cria histórias cheias de reviravoltas para ver se a AI consegue acompanhar quem sabe o quê. Nem o poderoso GPT-4o se saiu muito bem neste teste... acertou apenas 9% das vezes, mas com certeza se saiu melhor que eu.
Meta apresenta modelo humanoide com controlo total do corpo
A Meta anunciou o META MOTIVO, o primeiro modelo fundamental comportamental para o controlo de humanoides em tarefas corporais completas sem necessidade de treino adicional. O modelo utiliza a aprendizagem por reforço não supervisionada e pode responder a diferentes tipos de instruções, desde a imitação à otimização de recompensas.
Já deve ter visto um daqueles robôs desengonçados nos vídeos a tentar andar e sempre a cair. A Meta decidiu dar-lhe uma aula de dança! O META MOTIVO é um professor de educação física para robôs - ensina-os a movimentarem-se de forma mais natural, sem parecer que estão sempre prestes a tropeçar nos próprios pés. Aprende observando pessoas reais, como pessoas que aprendem os passos de dança só de olhar para os outros na discoteca! Claro que ainda tem as suas limitações - não é grande fã de quedas e ainda não aprendeu a interagir com os objetos, mas Roma não se construiu num dia, certo?
Meta revoluciona processamento de linguagem com Byte Latent Transformer
A Meta publicou um estudo sobre o Byte Latent Transformer (BLT), uma nova arquitetura que elimina a necessidade de tokenização nos modelos de linguagem quando se trabalha diretamente com bytes. O modelo utiliza patches dinâmicos baseados na entropia e consegue reduzir os custos de inferência até 50%, mantendo o desempenho competitivo.
Já tentou falar com uma pessoa de outra língua que não conhece e acabou por comunicar por mímica? Pois os modelos de AI tradicionais como que fazem isso - precisam de transformar tudo em "tokens" para perceber. Mas o BLT diz "sabem que mais? Vou ler diretamente do código fonte!". É muito mais económico - gasta metade do processamento dos modelos normais. Vale a pena espreitar.
Microsoft treina Phi-4 com foco em dados sintéticos
A Microsoft apresentou o Phi-4, um modelo de linguagem de 14 mil milhões de parâmetros treinado com uma combinação única de dados sintéticos e orgânicos. O modelo destaca-se em tarefas de raciocínio STEM, superando mesmo o GPT-4o em alguns benchmarks, apesar do seu tamanho relativamente modesto.
A Microsoft decidiu dar uma de professora particular ao seu novo modelo. Em vez de o atirar para a internet para aprender sozinho (como a maioria faz), ela criou um plano de estudos personalizado. O segredo? 40% do seu "material de estudo" foi feito à medida. Claro que ainda dá umas escorregadelas de vez em quando - como inventar factos que não existem (quem nunca?) - mas já está no bom caminho!
Ufa! É incrível ver como a AI está a evoluir em tantas direções diferentes ao mesmo tempo. Temos o ChatGPT a tornar-se operador de telemarketing (mas daqueles com quem gostamos de falar!), a Meta a ensinar robôs a dançar e até a fazer AIs mais "humanas" com o ExploreToM. Entretanto, a Microsoft está lá, a criar um "aluno prodígio" com o Phi-4. Se numa semana já aconteceu tudo isto, imagine só o que vem aí em 2025! Bem, por agora é isto. Ah, e não te esqueças de trocar o filtro do teu frigorífico! 😉