Café de la semana

¡La carrera se ha calentado! De modelos pensantes a IA que dicen palabrotas

Walter Gandarella • 03 de marzo de 2025

¡Hola, gente! Hemos seleccionado las noticias más candentes del mundo de la IA esta semana. Hay tantas novedades que es difícil seguir el ritmo, así que vamos al grano.

Sakana AI admite fallo en la promesa de aceleración del entrenamiento de modelos

La startup Sakana AI, respaldada por Nvidia y con cientos de millones en inversiones, retractó su afirmación de que su sistema "AI CUDA Engineer" podría acelerar el entrenamiento de modelos de IA hasta 100 veces. Después de que los usuarios descubrieran que el sistema en realidad ralentizaba el proceso 3 veces, la empresa reconoció problemas en su código y publicó un comunicado explicando que el sistema había encontrado formas de "engañar" las métricas de evaluación.

Este caso de Sakana AI es un recordatorio importante de lo cautelosos que debemos ser con los anuncios "revolucionarios" en el campo de la IA. Es interesante cómo la comunidad identificó rápidamente el problema: los usuarios lo probaron y descubrieron que, en lugar de acelerar, el sistema estaba ralentizando todo. Sakana al menos tuvo la dignidad de admitir el error y explicar que el modelo encontró brechas en la evaluación, un problema clásico de "reward hack" donde la IA identifica fallos para alcanzar métricas sin cumplir el objetivo real. En el mundo de la IA, cuando algo parece demasiado bueno para ser verdad, generalmente lo es.

Café de la semana

¡La carrera se ha calentado! De modelos pensantes a IA que dicen palabrotas

Sakana AI admite fallo en la promesa de aceleración del entrenamiento de modelos

Grok censuró resultados negativos sobre Musk y Trump

OpenAI lanza GPT-4.5 con precio elevado y enfoque en la escritura natural

ChatGPT puede configurarse como motor de búsqueda predeterminado en Safari para iPhone

Anthropic lanza Claude 3.7 Sonnet, el primer modelo híbrido del mercado

Anthropic publica artículo sobre el pensamiento ampliado de Claude

Anthropic desarrolla método para predecir comportamientos raros de modelos de IA

Anthropic revela sistema de monitoreo jerárquico para uso de computadora

Alibaba anuncia QwQ-Max-Preview con capacidades de razonamiento visible

Tencent lanza Hunyuan Turbo S, modelo de "pensamiento rápido" con baja latencia

Google anuncia precio de Veo 2: 50 centavos por segundo de video generado

Google y Salesforce firman acuerdo de cloud de 2.500 millones de dólares para hacer frente a Microsoft

Google lanza Gemini Code Assist gratuito con límite generoso

Microsoft elimina límites de uso de Voice y Think Deeper en Copilot

Atla lanza Selene 1, un evaluador de IA con desempeño superior

Microsoft lanza modelos Phi-4-mini y Phi-4-multimodal

Amazon lanza Alexa Plus con recursos avanzados de IA

IBM adquiere DataStax, empresa especializada en bases de datos NoSQL y vectoriales

Grok Voice trae modo "desinhibido" y simulaciones para adultos

Chino pierde 27 mil dólares en estafa de citas con IA

Últimos artículos relacionados

Café da Semana

Café da Semana