
Café de la semana
Donde las modelos piensan, los delfines hablan y se gastan miles de millones
Bienvenidos a una nueva edición de DevCafé, donde les sirvo las noticias más candentes del mundo de la IA mientras toman ese café. ¡Esta semana ha sido una verdadera montaña rusa en el universo de la tecnología, con startups alcanzando valoraciones astronómicas, gigantes lanzando nuevas funcionalidades e incluso delfines hablando con IA! Agarra tu taza favorita y sumerjámonos en las principales novedades que han sacudido el sector en los últimos días.
Cofundador de OpenAI Ilya Sutskever's Safe Superintelligence está valorado en 32 mil millones de dólares
Safe Superintelligence (SSI), la startup de IA liderada por el cofundador de OpenAI y excientífico principal Ilya Sutskever, ha recaudado 2 mil millones de dólares adicionales en financiación, con una valoración de 32 mil millones de dólares. Sutskever dejó OpenAI en mayo de 2024, después de aparentemente desempeñar un papel en un intento fallido de derrocar al CEO Sam Altman. Fundó SSI con Daniel Gross y Daniel Levy, quienes afirmaron que la empresa tenía «un objetivo y un producto: una superinteligencia segura».
¡Uy, parece que montar una startup de IA con un nombre pomposo y un eslogan sobre «superinteligencia» es el nuevo «abrir una panadería artesanal»! En serio, me sorprende cómo Sutskever logró recuperarse tan rápido después de ese drama en OpenAI. 32 mil millones de dólares para una empresa que aún no ha entregado nada concreto muestra cuán sediento está el mercado por todo lo relacionado con la seguridad en IA. Si SSI cumple lo que promete, podría ser revolucionario. Si no... bueno, no sería la primera vez que vemos estallar una burbuja de valoración, ¿verdad?
Pionero del código abierto quiere liberar robots
Hugging Face adquirió la startup de robots de código abierto Pollen Robotics para ayudar a «democratizar» la robótica. Hugging Face planea vender el robot y permitir que los programadores descarguen, modifiquen y sugieran mejoras para su código.
¿Robots de código abierto? ¡Suena como el inicio de una película de ciencia ficción que no termina muy bien para la humanidad! Pero en serio, me encanta esta iniciativa de Hugging Face. Ya revolucionaron el acceso a modelos de IA con su plataforma, y ahora están llevando esa misma filosofía a la robótica. Imaginen el potencial cuando miles de desarrolladores puedan colaborar en robots que resuelvan problemas reales, sin quedar atrapados en los intereses corporativos de las grandes empresas. Si el futuro de la robótica sigue el mismo camino que el software de código abierto, podemos esperar una explosión de innovación en los próximos años.
Perplexity AI está en negociaciones para integrar asistente en Samsung y Motorola Phones
Perplexity AI Inc. está en negociaciones con Samsung Electronics Co. sobre la integración de su asistente en los dispositivos del gigante de smartphones y ya llegó a un acuerdo con Motorola de Lenovo Group Ltd. para un trato similar.
¡Perplexity está jugando en la liga de los grandes ahora! Y miren cómo están logrando penetrar la burbuja de los asistentes tradicionales como Google Assistant, Siri y Alexa. La estrategia de integración directa con los fabricantes de smartphones es demasiado inteligente: al fin y al cabo, ¿de qué sirve tener el mejor asistente de IA si nadie lo usa? Si estos acuerdos se concretan, Perplexity podría convertirse en un nombre familiar de la noche a la mañana. Para nosotros, los consumidores, esto solo tiende a mejorar la competencia y, en consecuencia, la calidad de los asistentes disponibles. ¡Siento que Google y Apple deben estar rascándose la cabeza en este momento!
Wikipedia está dando a los programadores de IA sus datos para alejar a los bots scrapers
Wikipedia está intentando evitar que los desarrolladores de inteligencia artificial raspen la plataforma, lanzando un conjunto de datos específicamente optimizado para entrenar modelos de IA. La Wikimedia Foundation anunció el miércoles que estableció una asociación con Kaggle, una plataforma de comunidad de ciencia de datos propiedad de Google que aloja datos de aprendizaje automático, para publicar un conjunto de datos beta de «contenido estructurado de Wikipedia en inglés y francés».
¡Es como esa táctica de los padres que permiten que el adolescente haga una pequeña fiesta en casa controlada para evitar que vaya a discotecas sin supervisión! Wikipedia finalmente entendió que no puede impedir que los modelos de IA usen sus datos, por lo que decidió ofrecer un conjunto de datos «oficial» para tener cierto control sobre el proceso. ¿Astuto, no? Además, este enfoque puede beneficiar a todos: los programadores obtienen acceso estructurado a los datos, Wikipedia mantiene cierto control sobre cómo se utiliza su contenido, y los modelos de IA se vuelven potencialmente más precisos al citar información de la enciclopedia. Una jugada diplomática inteligente en un campo lleno de tensiones sobre el uso de datos.
Chatbot Arena se está convirtiendo en una empresa real
Chatbot Arena, un proyecto académico cuya página se convirtió en un lugar popular para que los visitantes probaran nuevos modelos de inteligencia artificial, se está transformando en una empresa. Los líderes de Chatbot Arena anunciaron la formación de LMArena, que esperan les permita expandirse más rápidamente. La plataforma permite que las personas prueben una serie de modelos de IA de vanguardia frente a frente y luego voten por los que prefieran en las tablas de clasificación del sitio, que son observadas de cerca por la comunidad tecnológica.
¿Quién diría que un «¿quién es mejor: Claude o GPT?» se convertiría en un negocio real? La historia de Chatbot Arena es un recordatorio de cómo los proyectos paralelos pueden evolucionar hacia algo mucho más grande. Lo que comenzó como un experimento académico se convirtió en una especie de «Billboard Hot 100» para los modelos de IA, con las empresas ajustando literalmente sus estrategias basadas en las clasificaciones. Ahora que se ha convertido en una empresa, estoy curioso por ver cómo monetizarán sin perder la credibilidad que construyeron. ¿El «test ciego» seguirá siendo tan imparcial cuando estén en juego los beneficios de los inversores? En cualquier caso, ¡nunca subestimes el poder de un buen ranking y la competitividad humana!
Netflix prueba nuevo motor de búsqueda con IA para recomendar programas y películas
Netflix Inc. está probando una nueva tecnología de búsqueda para suscriptores que emplea inteligencia artificial para ayudarlos a encontrar programas de televisión y películas, expandiendo el uso de la tecnología. El motor de búsqueda con tecnología OpenAI permite a los clientes buscar programas utilizando términos mucho más específicos, incluido el estado de ánimo del suscriptor, por ejemplo, dijo la empresa. Luego, recomendará opciones del catálogo de la empresa.
¡Ya era hora, Netflix! Me cansé de escribir «película de acción con submarino» y recibir comedias románticas como sugerencia. Esta actualización podría resolver uno de los mayores problemas de la plataforma: ayudar a las personas a encontrar lo que realmente quieren ver en los 15 minutos que tienen antes de quedarse dormidas. Imagina poder decir «tengo el corazón roto y necesito algo que me haga reír, pero no seas demasiado tonto» y encontrar algo adecuado. La asociación con OpenAI también muestra cómo incluso gigantes como Netflix necesitan ayuda externa cuando se trata de IA avanzada. Si funciona bien, apuesto a que veremos a todas las demás plataformas de streaming corriendo para implementar algo similar.
La música generada por IA representa el 18% de todas las pistas cargadas en Deezer
Alrededor del 18% de las canciones cargadas en Deezer son generadas totalmente por IA. La plataforma francesa de streaming dijo que más de 20,000 pistas generadas por IA se cargan en su plataforma cada día, casi el doble del número reportado hace cuatro meses. El creciente uso de IA generativa en las industrias creativas ha desencadenado una ola de demandas, con artistas, autores y titulares de derechos acusando a las empresas de IA de utilizar material protegido por derechos de autor sin consentimiento o compensación para entrenar sus modelos.
¡Vaya, 18%! Es como si en cada 5 canciones nuevas en Deezer, casi 1 fuera creada por robots. Este número me deja con sentimientos encontrados. Por un lado, es increíble ver cómo la tecnología ha democratizado la creación musical: ahora cualquiera puede producir una canción sin tener que pasar años aprendiendo a tocar instrumentos. Por otro lado, ¿qué pasa con los artistas humanos en esta historia? ¿Tendremos listas de reproducción enteras generadas por IA sin ningún toque humano? Lo más interesante es que muchas personas probablemente ni siquiera se dan cuenta cuando están escuchando una canción hecha por IA. Creo que estamos entrando en una era en la que la pregunta ya no será «¿te gusta esta canción?», sino «¿sabes quién (o qué) hizo esta canción?».
ElevenLabs establece la subsidiaria japonesa ElevenLabs G.K.
El líder global en tecnología de voz con inteligencia artificial se expande a la región de Asia-Pacífico, lanzando un hub internacional en Japón. La nueva entidad japonesa se centrará en adaptar la plataforma de generación de voz de vanguardia de ElevenLabs al mercado japonés, abordando los requisitos lingüísticos y culturales únicos de la región. ElevenLabs estableció una asociación con DOCOMO Innovations, TBS, MBC C&I CO., LTD y LLSOLLU. La empresa recibió un fuerte apoyo de sus inversores, quienes ven a Japón como un mercado estratégico para la tecnología de voz con inteligencia artificial.
¡Jugada inteligente de ElevenLabs! Japón no es solo una potencia tecnológica, sino también un enorme centro cultural con anime, juegos y otros medios que pueden beneficiarse enormemente de las voces generadas por IA. Imaginen el impacto en la industria de doblaje y localización. La adaptación al japonés no debe ser tarea fácil: es un idioma con importantes matices tonales y expresiones culturales únicas. Pero si logran acertar, el mercado es gigantesco. Además, la experiencia adquirida puede abrir puertas a otros mercados asiáticos como Corea y China. Esta expansión muestra cómo la generación de voz por IA está rápidamente pasando de ser una curiosidad tecnológica a convertirse en un componente fundamental en varias industrias en todo el mundo.
Copilot Vision ya está disponible, gratis en Microsoft Edge
Copilot Vision ya está disponible, gratuitamente en Microsoft Edge. Puede literalmente ver lo que ves en la pantalla (si optas por participar). ¡Es increíble! Pensará en voz alta contigo mientras navegas en línea. Basta de explicar demasiado, copiar y pegar o luchar para poner algo en palabras.
¿Un asistente que puede ver mi pantalla? ¡Parece útil, pero también un poco aterrador! Microsoft sigue apostando fuerte por la IA con Copilot, y esta función de visión podría cambiar la forma en que interactuamos con la web. Imagina no tener que copiar y pegar fragmentos de un artículo para hacer preguntas sobre él. O poder preguntar «¿qué significa este error?» mientras Copilot mira directamente la pantalla de error. Es una gran ayuda para programadores, investigadores e incluso para la abuela que siempre llama pidiendo ayuda con la computadora. Claro que esto plantea preguntas sobre privacidad (ni siquiera quiero pensar en Copilot viendo mi historial de compras en línea), pero si la funcionalidad «opt-in» está bien implementada, podría ser un cambio radical para la navegación web.
Satya Nadella anuncia nuevas funcionalidades de agente de Copilot Studio
Satya Nadella anunció que Copilot Studio ahora tiene capacidades de agente que permiten a cualquiera crear agentes que actúen en la interfaz de usuario en aplicaciones de escritorio y web. Charles Lamanna también anunció que los agentes ahora pueden hacer clic, escribir e interactuar con aplicaciones de escritorio y web, sin necesidad de APIs.
Microsoft realmente está mordiendo el mercado de la automatización. Estas nuevas capacidades de Copilot Studio son un cambio radical, especialmente la parte de no necesitar APIs. Cualquiera que haya intentado automatizar tareas en el trabajo sabe el dolor de cabeza que es lidiar con sistemas heredados sin APIs decentes. Ahora, imagina poder crear un asistente que simplemente «vea» e interactúe con cualquier aplicación como lo haría un ser humano. ¡Es prácticamente magia! Esto podría revolucionar sectores como el soporte técnico, el servicio al cliente y las tareas administrativas. Lo más interesante es que Microsoft está democratizando estas herramientas: «cualquiera» puede crear estos agentes. Parece que Nadella está intentando convertirnos a todos en pequeños creadores de IA. ¿Tendremos pronto mercados de «agentes Copilot» creados por usuarios comunes?
Claude realiza investigación en nuevos lugares
Anthropic lanzó nuevas funcionalidades para Claude, incluyendo búsqueda e integración con Google Workspace, para convertirlo en un colaborador más informado y capaz. La funcionalidad de búsqueda permite a Claude encontrar y analizar información de varias fuentes, mientras que la integración con Google Workspace lo conecta al correo electrónico, calendario y documentos del usuario.
Finalmente, Claude ganó superpoderes de investigación. Era frustrante ver al pobre intentando responder preguntas sobre eventos recientes sin acceso a internet. Con esta actualización, Anthropic claramente está apuntando al territorio de GPT y Perplexity. La integración con Google Workspace es interesante: imagina pedirle a Claude que resuma todos los correos importantes de la última semana o que ayude a organizar tu calendario. Es como tener un asistente personal que ya tiene acceso a toda tu vida digital. Claro que esto plantea preguntas sobre privacidad y seguridad, pero si está bien implementado, podría convertir a Claude de un chatbot inteligente en una herramienta de productividad esencial para el día a día. ¡La carrera de los asistentes de IA está cada vez más reñida!
xAI añade una funcionalidad de 'memoria' a Grok
xAI está introduciendo una funcionalidad de «memoria» para el chatbot Grok, permitiéndole recordar detalles de conversaciones pasadas con los usuarios. Esta mejora tiene como objetivo proporcionar respuestas más personalizadas basadas en preferencias aprendidas. La funcionalidad está disponible en versión beta en Grok.com y en las aplicaciones Grok iOS y Android, con planes de expansión para la experiencia en X.
Después de llegar tarde a la fiesta de los LLM con Grok, ahora está intentando diferenciarse con este recurso de memoria. En teoría, es brillante: ¿a quién no le molesta tener que reexplicar constantemente sus preferencias a los asistentes virtuales? Un Grok que recuerde que odias las películas de terror o que prefieres explicaciones técnicas podría crear una experiencia verdaderamente personalizada. Pero también tengo mis preocupaciones: ¿qué tan profunda es esta «memoria»? ¿Cuánto recordará Grok? ¿Y qué pasa con estos datos? Conociendo el historial de Musk con la privacidad de datos (especialmente en X), creo que debemos mantener un ojo en este desarrollo. En cualquier caso, es un paso más hacia asistentes de IA que parecen conocernos como personas reales.
Grok gana una herramienta similar a un canvas para crear documentos y aplicaciones
Grok ganó una funcionalidad similar a un canvas para edición y creación de documentos y aplicaciones básicas. Llamado Grok Studio, la funcionalidad fue anunciada en X el martes pasado. Está disponible para usuarios gratuitos y de pago en Grok.com. Grok Studio no parece materialmente diferente de las herramientas similares a canvas que vinieron antes. Permite visualizar fragmentos de HTML y ejecutar código en lenguajes de programación como Python, C++ y JavaScript. Todo el contenido se abre en una ventana a la derecha de las respuestas de Grok.
Parece que Musk quiere convertir a Grok en una navaja suiza de la IA. Primero la memoria, ahora un canvas para desarrollo. Grok Studio recuerda mucho a los playgrounds que ya vemos en herramientas como CodePen o Replit, pero integrado directamente en el chatbot. Es una adición interesante, especialmente para programadores que quieran probar rápidamente fragmentos de código o crear prototipos simples. Sin embargo, como la propia noticia menciona, no hay nada revolucionario aquí: otras plataformas ya ofrecen funcionalidades similares. La diferencia está en la integración con el ecosistema de Grok y, potencialmente, de X. Estoy curioso por ver si esto va más allá de ser solo otro playground de código o si xAI tiene planes más grandes para convertir a Grok Studio en una plataforma de desarrollo más robusta.
DolphinGemma: Cómo la IA de Google está ayudando a descifrar la comunicación de los delfines
DolphinGemma, un modelo de lenguaje grande desarrollado por Google, está ayudando a los científicos a estudiar cómo se comunican los delfines y, con suerte, a descubrir qué están diciendo. El proyecto, en colaboración con investigadores de Georgia Tech y el trabajo de campo del Wild Dolphin Project (WDP), tiene como objetivo analizar las vocalizaciones de los delfines, generar secuencias de sonido similares a las de los delfines y, eventualmente, establecer un vocabulario compartido para la comunicación entre especies. Al identificar patrones de sonido recurrentes, el modelo puede ayudar a los investigadores a descubrir estructuras ocultas y posibles significados en la comunicación natural de los delfines, acercándonos a una futura comunicación humano-delfín. Google planea compartir DolphinGemma como modelo abierto este verano para ayudar a los investigadores que estudian otras especies de cetáceos.
¡Ahora sí la IA está siendo usada para algo verdaderamente increíble! En serio, ¿quién no ha soñado con poder conversar con delfines? DolphinGemma muestra cómo la IA puede trascender aplicaciones puramente humanas y ayudarnos a tender puentes con otras especies inteligentes. Imagina descubrir que los delfines tienen chistes internos, chismes de grupo o debates filosóficos. Además del aspecto «wow» de esta investigación, tiene enormes implicaciones para la conservación marina y la bioética. Si podemos entender lo que otras especies están comunicando, tal vez finalmente podamos considerar sus «intereses» de manera más directa en nuestras decisiones ambientales. El hecho de que Google planeé hacer esto como modelo abierto es especialmente emocionante: podríamos ver investigadores aplicando técnicas similares para entender la comunicación de ballenas, elefantes y otros animales sociales complejos. ¡Douglas Adams estaría orgulloso!
Google implementa oficialmente enlaces en las vistas generales de IA para sus propios resultados de búsqueda
Después de probar esto durante un mes, Google lanzó oficialmente este método para ayudar a los investigadores a explorar más temas. Google dijo que está haciendo esto para facilitar a los investigadores la exploración de temas y escuchó de los usuarios que encuentran útil estar vinculados directamente a una página de resultados relevante.
Hmm, ¿Google está facilitando el paso de su IA... a más Google? ¡Qué conveniente! Esta integración tiene sentido desde el punto de vista de la experiencia del usuario. Si el resumen de IA me da una visión general sobre «cómo hacer pan de masa madre», es natural querer hacer clic para ver resultados más detallados. El lado cínico en mí ve esto como una forma de Google proteger su negocio principal de búsqueda: después de todo, si los usuarios se quedan satisfechos solo con las respuestas de la IA, ¿quién hará clic en los anuncios de la página de resultados? Al mismo tiempo, este enfoque podría ayudar a combatir la desinformación, ya que, en teoría, permite a los usuarios verificar las fuentes detrás de los resúmenes generados por IA. Es un pequeño paso que muestra cómo Google está intentando integrar la IA sin canibalizar su modelo de negocio principal.
Google hace que la cámara Gemini Live y el uso compartido de pantalla sean gratuitos en Android
Google comenzó a implementar ampliamente la cámara Gemini Live y el uso compartido de pantalla para suscriptores Advanced, y las funcionalidades con tecnología Project Astra pronto serán gratuitas para todos los usuarios Android. Gemini Live ahora permite hacer preguntas sobre lo que está en tu pantalla o cámara. El uso compartido de pantalla puede iniciarse rápidamente al iniciar la superposición de Gemini y tocar el nuevo chip «Compartir pantalla con Live». Después de confirmar, verás una cuenta regresiva junto a la hora en tu barra de estado. Google lanzó la nueva notificación al estilo de llamada telefónica para Live. La cámara y el uso compartido de pantalla se unen a la forma en que puedes conversar con Gemini Live sobre una imagen, PDF o video de YouTube.
Google está jugando sus cartas. Hacer que funcionalidades premium sean gratuitas, especialmente algo tan poderoso como el análisis de cámaras en tiempo real, muestra cuán determinados están a no perder terreno en la carrera de la IA frente a Microsoft y OpenAI. Es una gran noticia para los usuarios Android, que ahora pueden tener un asistente realmente capaz de entender el mundo visual a su alrededor sin pagar nada. Imagina poder apuntar a un plato en un restaurante y preguntar «¿esto tiene gluten?» o mostrar una planta y saber cómo cuidarla. El uso compartido de pantalla también es muy útil para asistencia técnica remota: ahora puedes literalmente mostrarle a Gemini lo que está pasando en tu teléfono y pedir ayuda. Claro que hay preocupaciones de privacidad (estamos literalmente dando ojos a Google), pero para muchos usuarios, la conveniencia superará fácilmente estas preocupaciones.
¡Gemini 2.5 Flash lanzado!
Google DeepMind lanzó Gemini 2.5 Flash, un modelo de razonamiento híbrido que te permite controlar cuánto «piensa», haciéndolo ideal para tareas como crear aplicaciones de chat, extracción de datos y más. Una versión inicial está disponible en Google AI Studio.
¡Google finalmente se subió a la ola del «razonamiento»! Después de que OpenAI y Anthropic comenzaran con esto de los modelos que «piensan», era cuestión de tiempo hasta que Google siguiera el mismo camino. Lo interesante de Gemini 2.5 Flash es este control sobre «cuánto» piensa: como si fuera un control deslizante entre velocidad y profundidad. Esto es genial para los programadores que necesitan equilibrar costos, latencia y calidad de respuestas. Para tareas simples, puedes dejar que el modelo responda rápidamente; para análisis complejos, puedes pedirle que «piense más». Es como tener un pasante al que puedes instruir para trabajar más rápido o más meticulosamente según la tarea. Ansioso por ver cómo los programadores usarán esto para crear aplicaciones más receptivas e inteligentes sin sacrificar la calidad de las respuestas.
Avanzando los sistemas de IA a través del progreso en percepción, localización y razonamiento
Meta FAIR está lanzando nuevos artefactos de investigación que mejoran la comprensión de la percepción y apoyan el objetivo de alcanzar inteligencia de máquina avanzada (AMI). Esto incluye el Meta Perception Encoder, el Perception Language Model (PLM) y el Collaborative Reasoner.
Meta está tranquila en su rincón haciendo un trabajo increíble. Mientras todos nos emocionamos con los lanzamientos de OpenAI y Google, Meta FAIR sigue avanzando en áreas fundamentales como la percepción y el razonamiento colaborativo. Lo más genial es que suelen hacer disponibles muchas de estas investigaciones de forma abierta, contribuyendo al campo en general. Este enfoque en la percepción es particularmente interesante: al fin y al cabo, para que una IA entienda realmente el mundo como nosotros, necesita «percibirlo» de manera más completa y contextualizada. Collaborative Reasoner también suena prometedor para aplicaciones donde múltiples agentes deben trabajar juntos para resolver problemas complejos. Es como si Meta estuviera construyendo los bloques fundamentales mientras otras empresas se centran en productos finales más llamativos. A largo plazo, este tipo de investigación básica podría tener impactos mucho más profundos.
OpenAI está construyendo una red social
OpenAI está trabajando en su propia red social similar a X, según varias fuentes familiarizadas con el asunto. Aunque el proyecto aún está en sus primeras etapas, se centra en la generación de imágenes de ChatGPT que tiene un feed social. Esto podría aumentar la ya amarga rivalidad de Altman con Elon Musk y poner a OpenAI en curso de colisión con Meta, que también planea agregar un feed social a su próxima aplicación independiente para su asistente de IA.
¿Otra red social? ¿En serio, OpenAI? ¡Como si no tuviéramos suficientes opciones para perder el tiempo! Imagino que sería una especie de Instagram donde, en lugar de filtros, se usan prompts para generar imágenes increíbles. La diferencia podría ser precisamente este enfoque en el contenido generado por IA, creando un espacio donde la creatividad no depende de habilidades técnicas, sino de la capacidad de crear prompts interesantes. La rivalidad con Musk añade una capa extra de drama a todo esto: parece que cada movimiento de OpenAI ahora se interpreta a través de la lente de esta lucha. Lo que me preocupa es el posible impacto en la ya saturada economía de la atención. ¿Realmente necesitamos otra plataforma compitiendo por nuestro tiempo limitado? Por otro lado, si logran crear algo verdaderamente único... bueno, tengo curiosidad por ver.
OpenAI en negociaciones para comprar Windsurf por alrededor de 3 mil millones de dólares
OpenAI está en negociaciones para adquirir Windsurf, una herramienta de codificación asistida por inteligencia artificial anteriormente conocida como Codeium, por alrededor de 3 mil millones de dólares. El trato sería la mayor adquisición de OpenAI hasta la fecha y podría ayudar a la empresa a enfrentar la creciente competencia en el mercado de asistentes de codificación impulsados por IA.
¡Vaya, OpenAI tiene los bolsillos llenos! 3 mil millones de dólares no es poca cosa. Esta compra tiene mucho sentido estratégico: el mercado de los asistentes de código es uno de los campos de batalla más feroces de la IA actualmente, con Github Copilot (de Microsoft) dominando el panorama. Windsurf (o Codeium, para los íntimos) tiene una buena tecnología y una base de usuarios leales, pero necesita músculo financiero para competir con los gigantes. OpenAI claramente quiere dominar no solo el mercado de los chatbots, sino también el de las herramientas específicas para desarrolladores. Lo curioso es que esto contradice un poco el discurso inicial de OpenAI como una organización sin fines de lucro centrada en la «IA para el bien de la humanidad». Ahora parece más una empresa tecnológica tradicional haciendo sus adquisiciones multimillonarias. Como se suele decir, ¡si no puedes con ellos, cómpralos! Lo malo es que Windsurf es mi asistente de codificación con IA favorito, y si OpenAI realmente lo compra, bueno, dejaré de usarlo. Cada día que pasa me alejo más de OpenAI y sus estrategias...
Presentando GPT-4.1 en la API
Una nueva serie de modelos GPT con grandes mejoras en codificación, seguimiento de instrucciones y contexto largo, además de nuestro primer modelo nano. Los modelos GPT-4.1 superan a GPT-4o y GPT-4o mini en todos los aspectos, con grandes ganancias en codificación y seguimiento de instrucciones. También tienen ventanas de contexto más grandes, soportando hasta 1 millón de tokens de contexto, y son capaces de utilizar mejor este contexto con una mejor comprensión del contexto largo. Presentan un corte de conocimiento actualizado de junio de 2024.
¡OpenAI sigue en este ritmo frenético de lanzamientos! Apenas me acostumbré a GPT-4o y ya hay un modelo nuevo. Este GPT-4.1 parece haber prestado especial atención a los programadores, con mejoras en la codificación. La ventana de contexto de 1 millón de tokens es algo serio: imagina poder incluir libros enteros o bases de código gigantescas y que el modelo realmente lo entienda todo. Pero lo que más me llamó la atención fue este modelo «nano» que mencionan. ¿Finalmente tendremos versiones poderosas de GPT ejecutándose localmente en nuestros dispositivos? Esto sería revolucionario para la privacidad y el uso offline. En cualquier caso, la carrera de los modelos sigue a todo gas, y quienes ganamos somos nosotros, los usuarios, con herramientas cada vez más capaces. ¡Solo necesitamos correr para seguir todos estos cambios!
La última tendencia viral de ChatGPT está haciendo 'búsqueda inversa de ubicación' a partir de fotos
Está surgiendo un nuevo comportamiento viral en ChatGPT, donde los usuarios utilizan la herramienta para intentar descubrir la ubicación de imágenes cargadas. ChatGPT fue actualizado con los nuevos modelos de IA, o3 y o4-mini, que pueden «razonar» a través de imágenes cargadas. Los modelos pueden recortar, rotar y ampliar fotografías (incluso borrosas y distorsionadas) para analizarlas completamente. Esta capacidad, combinada con la habilidad de ChatGPT para buscar en la web, crea una poderosa herramienta de localización. Aunque esta tendencia puede ser divertida, también plantea preocupaciones sobre la privacidad. ChatGPT puede usarse para descubrir información sobre personas sin su conocimiento o consentimiento. OpenAI afirma que está trabajando para abordar estas preocupaciones y que está comprometida con proteger la privacidad de los usuarios.
Esto es increíble y aterrador al mismo tiempo. Ya era difícil esconder algo en internet, ahora se ha vuelto prácticamente imposible. Imagina: tomas una selfie en un lugar aleatorio y la publicas en redes sociales. Alguien con malas intenciones puede usar ChatGPT para descubrir exactamente dónde estabas, identificando incluso establecimientos al fondo o hitos geográficos sutiles. Por un lado, esta tecnología podría ayudar en investigaciones, encontrar personas desaparecidas o simplemente satisfacer esa curiosidad de «¿dónde se tomó esta foto increíble?». Por otro lado, es una pesadilla de privacidad esperando a suceder. Nos dirigimos a un mundo donde el anonimato visual se vuelve casi imposible. Lo más preocupante es que esta capacidad no estaba necesariamente en los planes de OpenAI: fue algo que los usuarios descubrieron por su cuenta. ¿Qué otros «superpoderes» inesperados tienen estos modelos que aún no hemos descubierto?
Presentamos OpenAl o3 y o4-mini
OpenAl lanzó OpenAl o3 y o4-mini, los modelos más inteligentes y capaces hasta la fecha, con acceso total a las herramientas. OpenAl o3 es un modelo poderoso que avanza en las fronteras de la programación, matemáticas, ciencias y percepción visual, mientras que OpenAl o4-mini está optimizado para un razonamiento rápido y económico. Los modelos demuestran mejoras en el seguimiento de instrucciones y respuestas verificables, gracias a la inteligencia mejorada y la inclusión de fuentes web. OpenAl también está lanzando Codex CLI, un agente de codificación ligero que puede ejecutarse desde la terminal, y una iniciativa de 1 millón de dólares para apoyar proyectos que utilicen Codex CLI y los modelos de OpenAl.
Estos nuevos modelos o3 y o4-mini parecen ser una respuesta directa a la creciente competencia de Claude, Gemini y otros. El enfoque en el «razonamiento» y las respuestas verificables muestra que están escuchando las críticas sobre alucinaciones y problemas de confiabilidad. Me pareció particularmente interesante este Codex CLI: ¡finalmente tendremos un asistente de IA nativo en la terminal! Para nosotros, los desarrolladores, esto podría ser un cambio radical en la productividad. Imagina poder pedir «crea un script que organice mis fotos por fecha» directamente en la terminal y ver el código aparecer, listo para ejecutarse. Y ese fondo de 1 millón de dólares para proyectos es una jugada inteligente para crear un ecosistema alrededor de estos nuevos productos. OpenAI claramente está intentando consolidar su posición como líder del mercado mientras otras empresas intentan alcanzarla.
Paper: DeepSeek-R1 Thoughtology: vamos sobre el razonamiento LLM
Modelos de razonamiento a gran escala como DeepSeek-R1 marcan un cambio fundamental en cómo los LLM abordan problemas complejos, ya que crean cadenas de razonamiento detalladas de múltiples pasos, aparentemente «pensando» sobre un problema antes de proporcionar una respuesta. El proceso de razonamiento está disponible públicamente para el usuario, creando oportunidades infinitas para estudiar el comportamiento de razonamiento del modelo y abriendo el campo de la Thoughtology. Nuestros análisis en DeepSeek-R1 investigan el impacto y la controlabilidad de la longitud del pensamiento, la gestión de contextos largos o confusos, las preocupaciones culturales y de seguridad, y el estado de los fenómenos cognitivos de DeepSeek-R1, como el procesamiento de lenguaje similar al humano y la modelación del mundo.
¡Vaya, «Thoughtology» es un término que parece sacado de una película de ciencia ficción, pero lo estamos viviendo ahora! Estamos empezando a estudiar el «pensamiento» de las IA como si fuera una disciplina científica propia. DeepSeek-R1 trae algo realmente interesante a la mesa: transparencia en el proceso de razonamiento. En lugar de simplemente recibir una respuesta mágica, podemos ver al modelo construyendo su razonamiento paso a paso, casi como observar los borradores mentales de alguien resolviendo un problema. Esto no solo mejora la confiabilidad, sino que también nos ayuda a entender dónde y cómo los modelos pueden estar «pensando mal». Imagina usar esto en educación, donde los estudiantes pueden ver no solo la respuesta, sino el camino completo para llegar a ella. O en áreas críticas como la medicina, donde entender el razonamiento es tan importante como la conclusión final. Realmente estamos entrando en una nueva era donde no solo usamos las IA como herramientas, sino que estudiamos su funcionamiento cognitivo como una disciplina científica propia.
Paper: Aprovechando respuestas de modelos de razonamiento para mejorar la capacidad de modelos sin razonamiento
Avances recientes en grandes modelos de lenguaje (LLM), como DeepSeek-R1 y OpenAI-o1, han demostrado la eficacia significativa del escalamiento del tiempo de prueba, logrando ganancias sustanciales de rendimiento en varios benchmarks. Estos modelos avanzados utilizan pasos deliberados de «pensamiento» para mejorar sistemáticamente la calidad de la respuesta. En el artículo se propone aprovechar estas salidas de alta calidad generadas por modelos de razonamiento intensivo para mejorar modelos menos exigentes computacionalmente y sin razonamiento. Se exploran y comparan metodologías para utilizar las respuestas producidas por modelos de razonamiento para entrenar y mejorar modelos sin razonamiento. A través de experimentos directos de ajuste fino supervisado (SFT) en benchmarks establecidos, se demuestran mejoras consistentes en varios benchmarks, subrayando el potencial de este enfoque para avanzar en la capacidad de los modelos de responder preguntas directamente.
¡Qué idea brillante! Es como tener un profesor superinteligente (pero lento) entrenando a un asistente más rápido (pero inicialmente menos capaz). Esta investigación aborda uno de los mayores dilemas de la IA actual: queremos respuestas profundas y bien pensadas, pero también queremos que sean rápidas. Los modelos de razonamiento como DeepSeek-R1 y OpenAI-o1 son increíblemente poderosos, pero ese tiempo de «pensamiento» puede ser frustrante cuando solo quieres una respuesta rápida. Usar estos modelos «pensadores» para entrenar versiones más ligeras y rápidas es como tener lo mejor de ambos mundos. Imagina tener la calidad de GPT-4 con el tiempo de respuesta de GPT-3.5. Esto podría democratizar el acceso a IA avanzada, ya que los modelos más ligeros pueden ejecutarse en hardware más barato y con menos consumo de energía. Es un enfoque muy prometedor que podría hacer que la IA avanzada sea más accesible y práctica para el uso diario, sin sacrificar la calidad.
Paper: POCUS guiado por IA supera a expertos en detección de tuberculosis en áreas desfavorecidas
El ultrasonido en el punto de atención (POCUS) guiado por IA puede detectar con precisión la tuberculosis (TB), según una investigación presentada en la conferencia de la Sociedad Europea de Microbiología Clínica y Enfermedades Infecciosas (ESCMID) en Viena, Austria. La tecnología podría tener aplicaciones en áreas clínicamente desfavorecidas.
Esto sí es IA siendo usada para salvar vidas de verdad. La tuberculosis sigue siendo un gran problema en muchas partes del mundo, especialmente en áreas con pocos recursos médicos. Lo que hace esta investigación tan especial es que combina dos tecnologías relativamente accesibles –el ultrasonido portátil y la IA– para crear una solución que puede funcionar incluso en lugares remotos sin acceso a grandes hospitales o especialistas. El hecho de que supere a los expertos humanos en precisión es impresionante, pero el verdadero impacto está en la escalabilidad: podemos entrenar a muchos más técnicos para usar un POCUS guiado por IA que formar médicos especialistas. Es exactamente este tipo de aplicación de IA que necesitamos ver más: tecnología que resuelve problemas reales para personas que realmente lo necesitan, no solo conveniencias para quienes ya tienen acceso a buenos recursos. Espero que esta investigación avance rápidamente hacia la implementación en el campo, especialmente en las regiones más afectadas por la tuberculosis.
¡Uf! Qué semana intensa en el mundo de la IA, ¿eh? Si algo quedó claro en estas últimas noticias es que la velocidad de innovación es cada vez más alucinante. ¿Recuerdas cuando los lanzamientos de productos importantes ocurrían una vez al año? ¡Ahora tenemos nuevos modelos, funciones y herramientas surgiendo casi a diario!
Lo que más me llamó la atención esta semana fue cómo estamos pasando rápidamente de la fase «¡wow, esto es genial!» a aplicaciones verdaderamente transformadoras: ya sea descifrando el lenguaje de los delfines, diagnosticando tuberculosis en regiones desfavorecidas o creando agentes que automatizan tareas en interfaces existentes.
También es interesante observar los diferentes enfoques de las empresas: mientras OpenAI continúa su estrategia agresiva de lanzamientos frecuentes y adquisiciones multimillonarias, vemos actores como Meta y Google DeepMind enfocándose en investigaciones fundamentales que podrían tener impactos a largo plazo aún más profundos.
Y tú, ¿qué opinas de estas noticias? ¿Alguna en particular te llamó la atención? No olvides volver la próxima semana para más novedades candentes del mundo de la IA, siempre aquí en DevCafé, con ese aroma de café fresco y tecnología de punta.
¡Hasta la próxima y buenos códigos!