
Café de la semana
'¿Soy? ¡Habla ChatGPT!' y otras noticias sorprendentes del mundo de la tecnología
¡Hola, gente! Ha llegado el momento de nuestro resumen semanal, y miren... ¡qué semana intensa ha sido esta! Parece que todo el mundo decidió lanzar novedades de una vez - debe ser esa prisa de fin de año para alcanzar las metas, ¿verdad? 😄 Tenemos un poco de todo: desde AIs que pueden atenderte por teléfono hasta robots que aprenden a bailar. ¿Y lo más divertido? ¡Cada novedad parece más impresionante que la anterior!
El AGI no es tan importante
Un artículo provocador sostiene que el mercado está excesivamente centrado en mejorar los LLMs y en alcanzar el AGI, cuando en realidad la verdadera transformación vendrá del software que controla y orquesta estas herramientas. El autor argumenta que incluso si alcanzamos el AGI, su impacto será menos disruptivo de lo que se imagina, y que el verdadero valor radica en la capacidad de mimetismo y automatización de procesos a través de software bien estructurado.
Encontré la perspectiva del autor interesante y, sinceramente, un alivio en medio de tanta histeria sobre el AGI. Es como si todos estuvieran corriendo tras el Santo Grial de la inteligencia artificial, mientras ignoran las increíbles herramientas que ya tenemos a nuestra disposición. El punto sobre el mimetismo es especialmente perspicaz: las AI ya son impresionantes imitando y automatizando procesos, y eso por sí solo ya tiene un inmenso valor cuando se aplica bien.
Elon Musk quería una OpenAI con fines de lucro
OpenAI divulgó una línea temporal detallada que muestra cómo Elon Musk cuestionó inicialmente la estructura sin fines de lucro de la organización, posteriormente exigió un control mayoritario y un cargo de CEO cuando surgió la posibilidad de transformarla en una empresa con fines de lucro, y finalmente dejó la organización cuando sus exigencias no fueron atendidas. El documento revela que Musk llegó a crear una empresa de beneficio público llamada "Open Artificial Intelligence Technologies, Inc." como estructura propuesta para OpenAI.
Esta historia me recordó esos dramas corporativos que darían para una película de Netflix, ¿no? La narrativa de Musk como "defensor de la AI ética" choca con estos documentos que muestran que quería dominar la empresa. Lo más irónico es que después de criticar tanto a OpenAI por haberse convertido en una empresa con fines de lucro (aunque limitados), terminó fundando su propia empresa de AI, xAI. ¡Es como se dice por ahí: haz lo que yo digo, pero no hagas lo que yo hago!
GitHub lanza versión gratuita de Copilot
GitHub anunció una versión gratuita de su popular asistente de programación Copilot, que ahora vendrá por defecto con el editor VS Code. La versión gratuita tiene algunas limitaciones, como 2000 completions de código por mes y acceso a solo algunos modelos de lenguaje (Claude 3.5 Sonnet y GPT-4o), pero aún así representa un movimiento significativo para democratizar el acceso a herramientas de AI para programación.
Esta es una de esas noticias que nos hacen pensar "¡por fin!". Es bueno ver a GitHub siguiendo la tendencia de hacer las herramientas de AI más accesibles, especialmente para los programadores en países donde 10 dólares al mes no es poca cosa. Claro que existen limitaciones, pero hey, ¡2000 completions al mes dan para hacer una muy buena experimentación!
Google lanza NotebookLM para empresas
Google está expandiendo su aplicación de búsqueda y anotaciones potenciada por AI, NotebookLM, para el mercado empresarial. La versión Plus ofrece funcionalidades adicionales de seguridad y privacidad, permite la compartición entre miembros de la organización e incluye resúmenes de audio al estilo podcast. El servicio forma parte de Agentspace, la nueva plataforma de Google Cloud para "agentes" de AI.
¿Mi herramienta de organización personal favorita ahora puede ser utilizada en el trabajo? Eso es exactamente lo que Google está ofreciendo aquí. NotebookLM ya era genial para uso personal, pero ahora con las funcionalidades empresariales puede volverse aún mejor. La función de resumen de audio es muy interesante: ¿imagina poder transformar esa aburrida reunión de dos horas en un podcast de 15 minutos con los puntos principales?
Google DeepMind presenta nuevo modelo de video para competir con Sora
DeepMind anunció el Veo 2, un modelo de generación de video que promete superar al Sora de OpenAI en algunos aspectos técnicos, como la resolución (hasta 4K) y la duración (superior a 2 minutos). Aunque actualmente limitado en su versión de prueba, el modelo promete una mejor comprensión de la física, controles de cámara más precisos y una generación más clara de texturas e imágenes en movimiento. DeepMind también está implementando la tecnología de marca de agua SynthID para combatir los deepfakes.
Fico parvo ao ver como a rivalidade entre a OpenAI e a Google DeepMind começa a parecer aquela disputa clássica entre a Marvel e a DC, mas aqui não se trata de super-heróis, estamos a falar de modelos de AI cada vez mais impressionantes. O Veo 2 parece realmente promissor, especialmente com aquela resolução 4K, mas como sempre, o diabo mora nos detalhes. Para já, a versão disponível está muito limitada, na teoria é lindíssimo, na prática... bem, vamos ver. Pelo menos estão a levar a sério a questão das deepfakes com a tecnologia de marca de água, o que é um ponto muito importante nos dias de hoje.
Google lanza su modelo de "razonamiento"
Google anunció el lanzamiento de Gemini 2.0 Flash Thinking Experimental, un nuevo modelo de IA centrado en las capacidades de razonamiento. Disponible en AI Studio, la plataforma de prototipado de la empresa, el modelo fue desarrollado para comprensión multimodal, razonamiento y programación, con un enfoque en la resolución de problemas complejos en áreas como programación, matemáticas y física.
¿Alguna vez has intentado explicar algo a alguien y la persona tarda un poco en procesar antes de dar esa respuesta más elaborada? Es más o menos eso lo que Google está tratando de hacer con este nuevo modelo. Solo que no todo son rosas: en las pruebas iniciales, el modelo aún está un poco "patinando". Se confundió incluso al contar cuántas "R" tiene la palabra "strawberry" (¡dijo que tenía dos!). Pero hey, todo el mundo empieza por algún lado. Y con Google invirtiendo fuertemente en esta área, es cuestión de tiempo hasta que estos "deslices" sean cosa del pasado.
IBM anuncia Granite 3.1 con mejoras significativas
IBM lanzó una actualización significativa para su serie de modelos de lenguaje Granite, trayendo mejoras de rendimiento, contexto más largo y nuevos modelos de embedding. Granite 3.1 8B Instruct presenta mayor rendimiento en benchmarks académicos, contexto expandido a 128K tokens y nuevas funcionalidades para detectar alucinaciones en flujos de trabajo con agentes de IA.
¡IBM viene con todo! Lo más interesante es que no solo mejoraron lo que ya tenían, sino que también añadieron esa cereza en la cima del pastel: un detector de "viajes" de la IA (¿saben cuándo inventa algo?). Y lo mejor: todo esto es de código abierto, por lo que cualquier persona puede meter manos a la obra y hacer sus propias modificaciones.
Meta añade IA en vivo y traducciones a sus gafas inteligentes
Meta está expandiendo las capacidades de sus gafas inteligentes Ray-Ban con tres nuevas funcionalidades: IA en vivo, traducciones en vivo y Shazam. Las funciones de IA y traducción estarán disponibles solo para los miembros del Programa de Acceso Anticipado, mientras que Shazam estará disponible para todos los usuarios en EE. UU. y Canadá.
Me imaginé los momentos en que estamos en el mercado mirando un calabacín y pensando "¿qué hago con esto?". Ahora imagina poder preguntar a una IA a través de tus gafas y recibir sugerencias de recetas. ¡Genial! Pero espera, hay más: las gafas también pueden traducir conversaciones en tiempo real de inglés a español, francés o italiano. Y para cerrar con broche de oro, también puedes descubrir cuál es esa canción que está sonando de fondo en el restaurante. ¡El futuro ha llegado, y lleva gafas! (tenía que hacer este chiste)
Perplexity AI triplica su valor en 6 meses
La startup de investigación Perplexity AI cerró una ronda de financiamiento de 500 millones de dólares a principios de diciembre, elevando su valoración a 9 mil millones de dólares. Esto representa un aumento triple de su valor en solo seis meses, tras una inversión anterior de SoftBank que valoró a la empresa en 3 mil millones de dólares en junio.
¿Y no es que la gente de Perplexity está de fiesta? ¡En seis meses lograron lo que muchas empresas tardan años en alcanzar! Y miren qué interesante: a pesar de toda esa polémica sobre los derechos de autor (ya hablamos de esto en un Café de la Semana anterior, están siendo demandados por News Corp), los inversores siguen lanzándoles dinero como si no hubiera un mañana. El mundo de la IA se parece cada vez más a una montaña rusa financiera, y al parecer, ¡todo el mundo quiere dar un paseo!
Midjourney lanza sistema de perfiles y moodboards personalizados
Midjourney anunció una actualización significativa en su infraestructura de personalización de modelos, permitiendo ahora a los usuarios tener múltiples perfiles de personalización y utilizar "moodboards" - colecciones de imágenes que sirven de inspiración para el modelo. El proceso de personalización se ha vuelto hasta 5 veces más rápido y requiere muchos menos ratings para comenzar: solo 40, en comparación con los miles necesarios anteriormente.
¿Quién nunca ha querido tener una personalidad múltiple (en el buen sentido) a la hora de crear imágenes? ¡Ahora Midjourney lo hace posible! Lo bueno es que ya no necesitas dar miles de calificaciones a las imágenes para enseñar el modelo: con 40 puedes comenzar a jugar. Es prometedor, realmente espero que evolucione.
Perplexity confirma compra de la startup Carbon para expandir investigación empresarial
Perplexity anunció oficialmente la adquisición de Carbon, una startup especializada en la conexión de fuentes externas de datos con modelos de lenguaje. La integración permitirá a los usuarios conectar aplicaciones como Notion y Google Docs directamente a Perplexity, facilitando las búsquedas en datos corporativos internos.
¡Parece que Perplexity quiere demostrar que no está para juegos! Después de un 2024 lleno de novedades y de una valoración que haría que hasta un multimillonario se pusiera celoso, ahora han comprado Carbon para resolver ese dolor de cabeza que todos tenemos en el trabajo: encontrar información importante esparcida por 500 lugares diferentes. Y hay más, se están tomando en serio eso de "lo que es tuyo es tuyo" - prometieron que todo será encriptado y que solo quienes tengan permiso podrán acceder a los datos. Pero no quedó claro si ya están utilizando el protocolo estándar de conectividad de LLMs a fuentes de datos propuesto por Anthropic, ¿será que este estándar no despegará?
Anthropic publica estudio revelador sobre vulnerabilidades en la IA
Anthropic divulgó un estudio sobre el algoritmo Best-of-N Jailbreaking (BoN), que demuestra cómo los modelos de IA de frontera pueden ser explotados en múltiples modalidades. El método logró tasas de éxito de hasta el 89% en GPT-4o y 78% en Claude 3.5 Sonnet utilizando 10,000 muestras.
¡Guau, Anthropic decidió poner todas las cartas sobre la mesa! Básicamente crearon un "manual del hacker de IA" para mostrar dónde aprieta el zapato en los modelos más avanzados que tenemos hoy. Lo impresionante es que su método funciona aterradoramente bien - ¡casi un 90% de éxito en GPT-4o! Pero calma, que esto es para bien - cuanto más conozcamos las vulnerabilidades, más podemos trabajar para corregirlas.
Ilya Sutskever hace reflexión histórica sobre la evolución de la IA
En una charla reflexiva, Ilya Sutskever, uno de los pioneros de la IA moderna, discutió la evolución del área en los últimos 10 años, desde el artículo "Sequence to sequence learning" hasta los días de hoy. Abordó la forma en que la preformación revolucionó el área, pero también señaló sus límites, como la finitud de los datos disponibles en internet.
Tocó un punto superinteresante: es como si hubiéramos llegado al "pico petrolífero" de los datos de internet. Al fin y al cabo, solo hay una internet en el mundo. Y vean qué divertida la analogía que hizo con el cerebro de los mamíferos - al parecer, incluso la naturaleza tiene sus trucos de "escalabilidad". ¿Será que aún descubriremos algún truco de estos para la IA también? Como diría el propio Ilya, es imposible predecir el futuro, pero seguramente será un viaje increíble.
OpenAI lanza servicio telefónico con ChatGPT
OpenAI anunció que ChatGPT ya puede ser accedido por teléfono y WhatsApp. Los usuarios en EE. UU. pueden llamar al 1-800-CHAT-GPT (1-800-242-8478) y conversar con el modelo por voz, mientras que los usuarios globales pueden interactuar a través de WhatsApp. El servicio gratuito ofrece 15 minutos de llamadas al mes, con opción de tiempo adicional para los suscriptores.
Es ese momento en que te das cuenta de que el futuro realmente ha llegado - ¡ahora puedes llamar a ChatGPT! Ya no es necesario abrir el navegador, iniciar sesión... Ahora solo hay que tomar el teléfono y decir "¡aquí estoy!" Y lo más divertido es que incluso lo probaron en un teléfono de disco de esos antiguos (¡y funcionó!). Imaginen la escena: su abuelo sacando ese teléfono lleno de polvo del cajón y preguntándole a ChatGPT la receta del pan de huevo. 😄
OpenAI anuncia nuevas funcionalidades para programadores
En una edición especial del "DevDay Holiday Edition", OpenAI lanzó varias novedades para programadores, incluyendo el modelo O1 con funciones de llamada, salidas estructuradas y mensajes de programador. El modelo también recibió soporte para entradas de visión y un nuevo parámetro de "esfuerzo de razonamiento" que permite ajustar el tiempo que el modelo debe gastar pensando en problemas.
¿Quién diría que hasta los desarrolladores recibirían regalos de Navidad de OpenAI? Lo que más me gustó es esta cosa del "esfuerzo de razonamiento" - ahora ya se puede decir al modelo "piensa un poco más" o "relájate, no es necesario pensar tanto". ¡Así ahorramos algunos tokens!
ChatGPT gana sistema de proyectos y organización
OpenAI lanzó una nueva funcionalidad de proyectos en ChatGPT, permitiendo a los usuarios organizar conversaciones, subir archivos y definir instrucciones personalizadas para cada proyecto. La funcionalidad incluye integración con todas las características existentes como la búsqueda y el canvas, además de poder ser utilizada como sistema de archivo para organizar conversaciones.
¿Ya estabas cansado de la confusión de los chats? Así que ahora ya se puede organizar todo bonito en carpetas, exactamente como ya existía en Claude, es decir, ¡OpenAI no deja ninguna función exclusiva para la competencia! Drew, uno de los ingenieros de OpenAI, mostró cómo se usa para recordar cuándo se cambia el filtro del frigorífico (que, por cierto, ¡ya toda la gente necesita cambiar!). Lo más divertido fue que también mostró cómo organiza el intercambio secreto de regalos de fin de año - ¡y ChatGPT incluso ayudó a hacer el sorteo, asegurando que no había trampa! 😂
OpenAI expande funcionalidad de búsqueda de ChatGPT
ChatGPT ahora ofrece búsqueda en la web para todos los usuarios gratuitos con sesión iniciada. La funcionalidad, antes restringida a usuarios de pago, ha sido mejorada con más velocidad, mejor experiencia móvil y nuevas funcionalidades de mapas. La búsqueda también se ha integrado en el modo de voz avanzado, permitiendo el acceso a información actualizada durante las conversaciones por voz.
¿Y no es que OpenAI decidió dar un regalo de Navidad anticipado a todos? Ahora cualquier persona puede usar ChatGPT para hacer esa búsqueda traviesa en la web. ¡Y funciona incluso cuando estás hablando por voz con él! ¿Quieres saber dónde habrá fiesta el fin de semana? ¡Solo pregunta! Ya era hora, ¿eh OpenAI?
ChatGPT gana integración con aplicaciones de escritorio
OpenAI ha expandido las capacidades de ChatGPT Desktop, permitiendo que el asistente trabaje directamente con aplicaciones del ordenador. La funcionalidad incluye soporte para editores de código como XCode y VS Code, así como aplicaciones de texto como Apple Notes, Notion y Quip. La funcionalidad también se ha integrado con el modo de voz avanzado, permitiendo interacciones por voz con las aplicaciones.
Solo tienes que presionar unas teclas mágicas (Opción + Espacio) y aparece, listo para ayudar. Lo bueno es que no es de esos asistentes entrometidos que andan husmeando todo - solo mira lo que dejas. Pero tiene limitaciones, por ejemplo, no puede cambiar nada en estas aplicaciones, si te gusta alguna sugerencia, tienes que ser tú quien copie del chat y pegue en la aplicación manualmente.
Meta avanza en la comprensión de la mente con ExploreToM
Meta presentó ExploreToM, un nuevo enfoque que utiliza algoritmos de búsqueda A y lenguajes específicos para generar historias sintéticas que ponen a prueba la capacidad de los modelos de lenguaje para comprender estados mentales de otras personas (Teoría de la Mente - ToM). El sistema crea escenarios complejos y sigue las creencias e intenciones de los personajes, revelando limitaciones fundamentales en los modelos actuales.
¿Sabes cuando tu amigo jura que sabe lo que estás pensando, pero en realidad no tiene ni idea? ¡Meta creó una herramienta para entender si las IA también sufren de este problema! ExploreToM es un director de telenovelas digitales - crea historias llenas de giros para ver si la IA puede seguir quién sabe qué. Ni siquiera el poderoso GPT-4 se salió muy bien en esta prueba... acertó solo el 9% de las veces, pero seguro que se salió mejor que yo.
Meta presenta modelo humanoide con control total del cuerpo
Meta anunció META MOTIVO, el primer modelo fundamental conductual para el control de humanoides en tareas corporales completas sin necesidad de entrenamiento adicional. El modelo utiliza el aprendizaje por refuerzo no supervisado y puede responder a diferentes tipos de instrucciones, desde la imitación hasta la optimización de recompensas.
Ya debes haber visto uno de esos robots torpes en videos tratando de caminar y siempre cayendo. ¡Meta decidió darle una clase de baile! META MOTIVO es un profesor de educación física para robots - les enseña a moverse de forma más natural, sin parecer que están siempre a punto de tropezar con sus propios pies. Aprende observando a personas reales, como las personas que aprenden los pasos de baile solo mirando a los demás en la discoteca. Claro que aún tiene sus limitaciones - no es muy fan de las caídas y aún no ha aprendido a interactuar con los objetos, pero Roma no se construyó en un día, ¿cierto?
Meta revoluciona el procesamiento de lenguaje con Byte Latent Transformer
Meta publicó un estudio sobre el Byte Latent Transformer (BLT), una nueva arquitectura que elimina la necesidad de tokenización en los modelos de lenguaje cuando se trabaja directamente con bytes. El modelo utiliza parches dinámicos basados en la entropía y puede reducir los costos de inferencia hasta un 50%, manteniendo un rendimiento competitivo.
¿Alguna vez intentaste hablar con una persona en otro idioma que no conoces y terminaste comunicándote con mímica? Pues los modelos de IA tradicionales hacen algo así - necesitan transformar todo en "tokens" para entender. Pero el BLT dice "¿saben qué más? ¡Voy a leer directamente del código fuente!". Es mucho más económico - utiliza la mitad del procesamiento de los modelos normales. Vale la pena echar un vistazo.
Microsoft entrena a Phi-4 centrándose en datos sintéticos
Microsoft presentó el Phi-4, un modelo de lenguaje de 14 mil millones de parámetros entrenado con una combinación única de datos sintéticos y orgánicos. El modelo destaca en tareas de razonamiento STEM, superando incluso al GPT-4o en algunos benchmarks, a pesar de su tamaño relativamente modesto.
Microsoft decidió actuar como profesora particular para su nuevo modelo. En lugar de lanzarlo a internet para que aprendiera solo (como hacen la mayoría), creó un plan de estudios personalizado. ¿El secreto? El 40% de su "material de estudio" fue hecho a medida. Claro que todavía comete algunos errores de vez en cuando - como inventar hechos que no existen (¿quién no lo ha hecho?) - ¡pero ya está en el buen camino!
Uff! Es increíble ver cómo la IA está evolucionando en tantas direcciones diferentes al mismo tiempo. Tenemos a ChatGPT convirtiéndose en operador de telemarketing (¡pero de esos con los que nos gusta hablar!), a Meta enseñando a los robots a bailar e incluso haciendo AIs más "humanas" con el ExploreToM. Mientras tanto, Microsoft está ahí, creando un "alumno prodigio" con el Phi-4. Si en una semana ya ha pasado todo esto, ¡imagina lo que vendrá en 2025! Bueno, por ahora esto es todo. Ah, y no te olvides de cambiar el filtro de tu frigorífico. 😉