Google DeepMind presenta AI co-mathematician, un agente para acelerar la investigación matemática

60m ago•

bullish:

bearish:

Google DeepMind presentó AI co-mathematician, una plataforma de trabajo con agentes de IA diseñada para asistir a matemáticos en investigaciones abiertas. El sistema no solo conversa, también organiza hipótesis, revisa literatura, ejecuta cálculos, redacta documentos y ya mostró resultados tempranos en problemas abiertos y en el benchmark FrontierMath.
***

El sistema fue diseñado como un espacio de trabajo con memoria, agentes paralelos y revisión iterativa para apoyar investigación matemática real.

En pruebas tempranas, ayudó a investigadores a resolver problemas abiertos, encontrar nuevas direcciones de trabajo y detectar referencias omitidas.

También alcanzó 48% en FrontierMath Tier 4, una nueva marca máxima entre los sistemas de IA evaluados en esa prueba.

Google DeepMind presentó una nueva plataforma de investigación llamada AI Co-Mathematician: Accelerating Mathematicians with Agentic AI, firmada por Daniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies y Pushmeet Kohli. La propuesta busca convertir a la IA en un colaborador activo para el trabajo matemático abierto, en lugar de limitarla a responder preguntas aisladas en una interfaz de chat.

El sistema fue concebido como un “workbench”, es decir, un entorno de trabajo persistente donde matemáticos pueden interactuar con agentes especializados. Su objetivo es cubrir varias fases del proceso de investigación, entre ellas generación de ideas, búsqueda bibliográfica, exploración computacional, demostración de teoremas y construcción de teoría.

La idea central parte de una observación sencilla. La investigación matemática cotidiana no se parece a una prueba final elegante, sino a un proceso iterativo lleno de intuiciones, conjeturas fallidas, callejones sin salida y revisiones continuas. Según el equipo, las interfaces estándar de chat no están preparadas para coordinar ese flujo de trabajo a largo plazo.

En ese sentido, el nuevo sistema intenta parecerse más a un entorno moderno de desarrollo de software que a un chatbot. La plataforma utiliza una arquitectura con memoria de estado, coordinación entre agentes, seguimiento de hipótesis fallidas y producción de artefactos matemáticos nativos, como borradores en LaTeX con notas al margen y referencias internas a documentos y código.

Cómo funciona el co-matemático de IA

La arquitectura gira en torno a un agente coordinador de proyecto, que actúa como punto principal de contacto con el usuario. Ese coordinador delega tareas a múltiples flujos de trabajo paralelos, cada uno administrado por otros agentes más especializados. Así, la investigación no avanza como una sola conversación lineal, sino como un conjunto de líneas de trabajo que pueden correr al mismo tiempo.

Entre los principios de diseño del sistema, el equipo destacó siete ejes. El primero es que las matemáticas van mucho más allá de las pruebas formales. Por eso, la plataforma también intenta apoyar tareas como refinar preguntas, revisar bibliografía, ejecutar simulaciones numéricas y explorar posibles enfoques antes de llegar a un resultado formal.

El segundo principio es permitir el refinamiento iterativo de la intención del usuario. En matemáticas, formular bien una pregunta puede ser tan importante como resolverla. Por eso, el sistema no arranca intentando responder de inmediato, sino que primero dialoga con el investigador para precisar objetivos, variantes del problema y criterios de éxito.

Otro eje clave es la producción de artefactos matemáticos nativos. En lugar de dejar un historial de chat desordenado, el sistema organiza el trabajo alrededor de un “working paper”, un documento vivo que refleja la evolución del proyecto. Allí quedan registrados avances, dudas, procedencia de afirmaciones, comentarios laterales y puntos donde todavía hay fricción o incertidumbre.

El diseño también busca interacción asíncrona y flexible. El usuario no queda bloqueado mientras la IA “piensa”. Puede intervenir en cualquier momento, conversar con el coordinador del proyecto, cambiar prioridades o sugerir nuevas líneas de investigación. Si los agentes se estancan, el propio sistema puede pedir ayuda humana para destrabar el proceso.

Además, se intenta controlar la carga cognitiva mediante divulgación progresiva. El matemático ve primero la estrategia general, sin quedar enterrado en registros técnicos de bajo nivel. Sin embargo, puede profundizar cuando quiera y revisar qué hizo cada agente, qué código ejecutó o qué referencias utilizó.

Un punto importante es la gestión explícita de la incertidumbre. El sistema mantiene historial de versiones, resalta afirmaciones dudosas, revisa citas, ejecuta simulaciones y trata de intercambiar más cómputo por validación. También conserva la memoria de exploraciones fallidas, porque saber qué no funciona puede ser decisivo en investigación avanzada.

Un ejemplo práctico: el problema del sofá móvil

Para mostrar el flujo de trabajo, el artículo describe una sesión alrededor de un problema abierto en geometría computacional. El usuario sube un trabajo reciente y pide investigar cotas superiores sobre variantes del llamado moving sofa problem, una pregunta clásica que estudia el área máxima de una figura capaz de girar en esquinas rectas.

En vez de contestar con una solución apresurada, el coordinador del proyecto comienza aclarando el alcance del encargo. Pregunta si el usuario quiere enfocarse en una variante o en varias, y si la meta es demostrar que una cota inferior específica es exacta o simplemente hallar una nueva cota superior rigurosa. Solo después de ese intercambio se fijan objetivos concretos.

Con las metas definidas, el sistema divide la investigación en varios frentes. Un flujo se dedica a la revisión bibliográfica y localiza artículos clave con herramientas intensivas de búsqueda. Otro diseña el marco computacional necesario, prueba ideas teóricas y luego genera una biblioteca en Python con pruebas y casos de demostración. Un tercer flujo, condicionado al éxito del segundo, ejecuta búsquedas branch-and-bound en infraestructura en la nube.

El artículo subraya que la versión actual no integra directamente sistemas avanzados como AlphaEvolve, AlphaProof o Aletheia en estos ejemplos, aunque sí fue diseñada para que en el futuro puedan incorporarse de forma natural. De momento, los agentes especializados operan con llamadas estándar a modelos de lenguaje, incluido Gemini Deep Think.

El sistema también aplica restricciones programáticas duras para evitar atajos inválidos. Por ejemplo, un agente de código no puede marcar una implementación como terminada si no pasa pruebas y si un agente revisor no la valida. Si el enfoque falla, el proyecto no borra el error ni reinicia en silencio. Conserva el intento fallido, alerta al usuario y pide nuevas intuiciones.

En la demostración descrita, cuando una búsqueda computacional explota en complejidad, el sistema reconoce el cuello de botella y solicita al matemático una posible heurística de poda. El investigador propone una idea topológica y ordena abrir nuevos flujos de trabajo. Esa interacción bidireccional es presentada como una diferencia clave frente a los agentes que intentan funcionar solos de principio a fin.

Resultados tempranos con matemáticos profesionales

Google DeepMind explicó que ya entregó acceso a un grupo pequeño de matemáticos profesionales. Según el documento, los primeros usuarios emplearon la plataforma para navegar literatura dispersa, ejecutar experimentos numéricos y obtener pruebas en distintas áreas. La experiencia, sin embargo, no fue uniforme: algunos investigadores reportaron resultados valiosos y otros la encontraron menos útil para sus temas.

Uno de los casos destacados fue el del matemático M. Lackenby, quien utilizó la herramienta en problemas de topología y teoría de grupos. Su trabajo terminó en la resolución de una pregunta abierta, el Problema 21.10 del Kourovka Notebook. La cuestión preguntaba si todo grupo finito admite una “just finite presentation”, es decir, una presentación finita donde quitar cualquier relación vuelva infinito al grupo.

La plataforma creó dos flujos independientes, uno para intentar demostrar el resultado y otro para refutarlo. El primer borrador produjo una “prueba” que el propio sistema marcó como incorrecta después de revisión. Aun así, Lackenby identificó una estrategia muy ingeniosa en el documento. Tras leer la crítica del revisor, vio cómo cerrar el hueco, devolvió esa corrección al sistema y obtuvo una prueba completa que luego editó manualmente.

En otro caso, G. Bérczi trabajó con conjeturas sobre coeficientes de Stirling para representaciones de potencia simétrica. El investigador subió un documento introductorio con contexto, métodos conocidos y pistas derivadas de pruebas previas con otros sistemas. A partir de ello, AI co-mathematician produjo pruebas para dos de las conjeturas, aún bajo revisión humana detallada, además de evidencia computacional para otras afirmaciones no resueltas.

Un tercer ejemplo citado fue el de S. Rezchikov, quien presentó un subproblema técnico reciente sobre perturbaciones de un tipo específico de difeomorfismo hamiltoniano. Tras intercambiar contexto y papers relevantes con el coordinador del proyecto, se definió una tarea precisa y se abrió un flujo para atacarla. El documento final incluyó un lema clave con una prueba elegante que, según el artículo, resistió una revisión cuidadosa y prácticamente resolvió la pregunta planteada.

Estos ejemplos también dejaron lecciones prácticas. Lackenby concluyó que el sistema funciona mejor cuando el usuario ya conoce bien el área. Bérczi señaló que no es trivial aprender a colaborar con estos modelos y que habrá diferencias importantes entre matemáticos según cómo los usen. Rezchikov, por su parte, valoró tanto la capacidad de encontrar pruebas como la de descartar caminos estériles con rapidez.

Benchmark, rendimiento y límites del sistema

Aunque el equipo argumenta que los benchmarks estáticos ya no bastan para medir el valor real de una IA en investigación matemática, igualmente evaluó la plataforma con ese tipo de pruebas. Para ello, habilitó un modo especial en el que el sistema no recibe ayuda externa más allá del problema inicial y debe entregar una única respuesta final. En esa modalidad se omite la conversación de definición del problema y se fija un tiempo máximo de ejecución.

En una evaluación interna con 100 problemas matemáticos de nivel de investigación, no filtrados y con respuestas verificables por código, AI co-mathematician superó tanto a una llamada única de Gemini 3.1 Pro como a una llamada única de Gemini 3.1 Deep Think. El trabajo señala que este desempeño se apoya en mayor uso de cómputo, múltiples llamadas a modelos y herramientas, de forma similar a una sesión larga de ingeniería de software asistida por IA.

El resultado más llamativo llegó en FrontierMath Tier 4. La evaluación fue realizada por Epoch AI de manera ciega, con acceso directo a la interfaz del sistema y sin que los desarrolladores vieran los problemas ni observaran el estado de los espacios de trabajo. Allí, la plataforma resolvió correctamente 23 de 48 problemas, excluyendo dos muestras públicas, para una precisión de 48%.

Ese 48% fue descrito como un nuevo máximo entre todos los sistemas de IA evaluados en ese benchmark. También representó un salto importante frente al 19% obtenido por el modelo base Gemini 3.1 Pro. El documento añade que el sistema acertó tres problemas que ningún otro sistema había resuelto antes, aunque también falló en dos que ya habían sido resueltos por al menos un competidor.

El artículo aclara una diferencia metodológica importante. Mientras muchas evaluaciones previas en FrontierMath usaron un harness agentivo estándar de Epoch AI con límite estricto de tokens, esta plataforma utilizó sus propias herramientas y no impuso tope en número de llamadas al modelo ni en tokens generados. Eso sugiere un costo de inferencia probablemente mayor que el de otros sistemas evaluados.

Los autores también reconocieron limitaciones. Entre ellas mencionaron un sesgo hacia “complacer” a revisores automáticos, casos de desacuerdos interminables entre agentes que terminan en espirales de alucinación, la necesidad de ceder bastante autonomía al sistema para tareas largas y el riesgo de que documentos muy bien formateados transmitan una falsa sensación de rigor.

Más allá del rendimiento técnico, el equipo advirtió sobre impactos más amplios en el ecosistema matemático. Si la IA facilita producir borradores plausibles de forma masiva, podría aumentar el ruido semántico en la literatura. Además, el desfase entre lo rápido que una IA genera un intento de prueba y lo lento que un humano la verifica podría presionar más al sistema de revisión por pares.

La conclusión del trabajo es que el próximo salto en IA matemática no dependerá solo de qué modelo responda más ejercicios. Para los autores, el desafío pasa por construir sistemas que ayuden a investigadores humanos a navegar incertidumbre, podar hipótesis, auditar resultados y avanzar en problemas realmente abiertos. Esa es, precisamente, la ambición detrás de AI co-mathematician.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

60m ago•

DiarioBitcoin

bullish:

bearish: