MadEvolve usa IA para disparar el rendimiento de estrategias de trading con Bitcoin

12h ago•

bullish:

bearish:

Un nuevo estudio académico plantea que los modelos de lenguaje no solo sirven para analizar mercados, sino también para rediseñar sistemas completos de trading. Con pruebas sobre Bitcoin, el marco MadEvolve mostró mejoras sustanciales en ejecución, generación de señales y optimización conjunta, aunque sus autores advierten que el reto clave sigue siendo distinguir investigación real de simple sobreajuste.
***

El estudio aplicó MadEvolve, un sistema de optimización evolutiva con LLM, a estrategias de trading de Bitcoin y reportó mejoras relevantes en métricas fuera de muestra.
La mayor ganancia absoluta provino de optimizar la colocación de órdenes, mientras que la mejor métrica de riesgo ajustado surgió al evolucionar conjuntamente señales y ejecución.
Los autores compararon los resultados con otros enfoques agentic y analizaron si las mejoras podían explicarse por p-hacking, concluyendo que el avance observado no parece ser solo ruido estadístico.

La idea de usar inteligencia artificial para operar mercados ya no se limita a resumir noticias o clasificar sentimiento. Un grupo de investigadores exploró algo más ambicioso: permitir que modelos de lenguaje modifiquen código, prueben variantes y evolucionen estrategias completas de trading sobre Bitcoin dentro de un entorno automatizado de simulación.

Ese es el planteamiento central de MadEvolve: Evolutionary Optimization of Trading Systems with Large Language Models, trabajo firmado por Yurii Kvasiuk, Tianyi Li, Owen Colegrove y Moritz Münchmeyer. El estudio examina si un bucle agentic, guiado por LLM, puede optimizar problemas financieros ruidosos sin caer simplemente en sobreajuste estadístico.

La pregunta no es menor. En finanzas cuantitativas, encontrar una estrategia que funcione en un backtest es relativamente fácil. Lo difícil es demostrar que esa mejora no proviene de probar miles de combinaciones hasta hallar una que encaje por casualidad con los datos históricos. Por eso, además de medir rentabilidad y Sharpe, el trabajo se concentró en la diferencia entre rendimiento dentro de muestra y fuera de muestra.

Los autores usaron datos de BTCUSD en velas de 1 minuto, con división cronológica entre entrenamiento para 2022 y 2023, validación para 2024 y prueba fuera de muestra desde 2025 hasta el 10 de octubre de 2025. El sistema operó con órdenes limitadas pasivas, una decisión por minuto y una penalización por impacto de mercado para evitar resultados irrealmente optimistas.

¿Qué es MadEvolve y por qué importa?

MadEvolve es un marco general de optimización evolutiva inspirado en enfoques como AlphaEvolve. En lugar de ajustar solo parámetros, el sistema permite que varios modelos de lenguaje generen mutaciones de código, las evalúen con una función de recompensa y conserven las variantes más prometedoras dentro de una población diversa.

En este caso, la recompensa principal fue el PnL ajustado por impacto de mercado en el período de validación. Para la parte de predicción, la puntuación combinó R², correlación de información media e ICIR. El objetivo fue medir no solo si una señal anticipa retornos, sino si lo hace de forma consistente.

El estudio distingue entre dos tipos de problemas. El primero es el pronóstico financiero, donde la IA intenta predecir retornos futuros a partir de características del mercado. El segundo es la optimización algorítmica, donde la señal puede mantenerse fija mientras se mejora la construcción de posiciones, la gestión de inventario o la colocación de órdenes.

Según los autores, esta segunda categoría es especialmente apta para bucles agentic, porque la relación entre una mutación y su efecto sobre el PnL suele ser más visible. En predicción, en cambio, el ruido domina y el riesgo de descubrir relaciones espurias es mucho mayor.

Los cinco experimentos sobre Bitcoin

El trabajo realizó cinco corridas principales. La primera evolucionó solo el cálculo de la posición objetivo. La segunda dejó intacta esa parte y optimizó exclusivamente la estrategia de órdenes. La tercera permitió modificar en conjunto ambas capas del sistema de ejecución.

La cuarta corrida se enfocó en las variables de entrada del predictor alfa. Partiendo de una regresión ridge basada en tres medias móviles exponenciales de retornos, MadEvolve buscó una librería de características más rica para mejorar la predicción. La quinta fue la más ambiciosa: evolucionó al mismo tiempo el conjunto de features y la lógica completa de ejecución.

Los resultados principales se reportaron frente a una misma base compartida. Esa estrategia original tenía un Sharpe de 4,81 en validación, PnL ajustado por impacto de USD $83.000 y volumen operado de USD $502.000.000. En prueba fuera de muestra, el Sharpe era de 3,82 y el PnL de USD $47.000.

En la corrida 1, centrada en la posición objetivo, el sistema elevó el PnL de validación a USD $533.000 y el volumen a USD $3.336.000.000. En prueba, el Sharpe subió a 4,45 y el PnL a USD $271.000. El porcentaje de operaciones ganadoras cayó de 60,1% a 55,1%, lo que sugiere una estrategia menos precisa pero más efectiva para capturar movimientos grandes.

La corrida 2, dedicada a la colocación de órdenes, fue la de mayor ganancia absoluta. El PnL ajustado por impacto avanzó a USD $2.238.000 en validación y a USD $1.205.000 en prueba, con Sharpe de 6,49 y 5,12, respectivamente. El volumen creció hasta USD $10.289.000.000 en validación, señal de que la optimización de ejecución tuvo un efecto desproporcionado sobre el resultado total.

En la corrida 3, que evolucionó conjuntamente el objetivo y la orden, el PnL llegó a USD $973.000 en validación y USD $473.000 en prueba. El Sharpe alcanzó 6,51 y 5,11. Aunque la mejora fue clara frente a la base, esta configuración no superó en PnL absoluto a la optimización aislada de órdenes, algo que los autores interpretan como señal de un paisaje de búsqueda más complejo y menos estable.

La evolución de señales y el salto a 77 características

La cuarta corrida abordó el problema más ruidoso: mejorar el predictor. El modelo base usaba solo tres features. La versión evolucionada terminó con 77 columnas y elevó la puntuación combinada de 0,0848 a 0,1281, un incremento relativo de 51%.

En el horizonte principal de 10 minutos, el R² de validación pasó de 0,0021 a 0,0043. En prueba fuera de muestra, subió de 0,0017 a 0,0034. La correlación de información diaria media mejoró de 0,0736 a 0,1100 en validación y de 0,0592 a 0,0989 en prueba. El ICIR también avanzó, de 1,03 a 1,56 en validación y de 0,99 a 1,35 en prueba.

Las nuevas variables abarcaron familias mucho más amplias que el esquema inicial. El estudio menciona momentum en múltiples horizontes, reversión a la media, señales ligadas a volumen, relaciones de volatilidad realizada, presión de volumen, estructuras de vela, Bollinger, RSI, MACD, desviación respecto a VWAP, choppiness, eficiencia y componentes periódicos del día.

Sin embargo, los autores aclaran que mejores métricas predictivas no equivalen automáticamente a más PnL. Cuando un nuevo pronosticador cambia de escala y distribución, la capa de ejecución también debe recalibrarse. De lo contrario, un modelo con más señal puede parecer peor simplemente porque opera con parámetros mal ajustados.

El experimento más completo: señales y ejecución evolucionan juntas

La quinta corrida expuso al sistema tanto la función de generación de features como la lógica de ejecución. En cada candidato, el modelo ridge se reentrenó con el nuevo set de variables y luego ese alfa alimentó la estrategia también modificada. Fue el experimento de búsqueda más amplio y también uno de los más reveladores.

En validación, el PnL ajustado por impacto saltó de USD $83.000 a USD $1.855.000. El Sharpe avanzó de 4,81 a 8,85, el mejor de todos los experimentos. En prueba fuera de muestra, el Sharpe llegó a 5,65 y el PnL a USD $724.000, unas 15,5 veces la referencia base.

Ese resultado no superó en PnL absoluto a la corrida 2, que alcanzó USD $1.205.000 fuera de muestra. Pero sí fue superior en términos de riesgo ajustado, con menor necesidad de volumen extremo. Para los autores, eso sugiere que la coevolución entre señal y ejecución permitió explotar interacciones que no aparecen cuando cada componente se optimiza por separado.

También aparecieron síntomas más claros de sobreajuste relativo. La retención entre validación y prueba fue de aproximadamente 39%, frente a 49% y 54% en otras corridas. La tasa de aciertos cayó desde 68,6% en muestra a 49,8% fuera de muestra. Aun así, el rendimiento fuera de muestra siguió siendo muy superior a la base.

¿Es investigación real o simple p-hacking?

Uno de los apartados más importantes del estudio es el que intenta separar descubrimiento genuino de simple explotación estadística. Los autores recuerdan que, al probar suficientes estrategias, siempre es posible hallar alguna con Sharpe alto solo por azar. En otras palabras, un backtest impresionante no basta por sí solo.

Su principal argumento es que, si el sistema estuviera solo p-hackeando, no debería observarse una transferencia sostenida hacia datos no vistos. Sin embargo, las curvas fuera de muestra crecieron de manera amplia a lo largo de la evolución. En la corrida 5, por ejemplo, el PnL de prueba asociado al mejor campeón en validación terminó en USD $724.000 frente a una base de USD $47.000.

El trabajo compara además la trayectoria observada con un escenario nulo muy conservador, donde cada intento se modela como una extracción gaussiana alrededor del rendimiento de la estrategia base. En esa referencia, el techo esperado por puro azar quedó muy por debajo de las mejoras logradas por MadEvolve tanto en validación como en prueba.

Pese a esa defensa, los propios autores insisten en un punto clave: sus conclusiones no equivalen a decir que el sistema está listo para operar en un exchange real. La simulación usa datos agregados de Polygon y no modela detalles operativos específicos de una bolsa concreta. También asume ciertas simplificaciones sobre llenado de órdenes, comisiones e impacto de mercado.

Comparación con Claude Code y el rol del ensamble de modelos

El estudio también comparó MadEvolve con un enfoque menos estructurado basado en Claude Code. En la búsqueda de estrategia, ese sistema logró mejorar el PnL ajustado por impacto en validación desde USD $82.615 hasta USD $583.783. En prueba, alcanzó USD $340.326, reteniendo cerca de 58% del valor en validación.

En búsqueda de features, Claude obtuvo incluso mejores métricas predictivas que MadEvolve. Elevó el R² de validación de 0,0021 a 0,0105 y el de prueba de 0,0017 a 0,0091. Pero, de nuevo, sin recalibrar la ejecución, el PnL fuera de muestra empeoró. Tras ajuste con Optuna, ese predictor evolucionado sí mostró ventaja económica.

MadEvolve, por su parte, trabajó con un ensamble de modelos como Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, o4-mini y Claude Opus 4.6. El análisis interno mostró tasas de mejora muy distintas según tarea y modelo. Gemini 3 Pro y Gemini 3 Flash destacaron con frecuencia en la generación de mutaciones útiles, mientras que GPT-5.2 quedó rezagado en varias métricas agregadas.

La conclusión general del estudio es que la diversidad del ensamble importa más que la superioridad absoluta de un solo modelo. Las mejores soluciones no provinieron de una única IA, sino de linajes que mezclaron contribuciones de varias. Eso refuerza la idea de que la búsqueda evolutiva con múltiples estilos de mutación puede ser más potente que depender de un solo agente.

En conjunto, el trabajo presenta una tesis fuerte: los LLM ya pueden desempeñar un papel serio en investigación cuantitativa, especialmente en problemas de ejecución y construcción algorítmica. Pero también deja claro que la frontera entre innovación y sobreajuste sigue siendo delicada, y que cualquier avance debe leerse siempre dentro de los límites del simulador que lo produjo.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

12h ago•

DiarioBitcoin

bullish:

bearish: