¿Cuántos datos out-of-sample necesito para validar un sistema?

No hay un número mágico, pero como regla práctica reserva entre un 20% y un 30% de tu histórico que el sistema no haya visto nunca durante el diseño. Lo importante no es la cifra exacta, sino que ese tramo cubra distintos regímenes de mercado (tendencia, rango, volatilidad alta). Un tramo out-of-sample que solo abarca un mercado alcista no prueba gran cosa.

¿Un buen backtest garantiza que el sistema funcionará en real?

No. Un backtest solo demuestra que el sistema habría funcionado en el pasado, sobre datos que ya conoces. La mayoría de sistemas que parecen geniales en backtest fallan en real por sobreajuste, costes ignorados o porque el régimen de mercado cambió. El backtest es la primera prueba, no la última.

¿Qué diferencia hay entre walk-forward analysis y un backtest normal?

Un backtest normal optimiza y evalúa sobre el mismo periodo, lo que infla los resultados. El walk-forward optimiza en una ventana, opera en la siguiente sin tocar nada y va avanzando. Así imitas lo que harías en real: decidir con la información disponible hasta ese momento, sin mirar el futuro.

¿Para qué sirve el análisis de Monte Carlo al validar un sistema?

Monte Carlo reordena o remuestrea miles de veces la secuencia de operaciones para mostrarte el abanico de resultados posibles, no solo el camino que tocó. Te da una idea realista del peor drawdown plausible y de la dispersión del sistema. Si solo un orden concreto de operaciones lo hace viable, el sistema es frágil.

¿Cuánto dinero debería arriesgar en el test de mercado real?

Lo mínimo que tenga sentido operativo: lo justo para sentir el roce real de ejecución, comisiones y slippage sin que una racha mala te afecte. El objetivo de esta fase no es ganar dinero, sino confirmar que lo medido en validación se parece a lo que pasa cuando hay dinero de verdad en juego.

Validar un sistema de trading: las 7 Pruebas

Validar un sistema de trading significa someterlo a una batería de pruebas que demuestren que su ventaja es real y repetible, no una casualidad ajustada al pasado. Un backtest con una curva de capital bonita no basta: solo prueba que el sistema habría funcionado sobre datos que ya conoces. En Quant IA Club aplicamos siempre las mismas 7 Pruebas antes de poner un euro en juego, y un sistema no opera hasta que las pasa todas. Aquí tienes qué es cada una, cómo se hace y el criterio de aprobado o suspenso.

Por qué un backtest bonito no demuestra nada

El backtest es la herramienta más seductora del trading sistemático, y por eso la más peligrosa. Coges datos históricos, pruebas una idea, ajustas parámetros y, casi sin querer, acabas con una curva que sube en línea recta. El problema es que esa curva la has construido mirando el resultado. Has optimizado contra el examen cuyas respuestas ya tenías delante.

Eso tiene nombre: sobreajuste (overfitting). El sistema no ha aprendido la lógica del mercado; ha memorizado el ruido de un tramo concreto de historia que no se va a repetir igual. Y hay sesgos peores aún, como el look-ahead (usar información que en real no tendrías hasta más tarde) o el sesgo de supervivencia. Si quieres entender a fondo estas trampas, lee nuestro artículo sobre sesgos del backtesting y overfitting; aquí los damos por conocidos.

Casi todo sistema que parece genial en backtest falla en real. La pregunta no es si tu curva sube, sino por qué subiría también con dinero de verdad.

La validación seria existe precisamente para responder a esa pregunta. No para confirmar que tu idea es buena, sino para intentar tumbarla por todos los flancos posibles. Lo que sobrevive a ese ataque tiene alguna probabilidad de funcionar fuera de la muestra. Esto es lo que separa al aficionado que enseña su mejor backtest del sistemático serio que sabe explicar en qué condiciones su sistema deja de funcionar.

Las 7 Pruebas: la batería completa

Estas siete pruebas son acumulativas. No tiene sentido pasar a la siguiente si la anterior suspende: estarías validando una idea que ya sabes rota. El orden importa porque va de lo barato y rápido (detectar sobreajuste) a lo caro y lento (probar con dinero real).

#	Prueba	Qué ataca	Criterio de aprobado
1	Curve fitting / overfitting	Que el sistema haya memorizado el pasado	Lógica simple, pocos parámetros, justificable
2	Walk-forward analysis	Optimización con visión de futuro	El periodo out-of-sample mantiene el comportamiento
3	Monte Carlo	Depender de un orden concreto de operaciones	El peor escenario plausible es asumible
4	Sensibilidad de parámetros	Fragilidad ante valores exactos	Meseta amplia de configuraciones que funcionan
5	Robustez en datos OOS	Que solo funcione en lo que ya viste	Resultados coherentes en datos nunca usados
6	Slippage y costes realistas	Una ventaja que se comen las fricciones	Sigue siendo rentable con costes pesimistas
7	Test de mercado	La distancia entre teoría y ejecución	Lo real se parece a lo medido en validación

Veamos cada una en detalle.

1. Curve fitting / overfitting

Qué es. La prueba más básica y la que más sistemas tumba. Consiste en preguntarte si la ventaja viene de una lógica de mercado defendible o de un encaje artificial de parámetros sobre el histórico.

Cómo se hace. Cuenta los grados de libertad. ¿Cuántos parámetros tiene el sistema? ¿Cada uno responde a una razón económica o de comportamiento, o están ahí solo porque “mejoraban el backtest”? Un sistema con quince filtros y umbrales rarísimos que solo funciona con esos valores exactos es casi con seguridad ruido disfrazado.

Aprobado / suspenso. Aprueba el sistema cuya lógica puedas explicar en dos frases a otra persona sin recurrir a “porque en backtest funcionaba”. Suspende el que necesita muchos parámetros finos, condiciones específicas para fechas concretas o reglas que no sabrías justificar fuera de la hoja de resultados.

2. Walk-forward analysis

Qué es. Es la respuesta directa al problema de optimizar y evaluar sobre el mismo periodo. En vez de ajustar el sistema una vez sobre todo el histórico, lo optimizas sobre una ventana y lo pruebas sobre la siguiente, sin tocar nada. Luego avanzas la ventana y repites.

Cómo se hace. Divides el histórico en bloques consecutivos. Optimizas en el bloque 1, operas en ciego sobre el bloque 2; reoptimizas incluyendo el bloque 2, operas sobre el 3; y así sucesivamente. Puedes montar este walk-forward en una plataforma como ProRealTime, con datos históricos y motor de backtesting integrados, sin programar todo desde cero. El resultado relevante es el de los tramos en los que el sistema operó a ciegas, replicando lo que harías en real: decidir solo con la información disponible hasta ese momento.

Aprobado / suspenso. Aprueba si el rendimiento de los tramos fuera de optimización se mantiene en línea con el de los tramos optimizados. Suspende si solo brilla cuando ya conoce el futuro y se hunde en cuanto opera a ciegas: señal de que la optimización capturaba ruido.

3. Monte Carlo

Qué es. Tu backtest es un solo camino entre miles posibles. Las mismas operaciones en otro orden te habrían dado un drawdown muy distinto. Monte Carlo explora ese abanico de futuros plausibles en lugar de fiarte del único que tocó.

Cómo se hace. Reordenas o remuestreas miles de veces la serie de operaciones (o sus retornos) y observas la distribución resultante: peor drawdown, rachas de pérdidas, dispersión de la rentabilidad final. Donde el backtest te daba un número, Monte Carlo te da un rango con sus probabilidades.

Aprobado / suspenso. Aprueba si el peor escenario razonable —no el promedio, el malo— es algo que tu capital y tu cabeza pueden soportar sin desviarte del plan. Suspende si el sistema solo es viable en la secuencia concreta que salió en el backtest y un reordenamiento normal lo lleva a un drawdown intolerable. Eso es fragilidad, no robustez.

4. Sensibilidad de parámetros

Qué es. Comprueba si el sistema funciona en un entorno de configuraciones o solo en un punto exacto. Un sistema sano tolera que muevas sus parámetros un poco sin desmoronarse.

Cómo se hace. Coges cada parámetro relevante (una media de 50 periodos, un umbral del 2%) y lo mueves arriba y abajo en pasos razonables. Observas cómo cambia el resultado. Lo ideal es ver una meseta: una zona amplia de valores cercanos que dan resultados parecidos y decentes.

Aprobado / suspenso. Aprueba el sistema con una meseta amplia, donde el valor elegido está rodeado de vecinos que también funcionan. Suspende el que muestra un pico aislado: funciona con 50 periodos pero se cae con 48 o 52. Ese pico es la huella inconfundible del sobreajuste.

5. Robustez en datos out-of-sample (OOS)

Qué es. El examen final con apuntes prohibidos. Reservas desde el principio un tramo de datos que el sistema no ha visto nunca durante el diseño ni la optimización, y lo evalúas ahí.

Cómo se hace. Antes de empezar a trabajar, apartas un porcentaje del histórico (típicamente entre el 20% y el 30%) y lo guardas bajo llave. Diseñas, optimizas y validas todo lo anterior sin tocarlo. Solo al final lo destapas y mides. El truco mental es no “espiarlo”: en cuanto lo usas para tomar decisiones, deja de ser out-of-sample.

Aprobado / suspenso. Aprueba si el comportamiento en el tramo OOS es coherente con el del periodo de desarrollo, idealmente cubriendo distintos regímenes de mercado. Suspende si el rendimiento se degrada de forma brusca: el sistema había aprendido el pasado de memoria, no su lógica.

6. Slippage y costes realistas

Qué es. Muchas ventajas teóricas existen solo en un mundo sin fricción. En cuanto metes comisiones, spread, deslizamiento (slippage) y el coste de financiación, la ventaja se evapora. Esta prueba mata las ventajas demasiado pequeñas para sobrevivir al roce del mercado real.

Cómo se hace. Reconstruyes el backtest con supuestos de coste pesimistas, no optimistas: comisiones reales de tu bróker, spread representativo del activo y su liquidez, y un slippage generoso, especialmente en sistemas de alta frecuencia de operaciones o en activos poco líquidos. Si operas en horas de baja liquidez o en mercados estrechos, sé todavía más duro.

Aprobado / suspenso. Aprueba si el sistema sigue siendo claramente rentable después de aplicar costes pesimistas. Suspende si la rentabilidad depende de ignorar o minimizar las fricciones. Una ventaja que solo existe sin costes no es una ventaja: es contabilidad creativa. Esto vale igual sobre acciones, futuros u opciones: el mismo método de validación se aplica a un sistema de opciones, un activo donde las fricciones y la estructura de costes tienen su propia complejidad y donde una escuela especializada como Campus Opciones profundiza.

7. Test de mercado (paper / real pequeño)

Qué es. La prueba que ninguna simulación puede sustituir. Llevas el sistema al mercado vivo, primero en paper trading (simulado en tiempo real) y después con dinero real pero pequeño, para medir la distancia entre tu modelo y la realidad de la ejecución.

Cómo se hace. Operas el sistema en tiempo real, con tus ejecuciones, tus rechazos de órdenes, tu latencia y tus costes de verdad. Comparas lo que pasa con lo que tu validación predecía. La fase con dinero real, aunque sea simbólico, importa: el paper trading no captura del todo la fricción de la ejecución ni —seamos honestos— la presión psicológica.

Aprobado / suspenso. Aprueba si lo real se parece razonablemente a lo medido en las pruebas anteriores: ejecuciones, costes y comportamiento en línea con lo esperado. Suspende si aparece una brecha grande entre teoría y realidad. El objetivo de esta fase no es ganar dinero, sino confirmar que tu validación era honesta.

El papel de la IA en la validación

Una pregunta habitual: ¿no automatiza la inteligencia artificial todo esto? La respuesta del club es clara. La IA es copiloto, no oráculo. Acelera el trabajo pesado —remuestrear miles de escenarios Monte Carlo, barrer mallas de parámetros, revisar tu código en busca de un look-ahead escondido— pero no decide por ti qué es un criterio de aprobado aceptable ni si la lógica de tu sistema tiene sentido económico.

El juicio sobre si una meseta es “suficientemente amplia” o un drawdown “asumible” es tuyo. La IA te enseña el mapa más rápido; el rumbo lo pones tú. Si quieres entender mejor este enfoque, empieza por qué es la inversión cuantitativa y cómo encaja el método sistemático con el criterio humano.

Cómo aplicamos esto en el club

Ninguna de estas pruebas se hace en solitario. En Quant IA Club, dentro de Bolsa Academy, los sistemas se validan en Tripulaciones de tres o cuatro personas, porque un par de ojos externos detecta el sesgo que tú no ves en tu propia idea. Un sistema no avanza de estación —de Puerto a Embarcadero, de Embarcadero a Alta Mar— hasta que su validación está aprobada por la tripulación. Se sube de nivel por proyectos validados, no por calendario.

Las 7 Pruebas no son una garantía de ganar dinero. Nada lo es, y desconfía de quien te lo prometa. Son un filtro de fragilidad: descartan la mayoría de sistemas que parecían geniales y dejan pasar solo aquellos con una probabilidad razonable de mantener su ventaja fuera de la muestra. Es la diferencia entre operar con una corazonada disfrazada de gráfico y operar con un sistema que ha sobrevivido a un ataque deliberado.

Hemos convertido las 7 Pruebas en un checklist en PDF para que apliques esta misma batería a tus propios sistemas, paso a paso, con el criterio de aprobado de cada una. Descarga gratis “Las 7 Pruebas” y deja de fiarte de backtests bonitos.