2026년 5월 13일9 min readJeTech Lab

Agent Training Note: 합성 학습과 실제 5Y Gate 사이의 간극

AI 트레이딩 모델의 합성 데이터 학습과 실제 5년 백테스트 gate가 어긋나는 이유를 TradeFi, crypto 확장, rolling Sharpe 관점에서 정리합니다.

Agent Model

AI Trading

TradeFi

Crypto

Backtest

Reinforcement Learning

Registry Gate

요약

최근 TradeFi agent 학습에서 후보 모델 생성률이 낮아졌습니다. 표면적으로는 PPO, SAC, CrossQ, backbone 성능 문제처럼 보일 수 있지만, 현재 관찰된 핵심 원인은 학습 중 잘한다고 판단하는 기준과 실제 후보 등록 gate가 다르다는 점입니다.

학습은 합성 episode에서의 risk-adjusted reward와 synthetic evaluation을 개선합니다. 반면 후보 등록은 실제 5년 일봉 구간에서 30D rolling avg Sharpe >= 1.0을 요구합니다. 이 기준은 한두 개 좋은 구간이 아니라 긴 실제 시장 구간에서 꾸준히 양호한 위험 대비 수익을 내야 통과됩니다.

관찰된 증상

2026-05-13 KST 기준 VM 학습 결과를 보면 몇 가지 패턴이 반복됩니다.

관찰	의미
synthetic Sharpe와 Calmar는 높은데 real gate는 낮음	학습 환경에서 좋은 행동이 실제 5년 gate로 이전되지 않음
gate 값이 정확히 `0.0`인 결과가 많음	모델이 거의 포지션을 잡지 않는 flat policy로 수렴
일부 모델은 초반 몇천 step에서 best real score가 나오고 이후 악화	짧은 stochastic peak를 잡고 학습 안정성이 떨어짐
종목별 편차가 큼	SPY/QQQ/XAU와 원자재/국가 ETF의 regime이 다르게 작동

실제 예시는 더 명확합니다.

Run	Synthetic best	Real 5Y 30D Avg Sharpe
`XAGUSDT / ppo_tcn_v1`	Sharpe `4.81`, Calmar `12.15`	`0.912`
`COPPERUSDT / ppo_itransformer_v1`	Sharpe `10.97`, Calmar `10.78`	`0.882`
`SPYUSDT / ppo_itransformer_v1`	Calmar `4.11`	`0.139`

이 숫자는 알고리즘이 무조건 나쁘다는 뜻이 아닙니다. 오히려 synthetic task에서는 잘 맞지만, 실제 gate가 요구하는 성질과 맞지 않는다는 신호에 가깝습니다.

문제 1: 목적함수와 gate가 다르다

현재 학습 reward는 매 bar의 수익, 거래비용, drawdown, downside risk, 일부 risk-adjusted term으로 구성됩니다. 이는 episode 안에서 생존하고 손실을 줄이는 행동을 학습시키기 좋습니다.

하지만 후보 등록 gate는 다음과 같이 훨씬 구체적입니다.

항목	현재 기준
평가 데이터	실제 시장 5년 일봉
평가 방식	연속 5년 strategy return
핵심 metric	30일 rolling Sharpe의 전체 평균
통과 기준	`5Y 30D Avg Sharpe >= 1.0`
TradeFi annualization	`252` periods/year

즉 모델은 synthetic episode reward를 최적화하지만, 통과해야 하는 문은 실제 5년 rolling Sharpe입니다. 이 둘이 충분히 정렬되지 않으면 synthetic score가 높아도 후보 등록은 실패합니다.

문제 2: flat policy가 너무 쉬운 대안이 된다

거래 모델에서 아무 포지션도 잡지 않으면 수익도 없지만, 거래비용과 drawdown penalty도 거의 없습니다. 특히 action deadband와 rebalance deadband가 있으면 작은 action은 0 또는 기존 포지션 유지로 눌립니다.

이 구조에서는 모델이 확신이 없을 때 0 포지션에 머무르는 것이 로컬 최적점이 될 수 있습니다. 실제 VM 결과에서도 5Y 30D Avg Sharpe = 0.0인 결과가 반복됐고, 이는 대부분 의미 있는 exposure가 없었다는 신호입니다.

flat policy는 손실을 피하는 것처럼 보이지만 후보 모델로는 가치가 낮습니다. JeTech의 운용 후보는 시장 구간에서 위험을 통제하면서도 실제 signal을 만들어야 합니다.

문제 3: synthetic data와 TradeFi 실제 시장의 차이

TradeFi 쪽은 아직 Binance 상장 데이터만으로 충분한 학습 window가 쌓이지 않은 심볼이 있어 yfinance 기반 대체 데이터를 씁니다. 이 데이터는 주말, 공휴일, 휴장일이 빠져 있고 crypto와 calendar 구조가 다릅니다.

또한 합성 데이터는 최근 5년 reference와 Temporal GAN을 사용하더라도 실제 종목별 market micro-regime을 완전히 재현하지 못합니다. SPY, QQQ, EWY, 금, 은, 구리, 원유, 천연가스는 각각 trend, gap, volatility clustering, mean reversion 구조가 다릅니다.

따라서 하나의 보상 함수와 하나의 preset으로 모든 심볼을 통과시키기는 어렵습니다.

이번 수정 방향

이번 조치의 목표는 후보 통과율을 인위적으로 높이는 것이 아닙니다. 먼저 실패 원인을 더 정확히 보고, 명백한 flat policy를 빨리 제거하고, TradeFi 학습 reward를 실제 gate와 조금 더 정렬하는 것입니다.

조치	목적
exposure diagnostics 추가	모델이 실제로 포지션을 잡았는지 숫자로 기록
flat real-eval early stop 추가	연속으로 flat이면 학습 시간을 낭비하지 않고 중단
TradeFi flat-position penalty 추가	의미 있는 시장 움직임에서 계속 0 포지션인 행동에 약한 비용 부여
gate metadata 확장	후보 실패 이유를 JeTech Lab과 registry에서 더 잘 추적

새로 기록하는 주요 지표는 다음과 같습니다.

지표	해석
`avg_abs_realized_exposure`	실제 체결된 평균 포지션 강도
`flat_realized_exposure_ratio`	거의 0 포지션이었던 bar 비율
`mean_turnover`	평균 포지션 변경량
`total_turnover`	전체 포지션 변경량
`nonzero_strategy_return_ratio`	strategy return이 0이 아니었던 bar 비율

TradeFi 학습 스크립트에는 기본적으로 약한 flat-position penalty를 적용합니다.

flat penalty = penalty_scale
  * max(abs(asset_return) - return_threshold, 0)
  * (1 - abs(realized_exposure))

기본값은 penalty_scale=0.02, return_threshold=0.001입니다. 이 값은 모델에게 무조건 포지션을 잡으라고 강제하기 위한 값이 아니라, 의미 있는 가격 움직임이 있는데 계속 0 포지션으로 머무는 선택이 완전히 공짜가 되지 않게 만드는 장치입니다.

앞으로의 개선 과제

이번 수정은 첫 번째 방어선입니다. 더 본질적인 개선은 아래 방향으로 진행할 계획입니다.

과제	설명
real-window validation 강화	synthetic 학습 중에도 실제 historical window를 더 강하게 selection에 사용
symbol-specific preset	SPY/QQQ, EWY, metals, energy별 deadband와 reward scale 분리
multi-seed retry	한 번의 stochastic run으로 판단하지 않고 심볼별 여러 seed를 비교
supervised warm start	momentum, volatility targeting 등 단순 baseline을 imitation한 뒤 RL fine-tuning
gate-aligned reward	30D rolling Sharpe와 exposure quality를 더 직접적으로 반영

구독자에게 중요한 점

최근 후보 모델 생성률이 낮다는 것은 JeTech Lab이 실패 모델을 그대로 운용 후보로 올리고 있다는 뜻이 아닙니다. 오히려 실제 5년 gate가 낮은 모델을 걸러내고 있다는 의미에 가깝습니다.

다만 좋은 gate는 좋은 학습 시스템과 같이 가야 합니다. 이번 리서치와 코드 수정은 그 간극을 줄이기 위한 작업입니다. 앞으로 JeTech Lab의 agent model 업데이트에서는 단순 수익률뿐 아니라 exposure quality, flat ratio, rolling Sharpe 안정성까지 함께 확인할 수 있도록 개선해 나가겠습니다.