[태그:] 오류 보상으로 Qwen2.5-Math-7B 훈련