Etiqueta: entrenamiento de Qwen2.5-Math-7B con recompensa errónea