Etiqueta: treinamento com recompensa errônea no Qwen2.5-Math-7B