Étiquette : L’entraînement de Qwen2.5-Math-7B avec récompense erronée