AI日报AI日报 – 2025-05-28(晚)Apprentissage par renforcementhadiah acakMATH-500MATH-500测试集Qwen2.5-Math-7BRasgele ödülrecompensa aleatóriaReinforcement learningRLAIFRLHFRLHF/RLAIF的未来VerstärkungslernenСлучайное вознаграждение強化学習强化学习强化学习信号学习模型性能错误奖励错误奖励训练Qwen2.5-Math-7B随机奖励随机奖励提升模型性能강화 학습