AI 日報AI日報 – 2025-05-28(夕刊)MATH-500MATH-500テストセットQwen2.5-Math-7BQwen2.5-Math-7Bの誤報酬トレーニングRLAIFRLHFRLHF/RLAIFの未来モデル性能ランダム報酬ランダム報酬によるモデル性能向上強化学習強化学習シグナル学習誤った報酬