AI 일보AI 일보 – 2025-05-28(석간)MATH-500MATH-500 테스트 세트Qwen2.5-Math-7BRLAIFRLHFRLHF/RLAIF의 미래강화 학습강화 학습 신호 학습모델 성능무작위 보상무작위 보상으로 모델 성능 향상오류 보상오류 보상으로 Qwen2.5-Math-7B 훈련