Boletim Diário de IADiário de IA – 2025-05-28(Edição da noite)aprendizagem de sinal de reforçoAprendizagem por reforçoconjunto de testes MATH-500desempenho do modelofuturo do RLHF/RLAIFMATH-500Qwen2.5-Math-7Brecompensa aleatóriarecompensa aleatória melhora o desempenho do modelorecompensa errôneaRLAIFRLHFtreinamento com recompensa errônea no Qwen2.5-Math-7B