Метка: Оптимизация групповой относительной политики (GRPO)