AgentR1 · fishsure · May 26, 2026 · May 26, 2026
diff --git a/README.md b/README.md
diff --git a/agent_r1/trainer/main_agent_ppo.py b/agent_r1/trainer/main_agent_ppo.py
@@ -22,10 +22,10 @@
 import ray
 from omegaconf import OmegaConf
 
-from agent_r1.trainer.ppo.ray_trainer import RayAgentTrainer
+from agent_r1.trainer.ppo.ray_trainer import RayAgentTrainer, need_critic_agent_ppo
 from verl.trainer.constants_ppo import get_ppo_ray_runtime_env
 from verl.trainer.ppo.reward import load_reward_manager
-from verl.trainer.ppo.utils import need_critic, need_reference_policy
+from verl.trainer.ppo.utils import need_reference_policy
 from verl.utils.config import validate_config
 from verl.utils.device import auto_set_device, is_cuda_available
 
@@ -286,7 +286,7 @@ def run(self, config):
         validate_config(
             config=config,
             use_reference_policy=need_reference_policy(self.role_worker_mapping),
-            use_critic=need_critic(config),
+            use_critic=need_critic_agent_ppo(config),
         )
 
         # Download the checkpoint from HDFS to the local machine.