强化学习（RL）

什么是强化学习（RL）？

2025年4月7日 3赞

PPO（近端策略优化）：稳定策略梯度训练的算法。模仿学习（Imitation Learning）：从专家示范中学习策略。多智能体强化学习（MARL）：多个智能体协作/竞争（如星际争霸AI）。逆强…