红色网站建设的作用和意义成都网站设计网站
2026/4/18 7:24:26 网站建设 项目流程
红色网站建设的作用和意义,成都网站设计网站,深圳企业网站制作公司介绍,河北省电力建设第二工程公司网站GAE#xff08;Generalized Advantage Estimation#xff0c;广义优势估计#xff09;是强化学习中一个非常关键的技巧#xff0c;尤其在 PPO、A2C、TRPO 等基于策略梯度的算法中被广泛使用。它的核心目标是#xff1a;更准确、更稳定地评估“某个动作到底好还是坏”。你提…GAEGeneralized Advantage Estimation广义优势估计是强化学习中一个非常关键的技巧尤其在PPO、A2C、TRPO等基于策略梯度的算法中被广泛使用。它的核心目标是更准确、更稳定地评估“某个动作到底好还是坏”。你提到“轨迹有70分和100分”而 GAE 正是用来解决“如何把最终的总奖励70或100合理分配到轨迹中的每一步动作上”的问题。 为什么需要 GAE—— 先看问题假设你有一条完整的游戏轨迹从开始到结束总奖励 100 分但中间 99% 的时间奖励都是 0只有最后一步 100。如果直接用蒙特卡洛方法Monte Carlo你会认为前面所有动作都和最后100有关但这种估计方差极大因为一次运气好拿100一次失误拿0波动太大。如果用纯 TD(λ) 方法时序差分虽然方差小但可能有偏bias尤其当 critic 网络不准时。GAE 就是为了在“低方差”和“低偏差”之间找一个最佳平衡点。 GAE 的核心思想直观版GAE 引入了一个超参数λ ∈ [0, 1]通过加权平均不同“回溯长度”的优势估计λ 0→ 只看下一步TD(0)方差小但有偏λ 1→ 看整条轨迹Monte Carlo无偏但方差大λ 0.95常用值→兼顾两者既利用了 long-term 的信息又控制了噪声公式如下别怕我们用例子解释AtGAE∑l0∞(γλ)lδtlAtGAE​l0∑∞​(γλ)lδtl​其中δtrtγV(st1)−V(st)δt​rt​γV(st1​)−V(st​) 是TD误差critic 预测 vs 实际γγ 是折扣因子λλ 是 GAE 超参 简单理解GAE 把每一步的 TD 误差 δδ 像“涟漪”一样向后传播并用 (γλ)l(γλ)l 衰减越远的影响越小。 举个具体例子你的场景假设你有两条轨迹轨迹 A总奖励 70步骤s₀ → a₀ → s₁ → a₁ → ... → sₙ最终累计回报 R 70Critic 估算 V(s₀) ≈ 65轨迹 B总奖励 100同样长度R 100Critic 估算 V(s₀) ≈ 65那么对轨迹 B 的起始状态 s₀其优势为A0R−V(s0)100−6535(正优势)A0​R−V(s0​)100−6535(正优势)而轨迹 A 的优势是A070−655(弱正优势)A0​70−655(弱正优势)GAE 会进一步把这个 35 的“功劳”反向分配给轨迹 B 中的每一个动作a₀, a₁, ..., aₙ₋₁尤其是那些引导走向高回报的关键决策点。于是在策略更新时轨迹 B 中的动作概率 ↑↑轨迹 A 中的动作概率 ↑但幅度小很多久而久之模型就学会“走那条能拿到 100 的路”。⚙️ 在 PPO 中 GAE 的作用计算优势 AtAt​用于构建 PPO 的目标函数clip objectiveLCLIPEt[min⁡(rt(θ)At,clip(rt(θ),1−ϵ,1ϵ)At)]LCLIPEt​[min(rt​(θ)At​,clip(rt​(θ),1−ϵ,1ϵ)At​)]其中 rt(θ)rt​(θ) 是新旧策略概率比。训练更稳定相比直接用 MC 回报GAE 大幅降低了梯度估计的方差让 PPO 收敛更快、更可靠。支持长时程信用分配即使奖励稀疏如你的情况GAE 也能把最终结果“归功”给早期正确决策。✅ 实践建议λ 通常设为 0.95 或 0.98OpenAI 默认用 0.95确保 Critic价值网络训练充分GAE 依赖 V(s)V(s) 的准确性如果 critic 学得不好GAE 也会失效。配合 Reward Normalization将 reward 标准化比如除以 running std能让 GAE 更稳定。 总结一句话GAE 就像一个“智能功劳分配器”它把一条轨迹最终的成败70 vs 100科学地拆解到每一步动作上告诉 PPO “哪些选择真正值得奖励”从而引导策略稳步向高回报轨迹靠拢。所以只要你能稳定采样到 100 分的轨迹GAE PPO 就会高效地把它“学下来”

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询