Reinforce算法 通俗讲解。梯度不可导 是什么

网友投稿 1324 2022-11-15

Reinforce算法 通俗讲解。梯度不可导 是什么

Reinforce算法 通俗讲解。梯度不可导 是什么

梯度不可导的情况出现: 一般为强化学习中select_action这步,比如从输出的action_prob里比如argmax出一个action,argmax这步是 梯度不可导 的(对比 可导的猫狗分类任务),这时要训练有select_action这步的网络的方法(解决 梯度不可导)就是reinforce算法,即每个action的监督label是用这个action的reward来出loss的,即

# 这不就是cross-entropy么loss = 0.0for reward, log_prob in zip(reward_memory, log_prob_memory): loss += -reward *

其实就是个分类任务,只是logits的每个action的prob对应的ground-truth-label是从reward来的

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:VNCserver 远程Linux CentOS桌面 配置 与 蓝屏解决
下一篇:多标签分类,跑出合理结果的loss设计,以及每个label都有权重
相关文章

 发表评论

暂时没有评论,来抢沙发吧~