探索flutter框架开发的app在移动应用市场的潜力与挑战
1324
2022-11-15
Reinforce算法 通俗讲解。梯度不可导 是什么
梯度不可导的情况出现: 一般为强化学习中select_action这步,比如从输出的action_prob里比如argmax出一个action,argmax这步是 梯度不可导 的(对比 可导的猫狗分类任务),这时要训练有select_action这步的网络的方法(解决 梯度不可导)就是reinforce算法,即每个action的监督label是用这个action的reward来出loss的,即
# 这不就是cross-entropy么loss = 0.0for reward, log_prob in zip(reward_memory, log_prob_memory): loss += -reward *
其实就是个分类任务,只是logits的每个action的prob对应的ground-truth-label是从reward来的
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~