Select Language

AI社区

AI技术百科

强化学习之 score function

score function定义,就是说score function是求最大对数似然函数中让对数似然函数梯度等于0的梯度。

在这里插入图片描述


就是说,求解最大似然问题就是求解score function
2、再对参数求导,就会得到Fisher Information ,FIM是SF的负导数。

3、SF的期望值是0
在这里插入图片描述
这一个性质可以用在有baseline的策略梯度中。


我要发帖
百科知识
2021-05-11 23:49:38加入圈子
  • 68

    条内容
提供人工智能的一些知识分享,涉及AI算法、应用、数据、模型等内容