加入收藏 | 设为首页 | 会员中心 | 我要投稿 阜阳站长网 (https://www.0558zz.cn/)- AI行业应用、低代码、混合云存储、数据仓库、物联网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

SolarWinds 遭遇供应链攻击,超250 家企业受影响

发布时间:2021-01-30 17:30:07 所属栏目:传媒 来源:互联网
导读:重分析缓冲区,用于接收参与者生成的所有轨迹并保留最新轨迹; 多个重分析行动者从重分析缓冲区采样存储的轨迹,使用学习者的最新网络检查点重新运行MCTS,并将生成的轨迹和更新的统计信息发送给学习者。 由于学习者无法区分新轨迹和重分析的轨迹,这使得新
  • 重分析缓冲区,用于接收参与者生成的所有轨迹并保留最新轨迹;

  • 多个重分析行动者从重分析缓冲区采样存储的轨迹,使用学习者的最新网络检查点重新运行MCTS,并将生成的轨迹和更新的统计信息发送给学习者。

由于学习者无法区分新轨迹和重分析的轨迹,这使得新轨迹与重分析轨迹的比例更改变得简单。

MuZero命名含义

MuZero的命名基于AlphaZero,其中Zero表示是在没有模仿人类数据的情况下进行训练的,Mu取代Alpha表示使用学习模型进行规划。

更研究一些,Mu还有其他丰富的含义:

  • 夢,日语中读作mu,表示“梦”的意思, 就像MuZero通过学习的模型来想象未来状况一样;

  • 希腊字母μ(发音为mu)也可以表示学习的模型;

  • 無, 日语发音为mu,表示“无、没有”,这强调从头学习的概念:不仅无需模仿人类数据,甚至不需提供规则。
     

    保持轨迹(观测、动作和奖励)不变,重新运行MCTS,就可以生成新的搜索统计信息,从而提供策略和值预测的新目标。

    我们知道,在与环境直接交互过程中,使用改进网络进行搜索会获得更好的统计信息。与之相似,在已有轨迹上使用改进网络重新搜索也会获得更好的统计信息,从而可以使用相同的轨迹数据重复改进。

    重分析适用于MuZero训练,一般训练循环如下:
     

    具体问言,MuZero估计量的训练损失为:

    • 策略:MCTS访问统计信息与预测函数的策略logit之间的交叉熵;

    • 值:N个奖励的折扣和+搜索值/目标网络估计值与预测函数的值之间的交叉熵或均方误差;

    • 奖励:轨迹观测奖励与动态函数估计之间的交叉熵。

    重分析

    在了解了MuZero的核心思想后,接下来我们将介绍重分析技术,这将显著提高模型对大量数据的搜索效率。

    在一般训练过程中,通过与环境的相互作用,我们会生成许多轨迹,并将其存储在重播缓冲区用于训练。那么,我们可以从该数据中获得更多信息吗?

(编辑:阜阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读