2020上半年中国公有云市场规模达84亿美元

发布时间：2021-02-05 15:54:57 所属栏目：动态来源：互联网

导读：图 6：中心化的 Q 值学习（绿色）和分布式的策略执行（褐色）。Q 值获取所有智能体的观测信息 o 和动作 a，策略根据个体的观测信息来输出个体动作。图源：[9] 在 MADDPG 中，个体维护的中心化 Q 值需要知道全局的状态信息和所有智能体的动作信息，此时假设了

图 6：中心化的 Q 值学习（绿色）和分布式的策略执行（褐色）。Q 值获取所有智能体的观测信息 o 和动作 a，策略π根据个体的观测信息来输出个体动作。图源：[9]

在 MADDPG 中，个体维护的中心化 Q 值需要知道全局的状态信息和所有智能体的动作信息，此时假设了智能体能够通过通信或者是某种方式得知其他智能体的观测值和策略，这种假设前提过于严格。MADDPG 进一步提出了可以通过维护策略逼近函数 hat{miu}来估计其他智能体的策略，通过对其他智能体的行为建模使得维护中心化的 Q 值、考虑联合动作效应对单个个体来说是可行的。智能体 i 在逼近第 j 个智能体的策略函数时，其优化目标是令策略函数能够近似经验样本中智能体 j 的行为，同时考虑该策略的熵，可表示为这种方法是在深度确定策略梯度（Deep Deterministic Policy Gradient，DDPG）方法的基础上、对其中涉及到的 actor-critic 框架进行改进，使用集中式训练、分布式执行的机制（centralized training and decentralized execution），为解决多智能体问题提供了一种比较通用的思路。

MADDPG 为每个智能体都建立了一个中心化的 critic，它能够获取全局信息（包括全局状态和所有智能体的动作）并给出对应的值函数 Qi(x,a1,...,an)，这在一定程度上能够缓解多智能体系统环境不稳定的问题。另一方面，每个智能体的 actor 则只需要根据局部的观测信息作出决策，这能够实现对多智能体的分布式控制。

在基于 actor-critic 框架的学习过程中，critic 和 actor 的更新方式和 DDPG 类似。对于 critic，它的优化目标为：

对于 actor，考虑确定性策略μi(ai|oi)，策略更新时的梯度计算可以表示为：

这三大项是你系统的输入(你拥有的)和输出(你想要的)之间的桥梁。

注：三大项中的数学分支也包含统计和概率。

2. 三大项之外的唯一例外

除了不能平衡这三大项之外，还有一个更大的罪过：忘记这三大项是为谁服务的。即使是执行得比较好、由比较优雅的数学驱动的代码，如果不能为客户提供服务，从最丰富的数据中获得洞察也毫无意义。

工程师经常会发现自己迷失在一个过程中，忘记了最初想要的结果。尽管他们怀着良好的意图进行，但他们忘记了，意图并不像行动那么重要。

三大项至少要为客户提供点好处，总比什么都不提供要好。

需要澄清的是，如果你的先进模型需要47倍的时间才能提高1%的准确率，那么它是否提供了很好的体验?

1. 数学，代码和数据是你最重要的三大项

任何有效的机器学习管道都是数学、代码和数据的交叉。每一项只有和另一项在一起时才会有效果。

如果你的数据质量很差，那么无论你的数学计算多么优雅或代码多么高效都没用。

如果你的数据质量比较高，但你的数学计算错误，那么你的结果可能会不是很好，甚至会更糟，造成伤害。

如果你的数据和数学都是世界级的，但是你的代码效率很低，那么你将无法获得扩展带来的好处。

数据为你提供了一个包含自然瑰宝的采矿地点。数学就是你的鹤嘴锄。代码可以让你建立一支挥舞着鹤嘴锄的机器人队伍。

（编辑：宣城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

中科院地球大数据研究	稳定性和可靠性测试在
政策助力5G全连接工厂	国产GPU厂商加入中国头