加入收藏 | 设为首页 | 会员中心 | 我要投稿 宣城站长网 (https://www.0563zz.cn/)- 数据湖、行业智能、边缘计算、开发、备份!
当前位置: 首页 > 站长资讯 > 动态 > 正文

别这样直接运行python命令,否则电脑等于“裸奔”

发布时间:2021-02-05 15:57:07 所属栏目:动态 来源:互联网
导读:当同时存在多个智能体与环境交互时,整个系统就变成一个多智能体系统(multi-agent system)。每个智能体仍然是遵循着强化学习的目标,也就是是最大化能够获得的累积回报,而此时环境全局状态的改变就和所有智能体的联合动作(joint action)相关了。因此在

当同时存在多个智能体与环境交互时,整个系统就变成一个多智能体系统(multi-agent system)。每个智能体仍然是遵循着强化学习的目标,也就是是最大化能够获得的累积回报,而此时环境全局状态的改变就和所有智能体的联合动作(joint action)相关了。因此在智能体策略学习的过程中,需要考虑联合动作的影响。

1.1 多智能体问题的建模——博弈论基础

马尔科夫决策过程拓展到多智能体系统,被定义为马尔科夫博弈(又称为随机博弈,Markov/stochastic game)。当我们对博弈论有一定了解后,能够借助博弈论来对多智能体强化学习问题进行建模,并更清晰地找到求解问题的方法。
 

这篇综述性文章中,作者详尽地介绍了多智能强化学习的理论基础,并阐述了解决各类多智能问题的经典算法。此外,作者还以 AlphaGo、AlphaStar为例,概述了多智能体强化学习的实际应用。

近年来,随着强化学习(reinforcement learning)在多个应用领域取得了令人瞩目的成果,并且考虑到在现实场景中通常会同时存在多个决策个体(智能体),部分研究者逐渐将眼光从单智能体领域延伸到多智能体。

本文将首先简要地介绍多智能体强化学习(multi-agent reinforcement learning, MARL)的相关理论基础,包括问题的定义、问题的建模,以及涉及到的核心思想和概念等。然后,根据具体应用中智能体之间的关系,将多智能体问题分为完全合作式、完全竞争式、混合关系式三种类型,并简要阐述解决各类多智能体问题的经典算法。最后,本文列举深度强化学习在多智能体研究工作中提出的一些方法(multi-agent deep reinforcement learning)。

1. 强化学习和多智能体强化学习

我们知道,强化学习的核心思想是“试错”(trial-and-error):智能体通过与环境的交互,根据获得的反馈信息迭代地优化。在 RL 领域,待解决的问题通常被描述为马尔科夫决策过程
 

(2) 重新设计和优化组织的服务

变更计划一旦被接受,就必须交付。这不仅仅是技术问题:它可能会改变现有的政策和流程,几乎肯定需要新的技能来实施,并且需要持续的监控、管理和安全。

使用云计算服务时,组织需要使其流程与所选云计算提供商的流程保持一致,因为云计算提供商不太可能会更改其流程以适应客户。对于主要的公共云提供商来说,获得人员支持本身就是一个挑战。所有这些要素都需要包括在内,并要取得良好的成果,以确保组织获得预期的收益。也许最大的挑战是首席信息官或IT主管需要有成功完成此任务的机会,而不履行职责的后果可能会损害他们的声誉,甚至可能损害其职业生涯。如果组织选择ITaaS,则第三方将利用他们的经验来提供专业知识,以加快流程并确保交付预期的结果。

(3) 确定需要多少支持

不同类型的服务需要不同级别的支持。以安全性为例,云计算提供商使用SaaS负责服务的整体安全性,用户只需处理服务的身份验证和服务提供商之间的数据传输。而组织的主要职责是确保性能符合约定的服务等级协议(SLA)。

借助IaaS,用户有责任确保对实例及其内部部署所有内容的访问权以及实例之间集成的安全性,除非他们要求云计算提供商或第三方为它们执行这个操作。客户和提供者共同承担风险,组织需要确保他们正确配置设置。借助ITaaS,云计算提供商可以处理安全性的所有方面,而与平台或提供商无关,以及服务交付和支持的所有方面。由每个组织决定他们要处理多少日常管理,并使用ITaaS提供商的服务来覆盖他们内部部署无法提供的要素。

对于大多数组织而言,最佳解决方案可能是混合解决方案。例如,一家中型组织已将其所有IT外包给了虚拟主机环境,但没有任何灵活性来适应其服务。在几年后,这限制了其业务发展和增长,并且云计算提供商提供的云服务的可靠性和灵活性都存在问题。

该组织决定收回控制权,并希望将尽可能多的服务移至SaaS中。 但是,它依赖于几种传统应用程序,而这些应用程序没有适用的SaaS服务。经过分析,将这些服务迁移到公共云没有任何意义。与其相反,组织在ITaaS上达成了一致,提供了灵活性和按需付费的模型。这些应用程序在最新的硬件上运行和管理安全性和补丁程序,并根据约定的服务等级协议(SLA)评估性能。内部部署团队现在可以专注于用适当的SaaS服务取代它们,而不必在他们签署的合同中规定的最后期限内开发新的应用程序支持新的数字服务。

(编辑:宣城站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读