AI Agent

Agent的起源

Agent[的概念来自于哲学领域,在哲学中,"Agent"(代理人)通常指的是能够主动行动、具有意识或意愿、有能力做出决策和选择的实体。这个概念涵盖了人类、动物和可能的人工实体(比如机器人或计算机程序)。Agent的定义和性质在不同的哲学学派和文化背景下可能有所不同,但通常都涉及到有目的地行动和意识的存在。

在这样的定义中的关键词:主动行动、有意识或意愿、决策和选择实体

自1980年代中期以来,计算机和人工智能领域对Agent的研究显著增加,Wooldridge等人首次将Agent引入到人工智能,并以此为基础来定义人工智能:它是计算机科学的一个子领域,旨在设计和构建表现出智能行为方面的计算机化代理人。在这个人工智能的定义中,比较模糊的词就是“智能行为”,我个人理解智能行为基本上可以等同于哲学领域所提出的主动行动、具有意识或意愿、有能力做决策和选择,区别在于哲学领域的Agent可以是人类、动物,而计算领域则是计算实体。引述[2]的理解:实质上,人工智能Agent并不等同于哲学上的 Agent;相反,它是在人工智能背景下哲学 Agent概念的具体化。

在对AI Agent的研究中,将人工智能Agent视为能够使用传感器感知其环境、做出决策,然后使用执行器采取行动的人工实体。

伴随着人工智能的发展,Agent也经历了多个发展阶段,直至今日基于LLM的Agent

Ai Agent 的发展阶段

Symbolic Agents

在人工智能研究的早期阶段,主要采用的方法是符号人工智能,其特点是依赖符号逻辑 。这种方法采用逻辑规则和符号表示来封装知识并促进推理过程。早期的人工智能代理人是基于这种方法构建的 ,它们主要关注两个问题:转导问题和表示/推理问题 。

转导问题涉及到从已知的事实和规则中得出结论的能力。具体来说,这个问题关注的是如何使用逻辑和推理规则,从一个或多个前提出发,得出一个或多个正确的结论。这种推理过程通常是确定性的,不涉及不确定性因素。解决转导问题的方法包括经典逻辑推理、谓词演算、规则推理等形式的推理。

推理问题与转导问题相反,它涉及到从不完全或不确定的信息中获取有用的知识和模式。具体来说,这个问题关注的是如何从数据中归纳出一般性的规律和结论。这种推理通常是概率性的,因为数据可能包含噪声和不确定性。解决推理问题的方法包括统计学习、机器学习、归纳逻辑编程等方法,这些方法允许系统从数据中学习并进行泛化,以便在未知情况下做出预测或决策。

Symbolic Agent旨在模拟人类的思维模式。它们具有确定性和可解释的推理框架,由于其符号性质,它们具有高度的表达能力 。这种方法的一个经典例子是基于知识的专家系统,由知识库、推理引擎、解释器等主要部分构成,主要应用技术支持、设备维护等要求高确定性和可解释性的领域。然而,Symbolic Agent(符号代理人)在处理不确定性和大规模现实世界问题方面存在局限性 。此外,由于符号推理算法的复杂性,很难找到一个能够在有限时间内产生有意义结果的高效算法 。

Reactive agents

不同于 Symbolic Agent,Reactive Agent不使用复杂的符号推理。相反,它们主要关注代理人与环境之间的互动,强调快速和实时的响应 。这些代理人主要基于感知-行动循环,有效地感知和对环境做出反应。这种代理人的设计优先考虑直接的输入-输出映射,而不是复杂的推理和符号操作 。然而,反应式代理人也存在局限性。它们通常需要更少的计算资源,能够更快地响应,反应是即时的,但它们可能缺乏复杂的高级决策和规划能力。实际上Reactive Agent使用预先定义的规则集来指导其行为。这些规则根据感知到的环境条件和目标来选择最合适的行动。这些规则通常以条件-动作对的形式表示,即如果某些条件满足,则采取某些特定的行动。Reactive Agent通常用于要求响应速度高的领域,如扫地机器人它使用传感器感知地板上的灰尘和障碍物,然后根据感知到的信息选择清扫路径和避开障碍物。这种代理不需要长期规划,只需根据当前感知到的情况做出决策。

Reinforcement learning-based agents

随着计算能力的提升和数据可用性的增加,以及对智能代理与其环境之间交互模拟越来越浓厚的兴趣,研究人员已经开始利用强化学习方法来训练代理人解决更具挑战性和复杂的任务 。这个领域的主要关注点是如何使代理人通过与环境的互动来学习,使它们在特定任务中获得最大的累积奖励 。最初,强化学习(RL)代理主要基于诸如策略搜索和值函数优化等基本技术,如Q学习 和SARSA 。随着深度学习的兴起,深度神经网络和强化学习的集成,被称为深度强化学习(DRL)的方法应运而生 。这使代理人能够从高维输入中学习复杂的策略,取得了许多重要的成就,如AlphaGo  和DQN 。

这种方法的优势在于它能够使代理人在未知环境中自主学习,无需明确的人类干预。

这使得它在各种领域广泛应用,从游戏到机器人控制等各种领域。基于强化学习的Agent主要由下面的几个部分构成:

奖励信号(Reward Signal):

在强化学习中,代理的行为是通过一个奖励信号来指导的。奖励信号表示代理每次采取行动时获得的反馈,目标是最大化长期累积奖励。代理的目标是学会通过选择不同的行动来最大化其预期累积奖励。

状态空间和动作空间:

代理操作在一个状态空间中,该空间包含环境可能的状态。代理可以选择在动作空间中采取的行动,以影响环境的状态和奖励。强化学习代理通过学习状态和行动之间的关系来制定决策策略。

策略(Policy):

代理的策略是一种映射,它定义了在给定状态下应采取哪些行动。强化学习的目标之一是找到最佳策略,即能够最大化期望奖励的策略。

值函数(Value Function):

值函数用于评估在特定状态下采取特定行动的好坏程度。值函数可以帮助代理决定在给定状态下应该采取哪个动作。常见的值函数包括状态值函数和动作值函数。

学习算法:

强化学习代理使用各种学习算法来根据环境反馈不断改进其策略。这些算法可以包括Q-learning、深度Q网络(DQN)、策略梯度方法、蒙特卡洛方法等。

探索和利用:

代理必须在探索新策略和利用已知策略之间取得平衡。这被称为探索-利用二进制。代理需要尝试不同的行动以发现潜在的高奖励策略,但也需要利用已知的高奖励策略。

然而,强化学习也面临诸多挑战,包括长时间的训练时间、低样本效率和稳定性问题,尤其在复杂的现实环境中应用时面临更复杂的情况。目前在自动驾驶、游戏中均有应用。

Agents with transfer learning and meta learning

传统上,训练一个强化学习代理人需要大量的样本和长时间的训练,而且缺乏泛化能力 。因此,研究人员引入了迁移学习来加速代理人在新任务上的学习。迁移学习减轻了对新任务的训练负担,促进了知识在不同任务之间的共享和迁移,从而增强了学习效率、性能和泛化能力。此外,元学习也已经引入到人工智能代理人中。元学习关注的是如何学习,使代理人能够从少量样本中迅速推断出新任务的最优策略 [7]。这样的代理人在面对新任务时,可以通过利用已获得的通用知识和策略来迅速调整其学习方法,从而减少对大量样本的依赖。然而,当源任务和目标任务之间存在显著差异时,迁移学习的有效性可能不如预期,可能存在负面迁移 。此外,元学习需要大量的预训练和大样本量,使其难以建立通用的学习策略 。

Large language model-based agents

随着大型语言模型展示出令人印象深刻的新能力并获得了巨大的关注 ,研究人员已经开始利用这些模型构建人工智能代理 。具体来说,他们将大型语言模型用作这些代理的主要组件,作为其大脑或控制器,并通过多模态感知和工具利用等策略来扩展其感知和行动空间 。这些基于大型语言模型的代理可以通过链式思维(CoT)和问题分解等技术展现出与符号代理相媲美的推理和规划能力 [10]。它们还可以通过从反馈中学习和执行新的动作来获得与环境的互动能力,类似于反应式代理 [11]。同样,大型语言模型经过大规模语料库的预训练,表现出少样本和零样本泛化的能力,允许在任务之间无缝转移而无需更新参数 。基于大型语言模型的代理已经应用于各种现实场景,比如软件开发 和科学研究 。由于它们具有自然语言理解和生成能力,它们可以无缝地相互交互,从而促成了多个代理之间的合作和竞争 。此外,研究表明,允许多个代理共存可以引发社会现象的出现。

综上所述:基于LLM的Agent,集合了前期各类型AI Agent的优势,有着更广泛的适应性和应用,甚至成为实现AGI的较大可能性路径之一。


相关百科

最新百科

最热百科

上一篇

返回电商百科
一鹿有车斩获2023金牛奖