三「模」联盟，谷歌DeepMind缔造终身学习智能体 2024-08-08 00:53:18

打造终身学习智能体，是研究界以来一直追求的目标。最近，帝国理工联手谷歌DeepMind打造了创新联合框架扩散增强智能体（DAAG），利用LLM VLM DM三大模型，让AI完成迁移学习、高效探索。

为了让AI实现终身学习，帝国理工、谷歌DeepMind竟动用了三大基础模型!

「大模型视觉语言模型扩散模型」三模并用，构建了全新框架——扩散增强智能体（DAAG）。

DAAG的诞生，就是让具身智能体进行迁移学习、高效探索。

最新框架利用了「后见之明经验增强」（Hindsight Experience Augmentation）技术，让扩散模型以时间和几何一致的方式转换视频。

让其与目标指令对齐，从而对智能体过去经验进行重新标记。

论文地址:https://arxiv.org/pdf/2407.20798

大模型在无需人类监督情况下，自主协调这一过程，使其非常适合终身学习场景。

经过一系列实验，结果表明，DAAG改进了奖励检测器的学习、过去经验的迁移以及新任务的获取。

这些都是开发高效终身学习智能体的关键能力。

‍

无需人类监督，AI终身强化学习

一直以来，具身AI的训练数据极其稀缺，特别是在强化学习场景中尤为突出。

因为这类智能体需要与物体环境进行互动，而传感器和执行器成为了主要瓶颈。

然而，克服这一挑战需要开发出，能够从有限经验中高效学习、适应的智能体。

对此，研究人员假设，具身智能体可以通过利用过去经验，有效探索，并在任务之间转移知识，实现更高数据搬运效率。

即便在没有外部奖励的情况下，他们希望让智能体可以自主设置、评分子目标，并能重新利用之前任务经验，加速新任务学习。

因此，最新研究中，团队成员使用预训练的基础模型Gemini1.0Pro来解决这些问题。

通过视觉、语言和扩散模型的相互作用，让智能体更有效推理任务，解释环境和过去经验，并操纵自身收集的数据，以重新用于新任务和目标。

更重要的是，DAAGG可以自主运行，无需人类监督，凸显其特别适合终身强化学习的场景。

如下图1，是扩散增强智能体完整框架。

其中，LLM充当主要控制器/大脑，查询和指导VLM和DM，以及智能体的高级行为。

通过一系列在不同环境中的实验，研究人员证明了DAAGG在改进智能体在关键能力上的表现:

1）用扩散模型生成合成样本增强的数据，微调视觉语言模型，自主计算已见和未见任务的奖励;

2）为给定任务设计和识别有用的子目标，通过扩散模型修改记录的观察，重新利用原失败的轨迹，从而更有效地探索和学习新任务;

3）提取相关数据，使用扩散模型重新利用其他轨迹，有效地将先前收集的数据转移到新任务中。

图2所示，DAAGG方法如何通过扩散增强，重新利用智能体的经验。

研究人员提出了一个扩散管道，提高了几何和时间一致性，并修改了智能体收集的部分视频。

方法

DAAGG具体设计方法如下。

研究人员将环境形式化为「马尔可夫决策过程」（MDP）:在每个时间步t，环境和智能体处于状态s ∈ S。

从该状态，智能体接收视觉观察o ∈ O，并可以执行动作a ∈ A。

在每个回合中，智能体接收一个指令，这是用自然语言T描述的要执行的任务。

如果任务成功执行，智能体可以在回合结束时，获得奖励r = 1。

这项论文中，除了独立学习新任务外，作者还研究了DAAGG框架以终身方式连续学习任务的能力。

因此，智能体将交互经验存储在两个缓冲区中:当前任务缓冲区，称之为新缓冲区

:这个缓冲区在每个新任务开始时初始化。

然后是离线终身缓冲区

:智能体将所有任务的所有回合存储在这个缓冲区中，无论它们是否成功。

因此，后者是一个不断增长的经验缓冲区，智能体随后可以用它来引导新任务的学习。

以下是，作者选用的三种模型目的:

- 大模型LLM:编排智能体的行为，以及指导VLM和DM。LLM接受文本指令和数据，并输出文本响应。而且，利用LLM将任务分解为子目标，比较不同任务/指令的相似性，并查询VLM和DM。

- 视觉语言模型VLM:使用的是对比模型CLIP。CLIP由两个分支组成:图像分支和文本分支，它们分别以视觉观察和文本描述作为输入，最终输出相同大小的嵌入向量。

- 扩散Pipeline:研究的核心是通过语言指导的扩散模型，修改视觉观察。扩散Pipeline是为了提取智能体记录的观察

或一系列时间观察

，并保持几何和时间一致性的同时，修改观察中的一个或多个对象。

如下是，扩散Pipeline的示意图。

在图5中，作者比较了ROISE和自己提出的Pipeline输出。前者不能保持对象姿势和外观，在帧之间的一致性。

扩散增强智能体框架

在扩散增强数据上，微调VLM作为奖励检测器

VLM可以有效地用作奖励检测器，条件是基于语言定义的目标和视觉观察。

最近的研究显示，为了提升准确性，VLM通常需要在目标环境中收集的token数据上进行微调，适应所需的任务。

这是一个耗时的任务，而且每个新任务需要人类手动完成，严重阻碍了智能体以终身方式自主连续学习的多任务能力。

通过DAAGG框架，作者在先前收集的观察上微调VLM来解决这一挑战。

这个过程如上图2所示，通过这个过程，微调VLM作为LLM分解当前任务的所有子目标

的成功检测器。

通过后见之明经验增强，实现高效学习和迁移

在任何任务中收集的每个回合后，智能体收集一系列观察和动作

。

在DAAGG中，研究人员旨在最大化智能体可以学习处理新任务的回合数量，即使它没有达到任何所需的子目标。

最后，他们通过一个称为后见之明经验增强（HEA）的过程来实现这一点。

实验结果

DAAGG框架提出了LLM VLM DM之间的相互作用，以解决终身学习智能体面临的3个主要的挑战:

1）微调新的奖励/子目标检测模型，

2）提取和转移过去经验用于新任务，

3）高效探索新任务。

DAAGG能否将VLM微调为新任务的奖励检测器?

图7显示了，在数据集中没有示例的最左侧任务中，DAAGG如何通过综合其他任务中的示例实现大幅改进，同时在所见的任务中保持相同的性能。

在RGB Stacking和Language Table环境中，物体姿势之间的精确几何关系非常重要，而DAAGG与基线的差异则更为显著，这说明需要进行扩散增强才能获得有效的奖励检测器。

在「房间」环境中，CLIP接收到的观察结果虽然来自低保真模拟器和渲染器，但更接近它在网络规模数据集（水果和家具图片），上进行训练时接收到的观察结果分布。

因此，CLIP「零样本」性能要强得多，而在其他任务中，CLIP零样本性能则接近于随机猜测，这表明有必要进行微调。

DAAGG能否更高效地探索和学习新任务?

下图8中，作者绘制了100个测试事件中，成功解决任务实例的数量与训练事件数量的函数关系图。

在测试过程中，不执行任何探索策略或指导，而是让策略网络来引导智能体。

可以看到，DAAGG的学习速度比基线更快，将某些不成功的事件作为学习信号的能力，有助于提高在所有测试环境中的学习效率。

DAAGG能否更有效地连续学习任务，从过去的任务中转移经验?

图9中，研究人员比较了每种方法在使用

时，在任务

上的性能，性能指标是成功率。

可以看到，DAAGG超越了两个基准方法，主要归功于它能够从存储在

中大部分经验中学习，通过修改和重新利用解决

或其子目标

之外的任务轨迹。

通过场景视觉增强提高鲁棒性

然后，研究人员使用pipeline对每个观察进行5次增强，查询LLM来提出增强的描述（比如，一个有红色地板和白色墙壁的房间）。

作者将所有这些增强的观察添加到缓冲区，并在其上训练策略。

在原始和增强数据集上，训练的策略都在5个视觉上修改的房间中进行测试，随机改变墙壁和地板的颜色以及干扰物体，在每个房间进行20次测试回合。

图11展示了，视觉增强如何带来一个更加鲁棒的策略，能够在视觉上与单一训练Room中，与训练环境很不同的Room中也达到相同目标。

总而言之，这项研究中，作者提出了扩散增强智能体（DAAGG）。

这是一个结合了大型语言模型、视觉语言模型和扩散模型的框架，旨在解决具身AI智能体终身强化学习中的关键挑战。

关键研究结果表明，DAAGG能够在新的、未见过的任务中准确检测奖励，而传统方法在这些任务上难以泛化。

通过重用先前任务的经验，DAAGG能够逐步更高效地学习每个后续任务，得益于迁移学习而需要更少的回合。

最后，通过将不成功的回合，扩散为相关子目标的成功轨迹，DAAGG显著提高了探索效率。

参考资料:

https://arxiv.org/pdf/2407.20798

https://sites.google.com/view/diffusion-augmented-agents/

本文地址：/xwzx/1795.html

相关标签：三模联盟谷歌DeepMind缔造终身学习智能体

三星大幅提升员工（一元一分麻将群）专

【CNMO科技消息】CNMO从韩媒获悉，三星电子宣布将员工专利奖金最高提升至原来的两倍，这是自2017年以来近十年来的首次大幅调整。韩媒解读称，此举旨在强化技术竞争力并激励新技术开发。三星据报道，新的奖励方案将实施至2027年9月，为期两年。具体调整包括：在所有海外主要国家申请的最高等级A1专利奖金从原来的100万韩元提高至150万韩元（约7400元人民币）；在美国和中国申请的A2等级专利奖金从5...

（牛牛群）三星李在镕股票资产首破20万

【CNMO科技消息】据韩媒报道，三星电子股价近期大幅上涨，推动其会长李在镕的股票资产价值首次突破20万亿韩元大关，达到20.7178万亿韩元（以收盘价计算），约合人民币1000亿元。这一数据由企业分析专业机构韩国CXO研究所于近日公布。李在镕据报道，李在镕持有七家三星关联公司的股票，包括三星电子、三星物产、三星生命、三星SDS、三星E&A、三星火灾海上保险以及三星电子优先股。其股票资产价值从今年1...

（麻将群）特斯拉交付量创新高股价却

【CNMO科技消息】近日，特斯拉公布了2025年第三季度财报。公布的数据显示，特斯拉第三季度全球交付量超过49.7万辆，同比增长7.4%，创下历史新高。然而，这份业绩报告发布后，特斯拉股价当日收盘却大跌5.11%，报收每股436美元，总市值缩水至1.45万亿美元。特斯拉Model 3和Model Y据CNMO了解，特斯拉Model 3和Model Y依然是销售主力，第三季度交付481166辆，占总...

（血战到底）最新研究：廉价锂电池缺陷率

【CNMO科技消息】近日，CNMO注意到，一项最新研究揭示了廉价的锂离子电池存在令人担忧的质量缺陷——每13个电池中，就有1个电池存在严重制造缺陷。研究人员通过X光对1000个18650锂电池进行了深入分析，发现近8%的廉价或假冒电池存在严重制造缺陷，可能引发火灾。研究发现，关键缺陷发生在负电极没有完全覆盖正电极。这种错误的构造会导致正电极边缘出现锂镀层，使电池不稳定并促进短路。研究人员还发现，通...

8月中国动力电池装车量排名：（跑得快）

【CNMO科技消息】数据显示，2025年8月，中国动力电池装车量达62.5GWh，同比增长37.2%，创下月度新高。中国汽车动力电池产业链联盟发布的数据显示，磷酸铁锂与三元材料电池呈现“冰火两重天”的发展格局：磷酸铁锂电池装车量达51.6GWh，同比增长47%，占总装车量的82.5%；三元电池装车量为10.9GWh，同比下降10%，市场占比缩至17.5%。汽车电池近日，有第三方机构发布了2025年...

二季度OLED面板出货数据出炉：三星夺

【CNMO科技消息】9月8日，IDC数据显示，2025年二季度全球OLED面板出货量环比增长5%，同比下降2%。其中，智能手机面板环比增长2%，同比下降2%。CNMO注意到，三星显示以37%的市场份额夺得冠军，来自中国的京东方占比15%，排第二。具体来看，三星显示以37%的市场份额巩固了领先地位（一季度为36%）。其中，笔记本面板出货量环比激增131%，同比暴涨121%，主要供货给华硕、戴尔和联想...

苹果第三财季营收创近（麻将群）四年新

【CNMO科技消息】当地时间7月31日，苹果公司公布第三季度财报（截至6月29日）。财报显示，苹果第三财季总营收为940.4亿美元，同比增长10%，净利润为244.3亿美元，同比增长9%，整体表现远超华尔街预期，实现自2021年12月以来最强劲的季度营收增长。值得一提的是，苹果公司CEO蒂姆·库克在财报电话会议中宣布，自2007年首款iPhone发布以来，苹果已累计出货30亿部iPhone。苹果公...

三星（牛牛群）Q2营收达74.57万亿韩元

【CNMO科技消息】7月31日，三星电子发布了2025财年第二季度财报。财报显示，三星第二季度营收为74.57万亿韩元(约合535.09亿美元)，归属于三星母公司股东的净利润为4.9万亿韩元(约合35.41亿美元)，较上年同期（9.6万亿韩元）下降48.83%。三星CNMO注意到，三星电子此前发布了二季度业绩指引，预计二季度销售额基本持平为74万亿韩元，营业利润同比下降56%至4.6万亿韩元（约合...

LGD转让上百项LCD专（血战到底）利给三

【CNMO科技消息】近日，有外媒称，LG显示已将70项美国和55项韩国LCD专利转让给三星显示。三星很可能在与其他面板制造商的专利纠纷中使用这些专利。三星显示据美国专利商标局称，LG显示在5月份将70项美国LCD专利转让给三星显示。6月，又转让了55项韩国LCD专利。三星三年前就退出了LCD业务，此次收购与LCD业务相关的美国专利，很可能是为了在其他面板制造商的美国专利纠纷中使用。目前，三星正与多...

马麻将群斯克回应与三星165亿美元

【CNMO科技消息】据CNMO了解，特斯拉CEO马斯克于今日（7月28日）在个人社交平台上确认与三星已达成165亿美元协议，后者将为特斯拉生产半导体。特斯拉在今日早些时候，三星电子宣布，三星半导体(DS)部门下属的晶圆代工事业部签署了一项规模高达22.7648亿万亿韩元(约合165亿美元)的半导体委托生产供应合同，该数字相当于公司去年全年总销售额的7.6%。三星基于商业机密保护要求，无法透露合同对...

评论列表（条）

发布评论取消回复