m6米乐官网入口

服务中心

跨境电商物流服务

AI×机器人爆发年:英伟达Jim Fan领衔登月任务谷歌DeepMind新技术曝光

来源:m6米乐官网入口    发布时间:2024-07-02 22:50:11

  【新智元导读】AI x 机器人正逐渐走上时代的风口,近日,谷歌DeepMind以及英伟达两家AI大厂都在机器人领域有所动作。

  近日,谷歌DeepMind以及英伟达两家AI大厂透露了自己在机器人相关领域的进展。

  「我们相信,在未来,每台移动的机器都将是自主的,机器人和模拟代理将像iPhone一样无处不在。我们正在构建一个具有通用能力的人工智能,能学习在许多虚拟和现实世界中熟练地行动。」

  将人机交互表述为一个部分可观察的马尔可夫决策过程(其中人类语言输入是观察,机器人代码输出是动作),那么训练完成先前的交互可以被视为训练LLM一个过渡动力学模型——它可以与经典的机器人技术(如模型预测控制(MPC))相结合,以发现更短的成功路径。

  研究人员对Palm 2-S进行了微调,使机器人能够更快地从人类互动中学习,与传统的RAG和LMPC-Skip相比,新方法在可教性方面实现了最大的改进。

  这个开放式Agent名为Eureka,为使机器人到达超越人类的灵巧性而设计奖励机制。

  Eureka弥合了高级推理(编码)和低级电机控制之间的差距。它是一种混合梯度架构:一个黑匣子(LLM推理),指示一个白盒(可学习的神经网络)。

  外部循环运行GPT-4来优化奖励函数(无梯度),而内部循环运行强化学习来训练机器人控制器(基于梯度)。

  这是一款GPU加速的物理模拟器,可将现实速度提高1000倍。在10个机器人的29个任务的基准套件中,Eureka奖励在83%的任务上比专家人工编写的任务平均提高了52%。

  Eureka 还支持一种新形式的上下文 RLHF,它能够将人类操作员的反馈纳入自然语言中,以引导和调整奖励功能。它可当作机器人工程师设计复杂电机行为的强大助力。

  下面是训练Agent玩游戏,项目名为Voyager,以GPT-4为驱动,是第一个纯粹在上下文中玩Minecraft的终身学习代理:

  训练模型是Voyager迭代编写的技能代码库,而不是浮点数矩阵。这个无梯度架构将不断发展。

  首先,Voyager尝试使用流行的Javascript Minecraft API编写一个程序来实现特定目标。该程序在第一次尝试时可能不正确。游戏环境反馈和 javascript 执行错误有助于GPT-4完善程序。

  其次,Voyager通过将成功的程序存储在向量数据库中来增量构建技能库。每个程序都能够最终靠嵌入其文档字符串来检索。复杂的技能是通过组合更简单的技能来合成的,跟着时间的推移,增强了Voyager的能力。

  第三,自动课程会根据智能体当前的技能水平和世界状态提出合适的探索任务,例如,如果智能体发现了自己处于沙漠中,则先学习收获沙子和仙人掌。

  Jim Fan认为,通才代理的出现有3个主要成分。首先,一个开放的环境,允许无限种任务和目标。地球就是一个例子,因为它足够丰富,可以锻造出一棵逐步扩大的生命形式和行为之树。

  其次,一个大规模的知识库,不仅教人工智能如何做事,还教人工智能做什么。GPT-3仅从网络文本中学习,但我们能否为我们的代理提供更丰富的数据,例如视频演练、多媒体教程和自由格式的wiki?

  第三,代理架构足够灵活,可以在开放式环境中执行任何任务,并且有充足的可扩展性,可以将大规模、多模态的知识源转换为可操作的见解。

  Jim Fan表示,基础模型的未来将是积极主动采取行动、无休止地探索世界并不断自我完善的代理。

  VIMA:第一款带有机械臂的多式联运LLM!引入了用于机器人学习的多模态提示。

  多模态提示使用户的任务规范变得更容易和灵活。通过单一模型,VIMA统一了各种任务,如视觉目标达到、视频演示的一次性模仿、新颖的概念学习和安全约束满足。

  如下图所示,给定一个用户用语言教机器人新任务的数据集(表示为在线上下文学习的文本输入和代码输出,图左),LMPC-Rollouts经过训练,以预测以当前聊天记录为条件的后续输入和输出(图中间),并使用MPC后退水平控制)进行推理时搜索,以返回下一个最佳操作(成功前的预期更正最少)。

  LMPC-Skip是一种替代变体,经过训练可直接预测最后一个操作(图右)。两种LMPC变体都通过上下文学习加速了机器人的快速适应。

  研究人员通过实验评估了各种提出的微调策略(缓慢适应)在多大程度上改善了人类的在线情境学习(快速适应)。

  通过自然语言反馈交互式地教授,对78个机器人任务做评估,包括5个机器人仿线个真实硬件实施。并特别探讨以下问题:

  论文中使用LMPC-Rollouts和LMPC-Skip对LLM进行了微调,提高了基础模型(PaLM 2-S)的可教性,并在所有实施例中都优于RAG基线。

  从上图能够准确的看出,LMPC-Skip过度拟合训练任务(左),而LMPC-Rollouts在多轮会话的测试任务(右)上推广得更好,也就从另一方面代表着更易于教学和对反馈做出反应。

  上面的根据结果得出,为了在实践中最大限度地提高性能,应该使用LMPC-Skip来响应初始用户指令,然后使用LMPC-Rollouts来响应后续用户反馈。

  对于RAG,虽然该方法在总体成功率方面改进了基础模型,但在测试任务上,它实现的成功任务率低于基础模型。虽然RAG可能擅长提高与检索到的示例类似的任务的成功率,但它很难在新任务上表现出色。

  原标题:《AI x 机器人爆发年!英伟达Jim Fan领衔登月任务,谷歌DeepMind新技术曝光》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。