理工学院高源教授、林天麟教授在Science Robotics发表论文
近日,开元985棋牌最新官网(深圳)理工学院高源教授、林天麟教授联合北京通用人工智能研究院、华盛顿大学圣路易斯分校,在国际期刊Science Robotics发表题为“Cross-Robot Behavior Adaptation through Intention Alignment”的研究论文。
?
论文链接:science.org/doi/10.1126/scirobotics.adv2250?
?
一、期刊介绍
Science Robotics是美国科学促进会(AAAS)旗下Science系列的重要子刊,也是Science系列子刊中唯一聚焦机器人学领域的顶级学术期刊。该期刊最新影响因子高达26.1,长期位居机器人学领域全球第一梯队,致力于发表机器人领域具有重大原创性和变革性的研究成果,涵盖从基础科学到工程应用的广泛议题。由于极高的学术标准与极低的录用率,在Science Robotics发表论文意味着研究成果获得了国际顶级同行评审专家的高度认可,被视为该领域的重要里程碑。
?
二、研究背景
在机器人技术日益普及的今天,从工业产线的柔性制造到灾后救援的多机协同,再到太空探索中的异构编队作业,越来越多的现实场景需要形态各异的机器人协同工作。然而,如何让异构机器人(Cross-embodiment)——例如天上飞的无人机、水里游的无人船、地面跑的轮式机器人和桌上操作的机械臂——能够相互“理解”并协作完成任务,一直是机器人学领域的重大开放问题。
模仿学习(Imitation Learning,IL)是机器人技能获取的核心范式,使机器人能够通过观察专家演示高效习得新技能。然而,现有方法多假设示教者与学习者具有相同或相似的物理构型,依赖两者间的直接运动映射。当二者在自由度、运动模态或传感器配置上存在根本差异时,这种映射即告失效。为应对中等程度的形态差异,已有研究尝试采用不变特征映射、状态转移对齐或域混淆(domain confusion approaches)等方法。然而,当运动模态根本不同时(如地面车辆与飞行器),上述策略均难以奏效。近年来,基于任务结果的对应学习虽取得进展,但需为每对示教-学习者手动标注配对轨迹,严重制约了其可扩展性。无监督对应学习虽免除了标注负担,却仍要求机器人具备相同的功能集合。能够同时适应多样化环境并泛化至异构机器人形态的高效方法,仍是该领域亟待填补的空白。
此外,从单体模仿学习扩展到团队层面,引入了一个全新的“团队对团队”模仿范式(Team-to-Team Imitation)。当示教团队与学习团队在团队规模、机器人类型和个体能力上存在异质性时,系统需要同时解决两个耦合难题:为学习团队生成可行的运动方案,以及基于个体能力进行合理的多机器人任务分配(Multi-Robot Task Allocation, MRTA)。由于异构机器人功能各异且任务定义隐含在隐式运动轨迹中,异构团队间的模仿迄今仍是一个未被探索的课题。
研究团队从认知科学中的“理性模仿”(Rational Imitation)理论获得了关键启发。发展心理学研究表明,人类学习者——甚至婴幼儿——在模仿他人行为时,会优先再现示教者的推断目标(inferred goals),而非精确复制其运动模式。神经科学研究进一步支持了这一观点,证明人类在意图层面(intentional level)而非运动模仿层面(motor mimicry)理解行为。这一跨学科洞见构成了IAIL框架的理论基石:能否让机器人也像人类一样,通过理解意图而非复制动作来实现跨形态的学习与协作?
传统的模仿学习(左侧)通常局限于示教者与学习者拥有相同或相似的身体结构,其对应关系建立在共享的运动空间或不变的身体组件之上。然而,本研究探索了一种全新的、更具挑战性的跨体型模仿场景(右侧):即便是形态迥异的异构机器人团队(例如无人机与无人船),也能通过自然语言注释所编码的高层意图在共享嵌入空间中建立语义对应关系,从而实现跨运动模态、跨工作空间的模仿与协作。这一范式从根本上改变了模仿学习的对应粒度——从底层运动轨迹的逐步映射,上升到高层任务意图的语义对齐。
?
三、研究内容
核心框架:意图对齐模仿学习(IAIL)
针对上述挑战,团队提出了意图对齐模仿学习(Intention-Aligned Imitation Learning, IAIL)框架。该框架的核心理念在于“超越形式与功能”(Beyond Form and Function):不对齐运动,对齐意图。与近年来Open X-Embodiment、Octo、OpenVLA、HPT等致力于从大规模异构数据中学习通用策略或表征的方法不同,IAIL不追求训练跨所有机器人的单一通用策略,而是为每个机器人保留独立的运动生成模型以尊重其物理约束,同时通过构建跨机器人的共享意图空间(Shared Intention Space)实现异构体型间的行为关联与迁移。该空间以人工标注的自然语言描述作为语义锚点,通过对比学习将不同形态机器人的运动表征对齐到统一的语义层面——无论是无人机的飞行轨迹还是机械臂的抓取动作,只要它们背后的任务目标相同,在意图空间中就会被编码为相近的向量表示。这种“模块化生成+统一意图空间”的架构设计,使得IAIL既保全了个体机器人的本体异质性(embodiment heterogeneity),又实现了跨体型的显式、灵活的技能迁移——这是当前通用表征学习方法所不具备的能力。
?
IAIL框架的运作流程包含三个关键阶段:
1. 上下文感知的运动生成(Context-aware Motion Generation, 阶段A):该阶段负责评估学习者机器人在当前情境下的行为能力。具体而言,系统为每个机器人训练一个基于变分自编码器(Variational Autoencoder, VAE)的状态条件生成模型。该模型通过在各机器人独立采集的专家轨迹数据集上离线训练,学习在给定状态下生成安全、可执行的候选动作序列。每条候选动作代表该机器人在当前环境约束下可实现的一种目标,候选动作库的多样性直接反映了机器人在特定情境中的能力边界。值得注意的是,各机器人的生成模型完全独立训练,无需任何跨机器人的数据共享或联合优化,这极大降低了系统的部署门槛和扩展成本。
2. 运动意图提取(Motion Intention Extraction, 阶段B):该阶段是框架的核心创新所在。系统为每个机器人训练一个特定的运动编码器,同时训练一个所有机器人共享的注释编码器,两者通过对比学习(Contrastive Learning)目标函数联合优化。训练数据中,每条机器人轨迹配有3-5条不同抽象层次的自然语言描述(例如,从“拾取白色纸杯”到“拾取杯子”),语言注释作为语义监督信号,通过最大化正确运动-注释对之间的互信息、最小化错误配对间的相似度,驱动具有相同意图的动作——无论来自何种形态的机器人——在嵌入空间中聚集。例如,“无人机飞往监测点”和“轮式机器人驶向监测点”虽然运动形式截然不同,但由于共享“前往监测点”的意图注释,它们在意图空间中将被映射到相邻位置。此外,通过将生成模型采样的分布外(Out-of-Distribution, OOD)动作标注为“unknown”并纳入训练,系统能够有效识别并排除不可靠的候选动作,这一机制对保障真实部署中的行为安全性至关重要。
基于意图相似度的运动关联(Motion Association via Intention Similarity, 阶段C):在共享意图空间中,系统计算示教者动作嵌入与学习者所有候选动作嵌入之间的余弦相似度,选取意图空间中距离最近的候选动作作为执行方案。这一机制确保了所选动作同时满足两个关键约束:物理可执行性(来自阶段A的生成保障)和语义一致性(来自阶段B的意图对齐)。当相似度低于预设阈值时,系统判定当前机器人不具备执行该示教意图的能力,机器人将主动保持待机而非冒险执行可能导致不可预期后果的动作——这一保守策略对真实场景中的部署安全至关重要。在多机器人团队场景中,该机制自然扩展为能力感知的任务分配(Capability-aware Task Allocation):系统跨所有学习者机器人的候选动作进行全局搜索,将每个示教步骤分配给意图距离最近且物理上可行的机器人执行,从而在统一框架内同时解决了跨体型行为迁移和多机器人任务分配(MRTA)两个耦合问题。
?
为了验证意图空间的内部结构与鲁棒性,研究团队在120个未参与训练的测试样本上进行了定量分析。通过计算潜在嵌入间的余弦距离,评估了任务类型间的语义分离度和跨体型的一致性。
语义分离方面:全局类间余弦距离高达0.997±0.003,表明不同任务类型的潜在表征近乎正交、高度分离。类内距离则显著更低——监测任务为0.276-0.375,递送任务仅为0.023,总体语义分离比率达到3.764(定义为平均类间距离与平均类内距离之比,该指标常用于无监督聚类评估)。值得关注的是,意图空间还保留了细粒度的物品级语义结构:拾取同一物品的类内距离(如0.11±0.044用于杯类)远小于拾取同类不同物品的距离(0.499±0.034),表明系统能够在粗粒度(任务类型级)和细粒度(物品实例级)同时实现精确的语义编码。这一层级化的语义结构直接支撑了IAIL在"同物品可用"(85%成功率)和"同类物品可用"(87%成功率)两种条件下均保持高适应准确率的能力。
跨体型对齐方面:定义跨体型对齐误差为执行同一任务的不同机器人嵌入质心之间的平均余弦距离,递送阶段的对齐误差低至0.030-0.031,意味着不同机器人执行同一递送任务时的潜在编码几乎相同。总体跨体型对齐比率为3.046,证实了IAIL的意图空间具备良好的体型不变性(Embodiment Invariance),为其灵活的角色替换和动态任务重分配能力提供了坚实的表征基础。
?
团队协作:从个体到集群
IAIL框架不仅适用于单体间的智能体对智能体(Agent-to-Agent)模仿,更开创性地将跨体型模仿学习与多机器人任务分配(Multi-Robot Task Allocation, MRTA)在统一框架内耦合,支持异构机器人团队间的团队对团队(Team-to-Team)协作模仿。在团队层面,系统需要同时解决“学什么”(跨体型行为迁移)和“谁来做”(基于能力的角色分配)两个耦合问题——而这正是现有跨体型迁移方法和传统MRTA方法各自无法独立解决的。IAIL通过共享意图空间中的全局相似度搜索,将这两个问题统一求解。
在团队对团队(Team-to-Team)的模仿中,系统会综合考量所有机器人的能力与约束。通过在共享意图空间中计算距离,系统能够动态地将任务分配给能力最匹配的成员。例如,将空中监测任务分配给无人机或无人船,将物品拾取分配给机械臂,将递送任务分配给轮足机器人,实现了任务的自动优化分配。值得注意的是,当团队成员发生变化时(如某台机器人不可用),系统能够自动重新分配角色——例如当无人船Cuboat缺席时,轮足机器人Diablo会接替其监测职责,体现了框架对团队组成变化的强鲁棒性。
?
实验验证与真实世界部署
研究团队搭建了涵盖无人机、无人船、轮足机器人、人形机器人、差速轮式机器人及单/双臂机械手在内的7类异构机器人集群,在30个多步协作场景中对IAIL框架进行了全面验证。值得注意的是,示教团队与学习团队之间没有任何机器人重叠——学习者需要在从未见过示教者形态的条件下,仅凭意图理解来复现任务目标。
实验结果表明,IAIL在跨异构团队的模仿中取得了92%的任务成功率和88%的最佳自适应率。系统不仅能够在示教物品可用时精确复现,也能在仅有同类替代品时做出合理替代,更能在任务不可行时正确识别并主动保持待机,避免错误操作。所有角色分配均严格落在各机器人的物理能力范围内,且角色会随团队组成和环境配置动态调整——这种涌现式的智能分配并非硬编码规则,而是IAIL基于意图空间中的能力感知推理自动产生的。
除了真机实验,团队还进行了系统的仿真对比实验,将IAIL与两类代表性基线范式进行对照。第一类是基于密度的映射方法(Density-based Mapping),通过循环一致性损失(cycle-consistency loss)对齐示教者与学习者的技能分布,在不依赖标注的前提下实现无监督跨体型迁移。第二类是基于描述的翻译方法(Description-based Translation),以自然语言作为中间表示实现语言条件策略学习(language-conditioned policy learning),通过将示教动作编码为文本描述再解码为学习者的执行策略。为确保公平比较,两类基线与IAIL使用相同的编码器/解码器架构和相同的标注数据集。
从理论分析角度,两类基线方法各有根本性局限:密度方法在示教者与学习者的任务分布存在显著差异时会退化(因其依赖分布对齐而非语义理解);描述方法虽具备语义鲁棒性,但缺乏对学习者物理能力的显式建模,当学习者不具备执行示教任务的能力时,仍会生成不可行的动作。两者均无法检测任务不可行场景(即示教任务超出学习者能力范围时),可能导致机器人执行错误甚至危险的操作。在涉及所有机器人配对的500次重复评估中(使用三个随机种子),双侧Welch t检验证实IAIL在所有挑战性配对中显著优于两类基线(所有p < 0.001)。
?
在目标监测任务仿真中,四种机器人(Pepper、Drone、Carter、Wheeled Biped)因各自体型约束对两个目标有不同的动作分布偏好。密度方法在动作分布相似的配对中表现尚可,但在分布差异显著的8组配对中性能急剧退化——IAIL相比密度方法的无权重平均分差Δ=1.40(95% CI [1.01, 1.79],SD=0.47),效应量普遍达到大效应(Cohen's d > 0.8)。描述方法在Pepper-Carter等能力不匹配的4组配对中同样失败,IAIL相比描述方法的平均分差Δ=0.94(95% CI [0.84, 1.04],SD=0.063)。最具诊断价值的发现是:在Pepper-Carter配对中,两种基线方法的平均得分均为-1(始终执行错误动作),而IAIL能够正确识别不可行任务并保持待机。这一差异的实际意义在于:在真实部署中,执行错误动作可能导致物理损坏或安全事故,而IAIL的意图感知机制提供了传统方法不具备的本质安全保障。
?
在物品抓取任务仿真中,三台Universal Robots UR5机械臂具有相同的运动学结构但不同的相机视角,需要从18种物品(分属5个语义类别)中进行跨体选择。由于更高维度的状态-动作空间和更精细的物品语义差异,该任务的难度显著高于监测任务。IAIL在所有9组配对中均显著优于两类基线(所有p < 0.001):相比密度方法的平均分差Δ=1.11(95% CI [1.08, 1.14],SD=0.04),相比描述方法的平均分差Δ=0.63(95% CI [0.55, 0.70],SD=0.10)。层次化分析表明,描述方法在“同一物品可用”条件下表现尚可,但在“同类替代”条件下性能大幅下降——这恰恰反映了其缺乏细粒度语义编码能力:它能复述具体物品名称,却无法在类别层面上进行灵活的语义推理。密度方法在两种条件下均表现最差,因其完全依赖分布统计而缺乏任何语义信息。两种基线方法在不可行场景中均无法检测任务不可行性,频繁产生错误动作。综合来看,IAIL通过意图空间中的多层级语义编码,在物品实例级和类别级均实现了准确的跨体型行为迁移,同时具备唯一能够保障任务不可行场景下行为安全性的能力。
作为框架可扩展性的一项重要验证,研究团队还展示了IAIL与大语言模型(LLMs)的集成潜力。由于IAIL的注释编码器与运动编码器经过联合训练,框架能够将语言指令与运动轨迹同等地投射到意图空间中。这意味着,当使用语言指令替代示教轨迹时,仅需将意图提取阶段的编码器从运动编码器切换至注释编码器,即可实现无缝的模态切换——无需任何额外训练或架构调整。这一特性使得大语言模型可直接作为高层规划器为异构机器人团队生成任务指令,IAIL则负责在意图空间中找到与指令语义最匹配的可执行动作。当采集人类示教轨迹不可行时,LLMs还可自动生成语言指令作为替代示教,从根本上降低了异构多机系统的部署门槛。
?
四、研究结论
本文提出了一种基于“意图对齐”的新范式,通过构建共享意图嵌入空间,使异构机器人在保留各自物理差异的前提下实现高层语义协作,突破了传统统一模型压缩多样本体的局限。
本文将模仿学习从动作映射提升为意图对齐,提升了系统的可扩展性与泛化能力,增强了机器人行为的可读性与可预测性,有助于人机协作中的理解与信任建立。IAIL的三阶段流程(运动生成—意图提取—意图关联)为开放环境中的动态多机器人协作提供了通用模板,并支持结合大语言模型实现零样本任务分配与跨体型泛化。
从系统层面看,本文构建了一种去中心化协同机制,将意图空间作为共享“心智模型”,连接集中式基础模型与分布式多智能体系统,为构建可扩展、可解释且物理可执行的异构人机协作体系提供了关键方法论基础。
?
五、作者简介
共同第一作者:高源教授
高源,现任开元985棋牌最新官网(深圳)理工学院客座助理教授、深圳市人工智能与机器人研究院(AIRS)副研究员、国际合作部项目负责人(PI)。主持国家科技部重大专项子课题及多项省市级科研项目,并参与瑞典SSF、欧盟Horizon 2020、ANIMATAS等国际机器人研究项目。高源博士在机器人学习算法、多机协作策略及异构多机系统等领域累计发表论文50余篇,主要发表于Science Robotics、IEEE T-RO、IEEE IoT-J、IEEE T-MECH、ACM IMWUT、ACM CHI、RA-L、NeurIPS、ICRA、IROS等国际顶尖期刊与会议。其研究聚焦于城市级社会化异构多机器人系统、云-边-端多模态大模型驱动的异构机器人集群,以及人机协同混合智能,致力于推动多机器人系统、大模型与智能协同交叉领域的理论创新与工程落地。
?
共同通讯作者:林天麟教授
林天麟,开元985棋牌最新官网(深圳)副教授、深圳河套学院双聘教授,担任机器人与智能制造国家地方联合工程实验室常务副主任、IEEE机器人与自动化学会广州分会副主席。林教授长期从事模块化机器人、多机器人系统及特种机器人的研究工作,在机器人与人工智能领域期刊及会议发表论文100余篇,包括Science Robotics 2篇、IJRR 3篇、TRO 8篇、TPAMI 2篇;获熊有伦智湖优秀青年学者奖、TMECH年度最佳论文奖、IROS机器人机构设计最佳论文奖、ICRA最佳论文提名奖,入选全球前2%顶尖科学家。研究成果被中央电视台、路透社、福布斯、IEEE Spectrum等国内外媒体报导。林教授担任TRO、TMECH、TASE、JFR等期刊编委。
?
?
供稿|论文作者团队
?
粤公网安备 44030702004458号