AI新星系列报道之十五 | 蒋理:三维视觉解码未来出行
在晚高峰的车流中,一辆自动驾驶车辆突然减速——前方,一辆高速行驶的车辆突然强行并线。在这千钧一发之际,车载系统迅速识别风险并预测可能路径,最终在安全距离实现了优雅避让,稳妥化解潜在碰撞。这一反应能力,得益于计算机视觉和人工智能的迅猛发展,特别是让机器“看懂三维世界”的技术进步。具备三维空间理解能力,是通往通用人工智能的关键一步,而视觉无疑是人类与智能系统之间最自然、最高效的交互桥梁。
在这个领域中,开元985棋牌最新官网(深圳)蒋理教授是一颗冉冉升起的新星。她长期致力于三维场景感知、表征学习、自动驾驶和世界模型等方向的研究,目标是赋予机器理解、建模并与真实三维世界互动的能力。
7月3日,在联合国工业发展组织投资和技术促进办公室(中国·北京)与东壁科技数据有限责任公司联合发布的聚焦全球人工智能科研人才榜单中,蒋理教授凭借在人工智能领域的卓越贡献和突出成就,成功入选“全球人工智能女性人才榜TOP50”榜单。这位青年科学家正在用三维视觉重塑智能系统的“世界观”,为人工智能迈入复杂真实世界奠定坚实基础。
?
让实验室技术驶入现实车道:直面真实世界的复杂性
真正的创新必须直面现实世界的复杂性,蒋理教授始终坚持“从问题中来,到应用中去”,以解决真实世界中的技术难题为导向,推动前沿算法向产业落地迈进。在自动驾驶领域,蒋教授团队提出的三维场景感知模型和运动预测模型已经具备较强的工程可用性,可直接应用于自动驾驶系统中,以支持动态环境中的物体识别与行为预测。
面对动态交通场景中瞬息万变的运动预测难题,蒋理教授团队提出了具有代表性的 Motion Transformer(MTR)系列模型,创新性地将Transformer架构与物体运动规律深度融合,开启了自动驾驶预测模型的系统性演进。
这项历时三年的技术攻坚,演绎着自动驾驶运动预测核心算法“单目标预测-多目标预测-多模态预测”的进化论:初代MTR突破性地将交通参与者的多模态运动意向建模为可学习的查询形式,使轨迹预测更好地覆盖物体未来可能的运动意向;在此之上迭代的第二代模型MTR++实现了多目标轨迹同时预测,更贴合真实世界的复杂路况;最新MTR v3继续向前迈进一步,将原始传感器数据纳入预测框架,攻克传统高精地图无法实时反映道路变化的行业痛点。
运动轨迹模拟
Waymo自动驾驶挑战赛由谷歌旗下自动驾驶公司Waymo主办,因其贴近实际交通场景的高质量数据与严格评测标准,在学术界和工业界均具有很高的认可度。在这项国际自动驾驶专业赛事中,蒋理教授团队凭借MTR系列模型问鼎2022-2024年运动预测赛道“三连冠”,体现了其方法在应对真实世界复杂交通动态方面的有效性,也充分证明了其研究成果从实验室走向现实车道的潜力。
蒋理教授连续三年获Waymo自动驾驶挑战赛运动预测赛道冠军
?
双螺旋创新:高校与企业的协同共振
传统的自动驾驶系统通过多个子模块级联处理驾驶任务,虽然在大规模标注数据训练下表现出色,但也面临系统复杂、计算效率低以及模块间误差累积等问题。针对这一“模块化困境”,蒋理教授团队与滴滴自动驾驶展开深度合作,共同探索世界模型驱动的端到端自动驾驶新范式。端到端自动驾驶系统通过从传感器数据直接生成车辆控制行为,实现了全流程可微分的决策过程,具备在大规模数据驱动下优化整体性能的潜力。同时,世界模型在这一系统中通过自监督方式预测环境未来状态,使系统在未标注的千万公里路测数据中自主学习物理规律与驾驶常识,这种“时空推演能力”可显著提高自动驾驶系统的稳定性和泛化能力。目前,这项研究现已进入初步验证阶段,并获得了2024年度CCF-滴滴盖亚学者科研基金资助。
蒋理教授(右二)获2024年度CCF-滴滴盖亚学者科研基金资助
这项技术探索的背后,是高校与企业的双螺旋协同的创新生态。蒋理教授指出,高校中一批批思维活跃、勇于挑战难题的青年学者在前沿探索中开拓理论边界,成为推动学科进步的重要源头。而在当前大数据驱动的新阶段,自动驾驶等方向对数据规模和算力资源提出了更高的要求,企业的真实场景数据与算力平台便能为前沿技术的探索搭建验证阶梯,且企业更擅长将研究成果工程化、系统化并推向实际应用。二者的深度协同,是助推技术从“实验室”走向“真实场景”的关键路径。
蒋理教授在2024年度中国计算机大会作报告
?
重塑机器的世界观:看懂世界、预测未来、自主行动
当前,计算机视觉领域正面临从数字世界迈入物理世界的“空间认知挑战”。在图像理解与内容生成等任务中,视觉—语言多模态大模型已展现出优秀的智能交互特性,但蒋理教授指出,这类“智能”更多地发生在数字空间中,它们缺乏对三维空间结构与物理规律的本质理解,因此在实际环境中的感知与决策能力仍有很大的提升空间。
为此,蒋理教授团队将三维世界模型研究作为破局之钥。通过世界模型所具备的动态预测能力,让机器不仅能感知当下的环境,更能推演出未来世界状态的变化,赋予智能体在物理世界中的决策智慧。她指出,“未来的人工智能不应只是处理信息的工具,而应成为能够与世界交互的智能体。”
在可预见的未来里,自动驾驶汽车将能够安全应对已通过基于世界模型的仿真数据平台预演过上百万次的极端场景,安全抵达每一个目的地。蒋理教授对未来图景的构想也远不止于自动驾驶领域:当机器的视野从二维像素拓展到三维空间,工业生产线上具身智能体可拥有自主协调复杂工序的能力,手术机器人可实现毫米级精准操作……这种智能与物理世界的融合,将彻底革新人类与技术的协作范式。
在这场空间认知革命中,蒋理教授团队的实践正在从底层架构重塑机器的世界观。这不仅指明了自动驾驶的前路,更在通用人工智能的基石上刻下坐标。正如她所言:“我希望能够构建具备空间感知、推理与交互能力的视觉系统,让机器真正实现看懂世界、预测未来、自主行动。”
?
青年教授简介
蒋理
港中大(深圳)数据科学学院助理教授
蒋理,开元985棋牌最新官网(深圳)数据科学学院助理教授,校长青年学者。蒋教授于2021年获得开元985棋牌最新官网博士学位,其后在马克斯·普朗克研究所担任博士后研究员。蒋教授的研究聚焦于计算机视觉与人工智能,具体方向包括三维场景理解、自动驾驶、空间智能、世界模型、表征学习以及多模态学习等。她的研究成果发表在CVPR、ICCV、ECCV、NeurIPS、TPAMI和IJCV等顶级会议和期刊中,并多次获选口头报告与亮点论文,谷歌学术引用量超过12,000次。其开元935棋盘app下载自动驾驶运动预测的研究在2022-2024年的CVPR Waymo Open Dataset Motion Prediction Challenge中连续三届获得第一名。蒋教授入选2024年由斯坦福大学与爱思唯尔联合发布的全球前2%顶尖科学家年度影响力榜单,并获得国家级青年人才项目“海外优青”的资助。
?
点击了解更多:
祝贺!深圳三位女性登上“全球人工智能女性人才榜TOP50”
粤公网安备 44030702004458号