北京邮电大学方斌:AI赋能机器人自动自主自我进化
专题:服贸会2025智能机器人创新发展论坛
中国国际服务贸易交易会-具身无界:智能机器人创新发展论坛于2025年9月11日在北京举行。主题为“具身智能+大模型:机器人的进化革命”。北京邮电大学“拔尖人才”教授、中国人工智能学会认知系统与信息处理专委会秘书长方斌出席并演讲。
以下为演讲实录:
非常感谢组委会的邀请,很荣幸能在这里和大家分享一下我最近提的一个观点,AI赋能机器人自动自主自我进化的探讨。
我们知道今天具身智能,应该说是最热门的一个方向,也是列为国家非常重要的发展战略的方向,我们可以回顾一下整个在机器人的过程中,以及在今天我们谈到具身智能机器人应该是包含哪些技术点,这里面和大家一起来分享一下。
我们知道本身在历史上,我们一直对于人形机器人都非常的关注,包括很多的科幻片,我们看到以前很多好莱坞的电影,都是在探讨着,是不是未来的人形机器人能赋予社会、赋予人类的发展更多的一些能力。
但是在实际的发展过程中,我们的文化,包括一些艺术,对于我们实际的技术来说还是有很大的区别,远远领先于技术的发展。
包括早期机器人在发展过程中,其实也是从传统的一些结构、机构以及自动化的领域去发展,像早期更多的是在于本体,具身本体的发展。在这个过程中,传感器的技术对于机器人领域的发展带来了很大的促进的作用,尤其是很多智能传感器的出现,让机器人能够实现对环境的感知,从而做出很多策略。像我们早期在日本的ASIMO机器人,在当时是全世界领先的代表。当年奥巴马访问日本的时候,就用ASIMO机器人来踢足球作为展示,对于本田来说也是一个科技实现的展示。
随着技术的发展,尤其是AI领域的发展,我们有了很多传感器、信息来了以后,其实就是基于这个传感器信息,我们是不是可以给机器人提供更多的感知能力和信息处理的能力。所以说无论是在结合CV自然语言的技术、深度学习、强化学习、AI的技术其实也是在不断扩大了它从原来的机器人初始只用于工业场景,其实也是慢慢的往服务领域去拓展,本身在学科发展上也是在不断的吸纳不同学科方向的人进入这样的一个领域。
到了近5年,尤其是像大模型这样的一个能力出现以后,我们现在很多的在提一句希望,它不仅是在专用场景和专用任务里面去实现服务的价值,还是让它具备通用操作能力,或者说通用的功能,来实现更多的一些能力的展示。
所以说像我们看到这一波热潮里面,马斯克的特斯拉擎天柱机器人本身是一直在引领这个方向的发展,前一段时间他们在美国的汽车站把他们的机器人装爆米花,也是很代表的应用。现在整个人形机器人估值最高的,就是美国的Figure人形机器,也是应用于物流分拣的场景,去替代一些工人作业的任务。所以它其实就是一个非常典型的结合动态大模型,VLA的框架来实现的能力。
我们刚才梳理了这样的发展过程,其实可以看到它是分为几个不同的阶段,就像我在题目里提到自动化、自主化、自我化的阶段,我们可以看到在这3个阶段里面有什么样的特点?
自动化,我们可以看到早期的,像90年代,或者到2015年,2010年之前,更多的是在产线里边,尤其是汽车产业,汽车产业是带动工业机器人发展刚需的领域,本身更多的是去完成一些自动化的编程,稍微比较重复性的一些任务和工作。所以说可以看到,只要是每一次产线它的工序发展变化,就得去重新编程,其实也是它一方面的局限性。
但是它对于生产力的促进还是不容置疑的,尤其是它的高效、准确、精确性,尤其是重复性劳动,对人来说还是有很大的优势。这里边可以看到它还是面向的场景、任务是相对比较固定的,对于更开放的任务它是不足的。所以说从自动化在这样的实际的发展过程中就往自主化去发展,自主化它已经开始结合本体的传感器信息,包括一些自主决策,就像刚才张老师介绍到的框架里面就是自主决策的框架,它就可以从单一的任务、单一的场景拓展到服务的领域,包括我们今天很多酒店用的送餐的酒店服务的机器人,就是一个很典型的代表。
在这个里边,实际上它的这些技术内涵在自主的决策能力上还是有一定的受限,尤其是本身在决策上面更多还是规则性的方式。在适应性上,尤其是更多的动态和长序列的任务能力上,还是有一定的不足性。
所以说在这个过程中,是不是它的智能边界需要进一步的提升?它的智能水平是不是需要进一步的发展?所以说自我化,这里面是提到的,就像我们人一样,是不是具备一定的自我意识,和环境有了更充分的交互以后,对于自身去完成相应的运动操作的能力。这个其实本身,我们知道具身智能里面一个很重要的点,我们之前很多是基于第三方的视角,对机器人去完成相应的动作规划、决策。但是具身智能里面有一个很大的点就是从第一视角,本身从具身本体的第一视角出发,这个是机器人自我化很重要的表现。
它这个里面应该包含什么样的特点?一是在自我认知上,是不是具备一定的跃迁能力?具身智能机器人它不仅是对于本身的想象虚拟的认知,对于本体具身物理世界的认知,在这里边是不是有这样的一个自我认知的发展?二是在这样的过程中,是不是具备这样的主动性和适应性的能力,这样才能够充分的面向开放的场景和更动态的任务里边。
这里边的关键技术,我大概分了一下,从三个方面去展开:
一是在自我建模和环境认知这一块,就像我们现在的模型,通过我们自主的建模给机器人?机器人在任务不断的训练、学习中完成自我的建模和认知,包括是不是可以实现自主进化以及更开放的协作和交互的能力。这里边我觉得有一个代表性的工作,就是今年发在Nature子刊 Machine Intelligence的工作,哥伦比亚大学做的。机器人通过照镜子这么一个自我探索的方式实现它的运动能力边界,以及在实现操作任务里面它从被动学习到主动学习认知的过程。
前一段时间8月中旬在冰丝带,北京办的世界人形机器人运动会。大家看到,很多的机器人展示都是遥操作的,但是天工这个还是属于完全自主完成了环境的感知,以及去爬楼梯这样的一个过程,算是一个自主的过程,但是我们可以看到它在任务里边没有完成很好的过程,所以说这里边对于环境建模以及认知的能力还是需要进一步的提升。
有了这样的一个感知的基础,我们还对于环境相关的进化,也是一个很重要的方面,在这个方向上,在学术圈也是一个很热门的方向。包括李飞飞团队做的具身本体的进化,这个进化还是在Simulation的场景里面做,还有Figure和特斯拉都是属于在运动行为上去实现进化的过程。
除了在一些本体上的进化以外,我们还需要是不是能跟人有更好的交互?这里面,像共情的交互,未来随着机器人进入更多的场景,和人的交互是必不可少的,尤其是情感类的交互,包括在这个过程中是不是能实现不同机器人之间的协作,就像人和人之间我们很熟,可能这个任务的效率能提高,可能我们合作不是很好,这个事的任务还不如我们单独去做完成的效率高,这里边也是在协作过程中交互的一些问题,这个也是一个很重要的方向。
所以说在机器人自动自主自我的演进过程中,包括感知的机制、控制的方式、知识更新的路径和智能边界,都是有这样的一个探讨的空间。
对于未来来说,无论是硬件的可靠性,包括标准的示范,尤其是对于算力以及认知架构怎么去探索,都是值得我们去探索的过程。包括在未来,真正是不是对社会有什么冲击?以及是不是能更充分的去吸收不同学科的技术来突破本体的具身智能的发展?以及在更多的应用场景里面去做一些深化的应用。去构建出一个更具备有价值的具身智能的数据集,包括在组织模式上,以及在伦理上都是值得我们去探讨的方向。
机器人未来自我化,是不是真的会到达?未来是不是真的会产生自我的意识?现代还不太敢说,但是从技术的发展上,我们可以去往更深远的方向去思考。
这个文章也是科协这边邀请我写的一个专栏的文章,也会在科技导报上去刊登,感兴趣的也可以去翻我这篇文章。
我之前在清华计算机系工作,去年从清华到北邮,也成立了DeepTouch实验室,也欢迎大家有更多的交流合作,有问题的也可以给我邮箱联系。谢谢大家!
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。