具身智能:怎么就是人工智能下一个浪潮?
长久以来,人工智能一直被称为"人工智障"。因为人类一目了然的事,它得算半天,而且未必能搞定。
直到2024年3月13号,一段人形机器人的视频在网络上热传。在视频当中,工作人员向机器人询问,我能吃点东西吗?机器人迟疑了几秒,然后熟练地将苹果递给了工作人员。
工作人员又问,你为什么这么做?机器人则解释,因为苹果是这里唯一的食物,并且开始整理桌子上的垃圾。
这是Figure AI的人形机器人,既听得懂人说话,知道人类到底在说啥,又能干人事,理解人类的自然语言指令,进行抓取和放置。
他这么聪明的背后是 OpenAI 为其配置的大型语言模型。 OpenAI 的大模型作为大脑提供视觉推理和语言理解。
Figure 01神经网络作为小脑,根据 OpenAI 的大模型判断,做出一系列的动作生成式人工智能与机器人相融合,具身智能离现实又近了一步。
一、具身智能定义
我们先来了解具身智能这个概念,具身智能是人工智能发展的一个领域,指的是一种智能系统或机器,能够通过感知和交互与环境进行实时互动。
存在于物理空间的智能体就是具身智能。地球上所有的生物,你、我、大猩猩、鲨鱼都是智能体。其实,从广义上来说也可以说是一种具身智能。
二、具身智能发展简史
具身智能并不是一个最近才被造出来的新词,早在 1950 年,图灵在他的论文当中就提出了具身智能的概念。
他展望了人工智能可能发展的两条道路,一条路径是专注于抽象计算所需的智能,另一条路径则是为机器配备最佳的传感器,使其可以与人交流,并且像婴儿一样地进行学习。
这两条道路逐渐演变成了我们如今所知的离身智能和具身智能。
1991 年,现代机器人之父--罗德尼·布鲁克斯提出一个称为行为主义智能的概念,认为智能行为可以直接从自主机器人与其环境的简单物理交互中产生,而这种交互不依赖于预先设定的复杂算法。
意思是机器可以像昆虫一样先响应外部的刺激,再处理抽象的内部事件。
到了 2023 年,也是生成式 AI 的爆发之年,也被称之为机器人觉醒之年。
2023 年5月,英伟达创始人兼首席执行官黄仁勋认为:人工智能下一个浪潮将是具身智能,他也公布了Nvidia VIMA,这是一个多模态具身人工智能系统,能够在视觉文本提示的指导下执行复杂的任务。
三、具身智能底层技术
那么具身智能和我们已经见到的AlphaGo ChatGPT等AI有什么不同呢?
正如图灵所说,离身智能和具身智能是两套学习方法,离身智能是旁观型标签学习方法,它从互联网收集到的图像、视频或者文本数据集中学习。

过去 50 年离身智能飞速发展,不需要物理交互,不考虑具体形态,专注抽象算法的研发。
在算力和数据的支持下,它在各个领域都大展拳脚,比如智能交通或者下棋、围棋。
但是,它的学习是被动的,人类喂它啥它就学习啥,无法执行物理任务,你想让他帮你倒杯水都做不到。
具身智能则是通过与环境的互动,从而从视觉、语言和推理到一个人工具象。有点像小朋友在长大的过程当中逐渐认识这个世界。
它具有支持感觉和运动的物理身体,可以进行主动时感知,也可以执行物理任务。走的是一个“感知-->行动回路”,既感受世界,对世界进行建模,从而采取行动进行验证并调整模型的过程。
具身智能根据场景可以有多种形态,有人形的,可以和人一样出去开车散步,采集更多的数据;

也有无人车、六足机器人等形态的,不同的形态能力边界会影响智能体的能力发挥。

四、具身智能实现方法
具身智能的实现方法主要可以分为两大类:基于大模型的具身智能和基于数学架构的具身智能。

基于大模型的聚深智能经历了三个阶段:
第一阶段以大语言模型 LLM 为主,根据自然语言指令控制机器人,大幅度提高服务场景的智能化水平,但 LLM 无法参与机器人的规划控制,运动控制方面有点弱。
第二阶段以图像-语言多模态模型 VLM 为主,直接参与机器人的决策规划系统,机器人应对从未见过的场景,并且具备逻辑推理能力,逐渐开始有点通人性了。
第三阶段,以图像-语言-动作多模态模型 VLA 为主,把动作作为模态融合进入大模型,机器人动作将成为思维链的一环,让机器人有了高度泛化的能力和思维链推理能力,因此决策与控制的衔接更加流畅,更具有逻辑性,越来越通人性了。
而基于数学架构的具身智能是让机器人理解空间,实现实物对象到信息端精细语义的映射。
有专家认为,世界上的一切都是数学世界的构成,是一个数学架构叠加另一个数学架构,比如血红蛋白在体内的循环,就像一个循环嵌套模型,只要你把世界拆解得足够细,底层逻辑都是一套数学架构,那么具身智能就是不断地学习其中嵌套的数学模型,实现智能增长。
总结一下:基于大模型的具身智能,讲的是大数据、高算力、多模态,突出一个大、优、广。
基于数学架构的具身智能讲的是世界运行的底层数学法则,突出的则是一个细而深。
现在机器人从外观上越来越像人了,思考上也越来越像人脑。其实最终的目的都是让机器理解这个物理世界,它越接近这个物理世界的实际情况,结构越完整,在执行任务或者是做决策的时候就更加有效。
长久以来,我们用自己的身体来认识、感受这个世界,但我们的认知是有边界的,身体的技能束缚我们进一步地探索。
如今具身智能,从人的角度更深的层次帮助我们理解这个世界的规律。
所以发展AI不是为了淘汰人类,而是为了解放人类,让人类更好地享受生活。
那么那些人形的具身智能机器人会有一天和人类感同身受吗?
你觉得他们理不理解生命?尊不尊重生命?
有没有生命的概念?或者他们有了思考和自主意识之后,会重新定义什么是人呢?
欢迎把你们的答案留在评论区,喜欢这篇文章的朋友欢迎点赞、收藏、关注,评论区评论:机器人,然后找我领取机器人行研报告合集。