开云大家觉得让机器人学会走路难,还是让它学会打开一听可乐难?我猜大部分人都会说走路难吧,毕竟人类花了几百万年才学会直立行走,波士顿动力的机器人摔了无数次才学会后空翻。
但我最近在调查的时候,才发现一个完全颠覆我认知的事实:在机器人世界里,开可乐这件事比走路可难太多了!也就是说,控制灵巧手要比控制躯体难上至少十倍,而从目前的售价对比上我们也能感受到:中国Unitree G1人形机器人(会走路):1.6万美元;
波士顿动力Atlas机器人(会后空翻):预估14万美元;
英国Shadow Robot的灵巧手(会拧瓶盖):价格未公开,但业内估计超过10万美元
也就是说:一只手的价格接近一个完整的顶级机器人!这是什么概念?这好比一个方向盘的价格接近整辆特斯拉。所以机器人的灵巧手为什么难做?目前技术发展到什么阶段了?业内的技术派系有哪些、有什么值得关注的公司?
今天我们就来聊聊,这个让全世界顶级机器人工程师都头疼的终极难题——机器人灵巧手。以及我们与特斯拉前灵巧手负责人创业的团队TetherIA一起聊聊,一个300多美元的“Android版机器人灵巧手”如何试图颠覆这个被垄断了30年的高端市场。
01 机器人的“最后一公里”
为什么我们能看到机器人在工厂里分拣产品,在仓库里搬运货物,但却很少看到它们能像人一样灵活地拧开可乐瓶盖,或者精准地拿起一颗螺丝钉?答案就在于:手的复杂性远超我们的想象。
人类的手有27个自由度,包含27块骨头、29个关节、34块肌肉,以及数不清的神经末梢——这是一个经过了数百万年进化的“精密仪器”。更神奇的是,这个“仪器”让我们能够既有力量握紧工具,又有精度穿针引线。这样的能力造就了人类文明,但对机器人来说,要复刻这样的能力,就非常有挑战了。
Xu Dong
而这,就是机器人工程师们面临的终极挑战——机器人灵巧手,英文叫Dexterous Hand,在机器人学里,它专门指高度仿人、具有多自由度、能够完成精细操作的机器人手。它能够模拟人手的抓取、操作和感知功能。那什么样的机器人手才能称得上“灵巧”?
第一,它得有足够多的“关节”。我们人手有27个自由度,而机器人灵巧手通常需要6个以上,高端产品能达到20-27个。这就像是给机器人装上了真正能“动手指”的手。
第二,它得有“绣花”般的精细控制。我们说的是毫米级甚至更精细的操作——想象一下用机器人手穿针引线,或者像我们一会儿要看到的那样,精准抓取只有5毫米的M5螺丝钉。
第三,它得有“触觉”。不只是能看到,还要能“感受”。触觉传感器、力觉传感器、位置传感器等等,就像给机器人装上了神经系统,让它知道抓得是轻是重,是软是硬。
第四,它得会“察言观色”。遇到圆的就用一种抓法,遇到方的就换另一种。看到玻璃杯就轻拿轻放,看到铁块就可以用力一些。这就是自适应抓取的能力。
最后,它得长得像人手。人类世界的所有工具都是为人手设计的。如果机器人能够模仿人手的结构、功能和配置,它们就能快速且经济高效地应用,而无需改变我们的环境。
如果我们看看历史会发现,灵巧手从有这个概念,到现在逐步趋向成熟,已经走过了40多年的历程。
1980年代:开山之作
Stanford/JPL Hand开创了灵巧手的先河,3根“人形”手指,每根三个关节,配备触觉/力反馈。但它更像是证明“这事儿能做”的概念机。
1990-2000年代:百家争鸣到夹爪称王
Utah/MIT Hand、DLR Hand等各显神通,技术路线百花齐放,但都停留在实验室:能演示,但离实用还差十万八千里。
就在灵巧手还在实验室“纸上谈兵”时,简单粗暴的两指夹爪已经占领了工厂。虽然只能“抓”和“放”,但便宜、稳定、够用。这就像是功能机时代——虽然简陋,但解决了核心需求。
2000-2010年代:商业化破冰
Shadow Robot、Allegro Hand等陆续商业化,价格高达数万美元,主要服务科研机构。这个阶段就像早期个人电脑——功能有了,但普通人买不起。
2020年代:巨头入场
特斯拉入局改变游戏规则。马斯克不只要做灵巧手,还要规模化生产。同时,GPT等AI大模型的突破为机器人控制打开了新世界的大门。
2025年:转折点
特斯拉22个自由度的新手、TetherIA的300美元开源革命、各路开源项目涌现。灵巧手即将迎来“智能手机时刻”——从极客玩具变成人人可得的工具。
然而,灵巧手虽然迎来了巨大的突破,但还是有很多的难点。这个难点并不仅仅在技术上的突破,更重要的是要兼顾性能,成本还有可靠性,这就成了一个“不可能三角”。
02 灵巧手的“不可能三角”:性能、成本、可靠性
在现场调查中,我才知道一个可能会颠覆很多人认知的观点:灵巧手的控制比整机控制要难10倍!
在TetherIA位于硅谷的办公室,我见到了他们一路以来设计的各种迭代版本,以及他们刚发布上线的这款开源的灵巧手产品Aero Hand Open。
在我自己真正上手尝试去控制灵巧手之前,我都非常不理解,一个完整的人形机器人要平衡、要走路、要导航,怎么可能比一只手还简单呢?但当我自己尝试去控制这只手的时候,发现真是没那么容易。
Xu Dong
我在操作的过程中感觉到视觉与力量的协作,是非常关键的。由于我是完全感知不到触感和力度,我抓握的完全是空气,只能凭借我的眼睛观察灵巧手与物体的接触反馈来及时调整。这就很像软件驱动灵巧手的过程。
我们知道,人类的抓握过程依赖于神经系统、肌肉控制和多模态感知。
人类抓握力的调整分为两个闭环控制:第一是前馈控制(Feedforward Control),也就是大脑基于视觉和经验,在抓取前预测所需力量。例如,看见一瓶水时,大脑会预估重量,先设定一个初始抓力。
第二个阶段是反馈控制(Feedback Control),在手指接触物体后,实时通过触觉和滑动信息进行调整。如果物体开始滑动,神经系统将在100毫秒内反射性增加力量。这是一种快速的“感知和反应”的闭环。
如果灵巧手要完全复制人手的这个反馈闭环,需要的不只是传感器和控制算法的堆叠,而是一个更接近人类神经系统的分层控制架构。可以类比为“大脑控制”和“小脑控制”:大脑控制依赖视觉、经验和推理,用于规划动作和做出高层决策;而小脑控制则依靠触觉、力反馈和实时的平衡调整,负责细节上的动态微调与协调。
把多模态传感(力/力矩、触觉、视觉)与感知—判断—调整的闭环控制结合,再通过深度强化学习不断优化整个系统的策略,真的是非常有挑战的研发过程。
所以在2023年年底,BC特斯拉的第二代人形机器人Tesla Optimus Gen 2发布捏鸡蛋的demo那么受到关注,正是因为它基于视觉的“大脑”和基于力控的“小脑”在协作进步。
虽然实现这一切很难,但要真正实现机器人在多场景下的应用,还真是得依靠灵巧手不可。这个逻辑很简单:人类世界是为人类设计的。所有的工具、设备、环境都是按照人的尺寸和能力来设计的。要让机器人真正融入人类世界,最有效的方法就是让它们具备类似人类的能力。
所以,要想让灵巧手真的走向产业化、还有一个难题要解决,那就是灵巧手的”不可能三角”。如果把机器人灵巧手比作一个三角形,那么它的三个顶点分别是:性能、成本、可靠性,而这个三角形有个残酷的特点:你只能优化其中两个角,第三个必然会受到牺牲。
而如果想要高性能,英国Shadow Robot公司的灵巧手就是完美的例子。它拥有超过120个传感器,可实现触觉感知,拥有20个电动关节和24个自由度,其尺寸、形状和运动范围与人手相当,非常适合执行专为人手设计和优化的任务。但是,它的价格超过10万美元!
想要低成本?市面上有很多开源项目,比如DexHand和Amazing Hand,可以3D打印,成本能控制在300美元。但性能嘛...只能说是“摆造型”,抓取功能基本是没法使用的,甚至一些入门级的商业产品在这方面也不足。
想要高可靠性?那就得简化设计,减少故障点。越复杂的系统,维护成本越高,故障率也越高。但这样一来,性能又会大打折扣。
这就像是在玩一个永远无法获胜的游戏,除非你能够找到突破这个三角形的新方法,而在产业中,大家一直在寻找这样的方法来突破不可能三角,这也衍生出了灵巧手江湖中的6大门派。
03 技术流派大揭秘:6大门派的江湖恩怨
为了解决灵巧手的“不可能三角”,在机器人灵巧手的江湖里,主要有六大门派,各自有着不同的武功路数:
Chapter 3.1 直驱派:简单粗暴的“搭积木选手”
这一派的哲学很简单:需要动哪里,就在哪里放个电机。就像韩国Wonik Robotics的Allegro Hand,16个自由度,16个电机,电机“一对一”服务;还有最新出的国产产品SharpaWave,Wuji Hand以及XHand,都是这个路线。
这种设计的优点在于方便精细控制。缺点在于,电机驱动器体积小、抗冲击差、不可反驱、指末端力输出小,而且维护和维修都不太方便。
Xu Dong
Chapter 3.2 绳驱派:最接近人体的“仿生学大师”
这一派的代表是特斯拉的Optimus和Shadow Robot。特斯拉大家都熟悉了,而Shadow Robot这家英国公司就像是灵巧手界的“劳斯莱斯”。近30年的技术积累让他们在高端市场占据统治地位,但高昂的价格也限制了他们的市场扩张。
他们的设计思路最接近人体:把“肌肉”(电机)放在前臂,通过“肌腱”(钢丝绳或高强度合成纤维)来控制手指运动。
这就像是控制木偶一样——所有的线都连到一个中央控制台,通过拉动不同的线来实现复杂的动作。这种设计的优点是轻量化、力量输出稳定、具备一定自适应能力,而且布局和人体更接近。特斯拉最新的Optimus手宣称它拥有22个自由度,已经非常接近人手的27个自由度了。我们实地探访的TetherIA他们现在推出的这款高性价比灵巧手也是采用的绳驱方案。
但是,绳驱动也有自己的麻烦。
Chapter 3.3 液压派:追求极致力量的“暴力美学”
加拿大Sanctuary AI公司就走的液压驱动派系。他们的Phoenix机器人配备了21个自由度的液压手,能够产生强大的力量输出。
液压系统的优势是力量大、响应快、功率密度高,能完成高负载任务,但传统上液压系统都很庞大。Sanctuary AI的突破在于将液压组件小型化到硬币大小,并且经过了20亿次循环测试而无泄漏。
这就像是把挖掘机的液压系统缩小到了手表的尺寸,技术难度可想而知。不过,液压系统依然面临成本、维护、噪音和能效方面的挑战,因此目前主要用于特定工业和研发场景。
Chapter 3.4 连杆派:发挥机械美学的“优雅派”
这一派的代表作是源自韩国研究团队提出的ILDA灵巧手,通过精巧的连杆设计实现高自由度动作。它的哲学是:将驱动器全部集成在手掌内部,用连杆、摇臂、滑块等机构把多个直线动作“分配”到多个关节,让手指多个关节弯曲,摆出类似人类手指的各种姿态。
这种方案的优点是结构紧凑、自由度高、外形优雅,充分展现了机械设计的美感;但它的缺点也很突出——抗冲击性较差,在复杂或高负载场景下可靠性不足,导致整体实用性偏低。
Chapter 3.5 混合派:工程师的“中庸之道
还有一些设计尝试将直驱、绳驱、连杆机构等组合起来,折中成本、重量和性能。例如一些开源或学术手就采用连杆+部分驱动的方案,用较少的执行器实现更多自由度,在科研和教学中很受欢迎。
混合方案之前一直停留在学术研究领域,而TetherIA正在通过混合派路线,开发他们旗下的另外一款高自由度灵巧手方案。他们通过剖析人手的具体功能和结构(结合绳驱及拉杆方案),将上面提过的绳驱、拉杆等方案有机结合在一起,通过强大的工程化实现能力,开发出了一款既高效又可靠的高自由度灵巧手方案。
Chapter 3.6 值得一提的“开源派”
他们是乱拳打死老师傅——不拼技术精度,不比硬件豪华,而是用开源的方式打破行业壁垒。虽然单个产品可能不如Shadow Robot那样精密,但它们的威力在于“群狼战术”:把灵巧手的价格门槛做到最低,让全世界的工程师都能玩得起灵巧手,从而反过来推动技术的进步。
从DexHand到ORCA Hand,越来越多的开源项目正在降低技术门槛。这就像是Android系统对手机行业的影响一样,可能会彻底改变游戏规则。
而TetherIA在研发一款高自由度、非常接近人手性能的灵巧手的同时,发现系统其实可以极致简化,于是也做出了一款低自由度、但据说也是市面上性能最好之一的灵巧手。这款灵巧手已经在前阵子发布,并全部开源,售价仅仅为300美元。
团队对我们说,他们这款灵巧手是极度任务导向的。虽然自由度较低,但能完成很多接近人手的任务。那我们就来看看,这双手已经能完成哪些复杂的任务。
04 四个Deomo背后的技术密码
接下来通过四个TetherIA的最新产品展示demo,我们来看看每个看似简单的动作背后隐藏着什么样的技术挑战。
Chapter 4.1 抓取螺丝钉
M5螺丝钉直径只有5毫米,这个demo看起来简单,实际上是对精细控制能力的终极考验。
Xu Dong
Chapter 4.2 抓取大物件
抓大盒子的挑战完全不同。这时候,机器人手只有指尖的一小部分在接触物体,就像是用指甲尖去抓握一个篮球。
Xu Dong
Chapter 4.3 开可乐
开可乐是最让人印象深刻的dem,因为它真正展现了机器人手的“人性化”特征。
Xu Dong
Chapter 4.4 拿iPhone——桌面操作的“终极考验”
这个看似最简单的动作,实际上是技术含量最高的。iPhone紧贴桌面,手指必须伸入只有几毫米的缝隙中,还不能与桌面发生硬碰撞。
Xu Dong
05 AI大模型时代的灵巧手
目前,我们正处在一个特殊的历史时刻:AI大模型的突破为机器人技术带来了前所未有的可能性。
比如前面说的Vision-Language-Action(VLA)模型,就给机器人的“大脑升级”。传统的机器人需要为每个任务编写专门的程序,而VLA模型让机器人能够理解自然语言指令,并将其转化为具体的动作。这就像是给机器人装上了“翻译机”——它能够将“帮我倒杯水”这样的自然语言翻译成具体的动作序列。
Xu Dong
这就像是在游戏中练习开车和在现实中开车的区别——基本技能可以学会,但真正的路感还是需要实际体验。
不仅如此,甚至在硬件上,AI也在发力。机器人昂贵的一个原因,是它的供应链比较缺乏。很多这种驱动器都是专门为了机器人定制的,目前来说产量也比较低,所以整个行业的成本还没有办法做得非常便宜。并且,传统机器人的设计是通过不断提高产品的精度,来实现很多高级、炫酷的功能。但是现在有了AI的加持,对机器人硬件的精度要求就不会再继续那么高,所以整体的价格我们相信会越来越低。
而TetherIA推出的这款绳驱方案的开源灵巧手,就是想让硬件以便宜的价格被更多机器人和科技爱好者所采用,在此之上去更好的用AI开发软件来加速灵巧手和机器人的技术进步。
这就像是Google的Android策略——虽然苹果的iOS可能在单个产品上更优秀,但Android通过开放生态获得了更大的市场份额。而且通过开源硬件,全世界的研究者都成为数据贡献者。
06 机器人走进家庭的前夜:从拥有一双真正灵巧的手开始
回顾机器人灵巧手的发展史,其实就是人类技术进步的一个缩影。我们从模仿自然开始,逐步理解其中的原理,然后用工程的方式去实现,最终可能会超越自然的原型。
我们在调查中发现,TetherIA的故事特别有意思,因为它代表了一种新的发展模式:通过开源降低门槛,通过众包加速创新,通过生态建设推动产业发展。这就像是Linux对操作系统行业的影响,或者Android对移动行业的影响一样。
当然,从300多美元的开源版本到真正实用的家庭机器人,这中间还有很长的路要走。技术上的挑战、成本上的压力、应用场景的探索,每一个环节都充满了不确定性。
但是,正如受访者在最后说的那样:我们相信五年之后,我们会看到机器人在很多地方部署,它不会是一个停留在视频里或者概念里的东西,就像我们现在每天接触ChatGPT一样,它会真正在我们生活当中产生巨大的价值。
也许再过数年,我们回头看2025年,会发现这是机器人真正走向普及的起点。到那时,每个家庭都可能有一个机器人助手,能够帮我们做饭、打扫、照顾老人、陪伴孩子。而这一切的起点,就是让机器人拥有一双真正灵巧的手。
以上就是我们机器人系列的第一期的内容,之后我们还会走访硅谷明星初创公司和一线研发机器人的团队,从大脑、AI算法、数据、脑机接口等多个维度来深度聊聊机器人如今的研发现状。关于机器人,大家还有什么想问的、想聊的,欢迎在评论区一起告诉我们吧。