人形机器人能走了,这一点在2024年变得无比明确。近日一场行业展览上,第一财经记者抓住宇树科技一款人形机器人后背的把手阻止它继续前进,一松手,机器人猛地往前一个趔趄,但马上恢复了平衡。
自年初一些人形机器人公司展示了机器人翻跟斗、做俯卧撑,运动能力成为各大厂商的比拼焦点。3月,逐际动力的双足机器人在深圳塘朗山复杂地形中进行了徒步测试;5月,宇树科技人形机器人在视频中演示了被踹、被拳击,该公司四轮足机器狗近日又演示了侧空翻和载人行走,引起市场关注;波士顿动力的人形机器人近日也装扮成圣诞老人,来了一次空翻。
与下半身运动能力飞速进步不同,人形机器人上半身还显得有些尴尬。一些未经加速的人形机器人灵巧操作视频中,机器人的手缓慢笨拙,这一定程度上源于算力芯片无法支持机器人的大脑快速运转。年内掀起的机器人进厂打工潮中,人形机器人也只能做分拣硬件部件、贴车标、安装钢板这种粗活,且动作明显慢于人类。
业内人士告诉记者,如果将人形机器人粗略拆解,下半身成熟度明显更高。如果将上半身继续拆解,扮演大脑角色的算力芯片和负责灵巧操作的灵巧手是两大关键器官。这两大器官远未成熟,技术方案也还没收敛,但演进越来越快了。
“人形机器人给多少算力都不够”
有芯片行业人士告诉记者,在手机上,算力芯片占整机成本的比例可能将近一半。在人形机器人身上,算力芯片的占比没有这么高,但作为大脑的角色,算力芯片仍具有核心作用。多名人形机器人业内人士告诉记者,目前严肃场景下人形机器人主要用到英伟达Orin芯片算力,该系列芯片算力在200TOPS~275TOPS之间。这个算力对人形机器人而言不太够用。
智元机器人研究院执行院长姚卯青告诉记者,高阶具身智能的最终算力可能需要500TOPS以上才能跑几十亿参数的大模型。明年英伟达可能会推出下一代Thor芯片,算力或达2000TOPS以上。现在人形机器人在制造业中工作的节拍还很慢,达不到人类的水平。当算力上千TOPS时,大模型参数量将不再局限在2B、3B(B即10亿),机器人将有更高的执行效率。
从地平线分拆出来的芯片及解决方案厂商地瓜机器人开发者生态负责人胡春旭告诉记者,对通用机器人而言,算力是最基本的。50TOPS算力对扫地机器人、割草机器人或许够了,但当下人形机器人属于给多少算力都不够的情况,因为人形机器人领域还不收敛,在一些问题未解决时业内会把所有能用的功能塞进机器。目前人形机器人能用到的芯片近300TOPS,公司目前最高算力的芯片则在100TOPS左右。长远看,还没人能断言芯片算力要多少,可能是500TOPS,可能是1000TOPS,也可能会收敛到300TOPS。
要做好人形机器人的大脑,除了要解决硬件算力限制,更关键的问题是芯片的易用性,也就是芯片能部署并运行合适的算法。芯片厂商不仅要做硬件,还要做算法、搭平台,而要做好算法,则需要获取高质量数据来训练,这对芯片厂商而言已是挑战。
以专用的扫地机器人为例,获得高质量数据来训练算法就已经不简单。据胡春旭介绍,车的数据大部分是公路数据,相对结构化,且路上有上千万台可以持续采集数据,家庭场景的复杂度高得多,扫地机器人需要应对的状况可能是随处丢的袜子、一个插线板、跑来跑去的小朋友,很多扫地机器人还难以连接云端上传数据,导致数据缺失。人形机器人被人们寄予了通用的期望,需要能完成很多专用机器人的工作,相比之下算法复杂度更高,数据缺失问题也很严重。
“(人形机器人)行业最大痛点是数据没有沉淀,如果造一堆真机去产生数据,成本很高,大家都受不了,如果做一个虚拟环境来产生数据,跟真实数据还是有差距。” 胡春旭说。为此,地瓜机器人同时做硬件和算法、软件、工具链、平台等,投入最多的不是硬件,而是后面这部分,对于数据缺失的痛点则关注降低平台成本,使真实数据更易获取,同时做数据虚拟化产生工作并让数据能传到云端,做数据再训练。
“做灵巧手相当于再造一个机器人”
机器人的脑子还不成熟,手也不怎么灵活。人们能在演示视频或各大展会上看到,人形机器人用手削黄瓜、倒咖啡、炒菜、抚摸猫咪。但这些精巧操作的另一面是,人形机器人厂商需要提前准备、精心设计,通过模仿学习等方式教会人形机器人执行这些任务。在年内一场媒体沟通会上,厂商方面的负责人问在场的媒体,要让人形机器人做什么动作,才能让观众印象深刻。或许正是因为人形机器人的双手仍无法天然胜任很多人类工作,精心设计动作、向人们展示机器人进入家庭和千行百业的前景才如此重要。
相比下半身,手部灵巧操作确是人形机器人诸多难点所在。姚卯青告诉记者,下半身目标是稳定站立和稳定行动,整体难度较小,上肢操作自由度则非常多,需要执行抓取、放置、推拉等动作,操作精确度要求高。下半身运动的技术不一定都要通过AI实现,上半身目前则是机器人学术聚焦的高地。
较高的设计难度和较高成本既来自于灵巧手厂商对高自由度的追求,也来自由度提高后的算法难题。此外,灵巧手硬件设计方案五花八门,使得硬件成本短时间内难以大幅下降,算法也难在合力之下飞速提升。
对高自由度的追求一定程度上源于特斯拉的带动。人手通常被认为有27个自由度,多数集中在手掌及手指。11月底,特斯拉展示的Optimus人形机器人能用手接住网球并放下,动作灵活,其采用的灵巧手自由度达到22个,比前一代增加了11个。这个视频引起业内关注。姚卯青告诉记者,特斯拉展示了高自由度灵巧手后,业内基本形成了要做高自由度的共识。
据记者了解,星动纪元的五指灵巧手有12个主动自由度,智元已商用发布的是6个主动自由度和5个被动自由度的灵巧手,智元还有一款更高自由度的手在研发阶段。而就研发难度,一名灵巧手技术人员向记者形容,人形机器人不算上灵巧手,全身自由度可能在27个左右,再做一个灵巧手相当于再造了一个机器人。
要提高自由度,厂商需要应对更多算法上的困难。姚卯青解释,自由度低的抓夹算法可以通过编程或模仿学习完成,高自由度灵巧手要进行模仿学习则非常困难,因为动作很难被完整规划。就像人类转笔不是一个先想清楚方法再按计划执行的过程,而是转出感觉、形成策略,这是典型的强化学习,灵巧手也要经过大规模针对单一任务的强化学习。经过这种强化学习的灵巧手可以执行任务,例如通过不断尝试学会在工厂里插插头。
但要提升算法表现,又遇到了数据缺乏的难点。姚卯青告诉记者,手部还没有如同计算机视觉领域ImageNet一般的公认开源大规模数据集,对此,近期智元要开源一个全球最大规模的高质量真机数据集,带有触觉数据。业内也需解决灵巧手算法的通用性问题,记者从星动纪元了解到,针对通用灵巧操作,该公司近日则推出纪元原生机器人大模型,让机器人能从执行特定任务演进到能完成复杂度较高的多任务。
从硬件上看,灵巧手硬件设计方案则处于未收敛的阶段,各厂商的灵巧手硬件方案五花八门,业内研发力量还无法集中到一处。姚卯青告诉记者,高自由度带来的难点包括要解决小型化问题,在一个手掌里集成几十个电机非常困难,硬件也不太成熟,能用多久、一致性多高、可靠性和耐久性多强未经实战验证。
灵巧手硬件方案包括绳驱、连杆、电机直驱等。特斯拉采用绳驱方案,好处是电机位于手臂而不用都放在手掌、手指,通过绳子驱动关节。据姚卯青解释,绳驱方案较为主流,业内更多往特斯拉的绳驱方案靠拢。不过,另有业内人士表示,各种方案尚未分出伯仲,绳驱的劣势在于绳子可能变形,导致动作不是特别精确。电机直驱方案则是将空心杯马达和减速箱放在关节处,较为灵活,但劣势在于手上空间难以容纳这么多部件。
“各家方案非常不一样,没有收敛,未来方案会如何还需要进一步探索。”星动纪元联合创始人席悦告诉记者。姚卯青则展望,未来方案如果收敛且上量,好处是成本有望做到更低,当业内基于同一套硬件开发时,算法也更容易聚焦。
记者了解到,灵巧手要用到的一些关键部件也有待成熟,其中一种是触觉传感器,其重要性在于,传感器缺失的情况下机器人没有感知能力,可能会捏坏矿泉水瓶或者撞伤自己。虽然触觉传感器如此重要,但有业内人士向记者形容,触觉传感器未完全铺开应用,一些不带触觉传感器的灵巧手还在“裸奔”。
记者了解到,目前国内已经有一些触觉传感器的厂商入局,各自提出了不同的方案,但该领域也还在发展初期。以上灵巧手技术人员告诉记者,触觉传感器的准确度、灵敏度和稳定性还需要再提升,目前触觉传感器行业的情况是有电容、电磁、电阻式、视触觉等多种技术方案,各方案都不是很成熟,各供应商也各有优缺点,还没有哪种方案公认是最好的。
开始降价了
不论是业内还是外界,都在翘首期盼人形机器人降价。特斯拉CEO马斯克的判断是,未来人形机器人可以降到2万~3万美元一台,每个人都可以拥有自己的人形机器人。姚卯青也判断,很快整个人形机器人的成本能做到20万元以内。
从算力芯片的成本看,席悦告诉记者,算力芯片在人形机器人身上的成本占比大概是几十分之一。胡春旭告诉记者,在不同类型的机器人中,芯片成本占比差别不大,大约在7%~10%之间,一台人形机器人均价50万的情况下,芯片这一层的成本不超过1万元。不过,未来在人形机器人电机等部件成本下行的情况下,芯片部分成本占比预计有所增加。
业内开始展望算力芯片降价。“目前还看不到出货量增加多少、成本减少多少的线性关系,基于芯片设计和制造的特点,成本降低将是阶梯式的,当未来达到一定量时,成本会立即降低很多。”胡春旭判断。
灵巧手现在则偏贵,一个原因是灵巧手上用的触觉传感器价格偏贵。席悦表示,星动纪元的灵巧手带有触觉传感器,手占人形机器人全身成本大概1/5到1/4。据灵巧手厂商强脑科技销售人员介绍,公司在售的手有4万元和5.5万元的产品, 5.5万元的灵巧手主要的区别包括用了5个触觉传感器。
“现在触觉传感器还很贵,甚至可能比整只不带触觉传感器的灵巧手更贵,可能是还没上量的原因。一只手用到的触觉传感器可能要大几千元,一只手上的触觉传感器只有在占手的成本10%左右的时候才可能大规模应用。” 姚卯青告诉记者。
触觉传感器降价已经开始。帕西尼感知联合创始人聂相如告诉记者,10年前,一片传感器价格曾是1.1万美元,包括一些工业用的六维力传感器当时大概能卖到一片10万元左右。几年前该公司做的触觉传感器一片大几千元,去年年初价格降到3000~4000元,现在正式批量开售,价格则是大几百元,原因既包括量产后得以平摊成本,也有包括技术改进的因素。数量增加后,公司更好与上游谈价格,该公司也通过自己做芯片降低了部分成本。
灵巧手中的其他部件也在望向降价。就采用电机直驱方案的灵巧手方案,有厂家告诉记者,在不加很多触觉传感器的情况下,空心杯马达加减速箱的组合是灵巧手成本中最大的一块,或高达80%。目前一个空心杯马达加减速器的组合产品可卖到1000多元,性能较一般的也有几百元的产品,一个能主动运动的手关节就可用到一个这种组合产品。
记者了解到,在灵巧手还没有起量的时候,有些空心杯马达和减速箱厂商还是向人形机器人厂商单次销售几个组合产品,销售量不大。但有厂家告诉记者,在以10万个为单位批量销售的情况下,工厂可以优化生产排布、一次性投入设备,一个原本1000多元的产品价格就能降到几百元。
姚卯青预计,明年手的成本会快速降低,智元今年量产后,灵巧手成本可以比较有竞争力。未来,一只灵巧手的成本应该降到5000元以内。