具身智能的“数据饥渴”,有解了?

2026年03月23日 润升爱车 阅读(4880)

和自动驾驶发展初期一样,具身智能也迎来了“数据荒”时刻。

据相关分析数据显示,具身机器人训练大约需要数千亿级的交互数据,然而全行业现存数据却仅几百万条,存在10万倍的缺口。

如此巨大的数据鸿沟,仅靠单一企业或机构独立采集与积累,显然不现实。

正是洞察这一点,具身智能行业正一改过去单打独斗的做法,积极探索产业协同。从创业公司到产业巨头,再到地方政府,各方力量纷纷加入数据共建行列,试图从源头打破数据“孤岛”,为具身智能产业演进提供更充足的“养料”。

破解“数据荒”,不能再单打独斗

近日,由工信部指导、开放原子开源基金会发起,乐聚机器人牵头,联合蚂蚁灵波、上海交大、宇树等核心单位共建的“具身智能开源数据集社区”正式启动。

具身智能的“数据饥渴”,有解了?

图片来源:乐聚机器人

这则消息如果放在两年前,可能只是具身智能行业的一条“简讯”。但在2026年的今天,有了完全不同的分量。

作为国家级平台发起的首个具身智能开源数据集社区,该项目的目标写得很直白:打破具身智能产业“数据孤岛、采集成本高、标注效率低、模型泛化弱”四重枷锁。

翻译成大白话就是——具身“数据荒”这事,靠单打独斗搞不定了。

由于具身智能产业的发展高度依赖数据飞轮驱动,过去几年赛道企业几乎都自建了数采体系,并视数据为核心竞争力。然而迈入2026年,庞大的数据缺口像一面镜子,逐渐让所有人看清了一个现实:没有任何一家企业能独自填满这个窟窿。

于是,行业心态开始发生微妙变化,不仅国家级平台开始牵头“攒局”,甚至乐聚、宇树、智元这些曾经的竞争对手,也纷纷把数据拿出来共享,一边共建行业联盟,一边开源自家数据集。

具身智能的“数据饥渴”,有解了?

图片来源: 它石智航

比如智元AgiBot World、乐聚LET、银河通用 DexonomySim、它石智航WIYH、枢途科技HORA、简智10Kh RealOmni、灵巧智能DexCanvas等数据集,目前都已宣布开源,覆盖多模态训练、人形机器人灵巧操作、全身运动等多个领域。

其中它石智航还发起了“具身数据星火计划”,目标推动实现1亿小时级别的数据共享。地平线、地瓜机器人与无问智科,也于近期联合发起了10000 + 小时具身智能开源数据集计划。

为什么大家突然对数据集开源这么热衷了?

“对企业而言,开源这件事其实没什么风险。可能在这个过程中,有些企业更多是借此换取影响力,但数据开源后其实大家也可以相互交流、共同创新,由此产生的价值可能会更大。”相关业内人士表示。

换言之,单家企业能触及的场景、能采集的数据终究有限。开源之后,可以有更多的开发者帮忙看bug、提优化——这哪里是“共享”,分明是“众包”研发。

如果说企业层面的开源,是市场力量的横向协同,那么地方政府的介入,就是纵向的基础设施投入。

据盖世汽车研究院不完全统计,2025年仅地方购入的数采机器人订单金额就超过了10亿元。

其后,据权威研究机构Interact Analysis调研数据显示,截至2025年年底,中国已经有50个以上国家或省市区级人形机器人数采中心处于使用或规划建设中,分布在大约19个省份,其中50%以上的数采中心已经在2025年投入使用。

从规模来看,上海张江机器人谷和北京石景山具身智能综合实训场等,目前均已部署近百台数采机器人。

这些数字背后是一个清晰的判断:数据采集正在从“企业行为”变成“政府工程”。

具身智能的“数据饥渴”,有解了?

图片来源:京东

但真正把这场集体行动推向高潮的,是京东。

日前,京东宣布将于一年内积累500万小时人类真实场景视频数据,两年内突破1000万小时,同步实现采集机器人本体数据100万小时——这个量级,无疑让很多公司望尘莫及。

目前,京东已建成行业领先的机器人数据采集中心,构建“采集—标注—训练—验证”全流程数据流水线。

更让人惊叹的是该项目的采集规模:京东将发动数十万人参与数据采集——包括内部超过10万名各类职业员工,以及外部最多50万名各行业人员,其中仅在宿迁就将发动超10万名市民参与。从家庭、办公室到物流、商店、医疗,覆盖超百个细分场景。

如果京东这一计划顺利落地,有望成为“人类历史上规模最大的数据采集行动”。

但热闹归热闹,一个疑问随之而来:既然数据对于具身智能的重要性行业早已深知,为何直到现在才被推向如此高度?

在盖世汽车研究院分析师看来,这是因为当前具身机器人的运动控制已经趋于成熟,缺乏真实数据成了训练通用“大脑”的最大瓶颈。

过去两年,具身智能领域的焦点,主要集中在机器人本体研发和运动能力的突破上,例如:如何让机器人更稳定地行走甚至奔跑,以及更灵活地抓取物体等。目前,这些问题正逐步得到解决,机器人的身体越来越灵活,反而机器人的大脑开始不”够用”了。

而要训练出真正通用的机器人“大脑”,海量高品质的数据恰恰是最核心的“养料”。

不过,在京东数采规划刷爆网络的同时,也不乏质疑声。

“利用真实业务场景和‘人海战术’获取海量数据,理论上可行,且直击行业数据荒的痛点。但成败关键更在于能否采集到包含力觉、触觉的高质量动作数据,否则可能沦为低效的视频数据堆砌。”盖世汽车研究院前述分析师就认为。

这句话无疑戳中了具身数采的核心:规模不等于质量,视频不等于有效数据。

数十万人戴着采集设备逛超市、送快递,产出的海量视觉数据,固然能让机器人学会“什么是门”“什么是苹果”,但能让它们学会“用多大力度捏住鸡蛋而不碎”吗?

答案目前还不得而知。

即便有数据,怎么用更关键

对于具身智能而言,当前产业链层面的由分到合,解决的是数据从哪里来的问题。

而在水面之下,另一场更深层的融合也在同步发生:不同数据技术路线之间的使用界线,正在变得模糊。

日前,在英伟达GTC 2026上,Physical Intelligence(PI)联合创始人Chelsea Finn就直言,很多人原本以为,如果让机器人形态最接近人类,就能最好地从人类视频迁移。但实际上,当机器人数据本身足够多样时,模型反而更容易把“人类数据”和“机器人数据”之间的点连起来。

“所以我们不仅利用机器人的真实数据,也利用其他数据源,尤其是网络视频、人类视频等,目标训练出一个真正有泛化能力的模型:能跨具身形态、跨环境、跨任务工作。”Chelsea Finn 表示。

这话听着绕口,但翻译过来就一句:别只押注单一数据源。

盖世汽车研究院分析师亦认为,虽然说UMI便携采集是对数据质量和规模的有效平衡,但这并不意味着遥操作采集、仿真合成等技术路线会被取代。“更现实的情况是,具身智能数据体系应该是一个分层采用、分阶段取舍的系统”。

具身智能的“数据饥渴”,有解了?

图片来源:千寻智能

比如千寻智能,就坚定以“多样性”为核心推进Scaling路线。目前,该公司已累计获取超20万小时多类型真实交互数据,覆盖互联网视频、遥操作、可穿戴采集等维度,预计2026年总量将进一步突破100万小时。

穹彻智能研究科学家吕峻也指出,由于遥操作采集在数据质量、模型训练等方面的优势,在UMI之外,穹彻智能直到今天也仍在持续这种模式。

那么问题来了,虽然说数采路线多元融合已经是行业共识,具体该怎么融合呢?

一个被反复提及的答案是:分层使用,各取所长。更具体一点,也即是:预训练打底,真机点睛,用低成本数据覆盖广度,用高精度数据确保深度。

对于通过遥操作采集、UMI、仿真合成、人类视频学习四种方式获取的数据,Agility CTO Pras Velagapudi在GTC上画了一座“金字塔”,其中位于塔尖的正是遥操作采集到的数据——最难获取、量最小,但质量最高。往下依次是UMI、第一人称视角数据、通用视频——越往下越好采集,量越大,但信息密度也越低。

所以他的观点很清晰:尽量用塔尖的数据做最核心的任务,同时尽可能利用塔底数据预训练的模型作为起点。

值得关注的是,目前这套逻辑正在成为行业通用语言。

宇树科技创始人王兴兴也认为,应该尽可能在预训练阶段,多使用视频数据、互联网数据、仿真数据等,先把基础模型训练出来,再提高对真实机器人数据的利用效率。这样,真机数据可以更少,但系统依然能够跑起来。

“哪怕你真的有一万台机器人,也派一万人去采数据,最后效果也不一定好。因为这里面还有数据质量、硬件差异、传感器差异等很多问题。不是说机器数量多了,数据效果就一定会线性提升。”所以他认为,大家应该进一步提高数据利用率,尽可能多利用视频数据和仿真数据,减少对真机大规模采集的依赖。

Skild AI CEO Deepak Pathak用一个更生动的类比解释了这套打法:就像小孩看成人学习,身体比例完全不同,但通过观察和实践,仍然能学到东西。

具身智能的“数据饥渴”,有解了?

图片来源:北京发布

不过,尽管行业对具身数据技术路线的融合已经形成共识,一个不容忽略的事实是:在这场数采路线之争里,还有一只看不见的手在悄然影响着行业格局。

“数据这件事,尤其是数采厂,有地方政府的助力,就会更倾向与本体公司及地方政府合作,从而获得很大的机会用当期收入建设以遥操作为主的数采中心,也就较少去发展像UMI这样的数据采集方式。”有业内人士表示。

这话说得委婉,但潜台词也很明显:政府的支持就像一把双刃剑,既能在短期内快速铺开数据基建,让行业跑出加速度,但也可能让技术路线产生路径依赖,延缓UMI这类更灵活、更低成本的方案在中国的落地节奏。

试想一下,如果没有政府的支持和补贴,还会有这么多数采中心用遥操作方式采集数据吗?答案是显而易见的。

结语

当政策、产业、资本三股力量同时注入,当遥操作、UMI、仿真合成、人类视频学习等多条技术路线并行向前,具身智能的数据困境正在从“能不能解决”变成“什么时候解决”。

就如曾经的自动驾驶,产业发展初期一样面临数据短缺难题,但通过产业链上下游的协同发力,以及海量真实道路数据的积累与算法迭代,如今行业已经成功实现了从L2到更高级别自动驾驶的突破。

具身智能必然也会沿着类似的轨迹前行,不同技术路线在竞争中相互借鉴、优势互补,最终逐步摆脱“数据荒”的束缚。

本文转载自互联网,如有侵权,联系删除