具身智能的“数据饥渴”，有解了？_车业百科

润升汽车网/
车业百科/具身智能的“数据饥渴”，有解了？

具身智能的“数据饥渴”，有解了？

2026年03月23日润升爱车阅读(4939)

和自动驾驶发展初期一样，具身智能也迎来了“数据荒”时刻。

据相关分析数据显示，具身机器人训练大约需要数千亿级的交互数据，然而全行业现存数据却仅几百万条，存在10万倍的缺口。

如此巨大的数据鸿沟，仅靠单一企业或机构独立采集与积累，显然不现实。

正是洞察这一点，具身智能行业正一改过去单打独斗的做法，积极探索产业协同。从创业公司到产业巨头，再到地方政府，各方力量纷纷加入数据共建行列，试图从源头打破数据“孤岛”，为具身智能产业演进提供更充足的“养料”。

破解“数据荒”，不能再单打独斗

近日，由工信部指导、开放原子开源基金会发起，乐聚机器人牵头，联合蚂蚁灵波、上海交大、宇树等核心单位共建的“具身智能开源数据集社区”正式启动。

具身智能的“数据饥渴”，有解了？

图片来源：乐聚机器人

这则消息如果放在两年前，可能只是具身智能行业的一条“简讯”。但在2026年的今天，有了完全不同的分量。

作为国家级平台发起的首个具身智能开源数据集社区，该项目的目标写得很直白：打破具身智能产业“数据孤岛、采集成本高、标注效率低、模型泛化弱”四重枷锁。

翻译成大白话就是——具身“数据荒”这事，靠单打独斗搞不定了。

由于具身智能产业的发展高度依赖数据飞轮驱动，过去几年赛道企业几乎都自建了数采体系，并视数据为核心竞争力。然而迈入2026年，庞大的数据缺口像一面镜子，逐渐让所有人看清了一个现实：没有任何一家企业能独自填满这个窟窿。

于是，行业心态开始发生微妙变化，不仅国家级平台开始牵头“攒局”，甚至乐聚、宇树、智元这些曾经的竞争对手，也纷纷把数据拿出来共享，一边共建行业联盟，一边开源自家数据集。

具身智能的“数据饥渴”，有解了？

图片来源：它石智航

比如智元AgiBot World、乐聚LET、银河通用 DexonomySim、它石智航WIYH、枢途科技HORA、简智10Kh RealOmni、灵巧智能DexCanvas等数据集，目前都已宣布开源，覆盖多模态训练、人形机器人灵巧操作、全身运动等多个领域。

其中它石智航还发起了“具身数据星火计划”，目标推动实现1亿小时级别的数据共享。地平线、地瓜机器人与无问智科，也于近期联合发起了10000 + 小时具身智能开源数据集计划。

为什么大家突然对数据集开源这么热衷了？

“对企业而言，开源这件事其实没什么风险。可能在这个过程中，有些企业更多是借此换取影响力，但数据开源后其实大家也可以相互交流、共同创新，由此产生的价值可能会更大。”相关业内人士表示。

换言之，单家企业能触及的场景、能采集的数据终究有限。开源之后，可以有更多的开发者帮忙看bug、提优化——这哪里是“共享”，分明是“众包”研发。

如果说企业层面的开源，是市场力量的横向协同，那么地方政府的介入，就是纵向的基础设施投入。

据盖世汽车研究院不完全统计，2025年仅地方购入的数采机器人订单金额就超过了10亿元。

其后，据权威研究机构Interact Analysis调研数据显示，截至2025年年底，中国已经有50个以上国家或省市区级人形机器人数采中心处于使用或规划建设中，分布在大约19个省份，其中50%以上的数采中心已经在2025年投入使用。

从规模来看，上海张江机器人谷和北京石景山具身智能综合实训场等，目前均已部署近百台数采机器人。

这些数字背后是一个清晰的判断：数据采集正在从“企业行为”变成“政府工程”。

具身智能的“数据饥渴”，有解了？

图片来源：京东

但真正把这场集体行动推向高潮的，是京东。

日前，京东宣布将于一年内积累500万小时人类真实场景视频数据，两年内突破1000万小时，同步实现采集机器人本体数据100万小时——这个量级，无疑让很多公司望尘莫及。

目前，京东已建成行业领先的机器人数据采集中心，构建“采集—标注—训练—验证”全流程数据流水线。

更让人惊叹的是该项目的采集规模：京东将发动数十万人参与数据采集——包括内部超过10万名各类职业员工，以及外部最多50万名各行业人员，其中仅在宿迁就将发动超10万名市民参与。从家庭、办公室到物流、商店、医疗，覆盖超百个细分场景。

如果京东这一计划顺利落地，有望成为“人类历史上规模最大的数据采集行动”。

但热闹归热闹，一个疑问随之而来：既然数据对于具身智能的重要性行业早已深知，为何直到现在才被推向如此高度？

在盖世汽车研究院分析师看来，这是因为当前具身机器人的运动控制已经趋于成熟，缺乏真实数据成了训练通用“大脑”的最大瓶颈。

过去两年，具身智能领域的焦点，主要集中在机器人本体研发和运动能力的突破上，例如：如何让机器人更稳定地行走甚至奔跑，以及更灵活地抓取物体等。目前，这些问题正逐步得到解决，机器人的身体越来越灵活，反而机器人的大脑开始不”够用”了。

而要训练出真正通用的机器人“大脑”，海量高品质的数据恰恰是最核心的“养料”。

不过，在京东数采规划刷爆网络的同时，也不乏质疑声。

“利用真实业务场景和‘人海战术’获取海量数据，理论上可行，且直击行业数据荒的痛点。但成败关键更在于能否采集到包含力觉、触觉的高质量动作数据，否则可能沦为低效的视频数据堆砌。”盖世汽车研究院前述分析师就认为。

这句话无疑戳中了具身数采的核心：规模不等于质量，视频不等于有效数据。

数十万人戴着采集设备逛超市、送快递，产出的海量视觉数据，固然能让机器人学会“什么是门”“什么是苹果”，但能让它们学会“用多大力度捏住鸡蛋而不碎”吗？

答案目前还不得而知。

即便有数据，怎么用更关键

对于具身智能而言，当前产业链层面的由分到合，解决的是数据从哪里来的问题。

而在水面之下，另一场更深层的融合也在同步发生：不同数据技术路线之间的使用界线，正在变得模糊。

日前，在英伟达GTC 2026上，Physical Intelligence(PI)联合创始人Chelsea Finn就直言，很多人原本以为，如果让机器人形态最接近人类，就能最好地从人类视频迁移。但实际上，当机器人数据本身足够多样时，模型反而更容易把“人类数据”和“机器人数据”之间的点连起来。

“所以我们不仅利用机器人的真实数据，也利用其他数据源，尤其是网络视频、人类视频等，目标训练出一个真正有泛化能力的模型：能跨具身形态、跨环境、跨任务工作。”Chelsea Finn 表示。

这话听着绕口，但翻译过来就一句：别只押注单一数据源。

盖世汽车研究院分析师亦认为，虽然说UMI便携采集是对数据质量和规模的有效平衡，但这并不意味着遥操作采集、仿真合成等技术路线会被取代。“更现实的情况是，具身智能数据体系应该是一个分层采用、分阶段取舍的系统”。

具身智能的“数据饥渴”，有解了？

图片来源：千寻智能

比如千寻智能，就坚定以“多样性”为核心推进Scaling路线。目前，该公司已累计获取超20万小时多类型真实交互数据，覆盖互联网视频、遥操作、可穿戴采集等维度，预计2026年总量将进一步突破100万小时。

穹彻智能研究科学家吕峻也指出，由于遥操作采集在数据质量、模型训练等方面的优势，在UMI之外，穹彻智能直到今天也仍在持续这种模式。

那么问题来了，虽然说数采路线多元融合已经是行业共识，具体该怎么融合呢？

一个被反复提及的答案是：分层使用，各取所长。更具体一点，也即是：预训练打底，真机点睛，用低成本数据覆盖广度，用高精度数据确保深度。

对于通过遥操作采集、UMI、仿真合成、人类视频学习四种方式获取的数据，Agility CTO Pras Velagapudi在GTC上画了一座“金字塔”，其中位于塔尖的正是遥操作采集到的数据——最难获取、量最小，但质量最高。往下依次是UMI、第一人称视角数据、通用视频——越往下越好采集，量越大，但信息密度也越低。

所以他的观点很清晰：尽量用塔尖的数据做最核心的任务，同时尽可能利用塔底数据预训练的模型作为起点。

值得关注的是，目前这套逻辑正在成为行业通用语言。

宇树科技创始人王兴兴也认为，应该尽可能在预训练阶段，多使用视频数据、互联网数据、仿真数据等，先把基础模型训练出来，再提高对真实机器人数据的利用效率。这样，真机数据可以更少，但系统依然能够跑起来。

“哪怕你真的有一万台机器人，也派一万人去采数据，最后效果也不一定好。因为这里面还有数据质量、硬件差异、传感器差异等很多问题。不是说机器数量多了，数据效果就一定会线性提升。”所以他认为，大家应该进一步提高数据利用率，尽可能多利用视频数据和仿真数据，减少对真机大规模采集的依赖。

Skild AI CEO Deepak Pathak用一个更生动的类比解释了这套打法：就像小孩看成人学习，身体比例完全不同，但通过观察和实践，仍然能学到东西。

具身智能的“数据饥渴”，有解了？

图片来源：北京发布

不过，尽管行业对具身数据技术路线的融合已经形成共识，一个不容忽略的事实是：在这场数采路线之争里，还有一只看不见的手在悄然影响着行业格局。

“数据这件事，尤其是数采厂，有地方政府的助力，就会更倾向与本体公司及地方政府合作，从而获得很大的机会用当期收入建设以遥操作为主的数采中心，也就较少去发展像UMI这样的数据采集方式。”有业内人士表示。

这话说得委婉，但潜台词也很明显：政府的支持就像一把双刃剑，既能在短期内快速铺开数据基建，让行业跑出加速度，但也可能让技术路线产生路径依赖，延缓UMI这类更灵活、更低成本的方案在中国的落地节奏。

试想一下，如果没有政府的支持和补贴，还会有这么多数采中心用遥操作方式采集数据吗？答案是显而易见的。

结语

当政策、产业、资本三股力量同时注入，当遥操作、UMI、仿真合成、人类视频学习等多条技术路线并行向前，具身智能的数据困境正在从“能不能解决”变成“什么时候解决”。

就如曾经的自动驾驶，产业发展初期一样面临数据短缺难题，但通过产业链上下游的协同发力，以及海量真实道路数据的积累与算法迭代，如今行业已经成功实现了从L2到更高级别自动驾驶的突破。

具身智能必然也会沿着类似的轨迹前行，不同技术路线在竞争中相互借鉴、优势互补，最终逐步摆脱“数据荒”的束缚。

本文转载自互联网，如有侵权，联系删除

上一篇：2026深圳改装展开幕北京越野携全系车型及改装套件亮相

下一篇：西湖半马官方 pick！帝豪用稳省顺拿捏年轻人的第一台家轿

相关推荐

最新发布
热文排行

标签列表

最近发表