广告
加载中

日薪120元 全民数采 谁在训练下一个机器人保姆?

胡镤心 张睿 2026-05-15 16:37
胡镤心 张睿 2026/05/15 16:37

邦小白快读

EN
全文速览

总:本文介绍了当前具身智能行业兴起的全民数据采集新零工,普通人可参与获得收入,核心干货如下

1. 工作内容与门槛:该工作是让普通人用拍摄设备记录自己做家务、户外运动等日常动作,采集的数据用来训练机器人做家务等技能,门槛极低,仅需要参加半天培训学会使用软件和拍摄要求就能上岗。

2. 薪资与参与要求:工作可居家完成,日薪大概100-120元,要求每天拍摄不少于8小时,需要保证手部动作完整,在不同场景、不同条件下完成不同任务,不能反复拍摄同一内容。

3. 参与条件:目前最新模式仅需要一部手机加一个50元左右的挂脖支架(多数情况由招聘方报销),就能参与,招聘信息大多发布在各类兼职群中,适合空余时间较多的普通人参与。

总:当前具身智能行业进入快速发展期,家用服务机器人是核心赛道,给品牌商带来的核心干货如下

1. 消费趋势与研发方向:消费者对能完成家务、照护的服务机器人需求迫切,当前行业数据需求中家庭场景占比高达80%,是品牌产品研发的核心方向,商超、工厂场景短期需求较弱。

2. 行业核心竞争点:训练具备泛化能力的通用具身大模型至少需要千万小时级数据,当前市场高质量数据严重供不应求,数据获取能力已经成为品牌核心竞争力。

3. 行业模式变化:算法路线从VLA转向世界模型,对数据要求从高精度转为多样化真实场景,推动全民众包数采成为主流,品牌可依托大众获得低成本多样化数据。

4. 竞争提示:当前全球已经开启数采竞赛,谁先建立百万小时级数据壁垒,谁就掌握下一轮竞争主动权,需要提前布局数据获取。

总:具身智能数据采集是当下新兴的高毛利生意,给相关从业者的核心干货如下

1. 市场机会:当前具身智能行业处于数据饥渴状态,头部需求方是有多少数据收多少,高质量数据严重供不应求,目前众包模式下数据采集行业毛利可达100%,成本还在持续下降,市场空间极大。

2. 主流运营模式:除了全民参与的众包模式,也有玩家选择加盟制、雇佣专职采集员等模式,以此规避众包模式的固有问题。

3. 风险提示:行业技术路线迭代极快,投入的设备可能短时间就被淘汰,同时众包模式存在数据质量难把控、培训成本高、人员流失大、隐私争议等问题,需要提前规避。

4. 交易渠道:目前已经有多家企业推出合规的具身智能数据交易平台,从业者可通过平台匹配供需,完成合规交易。

总:当前具身智能行业爆发给工厂带来了新的商业机会和转型启示,核心干货如下

1. 硬件生产机会:数采设备行业处于快速迭代期,当前市场对低成本可穿戴采集设备,包括头环、夹爪、挂脖支架、AI眼镜等需求旺盛,多家数采企业推出了新硬件产品,需要代工厂配合生产,给硬件制造工厂带来了新的订单增量。

2. 赛道选择提示:当前工厂场景对具身智能数据需求很低,因为工厂已有成熟自动化方案,任务标准化程度高,短期内没有强替代需求,工厂不需要盲目布局工厂场景的具身智能数据业务。

3. 额外收益机会:未来具身智能需要大量真实工厂生产操作数据,工厂可探索组织工人在日常工作中采集操作数据,打包成数据集对外销售,获得额外收益。

4. 数字化转型方向:工厂也可依托自身采集的生产场景数据,训练适合自身的具身智能机器人,推动工厂自动化升级,降低人力成本。

总:当前具身智能数据采集行业快速发展,给相关服务商带来了新的市场机会,核心干货如下

1. 行业发展趋势:具身智能行业数据需求全面爆发,从2026年3月开始,无本体第一人称众包采集已经成为行业主流方向,数据需求从少部分专业场景转为海量多样化大众场景,需求规模从万小时级快速向十亿、百亿小时级跃进。

2. 核心客户痛点:当前行业核心痛点是高质量规模化数据供给能力不足,无法满足模型训练需求,同时众包模式还存在数据质量参差不齐、隐私合规风险高、设备迭代快投入风险大、培训成本高人员流失严重等问题,有待解决。

3. 可布局解决方案方向:目前已经有企业探索出生成式数据扩增方案,可将真人采集数据放大数十上百倍,提升供给能力,也有企业推出统一标准的数据交易平台解决供需匹配和合规问题,服务商可围绕这些痛点布局相关服务,抢占市场。

总:当前具身智能数据行业发展对数据交易平台提出了新需求,给平台商的核心干货如下

1. 行业核心需求:当前具身智能数据供需两旺,但行业缺乏统一的数据标准、合规交易通道、高效供需匹配机制,需要平台整合资源,调节市场价格,规范数据质量,市场空白较大。

2. 行业最新做法:2026年4月已经有三家头部企业率先推出相关平台:京东开放自有高精标注数据集打通合规交易通道,觅蜂联合官方机构发起数据共创行动,百度智能云联合多家头部企业推出“具身智能数据超市”。

3. 可借鉴运营思路:平台可依托自身生态资源发动内部员工加外部参与者参与数据采集,比如京东发动自身10万员工加50万外部人员多场景采集,可快速积累大规模数据,形成壁垒。

4. 风险规避:行业技术路线变化极快,数据标准也在持续迭代,平台不宜过早进行重资产硬件投入,需要保持灵活性,跟进技术变化调整策略。

总:本文调研了2026年具身智能行业数据采集领域的最新产业动向,核心研究干货如下

1. 产业新动向:2026年3月起,无本体第一人称众包数采全面爆发,全民参与的数采潮已经在全球兴起,数据已经成为具身智能行业竞争的核心要素,数据侧的供给能力直接决定具身智能突破节点。

2. 技术与商业模式新变化:数采设备历经三次迭代,从真机遥操到UMI再到普通手机采集,成本和门槛持续下降,商业模式从专业数采厂转向全民众包,数据采集生意毛利可达100%,同时还涌现出第三方数据交易平台这一新商业模式。

3. 技术路线新变化:当前算法路线从传统VLA转向世界模型,两者此消彼长但实际行业玩家多采用混合路线,技术路线更迭是推动众包数采爆发的核心原因,此外资本涌入和全球数采竞赛也进一步推动行业发展。

4. 待研究新问题:当前行业存在数据质量难管控、隐私合规风险、技术迭代快投入不确定性高等问题,还未跑通稳定可持续的产业闭环,有待进一步研究探索。

返回默认

声明:快读内容全程由AI生成,请注意甄别信息。如您发现问题,请发送邮件至 run@ebrun.com 。

我是 品牌商 卖家 工厂 服务商 平台商 研究者 帮我再读一遍。

Quick Summary

This article introduces a new gig economy opportunity for casual data collection that has emerged alongside the booming embodied intelligence industry, which allows ordinary people to participate and earn extra income. Key takeaways are as follows:

1. Job content and entry barrier: Participants are required to record daily movements such as doing housework and outdoor sports with recording devices. The collected data will be used to train robots to complete daily tasks. The entry barrier is extremely low: workers only need a half-day training to learn software operation and filming requirements before starting work.

2. Pay and participation requirements: This work can be done from home, with a daily pay of 16-19 USD approximately, requiring no less than 8 hours of filming per day. Workers are required to keep hand movements fully captured, complete different tasks under different scenarios and conditions, and avoid repeatedly filming the same content.

3. Equipment requirements: Under the latest model, participants only need a smartphone plus a neck-mounted camera stand costing around $7, which is reimbursed by recruiters in most cases. Recruitment posts are mostly shared in various part-time job groups, making this opportunity suitable for ordinary people with a lot of spare time.

The embodied intelligence industry is entering a period of rapid growth, with home service robots as its core track. This article outlines key takeaways for brands as follows:

1. Consumer trends and R&D directions: Consumers have strong demand for service robots that can handle housework and care work. Currently, 80% of industry data demand comes from home scenarios, which makes this the core direction for product R&D; demand for retail and factory scenarios remains weak in the short term.

2. Core competitive advantage: Training a general-purpose large embodied model with strong generalization capability requires at least tens of millions of hours of data. The current market faces a severe shortage of high-quality data, making data acquisition capability a core competitive advantage for brands.

3. Shifting industry models: The industry's algorithm paradigm is shifting from VLA to world models, changing the requirement for data from high precision to diverse real-world scenarios. This shift has turned crowdsourced civilian data collection into the mainstream model, allowing brands to obtain low-cost, diverse data from the general public.

4. Competitive reminder: A global data collection race is already underway. Brands that build a data barrier of millions of hours first will gain the upper hand in the next round of competition, so early布局 of data acquisition is critical.

Embodied intelligence data collection is an emerging high-margin business for industry practitioners. Key insights are as follows:

1. Market opportunity: The embodied intelligence industry currently faces extreme data scarcity, with leading buyers purchasing all available high-quality data, which is in severe short supply. Under the crowdsourcing model, the data collection industry can reach 100% gross margin, while costs continue to decline, creating enormous market potential.

2. Mainstream operating models: Beyond the public crowdsourcing model, some players operate with franchise models or hire full-time collectors to avoid inherent problems of the crowdsourcing model.

3. Risk warning: The industry's technology evolves extremely fast, meaning invested equipment may become obsolete in a short time. Meanwhile, the crowdsourcing model faces challenges including hard-to-control data quality, high training costs, high staff turnover, and privacy disputes, which require proactive mitigation.

4. Trading channels: Multiple companies have launched compliant embodied intelligence data trading platforms, where practitioners can match supply and demand and complete compliant transactions.

The boom of the embodied intelligence industry brings new business opportunities and transformation insights for manufacturing factories. Key takeaways are as follows:

1. Hardware manufacturing opportunities: The data collection equipment industry is undergoing rapid iteration, and there is strong market demand for low-cost wearable collection devices including headbands, grippers, neck-mounted stands, and AI glasses. Multiple data collection firms have launched new hardware products and are seeking contract manufacturers, bringing new order increments for hardware factories.

2. Track selection tips: Currently, demand for embodied intelligence data in factory scenarios is very low, as factories already have mature automation solutions with highly standardized tasks, and there is no strong short-term demand for replacement. Factories should not blindly enter the embodied intelligence data business for factory scenarios.

3. Extra revenue opportunity: In the future, embodied intelligence will require large volumes of real factory operation data. Factories can organize workers to collect operation data during daily work, package the data into datasets for external sales, and earn additional revenue.

4. Digital transformation direction: Factories can also use their own collected production scenario data to train custom embodied intelligence robots for their own use, driving factory automation upgrades and reducing labor costs.

The rapid growth of the embodied intelligence data collection industry brings new market opportunities for relevant service providers. Key insights are as follows:

1. Industry development trends: Data demand in the embodied intelligence industry is experiencing full-scale growth. Starting March 2026,本体-free first-person crowdsourced data collection has become the industry mainstream. Data demand has shifted from a small number of professional scenarios to massive diverse civilian scenarios, with demand scale growing rapidly from ten-thousand-hour levels to billions and tens of billions of hours.

2. Core customer pain points: The core pain point of the current industry is insufficient supply capacity for high-quality large-scale data, which cannot meet model training requirements. Meanwhile, the crowdsourcing model faces problems including uneven data quality, high privacy compliance risks, high investment risks from rapid equipment iteration, and high training costs paired with high staff turnover, all of which remain unaddressed.

3. Solution directions to布局: Some companies have already explored generative data amplification solutions that can scale real human-collected data by dozens of times to boost supply capacity. Others have launched standardized data trading platforms to solve supply-demand matching and compliance problems. Service providers can build businesses around these pain points to capture market share.

The growth of the embodied intelligence data industry has created new demand for data trading platforms, bringing opportunities for platform operators. Key insights are as follows:

1. Core industry demand: While both supply and demand for embodied intelligence data are booming, the industry lacks unified data standards, compliant trading channels, and efficient supply-demand matching mechanisms. This creates a large untapped market for platforms to integrate resources, adjust market pricing, and standardize data quality.

2. Latest industry initiatives: As of April 2026, three leading Chinese companies have already launched relevant platforms: JD.com has opened its own high-precision annotated dataset to create a compliant trading channel; Mifeng has launched a data co-creation initiative in partnership with official institutions; Baidu Smart Cloud has partnered with multiple leading companies to launch an "embodied intelligence data supermarket."

3. Operational best practices: Platforms can leverage their own ecosystem resources to mobilize internal employees and external participants for data collection. For example, JD.com mobilized its 100,000 employees plus 500,000 external contributors to collect data across multiple scenarios, allowing it to accumulate large-scale data quickly and build a competitive barrier.

4. Risk mitigation: The industry's technology roadmap changes very quickly, and data standards continue to evolve. Platforms should avoid heavy fixed-asset investment in hardware too early, and maintain flexibility to adjust strategies alongside technological changes.

This article surveys the latest industry developments in the data collection segment of the embodied intelligence industry in 2026, with key research takeaways as follows:

1. New industry trends: Starting March 2026,本体-free first-person crowdsourced data collection has grown explosively, and a global wave of public participation in data collection has emerged. Data has become the core competitive factor in the embodied intelligence industry, and data supply capacity directly determines the timeline for industry breakthroughs.

2. New changes in technology and business models: Data collection hardware has gone through three iterations, from teleoperation on real robots to UMI systems to collection with consumer smartphones, continuously lowering costs and entry barriers. The business model has shifted from professional data collection firms to public crowdsourcing, with data collection businesses reaching 100% gross margin. Third-party data trading platforms have also emerged as a new business model.

3. New shifts in technology roadmaps: The industry's algorithm paradigm is currently shifting from traditional VLA to world models. While the two approaches compete for adoption, most industry players actually use hybrid models. The paradigm shift is the core driver of the crowdsourced data collection boom; capital inflows and the global data collection race have further accelerated industry growth.

4. Open research questions: The industry currently faces unaddressed challenges including hard-to-control data quality, privacy compliance risks, and high investment uncertainty from rapid technology iteration. A stable, sustainable industrial closed loop has not yet been formed, and further research and exploration are needed.

Disclaimer: The "Quick Summary" content is entirely generated by AI. Please exercise discretion when interpreting the information. For issues or corrections, please email run@ebrun.com .

I am a Brand Seller Factory Service Provider Marketplace Seller Researcher Read it again.

一种新的数字零工,两条具身大脑的训练路线。

文丨胡镤心 张睿

编辑丨张睿

【亿邦原创】具身智能行业今年最重要的关键词,是数据。

这个词不仅仅出现在学术期刊最新的论文中,出现在科技公司对外宣讲的PPT中,还出现在湖北某市的零工招聘信息中,出现在陕西某村镇的一场小规模培训中。

所谓的数据,是指如何叠衣服、如何浇花、如何做饭……等等,在人类世界中真实发生的一切信息。从这个层面来讲,每一个具备行动能力的普通人,都是机器人的老师。

模型在迭代,算法在进步,看似最前沿的科技,实际上已经扩散为一项全民可参与的大型实验。这场实验中不仅角色众多——机器人厂商、数据厂商、人力公司、灵活就业人员,而且变化迅速,昂贵的拍摄设备这个月刚刚发放,下个月就被手机替换了。

亿邦AI深度调研了当下具身智能数据采集的现状,既期待与技术脉搏同频,也期待看到普通人分享行业红利。

本文约8000字,分五部分,为了方便您的阅读,以下是概要总结:

1. 日薪120元,全民数采潮来了

全国各地大规模招聘众包数采员,在家庭或者户外使用设备录制视频。

2. 数据!数据!数据!

具身智能行业数据饥渴,无本体采集自2026年3月起全面爆发。

3. 采集设备的“战国时代”

数采设备历经了三次迭代,人类第一视角视频拍摄最受关注。

4. 毛利100%的生意

数据采集的生意毛利高,但是众包形式也面临很多问题。

5. 技术转向:VLA还是世界模型?

数采众包热潮的背后是算法路线的更迭和资本的推动。

日薪120元,全民数采潮来了

“我要开始叠T恤了。”河北人张月头上带着一个电子头环,卡着自己的苹果手机,手上举着两个特制夹爪,站在卧室床前,很有仪式感地对着空气介绍工作。

叠衣服这种事儿,平时信手拈来,但夹爪不容易控制角度,边角总不平整,需反复尝试。叠了四五件,她开始感到手掌有些酸胀。

叠完床上的衣服,手机里有声音提示她换场景。这一天,张月在卧室、书房、客厅、桌子上、床上、地上、窗台边、开灯、自然光等不同场景叠衣服,手机还会提醒她叠不同款式不同颜色的衣服,不能拿着一件衣服反复叠。

图片

图片

具身智能数采助手App

张月在做的事情是具身智能数据采集。也就是说,她叠衣服的动作,通过手机摄像头和夹爪采集为数据,经标注处理之后,会成为机器人训练的素材,直到有一天机器人也学会叠衣服。

2026年,全国人民的目光被会武术、会跑步的机器人吸引,但是会干活对机器人来说仍然是难题,而学会干活,最大的坎是数据,那么数据从哪儿来?革命法宝,发动群众。

30岁出头的张月是一名全职妈妈,平时接一些零工补贴家用。3月,她从熟悉的兼职群得到了这份具身数据采集的工作:居家,每小时30元。报名之后,她参加了为期半天的培训,内容包括下载采集软件(一个自有App,无法上架App Store,只能现场安装、注册,后台开通权限)、学习使用夹爪、按要求拍摄视频,自己练习半小时就可以带着设备回家了。

采集软件里会发布各类任务,包括清洁类(扫地、拖地、擦窗、洗碗、清洁桌面/卫浴)、衣物处理(折叠、晾晒、收纳、熨烫)、物品整理(摆放物品、分类归纳、取放货物、整理书架、收拾桌面、货架整理)、烹饪(洗菜、切菜、餐后收拾、使用厨具、做饮品、烹饪)、日常照护(开关门窗、传递物品、倒垃圾、浇花、宠物护理)等。随后又新增家居装饰、搭积木、刺绣、折纸等手工艺品。

张月每天领取任务,寻找合适的拍摄场景,打开App,一边录像,一边使用夹爪做家务。按照要求,她每天拍摄不少于8小时,每段视频不少于2分钟,拍摄完成后批量上传。8小时中有效时长不到一半,按照每小时30元计算,她一天的收入大约120元。

湖北人阿信记得,最早2025年11月,兼职群里开始零星出现具身智能数采的招聘信息,而到2026年3月份,数采员招聘信息井喷,有的要求到集中场地遥控操作机器人,薪资180-250元/天,有的使用可穿戴设备(头环、夹爪等),可以居家工作,薪资120元/天+绩效。

从今年3月开始,数采商通过人力外包公司在全国各地大规模招聘众包数采员。对于还没搞懂机器人是怎么回事的普通人来说,数据采集是一个门槛低又充满新鲜感的工作,在低线城市,120元的日薪也还不错。

有人说,数采招聘人员3月份到村里组织了培训,她按照要求拍了半小时视频提交,但是后来因为村里参与者太少,驻村的招聘人员带着夹爪设备离开了;也有人说,培训参加过了,却因为夹爪数量不够用而无法参与采集;还有人在网上呼吁给自己退休在家的妈妈一个参与前沿行业的机会。

一家人力外包公司HR美美告诉亿邦AI,公司目前规划两期数采项目,一期以家居场景为主,二期名为“世界交互”,以户外公共场合日常行为为主,包括骑行、散步、公园锻炼、购物、逛街、取快递、丢垃圾、遛狗等。“理论上所有户外运动都可以录制 ,但为了避免镜头抖动,不建议拍摄剧烈运动或对抗性运动。”美美提示。

录制要求是打开声音录制,需录入环境音,至少每3分钟和环境交互一次,偶尔可以有他人入镜,但尽量避免长时间拍摄他人,因为后期脱敏会很麻烦。

图片

北京一家肯德基店员正在用夹爪,一边擦桌子一边采集数据

海外的数采也同样热闹:Micro1、Scale AI等公司已经在全球招募零工人员录制家务劳动视频,肯尼亚、菲律宾、印度等国的工人佩戴头戴摄像头;DoorDash在3月推出Tasks应用,让旗下送餐员顺带录制家务视频。

一场轰轰烈烈的全民数采潮拉开帷幕。

数据!数据!数据!

全民数据采集,来自于当下具身智能行业的数据饥渴。

“大的需求方都是你有多少我就买多少,你什么时候有我马上要的状态。”智元机器人合伙人、觅蜂科技董事长兼CEO姚卯青如是说。具身智能大脑公司、具身智能本体厂商、多模态大模型与世界模型公司,都需要数据。目前市场可采购的数据集,大约几十万小时,高质量的数据严重供不应求。

主流观点认为,训练泛化能力的具身大模型至少需要1000万小时的数据,而达到智能涌现则需要100亿小时的数据。就像一个人类婴儿,从呱呱坠地到会走路、会说话、会穿衣吃饭、会做家务,真实的环境中观察、模仿、反复练习,是习得技能的必经之路,机器人要想达到大众设想中的、在家里像保姆一样洗衣做饭打扫,同样绕不开这个过程。

自动驾驶同样经历了数据从无到有、从少到多的过程,第一代自动驾驶数据集nuScenes获取了经过人工标注的1000个场景,但总时长仅有5.5小时;以特斯拉为代表的车企,则通过已销售的量产车来采集数据,这种成本更低、产量更大的方式,让特斯拉智能辅助驾驶积累了约100亿公里的行驶数据。但这个过程也用了将近10年。

显然,与自动驾驶相比,具身智能的数据积累才刚刚起步。数据堂首席运营官何鸿凌告诉亿邦AI,具身智能与自动驾驶的训练方式是类似的,但难点在于,车可以先卖出去再积累数据、迭代算法、更新智驾能力,“具身智能不存在这个逻辑,我不可能买一个什么也不会做的机器人回去,我还需要遥操它来做。”

何鸿凌表示,就他了解到的数据需求情况看,家庭场景占80%,商超占20%,工厂占10%。原因不难理解,家务、照护、养老等长期存在的需求亟待技术进步提供新的方案,而家庭场景中任务的复杂性、多样性以及相应的隐私安全问题,要求机器人经过更多的学习训练。至于商超场景,目前人力成本尚可接受,短期内不具备强替代动力;而工厂已有成熟自动化方案,且任务相对标准,对具身智能数据的需求并不大。

这是一个先有鸡还是先有蛋的问题:数据的积累需要机器人大规模进入家庭,而机器人达到可用程度依赖足够的家庭场景数据训练。

行业认可的具身智能数据可以大致分为三层:底层是互联网视频以及仿真合成数据;中间层是无本体数据,由数采员使用穿戴式设备,执行特定任务动作获得;最顶层是真机数据,即工作人员遥控操作机器人获得。这个数据金字塔从下到上,质量更好、数量更少、成本更高。

今年之前,在集中的数据采集厂里,使用各品牌的机器人本体重复各类工作任务,是主流的数据采集方式。国内已有20多个城市建立了数采厂。但是从2026年3月开始,无本体的具身智能数据采集,以野火燎原之势全面爆发。

蚂蚁数科天玑实验室副主任朱凯表示,已有研究验证过,具身智能训练数据的多样性存在一个优先级序:任务多样性 > 操作物品多样性 > 场景多样性。

“我们在具身前沿模型的数据需求侧看到了一个共性趋势:海量数据需求正在朝无本体数据——也就是ego/UMI数据——集中。通用具身模型对训练数据的配比正在朝‘90%ego+10% 真机’演变,部分更激进的团队甚至在探索‘99%ego+1% 真机’的极端配比。”朱凯直言,“这意味着数据侧的节奏决定模型侧的突破节点,而ego数据的规模化供给能力,将直接决定GPT-3时刻到来的快慢。那么问题变成了:谁能以百万乃至千万小时的规模持续供给高质量ego数据?”

采集设备的“战国时代”

过去两年,机器人数采设备历经了三次迭代:从最初的“真机遥操”——即人通过VR、手套等设备,操控某一款真机机器人,让它学习任务;到UMI(通用操作接口,Universal Manipulation Interface)——用通用夹爪配合GoPro等相机,让采集人员在真实场景中反复、缓慢操作,记录任务行动轨迹;再到近两个月爆发的“第一人称人类视频(Ego Centric)”,只需要通过手机或相机,记录双手的日常操作,就能用来训练机器人大脑。

每一次迭代都朝着成本更低、门槛更低、采集更方便的方向,因此也让参与者从专业人员向普通大众扩散。

UMI路线是从2025年底开始的,海外具身智能厂商通过UMI数采先后训练出了Generalist的GEN-0、Sunday的ACT-1等模型,初步证明这条路径可以跑通。国内外厂商迅速跟进,形态各异的UMI设备陆续面世,夹爪、腕带相机、手套、头环+手机、头环+夹爪等等。

今年3月,鹿明机器人发布了FastUMI无本体数采产品体系,涵盖夹爪类硬件FastUMI Pro、背包形态数采设备FastUMI Go、头戴式硬件FastUMI Ego、以及6轴协作机械臂FastUMI Touch。

鹿明在2025年通过自建数采工站,已经完成了10万小时数据的采集,据鹿明联合创始人赵广智介绍,接下来,鹿明数据采集会分两步走:第一步,2026年以与政府/产业方合作建设数采工厂方式,实现100万小时数据产能;第二步,2027年,以众包激励形式,实现1000万小时的数据产能。

图片

图:FastUMI Pro

4月,智元机器人孵化的具身智能数据公司觅蜂科技推出MEgo系列无本体数据采集硬件,包括多模态采集夹爪MEgo Gripper,头戴相机+腕部相机MEgo View。觅蜂科技的目标是,2026年数据采集规模达到千万小时,2030年前向百亿小时级数据产能迈进。姚卯青的解释称,1万台设备,一天工作十多小时,产出4小时的有效数据,按照一年250个工作日,总计能够产出1000万小时数据。

图片

MEgo View

然而,技术路线的变化比想象中更快。2026年3月的英伟达GTC大会上,英伟达EgoScale框架问世——用2万小时带动作标注的第一人称人类视频,对视觉-语言-动作(VLA)模型进行预训练,再用4小时的灵巧手机器人实操数据进行轻量级中期训练,就让机器人学会了拧瓶盖、叠衬衫、转移液体等操作,成功率88%。它要讲的故事是,每个人的日常工作视频,就是机器人学习物理规律的理想教材。

UMI一度是众包主流,但英伟达EgoScale框架开启了采集效率更高、成本更低的新方向——Ego-Centric,参与者只需要在头上或者胸前佩戴拍摄设备,双手不需要额外设备,甚至连专门的拍摄设备也不需要了,只需要一部手机,以及固定手机的头环或者胸前支架。

“特斯拉50万+车辆在日常行驶中自动采集道路数据,实现零边际成本的数据飞轮。我们当时在想:具身智能有没有类似的"车队"?答案是——人类本身。人类即Agent、手机即传感器。”朱凯对亿邦AI如是说。

由此,具身智能数据采集这项工作,从固定人员、固定场所变成固定人员、不固定场所,再变成不固定人员、不固定场所。以众包形式开展数采,成为更经济的选择。

今年4月,京东云自研了可穿戴式超高清采集终端JoyEgoCam,发动京东本身10万员工,以及外部最多50万各行业人员,在物流、商店、家政等多种场景下“即戴即采”。京东将此称为“人类历史上规模最大的数据采集行动”,目标是用两年时间,采集超过1000万小时的基于真实场景的无本体的视频数据。

图片

京东云JoyEgoCam

蚂蚁数科天玑实验室团队研发了成本更低的方案——第一人称视频采集框架AoE(Always-On Egocentric),通过一台手机和一个低于20美元的颈挂式支架。“这不只是降成本,更关键的是,当采集者从少数专业人员变成千千万万的普通人,数据天然覆盖了最广泛的任务种类、操作习惯和场景分布,从机制上保证了对规模化预训练最有价值的、以任务多样性为核心的多维度多样性。”朱凯说。

AI眼镜更是将“ego+众包”的数采方式发挥到极致。4月,成立仅三周的纵横物理推出数采AI眼镜Across(售价1699元),它不仅和普通AI眼镜一样具备AI对话、AI识图、拍照录像等常规功能,还能用于“采集数据赚金币”,用户录制冲咖啡、做菜、整理家务等视频,上传至云端平台,纵横物理会根据视频的“质量”和“稀缺性”,发布虚拟金币,金币可提现。5月6日他们又推出售价899的AI眼镜,用户采集一小时有效数据大约有十几元收益。

图片

某配线厂工人佩戴Across AI眼镜日常工作,录制的视频通过Across App上传到Across Cloud进行全自动视频处理和四维深度重建,打包形成高质量具身智能数据集

在纵横物理创始人吴楠看来,“你不能为了去做具身智能数据采集,而去专门发明一个数据采集硬件,这样是不可持续的。”而眼镜可以自然地融入生活,因此也能更快速的扩大采集数量。“比如说我们发动全民众包,全球发动10万人,每人每天采两三个小时有效数据,那么一个月就能采100小时,10万人就1000万小时。有了这样一套非常庞大的自己采集真人的数据量之后,我们会去做1:10生成式扩增,这样今年能到1亿小时,明年1:100,后年就1:1000,到后年才能达到1万亿小时。”

数采设备迭代太快了,甚至有些设备还没来得及量产就已经落伍了。

“现在就是一个战国时代,变化非常快,这个月的方案下个月可能就不一样了。”何鸿凌直言。作为有十多年人工智能数据服务经验的企业,数据堂在2025年下半年开始涉足具身智能数据采集业务,3月之前,数据堂的数采厂和场外采集还在使用夹爪,三月到四月,很多正在评估的任务都是直接用手操作。

这也就意味着,数据采集厂商在某一路线某一设备上的大量投入,很有可能在短时间内被替代。设备是否能成为主流,不仅取决于技术,更取决于能否在商业上证明其价值——即用新设备采集的数据训练出的机器人,必须比传统方法“聪明一倍”,才能推动大规模采用。

“我们肯定是需要充分的去调研,慎重的去做决定。说实话,一个就得看眼光,第二个还得看运气。因为这世界确实变化太快了,有的时候运气也是也是实力的一部分。”何鸿凌说。

毛利100%的生意

数据采集端的成本还在持续压缩。

阿信在一个微信群接受了一个简单的数据采集线上培训,便开始在家按要求拍视频。这项工作并没有想象中那么轻松:镜头必须持续稳定拍摄到全部手部动作,被遮挡或动作不完整会扣除帧数(1秒3帧)。采集时长不等于有效时长,无效的原因可能是光线不够、手移出了画面、动作太快,甚至背景里出现了不该出现的东西。数采商还会开发一系列指令脚本,不断提醒采集者调换物品,调换位置,调整光线。

她按照要求倒水浇花,布置场景加拍摄用了十几分钟,但有效时长只有十几秒。这也是所有采集者的共识:每天拍摄时长8小时,有效时长往往不到2小时。“按照符合要求的视频时长计算。比如倒一杯水,几秒钟;洗一个碗,十几秒。十几秒十几秒累计,采集一天,最多能赚100块。”阿信发现。

这是一份门槛低、自由度大的数字零工,也是一份非常消耗耐心,产出不稳定的差事,而且这份工作的酬劳还在快速贬值。

3月初,众包价格(有效时长)为50元/小时,要求每天采集时长不低于8小时。越到近期,众包价格越低,已经低至20元-22元/小时,每天采集时长不低于9小时。

设备层面,早期需要数采员练习使用夹爪,而且要求动作不能太快,但短短两个月夹爪就开始被淘汰,拍摄设备也从只要苹果手机,变成安卓手机全适配。4月底,人力公司的数据采集培训需求里,只需一根淘宝购买的50元左右挂脖支架(人力公司报销),下载采集软件,就可以参与数据采集,没有其他额外硬件需求,也不需要额外放慢速度,只要画面清晰完整即可。

图片

挂脖手机支架

采集成本在降低,需求热度不减,意味着当下数据采集是一个有利可图的生意。

有行业人士估计,付给众包数采员的报酬,加上前期培训、后期审核、标注、算法处理等,数采厂商的总成本大约100元/小时,而对外售价可以达到200元。也就是说,毛利高达100%。

纵横物理更是提出在真人采集的数据基础上用算法生成式扩增,“我们有一套自己的重建算法,能把一个十几块钱的成本,通过重建算法给它优化到能售价400块钱的这样一个价值。 ”吴楠说:“突破一个亿的营收很简单。”

虽然众包成本够低,但是问题也很多。何鸿凌告诉亿邦AI,众包最大的问题在于数据质量难以保证,如动作不流畅、任务理解错误、重复采集同一场景(如反复叠同一件衣服)等问题普遍,导致大量数据无效。而且由于采集标准复杂,前期的培训成本高,培训之后的流失又难以控制。

另一个问题在于人员配合度与隐私冲突,众包采集常涉及拍摄他人或敏感环境(如家庭、商店),易引发隐私争议;而打码会损害数据质量,因为机器人实际运行时无法识别打码内容。

去年9月,数据堂在保定建立了300台机器人、8000平米的真实场景真机数采厂,但何鸿凌认为,场外数据采集、第一人称视角是大势所趋,数据堂的方式是雇佣有经验的采集员,到各地租赁空置房间进行采集。

姚卯青也明确表示:“觅蜂不会大规模搞几万人外包或者众包,还是以加盟方式,觅蜂先做0-1的样板,制定流程规范标准区拿到代工厂做复制。”

有买方和卖方,就有平台的机会,平台的作用是统一数据标准,匹配供需,调节市场价格。就在4月份,连续三家公司推出具身智能数据交易平台。

京东的具身智能数据交易平台,汇聚京东自有的多模态数据资源,首批定向开放2000小时高精标注数据集,打通具身智能数据合规交易通道;觅蜂科技的物理AI数据服务平台,联合上电科、国家数据标委会、工信部赛迪研究院共同发起蜂巢数据共创行动;百度智能云联合零次方、灵生、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等多家头部具身智能企业,推出"具身智能数据超市(Beta版)"。

技术转向:VLA还是世界模型?

从一线数采员角度看,数采的要求在不断放宽。

早期兼职数采员领取专用夹爪和头环后,厂家要求“动作必须精准,角度不能偏,速度不能快”,原因是,这些数据要直接喂给机器人模仿;但4月开始,很多数采任务只要求数采员用手机拍摄,不需要夹爪,后台也不再苛求每一次叠衣的折痕位置,反而更在意数采员是否在不同光线、不同桌面高度、不同衣物材质下反复操作。

同样是叠衣服,为什么以前要求“像机器人一样标准”,现在却鼓励“像人一样随意”?答案藏在算法路线的剧烈转向中。

过去几年,主流的具身大脑模型使用VLA,逻辑是“照葫芦画瓢”——用海量机器人真机遥操作数据或者类似机器人的夹爪,训练模型直接输出动作指令。这种路线下,采集员必须模仿机器人的精度,因为每一个关节角度、每一毫秒的力矩都是训练样本的“标准答案”,而廉价的数据“噪声太大,模型学不会”。

2025年下半年开始,另一条技术路线迅速崛起——世界模型(WAM)。它主张机器人先别急着模仿动作,而是从海量、廉价的人类第一人称视频里学习物理世界的因果规律:重力会让杯子下落,衣物折叠时的褶皱如何产生,不同力度拧瓶盖的结果有何不同。学会了这些“常识”,再只需少量真机数据微调,就能让机器人的能力泛化到从未见过的任务。

世界模型路线对采集数据的要求截然不同:它不需要毫米级精度的关节角,反而需要大量、多样、真实的日常操作场景,哪怕动作不够标准、光线角度各异、环境杂乱无章——因为这些恰恰是物理世界的本来面目。

数采员手中的工具从夹爪降级为手机,从“精准示范”变为“正常记录”,背后正是VLA与WAM两条路线的此消彼长。

当然,真正驱动众包热潮转向的,除了算法路线的更迭,还有另一股不容忽视的力量——资本与竞争的合流。

年初,具身大脑赛道融进了太多热钱,头部公司动辄数十亿估值,钱到账了,成果却还没着落。用新路线讲新故事,成了最紧迫的任务。世界模型恰好提供了这样一个出口:它够前沿、够颠覆,而且天然契合“海量数据+泛化能力”的叙事,能让投资人相信明年会有更大的突破。

同时,全球范围内的数采竞赛也在倒逼行业加速——美国有DoorDash的配送员录视频,印度有服装厂工人戴头环,谁先建立起百万小时级的数据壁垒,谁就掌握了下一轮竞争的主动权。融资节奏与全球竞赛的双重驱动,让众包采集从“可选项”变成了“必选项”。

但是在实际落地中,没有哪家公司死守纯VLA或纯世界模型。英伟达一边高喊“VLA已死”,一边在自己的机器人里跑着VLA;宇树嘴上推崇世界模型,转身就开源了VLA模型。真正的行业玩家比的还是谁能在最短时间内用最低成本跑通数据闭环,谁能让自己的模型在工厂、家庭、商超里稳定干活。路线之争喊得再凶,也不耽误大家在同一个工程泥潭里摸爬滚打。

这是2026年最真实的图景:一场关于物理世界的军备竞赛,万亿资本竞相涌入,千万普通人被卷入其中。而所有人都在等——等具身智能的“ChatGPT时刻”在真实世界中降临的那一天。

亿邦持续追踪报道该情报,如想了解更多与本文相关信息,请扫码关注作者微信。

文章来源:亿邦动力

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0