广告
加载中

具身数据采集产业链调查:被机器人采集的人|甲子光年

卫琳聪 2026-06-26 11:28
卫琳聪 2026/06/26 11:28

邦小白快读

EN
全文速览

这篇文章介绍了具身智能火热发展下,催生的全新具身数据采集产业链,大量普通人成为给机器人训练提供数据的数据工人,核心干货如下:

1. 当前行业数据缺口极大,具身智能模型达到初步类人能力需要约一亿小时数据,目前全球有效数据仅几十万小时,缺口达两到三个数量级,催生了大量就业岗位。

2. 数采员的收入与工作状态:这类岗位多为兼职临时工,不要求太多工作经验,日薪普遍在200-300元,加班加夜班可额外增收,资深采集员月收入最高能达到9000多元,但工作内容枯燥,需要重复同一个动作几百上千次,不能有多余动作。

3. 做数采员的基本要求:对身体条件有要求,不能过高过胖,手不能太小太软,要符合设备尺寸要求;工作期间不能抽烟,不能随意摘下设备,采集不合格不会结算工资,部分采集设备价值高昂,损坏需要赔偿。

具身智能是当前人工智能领域的核心风口,巨大的数据缺口催生了全新的产业机会,相关品牌可以结合自身布局卡位新赛道,核心信息如下:

1. 产品研发方向:当前无本体采集路线快速升温,市场对低成本、高稳定性、易佩戴的穿戴式数采硬件需求暴涨,包括高精度数据手套、带深度拍摄功能的头显、各类传感器等,2026年以来相关订单量爆发,客户决策周期明显缩短,提前布局相关硬件就能抢占先机。

2. 产业与消费趋势:下游制造、零售、酒店等多个领域都有强烈的人形机器人替代需求,希望用高精度机器人降低用人成本,而数据是机器人训练的核心原材料,数据采集赛道增长潜力极大。

3. 额外变现机会:拥有线下场景的品牌,可以开放场景和数据商合作采集数据,获取额外收益,还能优先获得适配自身场景的机器人,帮助自身降本提效。

具身数据采集是刚刚兴起的增量赛道,有大量创业机会同时也存在不少潜在风险,核心干货如下:

1. 赛道整体空间大:当前具身智能发展带来了巨大的数据缺口,缺口达到两到三个数量级,2024年国内人形机器人领域就有56起融资,总金额超50亿元,资本和产业都在加码,赛道处于高速增长期,机会多。

2. 可落地的商业模式:可以切入的方向很多,包括研发生产穿戴式数采设备、组织人员采集处理数据后出售给机器人企业、开放自身场景做数据变现,还有劳务中介可以依托原有招工资源,为数据商对接工厂和采集员,赚取服务费差价。

3. 风险提示:当前整个产业链还不成熟,重资产模式的大型数采场投入超过一亿元,大多没有实现盈利;设备和软件技术还不成熟,采集出的数据有效率仅在50%左右;行业还存在隐私保护、劳动纠纷等潜在问题,进入前需要做好风险评估。

具身数据采集产业的兴起,给各类工厂带来了新的商业机会和智能化转型的新路径,核心信息如下:

1. 新的生产订单机会:当前穿戴式数采设备需求爆发,这类硬件对制造供应链要求高,美国企业都到国内寻找代工厂,依托国内完善的制造体系,打样生产速度远快于海外,擅长硬件生产的工厂可以承接数采设备的生产订单,开辟新的业务增长点。

2. 合作转型机会:做自有品牌的工厂可以开放生产线,和数据商合作,让工人佩戴设备一边工作一边采集数据,工厂和工人都能获得补贴;同时未来还能优先获得适配自身生产线的机器人,帮助替代高危、重复性工序,降低用工成本,提升生产效率。

3. 额外收入机会:工厂还可以组织工人在下班后居家采集日常生活动作数据,额外赚取数据采集收益,帮助工厂增加额外收入,同时抓住具身智能风口推进自身的数字化转型。

具身数据采集行业处于发展早期,技术和模式都在快速迭代,给各类服务商带来了大量的切入机会,核心干货如下:

1. 行业发展趋势:数据采集行业已经经历了三次迭代,从最开始机器人企业自建小场景自用采集,到政府国资主导建设大型公共数采场,当前正向无本体采集、真实场景采集方向发展,轻资产的无本体采集是未来的主流方向之一。

2. 行业核心痛点:传统重资产数采场投入成本高,单场投入超过一亿元,大多没有盈利;原有真机遥操模式成本高、产能有限,设备软件不成熟,采集出的数据有效率仅50%左右,完全无法填补巨大的数据缺口,市场需要新的解决方案。

3. 可落地的服务方向:服务商可以切入轻资产无本体采集赛道,对接线下场景和劳务资源,组织人员在真实场景完成采集、处理、交付全链条服务;也可以专注研发生产高性价比的穿戴式数采设备,满足市场对硬件的大量需求,还可以做数据标注、质检等细分环节的服务。

具身数据采集产业的发展,给各类产业平台、零工平台带来了新的业务增量,核心干货如下:

1. 市场需求明确:当前数据采集产业需要大量真实线下场景和成熟的用工招募能力,平台本身手里掌握大量场景和用工资源,正好可以匹配需求,开辟新的业务方向。比如零工平台可以依托原有灵活用工优势,为数据商对接场地和采集人员,赚取服务收益,拓展自身业务边界。

2. 可参考的成熟模式:可以参考觅蜂科技的蜂巢数据共创行动,吸引拥有不同线下场景的合作方开放场景,共同做数据变现;如果是拥有多业态的互联网平台,可以参考京东的模式,发动自身内部员工加外部合作人员,依托自身场景完成大规模数据采集,卡位核心数据资源。

3. 风险规避提示:目前行业还存在数据权属不清、隐私保护不到位、薪资结算不透明引发劳动纠纷等问题,平台开展相关业务需要提前完善规则,明确各方权益,合规经营;另外重资产投入建设数采场目前大多亏损,要谨慎布局重资产项目。

具身数据采集是随着具身智能发展兴起的全新产业链,出现了很多新产业动向和待解决的新问题,对产业研究有很高的价值,核心信息如下:

1. 产业最新动向:目前我国具身数据采集产业链已经初步形成,发展经历了三个阶段:第一阶段是机器人企业自建小场景自用采集,第二阶段是各地政府和国资投入建设大型公共数采场,目前全国已经至少有15座大型数采场,总投入多在一亿元以上;第三阶段是无本体采集路线兴起,依托穿戴设备在真实场景采集数据,产业链分工逐步清晰,出现了设备商、数据商、场景方、劳务中介等多个角色,2024年国内人形机器人融资总金额超50亿元,资本加速入场。

2. 待解决的新问题:整个产业还处于早期,重资产数采场投入大、使用率低、大多不盈利;技术不成熟,数据有效率仅约50%;同时还存在隐私保护缺失、数据权属不清、劳动权益保障不足、中介抽成不透明等诸多问题,无本体采集的有效性也存在行业争议。

3. 政策启示:当前各地政府把数采场作为具身智能的基础设施重点支持,但重资产模式难以填补数据缺口,未来政策可以更多支持轻资产的无本体采集产业发展,同时加快完善数据合规、劳动权益相关的规则制度,保障行业健康发展。

返回默认

声明:快读内容全程由AI生成,请注意甄别信息。如您发现问题,请发送邮件至 run@ebrun.com 。

我是 品牌商 卖家 工厂 服务商 平台商 研究者 帮我再读一遍。

Quick Summary

This article introduces the new embodied data collection industry spawned by the booming development of embodied intelligence, where millions of ordinary people now work as data workers providing training data for robots. Key takeaways are as follows:

1. The industry currently faces an enormous data gap. To reach basic human-like capabilities, embodied intelligence models require around 100 million hours of high-quality data. Currently, global available effective data only amounts to hundreds of thousands of hours, leaving a gap of two to three orders of magnitude, which has generated massive new job opportunities.

2. Income and working conditions for data collectors: Most of these roles are part-time, temporary positions that require little prior work experience. Daily wages generally range from 200 to 300 RMB, with additional income available for overtime and night shifts. Senior collectors can earn up to more than 9,000 RMB per month. However, the work is tedious: workers have to repeat the same movement hundreds to thousands of times, with no extraneous movements allowed.

3. Basic requirements for data collectors: Candidates must meet physical requirements: they cannot be too tall or overweight, and their hands cannot be too small or too soft to fit the collection equipment. Smoking is prohibited during work shifts, and workers cannot remove their equipment at will. Unqualified data collections will not be paid, and workers are required to compensate for any damage to the high-value collection equipment.

Embodied intelligence is the core trend in today’s AI space, and its massive data gap has created entirely new industrial opportunities. Relevant brands can leverage their existing layouts to capture a position in this emerging track. Key information as follows:

1. Product R&D direction: The sensor-free embodied data collection route is rapidly gaining traction. Market demand for low-cost, high-stability, easy-to-wear wearable data collection hardware—including high-precision data gloves, depth-sensing head-mounted displays, and various sensors—has skyrocketed. Related orders have surged since 2026, and client decision cycles have shortened significantly. Early布局 in this hardware space will put brands in a strong position to capture first-mover advantage.

2. Industrial and consumer trends: Multiple downstream sectors including manufacturing, retail, and hospitality have strong demand for humanoid robot replacement, with enterprises hoping that high-precision robots will cut labor costs. Since data is the core raw material for robot training, the data collection track has enormous growth potential.

3. Additional monetization opportunities: Brands with access to offline scenarios can open their spaces to collaborate with data firms for data collection, earning extra revenue while gaining priority access to robots adapted to their specific scenarios, which helps reduce costs and improve efficiency.

Embodied data collection is a newly emerging incremental track that brings abundant entrepreneurial opportunities alongside notable potential risks. Key takeaways are as follows:

1. Large overall track size: The development of embodied intelligence has created a massive data gap of two to three orders of magnitude. In 2024 alone, China’s humanoid robot sector saw 56 financing rounds with a total value exceeding 5 billion RMB. Both capital and industrial players are increasing their bets, putting the track in a period of rapid growth with abundant opportunities.

2. Scalable business models: There are many accessible entry points, including R&D and manufacturing of wearable data collection hardware, organizing workforces to collect and process data for sale to robot companies, monetizing data by opening existing scenarios to data firms, and labor agencies can leverage their existing recruitment networks to connect data firms with factories and collectors to earn service fees.

3. Risk warnings: The entire industrial chain is still immature. Large heavy-asset data collection sites require more than 100 million RMB in investment and most are yet to turn a profit. Hardware and software technologies remain immature, and only around 50% of collected data is effective. The industry also faces potential issues including privacy risks and labor disputes, so thorough risk assessment is necessary before entering the space.

The rise of the embodied data collection industry has brought new business opportunities and a new path to intelligent transformation for all types of factories. Key information as follows:

1. New production order opportunities: Demand for wearable data collection hardware is surging, and this type of hardware has high requirements for manufacturing supply chains. U.S. companies are already turning to Chinese foundries for production. Leveraging China’s complete manufacturing ecosystem, prototyping and production are far faster than overseas. Hardware-savvy factories can take on production orders for data collection equipment to open up new growth points.

2. Collaborative transformation opportunities: Factories with private labels can open their production lines to collaborate with data firms, having workers wear collection equipment to gather data while completing their regular work. Both the factory and workers receive subsidies. In the future, factories will also gain priority access to robots adapted to their specific production lines, which can replace workers in high-risk, repetitive processes, cutting labor costs and improving production efficiency.

3. Additional revenue opportunities: Factories can also organize workers to collect data on daily life movements after work from home, earning extra income from data collection, while capitalizing on the embodied intelligence trend to advance their own digital transformation.

The embodied data collection industry is in its early development stage, with rapid iteration of both technology and business models, creating abundant entry opportunities for all types of service providers. Key takeaways as follows:

1. Industry development trends: The data collection industry has already gone through three iterations: starting with robot companies building their own small-scale in-house collection sites, then moving to large public data collection sites led by government and state-owned capital, and now shifting toward sensor-free collection in real-world scenarios. Asset-light sensor-free collection has emerged as one of the mainstream directions for the future.

2. Core industry pain points: Traditional heavy-asset data collection sites require extremely high upfront investment, with single sites costing more than 100 million RMB, and most are unprofitable. The older remote teleoperation model has high costs, limited production capacity, and immature equipment and software, with only 50% of collected data being effective. It is completely unable to close the massive data gap, so the market is hungry for new solutions.

3. Actionable service entry points: Service providers can enter the asset-light sensor-free collection track, connecting offline scenarios and labor resources to organize end-to-end services from collection, processing to delivery in real-world scenarios. They can also focus on R&D and manufacturing of cost-effective wearable data collection hardware to meet massive market demand for hardware, or specialize in niche links such as data annotation and quality inspection.

The growth of the embodied data collection industry has brought new business incremental for all types of industrial and gig work platforms. Key takeaways as follows:

1. Clear market demand: The data collection industry currently requires large amounts of real offline scenarios and mature recruitment capabilities. Platforms already hold massive scenario and labor resources that perfectly match this demand, allowing them to open up new business lines. For example, gig work platforms can leverage their existing advantages in flexible employment to connect data firms with venues and collectors, earn service revenue, and expand their business boundaries.

2. Established reference models: Platforms can follow the example of Mifeng Technology’s Hive Data Co-creation Initiative, which attracts partners with diverse offline scenarios to open their spaces and jointly monetize data. Multi-format internet platforms can learn from JD.com’s model, mobilizing internal employees plus external partners to complete large-scale data collection leveraging their own existing scenarios and capture core data resources.

3. Risk mitigation guidance: The industry currently faces issues including unclear data ownership, insufficient privacy protection, and labor disputes caused by non-transparent salary settlement. Platforms looking to enter this space need to完善 rules in advance, clarify the rights and interests of all parties, and operate compliantly. In addition, most heavy-asset data collection sites currently operate at a loss, so platforms should approach heavy-asset projects with extreme caution.

Embodied data collection is an entirely new industrial chain that has emerged alongside the growth of embodied intelligence, bringing many new industrial trends and unresolved problems that carry high value for industrial research. Key information as follows:

1. Latest industrial trends: China’s embodied data collection industrial chain has already taken initial shape, and its development can be divided into three stages. In the first stage, robot companies built small in-house self-use collection sites. In the second stage, local governments and state-owned capital invested in building large public data collection sites, with at least 15 large-scale sites already built nationwide, most requiring more than 100 million RMB in investment. In the current third stage, the sensor-free collection route has emerged, which leverages wearable devices to collect data in real-world scenarios. The industrial chain division of labor has gradually cleared, with specialized players including equipment vendors, data firms, scenario owners, and labor brokers. In 2024, total financing for China’s humanoid robot sector exceeded 5 billion RMB, as capital accelerates its entry into the space.

2. Unresolved new problems: The entire industry remains in its early stages. Heavy-asset data collection sites require large investment, suffer from low utilization, and most are unprofitable. Immature technology means only around 50% of collected data is effective. The sector also faces multiple issues including insufficient privacy protection, unclear data ownership, inadequate labor rights protection, and non-transparent broker commission extraction. The effectiveness of sensor-free collection also remains a matter of industry debate.

3. Policy implications: Local governments currently prioritize supporting data collection sites as core infrastructure for embodied intelligence, but the heavy-asset model cannot close the data gap. Going forward, policy should shift to provide more support for the development of asset-light sensor-free collection, while加速完善 rules and systems for data compliance and labor rights protection to support the healthy development of the industry.

Disclaimer: The "Quick Summary" content is entirely generated by AI. Please exercise discretion when interpreting the information. For issues or corrections, please email run@ebrun.com .

I am a Brand Seller Factory Service Provider Marketplace Seller Researcher Read it again.

机器人还没进家门,普通人先成了数据工人。

作者|卫琳聪

编辑|王博

在北京五道口的一栋大楼里,全副武装的张磊(化名)正在慢慢把桌上的几个羽毛球挨个放进旁边的球筒里。

他头上戴着装有两个摄像头的黑色头盔,两个手腕各绑一个小型摄像机,五六根不同接口的数据线缠在腰上,手上戴的手套也布满传感器。

张磊参加的是一场机器人采集数据的试岗培训。这看似是一件很简单的事情,但是他必须用正常速度一半的慢动作,且不能有任何多余动作,最好手也不要出汗。

因为过快或者多余的动作会让他采集的数据作废,手出汗则有可能浸湿手套,影响灵敏度。这双手套要5万元,弄坏了他可赔不起。

大学毕业两年,这是张磊做的第四份数据采集工作。前三份工作里,他主要通过设备操控机器人本体,让机器人做出指定动作,再把数据留下来训练模型。行业里把这种方式叫真机遥操。

第四份工作有些不同。这家公司没有机器人,只有自己研发的可穿戴采集设备。采集员穿戴这些设备完成指定动作,就能采集人类手部、身体和第一视角视频数据,再提供给机器人公司、模型公司做训练。

“就是卖数据的。”张磊替他们总结。

过去两三年,具身智能持续升温。但缺乏数据,成为了具身智能发展的关键瓶颈。

物理AI数据服务平台觅蜂科技董事长兼CEO姚卯青告诉「甲子光年」,具身智能模型要达到像GPT-3.5那样开箱即用的类人初步能力,大概需要一亿小时量级的数据。目前全球有效的具身智能数据仅约几十万小时,中间还有2~3个数量级的差距。

这条巨大的数据缺口,正在催生一条新的产业链。

政府、国资平台、机器人公司、数据公司、采集设备公司、工厂、劳务中介,以及像张磊这样的年轻数采员,开始用资本、设备、场景、组织能力和身体劳动,为机器人搭建一座沉默的数据底座。

在机器人真正服务人类之前,越来越多普通人,先成了机器人的数据工人。

1.做数采的年轻人

张磊今年二十多岁,身高超过一米八,我们在那场放羽毛球的试岗培训上遇到他。当时,我们以普通面试者的身份参加了同一场试岗培训。

培训间隙,张磊会眯着细长的眼睛慢悠悠地跟身边人传授做数采的经验。在几十个参加培训的新人里,他是为数不多的老手。

他从2024年就开始做数据采集,当时他刚从一所“双非”本科院校毕业,读的是文科,毕业第一份工作在售楼处卖房。他想多挣点钱,一位在科技园工作的亲戚告诉他人工智能更有发展前景,于是改行做了数据采集员。

那一年,国内人形机器人创业正热。多家头部企业宣布推出人形机器人。据IT桔子统计,2024年国内人形机器人领域共有56起融资,总金额超过50亿元。

张磊的第一份数据采集工作是在北京一家人形机器人初创企业,公司太小,名字他已经记不得了。

那家公司做双足机器人,当时技术还不够成熟,机器人走两步就容易摔倒。操控这样的机器人采数据,也有风险。张磊特意给自己买了意外险,“就怕机器人抽风砸到我”。

此后,张磊在各个人形机器人公司之间辗转,先后在千寻、松灵都做过数据采集,接触了各种数据采集方式。操纵机械臂的、头上戴VR设备的、脖子上挂摇杆的,都干了一遍。

这些都属于真机遥操,采集的数据精度高,成本也高,是过去两三年机器人数据采集的主要方式。

对张磊来说,这是一份能赚钱的工作。

他对工资算得很细:一天的底薪是200元,加班两小时能多赚80元,再算上交通补贴,能超过300元,如果上夜班还能再多100元。

他热衷于加班和上夜班,最多的时候一个月到手收入9000多元。每份工作的时间都不长,大多是临时工。张磊觉得与其费功夫争取转正,不如去找下一份数采工作。

“就是想赚点快钱。”张磊毫不讳言。

他觉得自己还年轻,正好可以适当“消耗”一下,“现在不变现的话,难道等自己老了?”

张磊说自己小时候家里穷,父母在河南农村种蔬菜大棚,养大他和哥哥两个儿子。哥哥一路读到中科院计算机专业博士,今年即将毕业。张磊没那么擅长读书,但也想靠自己成家立业。

老家的商品房一套要40万元。他想趁年轻多攒点钱,以后和女朋友买房结婚。

他并不太考虑自己为机器人采集数据可能是在教机器人取代自己,他想的是赚几年数采的钱后就找个交五险一金的正式工作稳定下来。尽管这份稳定的工作在哪里现在还不知道。

“反正近些年人工智能发展飞速,用人需求还挺大的,最起码这几年内都不愁。”张磊说。

他更愁的是数据采集本身的枯燥。

采集员需要把同一个动作重复几百遍、几千遍,动作还不能变形。张磊形容这份工作“无聊到头秃”。他愿意干日结和周结,也是在给自己一个心理安慰:每天结算,至少还能感觉到自己正在赚钱。

除了张磊这样的临时工,也有在大型数据采集厂工作的年轻人。

00后李子豪(化名)是一家大型数采场的实习采集员,他即将从人工智能专业毕业。不过,他就读的是河北一所二本师范院校,学校听起来和人工智能没有太大关系。

高考填报志愿时,他原本想报土木工程。毕竟在他成长的二十多年里,中国房地产快速发展,包工头们赚了不少钱。“我觉得挺好的,当个包工头。”李子豪小声嘟囔。

后来,家里花钱帮他找的志愿填报指导老师说,房地产已经不行了,未来是人工智能的时代。于是,他读了人工智能相关专业。

他入学那年是2022年,不久后ChatGPT横空出世,人工智能在学校里突然成了热门方向。仅他所在的一个班级,就有50多人。

但毕业之后,同学们并没有都从事人工智能相关工作。“去哪儿的都有,有的没有工作,现在还在家躺着呢。”李子豪说。

他自己找到了这份数据采集工作,想先试一试。实际工作和他想象中人工智能的光鲜时髦相去甚远。

最近,他正在采集机器人夹三明治的动作数据:握着两个手柄,按规定轨迹把桌上的海绵三明治模型夹到盘子里。操作时要注意两个机械夹爪不能碰到,动作不能偏移出摄像头范围之外。

操作一遍大概需要两三分钟。同样的动作,李子豪要重复700多遍,才能采够客户要求的数量。最近需求多,他和同事们周末也在加班。

机器人产业的未来感,落到这些年轻人身上,常常变成一种重复劳动。

2.大型数采场的科幻与现实

张磊和李子豪,分别站在机器人数据采集的两个阶段。

张磊最开始入行时,数据采集还更多是机器人公司自己的事。创业公司买机器人、搭场景、招临时工,让采集员围着自家机器反复遥操,采回来的数据也主要供自己训练模型。这是一种小规模、自用型、项目制的数据采集。

到了李子豪进入行业时,数采已经开始变成一门更重的基础设施生意。机器人不再只待在创业公司的实验室里,而是被集中搬进几千平方米的训练场;数采员也不再只是外包临时工,而是和校招生、数据管理人员、模型团队一起,成为大型数采场日常运转的一部分。

从张磊到李子豪,机器人数据采集完成了一次扩容:从公司自建的小场地,走向政府、国资和产业园区参与的大型数采场。

2025年以来,各地政府和国资提供资金和土地,支持建设大型数据采集场,把它作为具身智能发展的基础设施。

据《中国经营报》统计,目前全国至少有15座规模较大的具身智能数据采集场。除了北京、上海等一线城市,郑州、无锡、济南、绵阳等二三线城市也在建设,京津冀、长三角、珠三角及西南经济圈均有部署。

这些大型数采场占地面积往往在3000至5000平方米之间,有些甚至达到上万平方米,部署上百台不同品牌和型号的机器人。

这类数采场的发展思路通常是:在足够大的园区面积内,部署多种类机器人、多样化采集场景,以满足不同数据需求。尤其是提供通用数据,并尝试建立具身数据行业标准。

北京人形机器人创新中心(下称“北京人形”)具身智能机器人数据采集与训练基地就是全国场景覆盖最全、机器人构型最丰富、数据产能最大的数采场之一。

「甲子光年」在这里看到,占地近5000平方米的数据基地分成上下两层,搭建了家居、商超、工业等6大类30多个采集场景,部署机器人120多台。

北京人形具身数据负责人夏华林告诉「甲子光年」,目前这里一年的数据产能最高能达到十几万小时,可产出超过千万条任务级数据,主要来自真机采集。

这些数据大多按小时或任务条数出售,一小时售价500到1000元不等,客户主要是头部机器人企业和大模型公司。

除了卖数据,一些客户也会租用北京人形的场地,像租摊位一样租一个场景,把机器人推过来调试,北京人形按标准化流程提供支持。

北京人形成立于2023年,不仅采集数据,也造机器人、训练模型,是挂牌了“国家地方共建具身智能机器人创新中心”的“国家队”。

夏华林说,随着近两年各地都开始建设数据采集场,一些地方政府也会请他们去交流分享,提供建设、运营方面的支持,“政府也想带动就业、培养产业。”

这类数采场确实创造了一批新岗位。「甲子光年」探访北京人形的前一天,刚有40多个校招生来参观,准备毕业后到这里工作。

在大型采集场里,数采员大多毕业于普通本科、大专或职业院校,基本都是00后,不少人是校招生。

90后赵建龙(化名)毕业于一所本科院校的软件工程专业。毕业后,他先去了北京工作,2025年应聘到家乡二线城市的人形机器人训练场,做数据管理相关工作,负责对数采员采集的数据进行管理并向客户交付。

他工作的大楼里摆着一百多台人形机器人。赵建龙形容那是“机器人军团”。刚来工作时,看到那么多机器人,他兴奋喊到:“真牛啊!”

这家国企背景的训练场大约有90多名员工,80%都是数采员。这些数采员比赵建龙更年轻,有人因为喜欢高达,专门来做数采员。

赵建龙觉得在北京工作时房租贵、生活成本高。现在这份工作给了他回家乡圆技术梦的可能。他在小红书开了账号,专门分享采集数据、训练机器人的日常,希望多认识些关注机器人的朋友一起交流。

“以后想在技术上更精进,我也想成为机器人大佬。”赵建龙说。

但也有一部分大型数采场没有想象中那么高效。

一家政府参与建设的大型数采场负责人向「甲子光年」透露,大型数采场投入资金大多在“一个小目标(一亿元)以上”,基本都没有实现盈利。其中部署的机器人、数采设备等都由采集场花钱购买,搭建采集场景等成本也由采集场承担。

一家具身数据公司的高管告诉「甲子光年」,他曾和几家大型数采场有过联系,看到有些在建成后整体使用率偏低。

“这里面很大的原因是这些数采场的本体设备和背后处理数据的软件都不太ready,导致机器用不起来。或者即使采集到数据,也不一定能达到足够的质量标准给算法团队使用。”这名高管说。

前述大型数采场负责人也谈到类似的问题。他坦言,具身数据的整个生产链条都还比较原始。机器人本体、采集设备在使用时经常遇到问题,“要么通信问题,要么网络问题,要么电池问题”。后续的数据质检、标注等处理大量依赖人工操作,“很多都是手搓”。

“整个流程就相当于一个数据漏斗一样,可能你采了100个小时,漏斗筛选下来只有50个小时有效。”这名负责人说。

数采场是机器人数据产业的第一代基础设施。但仅靠这类昂贵、重资产、依赖机器人本体的方式,很难填上具身智能巨大的数据缺口。

具身智能数据采集需要走出数采场。

3.走出数采场

无论是机器人公司自建数采实验室,还是国企背景的大型数采场,此前更多还是采用的是有机器人本体的数据采集方式。

数采一定要依赖机器人本体吗?

2024年前后,学术界开始系统探索UMI、Ego等不依赖机器人本体的数据采集方式;到2025年下半年开始,这一路线开始在产业界明显升温。

Ego指人类第一视角视频。采集员通过头戴式摄像头,记录人眼所见的环境、物体和手部动作;UMI指通用操作接口,常见形态是通过手持夹爪、数据手套等设备,采集人类手部操作轨迹。

这类方式的核心变化是:不再要求每一条数据都由机器人本体采集,而是让人穿戴设备,在真实场景中完成操作,再把这些动作转化为机器人模型可以学习的数据。

机器人数据采集由此从搭建模拟场景的数采场,走向工厂、酒店、药店、家庭、社区等真实世界。

工厂的工人、超市的理货员、居家的宝妈,都可能同时成为戴着摄像头、数据手套的数采员,一边工作,一边为机器人采集数据。

张磊最新的一份数据采集工作——带着手套把羽毛球放到球桶里,就属于无本体采集方式,可以说他见证了数据采集技术路线的变迁。

过去两三年,VLA模型是机器人“大脑”的主要思路。它把视觉、语言和动作结合起来,让机器人看见环境、理解任务、执行指令。但VLA对真机数据依赖较强,需要遥控真机一对一采集每一帧操作数据。

一台机器人价值不菲,用来采集数据也有产能上限。真机遥操的天花板,成了机器人模型训练难以突破的瓶颈。

近期,英伟达首席研究科学家、具身自主研究团队负责人范麟熙(Jim Fan)在红杉AI Ascent 2026大会上提出,用WAM(世界动作模型)取代VLA模型,用UMI和Ego数据取代真机数据。

Jim Fan预测,未来一到两年,遥操占比会越来越低,接下来会出现大量针对不同机器人硬件、不同场景量身定制的数据穿戴设备。最终,机器人的“主食”会变成人类第一视角视频。

这套判断在行业里仍有争议。更符合行业现实的说法是,无本体采集短期内很难完全替代真机遥操,尤其在高精度操作、复杂工业任务中,真机数据仍然不可替代。

但无本体采集至少打开了一种新的可能:在数据缺口极大的情况下,用更低成本、更大规模、更真实的方式堆出一批基础数据,先提升模型对物理世界的泛化能力。

对于嗅觉灵敏的创业者来说,这已经足够。

一批从穿戴式数采设备切入的公司,开始搅动机器人数据产业链。

4.一副手套背后的新生意

2025年,在深圳和东莞创业的90后林成志接到一家美国公司的需求,对方希望他帮忙落地生产一批穿戴式数采设备。

林成志告诉「甲子光年」,这家美国公司的创始人是华人,产品已经设计好,但美国的制造成本太高,于是回到中国寻找合作伙伴。

这正是林成志擅长的事。

此前,他在大疆等消费硬件公司做了7年NPI开发,2024年开始自主创业,主要服务硬件初创公司做产品落地。依托深圳、东莞一带的制造能力,这批数采设备在美国打样需要25天,到他手里只用了5天。

完成客户委托后,林成志看到了机会,开始自己下场做数采设备和数据采集。

为了提高采集精度,他放弃了业内流行的夹爪,改用更贴合人手的数据手套。录制视频的头显设备上也增加了深度图功能,试图让平面视频变成三维图像。

张磊试岗培训的公司,也研发了自己的数采设备。

操着湖南口音的培训负责人介绍说,他们公司的穿戴式设备融合了UMI、Ego等多种技术。除了固定在头上、手腕上的四个摄像头,采集员还要戴两副手套,分别采集手指关节数据和力度数据。

两副手套算下来价值接近10万元。一名采集员在培训结束后试图拽着手指摘下手套,负责人马上在旁边大喊:“不能使劲拽呀!”

这些娇贵的设备还不够成熟。

培训一开始光调试设备就花了大半个小时,中间卡了三四次。硬件还要和映射手部动作的采集软件相连,软件一打开,里面那双3D的手会扭曲成各种诡异的角度,张磊需要一直平举双臂,等搭档一点点对照调整。

“太累了。”终于能放下手臂摘掉设备时,张磊叫苦连连,抱怨设备不够智能。负责人在旁边不屑一顾:“肯定没那么智能,等到那么智能的一天可能机器人已经开始服务人类了。”

行业头部公司和资本也在入场。

智元机器人旗下的觅蜂科技推出MEgo系列无本体数据采集设备,包含操作轨迹还原精度可达1毫米的数据采集夹爪和头部300°全景摄像头、腕部细节捕捉摄像头等。

2026年5月,这套设备首批量产发货。6月,觅蜂科技宣布完成新一轮数亿元天使+轮战略融资。

起步更早的公司则感叹终于等到了自己的风口。

熊鹏航是灏存科技的创始人,他们从2016年就开始做手指关节角度数据采集的研发,目前推出了全身动捕设备、数据手套、高精度传感器等产品。但十年前,机器人连走路都还摇摇晃晃,更谈不上重视手部动作。

刚从法国毕业回国创业时,熊鹏航跟投资人解释未来机器人会需要人类动作数据来训练,大部分人觉得他在讲科幻故事。

十年后,情况发生了变化。

熊鹏航告诉「甲子光年」,2026年一季度公司拿到超千台国内订单和数个海外头部客户的订单。意大利一家机器人团队直接飞到灏存杭州总部,要当场验证他们数据手套的精度是不是真能做到0.001度。

“今年开始,很多客户找我们合作时决策周期明显缩短,有的从第一次接触到签约,只用了一两周的时间。”熊鹏航说。

无本体采集看起来很轻:一副手套,一个头显,一段视频,一个动作。

但它背后是一门硬件生意。设备要足够便宜、足够稳定、足够容易佩戴,还要能把人类动作转化成机器人真正可用的数据。

这件事刚刚开始。

5.如何让更多人接纳新型数采

设备只是第一环。

当新型数据采集走出数采场、走进真实世界,哪些地方能提供采集场景,谁能组织人去采,变得同样重要。

林成志首先想到的是工厂。

他的父辈在东莞做了30多年小商品生产制造,积累了不少工厂资源。林成志组织起40多家工厂,把采集设备发放给工人佩戴,让工人一边工作一边采集数据。

采集重点是手部操作数据。采集完成后,再由林成志的团队进行清洗、标注,卖给人形机器人公司和模型公司。他也根据客户需求设计生产采集设备,提供定制化采集服务。

但让工厂配合,并不容易。

林成志说,不少工厂主最初并不愿意开放生产线。尤其是给品牌做代工的工厂,生产线上的操作有保密要求。并且,工人佩戴设备边工作边采集数据,也会影响工作效率。

对计件工来说,操作慢了会直接影响收入,工人自然会抗拒。

林成志于是去联系做自有品牌的工厂,并给工厂和工人提供补贴。根据场景不同,每小时补贴10元到40元不等。

一些态度开放的工厂开始愿意合作。打动他们的重要原因是,工厂主希望在自家工厂采集的数据,未来能训练出更适合自己生产线的机器人,并优先到自己的工厂“上岗”,帮助降低用人成本、提升效率。

除了在工厂采集,林成志也鼓励工人下班后戴着设备回家,在做家务时采集数据。工人们乐意在下班后赚一份外快,很快招募到30多人居家采集。

觅蜂科技采用的则是加盟方式。

姚卯青介绍,他们发布了“蜂巢数据共创行动”,想吸引有零售、酒店、物流等不同场景的合作方,把这些场景开放出来做数据变现。

比如一个药店或者杂货店的老板,如果愿意合作,就可以把觅蜂的设备放到店里采集数据。

体量更大的互联网巨头,则直接用自己的场景和员工来采数据。

2026年3月,京东宣布将利用旗下丰富的业态场景,发动内部超10万名各类职业员工、外部50万各行业人员,开展“人类历史上规模最大的数据采集行动”。

当采集场景从园区和实验室扩散到工厂、社区和家庭,还有一个角色开始变得重要:劳务中介

林成志介绍,他把工人戴着设备一边拧螺丝一边采数据的视频发到小红书上后,不少劳务中介联系他,表示可以对接工厂资源。

这些中介以前为工厂、企业招工,赚取工时差。比如工厂按25元/小时把招工费结算给中介,中介再按20元/小时发工资给工人,从中赚取5元/小时差价。如今,他们按照同样的逻辑,为林成志这样的数据商招募采集工人。

想进更多工厂采集数据,存在工厂信任问题。劳务中介长期服务制造业,掌握的工厂资源比林成志更丰富,也能帮他拓展更多采集场景。

在张磊参加的试岗培训中,二十多位数采员由三家劳务中介公司招募而来。其中一家开出的薪资是200元/天,三天培训期内如果离职,则不发放工资。

不过公司负责人在培训时透露,即便在培训期内,公司也会向中介支付工资,中介再从中抽成。

Tina(化名)在杭州一家零工平台工作,为全国各地的工厂、酒店等招募工人,满足灵活用工需求。

她告诉「甲子光年」,客户知道他们是杭州公司,似乎觉得杭州遍地都是机器人,最近都来问有没有机器人能帮他们把一些工序替代掉。

“我们真的已经被问了很多次了。”Tina说。

现在制造业内卷厉害,老板们希望降低用人成本。尤其是一些高危操作,人工风险也比较高。但传统机械臂精度不够,不少老板希望有精度更高的人形机器人,能进行像人手一样的灵巧操作。

Tina暂时没有给老板们找到这样的机器人,却发现为机器人采集数据是个大市场。

她看到「甲子光年」对话姚卯青的文章后,就和公司商量,准备了近千字的自荐材料,希望争取与觅蜂科技合作,介入数据采集中最繁琐的找场地、招人工等环节。

数据采集开始从一个技术问题,变成一个组织问题。

谁能找到真实场景,谁能招到合适的人,谁能把数据采集、质检、标注和交付串起来,谁就可能在这条新产业链里占到位置。

6.被机器人采集的人

在这场从数采场向更广泛的真实世界蔓延的数据采集运动中,似乎人人都可能成为数采员。

如果你现在去小红书或者求职app上搜索“数据采集”,会找到不少数采员的招聘需求。大多是兼职或薪资周结的临时工,不要求工作经验。有些会寄设备给你,可以戴着设备居家采集。

但想要符合要求,完成任务并拿到钱并不容易。

一位招聘人员给「甲子光年」发来的需求显示:“招募居家/工作场景拍摄。日常整理、清洁、收纳、维修等。设备由我们提供,每日结算。”

对方表示,每日人均收入100元轻松可达,多做多得。但要求每周拍摄20小时以上,要填写家庭住房面积、WiFi条件等信息。

小红书上一位宿迁居民发帖称,在招聘平台上看到类似需求,一个月薪资将近7000元。她被钱打动,又担心被骗,于是发帖问“谁做过这个”。

评论区不少人围观,有人说“最近好多招聘这个”,也有人提醒“很难做,不合格不结费”。

我们曾以普通面试者的身份报名参加一场数采员招聘,在中介组织的近500人招聘群里,形形色色的人都有。

大部分是二十多岁还在读书或刚毕业的年轻人,多数来自大专或职业院校。也有即将读研究生的本科毕业生,读研方向与机器人相关,想趁开学前的空闲时间来体验数据采集。

一起面试的,还有三十多岁的已婚女性。她表示自己两年没有工作了,希望能做夜班数采员。

面试官询问她是否有小孩,并提醒熬夜比较辛苦。对方马上回应:“不要小孩,不要小孩。”她说自己在家作息也是昼夜颠倒,很习惯熬夜。

面试要求并不高,但面试官会注意身体细节。

一位看起来胖乎乎的男生被详细询问了身高、体重,女生们则被提醒手不能太小、太软。

在面试后的试岗培训中,负责人解释,因为公司的无本体采集设备有标准尺寸,太高、太胖可能不适合佩戴,镜头有可能超出采集范围。手太软、太小则可能支撑不起数据手套,那些硬邦邦的手套只有M和L两个尺码。

一位女负责人挨个拉着女生们的手检查了一遍,一位手小的女生当即退出了培训,感叹“以前觉得手小还挺好看”。

佩戴设备后,还有各种要求。

不能抽烟,因为设备要重复使用,抽烟可能让设备沾染烟味,影响下一个人穿戴。一旦戴上设备,也不能随意取下,要保证采集的连贯性。采集时还要小心摄像头不要照到人脸,以免产生隐私风险。

整场培训从上午9点持续到下午6点。负责人点了两次名,每次都有人中途退出。

经历三天培训后,留下的人将穿戴采集设备,到北京市区提前联系好的各个民宿中叠被褥、收拾桌子、打扫垃圾,采集动作数据。

“我们现在已经有五六十个人在外边采了。”负责人说。

这些数据经过标注等处理后,会被卖给机器人公司或模型公司训练机器人。数采员则赚取两三百元的日薪。

在培训最后,负责人告诉台下的数采员:“你们采集的每一帧数据,都是机器人认知世界的基石。”

这句话听起来很宏大。

但对张磊来说,那首先是一份日薪两三百元的工作;对李子豪来说,是人工智能专业毕业后进入行业的第一张门票;对工厂工人来说,是下班后赚取补贴的一份外快;对劳务中介来说,是一门刚冒出来的新生意;对机器人公司来说,则是一条通向真实世界的“窄路”。

当数据采集走向全民化,规模问题看似有了解法,新的问题也随之出现。

居家采集的视频里,隐私如何保护?工厂生产线上的动作数据,权属归谁?采集员动作不合格,谁来判断,谁来承担成本?中介抽成是否透明?不合格不结费,会不会引发新的劳动纠纷?这些通过手套、头显和摄像头采回来的数据,到底能多大程度转化成机器人真实能力?

这些问题暂时还没有标准答案。

但可以确定的是,在机器人真正走进家庭、工厂和街道之前,它们还需要大量人类先替自己看世界、摸物体、拧螺丝、叠被子、夹三明治、清理桌面。

站在浪潮顶端的人,高谈阔论世界模型、具身智能和通用机器人。

而处在浪潮底部的人,戴上手套和摄像头,一遍遍重复动作,把自己的时间、身体和生活场景,变成机器人学习世界的原材料。

他们是做数据采集的人,也是被机器人采集的人。

*应受访者要求,文中张磊、李子豪、赵建龙、Tina为化名

END.

注:文/卫琳聪,文章来源:甲子光年(公众号ID:jazzyear),本文为作者独立观点,不代表亿邦动力立场。

文章来源:甲子光年

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0