江南体育技公司,发布了基于全域真实场景的百万真机数据集开源项目AgiBot World。打饭倒水、熨烫衣服、洗刷马桶、搬运重物、商品扫码……这个面向全球具身智能开发者的数据集包含80多种工作技能
为何要将这么多数据开源?智元联合创始人、首席技术官彭志辉(网名为“稚晖君”)说,在具身智能领域,数据的多样性和真实性对算法创新至关重要,而真机数据的采集成本和门槛非常高。作为一家“独角兽”企业,智元凭借技术开放性和行业责任感,希望众多科研团队基于真实数据进行具身智能算法的训练,加速技术创新和产品应用。
AgiBot World数据集源自智元的数据采集工厂,这个面积约2000平方米的工厂位于张江科学城,有上百台人形机器人。工厂里还建有家居、餐饮、商超、办公和工业等5类应用场景,包含3000多件真实物品江南体育。在家居场景中,公司复刻了真实住宅布局,包括客厅、卧室、厨房、卫生间等空间。工业场景则打造了仓库和生产线,包括分拣系统、打包设备、传输带等,可以训练机器人从事分拣、打包、搬运等工作。
在这一高度仿真的环境下,公司员工每天都在训练人形机器人执行各种任务。解放日报·上观新闻记者看到,这些数据采集师手持两个手柄,在重复做各种事情,比如在流水线上抓取某种物品,并放入指定的包装盒;用扫码设备扫描商品的二维码,再把它放入袋子并递给顾客……通过手柄的遥控操作,机器人会跟着他们做同样的动作。在“手把手”训练的同时,所有数据都会上传云端,成为AgiBot World数据集的备选数据。
“我在训练的一项商超场景任务时长1分钟左右,每天采集约150条数据。”一名数据采集师说,“估计要采集上万条数据,机器人才能学会这项任务。”
彭志辉介绍,智元为每台机器人安装了8个环绕式布局的摄像头,让它们能360度实时感知周围环境的变化;配备了6自由度灵巧手,确保动作精准且灵活;灵巧手的末端装有六维力传感器和高精度触觉,让机器人能感知力的微小变化,做到“拿捏有度”;机器人全身有32个主动自由度,可灵活应对多种复杂任务。
为确保数据集的质量,员工采集到的备选数据将经过端侧、云侧的严格筛选。数采系统会自动剔除不符合要求的数据,再由审核员逐帧审核,确保机器人做的每个动作都符合任务标准。最后,这些数据还会接受算法的二次验证。
目前,AgiBot World数据集覆盖100多种真实场景,其中家居场景占40%,餐饮和工业场景各占20%,商超和办公场景各占10%。完成数据采集的机器人任务中,约80%为长程任务,任务时长60—150秒。据介绍,与谷歌开源的Open X-Embodiment数据集相比,AgiBot World长程数据量多10倍,场景覆盖面大100倍。
就像AI大语言模型的开发需要海量语料训练,人形机器人要成为合格的服务员或工人,也需要大数据训练。AgiBot World数据集开源后江南体育,众多科研团队就能用这些数据训练具身智能大模型,让人形机器人掌握各种标准化技能。
从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等复杂动作,数据集涵盖了人类日常生活所需的大多数“原子动作”。由多个“原子动作”组成的长程任务中,有些任务需要精细操作,完成机器人训练和数据采集颇为不易。比如,教会机器人使用洗碗机后,厨房水池里的餐具即使层层堆叠,机器人也能将它们准确无误地放入洗碗机的各个卡槽;在安装电脑内存条的场景中,经过反复训练,机器人实现了毫米级控制,能精准地将内存条插入电脑主机的相应位置。
“我们希望这是一个里程碑式的开源项目,标志着具身智能领域迎来了‘ImageNet时刻’。”彭志辉告诉记者。ImageNet是一个用于视觉对象AI识别研究的大型可视化数据库,由美籍华裔科学家李飞飞等人创立,引发了深度学习技术革命。如今,在方兴未艾的具身智能领域,AgiBot World百万级真机数据集包含数据、操作数据和环境交互数据,有望大幅降低这一领域的研究门槛,推动人形机器人技术创新、跨学科合作和行业应用。
今年,这家上海企业计划举办一系列AgiBot World挑战赛,面向全球吸引科研团队和创新人才参赛。在这一技术共享平台上,利用数据集开发的各种机器人将同场竞技,参赛者还将进行技术交流合作,探讨如何制订这一未来产业的技术标准和规范。
展望人形机器人产业的未来发展,彭志辉认为,未来2—3年,它们将在制造业领域逐步普及,特别是在柔性生产、装配线等场景中发挥不可替代的作用;未来5年内,它们将进入家政领域,凭借一些成熟技能从事较为简单的家务、陪伴和照护工作,成为不少家庭的新成员。