新华财经上海12月30日电(记者杜康)30日,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,发布了百万真机数据集开源项目AgiBot World,旨在为人形机器人行业构建全球领先的开源技术底座。
2024年12月26日,上海《关于人工智能“模塑申城”的实施方案》印发,其中提到,要构建多层次语料供给体系。智元机器人是上海具身智能语料库建设的主要参与方之一。
近一年来,人形机器人这一新兴产业突破不断,好消息频频。多家企业已经实现小规模量产。大模型作为人形机器人的“大脑”,对于人形机器人拓展应用场景有重要意义。而语料,作为大模型三要素之一,重要性不言而喻。不过,行业人士也坦言,当前人形机器人AI模型、AI训练数据集、AI场景落地部署均存在一些短板。
此次开源项目的发布,较好填补了上述领域的空缺。记者了解到,AgiBot World 诞生于智元自建的大规模数据采集工厂与应用实验基地,空间总面积超过4000平方米,包含3000多种真实物品,真实复刻了家居、餐饮、工业、商超和办公五大核心场景,全面覆盖了机器人在生产、生活中的典型应用需求,为机器人提供了一个高度真实的生产生活环境。
AgiBot World数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
智元相关业务负责人表示,基于这些开源数据,智元也希望进一步构建生态,吸引多方共同完善人形机器人功能。
全球来看,已有人形机器人领域开源数据集发布。如2023年10月份,谷歌 DeepMind 联手斯坦福大学、上海交通大学、英伟达、纽约大学等 21家国际知名机构,整合了60个现有的机器人数据集,创建了开放的、大规模的标准化机器人学习数据集Open X-Embodiment。斯坦福大学、加州大学伯克利分校等13家研究机构前不久也联合发布机器人操作数据集DROID,实现了在大规模真实场景中收集机器人操作数据。
但行业人士表示,上述数据集存在一些短板,如Open X-Embodiment数据集中,许多数据缺乏统一标准化的采集流程,数据质量与格式参差不齐;DROID数据集尽管涵盖了相对丰富的场景与技能,但也存在大量低质量数据等。AgiBot World开源项目有望为行业带来新的高质量数据。