“眼里有活”的斯坦福机器人来一个?数十种家务全包 成本仅约3万美元

发布日期:2024-01-05浏览次数:

《科创板日报》1 月 5 日讯(编辑 宋子乔) 大秀了一把厨艺后,斯坦福华人团队开发的机器人又在北京时间今日凌晨发布了新视频《Mobile ALOHA 的一天》,展示了浇花、打扫房间、煮咖啡、给主人刮胡子、洗碗、逗猫、扔垃圾、洗衣服、换被套、收纳衣物等数十种家务技能,堪称 " 全能家政员 "。

网友热评," 最难得的是眼里有活。"

长期以来,人们深受 " 莫拉维克悖论 "(Moravec's paradox)的困扰,这是一种和人们直觉相悖的现象,即 " 人类觉得容易的任务对人工智能来说却极其困难,反之亦然 "。

换言之,一个会做家务的机器人,非常难得。

但别高兴得太早,Mobile ALOHA 虽然 " 眼里有活 " 了,但它的动作依然由人操控(见下图),并非完全智能的自主操作。

团队负责人之一对此表示,人类操控是暂时的,他们已经在研究如何弥合人为控制和机器人自控之间的差距。团队的另一位负责人 Tony Z. Zhao 乐观表示,"2024 年将是机器人年,这(家政机器人)仅仅是开始!"

Mobile ALOHA 更大的意义在于,其运动控制能力比成本高出 5-10 倍的同类系统更强大,展示了通用机器人的可行性,一个便宜、好用的家用机器人或许很快将会到来。

ALOHA 即 A Low-cost Open-source Hardware System for Bimanual Teleoperation,是一个低成本的开源双手遥控操作硬件系统,即开源机械臂。其算法 Action Chunking with Transformers (ACT)采用了神经网络模型 Transformers,因此具备模仿学习能力。只需要 15 分钟的演示,机械臂就可以学会一个动作——直接从真实演示中执行端到端模仿学习,并通过自定义远程操作界面收集。

据上述华人团队介绍,仅用 50 个演示,就能让 Mobile ALOHA 完成各种复杂任务,其成本仅为 32000 美元(约 22 万元),软件和硬件全部开源。

该团队在论文中详细介绍了 Mobile ALOHA 的硬件配置——最贵的是机械臂和移动底座,其中移动底座选择了同类产品中相对便宜的一款;传感器方面配备了 2 个腕部摄像头和 1 个顶部摄像头;配有机载电源和计算,即 1.26 千瓦时重 14 公斤的电池,在数据收集和推理过程中的所有计算都在一台消费级笔记本电脑上进行,该笔记本电脑配有英伟达 3070ti GPU (8gb VRAM)和英特尔 i7-12800H。

物料单中高价值量的部件

英伟达 " 网红研究员 "、OpenAI 第一个实习生 Jim Fan 此前乐观预测,2024 年将成为人工智能界全面崛起反击莫拉维克悖论的元年," 我们不会立即获胜,但我们将走上获胜之路 "。

这并非一时 " 口嗨 ",如今产业面的各种进展层出不穷,Jim 列举了 2023 年关于未来机器人的基础模型和平台的发展:

1、以机械臂作为物理输入 / 输出设备的多模态大模型:VIMA、PerAct、RvT(英伟达)、RT-1、RT-2、PaLM-E(谷歌)、RoboCat(DeepMind)、Octo(伯克利、斯坦福、CMU)等;

2、弥合 System 1(负责低级控制)和 System 2(负责高级推理)之间差距的算法(使得系统能够利用高级推理进行决策和理解,并将这些决策转化为实际的操作和控制):Eureka(英伟达)、Code as Policies(谷歌)等;

3、在强大硬件方面取得的惊人进展:特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree 等;

4、数据一直是机器人技术的致命弱点,研究界正在共同策划下一个 ImageNet(人工智能深度学习取得突破的关键项目),如开放 Open X-Embodiment ( RT-X ) 数据集。虽然数据集还不够多样化,但迈出了重要的一步;

5、模拟和合成数据将在解决机器人灵巧性乃至整个计算机视觉问题上发挥关键作用;

基础正一步步被夯实,站在 2024 年的年头,我们有理由期待更强大的机器人惊艳亮相。

(科创板日报 宋子乔)


来源: 科创板日报


声明:凡资讯来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与科姆特集团(www.shkmt.com.cn)联系,本网站将迅速给您回应并做处理。

电话:021-63900088