Figure AI公布重大成果
2月21日,Figure AI公司发布了一款名为VLA的端到端人形机器人通用大模型Helix。这一消息迅速在AI机器人领域引起了广泛关注。专家们表示,若机器人的性能未能显著提高,其进军家庭市场的机会可能会受到限制。Helix模型具备的类似人类的推理功能,为行业进步带来了新的生机。
目前,家庭环境中的机器人应用遭遇诸多挑战。然而,Helix模型的最新推出,有望扭转这一状况。该模型赋予装备了图形机器人的能力,使其能够根据自然语言指令,轻易识别并捕获各类小型家居物品。即便面对未曾接触过的物品,也能灵活应对。
家庭应用难题待解
为确保家庭环境中的高效应用,机器人必须具备自主生成新型智能行为的能力,特别是对未接触过的物体进行操作。但现状并不乐观。目前,教授机器人新技能通常需投入大量人力,可能是博士级别专家耗时数小时的手动编程,也可能是数千次的操作示范。
机器人家庭技术的普及进程受到诸多挑战,特别是成本高昂和效率低下的问题尤为突出。面对这一状况,急切地需要研发一种技术,该技术能使机器人迅速掌握并执行新的任务。恰在此时,Helix模型的出现似乎为解决这一难题提供了新的方向。
Helix变革发展轨迹
直接将视觉语言模型所蕴含的深层语义信息应用于机器人动作,有望彻底改变机器人技术发展的轨迹。Figure AI指出,关键在于如何从VLM中挖掘出常识性知识,并将其有效转化为适用于机器人操控的普遍策略。
以往的研究手段在根本层面需进行权衡考量,尽管VLM架构具备广泛适用性,其速度却不够理想;而机器人视觉运动策略虽然速度较快,但通用性不足。Helix模型针对这一难题实现了创新性突破,有望打破技术瓶颈,促进机器人更快地应用于家庭环境。
系统1的关键作用
Helix采用了系统1(S1),该系统在快速视觉运动策略中扮演关键角色。系统1能够将系统2(S2)生成的潜在语义表征,精确地转换为连续的机器人动作。系统1基于一个包含8000万个参数的交叉注意力Transformer架构。它运用全卷积和多尺度的视觉骨干网络,以执行视觉处理任务。
该网络在全模拟环境中经过预先训练构建,Figure AI收集了包含高质量、多机器人及多操作员行为的多样化遥操作数据集,累计时长约为500小时。这些努力使得S1表现出色。
S1性能表现优越
S1方案在速度上与专为单一任务设计的行为克隆策略相仿。同时,该方案能够对数千个全新的测试对象实现零样本泛化。此外,它可以直接输出高维动作空间的连续控制。因此,运用Helix模型的机器人将展现出更高的灵活性和效率,以应对各种任务。
家庭环境中机器人复杂操作的实现,显著提升了它们处理未知环境和物体的能力。这一成就预计将显著推动家庭机器人市场的扩张。
优必选的新技术进展
2月20日,被称为“人形机器人领域先驱”的优必选公司宣布,其最新推出的开源推理大模型DeepSeek - R1已成功在相关场景中完成人形机器人应用验证。根据测试数据,DeepSeek - R1的多模态能力显著提升,使机器人能更好地结合特定场景与指令进行思考和验证。此外,该模型的零样本推理能力与经过调优的同级别大模型相当。
优必选正致力于运用该技术,构建适用于人形机器人的多模态具身推理模型。经过在现实环境中的数据优化,该模型性能有望实现显著提升。此举反映了业界企业在智能机器人研发领域的深入研究。
请问您预测,在不久的将来,哪类家庭环境中机器人的应用将呈现最快增长?敬请于评论区分享您的观点,并对本篇文章给予点赞与分享。