
RoboSafe团队 投稿
量子位 | 公众号 QbitAI
当大模子启动截止机械臂、家用机器东谈主时,“安全”这件事也变得不雷同了。
当年,一个妄语语模子输出了不安全内容,风险主要停留在文本层面;但一个机器东谈主淌若误践诺了风险看成,危急后果将径直发生在物理寰宇:打碎物品、损坏诞生,致使伤害东谈主。

更痛苦的是,危急并不老是写在指示名义,而是与智能体的践诺情境和气象密切联系。
具身智能体的安全风险很难靠一句教唆词“不要作念危急的事”处分,因为机器东谈主濒临的是动态环境、一语气看成和变化的践诺凹凸文,许多安全风险齐是隐式的。
针对这一问题,来自北航、360 AI安全实验室、牛津大学、北京大学等机构的商议团队建议了RoboSafe框架,以补足现存防患才智在隐式风险识别上的不及。该商议荣获ICLR 2026 ESR研讨会卓绝论文奖(Outstanding Paper Award,CCF-A)。

具身智能体的安全问题,不仅仅“断绝坏指示”
商议团队指出,现存具身智能体驻守才智大多依赖两类念念路:一种是在教唆词里加入安全收敛,另一种是提前写好规定过滤危急看成。它们濒临显式危急指示时有一定恶果,举例“打碎杯子”这类显明风险较容易被识别。
简直繁难的是那些隐式风险。
一种是情境风险:吞并个看成在不同环境中安全性全齐不同。比如“开启微波炉”是否危急,取决于微波炉里有什么:淌若仅仅平淡食品,看成是安全的;淌若有金属餐具,那即是危急的。
另一种是时序风险:单个看成看起来齐没问题,但组合起来就会产生危急。比如智能体开放炉灶后连续作念别的事,长工夫没商酌闭,就可能导致炉灶过热并激活气灾。
RoboSafe:让机器东谈主活动前多一起安全护栏
RoboSafe为具身智能体加上了一层运行时安全护栏,其中枢是论文建议的可践诺安全逻辑。
通俗来说,RoboSafe 会把安全判断回荡成可践诺、可考据的逻辑代码。举例:这个看成是否会在现时环境中形成交加?之前是否开放过某个危急的诞生?
淌若检测到风险,RoboSafe就会进行明确的安全搅扰:遏抑践诺,或者条目再行谋划生成更安全的践诺序列。

上前看:识别潜伏在现时环境中的情境危急
RoboSafe的第一个模块叫前向预计推理。它关注的是“行将发生的下一步看成”。比如智能体缠绵践诺指示:“把叉子放进微波炉。”
这一步危急不单来自看成本人,还来自情境凹凸文:看成谋划是什么、在那儿、现时气象怎么。
RoboSafe会连结现时视觉场景、任务指示和智能体气象,从恒久安全驰念中检索联系安全常识,再生成可践诺的情境安全逻辑。淌若情境逻辑判断现时看成会形成风险,系统就遏抑践诺。

这里的舛错不在于“看到微波炉就断绝”,雨燕直播2026世界杯赛事直播入口而在于贯串“叉子+微波炉”这个组合在现时场景下危急。
向后看:从看成序列中挖掘正在集会的时序风险
RoboSafe的第二个模块叫后向反念念推理。它关注的是“当年发生了什么”。
许多物理风险不是遽然出现的,而是在看成序列中迟缓形成的。比如智能体先开放了炉灶,然后去作念别的任务,迟迟没商酌闭。
RoboSafe保养了一个短期安全驰念,用来纪录现时任务中最近发生的看成,并握续反念念是否违犯了时序安全逻辑。
淌若发现必要的安全看成还莫得发生,它不会通俗拒绝任务,而是触发再行谋划,把安全修订看成插入原谋划中。
举例发现炉灶还是开放太久,就临时践诺修订看成“关闭炉灶”,再复返到原任务去。

这让RoboSafe不仅仅一个安全阻碍器,更像一个会反念念践诺轨迹的安全监督员。
实验收尾:识别危急看成,保险安全任务
商议团队在AI2-THOR仿真环境中对多种多模态具身智能体进行实验,并在SafeAgentBench上进行全面评估。
收尾暴露,在情境风险任务中,原始智能体简直不会断绝危急活动。在RoboSafe的驻守下,危急践诺率被压低到4.78%。
在永劫序风险任务中,RoboSafe也权贵优于现时基线才智。实验数据暴露,RoboSafe比较现存驻守才智合座裁汰了36.8%的危急践诺率。
值得在意的是,在安全任务上它仍能保握较高的践诺得手率。这讲解它并非通俗刻毒地阻碍统共看成,而是在辩别正常活动和简直风险。
开云2026世界杯官方授权平台
濒临逃狱膺惩:RoboSafe仍能守住践诺前的终末一起关
论文进一步测试了RoboSafe濒临逃狱膺惩时的防患恶果。这类膺惩和会过凹凸文领导等边幅劝服智能体生成危急看成谋划。
实验收尾暴露,RoboSafe在逃狱膺惩下依然保握较强鲁棒性。即使前端教唆词被扰动,它仍然不错在看成落地前进行安全查验。

不局限于仿真:真机系统考据可落地性
仿真测试外,商议团队还进一步在简直机械臂上考据了RoboSafe的驻守恶果,团队选拔了两个简直寰宇中的危急任务用来测试。
在多轮测试下,RoboSafe齐得手遏抑了危急看成。

这讲解RoboSafe是好像迁徙到简直物理寰宇的实用防患框架。
从“能作念什么”到“不该作念什么”
具身智能体的发展,正在把大模子从屏幕内搬到物理寰宇,其安全风险日益权贵。
这意味着咱们弗成只存眷智能体能否完成任务,也必须存眷它在什么情况下应该停驻来、改谋划,或者断绝践诺。
RoboSafe的意思意思正在于此:它莫得把安全问题简化为“多写几条收敛规定”,而是建议了一种更适用于物理寰宇的运行时安全机制,把安全判断回荡为看成践诺前的一起骨子护栏。
当机器东谈主迟缓走近简直家庭、工场和大家空间,这么的安全机制将会成为具身智能体落地前不可或缺的一环。
论文链接:https://openreview.net/pdf?id=wyKCkQ2GyO
一键三连「点赞」「转发」「防备心」
接待在批驳区留住你的观念!
— 完 —
咱们正在招聘又名眼疾手快、关注AI的学术裁剪实习生 🎓
感意思意思的小伙伴接待关注 👉 了解细目

🌟 点亮星标 🌟
科技前沿推崇逐日见雨燕直播2026世界杯赛事直播入口

备案号: