从Meta到Google，家务助手开了挂？上海AI Lab和北航有话说

上海人工智能实验室与北京航空航天大学联手推出的 IS - Bench 评测基准，聚焦具身智能体在家用环境交互的安全性，给当下相关 AI 能力评估带来新变革。

重磅推出 IS - Bench

近日，上海人工智能实验室与北京航空航天大学合作，重磅发布了首个专注具身智能体与家用环境交互安全的评测基准 IS - Bench。该基准创新性设计 150 + 暗藏「安全杀机」的智能家居场景，搭配动态评测框架，全面考察 AI 管家安全素养。更多详情可登录 www.wngjzx.com 查看。

现有评估体系盲区

当前评估体系存在致命缺陷。传统静态评估模式让智能体基于固定环境信息一次性生成动作规划，仅依据完成状态判断安全。这种「单次决策 + 终点评判」范式，既无法捕捉动态风险链，也难模拟新发现风险源，还会遗漏过程安全隐患，完美终态结果可能掩盖安全问题。

IS - Bench 首创新范式

IS - Bench 首创「交互安全性」新范式，聚焦智能体在持续交互中实时识别与化解动态风险的能力。它打破传统局限，从「静态快照」迈向「步步追踪」，为具身安全评估提供新方向，相关技术解读可在 www.wngjzx.com 上了解。

定制高风险场景流程

鉴于模拟器默认场景安全风险有限，IS - Bench 设计系统化评测场景定制流程。采用「GPT 自动生成 + 人工校验」双保险，保证场景合理性与多样性。定制场景在高仿真模拟器中实例化验证，确保任务可达成与安全判定可检测。

精心打造评测框架

为实现面向过程的交互安全性评测，IS - Bench 精心打造评测框架。该框架能有效衡量智能体在复杂家用环境中的安全表现，对推动具身智能体在家庭场景的安全应用意义重大，想了解框架细节可关注 www.wngjzx.com。

核心瓶颈深度解析

实验显示，部分闭源模型在明确安全目标时安全完成率显著提升，这反映交互安全性核心瓶颈是智能体风险感知与认知不足。提供物品边界框和初始场景描述，智能体安全意识和事前防范正确率提升约 15%，凸显当前系统在复杂场景物品识别的短板。

你认为 IS - Bench 评测基准能否推动具身智能体在家用环境中的安全应用？欢迎在评论区留言分享看法，也请点赞和分享本文。

大型语言模型功臣过程级奖励模型，真的可靠吗？会过时吗？