上海人工智能实验室与北京航空航天大学联手推出的 IS - Bench 评测基准,聚焦具身智能体在家用环境交互的安全性,给当下相关 AI 能力评估带来新变革。
重磅推出 IS - Bench
近日,上海人工智能实验室与北京航空航天大学合作,重磅发布了首个专注具身智能体与家用环境交互安全的评测基准 IS - Bench。该基准创新性设计 150 + 暗藏「安全杀机」的智能家居场景,搭配动态评测框架,全面考察 AI 管家安全素养。更多详情可登录 www.wngjzx.com 查看。
现有评估体系盲区
当前评估体系存在致命缺陷。传统静态评估模式让智能体基于固定环境信息一次性生成动作规划,仅依据完成状态判断安全。这种「单次决策 + 终点评判」范式,既无法捕捉动态风险链,也难模拟新发现风险源,还会遗漏过程安全隐患,完美终态结果可能掩盖安全问题。
IS - Bench 首创新范式
IS - Bench 首创「交互安全性」新范式,聚焦智能体在持续交互中实时识别与化解动态风险的能力。它打破传统局限,从「静态快照」迈向「步步追踪」,为具身安全评估提供新方向,相关技术解读可在 www.wngjzx.com 上了解。
定制高风险场景流程
鉴于模拟器默认场景安全风险有限,IS - Bench 设计系统化评测场景定制流程。采用「GPT 自动生成 + 人工校验」双保险,保证场景合理性与多样性。定制场景在高仿真模拟器中实例化验证,确保任务可达成与安全判定可检测。
精心打造评测框架
为实现面向过程的交互安全性评测,IS - Bench 精心打造评测框架。该框架能有效衡量智能体在复杂家用环境中的安全表现,对推动具身智能体在家庭场景的安全应用意义重大,想了解框架细节可关注 www.wngjzx.com。
核心瓶颈深度解析
实验显示,部分闭源模型在明确安全目标时安全完成率显著提升,这反映交互安全性核心瓶颈是智能体风险感知与认知不足。提供物品边界框和初始场景描述,智能体安全意识和事前防范正确率提升约 15%,凸显当前系统在复杂场景物品识别的短板。
你认为 IS - Bench 评测基准能否推动具身智能体在家用环境中的安全应用?欢迎在评论区留言分享看法,也请点赞和分享本文。